x86,cosmetics: prefer _mm_setzero_si128/_mm256_setzero_si256

author James Zern <jzern@google.com>

Fri, 2 Sep 2022 23:17:52 +0000 (16:17 -0700)

committer James Zern <jzern@google.com>

Fri, 2 Sep 2022 23:17:52 +0000 (16:17 -0700)
author James Zern <jzern@google.com>
Fri, 2 Sep 2022 23:17:52 +0000 (16:17 -0700)
committer James Zern <jzern@google.com>
Fri, 2 Sep 2022 23:17:52 +0000 (16:17 -0700)
diff --git a/vp9/encoder/x86/vp9_dct_intrin_sse2.c b/vp9/encoder/x86/vp9_dct_intrin_sse2.c

index 2188903..e994344 100644 (file)
--- a/vp9/encoder/x86/vp9_dct_intrin_sse2.c
+++ b/vp9/encoder/x86/vp9_dct_intrin_sse2.c
@@ -111,7 +111,7 @@ static void fadst4_sse2(__m128i *in) {
    const __m128i k__sinpi_p03_p04 = pair_set_epi16(sinpi_3_9, sinpi_4_9);
    const __m128i k__sinpi_m03_p02 = pair_set_epi16(-sinpi_3_9, sinpi_2_9);
    const __m128i k__sinpi_p03_p03 = _mm_set1_epi16((int16_t)sinpi_3_9);
-  const __m128i kZero = _mm_set1_epi16(0);
+  const __m128i kZero = _mm_setzero_si128();
    const __m128i k__DCT_CONST_ROUNDING = _mm_set1_epi32(DCT_CONST_ROUNDING);
    __m128i u[8], v[8];
    __m128i in7 = _mm_add_epi16(in[0], in[1]);
@@ -424,7 +424,7 @@ static void fadst8_sse2(__m128i *in) {
    const __m128i k__cospi_m24_p08 = pair_set_epi16(-cospi_24_64, cospi_8_64);
    const __m128i k__cospi_p16_m16 = pair_set_epi16(cospi_16_64, -cospi_16_64);
    const __m128i k__cospi_p16_p16 = _mm_set1_epi16(cospi_16_64);
-  const __m128i k__const_0 = _mm_set1_epi16(0);
+  const __m128i k__const_0 = _mm_setzero_si128();
    const __m128i k__DCT_CONST_ROUNDING = _mm_set1_epi32(DCT_CONST_ROUNDING);
  
    __m128i u0, u1, u2, u3, u4, u5, u6, u7, u8, u9, u10, u11, u12, u13, u14, u15;
@@ -1056,7 +1056,7 @@ static void fadst16_8col(__m128i *in) {
    const __m128i k__cospi_p16_m16 = pair_set_epi16(cospi_16_64, -cospi_16_64);
    const __m128i k__cospi_m16_p16 = pair_set_epi16(-cospi_16_64, cospi_16_64);
    const __m128i k__DCT_CONST_ROUNDING = _mm_set1_epi32(DCT_CONST_ROUNDING);
-  const __m128i kZero = _mm_set1_epi16(0);
+  const __m128i kZero = _mm_setzero_si128();
  
    u[0] = _mm_unpacklo_epi16(in[15], in[0]);
    u[1] = _mm_unpackhi_epi16(in[15], in[0]);
diff --git a/vpx_dsp/x86/fwd_dct32x32_impl_avx2.h b/vpx_dsp/x86/fwd_dct32x32_impl_avx2.h

index 3f158b5..f3a8020 100644 (file)
--- a/vpx_dsp/x86/fwd_dct32x32_impl_avx2.h
+++ b/vpx_dsp/x86/fwd_dct32x32_impl_avx2.h
@@ -89,7 +89,7 @@ void FDCT32x32_2D_AVX2(const int16_t *input, int16_t *output_org, int stride) {
    const __m256i k__cospi_m21_p11 = pair256_set_epi16(-cospi_21_64, cospi_11_64);
    const __m256i k__cospi_m05_p27 = pair256_set_epi16(-cospi_5_64, cospi_27_64);
    const __m256i k__DCT_CONST_ROUNDING = _mm256_set1_epi32(DCT_CONST_ROUNDING);
-  const __m256i kZero = _mm256_set1_epi16(0);
+  const __m256i kZero = _mm256_setzero_si256();
    const __m256i kOne = _mm256_set1_epi16(1);
    // Do the two transform/transpose passes
    int pass;
diff --git a/vpx_dsp/x86/fwd_dct32x32_impl_sse2.h b/vpx_dsp/x86/fwd_dct32x32_impl_sse2.h

index ac1246f..bf350b6 100644 (file)
--- a/vpx_dsp/x86/fwd_dct32x32_impl_sse2.h
+++ b/vpx_dsp/x86/fwd_dct32x32_impl_sse2.h
@@ -100,7 +100,7 @@ void FDCT32x32_2D(const int16_t *input, tran_low_t *output_org, int stride) {
    const __m128i k__cospi_m21_p11 = pair_set_epi16(-cospi_21_64, cospi_11_64);
    const __m128i k__cospi_m05_p27 = pair_set_epi16(-cospi_5_64, cospi_27_64);
    const __m128i k__DCT_CONST_ROUNDING = _mm_set1_epi32(DCT_CONST_ROUNDING);
-  const __m128i kZero = _mm_set1_epi16(0);
+  const __m128i kZero = _mm_setzero_si128();
    const __m128i kOne = _mm_set1_epi16(1);
  
    // Do the two transform/transpose passes
diff --git a/vpx_dsp/x86/highbd_inv_txfm_sse2.h b/vpx_dsp/x86/highbd_inv_txfm_sse2.h

index 78cf911..1d07391 100644 (file)
--- a/vpx_dsp/x86/highbd_inv_txfm_sse2.h
+++ b/vpx_dsp/x86/highbd_inv_txfm_sse2.h
@@ -249,7 +249,7 @@ static INLINE void highbd_idct16_4col_stage7(const __m128i *const in,
  
  static INLINE __m128i add_clamp(const __m128i in0, const __m128i in1,
                                  const int bd) {
-  const __m128i zero = _mm_set1_epi16(0);
+  const __m128i zero = _mm_setzero_si128();
    // Faster than _mm_set1_epi16((1 << bd) - 1).
    const __m128i one = _mm_set1_epi16(1);
    const __m128i max = _mm_sub_epi16(_mm_slli_epi16(one, bd), one);
diff --git a/vpx_dsp/x86/highbd_loopfilter_sse2.c b/vpx_dsp/x86/highbd_loopfilter_sse2.c

index d265fc1..9f45623 100644 (file)
--- a/vpx_dsp/x86/highbd_loopfilter_sse2.c
+++ b/vpx_dsp/x86/highbd_loopfilter_sse2.c
@@ -18,7 +18,7 @@ static INLINE __m128i signed_char_clamp_bd_sse2(__m128i value, int bd) {
    __m128i lbounded;
    __m128i retval;
  
-  const __m128i zero = _mm_set1_epi16(0);
+  const __m128i zero = _mm_setzero_si128();
    const __m128i one = _mm_set1_epi16(1);
    __m128i t80, max, min;
  
@@ -51,7 +51,7 @@ void vpx_highbd_lpf_horizontal_16_sse2(uint16_t *s, int pitch,
                                         const uint8_t *blimit,
                                         const uint8_t *limit,
                                         const uint8_t *thresh, int bd) {
-  const __m128i zero = _mm_set1_epi16(0);
+  const __m128i zero = _mm_setzero_si128();
    const __m128i one = _mm_set1_epi16(1);
    __m128i blimit_v, limit_v, thresh_v;
    __m128i q7, p7, q6, p6, q5, p5, q4, p4, q3, p3, q2, p2, q1, p1, q0, p0;
@@ -492,7 +492,7 @@ void vpx_highbd_lpf_horizontal_8_sse2(uint16_t *s, int pitch,
    DECLARE_ALIGNED(16, uint16_t, flat_oq2[16]);
    DECLARE_ALIGNED(16, uint16_t, flat_oq1[16]);
    DECLARE_ALIGNED(16, uint16_t, flat_oq0[16]);
-  const __m128i zero = _mm_set1_epi16(0);
+  const __m128i zero = _mm_setzero_si128();
    __m128i blimit_v, limit_v, thresh_v;
    __m128i mask, hev, flat;
    __m128i p3 = _mm_load_si128((__m128i *)(s - 4 * pitch));
@@ -720,7 +720,7 @@ void vpx_highbd_lpf_horizontal_4_sse2(uint16_t *s, int pitch,
                                        const uint8_t *blimit,
                                        const uint8_t *limit,
                                        const uint8_t *thresh, int bd) {
-  const __m128i zero = _mm_set1_epi16(0);
+  const __m128i zero = _mm_setzero_si128();
    __m128i blimit_v, limit_v, thresh_v;
    __m128i mask, hev, flat;
    __m128i p3 = _mm_loadu_si128((__m128i *)(s - 4 * pitch));
diff --git a/vpx_dsp/x86/inv_txfm_sse2.c b/vpx_dsp/x86/inv_txfm_sse2.c

index 4b02da9..f42b3df 100644 (file)
--- a/vpx_dsp/x86/inv_txfm_sse2.c
+++ b/vpx_dsp/x86/inv_txfm_sse2.c
@@ -243,7 +243,7 @@ void iadst8_sse2(__m128i *const in) {
    const __m128i k__cospi_m24_p08 = pair_set_epi16(-cospi_24_64, cospi_8_64);
    const __m128i k__cospi_p16_m16 = pair_set_epi16(cospi_16_64, -cospi_16_64);
    const __m128i k__cospi_p16_p16 = _mm_set1_epi16(cospi_16_64);
-  const __m128i kZero = _mm_set1_epi16(0);
+  const __m128i kZero = _mm_setzero_si128();
    __m128i s[8], u[16], v[8], w[16];
  
    // transpose
@@ -546,7 +546,7 @@ void vpx_iadst16_8col_sse2(__m128i *const in) {
    const __m128i k__cospi_p16_p16 = _mm_set1_epi16(cospi_16_64);
    const __m128i k__cospi_p16_m16 = pair_set_epi16(cospi_16_64, -cospi_16_64);
    const __m128i k__cospi_m16_p16 = pair_set_epi16(-cospi_16_64, cospi_16_64);
-  const __m128i kZero = _mm_set1_epi16(0);
+  const __m128i kZero = _mm_setzero_si128();
  
    u[0] = _mm_unpacklo_epi16(in[15], in[0]);
    u[1] = _mm_unpackhi_epi16(in[15], in[0]);
diff --git a/vpx_dsp/x86/loopfilter_avx2.c b/vpx_dsp/x86/loopfilter_avx2.c

index be39199..a58fb65 100644 (file)
--- a/vpx_dsp/x86/loopfilter_avx2.c
+++ b/vpx_dsp/x86/loopfilter_avx2.c
@@ -18,7 +18,7 @@ void vpx_lpf_horizontal_16_avx2(unsigned char *s, int pitch,
                                  const unsigned char *limit,
                                  const unsigned char *thresh) {
    __m128i mask, hev, flat, flat2;
-  const __m128i zero = _mm_set1_epi16(0);
+  const __m128i zero = _mm_setzero_si128();
    const __m128i one = _mm_set1_epi8(1);
    __m128i q7p7, q6p6, q5p5, q4p4, q3p3, q2p2, q1p1, q0p0, p0q0, p1q1;
    __m128i abs_p1p0;
@@ -372,7 +372,7 @@ void vpx_lpf_horizontal_16_dual_avx2(unsigned char *s, int pitch,
                                       const unsigned char *limit,
                                       const unsigned char *thresh) {
    __m128i mask, hev, flat, flat2;
-  const __m128i zero = _mm_set1_epi16(0);
+  const __m128i zero = _mm_setzero_si128();
    const __m128i one = _mm_set1_epi8(1);
    __m128i p7, p6, p5;
    __m128i p4, p3, p2, p1, p0, q0, q1, q2, q3, q4;
diff --git a/vpx_dsp/x86/loopfilter_sse2.c b/vpx_dsp/x86/loopfilter_sse2.c

index 347c9fd..6ea34cd 100644 (file)
--- a/vpx_dsp/x86/loopfilter_sse2.c
+++ b/vpx_dsp/x86/loopfilter_sse2.c
@@ -106,7 +106,7 @@ static INLINE __m128i abs_diff(__m128i a, __m128i b) {
  
  void vpx_lpf_horizontal_4_sse2(uint8_t *s, int pitch, const uint8_t *blimit,
                                 const uint8_t *limit, const uint8_t *thresh) {
-  const __m128i zero = _mm_set1_epi16(0);
+  const __m128i zero = _mm_setzero_si128();
    const __m128i limit_v =
        _mm_unpacklo_epi64(_mm_loadl_epi64((const __m128i *)blimit),
                           _mm_loadl_epi64((const __m128i *)limit));
@@ -140,7 +140,7 @@ void vpx_lpf_horizontal_4_sse2(uint8_t *s, int pitch, const uint8_t *blimit,
  
  void vpx_lpf_vertical_4_sse2(uint8_t *s, int pitch, const uint8_t *blimit,
                               const uint8_t *limit, const uint8_t *thresh) {
-  const __m128i zero = _mm_set1_epi16(0);
+  const __m128i zero = _mm_setzero_si128();
    const __m128i limit_v =
        _mm_unpacklo_epi64(_mm_loadl_epi64((const __m128i *)blimit),
                           _mm_loadl_epi64((const __m128i *)limit));
@@ -232,7 +232,7 @@ void vpx_lpf_horizontal_16_sse2(unsigned char *s, int pitch,
                                  const unsigned char *blimit,
                                  const unsigned char *limit,
                                  const unsigned char *thresh) {
-  const __m128i zero = _mm_set1_epi16(0);
+  const __m128i zero = _mm_setzero_si128();
    const __m128i one = _mm_set1_epi8(1);
    const __m128i blimit_v = _mm_load_si128((const __m128i *)blimit);
    const __m128i limit_v = _mm_load_si128((const __m128i *)limit);
@@ -594,7 +594,7 @@ void vpx_lpf_horizontal_16_dual_sse2(unsigned char *s, int pitch,
                                       const unsigned char *blimit,
                                       const unsigned char *limit,
                                       const unsigned char *thresh) {
-  const __m128i zero = _mm_set1_epi16(0);
+  const __m128i zero = _mm_setzero_si128();
    const __m128i one = _mm_set1_epi8(1);
    const __m128i blimit_v = _mm_load_si128((const __m128i *)blimit);
    const __m128i limit_v = _mm_load_si128((const __m128i *)limit);
@@ -932,7 +932,7 @@ void vpx_lpf_horizontal_8_sse2(unsigned char *s, int pitch,
    DECLARE_ALIGNED(16, unsigned char, flat_oq2[16]);
    DECLARE_ALIGNED(16, unsigned char, flat_oq1[16]);
    DECLARE_ALIGNED(16, unsigned char, flat_oq0[16]);
-  const __m128i zero = _mm_set1_epi16(0);
+  const __m128i zero = _mm_setzero_si128();
    const __m128i blimit_v = _mm_load_si128((const __m128i *)blimit);
    const __m128i limit_v = _mm_load_si128((const __m128i *)limit);
    const __m128i thresh_v = _mm_load_si128((const __m128i *)thresh);
@@ -1152,7 +1152,7 @@ void vpx_lpf_horizontal_8_dual_sse2(
    DECLARE_ALIGNED(16, unsigned char, flat_oq2[16]);
    DECLARE_ALIGNED(16, unsigned char, flat_oq1[16]);
    DECLARE_ALIGNED(16, unsigned char, flat_oq0[16]);
-  const __m128i zero = _mm_set1_epi16(0);
+  const __m128i zero = _mm_setzero_si128();
    const __m128i blimit =
        _mm_unpacklo_epi64(_mm_load_si128((const __m128i *)blimit0),
                           _mm_load_si128((const __m128i *)blimit1));
@@ -1406,7 +1406,7 @@ void vpx_lpf_horizontal_4_dual_sse2(unsigned char *s, int pitch,
    const __m128i thresh =
        _mm_unpacklo_epi64(_mm_load_si128((const __m128i *)thresh0),
                           _mm_load_si128((const __m128i *)thresh1));
-  const __m128i zero = _mm_set1_epi16(0);
+  const __m128i zero = _mm_setzero_si128();
    __m128i p3, p2, p1, p0, q0, q1, q2, q3;
    __m128i mask, hev, flat;
author	James Zern <jzern@google.com>
	Fri, 2 Sep 2022 23:17:52 +0000 (16:17 -0700)
committer	James Zern <jzern@google.com>
	Fri, 2 Sep 2022 23:17:52 +0000 (16:17 -0700)
vp9/encoder/x86/vp9_dct_intrin_sse2.c		patch \| blob \| history
vpx_dsp/x86/fwd_dct32x32_impl_avx2.h		patch \| blob \| history
vpx_dsp/x86/fwd_dct32x32_impl_sse2.h		patch \| blob \| history
vpx_dsp/x86/highbd_inv_txfm_sse2.h		patch \| blob \| history
vpx_dsp/x86/highbd_loopfilter_sse2.c		patch \| blob \| history
vpx_dsp/x86/inv_txfm_sse2.c		patch \| blob \| history
vpx_dsp/x86/loopfilter_avx2.c		patch \| blob \| history
vpx_dsp/x86/loopfilter_sse2.c		patch \| blob \| history