Upstream version 5.34.104.0

[platform/framework/web/crosswalk.git] / src / third_party / libvpx / source / libvpx / vp9 / encoder / x86 / vp9_dct_sse2.c
diff --git a/src/third_party/libvpx/source/libvpx/vp9/encoder/x86/vp9_dct_sse2.c b/src/third_party/libvpx/source/libvpx/vp9/encoder/x86/vp9_dct_sse2.c

index 65431bd..852cf86 100644 (file)
--- a/src/third_party/libvpx/source/libvpx/vp9/encoder/x86/vp9_dct_sse2.c
+++ b/src/third_party/libvpx/source/libvpx/vp9/encoder/x86/vp9_dct_sse2.c
@@ -161,7 +161,7 @@ static INLINE void transpose_4x4(__m128i *res) {
    res[3] = _mm_unpackhi_epi64(res[2], res[2]);
  }
  
-void fdct4_1d_sse2(__m128i *in) {
+void fdct4_sse2(__m128i *in) {
    const __m128i k__cospi_p16_p16 = _mm_set1_epi16(cospi_16_64);
    const __m128i k__cospi_p16_m16 = pair_set_epi16(cospi_16_64, -cospi_16_64);
    const __m128i k__cospi_p08_p24 = pair_set_epi16(cospi_8_64, cospi_24_64);
@@ -194,7 +194,7 @@ void fdct4_1d_sse2(__m128i *in) {
    transpose_4x4(in);
  }
  
-void fadst4_1d_sse2(__m128i *in) {
+void fadst4_sse2(__m128i *in) {
    const __m128i k__sinpi_p01_p02 = pair_set_epi16(sinpi_1_9, sinpi_2_9);
    const __m128i k__sinpi_p04_m01 = pair_set_epi16(sinpi_4_9, -sinpi_1_9);
    const __m128i k__sinpi_p03_p04 = pair_set_epi16(sinpi_3_9, sinpi_4_9);
@@ -242,32 +242,36 @@ void fadst4_1d_sse2(__m128i *in) {
    transpose_4x4(in);
  }
  
-void vp9_short_fht4x4_sse2(const int16_t *input, int16_t *output,
-                           int stride, int tx_type) {
+void vp9_fht4x4_sse2(const int16_t *input, int16_t *output,
+                     int stride, int tx_type) {
    __m128i in[4];
-  load_buffer_4x4(input, in, stride);
+
    switch (tx_type) {
-    case 0:  // DCT_DCT
-      fdct4_1d_sse2(in);
-      fdct4_1d_sse2(in);
-      break;
-    case 1:  // ADST_DCT
-      fadst4_1d_sse2(in);
-      fdct4_1d_sse2(in);
+    case DCT_DCT:
+      vp9_fdct4x4_sse2(input, output, stride);
        break;
-    case 2:  // DCT_ADST
-      fdct4_1d_sse2(in);
-      fadst4_1d_sse2(in);
+    case ADST_DCT:
+      load_buffer_4x4(input, in, stride);
+      fadst4_sse2(in);
+      fdct4_sse2(in);
+      write_buffer_4x4(output, in);
        break;
-    case 3:  // ADST_ADST
-      fadst4_1d_sse2(in);
-      fadst4_1d_sse2(in);
+    case DCT_ADST:
+      load_buffer_4x4(input, in, stride);
+      fdct4_sse2(in);
+      fadst4_sse2(in);
+      write_buffer_4x4(output, in);
        break;
-    default:
-      assert(0);
+    case ADST_ADST:
+      load_buffer_4x4(input, in, stride);
+      fadst4_sse2(in);
+      fadst4_sse2(in);
+      write_buffer_4x4(output, in);
        break;
+   default:
+     assert(0);
+     break;
    }
-  write_buffer_4x4(output, in);
  }
  
  void vp9_fdct8x8_sse2(const int16_t *input, int16_t *output, int stride) {
@@ -656,7 +660,7 @@ static INLINE void array_transpose_8x8(__m128i *in, __m128i *res) {
    // 07 17 27 37 47 57 67 77
  }
  
-void fdct8_1d_sse2(__m128i *in) {
+void fdct8_sse2(__m128i *in) {
    // constants
    const __m128i k__cospi_p16_p16 = _mm_set1_epi16(cospi_16_64);
    const __m128i k__cospi_p16_m16 = pair_set_epi16(cospi_16_64, -cospi_16_64);
@@ -796,7 +800,7 @@ void fdct8_1d_sse2(__m128i *in) {
    array_transpose_8x8(in, in);
  }
  
-void fadst8_1d_sse2(__m128i *in) {
+void fadst8_sse2(__m128i *in) {
    // Constants
    const __m128i k__cospi_p02_p30 = pair_set_epi16(cospi_2_64, cospi_30_64);
    const __m128i k__cospi_p30_m02 = pair_set_epi16(cospi_30_64, -cospi_2_64);
@@ -1026,33 +1030,39 @@ void fadst8_1d_sse2(__m128i *in) {
    array_transpose_8x8(in, in);
  }
  
-void vp9_short_fht8x8_sse2(const int16_t *input, int16_t *output,
-                           int stride, int tx_type) {
+void vp9_fht8x8_sse2(const int16_t *input, int16_t *output,
+                     int stride, int tx_type) {
    __m128i in[8];
-  load_buffer_8x8(input, in, stride);
+
    switch (tx_type) {
-    case 0:  // DCT_DCT
-      fdct8_1d_sse2(in);
-      fdct8_1d_sse2(in);
+    case DCT_DCT:
+      vp9_fdct8x8_sse2(input, output, stride);
        break;
-    case 1:  // ADST_DCT
-      fadst8_1d_sse2(in);
-      fdct8_1d_sse2(in);
+    case ADST_DCT:
+      load_buffer_8x8(input, in, stride);
+      fadst8_sse2(in);
+      fdct8_sse2(in);
+      right_shift_8x8(in, 1);
+      write_buffer_8x8(output, in, 8);
        break;
-    case 2:  // DCT_ADST
-      fdct8_1d_sse2(in);
-      fadst8_1d_sse2(in);
+    case DCT_ADST:
+      load_buffer_8x8(input, in, stride);
+      fdct8_sse2(in);
+      fadst8_sse2(in);
+      right_shift_8x8(in, 1);
+      write_buffer_8x8(output, in, 8);
        break;
-    case 3:  // ADST_ADST
-      fadst8_1d_sse2(in);
-      fadst8_1d_sse2(in);
+    case ADST_ADST:
+      load_buffer_8x8(input, in, stride);
+      fadst8_sse2(in);
+      fadst8_sse2(in);
+      right_shift_8x8(in, 1);
+      write_buffer_8x8(output, in, 8);
        break;
      default:
        assert(0);
        break;
    }
-  right_shift_8x8(in, 1);
-  write_buffer_8x8(output, in, 8);
  }
  
  void vp9_fdct16x16_sse2(const int16_t *input, int16_t *output, int stride) {
@@ -1214,7 +1224,7 @@ void vp9_fdct16x16_sse2(const int16_t *input, int16_t *output, int stride) {
          step1_6 = _mm_sub_epi16(in01, in14);
          step1_7 = _mm_sub_epi16(in00, in15);
        }
-      // Work on the first eight values; fdct8_1d(input, even_results);
+      // Work on the first eight values; fdct8(input, even_results);
        {
          // Add/substract
          const __m128i q0 = _mm_add_epi16(input0, input7);
@@ -1728,7 +1738,7 @@ static INLINE void right_shift_16x16(__m128i *res0, __m128i *res1) {
    right_shift_8x8(res1 + 8, 2);
  }
  
-void fdct16_1d_8col(__m128i *in) {
+void fdct16_8col(__m128i *in) {
    // perform 16x16 1-D DCT for 8 columns
    __m128i i[8], s[8], p[8], t[8], u[16], v[16];
    const __m128i k__cospi_p16_p16 = _mm_set1_epi16(cospi_16_64);
@@ -2050,7 +2060,7 @@ void fdct16_1d_8col(__m128i *in) {
    in[15] = _mm_packs_epi32(v[14], v[15]);
  }
  
-void fadst16_1d_8col(__m128i *in) {
+void fadst16_8col(__m128i *in) {
    // perform 16x16 1-D ADST for 8 columns
    __m128i s[16], x[16], u[32], v[32];
    const __m128i k__cospi_p01_p31 = pair_set_epi16(cospi_1_64, cospi_31_64);
@@ -2520,48 +2530,51 @@ void fadst16_1d_8col(__m128i *in) {
    in[15] = _mm_sub_epi16(kZero, s[1]);
  }
  
-void fdct16_1d_sse2(__m128i *in0, __m128i *in1) {
-  fdct16_1d_8col(in0);
-  fdct16_1d_8col(in1);
+void fdct16_sse2(__m128i *in0, __m128i *in1) {
+  fdct16_8col(in0);
+  fdct16_8col(in1);
    array_transpose_16x16(in0, in1);
  }
  
-void fadst16_1d_sse2(__m128i *in0, __m128i *in1) {
-  fadst16_1d_8col(in0);
-  fadst16_1d_8col(in1);
+void fadst16_sse2(__m128i *in0, __m128i *in1) {
+  fadst16_8col(in0);
+  fadst16_8col(in1);
    array_transpose_16x16(in0, in1);
  }
  
-void vp9_short_fht16x16_sse2(const int16_t *input, int16_t *output,
-                             int stride, int tx_type) {
+void vp9_fht16x16_sse2(const int16_t *input, int16_t *output,
+                       int stride, int tx_type) {
    __m128i in0[16], in1[16];
-  load_buffer_16x16(input, in0, in1, stride);
+
    switch (tx_type) {
-    case 0:  // DCT_DCT
-      fdct16_1d_sse2(in0, in1);
-      right_shift_16x16(in0, in1);
-      fdct16_1d_sse2(in0, in1);
+    case DCT_DCT:
+      vp9_fdct16x16_sse2(input, output, stride);
        break;
-    case 1:  // ADST_DCT
-      fadst16_1d_sse2(in0, in1);
+    case ADST_DCT:
+      load_buffer_16x16(input, in0, in1, stride);
+      fadst16_sse2(in0, in1);
        right_shift_16x16(in0, in1);
-      fdct16_1d_sse2(in0, in1);
+      fdct16_sse2(in0, in1);
+      write_buffer_16x16(output, in0, in1, 16);
        break;
-    case 2:  // DCT_ADST
-      fdct16_1d_sse2(in0, in1);
+    case DCT_ADST:
+      load_buffer_16x16(input, in0, in1, stride);
+      fdct16_sse2(in0, in1);
        right_shift_16x16(in0, in1);
-      fadst16_1d_sse2(in0, in1);
+      fadst16_sse2(in0, in1);
+      write_buffer_16x16(output, in0, in1, 16);
        break;
-    case 3:  // ADST_ADST
-      fadst16_1d_sse2(in0, in1);
+    case ADST_ADST:
+      load_buffer_16x16(input, in0, in1, stride);
+      fadst16_sse2(in0, in1);
        right_shift_16x16(in0, in1);
-      fadst16_1d_sse2(in0, in1);
+      fadst16_sse2(in0, in1);
+      write_buffer_16x16(output, in0, in1, 16);
        break;
      default:
        assert(0);
        break;
    }
-  write_buffer_16x16(output, in0, in1, 16);
  }
  
  #define FDCT32x32_2D vp9_fdct32x32_rd_sse2