Improve sad3x16 SSE2 function
authorYunqing Wang <yunqingwang@google.com>
Wed, 21 Nov 2012 00:28:08 +0000 (16:28 -0800)
committerYunqing Wang <yunqingwang@google.com>
Mon, 26 Nov 2012 17:53:50 +0000 (09:53 -0800)
commite7cd80718b04c03d5ce21f13981712704b36fc66
tree492da7cfccaa2669a8656f9939237465430d96b6
parentf42e41f2eff366338f8f7b36d5b6f8c9c5a26573
Improve sad3x16 SSE2 function

Vp9_sad3x16_sse2() is heavily called in decoder, in which the
unaligned reads consume lots of cpu cycles. When CONFIG_SUBPELREFMV
is off, the unaligned offset is 1. In this situation,
we can adjust the src_ptr to be 4-byte aligned, and then do the
aligned reads. This reduced the reading time significantly. Tests
on 1080p clip showed over 2% decoder performance gain with
CONFIG_SUBPELREFM off.

Change-Id: I953afe3ac5406107933ef49d0b695eafba9a6507
vp9/common/findnearmv.c
vp9/common/rtcd_defs.sh
vp9/common/x86/sadmxn_x86.c