tilegx: provide optimized strnlen, strstr, and strcasestr
authorChris Metcalf <cmetcalf@tilera.com>
Tue, 16 Sep 2014 00:10:18 +0000 (20:10 -0400)
committerChris Metcalf <cmetcalf@tilera.com>
Mon, 6 Oct 2014 15:19:18 +0000 (11:19 -0400)
commitc86f7b80f43d7336eab1119dae78b0f10b7244ec
tree951bc7a02304a850aaed2a361df614669f5271aa
parent1c4c1a6f4d0e8ffab24419d136fbfe698a201d24
tilegx: provide optimized strnlen, strstr, and strcasestr

strnlen() is based on the existing tile strlen() with length
checking added.  It speeds up by up to 5x, but on average across
the benchtest corpus by around 35%.  No regressions are seen.

strstr() does 8-byte aligned loads and compares using a 2-byte
filter on the first two bytes of the needle and then testing
the remaining bytes in needle using memcmp().  It speeds up
about 5x in the best case (for "found" needles), about 2x looking
at benchtest as a whole, with some slowdowns as much as 45%.
on a few cases (including the "fail" case for 128KB search).

strcasestr() is based on strstr() but uses a SIMD tolower
routine to convert 8-bytes to lower case in 5 instructions.
It also uses a 2-byte filter and then strncasecmp() for the
remaining bytes.  strncasecmp() is not optimized for SIMD, so
there is futher room for improvement.  However, it is still up
to 16x faster for "found" needles, averaging 2x faster on the
whole corpus of benchtests.  It does slow down by up to 35%
on a few cases, similarly to strstr().
ChangeLog
sysdeps/tile/tilegx/strcasestr.c [new file with mode: 0644]
sysdeps/tile/tilegx/string-endian.h
sysdeps/tile/tilegx/strnlen.c [new file with mode: 0644]
sysdeps/tile/tilegx/strstr.c [new file with mode: 0644]