ARM: NEON better instruction scheduling of over_n_8_8888
authorTaekyun Kim <tkq.kim@samsung.com>
Tue, 23 Aug 2011 06:00:11 +0000 (15:00 +0900)
committerTaekyun Kim <tkq.kim@samsung.com>
Wed, 7 Sep 2011 02:01:47 +0000 (11:01 +0900)
commit6aa82b7a729ae7f0a26ae5a7c08ac74ebd5051cd
treeeb5025c39bdd74bbc1554eee14cab8927e0e400d
parent4ffa077487cb71ab17d12c37d298ca8a17e5bf35
ARM: NEON better instruction scheduling of over_n_8_8888

tail/head block is expanded and reordered to eliminate stalls

Performance numbers of before/after

- cortex a8 -
before : L1: 201.35  L2: 190.48  M:101.94 ( 54.85%)  HT: 78.41  VT: 63.83  R: 58.25  RT: 21.74 ( 191Kops/s)
after  : L1: 257.65  L2: 255.49  M:102.04 ( 55.33%)  HT: 79.19  VT: 65.46  R: 59.23  RT: 21.12 ( 189Kops/s)

- cortex a9 -
before : L1: 157.35  L2: 159.81  M:133.00 ( 60.94%)  HT: 82.44  VT: 63.64  R: 51.66  RT: 19.15 ( 179Kops/s)
after  : L1: 216.83  L2: 219.40  M:135.83 ( 61.80%)  HT: 85.60  VT: 64.80  R: 52.23  RT: 19.16 ( 179Kops/s)
pixman/pixman-arm-neon-asm.S