platform/upstream/glibc.git
2 years agodebug: make __read_chk a cancellation point (bug 29274)
Andreas Schwab [Wed, 22 Jun 2022 11:16:30 +0000 (13:16 +0200)]
debug: make __read_chk a cancellation point (bug 29274)

The __read_chk function, as the implementation behind the fortified read
function, must be a cancellation point, thus it cannot use INLINE_SYSCALL.

2 years agos390: use LC_ALL=C for readelf call
Sam James [Thu, 9 Jun 2022 02:56:23 +0000 (03:56 +0100)]
s390: use LC_ALL=C for readelf call

Let's use LC_ALL=C as we do elsewhere for consistency.

Tested on s390x-ibm-linux-gnu.

See: 72bd208846535725ea28b8173e79ef60e57a968c
Signed-off-by: Sam James <sam@gentoo.org>
Reviewed-by: Stefan Liebler <stli@linux.ibm.com>
2 years agos390: use $READELF
Sam James [Thu, 9 Jun 2022 02:56:22 +0000 (03:56 +0100)]
s390: use $READELF

We already check for it in root configure.ac with AC_CHECK_TOOL. Let's
use the result.

Tested on s390x-ibm-linux-gnu.

Signed-off-by: Sam James <sam@gentoo.org>
Reviewed-by: Stefan Liebler <stli@linux.ibm.com>
2 years agoi386: Fix include paths for strspn, strcspn, and strpbrk
Noah Goldstein [Fri, 17 Jun 2022 18:18:32 +0000 (11:18 -0700)]
i386: Fix include paths for strspn, strcspn, and strpbrk

commit c22eb807b0c8125101f6a274795425be2bbd0386
Author: Noah Goldstein <goldstein.w.n@gmail.com>
Date:   Thu Jun 16 15:07:12 2022 -0700

    x86: Rename generic functions with unique postfix for clarity

Changed the names of the strspn-c, strcspn-c, and strpbrk-c files
in a general refactor. It didn't change the include paths for the
i386 files breaking the i386 build. This commit fixes that.
Reviewed-by: Carlos O'Donell <carlos@redhat.com>
Tested-by: Carlos O'Donell <carlos@redhat.com>
2 years agoelf: Silence GCC 11/12 false positive warning
H.J. Lu [Fri, 17 Jun 2022 01:52:02 +0000 (18:52 -0700)]
elf: Silence GCC 11/12 false positive warning

Silence GCC 11/12 false positive warning with -mavx512f on dl-load.c:

https://gcc.gnu.org/bugzilla/show_bug.cgi?id=106008

$ gcc -O2 -fPIC -march=x86-64 -mavx512f -S -Wall ...
dl-load.c: In function ‘_dl_map_object_from_fd.constprop’:
dl-load.c:1158:30: warning: ‘(((char *)loadcmds.113_68 + _933 + 16))[329406144173384849].mapend’ may be used uninitialized [-Wmaybe-uninitialized]

2 years agox86: Rename generic functions with unique postfix for clarity
Noah Goldstein [Thu, 16 Jun 2022 22:07:12 +0000 (15:07 -0700)]
x86: Rename generic functions with unique postfix for clarity

No functions are changed. It just renames generic implementations from
'{func}_sse2' to '{func}_generic'. This is just because the postfix
"_sse2" was overloaded and was used for files that had hand-optimized
sse2 assembly implementations and files that just redirected back
to the generic implementation.

Full xcheck passed on x86_64.

2 years agox86: Add BMI1/BMI2 checks for ISA_V3 check
Noah Goldstein [Thu, 16 Jun 2022 22:01:08 +0000 (15:01 -0700)]
x86: Add BMI1/BMI2 checks for ISA_V3 check

BMI1/BMI2 are part of the ISA V3 requirements:
https://en.wikipedia.org/wiki/X86-64

And defined by GCC when building with `-march=x86-64-v3`

2 years agox86-64: Handle fewer relocation types for RTLD_BOOTSTRAP
Fangrui Song [Thu, 16 Jun 2022 18:48:15 +0000 (11:48 -0700)]
x86-64: Handle fewer relocation types for RTLD_BOOTSTRAP

The RTLD_BOOTSTRAP branch is used to relocate ld.so itself.  It only
needs to handle RELATIVE, GLOB_DAT, and JUMP_SLOT.  RELATIVE has been
handled (by _ELF_DYNAMIC_DO_RELOC due to DT_RELACOUNT, or RELR), so the
switch statement only needs to handle GLOB_DAT and JUMP_SLOT.

We can drop these `#if[n]def RTLD_BOOTSTRAP` and add a large
`# ifndef RTLD_BOOTSTRAP` instead.

2 years agoaarch64: Handle fewer relocations for RTLD_BOOTSTRAP
Fangrui Song [Thu, 16 Jun 2022 02:21:53 +0000 (19:21 -0700)]
aarch64: Handle fewer relocations for RTLD_BOOTSTRAP

The RTLD_BOOTSTRAP branch is used to relocate ld.so itself.  It only
needs to handle RELATIVE, GLOB_DAT, and JUMP_SLOT.
TLSDESC/TLS_DTPMOD/TLS_DTPREL handling can be removed.  Remove
`case AARCH64_R(RELATIVE)` as well as elf_machine_rela has checked it.

Tested on aarch64-linux-gnu.

2 years agoriscv: Change the relocations handled for RTLD_BOOTSTRAP
Fangrui Song [Thu, 16 Jun 2022 01:42:03 +0000 (18:42 -0700)]
riscv: Change the relocations handled for RTLD_BOOTSTRAP

The RTLD_BOOTSTRAP branch is used to relocate ld.so itself.  It only
needs to handle RELATIVE, GLOB_DAT, and the symbolic relocation type
(R_RISCV_{32,64}).  NONE and IRELATIVE can be removed.

The code relies on ld.so having DT_RELACOUNT so that the RTLD_BOOTSTRAP
branch does not need handle RELATIVE.  Drop this minor size
optimization for clarity.

Acked-by: Palmer Dabbelt <palmer@rivosinc.com>
2 years agox86: Cleanup bounds checking in large memcpy case
Noah Goldstein [Wed, 15 Jun 2022 17:41:28 +0000 (10:41 -0700)]
x86: Cleanup bounds checking in large memcpy case

1. Fix incorrect lower-bound threshold in L(large_memcpy_2x).
   Previously was using `__x86_rep_movsb_threshold` and should
   have been using `__x86_shared_non_temporal_threshold`.

2. Avoid reloading __x86_shared_non_temporal_threshold before
   the L(large_memcpy_4x) bounds check.

3. Document the second bounds check for L(large_memcpy_4x)
   more clearly.

2 years agox86: Add bounds `x86_non_temporal_threshold`
Noah Goldstein [Wed, 15 Jun 2022 17:41:29 +0000 (10:41 -0700)]
x86: Add bounds `x86_non_temporal_threshold`

The lower-bound (16448) and upper-bound (SIZE_MAX / 16) are assumed
by memmove-vec-unaligned-erms.

The lower-bound is needed because memmove-vec-unaligned-erms unrolls
the loop aggressively in the L(large_memset_4x) case.

The upper-bound is needed because memmove-vec-unaligned-erms
right-shifts the value of `x86_non_temporal_threshold` by
LOG_4X_MEMCPY_THRESH (4) which without a bound may overflow.

The lack of lower-bound can be a correctness issue. The lack of
upper-bound cannot.

2 years agoRemove remnant reference to ELF_RTYPE_CLASS_EXTERN_PROTECTED_DATA
Fangrui Song [Wed, 15 Jun 2022 20:02:17 +0000 (13:02 -0700)]
Remove remnant reference to ELF_RTYPE_CLASS_EXTERN_PROTECTED_DATA

This fixes nios2 build after commit de38b2a343e6d64b95c50004943d6107a9e380d0.

2 years agoelf: Remove ELF_RTYPE_CLASS_EXTERN_PROTECTED_DATA
Fangrui Song [Wed, 15 Jun 2022 18:29:55 +0000 (11:29 -0700)]
elf: Remove ELF_RTYPE_CLASS_EXTERN_PROTECTED_DATA

If an executable has copy relocations for extern protected data, that
can only work if the library containing the definition is built with
assumptions (a) the compiler emits GOT-generating relocations (b) the
linker produces R_*_GLOB_DAT instead of R_*_RELATIVE.  Otherwise the
library uses its own definition directly and the executable accesses a
stale copy.  Note: the GOT relocations defeat the purpose of protected
visibility as an optimization, but allow rtld to make the executable and
library use the same copy when copy relocations are present, but it
turns out this never worked perfectly.

ELF_RTYPE_CLASS_EXTERN_PROTECTED_DATA has strange semantics when both
a.so and b.so define protected var and the executable copy relocates
var: b.so accesses its own copy even with GLOB_DAT.  The behavior change
is from commit 62da1e3b00b51383ffa7efc89d8addda0502e107 (x86) and then
copied to nios2 (ae5eae7cfc9c4a8297ff82ec6b794faca1976ecc) and arc
(0e7d930c4c11de896fe807f67fa1eb756c9c1e05).

Without ELF_RTYPE_CLASS_EXTERN_PROTECTED_DATA, b.so accesses the copy
relocated data like a.so.

There is now a warning for copy relocation on protected symbol since
commit 7374c02b683b7110b853a32496a619410364d70b.  It's extremely
unlikely anyone relies on the ELF_RTYPE_CLASS_EXTERN_PROTECTED_DATA
behavior, so let's remove it: this removes a check in the symbol lookup
code.

2 years agox86: Add sse42 implementation to strcmp's ifunc
Noah Goldstein [Tue, 14 Jun 2022 22:37:28 +0000 (15:37 -0700)]
x86: Add sse42 implementation to strcmp's ifunc

This has been missing since the the ifuncs where added.

The performance of SSE4.2 is preferable to to SSE2.

Measured on Tigerlake with N = 20 runs.
Geometric Mean of all benchmarks SSE4.2 / SSE2: 0.906

2 years agox86: Fix misordered logic for setting `rep_movsb_stop_threshold`
Noah Goldstein [Tue, 14 Jun 2022 20:50:11 +0000 (13:50 -0700)]
x86: Fix misordered logic for setting `rep_movsb_stop_threshold`

Move the setting of `rep_movsb_stop_threshold` to after the tunables
have been collected so that the `rep_movsb_stop_threshold` (which
is used to redirect control flow to the non_temporal case) will
use any user value for `non_temporal_threshold` (set using
glibc.cpu.x86_non_temporal_threshold)

2 years agoelf: Refine direct extern access diagnostics to protected symbol
Fangrui Song [Tue, 14 Jun 2022 20:07:27 +0000 (13:07 -0700)]
elf: Refine direct extern access diagnostics to protected symbol

Refine commit 349b0441dab375099b1d7f6909c1742286a67da9:

1. Copy relocations for extern protected data do not work properly,
regardless whether GNU_PROPERTY_1_NEEDED_INDIRECT_EXTERN_ACCESS is used.
It makes sense to produce a warning unconditionally.

2. Non-zero value of an undefined function symbol may break pointer
equality, but may be benign in many cases (many programs don't take the
address in the shared object then compare it with the address in the
executable).  Reword the diagnostic to be clearer.

3. Remove the unneeded condition !(undef_map->l_1_needed &
GNU_PROPERTY_1_NEEDED_INDIRECT_EXTERN_ACCESS). If the executable does
not not have GNU_PROPERTY_1_NEEDED_INDIRECT_EXTERN_ACCESS (can only
occur in error cases), the diagnostic should be emitted as well.

When the defining shared object has
GNU_PROPERTY_1_NEEDED_INDIRECT_EXTERN_ACCESS, report an error to apply
the intended enforcement.

2 years agoAvoid -Wstringop-overflow= warning in iconv module.
Stefan Liebler [Fri, 3 Jun 2022 12:52:51 +0000 (14:52 +0200)]
Avoid -Wstringop-overflow= warning in iconv module.

On s390x when compiling with GCC 12, I get this warning:
utf8-utf16-z9.c:
../iconv/loop.c: In function ‘__from_utf8_loop_etf3eh_single’:
../iconv/loop.c:445:22: error: writing 1 byte into a region of size 0 [-Werror=stringop-overflow=]
  445 |     bytebuf[inlen++] = *inptr++;
      |     ~~~~~~~~~~~~~~~~~^~~~~~~~~~
../iconv/loop.c:381:17: note: at offset 4 into destination object ‘bytebuf’ of size 4
  381 |   unsigned char bytebuf[MAX_NEEDED_INPUT];
      |                 ^~~~~~~
../iconv/loop.c:445:22: error: writing 1 byte into a region of size 0 [-Werror=stringop-overflow=]
  445 |     bytebuf[inlen++] = *inptr++;
      |     ~~~~~~~~~~~~~~~~~^~~~~~~~~~
../iconv/loop.c:381:17: note: at offset 5 into destination object ‘bytebuf’ of size 4
  381 |   unsigned char bytebuf[MAX_NEEDED_INPUT];
      |                 ^~~~~~~

This patch tells the compiler that inend is always behind inptr which
avoids the warning.  Note that the SINGLE function is only used to
implement the mb*towc*() or wc*tomb*() functions.  Those functions use
inptr and inend pointing to a variable on stack, compute the inend pointer
or explicitly check the arguments which always leads to inptr < inend.

Special notes for backporters (according to Siddhesh Poyarekar):
If someone wants to backport this patch to release branches, they should
also backport the following wcrtomb change. Otherwise the assumptions
assumed by this patch are not true.

commit 9bcd12d223a8990254b65e2dada54faa5d2742f3
Author: Siddhesh Poyarekar <siddhesh@sourceware.org>
Date:   Fri May 13 19:10:15 2022 +0530

    wcrtomb: Make behavior POSIX compliant

Reviewed-by: Siddhesh Poyarekar <siddhesh@sourceware.org>
2 years agoAdd bounds check to __libc_ifunc_impl_list
Wilco Dijkstra [Fri, 10 Jun 2022 16:13:29 +0000 (17:13 +0100)]
Add bounds check to __libc_ifunc_impl_list

Add a proper bounds check to __libc_ifunc_impl_list. This makes MAX_IFUNC
redundant and fixes several targets that will write outside the array.
To avoid unnecessary large diffs, pass the maximum in the argument 'i' to
IFUNC_IMPL_ADD - 'max' can be used in new ifunc definitions and existing
ones can be updated if desired.

Passes buildmanyglibc.

Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
2 years agolibio: Avoid RMW of flags2 outside lock (BZ #27842)
Wilco Dijkstra [Fri, 10 Jun 2022 12:33:26 +0000 (13:33 +0100)]
libio: Avoid RMW of flags2 outside lock (BZ #27842)

Remove an unconditional RMW on flags2 in flockfile - we don't need to change
_IO_FLAGS2_NEED_LOCK since it isn't used in flockfile or funlockfile.
This fixes BZ #27842.

Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
2 years agox86: Optimize svml_s_tanhf4_core_sse4.S
Noah Goldstein [Thu, 9 Jun 2022 16:58:35 +0000 (09:58 -0700)]
x86: Optimize svml_s_tanhf4_core_sse4.S

Optimizations are:
    1. Reduce code size (-112 bytes).
    2. Remove redundant move instructions.
    3. Slightly improve instruction selection/scheduling where
       possible.
    4. Prefer registers which get short instruction encoding.
    5. Reduce rodata size (-4k+ rodata is shared with avx2).

Result is roughly a 15-16% speedup:

       Function, New Time, Old Time, New / Old
 _ZGVbN4v_tanhf,    3.158,    3.749,     0.842

2 years agox86: Optimize svml_s_tanhf8_core_avx2.S
Noah Goldstein [Thu, 9 Jun 2022 18:16:36 +0000 (11:16 -0700)]
x86: Optimize svml_s_tanhf8_core_avx2.S

Optimizations are:
    1. Reduce code size (-81 bytes).
    2. Remove redundant move instructions.
    3. Slightly improve instruction selection/scheduling where
       possible.
    4. Prefer registers which get short instruction encoding.
    5. Reduce rodata size (-32 bytes).

Result is roughly a 17-18% speedup:

       Function, New Time, Old Time, New / Old
_ZGVdN8v_tanhf,     1.977,    2.402,     0.823

2 years agox86: Add data file that can be shared by tanhf-avx2 and tanhf-sse4
Noah Goldstein [Thu, 9 Jun 2022 16:58:33 +0000 (09:58 -0700)]
x86: Add data file that can be shared by tanhf-avx2 and tanhf-sse4

tanhf-avx2 and tanhf-sse4 use the same data tables so we can save
over 4kb using a shared datatable. This does increase the memory
footprint of the sse4 version (as now all the targets are 32 bytes
instead of 16), generally it seems worth the code size save.

NB: This patch doesn't do anything itself, it is setup for future
patches.

2 years agox86: Optimize svml_s_tanhf16_core_avx512.S
Noah Goldstein [Thu, 9 Jun 2022 16:58:32 +0000 (09:58 -0700)]
x86: Optimize svml_s_tanhf16_core_avx512.S

Optimizations are:
    1. Reduce code size (-67 bytes).
    2. Remove redundant move instructions.
    3. Slightly improve instruction selection/scheduling where
       possible.
    4. Reduce rodata usage (-448 bytes).

Result is roughly a 14% speedup:

       Function, New Time, Old Time, New / Old
_ZGVeN16v_tanhf,    0.649,    0.752,     0.863

2 years agox86: Improve svml_s_atanhf4_core_sse4.S
Noah Goldstein [Thu, 9 Jun 2022 16:58:31 +0000 (09:58 -0700)]
x86: Improve svml_s_atanhf4_core_sse4.S

Improvements are:
    1. Reduce code size (-62 bytes).
    2. Remove redundant move instructions.
    3. Slightly improve instruction selection/scheduling where
       possible.
    4. Prefer registers which get short instruction encoding.
    5. Reduce rodata usage (-16 bytes).

The throughput improvement is not significant as the port 0 bottleneck
is unavoidable.

       Function, New Time, Old Time, New / Old
_ZGVbN4v_atanhf,    8.821,    8.903,     0.991

2 years agox86: Improve svml_s_atanhf8_core_avx2.S
Noah Goldstein [Thu, 9 Jun 2022 18:16:35 +0000 (11:16 -0700)]
x86: Improve svml_s_atanhf8_core_avx2.S

Improvements are:
    1. Reduce code size (-60 bytes).
    2. Remove redundant move instructions.
    3. Slightly improve instruction selection/scheduling where
       possible.
    4. Prefer registers which get short instruction encoding.
    5. Shrink rodata usage (-32 bytes).

The throughput improvement is not that significant (3-5%) as the
port 0 bottleneck is unavoidable.

       Function, New Time, Old Time, New / Old
_ZGVdN8v_atanhf,    2.799,    2.923,     0.958

2 years agox86: Improve svml_s_atanhf16_core_avx512.S
Noah Goldstein [Thu, 9 Jun 2022 18:16:34 +0000 (11:16 -0700)]
x86: Improve svml_s_atanhf16_core_avx512.S

Improvements are:
    1. Reduce code size (-64 bytes).
    2. Remove redundant move instructions.
    3. Slightly improve instruction selection/scheduling where
       possible.
    4. Reduce rodata size ([-128, -188] bytes).

The throughput improvement is not significant as the port 0 bottleneck
is unavoidable.

        Function, New Time, Old Time, New / Old
_ZGVeN16v_atanhf,     1.39,    1.408,     0.987

2 years agox86: Align varshift table to 32-bytes
Noah Goldstein [Thu, 9 Jun 2022 04:16:51 +0000 (21:16 -0700)]
x86: Align varshift table to 32-bytes

This ensures the load will never split a cache line.

2 years agox86: Add copyright to strpbrk-c.c
Noah Goldstein [Thu, 9 Jun 2022 00:27:59 +0000 (17:27 -0700)]
x86: Add copyright to strpbrk-c.c

2 years agonss: handle stat failure in check_reload_and_get (BZ #28752)
Sam James [Sun, 5 Jun 2022 03:57:10 +0000 (04:57 +0100)]
nss: handle stat failure in check_reload_and_get (BZ #28752)

Skip the chroot test if the database isn't loaded
correctly (because the chroot test uses some
existing DB state).

The __stat64_time64 -> fstatat call can fail if
running under an (aggressive) seccomp filter,
like Firefox seems to use.

This manifested in a crash when using glib built
with FAM support with such a Firefox build.

Suggested-by: DJ Delorie <dj@redhat.com>
Signed-off-by: Sam James <sam@gentoo.org>
Reviewed-by: DJ Delorie <dj@redhat.com>
2 years agonss: add assert to DB_LOOKUP_FCT (BZ #28752)
Sam James [Sun, 5 Jun 2022 03:57:09 +0000 (04:57 +0100)]
nss: add assert to DB_LOOKUP_FCT (BZ #28752)

It's interesting if we have a null action list,
so an assert is worthwhile.

Suggested-by: DJ Delorie <dj@redhat.com>
Signed-off-by: Sam James <sam@gentoo.org>
Reviewed-by: DJ Delorie <dj@redhat.com>
2 years agox86: Fix page cross case in rawmemchr-avx2 [BZ #29234]
Noah Goldstein [Wed, 8 Jun 2022 21:34:59 +0000 (14:34 -0700)]
x86: Fix page cross case in rawmemchr-avx2 [BZ #29234]

commit 6dcbb7d95dded20153b12d76d2f4e0ef0cda4f35
Author: Noah Goldstein <goldstein.w.n@gmail.com>
Date:   Mon Jun 6 21:11:33 2022 -0700

    x86: Shrink code size of memchr-avx2.S

Changed how the page cross case aligned string (rdi) in
rawmemchr. This was incompatible with how
`L(cross_page_continue)` expected the pointer to be aligned and
would cause rawmemchr to read data start started before the
beginning of the string. What it would read was in valid memory
but could count CHAR matches resulting in an incorrect return
value.

This commit fixes that issue by essentially reverting the changes to
the L(page_cross) case as they didn't really matter.

Test cases added and all pass with the new code (and where confirmed
to fail with the old code).
Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agonptl_db: disable DT_RELR on libthread_db.so
Paul E. Murphy [Wed, 1 Jun 2022 16:19:49 +0000 (16:19 +0000)]
nptl_db: disable DT_RELR on libthread_db.so

Some nptl tests inadvertently use the host's gdb to verify
libthread_db.so, which is loaded with the host's runtime.  This causes
a couple of test failures when the host glibc does not support DT_RELR.

The not correct, but simple, workaround is to build without DT_RELR
as this library is otherwise likely to load on glibc 2.17 and newer
today.

This allows tst-pthread-gdb-attach{,-static} to continue working
when testing on a gdb loaded with an older glibc.

This avoids a failure in tst-pthread-gdb-attach similar to:

  Trying host libthread_db library: .../build/glibc/nptl_db/libthread_db.so.1.
  dlopen failed: /lib64/libc.so.6: version `GLIBC_ABI_DT_RELR' not found (required by .../build/glibc/nptl_db/libthread_db.so.1).

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agoelf: add missing newlines in lateglobal test
Andreas Schwab [Wed, 8 Jun 2022 13:25:26 +0000 (15:25 +0200)]
elf: add missing newlines in lateglobal test

2 years agonptl: Fix __libc_cleanup_pop_restore asynchronous restore (BZ#29214)
Adhemerval Zanella [Tue, 31 May 2022 20:13:35 +0000 (17:13 -0300)]
nptl: Fix __libc_cleanup_pop_restore asynchronous restore (BZ#29214)

This was due a wrong revert done on 404656009b459658.

Checked on x86_64-linux-gnu.

2 years agox86: ZERO_UPPER_VEC_REGISTERS_RETURN_XTEST expect no transactions
Noah Goldstein [Fri, 3 Jun 2022 23:52:37 +0000 (18:52 -0500)]
x86: ZERO_UPPER_VEC_REGISTERS_RETURN_XTEST expect no transactions

Give fall-through path to `vzeroupper` and taken-path to `vzeroall`.

Generally even on machines with RTM the expectation is the
string-library functions will not be called in transactions.
Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agox86: Shrink code size of memchr-evex.S
Noah Goldstein [Tue, 7 Jun 2022 04:11:34 +0000 (21:11 -0700)]
x86: Shrink code size of memchr-evex.S

This is not meant as a performance optimization. The previous code was
far to liberal in aligning targets and wasted code size unnecissarily.

The total code size saving is: 64 bytes

There are no non-negligible changes in the benchmarks.
Geometric Mean of all benchmarks New / Old: 1.000

Full xcheck passes on x86_64.
Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agox86: Shrink code size of memchr-avx2.S
Noah Goldstein [Tue, 7 Jun 2022 04:11:33 +0000 (21:11 -0700)]
x86: Shrink code size of memchr-avx2.S

This is not meant as a performance optimization. The previous code was
far to liberal in aligning targets and wasted code size unnecissarily.

The total code size saving is: 59 bytes

There are no major changes in the benchmarks.
Geometric Mean of all benchmarks New / Old: 0.967

Full xcheck passes on x86_64.
Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agox86: Optimize memrchr-avx2.S
Noah Goldstein [Tue, 7 Jun 2022 04:11:32 +0000 (21:11 -0700)]
x86: Optimize memrchr-avx2.S

The new code:
    1. prioritizes smaller user-arg lengths more.
    2. optimizes target placement more carefully
    3. reuses logic more
    4. fixes up various inefficiencies in the logic. The biggest
       case here is the `lzcnt` logic for checking returns which
       saves either a branch or multiple instructions.

The total code size saving is: 306 bytes
Geometric Mean of all benchmarks New / Old: 0.760

Regressions:
There are some regressions. Particularly where the length (user arg
length) is large but the position of the match char is near the
beginning of the string (in first VEC). This case has roughly a
10-20% regression.

This is because the new logic gives the hot path for immediate matches
to shorter lengths (the more common input). This case has roughly
a 15-45% speedup.

Full xcheck passes on x86_64.
Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agox86: Optimize memrchr-evex.S
Noah Goldstein [Tue, 7 Jun 2022 04:11:31 +0000 (21:11 -0700)]
x86: Optimize memrchr-evex.S

The new code:
    1. prioritizes smaller user-arg lengths more.
    2. optimizes target placement more carefully
    3. reuses logic more
    4. fixes up various inefficiencies in the logic. The biggest
       case here is the `lzcnt` logic for checking returns which
       saves either a branch or multiple instructions.

The total code size saving is: 263 bytes
Geometric Mean of all benchmarks New / Old: 0.755

Regressions:
There are some regressions. Particularly where the length (user arg
length) is large but the position of the match char is near the
beginning of the string (in first VEC). This case has roughly a
20% regression.

This is because the new logic gives the hot path for immediate matches
to shorter lengths (the more common input). This case has roughly
a 35% speedup.

Full xcheck passes on x86_64.
Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agox86: Optimize memrchr-sse2.S
Noah Goldstein [Tue, 7 Jun 2022 04:11:30 +0000 (21:11 -0700)]
x86: Optimize memrchr-sse2.S

The new code:
    1. prioritizes smaller lengths more.
    2. optimizes target placement more carefully.
    3. reuses logic more.
    4. fixes up various inefficiencies in the logic.

The total code size saving is: 394 bytes
Geometric Mean of all benchmarks New / Old: 0.874

Regressions:
    1. The page cross case is now colder, especially re-entry from the
       page cross case if a match is not found in the first VEC
       (roughly 50%). My general opinion with this patch is this is
       acceptable given the "coldness" of this case (less than 4%) and
       generally performance improvement in the other far more common
       cases.

    2. There are some regressions 5-15% for medium/large user-arg
       lengths that have a match in the first VEC. This is because the
       logic was rewritten to optimize finds in the first VEC if the
       user-arg length is shorter (where we see roughly 20-50%
       performance improvements). It is not always the case this is a
       regression. My intuition is some frontend quirk is partially
       explaining the data although I haven't been able to find the
       root cause.

Full xcheck passes on x86_64.
Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agoBenchtests: Improve memrchr benchmarks
Noah Goldstein [Tue, 7 Jun 2022 04:11:29 +0000 (21:11 -0700)]
Benchtests: Improve memrchr benchmarks

Add a second iteration for memrchr to set `pos` starting from the end
of the buffer.

Previously `pos` was only set relative to the beginning of the
buffer. This isn't really useful for memrchr because the beginning
of the search space is (buf + len).
Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agox86: Add COND_VZEROUPPER that can replace vzeroupper if no `ret`
Noah Goldstein [Tue, 7 Jun 2022 04:11:28 +0000 (21:11 -0700)]
x86: Add COND_VZEROUPPER that can replace vzeroupper if no `ret`

The RTM vzeroupper mitigation has no way of replacing inline
vzeroupper not before a return.

This can be useful when hoisting a vzeroupper to save code size
for example:

```
L(foo):
cmpl %eax, %edx
jz L(bar)
tzcntl %eax, %eax
addq %rdi, %rax
VZEROUPPER_RETURN

L(bar):
xorl %eax, %eax
VZEROUPPER_RETURN
```

Can become:

```
L(foo):
COND_VZEROUPPER
cmpl %eax, %edx
jz L(bar)
tzcntl %eax, %eax
addq %rdi, %rax
ret

L(bar):
xorl %eax, %eax
ret
```

This code does not change any existing functionality.

There is no difference in the objdump of libc.so before and after this
patch.
Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agox86: Create header for VEC classes in x86 strings library
Noah Goldstein [Tue, 7 Jun 2022 04:11:27 +0000 (21:11 -0700)]
x86: Create header for VEC classes in x86 strings library

This patch does not touch any existing code and is only meant to be a
tool for future patches so that simple source files can more easily be
maintained to target multiple VEC classes.

There is no difference in the objdump of libc.so before and after this
patch.
Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agopowerpc: Fix VSX register number on __strncpy_power9 [BZ #29197]
Matheus Castanho [Tue, 7 Jun 2022 13:27:26 +0000 (10:27 -0300)]
powerpc: Fix VSX register number on __strncpy_power9 [BZ #29197]

__strncpy_power9 initializes VR 18 with zeroes to be used throughout the
code, including when zero-padding the destination string. However, the
v18 reference was mistakenly being used for stxv and stxvl, which take a
VSX vector as operand. The code ended up using the uninitialized VSR 18
register by mistake.

Both occurrences have been changed to use the proper VSX number for VR 18
(i.e. VSR 50).

Tested on powerpc, powerpc64 and powerpc64le.

Signed-off-by: Kewen Lin <linkw@gcc.gnu.org>
2 years agoAArch64: Sort makefile entries
Wilco Dijkstra [Tue, 7 Jun 2022 15:45:46 +0000 (16:45 +0100)]
AArch64: Sort makefile entries

Sort makefile entries to reduce conflicts.

2 years agoAArch64: Add SVE memcpy
Wilco Dijkstra [Tue, 7 Jun 2022 15:44:35 +0000 (16:44 +0100)]
AArch64: Add SVE memcpy

Add an initial SVE memcpy implementation.  Copies up to 32 bytes use SVE
vectors which improves the random memcpy benchmark significantly.
Cleanup the memcpy and memmove ifunc selectors.

2 years agox86_64: Add strstr function with 512-bit EVEX
Raghuveer Devulapalli [Mon, 6 Jun 2022 19:17:43 +0000 (12:17 -0700)]
x86_64: Add strstr function with 512-bit EVEX

Adding a 512-bit EVEX version of strstr. The algorithm works as follows:

(1) We spend a few cycles at the begining to peek into the needle. We
locate an edge in the needle (first occurance of 2 consequent distinct
characters) and also store the first 64-bytes into a zmm register.

(2) We search for the edge in the haystack by looking into one cache
line of the haystack at a time. This avoids having to read past a page
boundary which can cause a seg fault.

(3) If an edge is found in the haystack we first compare the first
64-bytes of the needle (already stored in a zmm register) before we
proceed with a full string compare performed byte by byte.

Benchmarking results: (old = strstr_sse2_unaligned, new = strstr_avx512)

Geometric mean of all benchmarks: new / old =  0.66

Difficult skiptable(0) : new / old =  0.02
Difficult skiptable(1) : new / old =  0.01
Difficult 2-way : new / old =  0.25
Difficult testing first 2 : new / old =  1.26
Difficult skiptable(0) : new / old =  0.05
Difficult skiptable(1) : new / old =  0.06
Difficult 2-way : new / old =  0.26
Difficult testing first 2 : new / old =  1.05
Difficult skiptable(0) : new / old =  0.42
Difficult skiptable(1) : new / old =  0.24
Difficult 2-way : new / old =  0.21
Difficult testing first 2 : new / old =  1.04
Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agoscripts/glibcelf.py: Add PT_AARCH64_MEMTAG_MTE constant
Adhemerval Zanella [Mon, 6 Jun 2022 17:41:24 +0000 (14:41 -0300)]
scripts/glibcelf.py: Add PT_AARCH64_MEMTAG_MTE constant

It was added in commit 603e5c8ba7257483c162cabb06eb6f79096429b6.
This caused the elf/tst-glibcelf consistency check to fail.

Reviewed-by: Florian Weimer <fweimer@redhat.com>
2 years agosocket: Fix mistyped define statement in socket/sys/socket.h (BZ #29225)
Dmitriy Fedchenko [Mon, 6 Jun 2022 15:46:14 +0000 (12:46 -0300)]
socket: Fix mistyped define statement in socket/sys/socket.h (BZ #29225)

2 years agoDeclare timegm for ISO C2X
Joseph Myers [Mon, 6 Jun 2022 14:47:03 +0000 (14:47 +0000)]
Declare timegm for ISO C2X

The next revision of the ISO C standard has added the timegm function
(that was already supported in glibc).  Update the feature test
conditionals on its declaration in <time.h> accordingly.

Tested for x86_64.

2 years agoAdd PT_AARCH64_MEMTAG_MTE from Linux 5.18 to elf.h
Joseph Myers [Mon, 6 Jun 2022 14:45:34 +0000 (14:45 +0000)]
Add PT_AARCH64_MEMTAG_MTE from Linux 5.18 to elf.h

Linux 5.18 defines a new AArch64 ELF segment type
PT_AARCH64_MEMTAG_MTE; add it to elf.h.

Tested with build-many-glibcs.py for aarch64-linux-gnu.

2 years agogrep: egrep -> grep -E, fgrep -> grep -F
Sam James [Sun, 5 Jun 2022 19:09:02 +0000 (12:09 -0700)]
grep: egrep -> grep -E, fgrep -> grep -F

Newer versions of GNU grep (after grep 3.7, not inclusive) will warn on
'egrep' and 'fgrep' invocations.

Convert usages within the tree to their expanded non-aliased counterparts
to avoid irritating warnings during ./configure and the test suite.

Signed-off-by: Sam James <sam@gentoo.org>
Reviewed-by: Fangrui Song <maskray@google.com>
2 years agostring.h: Fix boolean spelling in comments
H.J. Lu [Fri, 3 Jun 2022 17:22:38 +0000 (10:22 -0700)]
string.h: Fix boolean spelling in comments

2 years agoelf: Add #include <errno.h> for use of E* constants.
Carlos O'Donell [Thu, 2 Jun 2022 15:00:54 +0000 (11:00 -0400)]
elf: Add #include <errno.h> for use of E* constants.

In __strerror_r we use errno constants and must include errno.h.

Tested on x86_64 and i686 without regression.

2 years agoelf: Add #include <sys/param.h> for MAX usage.
Carlos O'Donell [Thu, 2 Jun 2022 14:59:14 +0000 (10:59 -0400)]
elf: Add #include <sys/param.h> for MAX usage.

In _dl_audit_pltenter we use MAX and so need to include param.h.

Tested on x86_64 and i686 without regression.

2 years agolinux: Add process_mrelease
Adhemerval Zanella [Fri, 28 Jan 2022 12:53:52 +0000 (12:53 +0000)]
linux: Add process_mrelease

Added in Linux 5.15 (884a7e5964e06ed93c7771c0d7cf19c09a8946f1), the new
syscalls allows a caller to free the memory of a dying target process.

Checked on x86_64-linux-gnu.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agolinux: Add process_madvise
Adhemerval Zanella [Wed, 26 Jan 2022 19:05:31 +0000 (16:05 -0300)]
linux: Add process_madvise

It was added on Linux 5.10 (ecb8ac8b1f146915aa6b96449b66dd48984caacc)
with the same functionality as madvise but using a pidfd of the target
process.

Checked on x86_64-linux-gnu and i686-linux-gnu.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agolinux: Set tst-pidfd-consts unsupported for kernels headers older than 5.10
Adhemerval Zanella [Thu, 2 Jun 2022 11:50:58 +0000 (08:50 -0300)]
linux: Set tst-pidfd-consts unsupported for kernels headers older than 5.10

Instead of fail trying to build the compare source file.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
Tested-by: Matheus Castanho <msc@linux.ibm.com>
Reviewed-by: Matheus Castanho <msc@linux.ibm.com>
2 years agotestrun.sh: Support passing strace and valgrind arguments
Florian Weimer [Thu, 2 Jun 2022 15:41:33 +0000 (17:41 +0200)]
testrun.sh: Support passing strace and valgrind arguments

This is a bit of a hack, but it works quite well in practice.

Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
2 years agoLinux: Adjust struct rseq definition to current kernel version
Florian Weimer [Thu, 2 Jun 2022 14:29:55 +0000 (16:29 +0200)]
Linux: Adjust struct rseq definition to current kernel version

This definition is only used as a fallback with old kernel headers.
The change follows kernel commit bfdf4e6208051ed7165b2e92035b4bf11
("rseq: Remove broken uapi field layout on 32-bit little endian").

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agoiconv: Use 64 bit stat for gconv_parseconfdir (BZ# 29213)
Adhemerval Zanella [Tue, 31 May 2022 15:51:43 +0000 (12:51 -0300)]
iconv: Use 64 bit stat for gconv_parseconfdir (BZ# 29213)

The issue is only when used within libc.so (iconvconfig already builds
with _TIME_SIZE=64).

This is a missing spot initially from 52a5fe70a2c77935.

Checked on i686-linux-gnu.

2 years agocatgets: Use 64 bit stat for __open_catalog (BZ# 29211)
Adhemerval Zanella [Tue, 31 May 2022 15:38:55 +0000 (12:38 -0300)]
catgets: Use 64 bit stat for __open_catalog (BZ# 29211)

This is a missing spot initially from 52a5fe70a2c77935.

Checked on i686-linux-gnu.

2 years agoinet: Use 64 bit stat for ruserpass (BZ# 29210)
Adhemerval Zanella [Tue, 31 May 2022 15:34:48 +0000 (12:34 -0300)]
inet: Use 64 bit stat for ruserpass (BZ# 29210)

This is a missing spot initially from 52a5fe70a2c77935.

Checked on i686-linux-gnu.

2 years agosocket: Use 64 bit stat for isfdtype (BZ# 29209)
Adhemerval Zanella [Tue, 31 May 2022 15:28:20 +0000 (12:28 -0300)]
socket: Use 64 bit stat for isfdtype (BZ# 29209)

This is a missing spot initially from 52a5fe70a2c77935.

Checked on i686-linux-gnu.

2 years agoposix: Use 64 bit stat for fpathconf (_PC_ASYNC_IO) (BZ# 29208)
Adhemerval Zanella [Tue, 31 May 2022 15:22:13 +0000 (12:22 -0300)]
posix: Use 64 bit stat for fpathconf (_PC_ASYNC_IO) (BZ# 29208)

This is a missing spot initially from 52a5fe70a2c77935.

Checked on i686-linux-gnu.

2 years agoposix: Use 64 bit stat for posix_fallocate fallback (BZ# 29207)
Adhemerval Zanella [Tue, 31 May 2022 15:17:20 +0000 (12:17 -0300)]
posix: Use 64 bit stat for posix_fallocate fallback (BZ# 29207)

This is a missing spot initially from 52a5fe70a2c77935.

Checked on i686-linux-gnu.

2 years agomisc: Use 64 bit stat for getusershell (BZ# 29203)
Adhemerval Zanella [Tue, 31 May 2022 14:51:46 +0000 (11:51 -0300)]
misc: Use 64 bit stat for getusershell (BZ# 29203)

This is a missing spot initially from 52a5fe70a2c77935.

Checked on i686-linux-gnu.

2 years agomisc: Use 64 bit stat for daemon (BZ# 29203)
Adhemerval Zanella [Tue, 31 May 2022 14:46:59 +0000 (11:46 -0300)]
misc: Use 64 bit stat for daemon (BZ# 29203)

This is a missing spot initially from 52a5fe70a2c77935.

Checked on i686-linux-gnu.

2 years agolinux: use statx for fstat if neither newfstatat nor fstatat64 is present
WANG Xuerui [Wed, 1 Jun 2022 02:12:28 +0000 (10:12 +0800)]
linux: use statx for fstat if neither newfstatat nor fstatat64 is present

LoongArch is going to be the first architecture supported by Linux that
has neither fstat* nor newfstatat [1], instead exclusively relying on
statx. So in fstatat64's implementation, we need to also enable statx
usage if neither fstatat64 nor newfstatat is present, to prepare for
this new case of kernel ABI.

[1]: https://lore.kernel.org/all/20220518092619.1269111-1-chenhuacai@loongson.cn/

Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
2 years agoAdd MADV_DONTNEED_LOCKED from Linux 5.18 to bits/mman-linux.h
Joseph Myers [Wed, 1 Jun 2022 14:45:48 +0000 (14:45 +0000)]
Add MADV_DONTNEED_LOCKED from Linux 5.18 to bits/mman-linux.h

Linux 5.18 adds a constant MADV_DONTNEED_LOCKED (defined in multiple
header files, but with the same value on all architectures).  Add this
constant to bits/mman-linux.h.

Tested for x86_64.

2 years agoAdd HWCAP2_MTE3 from Linux 5.18 to AArch64 bits/hwcap.h
Joseph Myers [Wed, 1 Jun 2022 14:43:06 +0000 (14:43 +0000)]
Add HWCAP2_MTE3 from Linux 5.18 to AArch64 bits/hwcap.h

Linux 5.18 defines a new AArch64 HWCAP value HWCAP2_MTE3; add it to
glibc's sysdeps/unix/sysv/linux/aarch64/bits/hwcap.h.

Tested with build-many-glibcs.py for aarch64-linux-gnu.

2 years agoi686: Use generic sincosf implementation for SSE2 version
Adhemerval Zanella [Tue, 31 May 2022 21:13:54 +0000 (18:13 -0300)]
i686: Use generic sincosf implementation for SSE2 version

The generic implementation shows slight better performance
(gcc 11.2.1 on a Ryzen 9 5900X):

* s_sincosf-sse2.S:
  "sincosf": {
   "workload-random": {
    "duration": 3.89961e+09,
    "iterations": 9.5472e+07,
    "reciprocal-throughput": 40.8429,
    "latency": 40.8483,
    "max-throughput": 2.4484e+07,
    "min-throughput": 2.44808e+07
   }
  }

* generic s_cossinf.c:
  "sincosf": {
   "workload-random": {
    "duration": 3.71953e+09,
    "iterations": 1.48512e+08,
    "reciprocal-throughput": 25.0515,
    "latency": 25.0391,
    "max-throughput": 3.99177e+07,
    "min-throughput": 3.99375e+07
   }
  }

Checked on i686-linux-gnu.

Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agobenchtests: Add workload name for sincosf
Adhemerval Zanella [Tue, 31 May 2022 21:08:32 +0000 (18:08 -0300)]
benchtests: Add workload name for sincosf

So it can show both reciprocal-throughput and latency.

Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agoi686: Use generic sinf implementation for SSE2 version
Adhemerval Zanella [Tue, 31 May 2022 21:04:47 +0000 (18:04 -0300)]
i686: Use generic sinf implementation for SSE2 version

Performance seems to be similar (gcc 11.2.1 on a Ryzen 9 5900X),
the generic algorithm shows slight better performance for
the 'workload-huge.wrf' input set.

* s_sinf-sse2.S:
  "sinf": {
   "": {
    "duration": 3.72405e+09,
    "iterations": 2.38374e+08,
    "max": 63.973,
    "min": 11.211,
    "mean": 15.6227
   },
   "workload-random.wrf": {
    "duration": 3.76923e+09,
    "iterations": 8.4e+07,
    "reciprocal-throughput": 17.6355,
    "latency": 72.108,
    "max-throughput": 5.67037e+07,
    "min-throughput": 1.38681e+07
   },
   "workload-huge.wrf": {
    "duration": 3.76943e+09,
    "iterations": 6e+07,
    "reciprocal-throughput": 29.3493,
    "latency": 96.2985,
    "max-throughput": 3.40724e+07,
    "min-throughput": 1.03844e+07
   }
  }

* generic s_sinf.c:
  "sinf": {
   "": {
    "duration": 3.70989e+09,
    "iterations": 2.18025e+08,
    "max": 69.782,
    "min": 11.1,
    "mean": 17.0159
   },
   "workload-random.wrf": {
    "duration": 3.77213e+09,
    "iterations": 9.6e+07,
    "reciprocal-throughput": 17.5402,
    "latency": 61.0459,
    "max-throughput": 5.70119e+07,
    "min-throughput": 1.63811e+07
   },
   "workload-huge.wrf": {
    "duration": 3.81576e+09,
    "iterations": 5.6e+07,
    "reciprocal-throughput": 38.2111,
    "latency": 98.0659,
    "max-throughput": 2.61704e+07,
    "min-throughput": 1.01972e+07
   }
  }

Checked on i686-linux-gnu.

Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agoi686: Use generic cosf implementation for SSE2 version
Adhemerval Zanella [Tue, 31 May 2022 20:55:27 +0000 (17:55 -0300)]
i686: Use generic cosf implementation for SSE2 version

Performance seems to be similar (gcc 11.2.1 on a Ryzen 9 5900X):

* s_cosf-sse2.S:
  "cosf": {
   "workload-random": {
    "duration": 3.74987e+09,
    "iterations": 9.616e+07,
    "reciprocal-throughput": 15.8141,
    "latency": 62.1782,
    "max-throughput": 6.32346e+07,
    "min-throughput": 1.60828e+07
   }
  }

* generic s_cosf.c:
  "cosf": {
   "workload-random": {
    "duration": 3.87298e+09,
    "iterations": 1.00968e+08,
    "reciprocal-throughput": 18.3448,
    "latency": 58.3722,
    "max-throughput": 5.45113e+07,
    "min-throughput": 1.71314e+07
   }
  }

Checked on i686-linux-gnu.

2 years agobenchtests: Add workload name for cosf
Adhemerval Zanella [Tue, 31 May 2022 20:48:28 +0000 (17:48 -0300)]
benchtests: Add workload name for cosf

So it can show both reciprocal-throughput and latency.

Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agox86_64: Optimize sincos where sin/cos is optimized (bug 29193)
Andreas Schwab [Tue, 31 May 2022 11:09:38 +0000 (13:09 +0200)]
x86_64: Optimize sincos where sin/cos is optimized (bug 29193)

The compiler may substitute calls to sin or cos with calls to sincos, thus
we should have the same optimized implementations for sincos.  The
optimized implementations may produce results that differ, that also makes
sure that the sincos call aggrees with the sin and cos calls.

2 years agomanual: fix reference to source file
Andreas Schwab [Tue, 31 May 2022 14:21:32 +0000 (16:21 +0200)]
manual: fix reference to source file

2 years agoAdd SOL_SMC from Linux 5.18 to bits/socket.h
Joseph Myers [Tue, 31 May 2022 13:49:53 +0000 (13:49 +0000)]
Add SOL_SMC from Linux 5.18 to bits/socket.h

Linux 5.18 adds a constant SOL_SMC to the getsockopt / setsockopt
levels; add this constant to bits/socket.h.

Tested for x86_64.

2 years agoelf: Remove _dl_skip_args
Adhemerval Zanella [Thu, 26 May 2022 16:15:56 +0000 (13:15 -0300)]
elf: Remove _dl_skip_args

Now that no architecture uses it anymore.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agox86_64: Remove _dl_skip_args usage
Adhemerval Zanella [Thu, 26 May 2022 16:15:28 +0000 (13:15 -0300)]
x86_64: Remove _dl_skip_args usage

Since ad43cac44a the generic code already shuffles the argv/envp/auxv
on the stack to remove the ld.so own arguments and thus _dl_skip_args
is always 0.   So there is no need to adjust the argc or argv.

Checked on x86_64-linux-gnu and i686-linux-gnu.

Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agosparc: Remove _dl_skip_args usage
Adhemerval Zanella [Thu, 26 May 2022 16:14:37 +0000 (13:14 -0300)]
sparc: Remove _dl_skip_args usage

Since ad43cac44a the generic code already shuffles the argv/envp/auxv
on the stack to remove the ld.so own arguments and thus _dl_skip_args
is always 0.   So there is no need to adjust the argc or argv.

Checked on sparc64-linux-gnu and sparcv9-linux-gnu.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agosh: Remove _dl_skip_args usage
Adhemerval Zanella [Thu, 26 May 2022 16:14:04 +0000 (13:14 -0300)]
sh: Remove _dl_skip_args usage

Since ad43cac44a the generic code already shuffles the argv/envp/auxv
on the stack to remove the ld.so own arguments and thus _dl_skip_args
is always 0.   So there is no need to adjust the argc or argv.

Checked with qemu-user that arguments are correctly passed on both
constructors and main program.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agos390: Remove _dl_skip_args usage
Adhemerval Zanella [Thu, 26 May 2022 16:13:05 +0000 (13:13 -0300)]
s390: Remove _dl_skip_args usage

Since ad43cac44a the generic code already shuffles the argv/envp/auxv
on the stack to remove the ld.so own arguments and thus _dl_skip_args
is always 0.   So there is no need to adjust the argc or argv.

Checked on s390x-linux-gnu and s390-linux-gnu.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agoriscv: Remove _dl_skip_args usage
Adhemerval Zanella [Thu, 26 May 2022 16:12:44 +0000 (13:12 -0300)]
riscv: Remove _dl_skip_args usage

Since ad43cac44a the generic code already shuffles the argv/envp/auxv
on the stack to remove the ld.so own arguments and thus _dl_skip_args
is always 0.   So there is no need to adjust the argc or argv.

Checked with qemu-user that arguments are correctly passed on both
constructors and main program.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agonios2: Remove _dl_skip_args usage (BZ# 29187)
Adhemerval Zanella [Thu, 26 May 2022 16:12:21 +0000 (13:12 -0300)]
nios2: Remove _dl_skip_args usage (BZ# 29187)

Since ad43cac44a the generic code already shuffles the argv/envp/auxv
on the stack to remove the ld.so own arguments and thus _dl_skip_args
is always 0.   So there is no need to adjust the argc or argv.

Checked with qemu-user that arguments are correctly passed on both
constructors and main program.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agomips: Remove _dl_skip_args usage
Adhemerval Zanella [Thu, 26 May 2022 16:11:58 +0000 (13:11 -0300)]
mips: Remove _dl_skip_args usage

Since ad43cac44a the generic code already shuffles the argv/envp/auxv
on the stack to remove the ld.so own arguments and thus _dl_skip_args
is always 0.   So there is no need to adjust the argc or argv.

Checked with qemu-user that arguments are correctly passed on both
constructors and main program.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agomicroblaze: Remove _dl_skip_args usage
Adhemerval Zanella [Thu, 26 May 2022 16:11:17 +0000 (13:11 -0300)]
microblaze: Remove _dl_skip_args usage

Since ad43cac44a the generic code already shuffles the argv/envp/auxv
on the stack to remove the ld.so own arguments and thus _dl_skip_args
is always 0.   So there is no need to adjust the argc or argv.

Checked with qemu-user that arguments are correctly passed on both
constructors and main program.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agom68k: Remove _dl_skip_args usage
Adhemerval Zanella [Thu, 26 May 2022 16:10:38 +0000 (13:10 -0300)]
m68k: Remove _dl_skip_args usage

Since ad43cac44a the generic code already shuffles the argv/envp/auxv
on the stack to remove the ld.so own arguments and thus _dl_skip_args
is always 0.  So there is no need to adjust the argc or argv.

Checked with qemu-user that arguments are correctly passed on both
constructors and main program.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agoia64: Remove _dl_skip_args usage
Adhemerval Zanella [Thu, 26 May 2022 16:08:01 +0000 (13:08 -0300)]
ia64: Remove _dl_skip_args usage

Since ad43cac44a the generic code already shuffles the argv/envp/auxv
on the stack to remove the ld.so own arguments and thus _dl_skip_args
is always 0.

The startup code is changed to read the _dl_argc and _dl_argv values,
and envp is calculated from argc and argv.

Checked on ia64-linux-gnu.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agoi686: Remove _dl_skip_args usage
Adhemerval Zanella [Thu, 26 May 2022 16:07:00 +0000 (13:07 -0300)]
i686: Remove _dl_skip_args usage

Since ad43cac44a the generic code already shuffles the argv/envp/auxv
on the stack to remove the ld.so own arguments and thus _dl_skip_args
is always 0.  So there is no need to adjust the argc or argv.

Checked on i686-linux-gnu.

Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agohppa: Remove _dl_skip_args usage (BZ# 29165)
Adhemerval Zanella [Wed, 25 May 2022 11:58:38 +0000 (08:58 -0300)]
hppa: Remove _dl_skip_args usage (BZ# 29165)

Different than other architectures, hppa creates an unrelated stack
frame where ld.so argc/argv adjustments done by ad43cac44a6860eaefc
is not done on the argc/argv saved/restore by _dl_start_user.

Instead load _dl_argc and _dl_argv directlty instead of adjust them
using _dl_skip_args value.

Checked on hppa-linux-gnu.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agocsky: Remove _dl_skip_args usage
Adhemerval Zanella [Thu, 26 May 2022 16:06:06 +0000 (13:06 -0300)]
csky: Remove _dl_skip_args usage

Since ad43cac44a the generic code already shuffles the argv/envp/auxv
on the stack to remove the ld.so own arguments and thus _dl_skip_args
is always 0.  It makes the fixup_stack branch ununsed.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agoarc: Remove _dl_skip_args usage
Adhemerval Zanella [Thu, 26 May 2022 16:04:40 +0000 (13:04 -0300)]
arc: Remove _dl_skip_args usage

Since ad43cac44a the generic code already shuffles the argv/envp/auxv
on the stack to remove the ld.so own arguments and thus _dl_skip_args
is always 0.  So there is no need to adjust the argc or argv.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agoarm: Remove _dl_skip_args usage
Adhemerval Zanella [Thu, 26 May 2022 16:03:51 +0000 (13:03 -0300)]
arm: Remove _dl_skip_args usage

Since ad43cac44a the generic code already shuffles the argv/envp/auxv
on the stack to remove the ld.so own arguments and thus _dl_skip_args
is always 0.  It makes the _fixup_stack branch ununsed.

Checked with qemu-user that arguments are correctly passed on both
constructors and main program.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agoalpha: Remove _dl_skip_args usage
Adhemerval Zanella [Thu, 26 May 2022 16:00:48 +0000 (13:00 -0300)]
alpha: Remove _dl_skip_args usage

Since ad43cac44a the generic code already shuffles the argv/envp/auxv
on the stack to remove the ld.so own arguments and thus _dl_skip_args
is always 0.  It makes the fixup_stack branch ununsed.

Checked with qemu-user that arguments are correctly passed on both
constructors and main program.

Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agobenchtests: Improve benchtests for strstr, memmem, and memchr
Noah Goldstein [Fri, 27 May 2022 23:25:40 +0000 (18:25 -0500)]
benchtests: Improve benchtests for strstr, memmem, and memchr

1. Use json_ctx for output to help standardize format across all
   benchtests.

2. Add some additional tests to strstr and memchr expanding alignments
   and adding more small values.
Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
2 years agodlsym: Make RTLD_NEXT prefer default version definition [BZ #14932]
Fangrui Song [Fri, 27 May 2022 19:34:49 +0000 (12:34 -0700)]
dlsym: Make RTLD_NEXT prefer default version definition [BZ #14932]

When the first object providing foo defines both foo@v1 and foo@@v2,
dlsym(RTLD_NEXT, "foo") returns foo@v1 while dlsym(RTLD_DEFAULT, "foo")
returns foo@@v2.  The issue is that RTLD_DEFAULT uses the
DL_LOOKUP_RETURN_NEWEST flag while RTLD_NEXT doesn't.  Fix the RTLD_NEXT
branch to use DL_LOOKUP_RETURN_NEWEST.

Note: the new behavior matches FreeBSD rtld.  Future sanitizers will not
need to add versioned interceptors like https://reviews.llvm.org/D96348

Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
2 years agox86-64: Ignore r_addend for R_X86_64_GLOB_DAT/R_X86_64_JUMP_SLOT
H.J. Lu [Sat, 21 May 2022 02:21:48 +0000 (19:21 -0700)]
x86-64: Ignore r_addend for R_X86_64_GLOB_DAT/R_X86_64_JUMP_SLOT

According to x86-64 psABI, r_addend should be ignored for R_X86_64_GLOB_DAT
and R_X86_64_JUMP_SLOT.  Since linkers always set their r_addends to 0, we
can ignore their r_addends.

Reviewed-by: Fangrui Song <maskray@google.com>