platform/upstream/glibc.git
23 months agomalloc: Correct the documentation of the top_pad default
Florian Weimer [Thu, 4 Aug 2022 08:24:47 +0000 (10:24 +0200)]
malloc: Correct the documentation of the top_pad default

DEFAULT_TOP_PAD is defined as 131072 in
sysdeps/generic/malloc-machine.h.

23 months agoi386: Remove RELA support
Adhemerval Zanella [Tue, 26 Jul 2022 11:40:52 +0000 (08:40 -0300)]
i386: Remove RELA support

Now that prelink is not support, there is no need to keep supporting
rela for non bootstrap.

23 months agoarm: Remove RELA support
Adhemerval Zanella [Tue, 26 Jul 2022 11:39:20 +0000 (08:39 -0300)]
arm: Remove RELA support

Now that prelink is not support, there is no need to keep supporting
rela for non bootstrap.

23 months agoRemove ldd libc4 support
Adhemerval Zanella [Tue, 2 Aug 2022 14:29:22 +0000 (11:29 -0300)]
Remove ldd libc4 support

The older libc versions are obsolete for over twenty years now.

23 months agoAssume only FLAG_ELF_LIBC6 suport
Lucas A. M. Magalhaes [Thu, 14 Jul 2022 17:37:22 +0000 (14:37 -0300)]
Assume only FLAG_ELF_LIBC6 suport

The older libc versions are obsolete for over twenty years now.
This patch removes the special flags for libc5 and libc4 and assumes
that all libraries cached are libc6 compatible and use FLAG_ELF_LIBC6.

Checked with a build for all affected architectures.

Co-authored-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
23 months agoRemove left over LD_LIBRARY_VERSION usages
Adhemerval Zanella [Tue, 2 Aug 2022 13:08:57 +0000 (10:08 -0300)]
Remove left over LD_LIBRARY_VERSION usages

The environment variable was removed by
d2db60d8d830ef68c8d20a77ac3572d610aa40b1.

23 months agoLinux: Remove exit system call from _exit
Florian Weimer [Thu, 4 Aug 2022 04:17:50 +0000 (06:17 +0200)]
Linux: Remove exit system call from _exit

exit only terminates the current thread, not the whole process, so it
is the wrong fallback system call in this context.  All supported
Linux versions implement the exit_group system call anyway.

23 months agoLoongArch: Add vdso support for gettimeofday.
caiyinyu [Thu, 14 Jul 2022 00:54:04 +0000 (08:54 +0800)]
LoongArch: Add vdso support for gettimeofday.

23 months agoUpdate kernel version to 5.19 in header constant tests
Joseph Myers [Wed, 3 Aug 2022 16:31:58 +0000 (16:31 +0000)]
Update kernel version to 5.19 in header constant tests

This patch updates the kernel version in the tests tst-mman-consts.py,
tst-mount-consts.py and tst-pidfd-consts.py to 5.18.  (There are no
new constants covered by these tests in 5.19, or in 5.17 or 5.18 in
the case of tst-mount-consts.py that previously used version 5.16,
that need any other header changes.)

Tested with build-many-glibcs.py.

23 months agoassert: Do not use stderr in libc-internal assert
Florian Weimer [Wed, 3 Aug 2022 09:41:53 +0000 (11:41 +0200)]
assert: Do not use stderr in libc-internal assert

Redirect internal assertion failures to __libc_assert_fail, based on
based on __libc_message, which writes directly to STDERR_FILENO
and calls abort.  Also disable message translation and reword the
error message slightly (adjusting stdlib/tst-bz20544 accordingly).

As a result of these changes, malloc no longer needs its own
redefinition of __assert_fail.

__libc_assert_fail needs to be stubbed out during rtld dependency
analysis because the rtld rebuilds turn __libc_assert_fail into
__assert_fail, which is unconditionally provided by elf/dl-minimal.c.

This change is not possible for the public assert macro and its
__assert_fail function because POSIX requires that the diagnostic
is written to stderr.

Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
23 months agonptl: Remove uses of assert_perror
Florian Weimer [Wed, 3 Aug 2022 09:41:53 +0000 (11:41 +0200)]
nptl: Remove uses of assert_perror

__pthread_sigmask cannot actually fail with valid pointer arguments
(it would need a really broken seccomp filter), and we do not check
for errors elsewhere.

Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
23 months agostdio: Clean up __libc_message after unconditional abort
Florian Weimer [Wed, 3 Aug 2022 09:41:53 +0000 (11:41 +0200)]
stdio: Clean up __libc_message after unconditional abort

Since commit ec2c1fcefb200c6cb7e09553f3c6af8815013d83 ("malloc:
Abort on heap corruption, without a backtrace [BZ #21754]"),
__libc_message always terminates the process.  Since commit
a289ea09ea843ced6e5277c2f2e63c357bc7f9a3 ("Do not print backtraces
on fatal glibc errors"), the backtrace facility has been removed.
Therefore, remove enum __libc_message_action and the action
argument of __libc_message, and mark __libc_message as _No_return.

Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
23 months agoUpdate syscall lists for Linux 5.19
Joseph Myers [Tue, 2 Aug 2022 21:05:07 +0000 (21:05 +0000)]
Update syscall lists for Linux 5.19

Linux 5.19 has no new syscalls, but enables memfd_secret in the uapi
headers for RISC-V.  Update the version number in syscall-names.list
to reflect that it is still current for 5.19 and regenerate the
arch-syscall.h headers with build-many-glibcs.py update-syscalls.

Tested with build-many-glibcs.py.

23 months agoUse Linux 5.19 in build-many-glibcs.py
Joseph Myers [Tue, 2 Aug 2022 14:09:24 +0000 (14:09 +0000)]
Use Linux 5.19 in build-many-glibcs.py

This patch makes build-many-glibcs.py use Linux 5.19.

Tested with build-many-glibcs.py (host-libraries, compilers and glibcs
builds).

23 months agosocket: Check lengths before advancing pointer in CMSG_NXTHDR
Arjun Shankar [Tue, 2 Aug 2022 09:10:25 +0000 (11:10 +0200)]
socket: Check lengths before advancing pointer in CMSG_NXTHDR

The inline and library functions that the CMSG_NXTHDR macro may expand
to increment the pointer to the header before checking the stride of
the increment against available space.  Since C only allows incrementing
pointers to one past the end of an array, the increment must be done
after a length check.  This commit fixes that and includes a regression
test for CMSG_FIRSTHDR and CMSG_NXTHDR.

The Linux, Hurd, and generic headers are all changed.

Tested on Linux on armv7hl, i686, x86_64, aarch64, ppc64le, and s390x.

[BZ #28846]

Reviewed-by: Siddhesh Poyarekar <siddhesh@sourceware.org>
23 months agoDon't use unsupported format string in ld.so (bug 29427)
Andreas Schwab [Mon, 1 Aug 2022 14:30:15 +0000 (16:30 +0200)]
Don't use unsupported format string in ld.so (bug 29427)

The dynamic loader does not support printf format strings that contain a
literal field width or precision, they have to be specified indirectly.

23 months agohtl: Let pthread_self and cancellability called early
Samuel Thibault [Thu, 28 Jul 2022 20:01:49 +0000 (22:01 +0200)]
htl: Let pthread_self and cancellability called early

When applications redirect some functions they might get called before
libpthread is fully initialized.  They may still expected pthread_self
and cancellable functions to work, so cope with such calls in that
situation.

23 months agostdlib: Simplify arc4random_uniform
Adhemerval Zanella [Thu, 28 Jul 2022 12:18:01 +0000 (09:18 -0300)]
stdlib: Simplify arc4random_uniform

It uses the bitmask with rejection [1], which calculates a mask
being the lowest power of two bounding the request upper bound,
successively queries new random values, and rejects values
outside the requested range.

Performance-wise, there is no much gain in trying to conserve
bits since arc4random is wrapper on getrandom syscall.  It should
be cheaper to just query a uint32_t value.  The algorithm also
avoids modulo and divide operations, which might be costly
depending of the architecture.

[1] https://www.pcg-random.org/posts/bounded-rands.html

Reviewed-by: Yann Droneaud <ydroneaud@opteya.com>
23 months agomalloc: Use __getrandom_nocancel during tcache initiailization
Florian Weimer [Mon, 1 Aug 2022 13:49:07 +0000 (15:49 +0200)]
malloc: Use __getrandom_nocancel during tcache initiailization

Cancellation currently cannot happen at this point because dlopen
as used by the unwind link always performs additional allocations
for libgcc_s.so.1, even if it has been loaded already as a dependency
of the main executable.  But it seems prudent not to rely on this
quirk.

Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
23 months agoRemove spurious references to _dl_open_hook
Florian Weimer [Mon, 1 Aug 2022 13:49:07 +0000 (15:49 +0200)]
Remove spurious references to _dl_open_hook

_dl_open_hook was removed in commit 466c1ea15f461edb8e3ffaf5d86d708
("dlfcn: Rework static dlopen hooks").

Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
23 months agowcsmbs: Add missing test-c8rtomb/test-mbrtoc8 dependency
H.J. Lu [Fri, 29 Jul 2022 17:50:56 +0000 (10:50 -0700)]
wcsmbs: Add missing test-c8rtomb/test-mbrtoc8 dependency

Make test-c8rtomb.out and test-mbrtoc8.out depend on $(gen-locales) for

  xsetlocale (LC_ALL, "de_DE.UTF-8");
  xsetlocale (LC_ALL, "zh_HK.BIG5-HKSCS");

Reviewed-by: Sunil K Pandey <skpgkp2@gmail.com>
Reviewed-by: Carlos O'Donell <carlos@redhat.com>
23 months agostdlib: Suppress gcc diagnostic that char8_t is a keyword in C++20 in uchar.h.
Tom Honermann [Sun, 24 Jul 2022 05:11:43 +0000 (01:11 -0400)]
stdlib: Suppress gcc diagnostic that char8_t is a keyword in C++20 in uchar.h.

gcc 13 issues the following diagnostic for the uchar.h header when the
-Wc++20-compat option is enabled in C++ modes that do not enable char8_t
as a builtin type (C++17 and earlier by default; subject to _GNU_SOURCE
and the gcc -f[no-]char8_t option).
  warning: identifier ‘char8_t’ is a keyword in C++20 [-Wc++20-compat]
This change modifies the uchar.h header to suppress the diagnostic through
the use of '#pragma GCC diagnostic' directives for gcc 10 and later (the
-Wc++20-compat option was added in gcc version 10).  Unfortunately, a bug
in gcc currently prevents those directives from having the intended effect
as reported at https://gcc.gnu.org/PR106423.  A patch for that issue has
been submitted and is available in the email thread archive linked below.
  https://gcc.gnu.org/pipermail/gcc-patches/2022-July/598736.html

23 months agoOpen master branch for glibc 2.37 development
Carlos O'Donell [Sat, 30 Jul 2022 19:34:11 +0000 (15:34 -0400)]
Open master branch for glibc 2.37 development

23 months agoCreate ChangeLog.old/ChangeLog.25. upstream/2.36
Carlos O'Donell [Fri, 29 Jul 2022 22:03:09 +0000 (18:03 -0400)]
Create ChangeLog.old/ChangeLog.25.

23 months agoPrepare for glibc 2.36 release.
Carlos O'Donell [Fri, 29 Jul 2022 21:59:01 +0000 (17:59 -0400)]
Prepare for glibc 2.36 release.

Update version.h, and include/features.h.

23 months agoUpdate install.texi, and regenerate INSTALL.
Carlos O'Donell [Fri, 29 Jul 2022 21:51:16 +0000 (17:51 -0400)]
Update install.texi, and regenerate INSTALL.

23 months agoUpdate NEWS bug list.
Carlos O'Donell [Fri, 29 Jul 2022 21:49:20 +0000 (17:49 -0400)]
Update NEWS bug list.

23 months agoUpdate libc.pot for 2.36 release.
Carlos O'Donell [Fri, 29 Jul 2022 17:01:35 +0000 (13:01 -0400)]
Update libc.pot for 2.36 release.

23 months agotst-pidfd.c: UNSUPPORTED if we get EPERM on valid pidfd_getfd call
Mark Wielaard [Sun, 26 Jun 2022 20:17:17 +0000 (22:17 +0200)]
tst-pidfd.c: UNSUPPORTED if we get EPERM on valid pidfd_getfd call

pidfd_getfd can fail for a valid pidfd with errno EPERM for various
reasons in a restricted environment. Use FAIL_UNSUPPORTED in that case.

Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
Reviewed-by: Carlos O'Donell <carlos@redhat.com>
23 months agostdlib: Tuned down tst-arc4random-thread internal parameters
Adhemerval Zanella [Wed, 27 Jul 2022 11:59:15 +0000 (08:59 -0300)]
stdlib: Tuned down tst-arc4random-thread internal parameters

With new arc4random implementation, the internal parameters might
require a lot of runtime and/or trigger some contention on older
kernels (which might trigger spurious timeout failures).

Also, since we are now testing getrandom entropy instead of an
userspace RNG, there is no much need to extensive testing.

With this change the tst-arc4random-thread goes from about 1m to
5s on a Ryzen 9 with 5.15.0-41-generic.

Checked on x86_64-linux-gnu.

Reviewed-by: Szabolcs Nagy <szabolcs.nagy@arm.com>
23 months agoLoongArch: Add greg_t and gregset_t.
caiyinyu [Wed, 27 Jul 2022 19:25:40 +0000 (03:25 +0800)]
LoongArch: Add greg_t and gregset_t.

23 months agoLoongArch: Fix VDSO_HASH and VDSO_NAME.
caiyinyu [Wed, 27 Jul 2022 18:36:52 +0000 (02:36 +0800)]
LoongArch: Fix VDSO_HASH and VDSO_NAME.

23 months agoriscv: Update rv64 libm test ulps
Darius Rad [Tue, 26 Jul 2022 12:54:55 +0000 (08:54 -0400)]
riscv: Update rv64 libm test ulps

Generated on a Microsemi Polarfire Icicle Kit running Linux version
5.15.32.  Same ULPs were also produced on QEMU 5.2.0 running Linux
5.18.0.

23 months agoriscv: Update nofpu libm test ulps
Darius Rad [Tue, 26 Jul 2022 12:54:38 +0000 (08:54 -0400)]
riscv: Update nofpu libm test ulps

23 months agoarc4random: simplify design for better safety
Jason A. Donenfeld [Tue, 26 Jul 2022 19:58:22 +0000 (21:58 +0200)]
arc4random: simplify design for better safety

Rather than buffering 16 MiB of entropy in userspace (by way of
chacha20), simply call getrandom() every time.

This approach is doubtlessly slower, for now, but trying to prematurely
optimize arc4random appears to be leading toward all sorts of nasty
properties and gotchas. Instead, this patch takes a much more
conservative approach. The interface is added as a basic loop wrapper
around getrandom(), and then later, the kernel and libc together can
work together on optimizing that.

This prevents numerous issues in which userspace is unaware of when it
really must throw away its buffer, since we avoid buffering all
together. Future improvements may include userspace learning more from
the kernel about when to do that, which might make these sorts of
chacha20-based optimizations more possible. The current heuristic of 16
MiB is meaningless garbage that doesn't correspond to anything the
kernel might know about. So for now, let's just do something
conservative that we know is correct and won't lead to cryptographic
issues for users of this function.

This patch might be considered along the lines of, "optimization is the
root of all evil," in that the much more complex implementation it
replaces moves too fast without considering security implications,
whereas the incremental approach done here is a much safer way of going
about things. Once this lands, we can take our time in optimizing this
properly using new interplay between the kernel and userspace.

getrandom(0) is used, since that's the one that ensures the bytes
returned are cryptographically secure. But on systems without it, we
fallback to using /dev/urandom. This is unfortunate because it means
opening a file descriptor, but there's not much of a choice. Secondly,
as part of the fallback, in order to get more or less the same
properties of getrandom(0), we poll on /dev/random, and if the poll
succeeds at least once, then we assume the RNG is initialized. This is a
rough approximation, as the ancient "non-blocking pool" initialized
after the "blocking pool", not before, and it may not port back to all
ancient kernels, though it does to all kernels supported by glibc
(≥3.2), so generally it's the best approximation we can do.

The motivation for including arc4random, in the first place, is to have
source-level compatibility with existing code. That means this patch
doesn't attempt to litigate the interface itself. It does, however,
choose a conservative approach for implementing it.

Cc: Adhemerval Zanella Netto <adhemerval.zanella@linaro.org>
Cc: Florian Weimer <fweimer@redhat.com>
Cc: Cristian Rodríguez <crrodriguez@opensuse.org>
Cc: Paul Eggert <eggert@cs.ucla.edu>
Cc: Mark Harris <mark.hsj@gmail.com>
Cc: Eric Biggers <ebiggers@kernel.org>
Cc: linux-crypto@vger.kernel.org
Signed-off-by: Jason A. Donenfeld <Jason@zx2c4.com>
Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
2 years agoLoongArch: Update NEWS and README for the LoongArch port.
caiyinyu [Tue, 19 Jul 2022 01:22:10 +0000 (09:22 +0800)]
LoongArch: Update NEWS and README for the LoongArch port.

2 years agoLoongArch: Update build-many-glibcs.py for the LoongArch Port.
caiyinyu [Tue, 19 Jul 2022 01:22:09 +0000 (09:22 +0800)]
LoongArch: Update build-many-glibcs.py for the LoongArch Port.

2 years agoLoongArch: Hard Float Support
caiyinyu [Tue, 19 Jul 2022 01:22:08 +0000 (09:22 +0800)]
LoongArch: Hard Float Support

2 years agoLoongArch: Build Infrastructure
caiyinyu [Tue, 19 Jul 2022 01:22:07 +0000 (09:22 +0800)]
LoongArch: Build Infrastructure

2 years agoLoongArch: Add ABI Lists
caiyinyu [Tue, 19 Jul 2022 01:22:06 +0000 (09:22 +0800)]
LoongArch: Add ABI Lists

2 years agoLoongArch: Linux ABI
caiyinyu [Tue, 19 Jul 2022 01:20:51 +0000 (09:20 +0800)]
LoongArch: Linux ABI

2 years agoLoongArch: Linux Syscall Interface
caiyinyu [Tue, 19 Jul 2022 01:20:50 +0000 (09:20 +0800)]
LoongArch: Linux Syscall Interface

2 years agoLoongArch: Atomic and Locking Routines
caiyinyu [Tue, 19 Jul 2022 01:20:49 +0000 (09:20 +0800)]
LoongArch: Atomic and Locking Routines

2 years agoLoongArch: Generic <math.h> and soft-fp Routines
caiyinyu [Tue, 19 Jul 2022 01:20:48 +0000 (09:20 +0800)]
LoongArch: Generic <math.h> and soft-fp Routines

2 years agoLoongArch: Thread-Local Storage Support
caiyinyu [Tue, 19 Jul 2022 01:20:47 +0000 (09:20 +0800)]
LoongArch: Thread-Local Storage Support

2 years agoLoongArch: ABI Implementation
caiyinyu [Tue, 19 Jul 2022 01:20:46 +0000 (09:20 +0800)]
LoongArch: ABI Implementation

2 years agoLoongArch: Add relocations and ELF flags to elf.h and scripts/glibcelf.py
caiyinyu [Tue, 19 Jul 2022 01:20:45 +0000 (09:20 +0800)]
LoongArch: Add relocations and ELF flags to elf.h and scripts/glibcelf.py

2 years agoLoongArch: Add LoongArch entries to config.h.in
caiyinyu [Tue, 19 Jul 2022 01:20:44 +0000 (09:20 +0800)]
LoongArch: Add LoongArch entries to config.h.in

2 years agostruct stat is not posix conformant on microblaze with __USE_FILE_OFFSET64
Arnout Vandecappelle (Essensium/Mind) [Mon, 25 Jul 2022 09:25:15 +0000 (11:25 +0200)]
struct stat is not posix conformant on microblaze with __USE_FILE_OFFSET64

Commit a06b40cdf5ba0d2ab4f9b4c77d21e45ff284fac7 updated stat.h to use
__USE_XOPEN2K8 instead of __USE_MISC to add the st_atim, st_mtim and
st_ctim members to struct stat. However, for microblaze, there are two
definitions of struct stat, depending on the __USE_FILE_OFFSET64 macro.
The second one was not updated.

Change __USE_MISC to __USE_XOPEN2K8 in the __USE_FILE_OFFSET64 version
of struct stat for microblaze.

2 years agoLinux: dirent/tst-readdir64-compat needs to use TEST_COMPAT (bug 27654)
Florian Weimer [Mon, 25 Jul 2022 07:39:22 +0000 (09:39 +0200)]
Linux: dirent/tst-readdir64-compat needs to use TEST_COMPAT (bug 27654)

The hppa port starts libc at GLIBC_2.2, but has earlier symbol
versions in other shared objects.  This means that the compat
symbol for readdir64 is not actually present in libc even though
have-GLIBC_2.1.3 is defined as yes at the make level.

Fixes commit 15e50e6c966fa0f26612602a95f0129543d9f9d5 ("Linux:
dirent/tst-readdir64-compat can be a regular test") by mostly
reverting it.

2 years agomanual: Add documentation for arc4random functions
Adhemerval Zanella Netto [Thu, 21 Jul 2022 13:05:07 +0000 (10:05 -0300)]
manual: Add documentation for arc4random functions

2 years agos390x: Add optimized chacha20
Adhemerval Zanella Netto [Thu, 21 Jul 2022 13:05:06 +0000 (10:05 -0300)]
s390x: Add optimized chacha20

It adds vectorized ChaCha20 implementation based on libgcrypt
cipher/chacha20-s390x.S.  The final state register clearing is
omitted.

On a z15 it shows the following improvements (using formatted
bench-arc4random data):

GENERIC                                    MB/s
-----------------------------------------------
arc4random [single-thread]               198.92
arc4random_buf(16) [single-thread]       244.49
arc4random_buf(32) [single-thread]       282.73
arc4random_buf(48) [single-thread]       286.64
arc4random_buf(64) [single-thread]       320.06
arc4random_buf(80) [single-thread]       297.43
arc4random_buf(96) [single-thread]       310.96
arc4random_buf(112) [single-thread]      308.10
arc4random_buf(128) [single-thread]      309.90
-----------------------------------------------

VX.                                        MB/s
-----------------------------------------------
arc4random [single-thread]               430.26
arc4random_buf(16) [single-thread]       735.14
arc4random_buf(32) [single-thread]      1029.99
arc4random_buf(48) [single-thread]      1206.76
arc4random_buf(64) [single-thread]      1311.92
arc4random_buf(80) [single-thread]      1378.74
arc4random_buf(96) [single-thread]      1445.06
arc4random_buf(112) [single-thread]     1484.32
arc4random_buf(128) [single-thread]     1517.30
-----------------------------------------------

Checked on s390x-linux-gnu.

2 years agopowerpc64: Add optimized chacha20
Adhemerval Zanella Netto [Thu, 21 Jul 2022 13:05:05 +0000 (10:05 -0300)]
powerpc64: Add optimized chacha20

It adds vectorized ChaCha20 implementation based on libgcrypt
cipher/chacha20-ppc.c.  It targets POWER8 and it is used on default
for LE.

On a POWER8 it shows the following improvements (using formatted
bench-arc4random data):

POWER8

GENERIC                                    MB/s
-----------------------------------------------
arc4random [single-thread]               138.77
arc4random_buf(16) [single-thread]       174.36
arc4random_buf(32) [single-thread]       228.11
arc4random_buf(48) [single-thread]       252.31
arc4random_buf(64) [single-thread]       270.11
arc4random_buf(80) [single-thread]       278.97
arc4random_buf(96) [single-thread]       287.78
arc4random_buf(112) [single-thread]      291.92
arc4random_buf(128) [single-thread]      295.25

POWER8                                     MB/s
-----------------------------------------------
arc4random [single-thread]               198.06
arc4random_buf(16) [single-thread]       278.79
arc4random_buf(32) [single-thread]       448.89
arc4random_buf(48) [single-thread]       551.09
arc4random_buf(64) [single-thread]       646.12
arc4random_buf(80) [single-thread]       698.04
arc4random_buf(96) [single-thread]       756.06
arc4random_buf(112) [single-thread]      784.12
arc4random_buf(128) [single-thread]      808.04
-----------------------------------------------

Checked on powerpc64-linux-gnu and powerpc64le-linux-gnu.
Reviewed-by: Paul E. Murphy <murphyp@linux.ibm.com>
2 years agox86: Add AVX2 optimized chacha20
Adhemerval Zanella Netto [Thu, 21 Jul 2022 13:05:04 +0000 (10:05 -0300)]
x86: Add AVX2 optimized chacha20

It adds vectorized ChaCha20 implementation based on libgcrypt
cipher/chacha20-amd64-avx2.S.  It is used only if AVX2 is supported
and enabled by the architecture.

As for generic implementation, the last step that XOR with the
input is omited.  The final state register clearing is also
omitted.

On a Ryzen 9 5900X it shows the following improvements (using
formatted bench-arc4random data):

SSE                                        MB/s
-----------------------------------------------
arc4random [single-thread]               704.25
arc4random_buf(16) [single-thread]      1018.17
arc4random_buf(32) [single-thread]      1315.27
arc4random_buf(48) [single-thread]      1449.36
arc4random_buf(64) [single-thread]      1511.16
arc4random_buf(80) [single-thread]      1539.48
arc4random_buf(96) [single-thread]      1571.06
arc4random_buf(112) [single-thread]     1596.16
arc4random_buf(128) [single-thread]     1613.48
-----------------------------------------------

AVX2                                       MB/s
-----------------------------------------------
arc4random [single-thread]               922.61
arc4random_buf(16) [single-thread]      1478.70
arc4random_buf(32) [single-thread]      2241.80
arc4random_buf(48) [single-thread]      2681.28
arc4random_buf(64) [single-thread]      2913.43
arc4random_buf(80) [single-thread]      3009.73
arc4random_buf(96) [single-thread]      3141.16
arc4random_buf(112) [single-thread]     3254.46
arc4random_buf(128) [single-thread]     3305.02
-----------------------------------------------

Checked on x86_64-linux-gnu.

2 years agox86: Add SSE2 optimized chacha20
Adhemerval Zanella Netto [Thu, 21 Jul 2022 13:05:03 +0000 (10:05 -0300)]
x86: Add SSE2 optimized chacha20

It adds vectorized ChaCha20 implementation based on libgcrypt
cipher/chacha20-amd64-ssse3.S.  It replaces the ROTATE_SHUF_2 (which
uses pshufb) by ROTATE2 and thus making the original implementation
SSE2.

As for generic implementation, the last step that XOR with the
input is omited. The final state register clearing is also
omitted.

On a Ryzen 9 5900X it shows the following improvements (using
formatted bench-arc4random data):

GENERIC                                    MB/s
-----------------------------------------------
arc4random [single-thread]               443.11
arc4random_buf(16) [single-thread]       552.27
arc4random_buf(32) [single-thread]       626.86
arc4random_buf(48) [single-thread]       649.81
arc4random_buf(64) [single-thread]       663.95
arc4random_buf(80) [single-thread]       674.78
arc4random_buf(96) [single-thread]       675.17
arc4random_buf(112) [single-thread]      680.69
arc4random_buf(128) [single-thread]      683.20
-----------------------------------------------

SSE                                        MB/s
-----------------------------------------------
arc4random [single-thread]               704.25
arc4random_buf(16) [single-thread]      1018.17
arc4random_buf(32) [single-thread]      1315.27
arc4random_buf(48) [single-thread]      1449.36
arc4random_buf(64) [single-thread]      1511.16
arc4random_buf(80) [single-thread]      1539.48
arc4random_buf(96) [single-thread]      1571.06
arc4random_buf(112) [single-thread]     1596.16
arc4random_buf(128) [single-thread]     1613.48
-----------------------------------------------

Checked on x86_64-linux-gnu.

2 years agoaarch64: Add optimized chacha20
Adhemerval Zanella Netto [Thu, 21 Jul 2022 13:05:02 +0000 (10:05 -0300)]
aarch64: Add optimized chacha20

It adds vectorized ChaCha20 implementation based on libgcrypt
cipher/chacha20-aarch64.S.  It is used as default and only
little-endian is supported (BE uses generic code).

As for generic implementation, the last step that XOR with the
input is omited.  The final state register clearing is also
omitted.

On a virtualized Linux on Apple M1 it shows the following
improvements (using formatted bench-arc4random data):

GENERIC                                    MB/s
-----------------------------------------------
arc4random [single-thread]               380.89
arc4random_buf(16) [single-thread]       500.73
arc4random_buf(32) [single-thread]       552.61
arc4random_buf(48) [single-thread]       566.82
arc4random_buf(64) [single-thread]       574.01
arc4random_buf(80) [single-thread]       581.02
arc4random_buf(96) [single-thread]       591.19
arc4random_buf(112) [single-thread]      592.29
arc4random_buf(128) [single-thread]      596.43
-----------------------------------------------

OPTIMIZED                                  MB/s
-----------------------------------------------
arc4random [single-thread]               569.60
arc4random_buf(16) [single-thread]       825.78
arc4random_buf(32) [single-thread]       987.03
arc4random_buf(48) [single-thread]      1042.39
arc4random_buf(64) [single-thread]      1075.50
arc4random_buf(80) [single-thread]      1094.68
arc4random_buf(96) [single-thread]      1130.16
arc4random_buf(112) [single-thread]     1129.58
arc4random_buf(128) [single-thread]     1137.91
-----------------------------------------------

Checked on aarch64-linux-gnu.

2 years agobenchtests: Add arc4random benchtest
Adhemerval Zanella Netto [Thu, 21 Jul 2022 13:05:01 +0000 (10:05 -0300)]
benchtests: Add arc4random benchtest

It shows both throughput (total bytes obtained in the test duration)
and latecy for both arc4random and arc4random_buf with different
sizes.

Checked on x86_64-linux-gnu, aarch64-linux, and powerpc64le-linux-gnu.

2 years agostdlib: Add arc4random tests
Adhemerval Zanella Netto [Thu, 21 Jul 2022 13:05:00 +0000 (10:05 -0300)]
stdlib: Add arc4random tests

The basic tst-arc4random-chacha20.c checks if the output of ChaCha20
implementation matches the reference test vectors from RFC8439.

The tst-arc4random-fork.c check if subprocesses generate distinct
streams of randomness (if fork handling is done correctly).

The tst-arc4random-stats.c is a statistical test to the randomness of
arc4random, arc4random_buf, and arc4random_uniform.

The tst-arc4random-thread.c check if threads generate distinct streams
of randomness (if function are thread-safe).

Checked on x86_64-linux-gnu, aarch64-linux, and powerpc64le-linux-gnu.

Co-authored-by: Florian Weimer <fweimer@redhat.com>
Checked on x86_64-linux-gnu and aarch64-linux-gnu.

2 years agostdlib: Add arc4random, arc4random_buf, and arc4random_uniform (BZ #4417)
Adhemerval Zanella Netto [Thu, 21 Jul 2022 13:04:59 +0000 (10:04 -0300)]
stdlib: Add arc4random, arc4random_buf, and arc4random_uniform (BZ #4417)

The implementation is based on scalar Chacha20 with per-thread cache.
It uses getrandom or /dev/urandom as fallback to get the initial entropy,
and reseeds the internal state on every 16MB of consumed buffer.

To improve performance and lower memory consumption the per-thread cache
is allocated lazily on first arc4random functions call, and if the
memory allocation fails getentropy or /dev/urandom is used as fallback.
The cache is also cleared on thread exit iff it was initialized (so if
arc4random is not called it is not touched).

Although it is lock-free, arc4random is still not async-signal-safe
(the per thread state is not updated atomically).

The ChaCha20 implementation is based on RFC8439 [1], omitting the final
XOR of the keystream with the plaintext because the plaintext is a
stream of zeros.  This strategy is similar to what OpenBSD arc4random
does.

The arc4random_uniform is based on previous work by Florian Weimer,
where the algorithm is based on Jérémie Lumbroso paper Optimal Discrete
Uniform Generation from Coin Flips, and Applications (2013) [2], who
credits Donald E. Knuth and Andrew C. Yao, The complexity of nonuniform
random number generation (1976), for solving the general case.

The main advantage of this method is the that the unit of randomness is not
the uniform random variable (uint32_t), but a random bit.  It optimizes the
internal buffer sampling by initially consuming a 32-bit random variable
and then sampling byte per byte.  Depending of the upper bound requested,
it might lead to better CPU utilization.

Checked on x86_64-linux-gnu, aarch64-linux, and powerpc64le-linux-gnu.

Co-authored-by: Florian Weimer <fweimer@redhat.com>
Reviewed-by: Yann Droneaud <ydroneaud@opteya.com>
[1] https://datatracker.ietf.org/doc/html/rfc8439
[2] https://arxiv.org/pdf/1304.1916.pdf

2 years agolocale: Optimize tst-localedef-path-norm
Adhemerval Zanella [Tue, 19 Jul 2022 13:30:34 +0000 (10:30 -0300)]
locale: Optimize tst-localedef-path-norm

The locale generation are issues in parallel to try speed locale
generation.  The maximum number of jobs are limited to the online
CPU (in hope to not overcommit on environments with lower cores
than tests).

On a Ryzen 9, the test execution improves from ~6.7s to ~1.4s.

Tested-by: Mark Wielaard <mark@klomp.org>
2 years agomalloc: Simplify implementation of __malloc_assert
Florian Weimer [Thu, 21 Jul 2022 10:12:08 +0000 (12:12 +0200)]
malloc: Simplify implementation of __malloc_assert

It is prudent not to run too much code after detecting heap
corruption, and __fxprintf is really complex.  The line number
and file name do not carry much information, so it is not included
in the error message.  (__libc_message only supports %s formatting.)
The function name and assertion should provide some context.

Reviewed-by: Siddhesh Poyarekar <siddhesh@sourceware.org>
2 years agoUpdate scripts/config.* files from upstream GNU config version
Adhemerval Zanella [Fri, 8 Jul 2022 01:14:24 +0000 (01:14 +0000)]
Update scripts/config.* files from upstream GNU config version

This patch updates various miscellaneous files from their upstream
sources (version 2022-05-25).

It is required for loongarch support.

Checked on aarch64-linux-gnu.

2 years agolinux: return UNSUPPORTED from tst-mount if entering mount namespace fails
Michael Hudson-Doyle [Sun, 17 Jul 2022 23:16:57 +0000 (11:16 +1200)]
linux: return UNSUPPORTED from tst-mount if entering mount namespace fails

Before this the test fails if run in a chroot by a non-root user:

warning: could not become root outside namespace (Operation not permitted)
../sysdeps/unix/sysv/linux/tst-mount.c:36: numeric comparison failure
   left: 1 (0x1); from: errno
  right: 19 (0x13); from: ENODEV
error: ../sysdeps/unix/sysv/linux/tst-mount.c:39: not true: fd != -1
error: ../sysdeps/unix/sysv/linux/tst-mount.c:46: not true: r != -1
error: ../sysdeps/unix/sysv/linux/tst-mount.c:48: not true: r != -1
../sysdeps/unix/sysv/linux/tst-mount.c:52: numeric comparison failure
   left: 1 (0x1); from: errno
  right: 9 (0x9); from: EBADF
error: ../sysdeps/unix/sysv/linux/tst-mount.c:55: not true: mfd != -1
../sysdeps/unix/sysv/linux/tst-mount.c:58: numeric comparison failure
   left: 1 (0x1); from: errno
  right: 2 (0x2); from: ENOENT
error: ../sysdeps/unix/sysv/linux/tst-mount.c:61: not true: r != -1
../sysdeps/unix/sysv/linux/tst-mount.c:65: numeric comparison failure
   left: 1 (0x1); from: errno
  right: 2 (0x2); from: ENOENT
error: ../sysdeps/unix/sysv/linux/tst-mount.c:68: not true: pfd != -1
error: ../sysdeps/unix/sysv/linux/tst-mount.c:75: not true: fd_tree != -1
../sysdeps/unix/sysv/linux/tst-mount.c:88: numeric comparison failure
   left: 1 (0x1); from: errno
  right: 38 (0x26); from: ENOSYS
error: 12 test failures

Checking that the test can enter a new mount namespace is more correct
than just checking the return value of support_become_root() as the test
code changes the mount namespace it runs in so running it as root on a
system that does not support mount namespaces should still skip.

Also change the test to remove the unnecessary fork.
Reviewed-by: Carlos O'Donell <carlos@redhat.com>
2 years agox86: Add support to build st{p|r}{n}{cpy|cat} with explicit ISA level
Noah Goldstein [Wed, 13 Jul 2022 23:33:01 +0000 (16:33 -0700)]
x86: Add support to build st{p|r}{n}{cpy|cat} with explicit ISA level

1. Add default ISA level selection in non-multiarch/rtld
   implementations.

2. Add ISA level build guards to different implementations.
    - I.e strcpy-avx2.S which is ISA level 3 will only build if
      compiled ISA level <= 3. Otherwise there is no reason to
      include it as we will always use one of the ISA level 4
      implementations (strcpy-evex.S).

3. Refactor the ifunc selector and ifunc implementation list to use
   the ISA level aware wrapper macros that allow functions below the
   compiled ISA level (with a guranteed replacement) to be skipped.

Tested with and without multiarch on x86_64 for ISA levels:
{generic, x86-64-v2, x86-64-v3, x86-64-v4}

And m32 with and without multiarch.

2 years agox86: Add support to build wcscpy with explicit ISA level
Noah Goldstein [Wed, 13 Jul 2022 23:33:00 +0000 (16:33 -0700)]
x86: Add support to build wcscpy with explicit ISA level

1. Add ISA level build guards to different implementations.
    - wcscpy-ssse3.S is used as ISA level 2/3/4.
    - wcscpy-generic.c is only used at ISA level 1 and will
      only build if compiled with ISA level == 1. Otherwise
      there is no reason to include it as we will always use
      wcscpy-ssse3.S

2. Refactor the ifunc selector and ifunc implementation list to use
   the ISA level aware wrapper macros that allow functions below the
   compiled ISA level (with a guranteed replacement) to be skipped.

Tested with and without multiarch on x86_64 for ISA levels:
{generic, x86-64-v2, x86-64-v3, x86-64-v4}

And m32 with and without multiarch.

2 years agox86: Add support to build strcmp/strlen/strchr with explicit ISA level
Noah Goldstein [Wed, 13 Jul 2022 23:32:59 +0000 (16:32 -0700)]
x86: Add support to build strcmp/strlen/strchr with explicit ISA level

1. Add default ISA level selection in non-multiarch/rtld
   implementations.

2. Add ISA level build guards to different implementations.
    - I.e strcmp-avx2.S which is ISA level 3 will only build if
      compiled ISA level <= 3. Otherwise there is no reason to
      include it as we will always use one of the ISA level 4
      implementations (strcmp-evex.S).

3. Refactor the ifunc selector and ifunc implementation list to use
   the ISA level aware wrapper macros that allow functions below the
   compiled ISA level (with a guranteed replacement) to be skipped.

Tested with and without multiarch on x86_64 for ISA levels:
{generic, x86-64-v2, x86-64-v3, x86-64-v4}

And m32 with and without multiarch.

2 years agoelf: Fix wrong fscanf usage on tst-pldd
Adhemerval Zanella [Tue, 5 Jul 2022 15:58:40 +0000 (12:58 -0300)]
elf: Fix wrong fscanf usage on tst-pldd

The fix done b2cd93fce666fdc8c9a5c64af2741a8a6940ac99 does not really
work since macro strification does not expand the sizeof nor the
arithmetic operation.

Checked on x86_64-linux-gnu.

2 years agoApply asm redirections in stdio.h before first use [BZ #27087]
Tulio Magno Quites Machado Filho [Thu, 7 Jul 2022 21:12:58 +0000 (18:12 -0300)]
Apply asm redirections in stdio.h before first use [BZ #27087]

Compilers may not be able to apply asm redirections to functions after
these functions are used for the first time, e.g. clang 13.
Fix [BZ #27087] by applying all long double-related asm redirections
before using functions in bits/stdio.h.
However, as these asm redirections depend on the declarations provided
by libio/bits/stdio2.h, this header was split in 2:

 - libio/bits/stdio2-decl.h contains all function declarations;
 - libio/bits/stdio2.h remains with the remaining contents, including
   redirections.

This also adds the access attribute to __vsnprintf_chk that was missing.

Tested with build-many-glibcs.py.

Reviewed-by: Paul E. Murphy <murphyp@linux.ibm.com>
2 years agoS390: Define SINGLE_THREAD_BY_GLOBAL only on s390x
Stefan Liebler [Thu, 14 Jul 2022 11:39:09 +0000 (13:39 +0200)]
S390: Define SINGLE_THREAD_BY_GLOBAL only on s390x

Starting with commit e070501d12b47e88c1ff8c313f887976fb578938
"Replace __libc_multiple_threads with __libc_single_threaded"
the testcases nptl/tst-cancel-self and
nptl/tst-cancel-self-cancelstate are failing.

This is fixed by only defining SINGLE_THREAD_BY_GLOBAL on s390x,
but not on s390.

Starting with commit 09c76a74099826f4c6e1c4c431d7659f78112862
"Linux: Consolidate {RTLD_}SINGLE_THREAD_P definition",
SINGLE_THREAD_BY_GLOBAL was defined in
sysdeps/unix/sysv/linux/s390/s390-64/sysdep.h.

Lateron the commit 9a973da617772eff1f351989f8995f4305a2e63c
"s390: Consolidate Linux syscall definition" consolidates the sysdep.h files
from s390-32/s390-64 subdirectories.  Unfortunately the macro is now always
defined instead of only on s390-64.

As information:
TLS_MULTIPLE_THREADS_IN_TCB is also only defined for s390.
See: sysdeps/s390/nptl/tls.h

2 years agox86: Add missing rtm tests for strcmp family
Noah Goldstein [Tue, 12 Jul 2022 19:29:10 +0000 (12:29 -0700)]
x86: Add missing rtm tests for strcmp family

Add new tests for:
    strcasecmp
    strncasecmp
    strcmp
    wcscmp

These functions all have avx2_rtm implementations so should be tested.

2 years agox86: Remove unneeded rtld-wmemcmp
Noah Goldstein [Tue, 12 Jul 2022 19:29:09 +0000 (12:29 -0700)]
x86: Remove unneeded rtld-wmemcmp

wmemcmp isn't used by the dynamic loader so their no need to add an
RTLD stub for it.

Tested with and without multiarch on x86_64 for ISA levels:
{generic, x86-64-v2, x86-64-v3, x86-64-v4}

And m32 with and without multiarch.

2 years agox86: Move wcslen SSE2 implementation to multiarch/wcslen-sse2.S
Noah Goldstein [Tue, 12 Jul 2022 19:29:08 +0000 (12:29 -0700)]
x86: Move wcslen SSE2 implementation to multiarch/wcslen-sse2.S

This commit doesn't affect libc.so.6, its just housekeeping to prepare
for adding explicit ISA level support.

Tested build on x86_64 and x86_32 with/without multiarch.

2 years agox86: Move wcschr SSE2 implementation to multiarch/wcschr-sse2.S
Noah Goldstein [Tue, 12 Jul 2022 19:29:07 +0000 (12:29 -0700)]
x86: Move wcschr SSE2 implementation to multiarch/wcschr-sse2.S

This commit doesn't affect libc.so.6, its just housekeeping to prepare
for adding explicit ISA level support.

Tested build on x86_64 and x86_32 with/without multiarch.

2 years agox86: Move strcat SSE2 implementation to multiarch/strcat-sse2.S
Noah Goldstein [Tue, 12 Jul 2022 19:29:06 +0000 (12:29 -0700)]
x86: Move strcat SSE2 implementation to multiarch/strcat-sse2.S

This commit doesn't affect libc.so.6, its just housekeeping to prepare
for adding explicit ISA level support.

Tested build on x86_64 and x86_32 with/without multiarch.

2 years agox86: Move strchr SSE2 implementation to multiarch/strchr-sse2.S
Noah Goldstein [Tue, 12 Jul 2022 19:29:05 +0000 (12:29 -0700)]
x86: Move strchr SSE2 implementation to multiarch/strchr-sse2.S

This commit doesn't affect libc.so.6, its just housekeeping to prepare
for adding explicit ISA level support.

Tested build on x86_64 and x86_32 with/without multiarch.

2 years agox86: Move strrchr SSE2 implementation to multiarch/strrchr-sse2.S
Noah Goldstein [Tue, 12 Jul 2022 19:29:04 +0000 (12:29 -0700)]
x86: Move strrchr SSE2 implementation to multiarch/strrchr-sse2.S

This commit doesn't affect libc.so.6, its just housekeeping to prepare
for adding explicit ISA level support.

Tested build on x86_64 and x86_32 with/without multiarch.

2 years agox86: Move memrchr SSE2 implementation to multiarch/memrchr-sse2.S
Noah Goldstein [Tue, 12 Jul 2022 19:29:03 +0000 (12:29 -0700)]
x86: Move memrchr SSE2 implementation to multiarch/memrchr-sse2.S

This commit doesn't affect libc.so.6, its just housekeeping to prepare
for adding explicit ISA level support.

Tested build on x86_64 and x86_32 with/without multiarch.

2 years agox86: Move strcpy SSE2 implementation to multiarch/strcpy-sse2.S
Noah Goldstein [Tue, 12 Jul 2022 19:29:02 +0000 (12:29 -0700)]
x86: Move strcpy SSE2 implementation to multiarch/strcpy-sse2.S

This commit doesn't affect libc.so.6, its just housekeeping to prepare
for adding explicit ISA level support.

Tested build on x86_64 and x86_32 with/without multiarch.

2 years agox86: Move strlen SSE2 implementation to multiarch/strlen-sse2.S
Noah Goldstein [Tue, 12 Jul 2022 19:29:01 +0000 (12:29 -0700)]
x86: Move strlen SSE2 implementation to multiarch/strlen-sse2.S

This commit doesn't affect libc.so.6, its just housekeeping to prepare
for adding explicit ISA level support.

Tested build on x86_64 and x86_32 with/without multiarch.

2 years agox86: Move strcmp SSE42 implementation to multiarch/strcmp-sse4_2.S
Noah Goldstein [Tue, 12 Jul 2022 19:28:08 +0000 (12:28 -0700)]
x86: Move strcmp SSE42 implementation to multiarch/strcmp-sse4_2.S

This commit doesn't affect libc.so.6, its just housekeeping to prepare
for adding explicit ISA level support.

Tested build on x86_64 and x86_32 with/without multiarch.

2 years agox86: Move wcscmp SSE2 implementation to multiarch/wcscmp-sse2.S
Noah Goldstein [Tue, 12 Jul 2022 19:28:07 +0000 (12:28 -0700)]
x86: Move wcscmp SSE2 implementation to multiarch/wcscmp-sse2.S

This commit doesn't affect libc.so.6, its just housekeeping to prepare
for adding explicit ISA level support.

Tested build on x86_64 and x86_32 with/without multiarch.

2 years agox86: Move strcmp SSE2 implementation to multiarch/strcmp-sse2.S
Noah Goldstein [Tue, 12 Jul 2022 19:28:06 +0000 (12:28 -0700)]
x86: Move strcmp SSE2 implementation to multiarch/strcmp-sse2.S

This commit doesn't affect libc.so.6, its just housekeeping to prepare
for adding explicit ISA level support.

Because strcmp-sse2.S implements so many functions (more from
avx2/evex/sse42) add a new file 'strcmp-naming.h' to assist in
getting the correct symbol name for all the function across
multiarch/non-multiarch builds.

Tested build on x86_64 and x86_32 with/without multiarch.

2 years agox86: Rename STRCASECMP_NONASCII macro to STRCASECMP_L_NONASCII
Noah Goldstein [Tue, 12 Jul 2022 19:28:05 +0000 (12:28 -0700)]
x86: Rename STRCASECMP_NONASCII macro to STRCASECMP_L_NONASCII

The previous macro name can be confusing given that both
`__strcasecmp_l_nonascii` and `__strcasecmp_nonascii` are
functions and we use the `_l` version.

2 years agonptl: Fix ___pthread_unregister_cancel_restore asynchronous restore
Adhemerval Zanella [Wed, 13 Jul 2022 13:37:32 +0000 (10:37 -0300)]
nptl: Fix ___pthread_unregister_cancel_restore asynchronous restore

This was due a wrong revert done on 404656009b459658.

Checked on x86_64-linux-gnu and i686-linux-gnu.

2 years agox86: Remove __mmask intrinsics in strstr-avx512.c
Noah Goldstein [Tue, 12 Jul 2022 18:48:04 +0000 (11:48 -0700)]
x86: Remove __mmask intrinsics in strstr-avx512.c

The intrinsics are not available before GCC7 and using standard
operators generates code of equivalent or better quality.

Removed:
    _cvtmask64_u64
    _kshiftri_mask64
    _kand_mask64

Geometric Mean of 5 Runs of Full Benchmark Suite New / Old: 0.958

2 years agox86: Remove generic strncat, strncpy, and stpncpy implementations
Noah Goldstein [Wed, 6 Jul 2022 00:06:41 +0000 (17:06 -0700)]
x86: Remove generic strncat, strncpy, and stpncpy implementations

These functions all have optimized versions:
__strncat_sse2_unaligned, __strncpy_sse2_unaligned, and
stpncpy_sse2_unaligned which are faster than their respective generic
implementations.  Since the sse2 versions can run on baseline x86_64,
we should use these as the baseline implementation and can remove the
generic implementations.

Geometric mean of N=20 runs of the entire benchmark suite on:
11th Gen Intel(R) Core(TM) i7-1165G7 @ 2.80GHz (Tigerlake)

__strncat_sse2_unaligned / __strncat_generic: .944
__strncpy_sse2_unaligned / __strncpy_generic: .726
__stpncpy_sse2_unaligned / __stpncpy_generic: .650

Tested build with and without multiarch and full check with multiarch.

2 years agoi386: Remove -Wa,-mtune=i686
Fangrui Song [Tue, 12 Jul 2022 18:14:32 +0000 (11:14 -0700)]
i386: Remove -Wa,-mtune=i686

gas -mtune= may change NOP generating patterns but -mtune=i686 has no
difference from the default by inspecting .o and .os files.

Note: Clang doesn't support -Wa,-mtune=i686.

2 years agox86-64: Remove redundant strcspn-generic/strpbrk-generic/strspn-generic
H.J. Lu [Fri, 8 Jul 2022 23:06:04 +0000 (16:06 -0700)]
x86-64: Remove redundant strcspn-generic/strpbrk-generic/strspn-generic

Remove redundant strcspn-generic, strpbrk-generic and strspn-generic
from sysdep_routines in sysdeps/x86_64/multiarch/Makefile added by

commit c69f960b017b2cdf39335739009526a72fb20379
Author: Noah Goldstein <goldstein.w.n@gmail.com>
Date:   Sun Jul 3 21:28:07 2022 -0700

    x86: Add support for building str{c|p}{brk|spn} with explicit ISA level

since they have been added to sysdep_routines in sysdeps/x86_64/Makefile.

2 years agoelf: Rename tst-audit26 to tst-audit28
Florian Weimer [Fri, 8 Jul 2022 10:08:48 +0000 (12:08 +0200)]
elf: Rename tst-audit26 to tst-audit28

tst-audit26 and tst-audit27 are already used by aarch64.

Reviewed-by: Szabolcs Nagy <szabolcs.nagy@arm.com>
2 years agox86-64: Don't mark symbols as hidden in strcmp-XXX.S
H.J. Lu [Thu, 7 Jul 2022 23:20:50 +0000 (16:20 -0700)]
x86-64: Don't mark symbols as hidden in strcmp-XXX.S

Don't mark symbols as hidden in strcmp-avx2.S, strcmp-evex.S and
strcmp-sse42.S since they are marked as hidden in the IFUNC selectors.

2 years agostdlib: Tests for mbrtoc8, c8rtomb, and the char8_t typedef.
Tom Honermann [Thu, 30 Jun 2022 12:52:15 +0000 (08:52 -0400)]
stdlib: Tests for mbrtoc8, c8rtomb, and the char8_t typedef.

This change adds tests for the mbrtoc8 and c8rtomb functions adopted for
C++20 via WG21 P0482R6 and for C2X via WG14 N2653, and for the char8_t
typedef adopted for C2X from WG14 N2653.

The tests for mbrtoc8 and c8rtomb specifically exercise conversion to
and from Big5-HKSCS because of special cases that arise with that encoding.
Big5-HKSCS defines some double byte sequences that convert to more than
one Unicode code point.  In order to test this, the locale dependencies
for running tests under wcsmbs is expanded to include zh_HK.BIG5-HKSCS.

Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
2 years agostdlib: Implement mbrtoc8, c8rtomb, and the char8_t typedef.
Tom Honermann [Thu, 30 Jun 2022 12:52:14 +0000 (08:52 -0400)]
stdlib: Implement mbrtoc8, c8rtomb, and the char8_t typedef.

This change provides implementations for the mbrtoc8 and c8rtomb
functions adopted for C++20 via WG21 P0482R6 and for C2X via WG14
N2653.  It also provides the char8_t typedef from WG14 N2653.

The mbrtoc8 and c8rtomb functions are declared in uchar.h in C2X
mode or when the _GNU_SOURCE macro or C++20 __cpp_char8_t feature
test macro is defined.

The char8_t typedef is declared in uchar.h in C2X mode or when the
_GNU_SOURCE macro is defined and the C++20 __cpp_char8_t feature
test macro is not defined (if __cpp_char8_t is defined, then char8_t
is a builtin type).

Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
2 years agogconv: Correct Big5-HKSCS conversion to preserve all state bits. [BZ #25744]
Tom Honermann [Thu, 30 Jun 2022 12:52:13 +0000 (08:52 -0400)]
gconv: Correct Big5-HKSCS conversion to preserve all state bits. [BZ #25744]

This patch corrects the Big5-HKSCS converter to preserve the lowest 3 bits of
the mbstate_t __count data member when the converter encounters an incomplete
multibyte character.

This fixes BZ #25744.

Reviewed-by: Adhemerval Zanella <adhemerval.zanella@linaro.org>
2 years agoaarch64: Optimize string functions with shrn instruction
Danila Kutenin [Mon, 27 Jun 2022 16:12:13 +0000 (16:12 +0000)]
aarch64: Optimize string functions with shrn instruction

We found that string functions were using AND+ADDP
to find the nibble/syndrome mask but there is an easier
opportunity through `SHRN dst.8b, src.8h, 4` (shift
right every 2 bytes by 4 and narrow to 1 byte) and has
same latency on all SIMD ARMv8 targets as ADDP. There
are also possible gaps for memcmp but that's for
another patch.

We see 10-20% savings for small-mid size cases (<=128)
which are primary cases for general workloads.

2 years agotest-container: return UNSUPPORTED for ENOSPC on clone()
Xi Ruoyao [Tue, 28 Jun 2022 10:44:03 +0000 (18:44 +0800)]
test-container: return UNSUPPORTED for ENOSPC on clone()

Since Linux 4.9, the kernel provides
/proc/sys/user/max_{mnt,pid,user}_namespace as a limitation of number of
namespaces.  Some distros (for example, Slint Linux 14.2.1) set them (or
only max_user_namespace) to zero as a "security policy" for disabling
namespaces.

The clone() call will set errno to ENOSPC under such a limitation.  We
didn't check ENOSPC in the code so the test will FAIL, and report:

    unable to unshare user/fs: No space left on device

This message is, unfortunately, very unhelpful.  It leads people to
check the memory or disk space, instead of finding the real issue.

To improve the situation, we should check for ENOSPC and return
UNSUPPORTED as the test result.  Also refactor check_for_unshare_hints()
to emit a proper message telling people how to make the test work, if
they really need to run the namespaced tests.

Reported-by: Philippe Delavalade <philippe.delavalade@orange.fr>
URL: https://lists.linuxfromscratch.org/sympa/arc/lfs-support/2022-06/msg00022.html
Signed-off-by: Xi Ruoyao <xry111@xry111.site>
Reviewed-by: DJ Delorie <dj@redhat.com>
2 years agox86: Add support for building {w}memcmp{eq} with explicit ISA level
Noah Goldstein [Wed, 29 Jun 2022 23:11:22 +0000 (16:11 -0700)]
x86: Add support for building {w}memcmp{eq} with explicit ISA level

1. Refactor files so that all implementations are in the multiarch
   directory
    - Moved the implementation portion of memcmp sse2 from memcmp.S to
      multiarch/memcmp-sse2.S

    - The non-multiarch file now only includes one of the
      implementations in the multiarch directory based on the compiled
      ISA level (only used for non-multiarch builds.  Otherwise we go
      through the ifunc selector).

2. Add ISA level build guards to different implementations.
    - I.e memcmp-avx2-movsb.S which is ISA level 3 will only build if
      compiled ISA level <= 3. Otherwise there is no reason to include
      it as we will always use one of the ISA level 4
      implementations (memcmp-evex-movbe.S).

3. Add new multiarch/rtld-{w}memcmp{eq}.S that just include the
   non-multiarch {w}memcmp{eq}.S which will in turn select the best
   implementation based on the compiled ISA level.

4. Refactor the ifunc selector and ifunc implementation list to use
   the ISA level aware wrapper macros that allow functions below the
   compiled ISA level (with a guranteed replacement) to be skipped.

Tested with and without multiarch on x86_64 for ISA levels:
{generic, x86-64-v2, x86-64-v3, x86-64-v4}

And m32 with and without multiarch.

2 years agox86: Add support for building {w}memset{_chk} with explicit ISA level
Noah Goldstein [Wed, 29 Jun 2022 23:07:06 +0000 (16:07 -0700)]
x86: Add support for building {w}memset{_chk} with explicit ISA level

1. Refactor files so that all implementations are in the multiarch
   directory
    - Moved the implementation portion of memset sse2 from memset.S to
      multiarch/memset-sse2.S

    - The non-multiarch file now only includes one of the
      implementations in the multiarch directory based on the compiled
      ISA level (only used for non-multiarch builds.  Otherwise we go
      through the ifunc selector).

2. Add ISA level build guards to different implementations.
    - I.e memset-avx2-unaligned-erms.S which is ISA level 3 will only
      build if compiled ISA level <= 3. Otherwise there is no reason
      to include it as we will always use one of the ISA level 4
      implementations (memset-evex-unaligned-erms.S).

3. Add new multiarch/rtld-memset.S that just include the
   non-multiarch memset.S which will in turn select the best
   implementation based on the compiled ISA level.

4. Refactor the ifunc selector and ifunc implementation list to use
   the ISA level aware wrapper macros that allow functions below the
   compiled ISA level (with a guranteed replacement) to be skipped.

Tested with and without multiarch on x86_64 for ISA levels:
{generic, x86-64-v2, x86-64-v3, x86-64-v4}

And m32 with and without multiarch.

2 years agox86: Add support for building {w}memmove{_chk} with explicit ISA level
Noah Goldstein [Tue, 5 Jul 2022 19:41:07 +0000 (12:41 -0700)]
x86: Add support for building {w}memmove{_chk} with explicit ISA level

1. Refactor files so that all implementations are in the multiarch
   directory
    - Moved the implementation portion of memmove sse2 from memmove.S
      to multiarch/memmove-sse2.S

    - The non-multiarch file now only includes one of the
      implementations in the multiarch directory based on the compiled
      ISA level (only used for non-multiarch builds.  Otherwise we go
      through the ifunc selector).

2. Add ISA level build guards to different implementations.
    - I.e memmove-avx2-unaligned-erms.S which is ISA level 3 will only
      build if compiled ISA level <= 3. Otherwise there is no reason
      to include it as we will always use one of the ISA level 4
      implementations (memmove-evex-unaligned-erms.S).

3. Add new multiarch/rtld-memmove.S that just include the
   non-multiarch memmove.S which will in turn select the best
   implementation based on the compiled ISA level.

4. Refactor the ifunc selector and ifunc implementation list to use
   the ISA level aware wrapper macros that allow functions below the
   compiled ISA level (with a guranteed replacement) to be skipped.

Tested with and without multiarch on x86_64 for ISA levels:
{generic, x86-64-v2, x86-64-v3, x86-64-v4}

And m32 with and without multiarch.
isa raising memmove

2 years agox86: Add support for building str{c|p}{brk|spn} with explicit ISA level
Noah Goldstein [Mon, 4 Jul 2022 04:28:07 +0000 (21:28 -0700)]
x86: Add support for building str{c|p}{brk|spn} with explicit ISA level

The changes for these functions are different than the others because
the best implementation (sse4_2) requires the generic
implementation as a fallback to be built as well.

Changes are:

1. Add non-multiarch functions for str{c|p}{brk|spn}.c to statically
   select the best implementation based on the configured ISA build
   level.

2. Add stubs for str{c|p}{brk|spn}-generic and varshift.c to in the
   sysdeps/x86_64 directory so that the the sse4 implementation will
   have all of its dependencies for the non-multiarch / rtld build
   when ISA level >= 2.

3. Add new multiarch/rtld-strcspn.c that just include the
   non-multiarch strcspn.c which will in turn select the best
   implementation based on the compiled ISA level.

4. Refactor the ifunc selector and ifunc implementation list to use
   the ISA level aware wrapper macros that allow functions below the
   compiled ISA level (with a guranteed replacement) to be skipped.

Tested with and without multiarch on x86_64 for ISA levels:
{generic, x86-64-v2, x86-64-v3, x86-64-v4}

And m32 with and without multiarch.

2 years agox86: Add comment explaining no Slow_SSE4_2 check in ifunc-sse4_2
Noah Goldstein [Mon, 4 Jul 2022 04:28:06 +0000 (21:28 -0700)]
x86: Add comment explaining no Slow_SSE4_2 check in ifunc-sse4_2

Just for clarities sake and so that if a future implementation is
added we remember to add the check.