Merge tag 'for-5.10-tag' of git://git.kernel.org/pub/scm/linux/kernel/git/kdave/linux
authorLinus Torvalds <torvalds@linux-foundation.org>
Tue, 13 Oct 2020 16:01:36 +0000 (09:01 -0700)
committerLinus Torvalds <torvalds@linux-foundation.org>
Tue, 13 Oct 2020 16:01:36 +0000 (09:01 -0700)
Pull btrfs updates from David Sterba:
 "Mostly core updates with a few user visible bits and fixes.

  Hilights:

   - fsync performance improvements
      - less contention of log mutex (throughput +4%, latency -14%,
        dbench with 32 clients)
      - skip unnecessary commits for link and rename (throughput +6%,
        latency -30%, rename latency -75%, dbench with 16 clients)
      - make fast fsync wait only for writeback (throughput +10..40%,
        runtime -1..-20%, dbench with 1 to 64 clients on various
        file/block sizes)

   - direct io is now implemented using the iomap infrastructure, that's
     the main part, we still have a workaround that requires an iomap
     API update, coming in 5.10

   - new sysfs exports:
      - information about the exclusive filesystem operation status
        (balance, device add/remove/replace, ...)
      - supported send stream version

  Core:

   - use ticket space reservations for data, fair policy using the same
     infrastructure as metadata

   - preparatory work to switch locking from our custom tree locks to
     standard rwsem, now the locking context is propagated to all
     callers, actual switch is expected to happen in the next dev cycle

   - seed device structures are now using list API

   - extent tracepoints print proper tree id

   - unified range checks for extent buffer helpers

   - send: avoid using temporary buffer for copying data

   - remove unnecessary RCU protection from space infos

   - remove unused readpage callback for metadata, enabling several
     cleanups

   - replace indirect function calls for end io hooks and remove
     extent_io_ops completely

  Fixes:

   - more lockdep warning fixes

   - fix qgroup reservation for delayed inode and an occasional
     reservation leak for preallocated files

   - fix device replace of a seed device

   - fix metadata reservation for fallocate that leads to transaction
     aborts

   - reschedule if necessary when logging directory items or when
     cloning lots of extents

   - tree-checker: fix false alert caused by legacy btrfs root item

   - send: fix rename/link conflicts for orphanized inodes

   - properly initialize device stats for seed devices

   - skip devices without magic signature when mounting

  Other:

   - error handling improvements, BUG_ONs replaced by proper handling,
     fuzz fixes

   - various function parameter cleanups

   - various W=1 cleanups

   - error/info messages improved

  Mishaps:

   - commit 62cf5391209a ("btrfs: move btrfs_rm_dev_replace_free_srcdev
     outside of all locks") is a rebase leftover after the patch got
     merged to 5.9-rc8 as a466c85edc6f ("btrfs: move
     btrfs_rm_dev_replace_free_srcdev outside of all locks"), the
     remaining part is trivial and the patch is in the middle of the
     series so I'm keeping it there instead of rebasing"

* tag 'for-5.10-tag' of git://git.kernel.org/pub/scm/linux/kernel/git/kdave/linux: (161 commits)
  btrfs: rename BTRFS_INODE_ORDERED_DATA_CLOSE flag
  btrfs: annotate device name rcu_string with __rcu
  btrfs: skip devices without magic signature when mounting
  btrfs: cleanup cow block on error
  btrfs: remove BTRFS_INODE_READDIO_NEED_LOCK
  fs: remove no longer used dio_end_io()
  btrfs: return error if we're unable to read device stats
  btrfs: init device stats for seed devices
  btrfs: remove struct extent_io_ops
  btrfs: call submit_bio_hook directly for metadata pages
  btrfs: stop calling submit_bio_hook for data inodes
  btrfs: don't opencode is_data_inode in end_bio_extent_readpage
  btrfs: call submit_bio_hook directly in submit_one_bio
  btrfs: remove extent_io_ops::readpage_end_io_hook
  btrfs: replace readpage_end_io_hook with direct calls
  btrfs: send, recompute reference path after orphanization of a directory
  btrfs: send, orphanize first all conflicting inodes when processing references
  btrfs: tree-checker: fix false alert caused by legacy btrfs root item
  btrfs: use unaligned helpers for stack and header set/get helpers
  btrfs: free-space-cache: use unaligned helpers to access data
  ...

1407 files changed:
.gitignore
.mailmap
Documentation/ABI/stable/sysfs-kernel-notes [new file with mode: 0644]
Documentation/PCI/index.rst
Documentation/PCI/sysfs-pci.rst [moved from Documentation/filesystems/sysfs-pci.rst with 100% similarity]
Documentation/admin-guide/README.rst
Documentation/admin-guide/bcache.rst
Documentation/admin-guide/blockdev/ramdisk.rst
Documentation/admin-guide/cgroup-v1/cpusets.rst
Documentation/admin-guide/kdump/kdump.rst
Documentation/admin-guide/kernel-parameters.txt
Documentation/admin-guide/perf/arm-cmn.rst [new file with mode: 0644]
Documentation/admin-guide/perf/index.rst
Documentation/admin-guide/svga.rst
Documentation/admin-guide/sysctl/abi.rst
Documentation/admin-guide/tainted-kernels.rst
Documentation/arm/sunxi.rst
Documentation/arm/uefi.rst
Documentation/arm64/amu.rst
Documentation/arm64/cpu-feature-registers.rst
Documentation/arm64/elf_hwcaps.rst
Documentation/arm64/index.rst
Documentation/arm64/memory-tagging-extension.rst [new file with mode: 0644]
Documentation/conf.py
Documentation/core-api/cpu_hotplug.rst
Documentation/crypto/userspace-if.rst
Documentation/devicetree/bindings/edac/amazon,al-mc-edac.yaml [new file with mode: 0644]
Documentation/devicetree/bindings/interrupt-controller/actions,owl-sirq.yaml [new file with mode: 0644]
Documentation/devicetree/bindings/interrupt-controller/mstar,mst-intc.yaml [new file with mode: 0644]
Documentation/devicetree/bindings/interrupt-controller/snps,dw-apb-ictl.txt
Documentation/devicetree/bindings/interrupt-controller/ti,pruss-intc.yaml [new file with mode: 0644]
Documentation/devicetree/bindings/net/renesas,ravb.txt
Documentation/devicetree/bindings/perf/arm,cmn.yaml [new file with mode: 0644]
Documentation/devicetree/bindings/rng/ingenic,trng.yaml [new file with mode: 0644]
Documentation/devicetree/bindings/rng/xiphera,xip8001b-trng.yaml [new file with mode: 0644]
Documentation/devicetree/bindings/timer/renesas,cmt.yaml
Documentation/devicetree/bindings/trivial-devices.yaml
Documentation/devicetree/bindings/vendor-prefixes.yaml
Documentation/doc-guide/kernel-doc.rst
Documentation/doc-guide/sphinx.rst
Documentation/driver-api/dma-buf.rst
Documentation/driver-api/gpio/driver.rst
Documentation/driver-api/nvdimm/index.rst
Documentation/driver-api/soundwire/stream.rst
Documentation/fb/fbcon.rst
Documentation/fb/matroxfb.rst
Documentation/fb/sstfb.rst
Documentation/fb/vesafb.rst
Documentation/filesystems/index.rst
Documentation/filesystems/mount_api.rst
Documentation/filesystems/seq_file.rst
Documentation/filesystems/sysfs.rst
Documentation/filesystems/ubifs-authentication.rst
Documentation/firmware-guide/acpi/index.rst
Documentation/hwmon/index.rst
Documentation/ia64/index.rst
Documentation/ia64/xen.rst [deleted file]
Documentation/iio/iio_configfs.rst
Documentation/kbuild/llvm.rst
Documentation/locking/lockdep-design.rst
Documentation/locking/seqlock.rst
Documentation/maintainer/index.rst
Documentation/maintainer/modifying-patches.rst [new file with mode: 0644]
Documentation/memory-barriers.txt
Documentation/networking/index.rst
Documentation/networking/sysfs-tagging.rst [moved from Documentation/filesystems/sysfs-tagging.rst with 100% similarity]
Documentation/process/2.Process.rst
Documentation/process/changes.rst
Documentation/process/deprecated.rst
Documentation/process/email-clients.rst
Documentation/process/programming-language.rst
Documentation/process/submit-checklist.rst
Documentation/process/submitting-drivers.rst
Documentation/process/submitting-patches.rst
Documentation/scheduler/sched-capacity.rst
Documentation/scheduler/sched-energy.rst
Documentation/security/credentials.rst
Documentation/security/keys/trusted-encrypted.rst
Documentation/sphinx/automarkup.py
Documentation/trace/kprobetrace.rst
Documentation/trace/ring-buffer-design.rst
Documentation/translations/ko_KR/howto.rst
Documentation/translations/ko_KR/memory-barriers.txt
Documentation/translations/zh_CN/arm64/amu.rst [new file with mode: 0644]
Documentation/translations/zh_CN/arm64/index.rst [new file with mode: 0644]
Documentation/translations/zh_CN/filesystems/sysfs.txt
Documentation/translations/zh_CN/index.rst
Documentation/virt/index.rst
Documentation/virt/kvm/amd-memory-encryption.rst
Documentation/virt/kvm/api.rst
Documentation/virt/kvm/arm/hyp-abi.rst
Documentation/virt/kvm/cpuid.rst
Documentation/virt/uml/user_mode_linux.rst [deleted file]
Documentation/virt/uml/user_mode_linux_howto_v2.rst [new file with mode: 0644]
Documentation/vm/hmm.rst
Documentation/vm/index.rst
Documentation/vm/page_migration.rst
Documentation/watch_queue.rst
Documentation/x86/boot.rst
Documentation/x86/cpuinfo.rst [new file with mode: 0644]
Documentation/x86/index.rst
Documentation/x86/resctrl_ui.rst
Documentation/x86/sva.rst [new file with mode: 0644]
MAINTAINERS
Makefile
arch/Kconfig
arch/alpha/include/asm/checksum.h
arch/alpha/kernel/vmlinux.lds.S
arch/alpha/lib/csum_partial_copy.c
arch/arc/kernel/kprobes.c
arch/arc/kernel/vmlinux.lds.S
arch/arm/Kconfig
arch/arm/Makefile
arch/arm/boot/compressed/Makefile
arch/arm/boot/compressed/vmlinux.lds.S
arch/arm/crypto/aes-neonbs-core.S
arch/arm/crypto/aes-neonbs-glue.c
arch/arm/crypto/curve25519-glue.c
arch/arm/crypto/poly1305-glue.c
arch/arm/crypto/sha256-armv4.pl
arch/arm/crypto/sha256-core.S_shipped
arch/arm/crypto/sha512-armv4.pl
arch/arm/crypto/sha512-core.S_shipped
arch/arm/include/asm/checksum.h
arch/arm/include/asm/efi.h
arch/arm/include/asm/hardirq.h
arch/arm/include/asm/smp.h
arch/arm/include/asm/vmlinux.lds.h [moved from arch/arm/kernel/vmlinux.lds.h with 84% similarity]
arch/arm/kernel/irq.c
arch/arm/kernel/smp.c
arch/arm/kernel/topology.c
arch/arm/kernel/vmlinux-xip.lds.S
arch/arm/kernel/vmlinux.lds.S
arch/arm/lib/csumpartialcopy.S
arch/arm/lib/csumpartialcopygeneric.S
arch/arm/lib/csumpartialcopyuser.S
arch/arm/probes/kprobes/core.c
arch/arm/xen/enlighten.c
arch/arm64/Kconfig
arch/arm64/Makefile
arch/arm64/crypto/aes-neonbs-core.S
arch/arm64/crypto/ghash-ce-glue.c
arch/arm64/crypto/sha1-ce-glue.c
arch/arm64/crypto/sha2-ce-glue.c
arch/arm64/include/asm/arch_gicv3.h
arch/arm64/include/asm/archrandom.h
arch/arm64/include/asm/boot.h
arch/arm64/include/asm/compat.h
arch/arm64/include/asm/cpu_ops.h
arch/arm64/include/asm/cpucaps.h
arch/arm64/include/asm/cpufeature.h
arch/arm64/include/asm/efi.h
arch/arm64/include/asm/esr.h
arch/arm64/include/asm/exception.h
arch/arm64/include/asm/extable.h
arch/arm64/include/asm/fpsimd.h
arch/arm64/include/asm/fpsimdmacros.h
arch/arm64/include/asm/hardirq.h
arch/arm64/include/asm/hwcap.h
arch/arm64/include/asm/insn.h
arch/arm64/include/asm/irq_work.h
arch/arm64/include/asm/kernel-pgtable.h
arch/arm64/include/asm/kvm_arm.h
arch/arm64/include/asm/kvm_asm.h
arch/arm64/include/asm/kvm_emulate.h
arch/arm64/include/asm/kvm_host.h
arch/arm64/include/asm/kvm_mmu.h
arch/arm64/include/asm/memory.h
arch/arm64/include/asm/mman.h
arch/arm64/include/asm/mmu.h
arch/arm64/include/asm/mmu_context.h
arch/arm64/include/asm/mte.h [new file with mode: 0644]
arch/arm64/include/asm/numa.h
arch/arm64/include/asm/page-def.h
arch/arm64/include/asm/page.h
arch/arm64/include/asm/pci.h
arch/arm64/include/asm/perf_event.h
arch/arm64/include/asm/pgtable-hwdef.h
arch/arm64/include/asm/pgtable-prot.h
arch/arm64/include/asm/pgtable.h
arch/arm64/include/asm/processor.h
arch/arm64/include/asm/ptrace.h
arch/arm64/include/asm/smp.h
arch/arm64/include/asm/spectre.h [new file with mode: 0644]
arch/arm64/include/asm/stacktrace.h
arch/arm64/include/asm/sysreg.h
arch/arm64/include/asm/thread_info.h
arch/arm64/include/asm/traps.h
arch/arm64/include/asm/unistd32.h
arch/arm64/include/uapi/asm/hwcap.h
arch/arm64/include/uapi/asm/kvm.h
arch/arm64/include/uapi/asm/mman.h
arch/arm64/include/uapi/asm/ptrace.h
arch/arm64/kernel/Makefile
arch/arm64/kernel/cpu-reset.S
arch/arm64/kernel/cpu_errata.c
arch/arm64/kernel/cpufeature.c
arch/arm64/kernel/cpuinfo.c
arch/arm64/kernel/debug-monitors.c
arch/arm64/kernel/entry-common.c
arch/arm64/kernel/entry-fpsimd.S
arch/arm64/kernel/entry.S
arch/arm64/kernel/fpsimd.c
arch/arm64/kernel/head.S
arch/arm64/kernel/hibernate.c
arch/arm64/kernel/image-vars.h
arch/arm64/kernel/image.h
arch/arm64/kernel/insn.c
arch/arm64/kernel/irq.c
arch/arm64/kernel/mte.c [new file with mode: 0644]
arch/arm64/kernel/perf_callchain.c
arch/arm64/kernel/perf_event.c
arch/arm64/kernel/perf_regs.c
arch/arm64/kernel/probes/decode-insn.c
arch/arm64/kernel/probes/kprobes.c
arch/arm64/kernel/process.c
arch/arm64/kernel/proton-pack.c [new file with mode: 0644]
arch/arm64/kernel/ptrace.c
arch/arm64/kernel/relocate_kernel.S
arch/arm64/kernel/return_address.c
arch/arm64/kernel/signal.c
arch/arm64/kernel/smccc-call.S
arch/arm64/kernel/smp.c
arch/arm64/kernel/smp_spin_table.c
arch/arm64/kernel/ssbd.c [deleted file]
arch/arm64/kernel/stacktrace.c
arch/arm64/kernel/suspend.c
arch/arm64/kernel/syscall.c
arch/arm64/kernel/topology.c
arch/arm64/kernel/traps.c
arch/arm64/kernel/vdso.c
arch/arm64/kernel/vmlinux.lds.S
arch/arm64/kvm/Kconfig
arch/arm64/kvm/arm.c
arch/arm64/kvm/hyp/Makefile
arch/arm64/kvm/hyp/hyp-entry.S
arch/arm64/kvm/hyp/include/hyp/switch.h
arch/arm64/kvm/hyp/nvhe/switch.c
arch/arm64/kvm/hyp/vhe/switch.c
arch/arm64/kvm/hypercalls.c
arch/arm64/kvm/pmu-emul.c
arch/arm64/kvm/psci.c
arch/arm64/kvm/reset.c
arch/arm64/kvm/sys_regs.c
arch/arm64/kvm/vgic/vgic-mmio-v3.c
arch/arm64/lib/Makefile
arch/arm64/lib/mte.S [new file with mode: 0644]
arch/arm64/mm/Makefile
arch/arm64/mm/context.c
arch/arm64/mm/copypage.c
arch/arm64/mm/extable.c
arch/arm64/mm/fault.c
arch/arm64/mm/mmu.c
arch/arm64/mm/mteswap.c [new file with mode: 0644]
arch/arm64/mm/numa.c
arch/arm64/mm/pageattr.c
arch/arm64/mm/proc.S
arch/arm64/mm/ptdump.c [moved from arch/arm64/mm/dump.c with 97% similarity]
arch/c6x/include/asm/checksum.h
arch/c6x/lib/csum_64plus.S
arch/csky/kernel/probes/kprobes.c
arch/csky/kernel/vmlinux.lds.S
arch/hexagon/include/asm/checksum.h
arch/hexagon/kernel/vmlinux.lds.S
arch/hexagon/lib/checksum.c
arch/ia64/Kconfig
arch/ia64/configs/bigsur_defconfig
arch/ia64/configs/generic_defconfig
arch/ia64/configs/gensparse_defconfig
arch/ia64/configs/tiger_defconfig
arch/ia64/configs/zx1_defconfig
arch/ia64/include/asm/checksum.h
arch/ia64/include/asm/processor.h
arch/ia64/include/asm/switch_to.h
arch/ia64/kernel/Makefile
arch/ia64/kernel/irq_ia64.c
arch/ia64/kernel/kprobes.c
arch/ia64/kernel/perfmon.c [deleted file]
arch/ia64/kernel/process.c
arch/ia64/kernel/ptrace.c
arch/ia64/kernel/smpboot.c
arch/ia64/kernel/syscalls/syscall.tbl
arch/ia64/kernel/vmlinux.lds.S
arch/ia64/lib/Makefile
arch/ia64/lib/carta_random.S [deleted file]
arch/ia64/lib/csum_partial_copy.c
arch/ia64/oprofile/Makefile
arch/ia64/oprofile/init.c
arch/ia64/oprofile/perfmon.c [deleted file]
arch/m68k/Kconfig
arch/m68k/amiga/config.c
arch/m68k/configs/mac_defconfig
arch/m68k/configs/multi_defconfig
arch/m68k/include/asm/checksum.h
arch/m68k/include/asm/thread_info.h
arch/m68k/kernel/head.S
arch/m68k/kernel/traps.c
arch/m68k/lib/checksum.c
arch/m68k/mac/config.c
arch/m68k/mac/macboing.c
arch/m68k/mm/mcfmmu.c
arch/m68k/mm/motorola.c
arch/microblaze/include/asm/Kbuild
arch/mips/Kconfig
arch/mips/include/asm/checksum.h
arch/mips/include/asm/compat.h
arch/mips/kernel/kprobes.c
arch/mips/kernel/syscalls/syscall_n32.tbl
arch/mips/kernel/syscalls/syscall_o32.tbl
arch/mips/kernel/vmlinux.lds.S
arch/mips/lib/csum_partial.S
arch/nds32/kernel/vmlinux.lds.S
arch/nios2/include/asm/checksum.h
arch/nios2/kernel/vmlinux.lds.S
arch/openrisc/kernel/vmlinux.lds.S
arch/parisc/boot/compressed/vmlinux.lds.S
arch/parisc/include/asm/checksum.h
arch/parisc/include/asm/compat.h
arch/parisc/kernel/kprobes.c
arch/parisc/kernel/syscalls/syscall.tbl
arch/parisc/kernel/vmlinux.lds.S
arch/parisc/lib/checksum.c
arch/powerpc/Kconfig
arch/powerpc/crypto/crc-vpmsum_test.c
arch/powerpc/include/asm/checksum.h
arch/powerpc/include/asm/compat.h
arch/powerpc/include/asm/string.h
arch/powerpc/include/asm/uaccess.h
arch/powerpc/kernel/kprobes.c
arch/powerpc/kernel/syscalls/syscall.tbl
arch/powerpc/kernel/vmlinux.lds.S
arch/powerpc/lib/Makefile
arch/powerpc/lib/checksum_32.S
arch/powerpc/lib/checksum_64.S
arch/powerpc/lib/checksum_wrappers.c
arch/powerpc/lib/copy_mc_64.S [moved from arch/powerpc/lib/memcpy_mcsafe_64.S with 98% similarity]
arch/powerpc/net/bpf_jit_comp.c
arch/riscv/kernel/vmlinux.lds.S
arch/riscv/mm/init.c
arch/s390/Kconfig
arch/s390/include/asm/checksum.h
arch/s390/include/asm/compat.h
arch/s390/kernel/kprobes.c
arch/s390/kernel/stacktrace.c
arch/s390/kernel/syscalls/syscall.tbl
arch/s390/kernel/vmlinux.lds.S
arch/sh/include/asm/checksum_32.h
arch/sh/kernel/kprobes.c
arch/sh/kernel/vmlinux.lds.S
arch/sh/lib/checksum.S
arch/sparc/Kconfig
arch/sparc/include/asm/checksum.h
arch/sparc/include/asm/checksum_32.h
arch/sparc/include/asm/checksum_64.h
arch/sparc/include/asm/compat.h
arch/sparc/kernel/kprobes.c
arch/sparc/kernel/syscalls/syscall.tbl
arch/sparc/kernel/vmlinux.lds.S
arch/sparc/lib/checksum_32.S
arch/sparc/lib/csum_copy.S
arch/sparc/lib/csum_copy_from_user.S
arch/sparc/lib/csum_copy_to_user.S
arch/sparc/mm/fault_32.c
arch/um/kernel/dyn.lds.S
arch/um/kernel/uml.lds.S
arch/x86/Kconfig
arch/x86/Kconfig.debug
arch/x86/Makefile
arch/x86/boot/compressed/Makefile
arch/x86/boot/compressed/head_32.S
arch/x86/boot/compressed/head_64.S
arch/x86/boot/compressed/kaslr.c
arch/x86/boot/compressed/misc.h
arch/x86/boot/compressed/mkpiggy.c
arch/x86/boot/compressed/vmlinux.lds.S
arch/x86/boot/setup.ld
arch/x86/boot/tools/build.c
arch/x86/crypto/blake2s-glue.c
arch/x86/crypto/chacha_glue.c
arch/x86/crypto/crc32c-intel_glue.c
arch/x86/crypto/curve25519-x86_64.c
arch/x86/crypto/nhpoly1305-avx2-glue.c
arch/x86/crypto/nhpoly1305-sse2-glue.c
arch/x86/crypto/poly1305-x86_64-cryptogams.pl
arch/x86/crypto/poly1305_glue.c
arch/x86/entry/calling.h
arch/x86/entry/entry_64.S
arch/x86/entry/syscall_x32.c
arch/x86/entry/syscalls/syscall_32.tbl
arch/x86/entry/syscalls/syscall_64.tbl
arch/x86/entry/vdso/vdso32/vclock_gettime.c
arch/x86/events/amd/ibs.c
arch/x86/events/amd/iommu.c
arch/x86/events/amd/uncore.c
arch/x86/events/core.c
arch/x86/events/intel/core.c
arch/x86/events/intel/ds.c
arch/x86/events/intel/uncore.c
arch/x86/events/intel/uncore.h
arch/x86/events/intel/uncore_snb.c
arch/x86/events/intel/uncore_snbep.c
arch/x86/events/msr.c
arch/x86/events/perf_event.h
arch/x86/events/rapl.c
arch/x86/hyperv/hv_init.c
arch/x86/hyperv/hv_spinlock.c
arch/x86/include/asm/apic.h
arch/x86/include/asm/asm-prototypes.h
arch/x86/include/asm/asm.h
arch/x86/include/asm/checksum.h
arch/x86/include/asm/checksum_32.h
arch/x86/include/asm/checksum_64.h
arch/x86/include/asm/compat.h
arch/x86/include/asm/copy_mc_test.h [new file with mode: 0644]
arch/x86/include/asm/cpufeatures.h
arch/x86/include/asm/debugreg.h
arch/x86/include/asm/disabled-features.h
arch/x86/include/asm/extable.h
arch/x86/include/asm/fixmap.h
arch/x86/include/asm/fpu/api.h
arch/x86/include/asm/fpu/internal.h
arch/x86/include/asm/fpu/types.h
arch/x86/include/asm/fpu/xstate.h
arch/x86/include/asm/fsgsbase.h
arch/x86/include/asm/hw_irq.h
arch/x86/include/asm/hyperv-tlfs.h
arch/x86/include/asm/idtentry.h
arch/x86/include/asm/io.h
arch/x86/include/asm/irq_remapping.h
arch/x86/include/asm/irqdomain.h
arch/x86/include/asm/kprobes.h
arch/x86/include/asm/mce.h
arch/x86/include/asm/mcsafe_test.h [deleted file]
arch/x86/include/asm/mpspec.h
arch/x86/include/asm/msi.h
arch/x86/include/asm/msr-index.h
arch/x86/include/asm/paravirt.h
arch/x86/include/asm/paravirt_types.h
arch/x86/include/asm/pci.h
arch/x86/include/asm/pci_x86.h
arch/x86/include/asm/perf_event.h
arch/x86/include/asm/pgtable-3level_types.h
arch/x86/include/asm/pgtable.h
arch/x86/include/asm/pgtable_64_types.h
arch/x86/include/asm/processor.h
arch/x86/include/asm/required-features.h
arch/x86/include/asm/segment.h
arch/x86/include/asm/special_insns.h
arch/x86/include/asm/static_call.h [new file with mode: 0644]
arch/x86/include/asm/string_64.h
arch/x86/include/asm/sync_core.h
arch/x86/include/asm/text-patching.h
arch/x86/include/asm/traps.h
arch/x86/include/asm/uaccess.h
arch/x86/include/asm/uaccess_64.h
arch/x86/include/asm/uv/bios.h
arch/x86/include/asm/uv/uv.h
arch/x86/include/asm/uv/uv_bau.h [deleted file]
arch/x86/include/asm/uv/uv_hub.h
arch/x86/include/asm/uv/uv_mmrs.h
arch/x86/include/asm/x86_init.h
arch/x86/kernel/Makefile
arch/x86/kernel/alternative.c
arch/x86/kernel/apic/apic.c
arch/x86/kernel/apic/io_apic.c
arch/x86/kernel/apic/msi.c
arch/x86/kernel/apic/probe_32.c
arch/x86/kernel/apic/probe_64.c
arch/x86/kernel/apic/vector.c
arch/x86/kernel/apic/x2apic_uv_x.c
arch/x86/kernel/cpu/centaur.c
arch/x86/kernel/cpu/common.c
arch/x86/kernel/cpu/cpuid-deps.c
arch/x86/kernel/cpu/mce/amd.c
arch/x86/kernel/cpu/mce/core.c
arch/x86/kernel/cpu/mce/dev-mcelog.c
arch/x86/kernel/cpu/mce/internal.h
arch/x86/kernel/cpu/mce/severity.c
arch/x86/kernel/cpu/mshyperv.c
arch/x86/kernel/cpu/resctrl/core.c
arch/x86/kernel/cpu/resctrl/ctrlmondata.c
arch/x86/kernel/cpu/resctrl/internal.h
arch/x86/kernel/cpu/resctrl/monitor.c
arch/x86/kernel/cpu/resctrl/rdtgroup.c
arch/x86/kernel/cpu/scattered.c
arch/x86/kernel/devicetree.c
arch/x86/kernel/dumpstack.c
arch/x86/kernel/fpu/init.c
arch/x86/kernel/fpu/xstate.c
arch/x86/kernel/hw_breakpoint.c
arch/x86/kernel/idt.c
arch/x86/kernel/kgdb.c
arch/x86/kernel/kprobes/core.c
arch/x86/kernel/kprobes/opt.c
arch/x86/kernel/mpparse.c
arch/x86/kernel/msr.c
arch/x86/kernel/nmi.c
arch/x86/kernel/paravirt.c
arch/x86/kernel/paravirt_patch.c
arch/x86/kernel/process_64.c
arch/x86/kernel/ptrace.c
arch/x86/kernel/quirks.c
arch/x86/kernel/setup.c
arch/x86/kernel/signal_compat.c
arch/x86/kernel/stacktrace.c
arch/x86/kernel/static_call.c [new file with mode: 0644]
arch/x86/kernel/traps.c
arch/x86/kernel/tsc.c
arch/x86/kernel/umip.c
arch/x86/kernel/vmlinux.lds.S
arch/x86/kernel/x86_init.c
arch/x86/kvm/cpuid.c
arch/x86/kvm/hyperv.c
arch/x86/kvm/svm/sev.c
arch/x86/lib/Makefile
arch/x86/lib/checksum_32.S
arch/x86/lib/copy_mc.c [new file with mode: 0644]
arch/x86/lib/copy_mc_64.S [new file with mode: 0644]
arch/x86/lib/copy_user_64.S
arch/x86/lib/csum-copy_64.S
arch/x86/lib/csum-wrappers_64.c
arch/x86/lib/getuser.S
arch/x86/lib/memcpy_64.S
arch/x86/lib/putuser.S
arch/x86/lib/usercopy_64.c
arch/x86/mm/extable.c
arch/x86/mm/fault.c
arch/x86/mm/init_64.c
arch/x86/mm/pat/set_memory.c
arch/x86/mm/tlb.c
arch/x86/pci/common.c
arch/x86/pci/init.c
arch/x86/pci/xen.c
arch/x86/platform/efi/efi.c
arch/x86/platform/uv/Makefile
arch/x86/platform/uv/bios_uv.c
arch/x86/platform/uv/tlb_uv.c [deleted file]
arch/x86/platform/uv/uv_irq.c
arch/x86/platform/uv/uv_nmi.c
arch/x86/platform/uv/uv_time.c
arch/x86/um/asm/checksum.h
arch/x86/um/asm/checksum_32.h
arch/x86/xen/enlighten_pv.c
arch/x86/xen/mmu_pv.c
arch/xtensa/include/asm/checksum.h
arch/xtensa/lib/checksum.S
block/partitions/ibm.c
block/scsi_ioctl.c
crypto/Kconfig
crypto/Makefile
crypto/af_alg.c
crypto/ahash.c
crypto/algif_aead.c
crypto/algif_rng.c
crypto/algif_skcipher.c
crypto/arc4.c
crypto/asymmetric_keys/public_key.c
crypto/asymmetric_keys/x509_cert_parser.c
crypto/asymmetric_keys/x509_public_key.c
crypto/cbc.c
crypto/crc32c_generic.c
crypto/crct10dif_generic.c
crypto/crypto_engine.c
crypto/ecrdsa.c
crypto/internal.h
crypto/jitterentropy-kcapi.c
crypto/proc.c
crypto/rsa-pkcs1pad.c
crypto/sm2.c [new file with mode: 0644]
crypto/sm2signature.asn1 [new file with mode: 0644]
crypto/sm3_generic.c
crypto/tcrypt.c
crypto/tcrypt.h
crypto/testmgr.c
crypto/testmgr.h
crypto/xor.c
drivers/acpi/arm64/iort.c
drivers/block/drbd/drbd_main.c
drivers/char/hw_random/Kconfig
drivers/char/hw_random/Makefile
drivers/char/hw_random/cctrng.c
drivers/char/hw_random/imx-rngc.c
drivers/char/hw_random/ingenic-trng.c [new file with mode: 0644]
drivers/char/hw_random/intel-rng.c
drivers/char/hw_random/iproc-rng200.c
drivers/char/hw_random/mxc-rnga.c
drivers/char/hw_random/npcm-rng.c
drivers/char/hw_random/optee-rng.c
drivers/char/hw_random/stm32-rng.c
drivers/char/hw_random/xiphera-trng.c [new file with mode: 0644]
drivers/char/tpm/Kconfig
drivers/char/tpm/Makefile
drivers/char/tpm/tpm-sysfs.c
drivers/char/tpm/tpm_tis_core.c
drivers/char/tpm/tpm_tis_core.h
drivers/char/tpm/tpm_tis_synquacer.c [new file with mode: 0644]
drivers/clocksource/mps2-timer.c
drivers/clocksource/timer-armada-370-xp.c
drivers/clocksource/timer-sp.h
drivers/clocksource/timer-sp804.c
drivers/crypto/Kconfig
drivers/crypto/allwinner/Kconfig
drivers/crypto/allwinner/sun4i-ss/sun4i-ss-hash.c
drivers/crypto/allwinner/sun8i-ce/Makefile
drivers/crypto/allwinner/sun8i-ce/sun8i-ce-cipher.c
drivers/crypto/allwinner/sun8i-ce/sun8i-ce-core.c
drivers/crypto/allwinner/sun8i-ce/sun8i-ce-hash.c [new file with mode: 0644]
drivers/crypto/allwinner/sun8i-ce/sun8i-ce-prng.c [new file with mode: 0644]
drivers/crypto/allwinner/sun8i-ce/sun8i-ce-trng.c [new file with mode: 0644]
drivers/crypto/allwinner/sun8i-ce/sun8i-ce.h
drivers/crypto/allwinner/sun8i-ss/Makefile
drivers/crypto/allwinner/sun8i-ss/sun8i-ss-cipher.c
drivers/crypto/allwinner/sun8i-ss/sun8i-ss-core.c
drivers/crypto/allwinner/sun8i-ss/sun8i-ss-hash.c [new file with mode: 0644]
drivers/crypto/allwinner/sun8i-ss/sun8i-ss-prng.c [new file with mode: 0644]
drivers/crypto/allwinner/sun8i-ss/sun8i-ss.h
drivers/crypto/amcc/crypto4xx_alg.c
drivers/crypto/amcc/crypto4xx_core.h
drivers/crypto/amlogic/amlogic-gxl-cipher.c
drivers/crypto/amlogic/amlogic-gxl-core.c
drivers/crypto/atmel-aes.c
drivers/crypto/atmel-tdes.c
drivers/crypto/bcm/cipher.c
drivers/crypto/bcm/cipher.h
drivers/crypto/bcm/spu.c
drivers/crypto/bcm/spu.h
drivers/crypto/bcm/spu2.c
drivers/crypto/bcm/spu2.h
drivers/crypto/caam/Kconfig
drivers/crypto/caam/Makefile
drivers/crypto/caam/caamalg.c
drivers/crypto/caam/caamalg_desc.c
drivers/crypto/caam/caamalg_qi.c
drivers/crypto/caam/caamalg_qi2.c
drivers/crypto/caam/caamalg_qi2.h
drivers/crypto/caam/ctrl.c
drivers/crypto/caam/debugfs.c [new file with mode: 0644]
drivers/crypto/caam/debugfs.h [new file with mode: 0644]
drivers/crypto/caam/dpseci-debugfs.c
drivers/crypto/caam/intern.h
drivers/crypto/caam/jr.c
drivers/crypto/caam/qi.c
drivers/crypto/cavium/cpt/cptvf_algs.c
drivers/crypto/cavium/nitrox/nitrox_main.c
drivers/crypto/cavium/zip/zip_main.c
drivers/crypto/ccp/ccp-ops.c
drivers/crypto/ccree/cc_cipher.c
drivers/crypto/ccree/cc_crypto_ctx.h
drivers/crypto/ccree/cc_driver.c
drivers/crypto/ccree/cc_driver.h
drivers/crypto/ccree/cc_pm.c
drivers/crypto/chelsio/chcr_core.c
drivers/crypto/hifn_795x.c
drivers/crypto/hisilicon/hpre/hpre.h
drivers/crypto/hisilicon/hpre/hpre_crypto.c
drivers/crypto/hisilicon/hpre/hpre_main.c
drivers/crypto/hisilicon/qm.c
drivers/crypto/hisilicon/qm.h
drivers/crypto/hisilicon/sec2/sec_crypto.c
drivers/crypto/hisilicon/sec2/sec_main.c
drivers/crypto/hisilicon/zip/zip.h
drivers/crypto/hisilicon/zip/zip_crypto.c
drivers/crypto/hisilicon/zip/zip_main.c
drivers/crypto/img-hash.c
drivers/crypto/inside-secure/safexcel.c
drivers/crypto/inside-secure/safexcel.h
drivers/crypto/inside-secure/safexcel_cipher.c
drivers/crypto/inside-secure/safexcel_hash.c
drivers/crypto/inside-secure/safexcel_ring.c
drivers/crypto/ixp4xx_crypto.c
drivers/crypto/marvell/cesa/cesa.c
drivers/crypto/marvell/cesa/cesa.h
drivers/crypto/marvell/cesa/cipher.c
drivers/crypto/marvell/cesa/hash.c
drivers/crypto/marvell/cesa/tdma.c
drivers/crypto/marvell/octeontx/otx_cptpf_ucode.c
drivers/crypto/mediatek/mtk-aes.c
drivers/crypto/mediatek/mtk-platform.c
drivers/crypto/mediatek/mtk-sha.c
drivers/crypto/n2_core.c
drivers/crypto/omap-sham.c
drivers/crypto/padlock-aes.c
drivers/crypto/picoxcell_crypto.c
drivers/crypto/qat/qat_c3xxx/adf_drv.c
drivers/crypto/qat/qat_c3xxxvf/adf_drv.c
drivers/crypto/qat/qat_c62x/adf_drv.c
drivers/crypto/qat/qat_c62xvf/adf_drv.c
drivers/crypto/qat/qat_common/adf_accel_devices.h
drivers/crypto/qat/qat_common/adf_aer.c
drivers/crypto/qat/qat_common/adf_cfg.c
drivers/crypto/qat/qat_common/adf_common_drv.h
drivers/crypto/qat/qat_common/adf_ctl_drv.c
drivers/crypto/qat/qat_common/adf_dev_mgr.c
drivers/crypto/qat/qat_common/adf_sriov.c
drivers/crypto/qat/qat_common/adf_transport_debug.c
drivers/crypto/qat/qat_common/qat_algs.c
drivers/crypto/qat/qat_common/qat_hal.c
drivers/crypto/qat/qat_common/qat_uclo.c
drivers/crypto/qat/qat_dh895xcc/adf_drv.c
drivers/crypto/qat/qat_dh895xccvf/adf_drv.c
drivers/crypto/qce/core.c
drivers/crypto/qce/sha.c
drivers/crypto/qce/skcipher.c
drivers/crypto/qcom-rng.c
drivers/crypto/rockchip/rk3288_crypto.c
drivers/crypto/rockchip/rk3288_crypto.h
drivers/crypto/rockchip/rk3288_crypto_ahash.c
drivers/crypto/rockchip/rk3288_crypto_skcipher.c
drivers/crypto/s5p-sss.c
drivers/crypto/sa2ul.c
drivers/crypto/sahara.c
drivers/crypto/stm32/Kconfig
drivers/crypto/stm32/stm32-crc32.c
drivers/crypto/stm32/stm32-cryp.c
drivers/crypto/stm32/stm32-hash.c
drivers/crypto/talitos.c
drivers/crypto/ux500/cryp/cryp_core.c
drivers/crypto/ux500/hash/hash_core.c
drivers/crypto/virtio/Kconfig
drivers/crypto/xilinx/zynqmp-aes-gcm.c
drivers/edac/Kconfig
drivers/edac/Makefile
drivers/edac/al_mc_edac.c [new file with mode: 0644]
drivers/edac/amd64_edac.c
drivers/edac/aspeed_edac.c
drivers/edac/e752x_edac.c
drivers/edac/edac_mc_sysfs.c
drivers/edac/ghes_edac.c
drivers/edac/i5100_edac.c
drivers/edac/i5400_edac.c
drivers/edac/i7300_edac.c
drivers/edac/i7core_edac.c
drivers/edac/ie31200_edac.c
drivers/edac/mce_amd.c
drivers/edac/sb_edac.c
drivers/edac/thunderx_edac.c
drivers/edac/ti_edac.c
drivers/firmware/arm_sdei.c
drivers/firmware/efi/Kconfig
drivers/firmware/efi/Makefile
drivers/firmware/efi/cper.c
drivers/firmware/efi/efi-init.c [moved from drivers/firmware/efi/arm-init.c with 99% similarity]
drivers/firmware/efi/efi-pstore.c
drivers/firmware/efi/efi.c
drivers/firmware/efi/efivars.c
drivers/firmware/efi/libstub/Makefile
drivers/firmware/efi/libstub/arm32-stub.c
drivers/firmware/efi/libstub/arm64-stub.c
drivers/firmware/efi/libstub/efi-stub-helper.c
drivers/firmware/efi/libstub/efi-stub.c
drivers/firmware/efi/libstub/efistub.h
drivers/firmware/efi/libstub/fdt.c
drivers/firmware/efi/libstub/file.c
drivers/firmware/efi/libstub/hidden.h [deleted file]
drivers/firmware/efi/libstub/relocate.c
drivers/firmware/efi/libstub/string.c
drivers/firmware/efi/libstub/vsprintf.c
drivers/firmware/efi/mokvar-table.c [new file with mode: 0644]
drivers/firmware/efi/vars.c
drivers/firmware/google/Kconfig
drivers/firmware/google/gsmi.c
drivers/gpio/gpio-pca953x.c
drivers/gpio/gpio-tegra186.c
drivers/gpio/gpiolib-cdev.c
drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd.h
drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v10.c
drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v7.c
drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v8.c
drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v9.c
drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v9.h
drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gpuvm.c
drivers/gpu/drm/amd/amdgpu/amdgpu_ids.c
drivers/gpu/drm/amd/amdgpu/amdgpu_ids.h
drivers/gpu/drm/amd/amdgpu/amdgpu_kms.c
drivers/gpu/drm/amd/amdgpu/amdgpu_vm.c
drivers/gpu/drm/amd/amdgpu/amdgpu_vm.h
drivers/gpu/drm/amd/amdgpu/soc15.c
drivers/gpu/drm/amd/amdkfd/cik_event_interrupt.c
drivers/gpu/drm/amd/amdkfd/kfd_dbgdev.c
drivers/gpu/drm/amd/amdkfd/kfd_dbgmgr.h
drivers/gpu/drm/amd/amdkfd/kfd_device_queue_manager.c
drivers/gpu/drm/amd/amdkfd/kfd_events.c
drivers/gpu/drm/amd/amdkfd/kfd_events.h
drivers/gpu/drm/amd/amdkfd/kfd_iommu.c
drivers/gpu/drm/amd/amdkfd/kfd_pasid.c
drivers/gpu/drm/amd/amdkfd/kfd_priv.h
drivers/gpu/drm/amd/amdkfd/kfd_process.c
drivers/gpu/drm/amd/display/amdgpu_dm/amdgpu_dm.c
drivers/gpu/drm/amd/display/modules/power/power_helpers.c
drivers/gpu/drm/amd/display/modules/power/power_helpers.h
drivers/gpu/drm/amd/include/kgd_kfd_interface.h
drivers/gpu/drm/amd/powerplay/navi10_ppt.c
drivers/gpu/drm/amd/powerplay/sienna_cichlid_ppt.c
drivers/gpu/drm/i915/i915_active.c
drivers/gpu/drm/i915/i915_sw_fence.c
drivers/gpu/drm/nouveau/nouveau_mem.c
drivers/gpu/drm/nouveau/nvkm/engine/device/base.c
drivers/i2c/busses/i2c-meson.c
drivers/i2c/busses/i2c-owl.c
drivers/ide/Kconfig
drivers/ide/macide.c
drivers/infiniband/core/cache.c
drivers/infiniband/core/cma.c
drivers/infiniband/core/roce_gid_mgmt.c
drivers/infiniband/ulp/ipoib/ipoib_main.c
drivers/iommu/amd/amd_iommu.h
drivers/iommu/amd/iommu.c
drivers/iommu/amd/iommu_v2.c
drivers/iommu/hyperv-iommu.c
drivers/iommu/intel/dmar.c
drivers/iommu/intel/iommu.c
drivers/iommu/intel/irq_remapping.c
drivers/iommu/intel/pasid.c
drivers/iommu/intel/pasid.h
drivers/iommu/intel/svm.c
drivers/iommu/iommu.c
drivers/iommu/irq_remapping.c
drivers/iommu/irq_remapping.h
drivers/irqchip/Kconfig
drivers/irqchip/Makefile
drivers/irqchip/irq-armada-370-xp.c
drivers/irqchip/irq-bcm2836.c
drivers/irqchip/irq-dw-apb-ictl.c
drivers/irqchip/irq-gic-common.c
drivers/irqchip/irq-gic-v3-its.c
drivers/irqchip/irq-gic-v3.c
drivers/irqchip/irq-gic.c
drivers/irqchip/irq-hip04.c
drivers/irqchip/irq-imx-intmux.c
drivers/irqchip/irq-imx-irqsteer.c
drivers/irqchip/irq-loongson-htvec.c
drivers/irqchip/irq-mst-intc.c [new file with mode: 0644]
drivers/irqchip/irq-owl-sirq.c [new file with mode: 0644]
drivers/irqchip/irq-pruss-intc.c [new file with mode: 0644]
drivers/irqchip/irq-ti-sci-inta.c
drivers/irqchip/irq-ti-sci-intr.c
drivers/irqchip/qcom-pdc.c
drivers/md/dm-writecache.c
drivers/misc/sgi-gru/grufile.c
drivers/misc/sgi-xp/xp.h
drivers/misc/sgi-xp/xp_main.c
drivers/misc/sgi-xp/xp_uv.c
drivers/misc/sgi-xp/xpc_main.c
drivers/misc/sgi-xp/xpc_partition.c
drivers/misc/sgi-xp/xpnet.c
drivers/misc/uacce/uacce.c
drivers/mmc/core/queue.c
drivers/net/bonding/bond_alb.c
drivers/net/bonding/bond_main.c
drivers/net/dsa/microchip/ksz_common.c
drivers/net/dsa/ocelot/felix_vsc9959.c
drivers/net/dsa/ocelot/seville_vsc9953.c
drivers/net/ethernet/3com/typhoon.c
drivers/net/ethernet/3com/typhoon.h
drivers/net/ethernet/aquantia/atlantic/Makefile
drivers/net/ethernet/broadcom/bnx2x/bnx2x_reg.h
drivers/net/ethernet/cavium/octeon/octeon_mgmt.c
drivers/net/ethernet/freescale/dpaa2/dpni-cmd.h
drivers/net/ethernet/freescale/xgmac_mdio.c
drivers/net/ethernet/huawei/hinic/Kconfig
drivers/net/ethernet/huawei/hinic/hinic_port.c
drivers/net/ethernet/huawei/hinic/hinic_sriov.c
drivers/net/ethernet/intel/iavf/iavf_main.c
drivers/net/ethernet/intel/ice/ice_common.c
drivers/net/ethernet/intel/ice/ice_fw_update.c
drivers/net/ethernet/intel/ice/ice_lib.c
drivers/net/ethernet/intel/ice/ice_lib.h
drivers/net/ethernet/intel/ice/ice_main.c
drivers/net/ethernet/intel/ixgbe/ixgbe_main.c
drivers/net/ethernet/lantiq_xrx200.c
drivers/net/ethernet/marvell/mvneta.c
drivers/net/ethernet/marvell/octeontx2/af/mbox.c
drivers/net/ethernet/marvell/octeontx2/af/mbox.h
drivers/net/ethernet/marvell/octeontx2/af/rvu.h
drivers/net/ethernet/marvell/octeontx2/af/rvu_nix.c
drivers/net/ethernet/marvell/octeontx2/af/rvu_npc.c
drivers/net/ethernet/marvell/octeontx2/nic/otx2_pf.c
drivers/net/ethernet/marvell/octeontx2/nic/otx2_txrx.c
drivers/net/ethernet/marvell/octeontx2/nic/otx2_vf.c
drivers/net/ethernet/mellanox/mlx5/core/cmd.c
drivers/net/ethernet/mellanox/mlx5/core/en.h
drivers/net/ethernet/mellanox/mlx5/core/en/port.c
drivers/net/ethernet/mellanox/mlx5/core/en/rep/neigh.c
drivers/net/ethernet/mellanox/mlx5/core/en/tc_ct.c
drivers/net/ethernet/mellanox/mlx5/core/en_fs.c
drivers/net/ethernet/mellanox/mlx5/core/en_main.c
drivers/net/ethernet/mellanox/mlx5/core/en_rep.h
drivers/net/ethernet/mellanox/mlx5/core/eq.c
drivers/net/ethernet/mellanox/mlx5/core/lib/eq.h
drivers/net/ethernet/mellanox/mlx5/core/pagealloc.c
drivers/net/ethernet/mellanox/mlx5/core/pci_irq.c
drivers/net/ethernet/mellanox/mlxsw/spectrum.c
drivers/net/ethernet/mellanox/mlxsw/spectrum_acl_tcam.c
drivers/net/ethernet/mellanox/mlxsw/spectrum_router.c
drivers/net/ethernet/mellanox/mlxsw/spectrum_switchdev.c
drivers/net/ethernet/mscc/ocelot.c
drivers/net/ethernet/mscc/ocelot_vsc7514.c
drivers/net/ethernet/realtek/r8169_main.c
drivers/net/ethernet/renesas/ravb_main.c
drivers/net/ethernet/rocker/rocker_main.c
drivers/net/ethernet/stmicro/stmmac/dwmac-intel.c
drivers/net/ethernet/stmicro/stmmac/stmmac.h
drivers/net/ethernet/stmicro/stmmac/stmmac_ethtool.c
drivers/net/ethernet/stmicro/stmmac/stmmac_main.c
drivers/net/ethernet/sun/sunvnet_common.c
drivers/net/ethernet/via/via-rhine.c
drivers/net/macsec.c
drivers/net/phy/Kconfig
drivers/net/phy/realtek.c
drivers/net/team/team.c
drivers/net/usb/ax88179_178a.c
drivers/net/usb/pegasus.c
drivers/net/usb/qmi_wwan.c
drivers/net/usb/rtl8150.c
drivers/net/virtio_net.c
drivers/net/vmxnet3/vmxnet3_drv.c
drivers/net/vmxnet3/vmxnet3_ethtool.c
drivers/net/vmxnet3/vmxnet3_int.h
drivers/net/wan/x25_asy.c
drivers/net/wireless/intel/ipw2x00/Kconfig
drivers/net/wireless/intersil/hostap/Kconfig
drivers/net/wireless/mediatek/mt76/mt7615/init.c
drivers/net/wireless/quantenna/qtnfmac/core.c
drivers/nvdimm/claim.c
drivers/nvdimm/pmem.c
drivers/nvme/host/core.c
drivers/nvme/host/tcp.c
drivers/oprofile/buffer_sync.c
drivers/pci/Kconfig
drivers/pci/controller/Kconfig
drivers/pci/controller/pci-hyperv.c
drivers/pci/controller/vmd.c
drivers/pci/msi.c
drivers/perf/Kconfig
drivers/perf/Makefile
drivers/perf/arm-cmn.c [new file with mode: 0644]
drivers/perf/arm_dsu_pmu.c
drivers/perf/arm_pmu.c
drivers/perf/hisilicon/hisi_uncore_pmu.h
drivers/perf/thunderx2_pmu.c
drivers/perf/xgene_pmu.c
drivers/pinctrl/qcom/pinctrl-msm.c
drivers/platform/olpc/olpc-ec.c
drivers/platform/x86/Kconfig
drivers/platform/x86/asus-nb-wmi.c
drivers/platform/x86/asus-wmi.c
drivers/platform/x86/asus-wmi.h
drivers/platform/x86/intel-vbtn.c
drivers/platform/x86/intel_pmc_core_pltdrv.c
drivers/platform/x86/mlx-platform.c
drivers/platform/x86/pcengines-apuv2.c
drivers/platform/x86/thinkpad_acpi.c
drivers/platform/x86/touchscreen_dmi.c
drivers/power/supply/sbs-battery.c
drivers/ras/cec.c
drivers/scsi/libiscsi_tcp.c
drivers/scsi/sg.c
drivers/soc/tegra/pmc.c
drivers/spi/spi-fsl-dspi.c
drivers/staging/rtl8192e/Kconfig
drivers/staging/rtl8192e/rtllib_crypt_tkip.c
drivers/staging/rtl8192e/rtllib_crypt_wep.c
drivers/staging/rtl8192u/Kconfig
drivers/staging/rtl8192u/ieee80211/ieee80211_crypt_tkip.c
drivers/staging/rtl8192u/ieee80211/ieee80211_crypt_wep.c
drivers/vdpa/Kconfig
drivers/vdpa/mlx5/net/mlx5_vnet.c
drivers/vhost/vdpa.c
drivers/vhost/vhost.c
drivers/video/console/newport_con.c
drivers/video/fbdev/Kconfig
drivers/video/fbdev/Makefile
drivers/video/fbdev/amba-clcd.c [new file with mode: 0644]
drivers/video/fbdev/core/fbcon.c
drivers/video/fbdev/core/fbcon.h
drivers/video/fbdev/core/fbcon_rotate.c
drivers/video/fbdev/core/tileblit.c
drivers/zorro/zorro.c
fs/Makefile
fs/afs/inode.c
fs/afs/internal.h
fs/afs/write.c
fs/aio.c
fs/cifs/smb2ops.c
fs/compat.c [deleted file]
fs/crypto/crypto.c
fs/crypto/fname.c
fs/crypto/fscrypt_private.h
fs/crypto/hooks.c
fs/crypto/inline_crypt.c
fs/crypto/keyring.c
fs/crypto/keysetup.c
fs/crypto/keysetup_v1.c
fs/crypto/policy.c
fs/dlm/Kconfig
fs/dlm/config.c
fs/dlm/config.h
fs/dlm/lowcomms.c
fs/dlm/midcomms.c
fs/dlm/midcomms.h
fs/efivarfs/super.c
fs/exfat/cache.c
fs/exfat/exfat_fs.h
fs/exfat/inode.c
fs/exfat/namei.c
fs/exfat/super.c
fs/ext4/dir.c
fs/ext4/ext4.h
fs/ext4/ialloc.c
fs/ext4/namei.c
fs/ext4/super.c
fs/f2fs/dir.c
fs/f2fs/f2fs.h
fs/f2fs/namei.c
fs/f2fs/super.c
fs/internal.h
fs/io_uring.c
fs/namespace.c
fs/nfs/fs_context.c
fs/pipe.c
fs/proc/page.c
fs/proc/task_mmu.c
fs/quota/Kconfig
fs/quota/Makefile
fs/quota/compat.c [deleted file]
fs/quota/compat.h [new file with mode: 0644]
fs/quota/quota.c
fs/read_write.c
fs/splice.c
fs/ubifs/dir.c
include/asm-generic/atomic-instrumented.h
include/asm-generic/bitops/instrumented-atomic.h
include/asm-generic/bitops/instrumented-lock.h
include/asm-generic/bitops/instrumented-non-atomic.h
include/asm-generic/checksum.h
include/asm-generic/compat.h
include/asm-generic/vmlinux.lds.h
include/clocksource/timer-sp804.h [deleted file]
include/crypto/algapi.h
include/crypto/cbc.h [deleted file]
include/crypto/hash.h
include/crypto/if_alg.h
include/crypto/internal/hash.h
include/crypto/public_key.h
include/crypto/sm2.h [new file with mode: 0644]
include/crypto/sm3.h
include/drm/drm_dsc.h
include/kvm/arm_pmu.h
include/linux/amba/clcd-regs.h [new file with mode: 0644]
include/linux/amba/clcd.h [new file with mode: 0644]
include/linux/amd-iommu.h
include/linux/cacheinfo.h
include/linux/compat.h
include/linux/compiler.h
include/linux/cper.h
include/linux/cpuhotplug.h
include/linux/dcache.h
include/linux/debugobjects.h
include/linux/efi.h
include/linux/entry-common.h
include/linux/font.h
include/linux/fs.h
include/linux/fscrypt.h
include/linux/hidden.h [new file with mode: 0644]
include/linux/iio/iio.h
include/linux/instrumented.h
include/linux/intel-iommu.h
include/linux/intel-svm.h
include/linux/iommu.h
include/linux/irq.h
include/linux/irqdomain.h
include/linux/kcsan-checks.h
include/linux/kernel-page-flags.h
include/linux/khugepaged.h
include/linux/kprobes.h
include/linux/lockdep.h
include/linux/lockdep_types.h
include/linux/mlx5/driver.h
include/linux/mm.h
include/linux/mm_types.h
include/linux/mman.h
include/linux/module.h
include/linux/mpi.h
include/linux/msi.h
include/linux/net.h
include/linux/netdevice.h
include/linux/notifier.h
include/linux/oid_registry.h
include/linux/page-flags.h
include/linux/pagemap.h
include/linux/pe.h
include/linux/perf/arm_pmu.h
include/linux/perf_event.h
include/linux/pgtable.h
include/linux/platform_data/gpio/gpio-amd-fch.h
include/linux/quotaops.h
include/linux/rbtree_latch.h
include/linux/refcount.h
include/linux/resctrl.h
include/linux/sched.h
include/linux/sched/mm.h
include/linux/sched/sd_flags.h [new file with mode: 0644]
include/linux/sched/topology.h
include/linux/seqlock.h
include/linux/skbuff.h
include/linux/stacktrace.h
include/linux/static_call.h [new file with mode: 0644]
include/linux/static_call_types.h [new file with mode: 0644]
include/linux/string.h
include/linux/sunrpc/gss_krb5.h
include/linux/sunrpc/gss_krb5_enctypes.h
include/linux/syscalls.h
include/linux/timekeeping.h
include/linux/timer.h
include/linux/tracepoint-defs.h
include/linux/tracepoint.h
include/linux/uacce.h
include/linux/uaccess.h
include/linux/uio.h
include/linux/watch_queue.h
include/net/act_api.h
include/net/checksum.h
include/net/genetlink.h
include/net/ip.h
include/net/netlink.h
include/net/xfrm.h
include/soc/mscc/ocelot_ana.h
include/trace/define_trace.h
include/trace/events/filelock.h
include/trace/events/mmflags.h
include/trace/events/sched.h
include/trace/events/xen.h
include/uapi/asm-generic/siginfo.h
include/uapi/asm-generic/unistd.h
include/uapi/linux/elf.h
include/uapi/linux/fscrypt.h
include/uapi/linux/if_alg.h
include/uapi/linux/membarrier.h
include/uapi/linux/prctl.h
include/uapi/linux/rxrpc.h
include/uapi/linux/snmp.h
include/xen/arm/page.h
init/Kconfig
kernel/Makefile
kernel/bpf/sysfs_btf.c
kernel/bpf/verifier.c
kernel/cpu_pm.c
kernel/entry/common.c
kernel/events/core.c
kernel/irq/chip.c
kernel/irq/debugfs.c
kernel/irq/internals.h
kernel/irq/irqdomain.c
kernel/irq/msi.c
kernel/irq/pm.c
kernel/irq/proc.c
kernel/irq/resend.c
kernel/irq/settings.h
kernel/jump_label.c
kernel/kcsan/core.c
kernel/kcsan/debugfs.c
kernel/kcsan/kcsan-test.c
kernel/kcsan/kcsan.h
kernel/kcsan/report.c
kernel/kcsan/selftest.c
kernel/kprobes.c
kernel/locking/lockdep.c
kernel/locking/lockdep_internals.h
kernel/module.c
kernel/notifier.c
kernel/power/hibernate.c
kernel/power/main.c
kernel/power/power.h
kernel/power/suspend.c
kernel/power/user.c
kernel/rcu/rcu.h
kernel/rcu/update.c
kernel/sched/core.c
kernel/sched/deadline.c
kernel/sched/debug.c
kernel/sched/fair.c
kernel/sched/features.h
kernel/sched/membarrier.c
kernel/sched/topology.c
kernel/softirq.c
kernel/stacktrace.c
kernel/static_call.c [new file with mode: 0644]
kernel/sys_ni.c
kernel/time/alarmtimer.c
kernel/time/hrtimer.c
kernel/time/sched_clock.c
kernel/time/timekeeping.c
kernel/time/timer.c
kernel/trace/bpf_trace.c
kernel/trace/trace.c
kernel/trace/trace_events.c
kernel/trace/trace_kprobe.c
kernel/trace/trace_printk.c
kernel/tracepoint.c
kernel/umh.c
kernel/workqueue.c
lib/Kconfig
lib/Kconfig.kcsan
lib/checksum.c
lib/crypto/chacha20poly1305.c
lib/debugobjects.c
lib/fonts/font_10x18.c
lib/fonts/font_6x10.c
lib/fonts/font_6x11.c
lib/fonts/font_7x14.c
lib/fonts/font_8x16.c
lib/fonts/font_8x8.c
lib/fonts/font_acorn_8x8.c
lib/fonts/font_mini_4x6.c
lib/fonts/font_pearl_8x8.c
lib/fonts/font_sun12x22.c
lib/fonts/font_sun8x16.c
lib/fonts/font_ter16x32.c
lib/iov_iter.c
lib/locking-selftest.c
lib/mpi/Makefile
lib/mpi/ec.c [new file with mode: 0644]
lib/mpi/mpi-add.c [new file with mode: 0644]
lib/mpi/mpi-bit.c
lib/mpi/mpi-cmp.c
lib/mpi/mpi-div.c [new file with mode: 0644]
lib/mpi/mpi-internal.h
lib/mpi/mpi-inv.c [new file with mode: 0644]
lib/mpi/mpi-mod.c [new file with mode: 0644]
lib/mpi/mpi-mul.c [new file with mode: 0644]
lib/mpi/mpicoder.c
lib/mpi/mpih-div.c
lib/mpi/mpih-mul.c
lib/mpi/mpiutil.c
lib/percpu_counter.c
mm/Kconfig
mm/huge_memory.c
mm/khugepaged.c
mm/memory.c
mm/mmap.c
mm/mprotect.c
mm/nommu.c
mm/page_alloc.c
mm/page_io.c
mm/process_vm_access.c
mm/shmem.c
mm/swap.c
mm/swapfile.c
mm/util.c
net/bridge/br_arp_nd_proxy.c
net/bridge/br_fdb.c
net/bridge/br_netlink.c
net/bridge/br_vlan.c
net/ceph/messenger.c
net/compat.c
net/core/dev.c
net/core/dev_addr_lists.c
net/core/filter.c
net/core/skbuff.c
net/ethtool/netlink.c
net/ipv4/icmp.c
net/ipv4/ip_output.c
net/ipv4/ip_vti.c
net/ipv4/proc.c
net/ipv4/raw.c
net/ipv4/syncookies.c
net/ipv4/tcp.c
net/ipv4/tcp_input.c
net/ipv4/tcp_ipv4.c
net/ipv6/icmp.c
net/ipv6/ip6_output.c
net/ipv6/raw.c
net/mptcp/options.c
net/mptcp/protocol.c
net/mptcp/protocol.h
net/mptcp/subflow.c
net/netlink/genetlink.c
net/netlink/policy.c
net/openvswitch/conntrack.c
net/qrtr/ns.c
net/rxrpc/ar-internal.h
net/rxrpc/call_accept.c
net/rxrpc/call_object.c
net/rxrpc/conn_event.c
net/rxrpc/key.c
net/rxrpc/recvmsg.c
net/rxrpc/sendmsg.c
net/sched/act_api.c
net/sched/act_bpf.c
net/sched/act_connmark.c
net/sched/act_csum.c
net/sched/act_ct.c
net/sched/act_ctinfo.c
net/sched/act_gact.c
net/sched/act_gate.c
net/sched/act_ife.c
net/sched/act_ipt.c
net/sched/act_mirred.c
net/sched/act_mpls.c
net/sched/act_nat.c
net/sched/act_pedit.c
net/sched/act_police.c
net/sched/act_sample.c
net/sched/act_simple.c
net/sched/act_skbedit.c
net/sched/act_skbmod.c
net/sched/act_tunnel_key.c
net/sched/act_vlan.c
net/sctp/auth.c
net/socket.c
net/sunrpc/Kconfig
net/sunrpc/auth_gss/gss_krb5_crypto.c
net/sunrpc/auth_gss/gss_krb5_mech.c
net/sunrpc/auth_gss/gss_krb5_seal.c
net/sunrpc/auth_gss/gss_krb5_seqnum.c
net/sunrpc/auth_gss/gss_krb5_unseal.c
net/sunrpc/auth_gss/gss_krb5_wrap.c
net/sunrpc/socklib.c
net/switchdev/switchdev.c
net/tls/tls_sw.c
net/wireless/nl80211.c
net/xdp/xsk.c
net/xfrm/espintcp.c
net/xfrm/xfrm_interface.c
net/xfrm/xfrm_state.c
samples/kprobes/kprobe_example.c
samples/kprobes/kretprobe_example.c
scripts/Makefile.kcsan
scripts/atomic/check-atomics.sh
scripts/atomic/gen-atomic-instrumented.sh
scripts/coccinelle/api/device_attr_show.cocci
scripts/kernel-doc
scripts/tags.sh
security/integrity/digsig_asymmetric.c
security/integrity/platform_certs/load_uefi.c
security/keys/compat.c
security/keys/internal.h
security/keys/keyctl.c
tools/arch/x86/include/asm/mcsafe_test.h [deleted file]
tools/arch/x86/lib/memcpy_64.S
tools/bpf/bpftool/Makefile
tools/include/linux/static_call_types.h [new file with mode: 0644]
tools/include/uapi/asm-generic/unistd.h
tools/lib/bpf/btf.c
tools/lib/bpf/libbpf.c
tools/memory-model/Documentation/cheatsheet.txt
tools/memory-model/Documentation/litmus-tests.txt [new file with mode: 0644]
tools/memory-model/Documentation/recipes.txt
tools/memory-model/Documentation/references.txt
tools/memory-model/Documentation/simple.txt [new file with mode: 0644]
tools/memory-model/README
tools/objtool/check.c
tools/objtool/check.h
tools/objtool/elf.c
tools/objtool/elf.h
tools/objtool/objtool.h
tools/objtool/orc_gen.c
tools/objtool/sync-check.sh
tools/perf/arch/powerpc/entry/syscalls/syscall.tbl
tools/perf/arch/s390/entry/syscalls/syscall.tbl
tools/perf/arch/x86/entry/syscalls/syscall_64.tbl
tools/perf/bench/Build
tools/perf/bench/mem-memcpy-x86-64-lib.c [deleted file]
tools/power/pm-graph/sleepgraph.py
tools/testing/nvdimm/test/nfit.c
tools/testing/selftests/arm64/Makefile
tools/testing/selftests/arm64/fp/.gitignore [new file with mode: 0644]
tools/testing/selftests/arm64/fp/Makefile [new file with mode: 0644]
tools/testing/selftests/arm64/fp/README [new file with mode: 0644]
tools/testing/selftests/arm64/fp/asm-offsets.h [new file with mode: 0644]
tools/testing/selftests/arm64/fp/assembler.h [new file with mode: 0644]
tools/testing/selftests/arm64/fp/fpsimd-stress [new file with mode: 0755]
tools/testing/selftests/arm64/fp/fpsimd-test.S [new file with mode: 0644]
tools/testing/selftests/arm64/fp/sve-probe-vls.c [new file with mode: 0644]
tools/testing/selftests/arm64/fp/sve-ptrace-asm.S [new file with mode: 0644]
tools/testing/selftests/arm64/fp/sve-ptrace.c [new file with mode: 0644]
tools/testing/selftests/arm64/fp/sve-stress [new file with mode: 0755]
tools/testing/selftests/arm64/fp/sve-test.S [new file with mode: 0644]
tools/testing/selftests/arm64/fp/vlset.c [new file with mode: 0644]
tools/testing/selftests/arm64/mte/.gitignore [new file with mode: 0644]
tools/testing/selftests/arm64/mte/Makefile [new file with mode: 0644]
tools/testing/selftests/arm64/mte/check_buffer_fill.c [new file with mode: 0644]
tools/testing/selftests/arm64/mte/check_child_memory.c [new file with mode: 0644]
tools/testing/selftests/arm64/mte/check_ksm_options.c [new file with mode: 0644]
tools/testing/selftests/arm64/mte/check_mmap_options.c [new file with mode: 0644]
tools/testing/selftests/arm64/mte/check_tags_inclusion.c [new file with mode: 0644]
tools/testing/selftests/arm64/mte/check_user_mem.c [new file with mode: 0644]
tools/testing/selftests/arm64/mte/mte_common_util.c [new file with mode: 0644]
tools/testing/selftests/arm64/mte/mte_common_util.h [new file with mode: 0644]
tools/testing/selftests/arm64/mte/mte_def.h [new file with mode: 0644]
tools/testing/selftests/arm64/mte/mte_helper.S [new file with mode: 0644]
tools/testing/selftests/arm64/pauth/.gitignore [new file with mode: 0644]
tools/testing/selftests/arm64/pauth/Makefile [new file with mode: 0644]
tools/testing/selftests/arm64/pauth/exec_target.c [new file with mode: 0644]
tools/testing/selftests/arm64/pauth/helper.c [new file with mode: 0644]
tools/testing/selftests/arm64/pauth/helper.h [new file with mode: 0644]
tools/testing/selftests/arm64/pauth/pac.c [new file with mode: 0644]
tools/testing/selftests/arm64/pauth/pac_corruptor.S [new file with mode: 0644]
tools/testing/selftests/powerpc/copyloops/.gitignore
tools/testing/selftests/powerpc/copyloops/Makefile
tools/testing/selftests/powerpc/copyloops/copy_mc_64.S [new symlink]
tools/testing/selftests/powerpc/copyloops/memcpy_mcsafe_64.S [deleted symlink]
tools/testing/selftests/rseq/param_test.c
tools/testing/selftests/rseq/rseq-x86.h
tools/testing/selftests/rseq/run_param_test.sh
tools/testing/selftests/x86/fsgsbase.c
tools/vm/page-types.c

index 162bd2b..d01cda8 100644 (file)
@@ -152,3 +152,6 @@ x509.genkey
 
 # Clang's compilation database file
 /compile_commands.json
+
+# Documentation toolchain
+sphinx_*/
index a780211..e4ccac4 100644 (file)
--- a/.mailmap
+++ b/.mailmap
@@ -41,7 +41,8 @@ Andrew Murray <amurray@thegoodpenguin.co.uk> <andrew.murray@arm.com>
 Andrew Vasquez <andrew.vasquez@qlogic.com>
 Andrey Ryabinin <ryabinin.a.a@gmail.com> <a.ryabinin@samsung.com>
 Andy Adamson <andros@citi.umich.edu>
-Antoine Tenart <antoine.tenart@free-electrons.com>
+Antoine Tenart <atenart@kernel.org> <antoine.tenart@bootlin.com>
+Antoine Tenart <atenart@kernel.org> <antoine.tenart@free-electrons.com>
 Antonio Ospite <ao2@ao2.it> <ao2@amarulasolutions.com>
 Archit Taneja <archit@ti.com>
 Ard Biesheuvel <ardb@kernel.org> <ard.biesheuvel@linaro.org>
@@ -188,6 +189,7 @@ Leon Romanovsky <leon@kernel.org> <leonro@nvidia.com>
 Linas Vepstas <linas@austin.ibm.com>
 Linus Lüssing <linus.luessing@c0d3.blue> <linus.luessing@ascom.ch>
 Linus Lüssing <linus.luessing@c0d3.blue> <linus.luessing@web.de>
+<linux-hardening@vger.kernel.org> <kernel-hardening@lists.openwall.com>
 Li Yang <leoyang.li@nxp.com> <leoli@freescale.com>
 Li Yang <leoyang.li@nxp.com> <leo@zh-kernel.org>
 Lukasz Luba <lukasz.luba@arm.com> <l.luba@partner.samsung.com>
@@ -195,6 +197,7 @@ Maciej W. Rozycki <macro@mips.com> <macro@imgtec.com>
 Marcin Nowakowski <marcin.nowakowski@mips.com> <marcin.nowakowski@imgtec.com>
 Marc Zyngier <maz@kernel.org> <marc.zyngier@arm.com>
 Mark Brown <broonie@sirena.org.uk>
+Mark Starovoytov <mstarovo@pm.me> <mstarovoitov@marvell.com>
 Mark Yao <markyao0591@gmail.com> <mark.yao@rock-chips.com>
 Martin Kepplinger <martink@posteo.de> <martin.kepplinger@ginzinger.com>
 Martin Kepplinger <martink@posteo.de> <martin.kepplinger@puri.sm>
diff --git a/Documentation/ABI/stable/sysfs-kernel-notes b/Documentation/ABI/stable/sysfs-kernel-notes
new file mode 100644 (file)
index 0000000..2c76ee9
--- /dev/null
@@ -0,0 +1,5 @@
+What:          /sys/kernel/notes
+Date:          July 2009
+Contact:       <linux-kernel@vger.kernel.org>
+Description:   The /sys/kernel/notes file contains the binary representation
+               of the running vmlinux's .notes section.
index 8f66fea..c17c87a 100644 (file)
@@ -12,6 +12,7 @@ Linux PCI Bus Subsystem
    pciebus-howto
    pci-iov-howto
    msi-howto
+   sysfs-pci
    acpi-info
    pci-error-recovery
    pcieaer-howto
index 5aad534..95a28f4 100644 (file)
@@ -322,9 +322,9 @@ Compiling the kernel
    reboot, and enjoy!
 
    If you ever need to change the default root device, video mode,
-   ramdisk size, etc.  in the kernel image, use the ``rdev`` program (or
-   alternatively the LILO boot options when appropriate).  No need to
-   recompile the kernel to change these parameters.
+   etc. in the kernel image, use your bootloader's boot options
+   where appropriate.  No need to recompile the kernel to change
+   these parameters.
 
  - Reboot with the new kernel and enjoy.
 
index 1eccf95..8d3a2d0 100644 (file)
@@ -5,11 +5,14 @@ A block layer cache (bcache)
 Say you've got a big slow raid 6, and an ssd or three. Wouldn't it be
 nice if you could use them as cache... Hence bcache.
 
-Wiki and git repositories are at:
+The bcache wiki can be found at:
+  https://bcache.evilpiepirate.org
 
-  - https://bcache.evilpiepirate.org
-  - http://evilpiepirate.org/git/linux-bcache.git
-  - https://evilpiepirate.org/git/bcache-tools.git
+This is the git repository of bcache-tools:
+  https://git.kernel.org/pub/scm/linux/kernel/git/colyli/bcache-tools.git/
+
+The latest bcache kernel code can be found from mainline Linux kernel:
+  https://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git/
 
 It's designed around the performance characteristics of SSDs - it only allocates
 in erase block sized buckets, and it uses a hybrid btree/log to track cached
@@ -41,17 +44,21 @@ in the cache it first disables writeback caching and waits for all dirty data
 to be flushed.
 
 Getting started:
-You'll need make-bcache from the bcache-tools repository. Both the cache device
+You'll need bcache util from the bcache-tools repository. Both the cache device
 and backing device must be formatted before use::
 
-  make-bcache -B /dev/sdb
-  make-bcache -C /dev/sdc
+  bcache make -B /dev/sdb
+  bcache make -C /dev/sdc
 
-make-bcache has the ability to format multiple devices at the same time - if
+`bcache make` has the ability to format multiple devices at the same time - if
 you format your backing devices and cache device at the same time, you won't
 have to manually attach::
 
-  make-bcache -B /dev/sda /dev/sdb -C /dev/sdc
+  bcache make -B /dev/sda /dev/sdb -C /dev/sdc
+
+If your bcache-tools is not updated to latest version and does not have the
+unified `bcache` utility, you may use the legacy `make-bcache` utility to format
+bcache device with same -B and -C parameters.
 
 bcache-tools now ships udev rules, and bcache devices are known to the kernel
 immediately.  Without udev, you can manually register devices like this::
@@ -188,7 +195,7 @@ D) Recovering data without bcache:
 If bcache is not available in the kernel, a filesystem on the backing
 device is still available at an 8KiB offset. So either via a loopdev
 of the backing device created with --offset 8K, or any value defined by
---data-offset when you originally formatted bcache with `make-bcache`.
+--data-offset when you originally formatted bcache with `bcache make`.
 
 For example::
 
@@ -210,7 +217,7 @@ E) Wiping a cache device
 
 After you boot back with bcache enabled, you recreate the cache and attach it::
 
-       host:~# make-bcache -C /dev/sdh2
+       host:~# bcache make -C /dev/sdh2
        UUID:                   7be7e175-8f4c-4f99-94b2-9c904d227045
        Set UUID:               5bc072a8-ab17-446d-9744-e247949913c1
        version:                0
@@ -318,7 +325,7 @@ want for getting the best possible numbers when benchmarking.
 
    The default metadata size in bcache is 8k.  If your backing device is
    RAID based, then be sure to align this by a multiple of your stride
-   width using `make-bcache --data-offset`. If you intend to expand your
+   width using `bcache make --data-offset`. If you intend to expand your
    disk array in the future, then multiply a series of primes by your
    raid stripe size to get the disk multiples that you would like.
 
index b7c2268..9ce6101 100644 (file)
@@ -6,7 +6,7 @@ Using the RAM disk block device with Linux
 
        1) Overview
        2) Kernel Command Line Parameters
-       3) Using "rdev -r"
+       3) Using "rdev"
        4) An Example of Creating a Compressed RAM Disk
 
 
@@ -59,51 +59,27 @@ default is 4096 (4 MB).
        rd_size
                See ramdisk_size.
 
-3) Using "rdev -r"
-------------------
+3) Using "rdev"
+---------------
 
-The usage of the word (two bytes) that "rdev -r" sets in the kernel image is
-as follows. The low 11 bits (0 -> 10) specify an offset (in 1 k blocks) of up
-to 2 MB (2^11) of where to find the RAM disk (this used to be the size). Bit
-14 indicates that a RAM disk is to be loaded, and bit 15 indicates whether a
-prompt/wait sequence is to be given before trying to read the RAM disk. Since
-the RAM disk dynamically grows as data is being written into it, a size field
-is not required. Bits 11 to 13 are not currently used and may as well be zero.
-These numbers are no magical secrets, as seen below::
+"rdev" is an obsolete, deprecated, antiquated utility that could be used
+to set the boot device in a Linux kernel image.
 
-  ./arch/x86/kernel/setup.c:#define RAMDISK_IMAGE_START_MASK     0x07FF
-  ./arch/x86/kernel/setup.c:#define RAMDISK_PROMPT_FLAG          0x8000
-  ./arch/x86/kernel/setup.c:#define RAMDISK_LOAD_FLAG            0x4000
+Instead of using rdev, just place the boot device information on the
+kernel command line and pass it to the kernel from the bootloader.
 
-Consider a typical two floppy disk setup, where you will have the
-kernel on disk one, and have already put a RAM disk image onto disk #2.
+You can also pass arguments to the kernel by setting FDARGS in
+arch/x86/boot/Makefile and specify in initrd image by setting FDINITRD in
+arch/x86/boot/Makefile.
 
-Hence you want to set bits 0 to 13 as 0, meaning that your RAM disk
-starts at an offset of 0 kB from the beginning of the floppy.
-The command line equivalent is: "ramdisk_start=0"
+Some of the kernel command line boot options that may apply here are::
 
-You want bit 14 as one, indicating that a RAM disk is to be loaded.
-The command line equivalent is: "load_ramdisk=1"
-
-You want bit 15 as one, indicating that you want a prompt/keypress
-sequence so that you have a chance to switch floppy disks.
-The command line equivalent is: "prompt_ramdisk=1"
-
-Putting that together gives 2^15 + 2^14 + 0 = 49152 for an rdev word.
-So to create disk one of the set, you would do::
-
-       /usr/src/linux# cat arch/x86/boot/zImage > /dev/fd0
-       /usr/src/linux# rdev /dev/fd0 /dev/fd0
-       /usr/src/linux# rdev -r /dev/fd0 49152
+  ramdisk_start=N
+  ramdisk_size=M
 
 If you make a boot disk that has LILO, then for the above, you would use::
 
-       append = "ramdisk_start=0 load_ramdisk=1 prompt_ramdisk=1"
-
-Since the default start = 0 and the default prompt = 1, you could use::
-
-       append = "load_ramdisk=1"
-
+       append = "ramdisk_start=N ramdisk_size=M"
 
 4) An Example of Creating a Compressed RAM Disk
 -----------------------------------------------
@@ -151,12 +127,9 @@ f) Put the RAM disk image onto the floppy, after the kernel. Use an offset
 
        dd if=/tmp/ram_image.gz of=/dev/fd0 bs=1k seek=400
 
-g) Use "rdev" to set the boot device, RAM disk offset, prompt flag, etc.
-   For prompt_ramdisk=1, load_ramdisk=1, ramdisk_start=400, one would
-   have 2^15 + 2^14 + 400 = 49552::
-
-       rdev /dev/fd0 /dev/fd0
-       rdev -r /dev/fd0 49552
+g) Make sure that you have already specified the boot information in
+   FDARGS and FDINITRD or that you use a bootloader to pass kernel
+   command line boot options to the kernel.
 
 That is it. You now have your boot/root compressed RAM disk floppy. Some
 users may wish to combine steps (d) and (f) by using a pipe.
@@ -167,11 +140,14 @@ users may wish to combine steps (d) and (f) by using a pipe.
 Changelog:
 ----------
 
+SEPT-2020 :
+
+                Removed usage of "rdev"
+
 10-22-04 :
                Updated to reflect changes in command line options, remove
                obsolete references, general cleanup.
                James Nelson (james4765@gmail.com)
 
-
 12-95 :
                Original Document
index 2da65fe..75a9dd9 100644 (file)
@@ -509,9 +509,12 @@ ELF32-format headers using the --elf32-core-headers kernel option on the
 dump kernel.
 
 You can also use the Crash utility to analyze dump files in Kdump
-format. Crash is available on Dave Anderson's site at the following URL:
+format. Crash is available at the following URL:
 
-   http://people.redhat.com/~anderson/
+   https://github.com/crash-utility/crash
+
+Crash document can be found at:
+   https://crash-utility.github.io/
 
 Trigger Kdump on WARN()
 =======================
index a106874..0fa47dd 100644 (file)
                        loops can be debugged more effectively on production
                        systems.
 
-       clearcpuid=BITNUM [X86]
+       clearcpuid=BITNUM[,BITNUM...] [X86]
                        Disable CPUID feature X for the kernel. See
                        arch/x86/include/asm/cpufeatures.h for the valid bit
                        numbers. Note the Linux specific bits are not necessarily
                        some critical bits.
 
        cma=nn[MG]@[start[MG][-end[MG]]]
-                       [ARM,X86,KNL]
+                       [KNL,CMA]
                        Sets the size of kernel global memory area for
                        contiguous memory allocations and optionally the
                        placement constraint by the physical address range of
                        Arch Perfmon v4 (Skylake and newer).
 
        disable_ddw     [PPC/PSERIES]
-                       Disable Dynamic DMA Window support. Use this if
+                       Disable Dynamic DMA Window support. Use this
                        to workaround buggy firmware.
 
        disable_ipv6=   [IPV6]
                        what data is available or for reverse-engineering.
 
        dyndbg[="val"]          [KNL,DYNAMIC_DEBUG]
-       module.dyndbg[="val"]
+       <module>.dyndbg[="val"]
                        Enable debug messages at boot time.  See
                        Documentation/admin-guide/dynamic-debug-howto.rst
                        for details.
        nopku           [X86] Disable Memory Protection Keys CPU feature found
                        in some Intel CPUs.
 
-       module.async_probe [KNL]
+       <module>.async_probe [KNL]
                        Enable asynchronous probe on this module.
 
        early_ioremap_debug [KNL]
                        1 - Bypass the IOMMU for DMA.
                        unset - Use value of CONFIG_IOMMU_DEFAULT_PASSTHROUGH.
 
-       io7=            [HW] IO7 for Marvel based alpha systems
+       io7=            [HW] IO7 for Marvel-based Alpha systems
                        See comment before marvel_specify_io7 in
                        arch/alpha/kernel/core_marvel.c.
 
        kgdbwait        [KGDB] Stop kernel execution and enter the
                        kernel debugger at the earliest opportunity.
 
-       kmac=           [MIPS] korina ethernet MAC address.
+       kmac=           [MIPS] Korina ethernet MAC address.
                        Configure the RouterBoard 532 series on-chip
                        Ethernet adapter MAC address.
 
                        [KVM,ARM] Allow use of GICv4 for direct injection of
                        LPIs.
 
+       kvm_cma_resv_ratio=n [PPC]
+                       Reserves given percentage from system memory area for
+                       contiguous memory allocation for KVM hash pagetable
+                       allocation.
+                       By default it reserves 5% of total system memory.
+                       Format: <integer>
+                       Default: 5
+
        kvm-intel.ept=  [KVM,Intel] Disable extended page tables
                        (virtualized MMU) support on capable Intel chips.
                        Default is 1 (enabled)
        lapic           [X86-32,APIC] Enable the local APIC even if BIOS
                        disabled it.
 
-       lapic=          [X86,APIC] "notscdeadline" Do not use TSC deadline
+       lapic=          [X86,APIC] Do not use TSC deadline
                        value for LAPIC timer one-shot implementation. Default
                        back to the programmable timer unit in the LAPIC.
+                       Format: notscdeadline
 
        lapic_timer_c2_ok       [X86,APIC] trust the local apic timer
                        in C2 power state.
 
        memblock=debug  [KNL] Enable memblock debug messages.
 
-       load_ramdisk=   [RAM] List of ramdisks to load from floppy
-                       See Documentation/admin-guide/blockdev/ramdisk.rst.
+       load_ramdisk=   [RAM] [Deprecated]
 
        lockd.nlm_grace_period=P  [NFS] Assign grace period.
                        Format: <integer>
                        (machvec) in a generic kernel.
                        Example: machvec=hpzx1
 
-       machtype=       [Loongson] Share the same kernel image file between different
-                        yeeloong laptop.
+       machtype=       [Loongson] Share the same kernel image file between
+                       different yeeloong laptops.
                        Example: machtype=lemote-yeeloong-2f-7inch
 
        max_addr=nn[KMG]        [KNL,BOOT,ia64] All physical memory greater
                        register save and restore. The kernel will only save
                        legacy floating-point registers on task switch.
 
-       nohugeiomap     [KNL,X86,PPC] Disable kernel huge I/O mappings.
+       nohugeiomap     [KNL,X86,PPC,ARM64] Disable kernel huge I/O mappings.
 
        nosmt           [KNL,S390] Disable symmetric multithreading (SMT).
                        Equivalent to smt=1.
                        Param: <number> - step/bucket size as a power of 2 for
                                statistical time based profiling.
 
-       prompt_ramdisk= [RAM] List of RAM disks to prompt for floppy disk
-                       before loading.
-                       See Documentation/admin-guide/blockdev/ramdisk.rst.
+       prompt_ramdisk= [RAM] [Deprecated]
 
        prot_virt=      [S390] enable hosting protected virtual machines
                        isolated from the hypervisor (if hardware supports
        ramdisk_size=   [RAM] Sizes of RAM disks in kilobytes
                        See Documentation/admin-guide/blockdev/ramdisk.rst.
 
+       ramdisk_start=  [RAM] RAM disk image start address
+
        random.trust_cpu={on,off}
                        [KNL] Enable or disable trusting the use of the
                        CPU's random number generator (if available) to
diff --git a/Documentation/admin-guide/perf/arm-cmn.rst b/Documentation/admin-guide/perf/arm-cmn.rst
new file mode 100644 (file)
index 0000000..0e48093
--- /dev/null
@@ -0,0 +1,65 @@
+=============================
+Arm Coherent Mesh Network PMU
+=============================
+
+CMN-600 is a configurable mesh interconnect consisting of a rectangular
+grid of crosspoints (XPs), with each crosspoint supporting up to two
+device ports to which various AMBA CHI agents are attached.
+
+CMN implements a distributed PMU design as part of its debug and trace
+functionality. This consists of a local monitor (DTM) at every XP, which
+counts up to 4 event signals from the connected device nodes and/or the
+XP itself. Overflow from these local counters is accumulated in up to 8
+global counters implemented by the main controller (DTC), which provides
+overall PMU control and interrupts for global counter overflow.
+
+PMU events
+----------
+
+The PMU driver registers a single PMU device for the whole interconnect,
+see /sys/bus/event_source/devices/arm_cmn. Multi-chip systems may link
+more than one CMN together via external CCIX links - in this situation,
+each mesh counts its own events entirely independently, and additional
+PMU devices will be named arm_cmn_{1..n}.
+
+Most events are specified in a format based directly on the TRM
+definitions - "type" selects the respective node type, and "eventid" the
+event number. Some events require an additional occupancy ID, which is
+specified by "occupid".
+
+* Since RN-D nodes do not have any distinct events from RN-I nodes, they
+  are treated as the same type (0xa), and the common event templates are
+  named "rnid_*".
+
+* The cycle counter is treated as a synthetic event belonging to the DTC
+  node ("type" == 0x3, "eventid" is ignored).
+
+* XP events also encode the port and channel in the "eventid" field, to
+  match the underlying pmu_event0_id encoding for the pmu_event_sel
+  register. The event templates are named with prefixes to cover all
+  permutations.
+
+By default each event provides an aggregate count over all nodes of the
+given type. To target a specific node, "bynodeid" must be set to 1 and
+"nodeid" to the appropriate value derived from the CMN configuration
+(as defined in the "Node ID Mapping" section of the TRM).
+
+Watchpoints
+-----------
+
+The PMU can also count watchpoint events to monitor specific flit
+traffic. Watchpoints are treated as a synthetic event type, and like PMU
+events can be global or targeted with a particular XP's "nodeid" value.
+Since the watchpoint direction is otherwise implicit in the underlying
+register selection, separate events are provided for flit uploads and
+downloads.
+
+The flit match value and mask are passed in config1 and config2 ("val"
+and "mask" respectively). "wp_dev_sel", "wp_chn_sel", "wp_grp" and
+"wp_exclusive" are specified per the TRM definitions for dtm_wp_config0.
+Where a watchpoint needs to match fields from both match groups on the
+REQ or SNP channel, it can be specified as two events - one for each
+group - with the same nonzero "combine" value. The count for such a
+pair of combined events will be attributed to the primary match.
+Watchpoint events with a "combine" value of 0 are considered independent
+and will count individually.
index 47c99f4..5a8f252 100644 (file)
@@ -12,6 +12,7 @@ Performance monitor support
    qcom_l2_pmu
    qcom_l3_pmu
    arm-ccn
+   arm-cmn
    xgene-pmu
    arm_dsu_pmu
    thunderx2-pmu
index b6c2f9a..9eb1e07 100644 (file)
@@ -12,7 +12,8 @@ Intro
 This small document describes the "Video Mode Selection" feature which
 allows the use of various special video modes supported by the video BIOS. Due
 to usage of the BIOS, the selection is limited to boot time (before the
-kernel decompression starts) and works only on 80X86 machines.
+kernel decompression starts) and works only on 80X86 machines that are
+booted through BIOS firmware (as opposed to through UEFI, kexec, etc.).
 
 .. note::
 
@@ -23,7 +24,7 @@ kernel decompression starts) and works only on 80X86 machines.
 
 The video mode to be used is selected by a kernel parameter which can be
 specified in the kernel Makefile (the SVGA_MODE=... line) or by the "vga=..."
-option of LILO (or some other boot loader you use) or by the "vidmode" utility
+option of LILO (or some other boot loader you use) or by the "xrandr" utility
 (present in standard Linux utility packages). You can use the following values
 of this parameter::
 
@@ -41,7 +42,7 @@ of this parameter::
       better to use absolute mode numbers instead.
 
    0x.... - Hexadecimal video mode ID (also displayed on the menu, see below
-      for exact meaning of the ID). Warning: rdev and LILO don't support
+      for exact meaning of the ID). Warning: LILO doesn't support
       hexadecimal numbers -- you have to convert it to decimal manually.
 
 Menu
index 599bcde..ac87eaf 100644 (file)
@@ -1,67 +1,34 @@
+.. SPDX-License-Identifier: GPL-2.0+
+
 ================================
 Documentation for /proc/sys/abi/
 ================================
 
-kernel version 2.6.0.test2
+.. See scripts/check-sysctl-docs to keep this up to date:
+.. scripts/check-sysctl-docs -vtable="abi" \
+..         Documentation/admin-guide/sysctl/abi.rst \
+..         $(git grep -l register_sysctl_)
 
-Copyright (c) 2003,  Fabian Frederick <ffrederick@users.sourceforge.net>
+Copyright (c) 2020, Stephen Kitt
 
-For general info: index.rst.
+For general info, see :doc:`index`.
 
 ------------------------------------------------------------------------------
 
-This path is binary emulation relevant aka personality types aka abi.
-When a process is executed, it's linked to an exec_domain whose
-personality is defined using values available from /proc/sys/abi.
-You can find further details about abi in include/linux/personality.h.
-
-Here are the files featuring in 2.6 kernel:
-
-- defhandler_coff
-- defhandler_elf
-- defhandler_lcall7
-- defhandler_libcso
-- fake_utsname
-- trace
-
-defhandler_coff
----------------
-
-defined value:
-       PER_SCOSVR3::
-
-               0x0003 | STICKY_TIMEOUTS | WHOLE_SECONDS | SHORT_INODE
-
-defhandler_elf
---------------
-
-defined value:
-       PER_LINUX::
-
-               0
-
-defhandler_lcall7
------------------
-
-defined value :
-       PER_SVR4::
-
-               0x0001 | STICKY_TIMEOUTS | MMAP_PAGE_ZERO,
-
-defhandler_libsco
------------------
-
-defined value:
-       PER_SVR4::
+The files in ``/proc/sys/abi`` can be used to see and modify
+ABI-related settings.
 
-               0x0001 | STICKY_TIMEOUTS | MMAP_PAGE_ZERO,
+Currently, these files might (depending on your configuration)
+show up in ``/proc/sys/kernel``:
 
-fake_utsname
-------------
+.. contents:: :local:
 
-Unused
+vsyscall32 (x86)
+================
 
-trace
------
+Determines whether the kernels maps a vDSO page into 32-bit processes;
+can be set to 1 to enable, or 0 to disable. Defaults to enabled if
+``CONFIG_COMPAT_VDSO`` is set, disabled otherwide.
 
-Unused
+This controls the same setting as the ``vdso32`` kernel boot
+parameter.
index abf8047..f718a2e 100644 (file)
@@ -130,7 +130,7 @@ More detailed explanation for tainting
  5)  ``B`` If a page-release function has found a bad page reference or some
      unexpected page flags. This indicates a hardware problem or a kernel bug;
      there should be other information in the log indicating why this tainting
-     occured.
+     occurred.
 
  6)  ``U`` if a user or user application specifically requested that the
      Tainted flag be set, ``' '`` otherwise.
index b037428..62b533d 100644 (file)
@@ -108,7 +108,7 @@ SunXi family
 
         * Datasheet
 
-          http://dl.linux-sunxi.org/H3/Allwinner_H3_Datasheet_V1.0.pdf
+          https://linux-sunxi.org/images/4/4b/Allwinner_H3_Datasheet_V1.2.pdf
 
       - Allwinner R40 (sun8i)
 
index f868330..f732f95 100644 (file)
@@ -23,7 +23,7 @@ makes it possible for the kernel to support additional features:
 For actually enabling [U]EFI support, enable:
 
 - CONFIG_EFI=y
-- CONFIG_EFI_VARS=y or m
+- CONFIG_EFIVAR_FS=y or m
 
 The implementation depends on receiving information about the UEFI environment
 in a Flattened Device Tree (FDT) - so is only available with CONFIG_OF.
index 452ec8b..01f2de2 100644 (file)
@@ -1,3 +1,5 @@
+.. _amu_index:
+
 =======================================================
 Activity Monitors Unit (AMU) extension in AArch64 Linux
 =======================================================
index f28853f..328e0c4 100644 (file)
@@ -175,6 +175,8 @@ infrastructure:
      +------------------------------+---------+---------+
      | Name                         |  bits   | visible |
      +------------------------------+---------+---------+
+     | MTE                          | [11-8]  |    y    |
+     +------------------------------+---------+---------+
      | SSBS                         | [7-4]   |    y    |
      +------------------------------+---------+---------+
      | BT                           | [3-0]   |    y    |
index 84a9fd2..bbd9cf5 100644 (file)
@@ -240,6 +240,10 @@ HWCAP2_BTI
 
     Functionality implied by ID_AA64PFR0_EL1.BT == 0b0001.
 
+HWCAP2_MTE
+
+    Functionality implied by ID_AA64PFR1_EL1.MTE == 0b0010, as described
+    by Documentation/arm64/memory-tagging-extension.rst.
 
 4. Unused AT_HWCAP bits
 -----------------------
index d9665d8..937634c 100644 (file)
@@ -1,3 +1,5 @@
+.. _arm64_index:
+
 ==================
 ARM64 Architecture
 ==================
@@ -14,6 +16,7 @@ ARM64 Architecture
     hugetlbpage
     legacy_instructions
     memory
+    memory-tagging-extension
     perf
     pointer-authentication
     silicon-errata
diff --git a/Documentation/arm64/memory-tagging-extension.rst b/Documentation/arm64/memory-tagging-extension.rst
new file mode 100644 (file)
index 0000000..034d37c
--- /dev/null
@@ -0,0 +1,305 @@
+===============================================
+Memory Tagging Extension (MTE) in AArch64 Linux
+===============================================
+
+Authors: Vincenzo Frascino <vincenzo.frascino@arm.com>
+         Catalin Marinas <catalin.marinas@arm.com>
+
+Date: 2020-02-25
+
+This document describes the provision of the Memory Tagging Extension
+functionality in AArch64 Linux.
+
+Introduction
+============
+
+ARMv8.5 based processors introduce the Memory Tagging Extension (MTE)
+feature. MTE is built on top of the ARMv8.0 virtual address tagging TBI
+(Top Byte Ignore) feature and allows software to access a 4-bit
+allocation tag for each 16-byte granule in the physical address space.
+Such memory range must be mapped with the Normal-Tagged memory
+attribute. A logical tag is derived from bits 59-56 of the virtual
+address used for the memory access. A CPU with MTE enabled will compare
+the logical tag against the allocation tag and potentially raise an
+exception on mismatch, subject to system registers configuration.
+
+Userspace Support
+=================
+
+When ``CONFIG_ARM64_MTE`` is selected and Memory Tagging Extension is
+supported by the hardware, the kernel advertises the feature to
+userspace via ``HWCAP2_MTE``.
+
+PROT_MTE
+--------
+
+To access the allocation tags, a user process must enable the Tagged
+memory attribute on an address range using a new ``prot`` flag for
+``mmap()`` and ``mprotect()``:
+
+``PROT_MTE`` - Pages allow access to the MTE allocation tags.
+
+The allocation tag is set to 0 when such pages are first mapped in the
+user address space and preserved on copy-on-write. ``MAP_SHARED`` is
+supported and the allocation tags can be shared between processes.
+
+**Note**: ``PROT_MTE`` is only supported on ``MAP_ANONYMOUS`` and
+RAM-based file mappings (``tmpfs``, ``memfd``). Passing it to other
+types of mapping will result in ``-EINVAL`` returned by these system
+calls.
+
+**Note**: The ``PROT_MTE`` flag (and corresponding memory type) cannot
+be cleared by ``mprotect()``.
+
+**Note**: ``madvise()`` memory ranges with ``MADV_DONTNEED`` and
+``MADV_FREE`` may have the allocation tags cleared (set to 0) at any
+point after the system call.
+
+Tag Check Faults
+----------------
+
+When ``PROT_MTE`` is enabled on an address range and a mismatch between
+the logical and allocation tags occurs on access, there are three
+configurable behaviours:
+
+- *Ignore* - This is the default mode. The CPU (and kernel) ignores the
+  tag check fault.
+
+- *Synchronous* - The kernel raises a ``SIGSEGV`` synchronously, with
+  ``.si_code = SEGV_MTESERR`` and ``.si_addr = <fault-address>``. The
+  memory access is not performed. If ``SIGSEGV`` is ignored or blocked
+  by the offending thread, the containing process is terminated with a
+  ``coredump``.
+
+- *Asynchronous* - The kernel raises a ``SIGSEGV``, in the offending
+  thread, asynchronously following one or multiple tag check faults,
+  with ``.si_code = SEGV_MTEAERR`` and ``.si_addr = 0`` (the faulting
+  address is unknown).
+
+The user can select the above modes, per thread, using the
+``prctl(PR_SET_TAGGED_ADDR_CTRL, flags, 0, 0, 0)`` system call where
+``flags`` contain one of the following values in the ``PR_MTE_TCF_MASK``
+bit-field:
+
+- ``PR_MTE_TCF_NONE``  - *Ignore* tag check faults
+- ``PR_MTE_TCF_SYNC``  - *Synchronous* tag check fault mode
+- ``PR_MTE_TCF_ASYNC`` - *Asynchronous* tag check fault mode
+
+The current tag check fault mode can be read using the
+``prctl(PR_GET_TAGGED_ADDR_CTRL, 0, 0, 0, 0)`` system call.
+
+Tag checking can also be disabled for a user thread by setting the
+``PSTATE.TCO`` bit with ``MSR TCO, #1``.
+
+**Note**: Signal handlers are always invoked with ``PSTATE.TCO = 0``,
+irrespective of the interrupted context. ``PSTATE.TCO`` is restored on
+``sigreturn()``.
+
+**Note**: There are no *match-all* logical tags available for user
+applications.
+
+**Note**: Kernel accesses to the user address space (e.g. ``read()``
+system call) are not checked if the user thread tag checking mode is
+``PR_MTE_TCF_NONE`` or ``PR_MTE_TCF_ASYNC``. If the tag checking mode is
+``PR_MTE_TCF_SYNC``, the kernel makes a best effort to check its user
+address accesses, however it cannot always guarantee it.
+
+Excluding Tags in the ``IRG``, ``ADDG`` and ``SUBG`` instructions
+-----------------------------------------------------------------
+
+The architecture allows excluding certain tags to be randomly generated
+via the ``GCR_EL1.Exclude`` register bit-field. By default, Linux
+excludes all tags other than 0. A user thread can enable specific tags
+in the randomly generated set using the ``prctl(PR_SET_TAGGED_ADDR_CTRL,
+flags, 0, 0, 0)`` system call where ``flags`` contains the tags bitmap
+in the ``PR_MTE_TAG_MASK`` bit-field.
+
+**Note**: The hardware uses an exclude mask but the ``prctl()``
+interface provides an include mask. An include mask of ``0`` (exclusion
+mask ``0xffff``) results in the CPU always generating tag ``0``.
+
+Initial process state
+---------------------
+
+On ``execve()``, the new process has the following configuration:
+
+- ``PR_TAGGED_ADDR_ENABLE`` set to 0 (disabled)
+- Tag checking mode set to ``PR_MTE_TCF_NONE``
+- ``PR_MTE_TAG_MASK`` set to 0 (all tags excluded)
+- ``PSTATE.TCO`` set to 0
+- ``PROT_MTE`` not set on any of the initial memory maps
+
+On ``fork()``, the new process inherits the parent's configuration and
+memory map attributes with the exception of the ``madvise()`` ranges
+with ``MADV_WIPEONFORK`` which will have the data and tags cleared (set
+to 0).
+
+The ``ptrace()`` interface
+--------------------------
+
+``PTRACE_PEEKMTETAGS`` and ``PTRACE_POKEMTETAGS`` allow a tracer to read
+the tags from or set the tags to a tracee's address space. The
+``ptrace()`` system call is invoked as ``ptrace(request, pid, addr,
+data)`` where:
+
+- ``request`` - one of ``PTRACE_PEEKMTETAGS`` or ``PTRACE_POKEMTETAGS``.
+- ``pid`` - the tracee's PID.
+- ``addr`` - address in the tracee's address space.
+- ``data`` - pointer to a ``struct iovec`` where ``iov_base`` points to
+  a buffer of ``iov_len`` length in the tracer's address space.
+
+The tags in the tracer's ``iov_base`` buffer are represented as one
+4-bit tag per byte and correspond to a 16-byte MTE tag granule in the
+tracee's address space.
+
+**Note**: If ``addr`` is not aligned to a 16-byte granule, the kernel
+will use the corresponding aligned address.
+
+``ptrace()`` return value:
+
+- 0 - tags were copied, the tracer's ``iov_len`` was updated to the
+  number of tags transferred. This may be smaller than the requested
+  ``iov_len`` if the requested address range in the tracee's or the
+  tracer's space cannot be accessed or does not have valid tags.
+- ``-EPERM`` - the specified process cannot be traced.
+- ``-EIO`` - the tracee's address range cannot be accessed (e.g. invalid
+  address) and no tags copied. ``iov_len`` not updated.
+- ``-EFAULT`` - fault on accessing the tracer's memory (``struct iovec``
+  or ``iov_base`` buffer) and no tags copied. ``iov_len`` not updated.
+- ``-EOPNOTSUPP`` - the tracee's address does not have valid tags (never
+  mapped with the ``PROT_MTE`` flag). ``iov_len`` not updated.
+
+**Note**: There are no transient errors for the requests above, so user
+programs should not retry in case of a non-zero system call return.
+
+``PTRACE_GETREGSET`` and ``PTRACE_SETREGSET`` with ``addr ==
+``NT_ARM_TAGGED_ADDR_CTRL`` allow ``ptrace()`` access to the tagged
+address ABI control and MTE configuration of a process as per the
+``prctl()`` options described in
+Documentation/arm64/tagged-address-abi.rst and above. The corresponding
+``regset`` is 1 element of 8 bytes (``sizeof(long))``).
+
+Example of correct usage
+========================
+
+*MTE Example code*
+
+.. code-block:: c
+
+    /*
+     * To be compiled with -march=armv8.5-a+memtag
+     */
+    #include <errno.h>
+    #include <stdint.h>
+    #include <stdio.h>
+    #include <stdlib.h>
+    #include <unistd.h>
+    #include <sys/auxv.h>
+    #include <sys/mman.h>
+    #include <sys/prctl.h>
+
+    /*
+     * From arch/arm64/include/uapi/asm/hwcap.h
+     */
+    #define HWCAP2_MTE              (1 << 18)
+
+    /*
+     * From arch/arm64/include/uapi/asm/mman.h
+     */
+    #define PROT_MTE                 0x20
+
+    /*
+     * From include/uapi/linux/prctl.h
+     */
+    #define PR_SET_TAGGED_ADDR_CTRL 55
+    #define PR_GET_TAGGED_ADDR_CTRL 56
+    # define PR_TAGGED_ADDR_ENABLE  (1UL << 0)
+    # define PR_MTE_TCF_SHIFT       1
+    # define PR_MTE_TCF_NONE        (0UL << PR_MTE_TCF_SHIFT)
+    # define PR_MTE_TCF_SYNC        (1UL << PR_MTE_TCF_SHIFT)
+    # define PR_MTE_TCF_ASYNC       (2UL << PR_MTE_TCF_SHIFT)
+    # define PR_MTE_TCF_MASK        (3UL << PR_MTE_TCF_SHIFT)
+    # define PR_MTE_TAG_SHIFT       3
+    # define PR_MTE_TAG_MASK        (0xffffUL << PR_MTE_TAG_SHIFT)
+
+    /*
+     * Insert a random logical tag into the given pointer.
+     */
+    #define insert_random_tag(ptr) ({                       \
+            uint64_t __val;                                 \
+            asm("irg %0, %1" : "=r" (__val) : "r" (ptr));   \
+            __val;                                          \
+    })
+
+    /*
+     * Set the allocation tag on the destination address.
+     */
+    #define set_tag(tagged_addr) do {                                      \
+            asm volatile("stg %0, [%0]" : : "r" (tagged_addr) : "memory"); \
+    } while (0)
+
+    int main()
+    {
+            unsigned char *a;
+            unsigned long page_sz = sysconf(_SC_PAGESIZE);
+            unsigned long hwcap2 = getauxval(AT_HWCAP2);
+
+            /* check if MTE is present */
+            if (!(hwcap2 & HWCAP2_MTE))
+                    return EXIT_FAILURE;
+
+            /*
+             * Enable the tagged address ABI, synchronous MTE tag check faults and
+             * allow all non-zero tags in the randomly generated set.
+             */
+            if (prctl(PR_SET_TAGGED_ADDR_CTRL,
+                      PR_TAGGED_ADDR_ENABLE | PR_MTE_TCF_SYNC | (0xfffe << PR_MTE_TAG_SHIFT),
+                      0, 0, 0)) {
+                    perror("prctl() failed");
+                    return EXIT_FAILURE;
+            }
+
+            a = mmap(0, page_sz, PROT_READ | PROT_WRITE,
+                     MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);
+            if (a == MAP_FAILED) {
+                    perror("mmap() failed");
+                    return EXIT_FAILURE;
+            }
+
+            /*
+             * Enable MTE on the above anonymous mmap. The flag could be passed
+             * directly to mmap() and skip this step.
+             */
+            if (mprotect(a, page_sz, PROT_READ | PROT_WRITE | PROT_MTE)) {
+                    perror("mprotect() failed");
+                    return EXIT_FAILURE;
+            }
+
+            /* access with the default tag (0) */
+            a[0] = 1;
+            a[1] = 2;
+
+            printf("a[0] = %hhu a[1] = %hhu\n", a[0], a[1]);
+
+            /* set the logical and allocation tags */
+            a = (unsigned char *)insert_random_tag(a);
+            set_tag(a);
+
+            printf("%p\n", a);
+
+            /* non-zero tag access */
+            a[0] = 3;
+            printf("a[0] = %hhu a[1] = %hhu\n", a[0], a[1]);
+
+            /*
+             * If MTE is enabled correctly the next instruction will generate an
+             * exception.
+             */
+            printf("Expecting SIGSEGV...\n");
+            a[16] = 0xdd;
+
+            /* this should not be printed in the PR_MTE_TCF_SYNC mode */
+            printf("...haven't got one\n");
+
+            return EXIT_FAILURE;
+    }
index c503188..0a102d5 100644 (file)
@@ -36,10 +36,23 @@ needs_sphinx = '1.3'
 # Add any Sphinx extension module names here, as strings. They can be
 # extensions coming with Sphinx (named 'sphinx.ext.*') or your custom
 # ones.
-extensions = ['kerneldoc', 'rstFlatTable', 'kernel_include', 'cdomain',
+extensions = ['kerneldoc', 'rstFlatTable', 'kernel_include',
               'kfigure', 'sphinx.ext.ifconfig', 'automarkup',
               'maintainers_include', 'sphinx.ext.autosectionlabel' ]
 
+#
+# cdomain is badly broken in Sphinx 3+.  Leaving it out generates *most*
+# of the docs correctly, but not all.  Scream bloody murder but allow
+# the process to proceed; hopefully somebody will fix this properly soon.
+#
+if major >= 3:
+    sys.stderr.write('''WARNING: The kernel documentation build process
+       does not work correctly with Sphinx v3.0 and above.  Expect errors
+       in the generated output.
+       ''')
+else:
+    extensions.append('cdomain')
+
 # Ensure that autosectionlabel will produce unique names
 autosectionlabel_prefix_document = True
 autosectionlabel_maxdepth = 2
index 298c9c8..a2c96be 100644 (file)
@@ -30,7 +30,7 @@ which didn't support these methods.
 Command Line Switches
 =====================
 ``maxcpus=n``
-  Restrict boot time CPUs to *n*. Say if you have fourV CPUs, using
+  Restrict boot time CPUs to *n*. Say if you have four CPUs, using
   ``maxcpus=2`` will only boot two. You can choose to bring the
   other CPUs later online.
 
index 52019e9..b45dabb 100644 (file)
@@ -296,15 +296,16 @@ follows:
 
     struct sockaddr_alg sa = {
         .salg_family = AF_ALG,
-        .salg_type = "rng", /* this selects the symmetric cipher */
-        .salg_name = "drbg_nopr_sha256" /* this is the cipher name */
+        .salg_type = "rng", /* this selects the random number generator */
+        .salg_name = "drbg_nopr_sha256" /* this is the RNG name */
     };
 
 
 Depending on the RNG type, the RNG must be seeded. The seed is provided
 using the setsockopt interface to set the key. For example, the
 ansi_cprng requires a seed. The DRBGs do not require a seed, but may be
-seeded.
+seeded. The seed is also known as a *Personalization String* in NIST SP 800-90A
+standard.
 
 Using the read()/recvmsg() system calls, random numbers can be obtained.
 The kernel generates at most 128 bytes in one call. If user space
@@ -314,6 +315,16 @@ WARNING: The user space caller may invoke the initially mentioned accept
 system call multiple times. In this case, the returned file descriptors
 have the same state.
 
+Following CAVP testing interfaces are enabled when kernel is built with
+CRYPTO_USER_API_RNG_CAVP option:
+
+-  the concatenation of *Entropy* and *Nonce* can be provided to the RNG via
+   ALG_SET_DRBG_ENTROPY setsockopt interface. Setting the entropy requires
+   CAP_SYS_ADMIN permission.
+
+-  *Additional Data* can be provided using the send()/sendmsg() system calls,
+   but only after the entropy has been set.
+
 Zero-Copy Interface
 -------------------
 
@@ -377,6 +388,9 @@ mentioned optname:
    provided ciphertext is assumed to contain an authentication tag of
    the given size (see section about AEAD memory layout below).
 
+-  ALG_SET_DRBG_ENTROPY -- Setting the entropy of the random number generator.
+   This option is applicable to RNG cipher type only.
+
 User space API example
 ----------------------
 
diff --git a/Documentation/devicetree/bindings/edac/amazon,al-mc-edac.yaml b/Documentation/devicetree/bindings/edac/amazon,al-mc-edac.yaml
new file mode 100644 (file)
index 0000000..a25387d
--- /dev/null
@@ -0,0 +1,67 @@
+# SPDX-License-Identifier: GPL-2.0-only OR BSD-2-Clause
+%YAML 1.2
+---
+$id: http://devicetree.org/schemas/edac/amazon,al-mc-edac.yaml#
+$schema: http://devicetree.org/meta-schemas/core.yaml#
+
+title: Amazon's Annapurna Labs Memory Controller EDAC
+
+maintainers:
+  - Talel Shenhar <talel@amazon.com>
+  - Talel Shenhar <talelshenhar@gmail.com>
+
+description: |
+  EDAC node is defined to describe on-chip error detection and correction for
+  Amazon's Annapurna Labs Memory Controller.
+
+properties:
+
+  compatible:
+    const: amazon,al-mc-edac
+
+  reg:
+    maxItems: 1
+
+  "#address-cells":
+    const: 2
+
+  "#size-cells":
+    const: 2
+
+  interrupts:
+    minItems: 1
+    maxItems: 2
+    items:
+      - description: uncorrectable error interrupt
+      - description: correctable error interrupt
+
+  interrupt-names:
+    minItems: 1
+    maxItems: 2
+    items:
+      - const: ue
+      - const: ce
+
+required:
+  - compatible
+  - reg
+  - "#address-cells"
+  - "#size-cells"
+
+
+examples:
+  - |
+    #include <dt-bindings/interrupt-controller/irq.h>
+    soc {
+        #address-cells = <2>;
+        #size-cells = <2>;
+        edac@f0080000 {
+          #address-cells = <2>;
+          #size-cells = <2>;
+          compatible = "amazon,al-mc-edac";
+          reg = <0x0 0xf0080000 0x0 0x00010000>;
+          interrupt-parent = <&amazon_al_system_fabric>;
+          interrupt-names = "ue";
+          interrupts = <20 IRQ_TYPE_LEVEL_HIGH>;
+        };
+    };
diff --git a/Documentation/devicetree/bindings/interrupt-controller/actions,owl-sirq.yaml b/Documentation/devicetree/bindings/interrupt-controller/actions,owl-sirq.yaml
new file mode 100644 (file)
index 0000000..5da333c
--- /dev/null
@@ -0,0 +1,65 @@
+# SPDX-License-Identifier: (GPL-2.0-only OR BSD-2-Clause)
+%YAML 1.2
+---
+$id: http://devicetree.org/schemas/interrupt-controller/actions,owl-sirq.yaml#
+$schema: http://devicetree.org/meta-schemas/core.yaml#
+
+title: Actions Semi Owl SoCs SIRQ interrupt controller
+
+maintainers:
+  - Manivannan Sadhasivam <manivannan.sadhasivam@linaro.org>
+  - Cristian Ciocaltea <cristian.ciocaltea@gmail.com>
+
+description: |
+  This interrupt controller is found in the Actions Semi Owl SoCs (S500, S700
+  and S900) and provides support for handling up to 3 external interrupt lines.
+
+properties:
+  compatible:
+    enum:
+      - actions,s500-sirq
+      - actions,s700-sirq
+      - actions,s900-sirq
+
+  reg:
+    maxItems: 1
+
+  interrupt-controller: true
+
+  '#interrupt-cells':
+    const: 2
+    description:
+      The first cell is the input IRQ number, between 0 and 2, while the second
+      cell is the trigger type as defined in interrupt.txt in this directory.
+
+  'interrupts':
+    description: |
+      Contains the GIC SPI IRQs mapped to the external interrupt lines.
+      They shall be specified sequentially from output 0 to 2.
+    minItems: 3
+    maxItems: 3
+
+required:
+  - compatible
+  - reg
+  - interrupt-controller
+  - '#interrupt-cells'
+  - 'interrupts'
+
+additionalProperties: false
+
+examples:
+  - |
+    #include <dt-bindings/interrupt-controller/arm-gic.h>
+
+    sirq: interrupt-controller@b01b0200 {
+      compatible = "actions,s500-sirq";
+      reg = <0xb01b0200 0x4>;
+      interrupt-controller;
+      #interrupt-cells = <2>;
+      interrupts = <GIC_SPI 13 IRQ_TYPE_LEVEL_HIGH>, /* SIRQ0 */
+                   <GIC_SPI 14 IRQ_TYPE_LEVEL_HIGH>, /* SIRQ1 */
+                   <GIC_SPI 15 IRQ_TYPE_LEVEL_HIGH>; /* SIRQ2 */
+    };
+
+...
diff --git a/Documentation/devicetree/bindings/interrupt-controller/mstar,mst-intc.yaml b/Documentation/devicetree/bindings/interrupt-controller/mstar,mst-intc.yaml
new file mode 100644 (file)
index 0000000..bbf0f26
--- /dev/null
@@ -0,0 +1,64 @@
+# SPDX-License-Identifier: (GPL-2.0-only OR BSD-2-Clause)
+%YAML 1.2
+---
+$id: http://devicetree.org/schemas/interrupt-controller/mstar,mst-intc.yaml#
+$schema: http://devicetree.org/meta-schemas/core.yaml#
+
+title: MStar Interrupt Controller
+
+maintainers:
+  - Mark-PK Tsai <mark-pk.tsai@mediatek.com>
+
+description: |+
+  MStar, SigmaStar and Mediatek TV SoCs contain multiple legacy
+  interrupt controllers that routes interrupts to the GIC.
+
+  The HW block exposes a number of interrupt controllers, each
+  can support up to 64 interrupts.
+
+properties:
+  compatible:
+    const: mstar,mst-intc
+
+  interrupt-controller: true
+
+  "#interrupt-cells":
+    const: 3
+    description: |
+      Use the same format as specified by GIC in arm,gic.yaml.
+
+  reg:
+    maxItems: 1
+
+  mstar,irqs-map-range:
+    description: |
+      The range <start, end> of parent interrupt controller's interrupt
+      lines that are hardwired to mstar interrupt controller.
+    $ref: /schemas/types.yaml#/definitions/uint32-matrix
+    items:
+      minItems: 2
+      maxItems: 2
+
+  mstar,intc-no-eoi:
+    description:
+      Mark this controller has no End Of Interrupt(EOI) implementation.
+    type: boolean
+
+required:
+  - compatible
+  - reg
+  - mstar,irqs-map-range
+
+additionalProperties: false
+
+examples:
+  - |
+    mst_intc0: interrupt-controller@1f2032d0 {
+      compatible = "mstar,mst-intc";
+      interrupt-controller;
+      #interrupt-cells = <3>;
+      interrupt-parent = <&gic>;
+      reg = <0x1f2032d0 0x30>;
+      mstar,irqs-map-range = <0 63>;
+    };
+...
index 086ff08..2db59df 100644 (file)
@@ -2,7 +2,8 @@ Synopsys DesignWare APB interrupt controller (dw_apb_ictl)
 
 Synopsys DesignWare provides interrupt controller IP for APB known as
 dw_apb_ictl. The IP is used as secondary interrupt controller in some SoCs with
-APB bus, e.g. Marvell Armada 1500.
+APB bus, e.g. Marvell Armada 1500. It can also be used as primary interrupt
+controller in some SoCs, e.g. Hisilicon SD5203.
 
 Required properties:
 - compatible: shall be "snps,dw-apb-ictl"
@@ -10,6 +11,8 @@ Required properties:
   region starting with ENABLE_LOW register
 - interrupt-controller: identifies the node as an interrupt controller
 - #interrupt-cells: number of cells to encode an interrupt-specifier, shall be 1
+
+Additional required property when it's used as secondary interrupt controller:
 - interrupts: interrupt reference to primary interrupt controller
 
 The interrupt sources map to the corresponding bits in the interrupt
@@ -21,6 +24,7 @@ registers, i.e.
 - (optional) fast interrupts start at 64.
 
 Example:
+       /* dw_apb_ictl is used as secondary interrupt controller */
        aic: interrupt-controller@3000 {
                compatible = "snps,dw-apb-ictl";
                reg = <0x3000 0xc00>;
@@ -29,3 +33,11 @@ Example:
                interrupt-parent = <&gic>;
                interrupts = <GIC_SPI 3 IRQ_TYPE_LEVEL_HIGH>;
        };
+
+       /* dw_apb_ictl is used as primary interrupt controller */
+       vic: interrupt-controller@10130000 {
+               compatible = "snps,dw-apb-ictl";
+               reg = <0x10130000 0x1000>;
+               interrupt-controller;
+               #interrupt-cells = <1>;
+       };
diff --git a/Documentation/devicetree/bindings/interrupt-controller/ti,pruss-intc.yaml b/Documentation/devicetree/bindings/interrupt-controller/ti,pruss-intc.yaml
new file mode 100644 (file)
index 0000000..bbf79d1
--- /dev/null
@@ -0,0 +1,158 @@
+# SPDX-License-Identifier: (GPL-2.0-only or BSD-2-Clause)
+%YAML 1.2
+---
+$id: http://devicetree.org/schemas/interrupt-controller/ti,pruss-intc.yaml#
+$schema: http://devicetree.org/meta-schemas/core.yaml#
+
+title: TI PRU-ICSS Local Interrupt Controller
+
+maintainers:
+  - Suman Anna <s-anna@ti.com>
+
+description: |
+  Each PRU-ICSS has a single interrupt controller instance that is common
+  to all the PRU cores. Most interrupt controllers can route 64 input events
+  which are then mapped to 10 possible output interrupts through two levels
+  of mapping. The input events can be triggered by either the PRUs and/or
+  various other PRUSS internal and external peripherals. The first 2 output
+  interrupts (0, 1) are fed exclusively to the internal PRU cores, with the
+  remaining 8 (2 through 9) connected to external interrupt controllers
+  including the MPU and/or other PRUSS instances, DSPs or devices.
+
+  The property "ti,irqs-reserved" is used for denoting the connection
+  differences on the output interrupts 2 through 9. If this property is not
+  defined, it implies that all the PRUSS INTC output interrupts 2 through 9
+  (host_intr0 through host_intr7) are connected exclusively to the Arm interrupt
+  controller.
+
+  The K3 family of SoCs can handle 160 input events that can be mapped to 20
+  different possible output interrupts. The additional output interrupts (10
+  through 19) are connected to new sub-modules within the ICSSG instances.
+
+  This interrupt-controller node should be defined as a child node of the
+  corresponding PRUSS node. The node should be named "interrupt-controller".
+
+properties:
+  compatible:
+    enum:
+      - ti,pruss-intc
+      - ti,icssg-intc
+    description: |
+      Use "ti,pruss-intc" for OMAP-L13x/AM18x/DA850 SoCs,
+                              AM335x family of SoCs,
+                              AM437x family of SoCs,
+                              AM57xx family of SoCs
+                              66AK2G family of SoCs
+      Use "ti,icssg-intc" for K3 AM65x & J721E family of SoCs
+
+  reg:
+    maxItems: 1
+
+  interrupts:
+    minItems: 1
+    maxItems: 8
+    description: |
+      All the interrupts generated towards the main host processor in the SoC.
+      A shared interrupt can be skipped if the desired destination and usage is
+      by a different processor/device.
+
+  interrupt-names:
+    minItems: 1
+    maxItems: 8
+    items:
+      pattern: host_intr[0-7]
+    description: |
+      Should use one of the above names for each valid host event interrupt
+      connected to Arm interrupt controller, the name should match the
+      corresponding host event interrupt number.
+
+  interrupt-controller: true
+
+  "#interrupt-cells":
+    const: 3
+    description: |
+      Client users shall use the PRU System event number (the interrupt source
+      that the client is interested in) [cell 1], PRU channel [cell 2] and PRU
+      host_event (target) [cell 3] as the value of the interrupts property in
+      their node.  The system events can be mapped to some output host
+      interrupts through 2 levels of many-to-one mapping i.e. events to channel
+      mapping and channels to host interrupts so through this property entire
+      mapping is provided.
+
+  ti,irqs-reserved:
+    $ref: /schemas/types.yaml#definitions/uint8
+    description: |
+      Bitmask of host interrupts between 0 and 7 (corresponding to PRUSS INTC
+      output interrupts 2 through 9) that are not connected to the Arm interrupt
+      controller or are shared and used by other devices or processors in the
+      SoC. Define this property when any of 8 interrupts should not be handled
+      by Arm interrupt controller.
+        Eg: - AM437x and 66AK2G SoCs do not have "host_intr5" interrupt
+              connected to MPU
+            - AM65x and J721E SoCs have "host_intr5", "host_intr6" and
+              "host_intr7" interrupts connected to MPU, and other ICSSG
+              instances.
+
+required:
+ - compatible
+ - reg
+ - interrupts
+ - interrupt-names
+ - interrupt-controller
+ - "#interrupt-cells"
+
+additionalProperties: false
+
+examples:
+  - |
+    /* AM33xx PRU-ICSS */
+    pruss: pruss@0 {
+        compatible = "ti,am3356-pruss";
+        reg = <0x0 0x80000>;
+        #address-cells = <1>;
+        #size-cells = <1>;
+        ranges;
+
+        pruss_intc: interrupt-controller@20000 {
+            compatible = "ti,pruss-intc";
+            reg = <0x20000 0x2000>;
+            interrupts = <20 21 22 23 24 25 26 27>;
+            interrupt-names = "host_intr0", "host_intr1",
+                              "host_intr2", "host_intr3",
+                              "host_intr4", "host_intr5",
+                              "host_intr6", "host_intr7";
+            interrupt-controller;
+            #interrupt-cells = <3>;
+        };
+    };
+
+  - |
+
+    /* AM4376 PRU-ICSS */
+    #include <dt-bindings/interrupt-controller/arm-gic.h>
+    pruss@0 {
+        compatible = "ti,am4376-pruss";
+        reg = <0x0 0x40000>;
+        #address-cells = <1>;
+        #size-cells = <1>;
+        ranges;
+
+        interrupt-controller@20000 {
+            compatible = "ti,pruss-intc";
+            reg = <0x20000 0x2000>;
+            interrupt-controller;
+            #interrupt-cells = <3>;
+            interrupts = <GIC_SPI 20 IRQ_TYPE_LEVEL_HIGH>,
+                   <GIC_SPI 21 IRQ_TYPE_LEVEL_HIGH>,
+                   <GIC_SPI 22 IRQ_TYPE_LEVEL_HIGH>,
+                   <GIC_SPI 23 IRQ_TYPE_LEVEL_HIGH>,
+                   <GIC_SPI 24 IRQ_TYPE_LEVEL_HIGH>,
+                   <GIC_SPI 26 IRQ_TYPE_LEVEL_HIGH>,
+                   <GIC_SPI 27 IRQ_TYPE_LEVEL_HIGH>;
+            interrupt-names = "host_intr0", "host_intr1",
+                              "host_intr2", "host_intr3",
+                              "host_intr4",
+                              "host_intr6", "host_intr7";
+            ti,irqs-reserved = /bits/ 8 <0x20>; /* BIT(5) */
+        };
+    };
index 032b76f..9119f1c 100644 (file)
@@ -21,6 +21,7 @@ Required properties:
       - "renesas,etheravb-r8a774a1" for the R8A774A1 SoC.
       - "renesas,etheravb-r8a774b1" for the R8A774B1 SoC.
       - "renesas,etheravb-r8a774c0" for the R8A774C0 SoC.
+      - "renesas,etheravb-r8a774e1" for the R8A774E1 SoC.
       - "renesas,etheravb-r8a7795" for the R8A7795 SoC.
       - "renesas,etheravb-r8a7796" for the R8A77960 SoC.
       - "renesas,etheravb-r8a77961" for the R8A77961 SoC.
diff --git a/Documentation/devicetree/bindings/perf/arm,cmn.yaml b/Documentation/devicetree/bindings/perf/arm,cmn.yaml
new file mode 100644 (file)
index 0000000..e4fcc0d
--- /dev/null
@@ -0,0 +1,57 @@
+# SPDX-License-Identifier: (GPL-2.0-only OR BSD-2-Clause)
+# Copyright 2020 Arm Ltd.
+%YAML 1.2
+---
+$id: http://devicetree.org/schemas/perf/arm,cmn.yaml#
+$schema: http://devicetree.org/meta-schemas/core.yaml#
+
+title: Arm CMN (Coherent Mesh Network) Performance Monitors
+
+maintainers:
+  - Robin Murphy <robin.murphy@arm.com>
+
+properties:
+  compatible:
+    const: arm,cmn-600
+
+  reg:
+    items:
+      - description: Physical address of the base (PERIPHBASE) and
+          size (up to 64MB) of the configuration address space.
+
+  interrupts:
+    minItems: 1
+    maxItems: 4
+    items:
+      - description: Overflow interrupt for DTC0
+      - description: Overflow interrupt for DTC1
+      - description: Overflow interrupt for DTC2
+      - description: Overflow interrupt for DTC3
+    description: One interrupt for each DTC domain implemented must
+      be specified, in order. DTC0 is always present.
+
+  arm,root-node:
+    $ref: /schemas/types.yaml#/definitions/uint32
+    description: Offset from PERIPHBASE of the configuration
+      discovery node (see TRM definition of ROOTNODEBASE).
+
+required:
+  - compatible
+  - reg
+  - interrupts
+  - arm,root-node
+
+additionalProperties: false
+
+examples:
+  - |
+    #include <dt-bindings/interrupt-controller/arm-gic.h>
+    #include <dt-bindings/interrupt-controller/irq.h>
+    pmu@50000000 {
+        compatible = "arm,cmn-600";
+        reg = <0x50000000 0x4000000>;
+        /* 4x2 mesh with one DTC, and CFG node at 0,1,1,0 */
+        interrupts = <GIC_SPI 46 IRQ_TYPE_LEVEL_HIGH>;
+        arm,root-node = <0x104000>;
+    };
+...
diff --git a/Documentation/devicetree/bindings/rng/ingenic,trng.yaml b/Documentation/devicetree/bindings/rng/ingenic,trng.yaml
new file mode 100644 (file)
index 0000000..808f247
--- /dev/null
@@ -0,0 +1,43 @@
+# SPDX-License-Identifier: (GPL-2.0-only OR BSD-2-Clause)
+%YAML 1.2
+---
+$id: http://devicetree.org/schemas/rng/ingenic,trng.yaml#
+$schema: http://devicetree.org/meta-schemas/core.yaml#
+
+title: Bindings for DTRNG in Ingenic SoCs
+
+maintainers:
+  - 周琰杰 (Zhou Yanjie) <zhouyanjie@wanyeetech.com>
+
+description:
+  The True Random Number Generator in Ingenic SoCs.
+
+properties:
+  compatible:
+    enum:
+      - ingenic,x1830-dtrng
+
+  reg:
+    maxItems: 1
+
+  clocks:
+    maxItems: 1
+
+required:
+  - compatible
+  - reg
+  - clocks
+
+additionalProperties: false
+
+examples:
+  - |
+    #include <dt-bindings/clock/x1830-cgu.h>
+
+    dtrng: trng@10072000 {
+        compatible = "ingenic,x1830-dtrng";
+        reg = <0x10072000 0xc>;
+
+        clocks = <&cgu X1830_CLK_DTRNG>;
+    };
+...
diff --git a/Documentation/devicetree/bindings/rng/xiphera,xip8001b-trng.yaml b/Documentation/devicetree/bindings/rng/xiphera,xip8001b-trng.yaml
new file mode 100644 (file)
index 0000000..1e17e55
--- /dev/null
@@ -0,0 +1,33 @@
+# SPDX-License-Identifier: (GPL-2.0-only OR BSD-2-Clause)
+%YAML 1.2
+---
+$id: http://devicetree.org/schemas/rng/xiphera,xip8001b-trng.yaml#
+$schema: http://devicetree.org/meta-schemas/core.yaml#
+
+title: Xiphera XIP8001B-trng bindings
+
+maintainers:
+  - Atte Tommiska <atte.tommiska@xiphera.com>
+
+description: |
+  Xiphera FPGA-based true random number generator intellectual property core.
+
+properties:
+  compatible:
+    const: xiphera,xip8001b-trng
+
+  reg:
+    maxItems: 1
+
+required:
+  - compatible
+  - reg
+
+additionalProperties: false
+
+examples:
+  - |
+    rng@43c00000 {
+        compatible = "xiphera,xip8001b-trng";
+        reg = <0x43c00000 0x10000>;
+    };
index 7e4dc56..428db3a 100644 (file)
@@ -39,6 +39,7 @@ properties:
       - items:
           - enum:
               - renesas,r8a73a4-cmt0      # 32-bit CMT0 on R-Mobile APE6
+              - renesas,r8a7742-cmt0      # 32-bit CMT0 on RZ/G1H
               - renesas,r8a7743-cmt0      # 32-bit CMT0 on RZ/G1M
               - renesas,r8a7744-cmt0      # 32-bit CMT0 on RZ/G1N
               - renesas,r8a7745-cmt0      # 32-bit CMT0 on RZ/G1E
@@ -53,6 +54,7 @@ properties:
       - items:
           - enum:
               - renesas,r8a73a4-cmt1      # 48-bit CMT1 on R-Mobile APE6
+              - renesas,r8a7742-cmt1      # 48-bit CMT1 on RZ/G1H
               - renesas,r8a7743-cmt1      # 48-bit CMT1 on RZ/G1M
               - renesas,r8a7744-cmt1      # 48-bit CMT1 on RZ/G1N
               - renesas,r8a7745-cmt1      # 48-bit CMT1 on RZ/G1E
@@ -69,6 +71,7 @@ properties:
               - renesas,r8a774a1-cmt0     # 32-bit CMT0 on RZ/G2M
               - renesas,r8a774b1-cmt0     # 32-bit CMT0 on RZ/G2N
               - renesas,r8a774c0-cmt0     # 32-bit CMT0 on RZ/G2E
+              - renesas,r8a774e1-cmt0     # 32-bit CMT0 on RZ/G2H
               - renesas,r8a7795-cmt0      # 32-bit CMT0 on R-Car H3
               - renesas,r8a7796-cmt0      # 32-bit CMT0 on R-Car M3-W
               - renesas,r8a77965-cmt0     # 32-bit CMT0 on R-Car M3-N
@@ -83,6 +86,7 @@ properties:
               - renesas,r8a774a1-cmt1     # 48-bit CMT on RZ/G2M
               - renesas,r8a774b1-cmt1     # 48-bit CMT on RZ/G2N
               - renesas,r8a774c0-cmt1     # 48-bit CMT on RZ/G2E
+              - renesas,r8a774e1-cmt1     # 48-bit CMT on RZ/G2H
               - renesas,r8a7795-cmt1      # 48-bit CMT on R-Car H3
               - renesas,r8a7796-cmt1      # 48-bit CMT on R-Car M3-W
               - renesas,r8a77965-cmt1     # 48-bit CMT on R-Car M3-N
index 4ace803..25c4239 100644 (file)
@@ -326,6 +326,8 @@ properties:
           - silabs,si7020
             # Skyworks SKY81452: Six-Channel White LED Driver with Touch Panel Bias Supply
           - skyworks,sky81452
+            # Socionext SynQuacer TPM MMIO module
+          - socionext,synquacer-tpm-mmio
             # i2c serial eeprom  (24cxx)
           - st,24c256
             # Ambient Light Sensor with SMBUS/Two Wire Serial Interface
index 63996ab..7d58834 100644 (file)
@@ -1174,6 +1174,8 @@ patternProperties:
     description: Shenzhen Xingbangda Display Technology Co., Ltd
   "^xinpeng,.*":
     description: Shenzhen Xinpeng Technology Co., Ltd
+  "^xiphera,.*":
+    description: Xiphera Ltd.
   "^xlnx,.*":
     description: Xilinx
   "^xnano,.*":
index fff6604..4fd86c2 100644 (file)
@@ -387,22 +387,23 @@ Domain`_ references.
 Cross-referencing from reStructuredText
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
-To cross-reference the functions and types defined in the kernel-doc comments
-from reStructuredText documents, please use the `Sphinx C Domain`_
-references. For example::
-
-  See function :c:func:`foo` and struct/union/enum/typedef :c:type:`bar`.
-
-While the type reference works with just the type name, without the
-struct/union/enum/typedef part in front, you may want to use::
-
-  See :c:type:`struct foo <foo>`.
-  See :c:type:`union bar <bar>`.
-  See :c:type:`enum baz <baz>`.
-  See :c:type:`typedef meh <meh>`.
-
-This will produce prettier links, and is in line with how kernel-doc does the
-cross-references.
+No additional syntax is needed to cross-reference the functions and types
+defined in the kernel-doc comments from reStructuredText documents.
+Just end function names with ``()`` and write ``struct``, ``union``, ``enum``
+or ``typedef`` before types.
+For example::
+
+  See foo().
+  See struct foo.
+  See union bar.
+  See enum baz.
+  See typedef meh.
+
+However, if you want custom text in the cross-reference link, that can be done
+through the following syntax::
+
+  See :c:func:`my custom link text for function foo <foo>`.
+  See :c:type:`my custom link text for struct bar <bar>`.
 
 For further details, please refer to the `Sphinx C Domain`_ documentation.
 
index f71ddd5..896478b 100644 (file)
@@ -337,6 +337,23 @@ Rendered as:
 
         - column 3
 
+Cross-referencing
+-----------------
+
+Cross-referencing from one documentation page to another can be done by passing
+the path to the file starting from the Documentation folder.
+For example, to cross-reference to this page (the .rst extension is optional)::
+
+    See Documentation/doc-guide/sphinx.rst.
+
+If you want to use a relative path, you need to use Sphinx's ``doc`` directive.
+For example, referencing this page from the same directory would be done as::
+
+    See :doc:`sphinx`.
+
+For information on cross-referencing to kernel-doc functions or types, see
+Documentation/doc-guide/kernel-doc.rst.
+
 .. _sphinx_kfigure:
 
 Figures & Images
index 13ea0cc..4144b66 100644 (file)
@@ -85,7 +85,7 @@ consider though:
 - Memory mapping the contents of the DMA buffer is also supported. See the
   discussion below on `CPU Access to DMA Buffer Objects`_ for the full details.
 
-- The DMA buffer FD is also pollable, see `Fence Poll Support`_ below for
+- The DMA buffer FD is also pollable, see `Implicit Fence Poll Support`_ below for
   details.
 
 Basic Operation and Device DMA Access
index 9809f59..072a745 100644 (file)
@@ -342,12 +342,12 @@ Cascaded GPIO irqchips usually fall in one of three categories:
   forced to a thread. The "fake?" raw lock can be used to work around this
   problem::
 
-       raw_spinlock_t wa_lock;
-       static irqreturn_t omap_gpio_irq_handler(int irq, void *gpiobank)
-               unsigned long wa_lock_flags;
-               raw_spin_lock_irqsave(&bank->wa_lock, wa_lock_flags);
-               generic_handle_irq(irq_find_mapping(bank->chip.irq.domain, bit));
-               raw_spin_unlock_irqrestore(&bank->wa_lock, wa_lock_flags);
+    raw_spinlock_t wa_lock;
+    static irqreturn_t omap_gpio_irq_handler(int irq, void *gpiobank)
+        unsigned long wa_lock_flags;
+        raw_spin_lock_irqsave(&bank->wa_lock, wa_lock_flags);
+        generic_handle_irq(irq_find_mapping(bank->chip.irq.domain, bit));
+        raw_spin_unlock_irqrestore(&bank->wa_lock, wa_lock_flags);
 
 - GENERIC CHAINED GPIO IRQCHIPS: these are the same as "CHAINED GPIO irqchips",
   but chained IRQ handlers are not used. Instead GPIO IRQs dispatching is
index a4f8f98..5863bd0 100644 (file)
@@ -10,3 +10,4 @@ Non-Volatile Memory Device (NVDIMM)
    nvdimm
    btt
    security
+   firmware-activate
index 8858cea..b432a2d 100644 (file)
@@ -518,10 +518,10 @@ typically called during a dailink .shutdown() callback, which clears
 the stream pointer for all DAIS connected to a stream and releases the
 memory allocated for the stream.
 
-  Not Supported
+Not Supported
 =============
 
 1. A single port with multiple channels supported cannot be used between two
-streams or across stream. For example a port with 4 channels cannot be used
-to handle 2 independent stereo streams even though it's possible in theory
-in SoundWire.
+   streams or across stream. For example a port with 4 channels cannot be used
+   to handle 2 independent stereo streams even though it's possible in theory
+   in SoundWire.
index e57a3d1..328f698 100644 (file)
@@ -87,15 +87,8 @@ C. Boot options
        Note, not all drivers can handle font with widths not divisible by 8,
        such as vga16fb.
 
-2. fbcon=scrollback:<value>[k]
 
-       The scrollback buffer is memory that is used to preserve display
-       contents that has already scrolled past your view.  This is accessed
-       by using the Shift-PageUp key combination.  The value 'value' is any
-       integer. It defaults to 32KB.  The 'k' suffix is optional, and will
-       multiply the 'value' by 1024.
-
-3. fbcon=map:<0123>
+2. fbcon=map:<0123>
 
        This is an interesting option. It tells which driver gets mapped to
        which console. The value '0123' is a sequence that gets repeated until
@@ -116,7 +109,7 @@ C. Boot options
        Later on, when you want to map the console the to the framebuffer
        device, you can use the con2fbmap utility.
 
-4. fbcon=vc:<n1>-<n2>
+3. fbcon=vc:<n1>-<n2>
 
        This option tells fbcon to take over only a range of consoles as
        specified by the values 'n1' and 'n2'. The rest of the consoles
@@ -127,7 +120,7 @@ C. Boot options
        is typically located on the same video card.  Thus, the consoles that
        are controlled by the VGA console will be garbled.
 
-5. fbcon=rotate:<n>
+4. fbcon=rotate:<n>
 
        This option changes the orientation angle of the console display. The
        value 'n' accepts the following:
@@ -152,21 +145,21 @@ C. Boot options
        Actually, the underlying fb driver is totally ignorant of console
        rotation.
 
-6. fbcon=margin:<color>
+5. fbcon=margin:<color>
 
        This option specifies the color of the margins. The margins are the
        leftover area at the right and the bottom of the screen that are not
        used by text. By default, this area will be black. The 'color' value
        is an integer number that depends on the framebuffer driver being used.
 
-7. fbcon=nodefer
+6. fbcon=nodefer
 
        If the kernel is compiled with deferred fbcon takeover support, normally
        the framebuffer contents, left in place by the firmware/bootloader, will
        be preserved until there actually is some text is output to the console.
        This option causes fbcon to bind immediately to the fbdev device.
 
-8. fbcon=logo-pos:<location>
+7. fbcon=logo-pos:<location>
 
        The only possible 'location' is 'center' (without quotes), and when
        given, the bootup logo is moved from the default top-left corner
@@ -174,7 +167,7 @@ C. Boot options
        displayed due to multiple CPUs, the collected line of logos is moved
        as a whole.
 
-9. fbcon=logo-count:<n>
+8. fbcon=logo-count:<n>
 
        The value 'n' overrides the number of bootup logos. 0 disables the
        logo, and -1 gives the default which is the number of online CPUs.
index f1859d9..6158c49 100644 (file)
@@ -317,8 +317,6 @@ Currently there are following known bugs:
  - interlaced text mode is not supported; it looks like hardware limitation,
    but I'm not sure.
  - Gxx0 SGRAM/SDRAM is not autodetected.
- - If you are using more than one framebuffer device, you must boot kernel
-   with 'video=scrollback:0'.
  - maybe more...
 
 And following misfeatures:
index 8e8c1b9..42466ff 100644 (file)
@@ -185,9 +185,6 @@ Bugs
   contact me.
 - The 24/32 is not likely to work anytime soon, knowing that the
   hardware does ... unusual things in 24/32 bpp.
-- When used with another video board, current limitations of the linux
-  console subsystem can cause some troubles, specifically, you should
-  disable software scrollback, as it can oops badly ...
 
 Todo
 ====
index 6821c87..f890a4f 100644 (file)
@@ -135,8 +135,6 @@ ypan          enable display panning using the VESA protected mode
 
                 * scrolling (fullscreen) is fast, because there is
                  no need to copy around data.
-               * You'll get scrollback (the Shift-PgUp thing),
-                 the video memory can be used as scrollback buffer
 
           kontra:
 
index 4c536e6..98f59a8 100644 (file)
@@ -34,8 +34,6 @@ algorithms work.
    quota
    seq_file
    sharedsubtree
-   sysfs-pci
-   sysfs-tagging
 
    automount-support
 
index 29c169c..d7f53d6 100644 (file)
@@ -1,7 +1,7 @@
 .. SPDX-License-Identifier: GPL-2.0
 
 ====================
-fILESYSTEM Mount API
+Filesystem Mount API
 ====================
 
 .. CONTENTS
@@ -479,7 +479,7 @@ returned.
         int vfs_parse_fs_param(struct fs_context *fc,
                               struct fs_parameter *param);
 
-     Supply a single mount parameter to the filesystem context.  This include
+     Supply a single mount parameter to the filesystem context.  This includes
      the specification of the source/device which is specified as the "source"
      parameter (which may be specified multiple times if the filesystem
      supports that).
@@ -592,8 +592,7 @@ The following helpers all wrap sget_fc():
            one.
 
 
-=====================
-PARAMETER DESCRIPTION
+Parameter Description
 =====================
 
 Parameters are described using structures defined in linux/fs_parser.h.
index 7f7ee06..5685648 100644 (file)
@@ -129,7 +129,9 @@ also a special value which can be returned by the start() function
 called SEQ_START_TOKEN; it can be used if you wish to instruct your
 show() function (described below) to print a header at the top of the
 output. SEQ_START_TOKEN should only be used if the offset is zero,
-however.
+however.  SEQ_START_TOKEN has no special meaning to the core seq_file
+code.  It is provided as a convenience for a start() funciton to
+communicate with the next() and show() functions.
 
 The next function to implement is called, amazingly, next(); its job is to
 move the iterator forward to the next position in the sequence.  The
@@ -145,6 +147,22 @@ complete. Here's the example version::
                return spos;
        }
 
+The next() function should set ``*pos`` to a value that start() can use
+to find the new location in the sequence.  When the iterator is being
+stored in the private data area, rather than being reinitialized on each
+start(), it might seem sufficient to simply set ``*pos`` to any non-zero
+value (zero always tells start() to restart the sequence).  This is not
+sufficient due to historical problems.
+
+Historically, many next() functions have *not* updated ``*pos`` at
+end-of-file.  If the value is then used by start() to initialise the
+iterator, this can result in corner cases where the last entry in the
+sequence is reported twice in the file.  In order to discourage this bug
+from being resurrected, the core seq_file code now produces a warning if
+a next() function does not change the value of ``*pos``.  Consequently a
+next() function *must* change the value of ``*pos``, and of course must
+set it to a non-zero value.
+
 The stop() function closes a session; its job, of course, is to clean
 up. If dynamic memory is allocated for the iterator, stop() is the
 place to free it; if a lock was taken by start(), stop() must release
index ab0f779..5a3209a 100644 (file)
@@ -172,14 +172,13 @@ calls the associated methods.
 
 To illustrate::
 
-    #define to_dev(obj) container_of(obj, struct device, kobj)
     #define to_dev_attr(_attr) container_of(_attr, struct device_attribute, attr)
 
     static ssize_t dev_attr_show(struct kobject *kobj, struct attribute *attr,
                                char *buf)
     {
            struct device_attribute *dev_attr = to_dev_attr(attr);
-           struct device *dev = to_dev(kobj);
+           struct device *dev = kobj_to_dev(kobj);
            ssize_t ret = -EIO;
 
            if (dev_attr->show)
index 1f39c8c..5210aed 100644 (file)
@@ -1,11 +1,13 @@
 .. SPDX-License-Identifier: GPL-2.0
 
-:orphan:
-
 .. UBIFS Authentication
 .. sigma star gmbh
 .. 2018
 
+============================
+UBIFS Authentication Support
+============================
+
 Introduction
 ============
 
index ad3b5af..f72b5f1 100644 (file)
@@ -26,3 +26,4 @@ ACPI Support
    lpit
    video_extension
    extcon-intel-int3496
+   intel-pmc-mux
index 750d3a9..77a1ae9 100644 (file)
@@ -158,6 +158,7 @@ Hardware Monitoring Kernel Drivers
    smsc47b397
    smsc47m192
    smsc47m1
+   sparx5-temp
    tc654
    tc74
    thmc50
index 0436e10..4bdfe28 100644 (file)
@@ -15,4 +15,3 @@ IA-64 Architecture
    irq-redir
    mca
    serial
-   xen
diff --git a/Documentation/ia64/xen.rst b/Documentation/ia64/xen.rst
deleted file mode 100644 (file)
index 831339c..0000000
+++ /dev/null
@@ -1,206 +0,0 @@
-********************************************************
-Recipe for getting/building/running Xen/ia64 with pv_ops
-********************************************************
-This recipe describes how to get xen-ia64 source and build it,
-and run domU with pv_ops.
-
-Requirements
-============
-
-  - python
-  - mercurial
-    it (aka "hg") is an open-source source code
-    management software. See the below.
-    http://www.selenic.com/mercurial/wiki/
-  - git
-  - bridge-utils
-
-Getting and Building Xen and Dom0
-=================================
-
-  My environment is:
-
-    - Machine  : Tiger4
-    - Domain0 OS  : RHEL5
-    - DomainU OS  : RHEL5
-
- 1. Download source::
-
-       # hg clone http://xenbits.xensource.com/ext/ia64/xen-unstable.hg
-       # cd xen-unstable.hg
-       # hg clone http://xenbits.xensource.com/ext/ia64/linux-2.6.18-xen.hg
-
- 2. # make world
-
- 3. # make install-tools
-
- 4. copy kernels and xen::
-
-       # cp xen/xen.gz /boot/efi/efi/redhat/
-       # cp build-linux-2.6.18-xen_ia64/vmlinux.gz \
-       /boot/efi/efi/redhat/vmlinuz-2.6.18.8-xen
-
- 5. make initrd for Dom0/DomU::
-
-       # make -C linux-2.6.18-xen.hg ARCH=ia64 modules_install \
-          O=$(pwd)/build-linux-2.6.18-xen_ia64
-       # mkinitrd -f /boot/efi/efi/redhat/initrd-2.6.18.8-xen.img \
-         2.6.18.8-xen --builtin mptspi --builtin mptbase \
-         --builtin mptscsih --builtin uhci-hcd --builtin ohci-hcd \
-         --builtin ehci-hcd
-
-Making a disk image for guest OS
-================================
-
- 1. make file::
-
-      # dd if=/dev/zero of=/root/rhel5.img bs=1M seek=4096 count=0
-      # mke2fs -F -j /root/rhel5.img
-      # mount -o loop /root/rhel5.img /mnt
-      # cp -ax /{dev,var,etc,usr,bin,sbin,lib} /mnt
-      # mkdir /mnt/{root,proc,sys,home,tmp}
-
-      Note: You may miss some device files. If so, please create them
-      with mknod. Or you can use tar instead of cp.
-
- 2. modify DomU's fstab::
-
-      # vi /mnt/etc/fstab
-         /dev/xvda1  /            ext3    defaults        1 1
-         none        /dev/pts     devpts  gid=5,mode=620  0 0
-         none        /dev/shm     tmpfs   defaults        0 0
-         none        /proc        proc    defaults        0 0
-         none        /sys         sysfs   defaults        0 0
-
- 3. modify inittab
-
-    set runlevel to 3 to avoid X trying to start::
-
-      # vi /mnt/etc/inittab
-         id:3:initdefault:
-
-    Start a getty on the hvc0 console::
-
-       X0:2345:respawn:/sbin/mingetty hvc0
-
-    tty1-6 mingetty can be commented out
-
- 4. add hvc0 into /etc/securetty::
-
-      # vi /mnt/etc/securetty (add hvc0)
-
- 5. umount::
-
-      # umount /mnt
-
-FYI, virt-manager can also make a disk image for guest OS.
-It's GUI tools and easy to make it.
-
-Boot Xen & Domain0
-==================
-
- 1. replace elilo
-    elilo of RHEL5 can boot Xen and Dom0.
-    If you use old elilo (e.g RHEL4), please download from the below
-    http://elilo.sourceforge.net/cgi-bin/blosxom
-    and copy into /boot/efi/efi/redhat/::
-
-      # cp elilo-3.6-ia64.efi /boot/efi/efi/redhat/elilo.efi
-
- 2. modify elilo.conf (like the below)::
-
-      # vi /boot/efi/efi/redhat/elilo.conf
-      prompt
-      timeout=20
-      default=xen
-      relocatable
-
-      image=vmlinuz-2.6.18.8-xen
-             label=xen
-             vmm=xen.gz
-             initrd=initrd-2.6.18.8-xen.img
-             read-only
-             append=" -- rhgb root=/dev/sda2"
-
-The append options before "--" are for xen hypervisor,
-the options after "--" are for dom0.
-
-FYI, your machine may need console options like
-"com1=19200,8n1 console=vga,com1". For example,
-append="com1=19200,8n1 console=vga,com1 -- rhgb console=tty0 \
-console=ttyS0 root=/dev/sda2"
-
-Getting and Building domU with pv_ops
-=====================================
-
- 1. get pv_ops tree::
-
-      # git clone http://people.valinux.co.jp/~yamahata/xen-ia64/linux-2.6-xen-ia64.git/
-
- 2. git branch (if necessary)::
-
-      # cd linux-2.6-xen-ia64/
-      # git checkout -b your_branch origin/xen-ia64-domu-minimal-2008may19
-
-   Note:
-     The current branch is xen-ia64-domu-minimal-2008may19.
-     But you would find the new branch. You can see with
-     "git branch -r" to get the branch lists.
-
-       http://people.valinux.co.jp/~yamahata/xen-ia64/for_eagl/linux-2.6-ia64-pv-ops.git/
-
-     is also available.
-
-     The tree is based on
-
-      git://git.kernel.org/pub/scm/linux/kernel/git/aegl/linux-2.6 test)
-
- 3. copy .config for pv_ops of domU::
-
-      # cp arch/ia64/configs/xen_domu_wip_defconfig .config
-
- 4. make kernel with pv_ops::
-
-      # make oldconfig
-      # make
-
- 5. install the kernel and initrd::
-
-      # cp vmlinux.gz /boot/efi/efi/redhat/vmlinuz-2.6-pv_ops-xenU
-      # make modules_install
-      # mkinitrd -f /boot/efi/efi/redhat/initrd-2.6-pv_ops-xenU.img \
-        2.6.26-rc3xen-ia64-08941-g1b12161 --builtin mptspi \
-        --builtin mptbase --builtin mptscsih --builtin uhci-hcd \
-        --builtin ohci-hcd --builtin ehci-hcd
-
-Boot DomainU with pv_ops
-========================
-
- 1. make config of DomU::
-
-     # vi /etc/xen/rhel5
-       kernel = "/boot/efi/efi/redhat/vmlinuz-2.6-pv_ops-xenU"
-       ramdisk = "/boot/efi/efi/redhat/initrd-2.6-pv_ops-xenU.img"
-       vcpus = 1
-       memory = 512
-       name = "rhel5"
-       disk = [ 'file:/root/rhel5.img,xvda1,w' ]
-       root = "/dev/xvda1 ro"
-       extra= "rhgb console=hvc0"
-
- 2. After boot xen and dom0, start xend::
-
-       # /etc/init.d/xend start
-
-   ( In the debugging case, `# XEND_DEBUG=1 xend trace_start` )
-
- 3. start domU::
-
-       # xm create -c rhel5
-
-Reference
-=========
-- Wiki of Xen/IA64 upstream merge
-  http://wiki.xensource.com/xenwiki/XenIA64/UpstreamMerge
-
-Written by Akio Takebe <takebe_akio@jp.fujitsu.com> on 28 May 2008
index 6e38cbb..3a5d76f 100644 (file)
@@ -53,7 +53,7 @@ kernel module following the interface in include/linux/iio/sw_trigger.h::
         */
   }
 
-  static int iio_trig_hrtimer_remove(struct iio_sw_trigger *swt)
+  static int iio_trig_sample_remove(struct iio_sw_trigger *swt)
   {
        /*
         * This undoes the actions in iio_trig_sample_probe
index dae90c2..cf3ca23 100644 (file)
@@ -1,3 +1,5 @@
+.. _kbuild_llvm:
+
 ==============================
 Building Linux with Clang/LLVM
 ==============================
@@ -73,6 +75,8 @@ Getting Help
 - `Wiki <https://github.com/ClangBuiltLinux/linux/wiki>`_
 - `Beginner Bugs <https://github.com/ClangBuiltLinux/linux/issues?q=is%3Aopen+is%3Aissue+label%3A%22good+first+issue%22>`_
 
+.. _getting_llvm:
+
 Getting LLVM
 -------------
 
index 23fcbc4..cec03bd 100644 (file)
@@ -392,3 +392,261 @@ Run the command and save the output, then compare against the output from
 a later run of this command to identify the leakers.  This same output
 can also help you find situations where runtime lock initialization has
 been omitted.
+
+Recursive read locks:
+---------------------
+The whole of the rest document tries to prove a certain type of cycle is equivalent
+to deadlock possibility.
+
+There are three types of lockers: writers (i.e. exclusive lockers, like
+spin_lock() or write_lock()), non-recursive readers (i.e. shared lockers, like
+down_read()) and recursive readers (recursive shared lockers, like rcu_read_lock()).
+And we use the following notations of those lockers in the rest of the document:
+
+       W or E: stands for writers (exclusive lockers).
+       r:      stands for non-recursive readers.
+       R:      stands for recursive readers.
+       S:      stands for all readers (non-recursive + recursive), as both are shared lockers.
+       N:      stands for writers and non-recursive readers, as both are not recursive.
+
+Obviously, N is "r or W" and S is "r or R".
+
+Recursive readers, as their name indicates, are the lockers allowed to acquire
+even inside the critical section of another reader of the same lock instance,
+in other words, allowing nested read-side critical sections of one lock instance.
+
+While non-recursive readers will cause a self deadlock if trying to acquire inside
+the critical section of another reader of the same lock instance.
+
+The difference between recursive readers and non-recursive readers is because:
+recursive readers get blocked only by a write lock *holder*, while non-recursive
+readers could get blocked by a write lock *waiter*. Considering the follow example:
+
+       TASK A:                 TASK B:
+
+       read_lock(X);
+                               write_lock(X);
+       read_lock_2(X);
+
+Task A gets the reader (no matter whether recursive or non-recursive) on X via
+read_lock() first. And when task B tries to acquire writer on X, it will block
+and become a waiter for writer on X. Now if read_lock_2() is recursive readers,
+task A will make progress, because writer waiters don't block recursive readers,
+and there is no deadlock. However, if read_lock_2() is non-recursive readers,
+it will get blocked by writer waiter B, and cause a self deadlock.
+
+Block conditions on readers/writers of the same lock instance:
+--------------------------------------------------------------
+There are simply four block conditions:
+
+1.     Writers block other writers.
+2.     Readers block writers.
+3.     Writers block both recursive readers and non-recursive readers.
+4.     And readers (recursive or not) don't block other recursive readers but
+       may block non-recursive readers (because of the potential co-existing
+       writer waiters)
+
+Block condition matrix, Y means the row blocks the column, and N means otherwise.
+
+           | E | r | R |
+       +---+---+---+---+
+         E | Y | Y | Y |
+       +---+---+---+---+
+         r | Y | Y | N |
+       +---+---+---+---+
+         R | Y | Y | N |
+
+       (W: writers, r: non-recursive readers, R: recursive readers)
+
+
+acquired recursively. Unlike non-recursive read locks, recursive read locks
+only get blocked by current write lock *holders* other than write lock
+*waiters*, for example:
+
+       TASK A:                 TASK B:
+
+       read_lock(X);
+
+                               write_lock(X);
+
+       read_lock(X);
+
+is not a deadlock for recursive read locks, as while the task B is waiting for
+the lock X, the second read_lock() doesn't need to wait because it's a recursive
+read lock. However if the read_lock() is non-recursive read lock, then the above
+case is a deadlock, because even if the write_lock() in TASK B cannot get the
+lock, but it can block the second read_lock() in TASK A.
+
+Note that a lock can be a write lock (exclusive lock), a non-recursive read
+lock (non-recursive shared lock) or a recursive read lock (recursive shared
+lock), depending on the lock operations used to acquire it (more specifically,
+the value of the 'read' parameter for lock_acquire()). In other words, a single
+lock instance has three types of acquisition depending on the acquisition
+functions: exclusive, non-recursive read, and recursive read.
+
+To be concise, we call that write locks and non-recursive read locks as
+"non-recursive" locks and recursive read locks as "recursive" locks.
+
+Recursive locks don't block each other, while non-recursive locks do (this is
+even true for two non-recursive read locks). A non-recursive lock can block the
+corresponding recursive lock, and vice versa.
+
+A deadlock case with recursive locks involved is as follow:
+
+       TASK A:                 TASK B:
+
+       read_lock(X);
+                               read_lock(Y);
+       write_lock(Y);
+                               write_lock(X);
+
+Task A is waiting for task B to read_unlock() Y and task B is waiting for task
+A to read_unlock() X.
+
+Dependency types and strong dependency paths:
+---------------------------------------------
+Lock dependencies record the orders of the acquisitions of a pair of locks, and
+because there are 3 types for lockers, there are, in theory, 9 types of lock
+dependencies, but we can show that 4 types of lock dependencies are enough for
+deadlock detection.
+
+For each lock dependency:
+
+       L1 -> L2
+
+, which means lockdep has seen L1 held before L2 held in the same context at runtime.
+And in deadlock detection, we care whether we could get blocked on L2 with L1 held,
+IOW, whether there is a locker L3 that L1 blocks L3 and L2 gets blocked by L3. So
+we only care about 1) what L1 blocks and 2) what blocks L2. As a result, we can combine
+recursive readers and non-recursive readers for L1 (as they block the same types) and
+we can combine writers and non-recursive readers for L2 (as they get blocked by the
+same types).
+
+With the above combination for simplification, there are 4 types of dependency edges
+in the lockdep graph:
+
+1) -(ER)->: exclusive writer to recursive reader dependency, "X -(ER)-> Y" means
+           X -> Y and X is a writer and Y is a recursive reader.
+
+2) -(EN)->: exclusive writer to non-recursive locker dependency, "X -(EN)-> Y" means
+           X -> Y and X is a writer and Y is either a writer or non-recursive reader.
+
+3) -(SR)->: shared reader to recursive reader dependency, "X -(SR)-> Y" means
+           X -> Y and X is a reader (recursive or not) and Y is a recursive reader.
+
+4) -(SN)->: shared reader to non-recursive locker dependency, "X -(SN)-> Y" means
+           X -> Y and X is a reader (recursive or not) and Y is either a writer or
+           non-recursive reader.
+
+Note that given two locks, they may have multiple dependencies between them, for example:
+
+       TASK A:
+
+       read_lock(X);
+       write_lock(Y);
+       ...
+
+       TASK B:
+
+       write_lock(X);
+       write_lock(Y);
+
+, we have both X -(SN)-> Y and X -(EN)-> Y in the dependency graph.
+
+We use -(xN)-> to represent edges that are either -(EN)-> or -(SN)->, the
+similar for -(Ex)->, -(xR)-> and -(Sx)->
+
+A "path" is a series of conjunct dependency edges in the graph. And we define a
+"strong" path, which indicates the strong dependency throughout each dependency
+in the path, as the path that doesn't have two conjunct edges (dependencies) as
+-(xR)-> and -(Sx)->. In other words, a "strong" path is a path from a lock
+walking to another through the lock dependencies, and if X -> Y -> Z is in the
+path (where X, Y, Z are locks), and the walk from X to Y is through a -(SR)-> or
+-(ER)-> dependency, the walk from Y to Z must not be through a -(SN)-> or
+-(SR)-> dependency.
+
+We will see why the path is called "strong" in next section.
+
+Recursive Read Deadlock Detection:
+----------------------------------
+
+We now prove two things:
+
+Lemma 1:
+
+If there is a closed strong path (i.e. a strong circle), then there is a
+combination of locking sequences that causes deadlock. I.e. a strong circle is
+sufficient for deadlock detection.
+
+Lemma 2:
+
+If there is no closed strong path (i.e. strong circle), then there is no
+combination of locking sequences that could cause deadlock. I.e.  strong
+circles are necessary for deadlock detection.
+
+With these two Lemmas, we can easily say a closed strong path is both sufficient
+and necessary for deadlocks, therefore a closed strong path is equivalent to
+deadlock possibility. As a closed strong path stands for a dependency chain that
+could cause deadlocks, so we call it "strong", considering there are dependency
+circles that won't cause deadlocks.
+
+Proof for sufficiency (Lemma 1):
+
+Let's say we have a strong circle:
+
+       L1 -> L2 ... -> Ln -> L1
+
+, which means we have dependencies:
+
+       L1 -> L2
+       L2 -> L3
+       ...
+       Ln-1 -> Ln
+       Ln -> L1
+
+We now can construct a combination of locking sequences that cause deadlock:
+
+Firstly let's make one CPU/task get the L1 in L1 -> L2, and then another get
+the L2 in L2 -> L3, and so on. After this, all of the Lx in Lx -> Lx+1 are
+held by different CPU/tasks.
+
+And then because we have L1 -> L2, so the holder of L1 is going to acquire L2
+in L1 -> L2, however since L2 is already held by another CPU/task, plus L1 ->
+L2 and L2 -> L3 are not -(xR)-> and -(Sx)-> (the definition of strong), which
+means either L2 in L1 -> L2 is a non-recursive locker (blocked by anyone) or
+the L2 in L2 -> L3, is writer (blocking anyone), therefore the holder of L1
+cannot get L2, it has to wait L2's holder to release.
+
+Moreover, we can have a similar conclusion for L2's holder: it has to wait L3's
+holder to release, and so on. We now can prove that Lx's holder has to wait for
+Lx+1's holder to release, and note that Ln+1 is L1, so we have a circular
+waiting scenario and nobody can get progress, therefore a deadlock.
+
+Proof for necessary (Lemma 2):
+
+Lemma 2 is equivalent to: If there is a deadlock scenario, then there must be a
+strong circle in the dependency graph.
+
+According to Wikipedia[1], if there is a deadlock, then there must be a circular
+waiting scenario, means there are N CPU/tasks, where CPU/task P1 is waiting for
+a lock held by P2, and P2 is waiting for a lock held by P3, ... and Pn is waiting
+for a lock held by P1. Let's name the lock Px is waiting as Lx, so since P1 is waiting
+for L1 and holding Ln, so we will have Ln -> L1 in the dependency graph. Similarly,
+we have L1 -> L2, L2 -> L3, ..., Ln-1 -> Ln in the dependency graph, which means we
+have a circle:
+
+       Ln -> L1 -> L2 -> ... -> Ln
+
+, and now let's prove the circle is strong:
+
+For a lock Lx, Px contributes the dependency Lx-1 -> Lx and Px+1 contributes
+the dependency Lx -> Lx+1, and since Px is waiting for Px+1 to release Lx,
+so it's impossible that Lx on Px+1 is a reader and Lx on Px is a recursive
+reader, because readers (no matter recursive or not) don't block recursive
+readers, therefore Lx-1 -> Lx and Lx -> Lx+1 cannot be a -(xR)-> -(Sx)-> pair,
+and this is true for any lock in the circle, therefore, the circle is strong.
+
+References:
+-----------
+[1]: https://en.wikipedia.org/wiki/Deadlock
+[2]: Shibu, K. (2009). Intro To Embedded Systems (1st ed.). Tata McGraw-Hill
index 62c5ad9..a334b58 100644 (file)
@@ -139,6 +139,24 @@ with the associated LOCKTYPE lock acquired.
 
 Read path: same as in :ref:`seqcount_t`.
 
+
+.. _seqcount_latch_t:
+
+Latch sequence counters (``seqcount_latch_t``)
+----------------------------------------------
+
+Latch sequence counters are a multiversion concurrency control mechanism
+where the embedded seqcount_t counter even/odd value is used to switch
+between two copies of protected data. This allows the sequence counter
+read path to safely interrupt its own write side critical section.
+
+Use seqcount_latch_t when the write side sections cannot be protected
+from interruption by readers. This is typically the case when the read
+side can be invoked from NMI handlers.
+
+Check `raw_write_seqcount_latch()` for more information.
+
+
 .. _seqlock_t:
 
 Sequential locks (``seqlock_t``)
index d904e74..f0a6043 100644 (file)
@@ -13,4 +13,5 @@ additions to this manual.
    rebasing-and-merging
    pull-requests
    maintainer-entry-profile
+   modifying-patches
 
diff --git a/Documentation/maintainer/modifying-patches.rst b/Documentation/maintainer/modifying-patches.rst
new file mode 100644 (file)
index 0000000..58385d2
--- /dev/null
@@ -0,0 +1,50 @@
+.. _modifyingpatches:
+
+Modifying Patches
+=================
+
+If you are a subsystem or branch maintainer, sometimes you need to slightly
+modify patches you receive in order to merge them, because the code is not
+exactly the same in your tree and the submitters'. If you stick strictly to
+rule (c) of the developers certificate of origin, you should ask the submitter
+to rediff, but this is a totally counter-productive waste of time and energy.
+Rule (b) allows you to adjust the code, but then it is very impolite to change
+one submitters code and make him endorse your bugs. To solve this problem, it
+is recommended that you add a line between the last Signed-off-by header and
+yours, indicating the nature of your changes. While there is nothing mandatory
+about this, it seems like prepending the description with your mail and/or
+name, all enclosed in square brackets, is noticeable enough to make it obvious
+that you are responsible for last-minute changes. Example::
+
+       Signed-off-by: Random J Developer <random@developer.example.org>
+       [lucky@maintainer.example.org: struct foo moved from foo.c to foo.h]
+       Signed-off-by: Lucky K Maintainer <lucky@maintainer.example.org>
+
+This practice is particularly helpful if you maintain a stable branch and
+want at the same time to credit the author, track changes, merge the fix,
+and protect the submitter from complaints. Note that under no circumstances
+can you change the author's identity (the From header), as it is the one
+which appears in the changelog.
+
+Special note to back-porters: It seems to be a common and useful practice
+to insert an indication of the origin of a patch at the top of the commit
+message (just after the subject line) to facilitate tracking. For instance,
+here's what we see in a 3.x-stable release::
+
+  Date:   Tue Oct 7 07:26:38 2014 -0400
+
+    libata: Un-break ATA blacklist
+
+    commit 1c40279960bcd7d52dbdf1d466b20d24b99176c8 upstream.
+
+And here's what might appear in an older kernel once a patch is backported::
+
+    Date:   Tue May 13 22:12:27 2008 +0200
+
+        wireless, airo: waitbusy() won't delay
+
+        [backport of 2.6 commit b7acbdfbd1f277c1eb23f344f899cfa4cd0bf36a]
+
+Whatever the format, this information provides a valuable help to people
+tracking your trees, and to people trying to troubleshoot bugs in your
+tree.
index 9618633..17c8e0c 100644 (file)
@@ -546,8 +546,8 @@ There are certain things that the Linux kernel memory barriers do not guarantee:
        [*] For information on bus mastering DMA and coherency please read:
 
            Documentation/driver-api/pci/pci.rst
-           Documentation/DMA-API-HOWTO.txt
-           Documentation/DMA-API.txt
+           Documentation/core-api/dma-api-howto.rst
+           Documentation/core-api/dma-api.rst
 
 
 DATA DEPENDENCY BARRIERS (HISTORICAL)
@@ -1932,8 +1932,8 @@ There are some more advanced barrier functions:
      here.
 
      See the subsection "Kernel I/O barrier effects" for more information on
-     relaxed I/O accessors and the Documentation/DMA-API.txt file for more
-     information on consistent memory.
+     relaxed I/O accessors and the Documentation/core-api/dma-api.rst file for
+     more information on consistent memory.
 
  (*) pmem_wmb();
 
index c29496f..611e4b1 100644 (file)
@@ -95,6 +95,7 @@ Contents:
    seg6-sysctl
    strparser
    switchdev
+   sysfs-tagging
    tc-actions-env-rules
    tcp-thin
    team
index 4ae1e0f..e05fb1b 100644 (file)
@@ -405,7 +405,7 @@ be found at:
        http://vger.kernel.org/vger-lists.html
 
 There are lists hosted elsewhere, though; a number of them are at
-lists.redhat.com.
+redhat.com/mailman/listinfo.
 
 The core mailing list for kernel development is, of course, linux-kernel.
 This list is an intimidating place to be; volume can reach 500 messages per
index ee74176..dac1771 100644 (file)
@@ -30,6 +30,7 @@ you probably needn't concern yourself with pcmciautils.
         Program        Minimal version       Command to check the version
 ====================== ===============  ========================================
 GNU C                  4.9              gcc --version
+Clang/LLVM (optional)  10.0.1           clang --version
 GNU make               3.81             make --version
 binutils               2.23             ld -v
 flex                   2.5.35           flex --version
@@ -68,6 +69,15 @@ GCC
 The gcc version requirements may vary depending on the type of CPU in your
 computer.
 
+Clang/LLVM (optional)
+---------------------
+
+The latest formal release of clang and LLVM utils (according to
+`releases.llvm.org <https://releases.llvm.org>`_) are supported for building
+kernels. Older releases aren't guaranteed to work, and we may drop workarounds
+from the kernel that were used to support older versions. Please see additional
+docs on :ref:`Building Linux with Clang/LLVM <kbuild_llvm>`.
+
 Make
 ----
 
@@ -331,6 +341,11 @@ gcc
 
 - <ftp://ftp.gnu.org/gnu/gcc/>
 
+Clang/LLVM
+----------
+
+- :ref:`Getting LLVM <getting_llvm>`.
+
 Make
 ----
 
index 918e32d..ff71d80 100644 (file)
@@ -51,24 +51,6 @@ to make sure their systems do not continue running in the face of
 "unreachable" conditions. (For example, see commits like `this one
 <https://git.kernel.org/linus/d4689846881d160a4d12a514e991a740bcb5d65a>`_.)
 
-uninitialized_var()
--------------------
-For any compiler warnings about uninitialized variables, just add
-an initializer. Using the uninitialized_var() macro (or similar
-warning-silencing tricks) is dangerous as it papers over `real bugs
-<https://lore.kernel.org/lkml/20200603174714.192027-1-glider@google.com/>`_
-(or can in the future), and suppresses unrelated compiler warnings
-(e.g. "unused variable"). If the compiler thinks it is uninitialized,
-either simply initialize the variable or make compiler changes. Keep in
-mind that in most cases, if an initialization is obviously redundant,
-the compiler's dead-store elimination pass will make sure there are no
-needless variable writes.
-
-As Linus has said, this macro
-`must <https://lore.kernel.org/lkml/CA+55aFw+Vbj0i=1TGqCR5vQkCzWJ0QxK6CernOU6eedsudAixw@mail.gmail.com/>`_
-`be <https://lore.kernel.org/lkml/CA+55aFwgbgqhbp1fkxvRKEpzyR5J8n1vKT1VZdz9knmPuXhOeg@mail.gmail.com/>`_
-`removed <https://lore.kernel.org/lkml/CA+55aFz2500WfbKXAx8s67wrm9=yVJu65TpLgN_ybYNv0VEOKA@mail.gmail.com/>`_.
-
 open-coded arithmetic in allocator arguments
 --------------------------------------------
 Dynamic size calculations (especially multiplication) should not be
@@ -322,7 +304,8 @@ to allocate for a structure containing an array of this kind as a member::
 In the example above, we had to remember to calculate ``count - 1`` when using
 the struct_size() helper, otherwise we would have --unintentionally-- allocated
 memory for one too many ``items`` objects. The cleanest and least error-prone way
-to implement this is through the use of a `flexible array member`::
+to implement this is through the use of a `flexible array member`, together with
+struct_size() and flex_array_size() helpers::
 
         struct something {
                 size_t count;
@@ -334,5 +317,4 @@ to implement this is through the use of a `flexible array member`::
         instance = kmalloc(struct_size(instance, items, count), GFP_KERNEL);
         instance->count = count;
 
-        size = sizeof(instance->items[0]) * instance->count;
-        memcpy(instance->items, source, size);
+        memcpy(instance->items, source, flex_array_size(instance, items, instance->count));
index c9e4ce2..16586f6 100644 (file)
@@ -25,6 +25,11 @@ attachments, but then the attachments should have content-type
 it makes quoting portions of the patch more difficult in the patch
 review process.
 
+It's also strongly recommended that you use plain text in your email body,
+for patches and other emails alike. https://useplaintext.email may be useful
+for information on how to configure your preferred email client, as well as
+listing recommended email clients should you not already have a preference.
+
 Email clients that are used for Linux kernel patches should send the
 patch text untouched.  For example, they should not modify or delete tabs
 or spaces, even at the beginning or end of lines.
index e5f5f06..ec474a7 100644 (file)
@@ -6,14 +6,15 @@ Programming Language
 The kernel is written in the C programming language [c-language]_.
 More precisely, the kernel is typically compiled with ``gcc`` [gcc]_
 under ``-std=gnu89`` [gcc-c-dialect-options]_: the GNU dialect of ISO C90
-(including some C99 features).
+(including some C99 features). ``clang`` [clang]_ is also supported, see
+docs on :ref:`Building Linux with Clang/LLVM <kbuild_llvm>`.
 
 This dialect contains many extensions to the language [gnu-extensions]_,
 and many of them are used within the kernel as a matter of course.
 
-There is some support for compiling the kernel with ``clang`` [clang]_
-and ``icc`` [icc]_ for several of the architectures, although at the time
-of writing it is not completed, requiring third-party patches.
+There is some support for compiling the kernel with ``icc`` [icc]_ for several
+of the architectures, although at the time of writing it is not completed,
+requiring third-party patches.
 
 Attributes
 ----------
index 3f8e9d5..b681e86 100644 (file)
@@ -24,6 +24,10 @@ and elsewhere regarding submitting Linux kernel patches.
 
   c) Builds successfully when using ``O=builddir``
 
+  d) Any Documentation/ changes build successfully without new warnings/errors.
+     Use ``make htmldocs`` or ``make pdfdocs`` to check the build and
+     fix any issues.
+
 3) Builds on multiple CPU architectures by using local cross-compile tools
    or some other build farm.
 
index 74b35bf..3861887 100644 (file)
@@ -60,10 +60,11 @@ What Criteria Determine Acceptance
 
 Licensing:
                The code must be released to us under the
-               GNU General Public License. We don't insist on any kind
-               of exclusive GPL licensing, and if you wish the driver
-               to be useful to other communities such as BSD you may well
-               wish to release under multiple licenses.
+               GNU General Public License. If you wish the driver to be
+               useful to other communities such as BSD you may release
+               under multiple licenses. If you choose to release under
+               licenses other than the GPL, you should include your
+               rationale for your license choices in your cover letter.
                See accepted licenses at include/linux/module.h
 
 Copyright:
index 5219bf3..58586ff 100644 (file)
@@ -10,22 +10,18 @@ can greatly increase the chances of your change being accepted.
 
 This document contains a large number of suggestions in a relatively terse
 format.  For detailed information on how the kernel development process
-works, see :ref:`Documentation/process <development_process_main>`.
-Also, read :ref:`Documentation/process/submit-checklist.rst <submitchecklist>`
-for a list of items to check before
-submitting code.  If you are submitting a driver, also read
-:ref:`Documentation/process/submitting-drivers.rst <submittingdrivers>`;
-for device tree binding patches, read
-Documentation/devicetree/bindings/submitting-patches.rst.
-
-Many of these steps describe the default behavior of the ``git`` version
-control system; if you use ``git`` to prepare your patches, you'll find much
-of the mechanical work done for you, though you'll still need to prepare
-and document a sensible set of patches.  In general, use of ``git`` will make
-your life as a kernel developer easier.
-
-0) Obtain a current source tree
--------------------------------
+works, see :doc:`development-process`. Also, read :doc:`submit-checklist`
+for a list of items to check before submitting code.  If you are submitting
+a driver, also read :doc:`submitting-drivers`; for device tree binding patches,
+read :doc:`submitting-patches`.
+
+This documentation assumes that you're using ``git`` to prepare your patches.
+If you're unfamiliar with ``git``, you would be well-advised to learn how to
+use it, it will make your life as a kernel developer and in general much
+easier.
+
+Obtain a current source tree
+----------------------------
 
 If you do not have a repository with the current kernel source handy, use
 ``git`` to obtain one.  You'll want to start with the mainline repository,
@@ -39,68 +35,10 @@ patches prepared against those trees.  See the **T:** entry for the subsystem
 in the MAINTAINERS file to find that tree, or simply ask the maintainer if
 the tree is not listed there.
 
-It is still possible to download kernel releases via tarballs (as described
-in the next section), but that is the hard way to do kernel development.
-
-1) ``diff -up``
----------------
-
-If you must generate your patches by hand, use ``diff -up`` or ``diff -uprN``
-to create patches.  Git generates patches in this form by default; if
-you're using ``git``, you can skip this section entirely.
-
-All changes to the Linux kernel occur in the form of patches, as
-generated by :manpage:`diff(1)`.  When creating your patch, make sure to
-create it in "unified diff" format, as supplied by the ``-u`` argument
-to :manpage:`diff(1)`.
-Also, please use the ``-p`` argument which shows which C function each
-change is in - that makes the resultant ``diff`` a lot easier to read.
-Patches should be based in the root kernel source directory,
-not in any lower subdirectory.
-
-To create a patch for a single file, it is often sufficient to do::
-
-       SRCTREE=linux
-       MYFILE=drivers/net/mydriver.c
-
-       cd $SRCTREE
-       cp $MYFILE $MYFILE.orig
-       vi $MYFILE      # make your change
-       cd ..
-       diff -up $SRCTREE/$MYFILE{.orig,} > /tmp/patch
-
-To create a patch for multiple files, you should unpack a "vanilla",
-or unmodified kernel source tree, and generate a ``diff`` against your
-own source tree.  For example::
-
-       MYSRC=/devel/linux
-
-       tar xvfz linux-3.19.tar.gz
-       mv linux-3.19 linux-3.19-vanilla
-       diff -uprN -X linux-3.19-vanilla/Documentation/dontdiff \
-               linux-3.19-vanilla $MYSRC > /tmp/patch
-
-``dontdiff`` is a list of files which are generated by the kernel during
-the build process, and should be ignored in any :manpage:`diff(1)`-generated
-patch.
-
-Make sure your patch does not include any extra files which do not
-belong in a patch submission.  Make sure to review your patch -after-
-generating it with :manpage:`diff(1)`, to ensure accuracy.
-
-If your changes produce a lot of deltas, you need to split them into
-individual patches which modify things in logical stages; see
-:ref:`split_changes`.  This will facilitate review by other kernel developers,
-very important if you want your patch accepted.
-
-If you're using ``git``, ``git rebase -i`` can help you with this process.  If
-you're not using ``git``, ``quilt`` <https://savannah.nongnu.org/projects/quilt>
-is another popular alternative.
-
 .. _describe_changes:
 
-2) Describe your changes
-------------------------
+Describe your changes
+---------------------
 
 Describe your problem.  Whether your patch is a one-line bug fix or
 5000 lines of a new feature, there must be an underlying problem that
@@ -203,8 +141,8 @@ An example call::
 
 .. _split_changes:
 
-3) Separate your changes
-------------------------
+Separate your changes
+---------------------
 
 Separate each **logical change** into a separate patch.
 
@@ -236,8 +174,8 @@ then only post say 15 or so at a time and wait for review and integration.
 
 
 
-4) Style-check your changes
----------------------------
+Style-check your changes
+------------------------
 
 Check your patch for basic style violations, details of which can be
 found in
@@ -267,8 +205,8 @@ You should be able to justify all violations that remain in your
 patch.
 
 
-5) Select the recipients for your patch
----------------------------------------
+Select the recipients for your patch
+------------------------------------
 
 You should always copy the appropriate subsystem maintainer(s) on any patch
 to code that they maintain; look through the MAINTAINERS file and the
@@ -299,7 +237,8 @@ sending him e-mail.
 If you have a patch that fixes an exploitable security bug, send that patch
 to security@kernel.org.  For severe bugs, a short embargo may be considered
 to allow distributors to get the patch out to users; in such cases,
-obviously, the patch should not be sent to any public lists.
+obviously, the patch should not be sent to any public lists. See also
+:doc:`/admin-guide/security-bugs`.
 
 Patches that fix a severe bug in a released kernel should be directed
 toward the stable maintainers by putting a line like this::
@@ -342,15 +281,20 @@ Trivial patches must qualify for one of the following rules:
 
 
 
-6) No MIME, no links, no compression, no attachments.  Just plain text
-----------------------------------------------------------------------
+No MIME, no links, no compression, no attachments.  Just plain text
+-------------------------------------------------------------------
 
 Linus and other kernel developers need to be able to read and comment
 on the changes you are submitting.  It is important for a kernel
 developer to be able to "quote" your changes, using standard e-mail
 tools, so that they may comment on specific portions of your code.
 
-For this reason, all patches should be submitted by e-mail "inline".
+For this reason, all patches should be submitted by e-mail "inline". The
+easiest way to do this is with ``git send-email``, which is strongly
+recommended.  An interactive tutorial for ``git send-email`` is available at
+https://git-send-email.io.
+
+If you choose not to use ``git send-email``:
 
 .. warning::
 
@@ -366,27 +310,17 @@ decreasing the likelihood of your MIME-attached change being accepted.
 Exception:  If your mailer is mangling patches then someone may ask
 you to re-send them using MIME.
 
-See :ref:`Documentation/process/email-clients.rst <email_clients>`
-for hints about configuring your e-mail client so that it sends your patches
-untouched.
-
-7) E-mail size
---------------
+See :doc:`/process/email-clients` for hints about configuring your e-mail
+client so that it sends your patches untouched.
 
-Large changes are not appropriate for mailing lists, and some
-maintainers.  If your patch, uncompressed, exceeds 300 kB in size,
-it is preferred that you store your patch on an Internet-accessible
-server, and provide instead a URL (link) pointing to your patch.  But note
-that if your patch exceeds 300 kB, it almost certainly needs to be broken up
-anyway.
-
-8) Respond to review comments
------------------------------
+Respond to review comments
+--------------------------
 
 Your patch will almost certainly get comments from reviewers on ways in
-which the patch can be improved.  You must respond to those comments;
-ignoring reviewers is a good way to get ignored in return.  Review comments
-or questions that do not lead to a code change should almost certainly
+which the patch can be improved, in the form of a reply to your email. You must
+respond to those comments; ignoring reviewers is a good way to get ignored in
+return. You can simply reply to their emails to answer their comments. Review
+comments or questions that do not lead to a code change should almost certainly
 bring about a comment or changelog entry so that the next reviewer better
 understands what is going on.
 
@@ -395,9 +329,12 @@ for their time.  Code review is a tiring and time-consuming process, and
 reviewers sometimes get grumpy.  Even in that case, though, respond
 politely and address the problems they have pointed out.
 
+See :doc:`email-clients` for recommendations on email
+clients and mailing list etiquette.
 
-9) Don't get discouraged - or impatient
----------------------------------------
+
+Don't get discouraged - or impatient
+------------------------------------
 
 After you have submitted your change, be patient and wait.  Reviewers are
 busy people and may not get to your patch right away.
@@ -410,18 +347,19 @@ one week before resubmitting or pinging reviewers - possibly longer during
 busy times like merge windows.
 
 
-10) Include PATCH in the subject
---------------------------------
+Include PATCH in the subject
+-----------------------------
 
 Due to high e-mail traffic to Linus, and to linux-kernel, it is common
 convention to prefix your subject line with [PATCH].  This lets Linus
 and other kernel developers more easily distinguish patches from other
 e-mail discussions.
 
+``git send-email`` will do this for you automatically.
 
 
-11) Sign your work - the Developer's Certificate of Origin
-----------------------------------------------------------
+Sign your work - the Developer's Certificate of Origin
+------------------------------------------------------
 
 To improve tracking of who did what, especially with patches that can
 percolate to their final resting place in the kernel through several
@@ -465,60 +403,15 @@ then you just add a line saying::
        Signed-off-by: Random J Developer <random@developer.example.org>
 
 using your real name (sorry, no pseudonyms or anonymous contributions.)
+This will be done for you automatically if you use ``git commit -s``.
 
 Some people also put extra tags at the end.  They'll just be ignored for
 now, but you can do this to mark internal company procedures or just
 point out some special detail about the sign-off.
 
-If you are a subsystem or branch maintainer, sometimes you need to slightly
-modify patches you receive in order to merge them, because the code is not
-exactly the same in your tree and the submitters'. If you stick strictly to
-rule (c), you should ask the submitter to rediff, but this is a totally
-counter-productive waste of time and energy. Rule (b) allows you to adjust
-the code, but then it is very impolite to change one submitter's code and
-make him endorse your bugs. To solve this problem, it is recommended that
-you add a line between the last Signed-off-by header and yours, indicating
-the nature of your changes. While there is nothing mandatory about this, it
-seems like prepending the description with your mail and/or name, all
-enclosed in square brackets, is noticeable enough to make it obvious that
-you are responsible for last-minute changes. Example::
 
-       Signed-off-by: Random J Developer <random@developer.example.org>
-       [lucky@maintainer.example.org: struct foo moved from foo.c to foo.h]
-       Signed-off-by: Lucky K Maintainer <lucky@maintainer.example.org>
-
-This practice is particularly helpful if you maintain a stable branch and
-want at the same time to credit the author, track changes, merge the fix,
-and protect the submitter from complaints. Note that under no circumstances
-can you change the author's identity (the From header), as it is the one
-which appears in the changelog.
-
-Special note to back-porters: It seems to be a common and useful practice
-to insert an indication of the origin of a patch at the top of the commit
-message (just after the subject line) to facilitate tracking. For instance,
-here's what we see in a 3.x-stable release::
-
-  Date:   Tue Oct 7 07:26:38 2014 -0400
-
-    libata: Un-break ATA blacklist
-
-    commit 1c40279960bcd7d52dbdf1d466b20d24b99176c8 upstream.
-
-And here's what might appear in an older kernel once a patch is backported::
-
-    Date:   Tue May 13 22:12:27 2008 +0200
-
-        wireless, airo: waitbusy() won't delay
-
-        [backport of 2.6 commit b7acbdfbd1f277c1eb23f344f899cfa4cd0bf36a]
-
-Whatever the format, this information provides a valuable help to people
-tracking your trees, and to people trying to troubleshoot bugs in your
-tree.
-
-
-12) When to use Acked-by:, Cc:, and Co-developed-by:
--------------------------------------------------------
+When to use Acked-by:, Cc:, and Co-developed-by:
+------------------------------------------------
 
 The Signed-off-by: tag indicates that the signer was involved in the
 development of the patch, or that he/she was in the patch's delivery path.
@@ -586,8 +479,8 @@ Example of a patch submitted by a Co-developed-by: author::
        Signed-off-by: Submitting Co-Author <sub@coauthor.example.org>
 
 
-13) Using Reported-by:, Tested-by:, Reviewed-by:, Suggested-by: and Fixes:
---------------------------------------------------------------------------
+Using Reported-by:, Tested-by:, Reviewed-by:, Suggested-by: and Fixes:
+----------------------------------------------------------------------
 
 The Reported-by tag gives credit to people who find bugs and report them and it
 hopefully inspires them to help us again in the future.  Please note that if
@@ -650,8 +543,8 @@ for more details.
 
 .. _the_canonical_patch_format:
 
-14) The canonical patch format
-------------------------------
+The canonical patch format
+--------------------------
 
 This section describes how the patch itself should be formatted.  Note
 that, if you have your patches stored in a ``git`` repository, proper patch
@@ -773,8 +666,8 @@ references.
 
 .. _explicit_in_reply_to:
 
-15) Explicit In-Reply-To headers
---------------------------------
+Explicit In-Reply-To headers
+----------------------------
 
 It can be helpful to manually add In-Reply-To: headers to a patch
 (e.g., when using ``git send-email``) to associate the patch with
@@ -787,8 +680,8 @@ helpful, you can use the https://lkml.kernel.org/ redirector (e.g., in
 the cover email text) to link to an earlier version of the patch series.
 
 
-16) Providing base tree information
------------------------------------
+Providing base tree information
+-------------------------------
 
 When other developers receive your patches and start the review process,
 it is often useful for them to know where in the tree history they
@@ -838,61 +731,6 @@ either below the ``---`` line or at the very bottom of all other
 content, right before your email signature.
 
 
-17) Sending ``git pull`` requests
----------------------------------
-
-If you have a series of patches, it may be most convenient to have the
-maintainer pull them directly into the subsystem repository with a
-``git pull`` operation.  Note, however, that pulling patches from a developer
-requires a higher degree of trust than taking patches from a mailing list.
-As a result, many subsystem maintainers are reluctant to take pull
-requests, especially from new, unknown developers.  If in doubt you can use
-the pull request as the cover letter for a normal posting of the patch
-series, giving the maintainer the option of using either.
-
-A pull request should have [GIT PULL] in the subject line.  The
-request itself should include the repository name and the branch of
-interest on a single line; it should look something like::
-
-  Please pull from
-
-      git://jdelvare.pck.nerim.net/jdelvare-2.6 i2c-for-linus
-
-  to get these changes:
-
-A pull request should also include an overall message saying what will be
-included in the request, a ``git shortlog`` listing of the patches
-themselves, and a ``diffstat`` showing the overall effect of the patch series.
-The easiest way to get all this information together is, of course, to let
-``git`` do it for you with the ``git request-pull`` command.
-
-Some maintainers (including Linus) want to see pull requests from signed
-commits; that increases their confidence that the request actually came
-from you.  Linus, in particular, will not pull from public hosting sites
-like GitHub in the absence of a signed tag.
-
-The first step toward creating such tags is to make a GNUPG key and get it
-signed by one or more core kernel developers.  This step can be hard for
-new developers, but there is no way around it.  Attending conferences can
-be a good way to find developers who can sign your key.
-
-Once you have prepared a patch series in ``git`` that you wish to have somebody
-pull, create a signed tag with ``git tag -s``.  This will create a new tag
-identifying the last commit in the series and containing a signature
-created with your private key.  You will also have the opportunity to add a
-changelog-style message to the tag; this is an ideal place to describe the
-effects of the pull request as a whole.
-
-If the tree the maintainer will be pulling from is not the repository you
-are working from, don't forget to push the signed tag explicitly to the
-public tree.
-
-When generating your pull request, use the signed tag as the target.  A
-command like this will do the trick::
-
-  git request-pull master git://my.public.tree/linux.git my-signed-tag
-
-
 References
 ----------
 
index 00bf0d0..9b7cbe4 100644 (file)
@@ -365,7 +365,7 @@ giving it a high uclamp.min value.
 .. note::
 
   Wakeup CPU selection in CFS can be eclipsed by Energy Aware Scheduling
-  (EAS), which is described in Documentation/scheduling/sched-energy.rst.
+  (EAS), which is described in Documentation/scheduler/sched-energy.rst.
 
 5.1.3 Load balancing
 ~~~~~~~~~~~~~~~~~~~~
index 78f8507..001e09c 100644 (file)
@@ -331,7 +331,7 @@ asymmetric CPU topologies for now. This requirement is checked at run-time by
 looking for the presence of the SD_ASYM_CPUCAPACITY flag when the scheduling
 domains are built.
 
-See Documentation/sched/sched-capacity.rst for requirements to be met for this
+See Documentation/scheduler/sched-capacity.rst for requirements to be met for this
 flag to be set in the sched_domain hierarchy.
 
 Please note that EAS is not fundamentally incompatible with SMP, but no
index d938720..357328d 100644 (file)
@@ -323,7 +323,6 @@ credentials (the value is simply returned in each case)::
        uid_t current_fsuid(void)       Current's file access UID
        gid_t current_fsgid(void)       Current's file access GID
        kernel_cap_t current_cap(void)  Current's effective capabilities
-       void *current_security(void)    Current's LSM security pointer
        struct user_struct *current_user(void)  Current's user account
 
 There are also convenience wrappers for retrieving specific associated pairs of
index 9483a74..1da879a 100644 (file)
@@ -39,10 +39,9 @@ With the IBM TSS 2 stack::
 
 Or with the Intel TSS 2 stack::
 
-  #> tpm2_createprimary --hierarchy o -G rsa2048 -o key.ctxt
+  #> tpm2_createprimary --hierarchy o -G rsa2048 -c key.ctxt
   [...]
-  handle: 0x800000FF
-  #> tpm2_evictcontrol -c key.ctxt -p 0x81000001
+  #> tpm2_evictcontrol -c key.ctxt 0x81000001
   persistentHandle: 0x81000001
 
 Usage::
index b182363..a1b0f55 100644 (file)
@@ -13,6 +13,7 @@ if sphinx.version_info[0] < 2 or \
 else:
     from sphinx.errors import NoUri
 import re
+from itertools import chain
 
 #
 # Regex nastiness.  Of course.
@@ -21,7 +22,13 @@ import re
 # :c:func: block (i.e. ":c:func:`mmap()`s" flakes out), so the last
 # bit tries to restrict matches to things that won't create trouble.
 #
-RE_function = re.compile(r'([\w_][\w\d_]+\(\))')
+RE_function = re.compile(r'(([\w_][\w\d_]+)\(\))')
+RE_type = re.compile(r'(struct|union|enum|typedef)\s+([\w_][\w\d_]+)')
+#
+# Detects a reference to a documentation page of the form Documentation/... with
+# an optional extension
+#
+RE_doc = re.compile(r'Documentation(/[\w\-_/]+)(\.\w+)*')
 
 #
 # Many places in the docs refer to common system calls.  It is
@@ -34,56 +41,110 @@ Skipfuncs = [ 'open', 'close', 'read', 'write', 'fcntl', 'mmap',
               'select', 'poll', 'fork', 'execve', 'clone', 'ioctl',
               'socket' ]
 
-#
-# Find all occurrences of function() and try to replace them with
-# appropriate cross references.
-#
-def markup_funcs(docname, app, node):
-    cdom = app.env.domains['c']
+def markup_refs(docname, app, node):
     t = node.astext()
     done = 0
     repl = [ ]
-    for m in RE_function.finditer(t):
+    #
+    # Associate each regex with the function that will markup its matches
+    #
+    markup_func = {RE_type: markup_c_ref,
+                   RE_function: markup_c_ref,
+                   RE_doc: markup_doc_ref}
+    match_iterators = [regex.finditer(t) for regex in markup_func]
+    #
+    # Sort all references by the starting position in text
+    #
+    sorted_matches = sorted(chain(*match_iterators), key=lambda m: m.start())
+    for m in sorted_matches:
         #
-        # Include any text prior to function() as a normal text node.
+        # Include any text prior to match as a normal text node.
         #
         if m.start() > done:
             repl.append(nodes.Text(t[done:m.start()]))
+
         #
-        # Go through the dance of getting an xref out of the C domain
-        #
-        target = m.group(1)[:-2]
-        target_text = nodes.Text(target + '()')
-        xref = None
-        if target not in Skipfuncs:
-            lit_text = nodes.literal(classes=['xref', 'c', 'c-func'])
-            lit_text += target_text
-            pxref = addnodes.pending_xref('', refdomain = 'c',
-                                          reftype = 'function',
-                                          reftarget = target, modname = None,
-                                          classname = None)
-            #
-            # XXX The Latex builder will throw NoUri exceptions here,
-            # work around that by ignoring them.
-            #
-            try:
-                xref = cdom.resolve_xref(app.env, docname, app.builder,
-                                         'function', target, pxref, lit_text)
-            except NoUri:
-                xref = None
-        #
-        # Toss the xref into the list if we got it; otherwise just put
-        # the function text.
+        # Call the function associated with the regex that matched this text and
+        # append its return to the text
         #
-        if xref:
-            repl.append(xref)
-        else:
-            repl.append(target_text)
+        repl.append(markup_func[m.re](docname, app, m))
+
         done = m.end()
     if done < len(t):
         repl.append(nodes.Text(t[done:]))
     return repl
 
+#
+# Try to replace a C reference (function() or struct/union/enum/typedef
+# type_name) with an appropriate cross reference.
+#
+def markup_c_ref(docname, app, match):
+    class_str = {RE_function: 'c-func', RE_type: 'c-type'}
+    reftype_str = {RE_function: 'function', RE_type: 'type'}
+
+    cdom = app.env.domains['c']
+    #
+    # Go through the dance of getting an xref out of the C domain
+    #
+    target = match.group(2)
+    target_text = nodes.Text(match.group(0))
+    xref = None
+    if not (match.re == RE_function and target in Skipfuncs):
+        lit_text = nodes.literal(classes=['xref', 'c', class_str[match.re]])
+        lit_text += target_text
+        pxref = addnodes.pending_xref('', refdomain = 'c',
+                                      reftype = reftype_str[match.re],
+                                      reftarget = target, modname = None,
+                                      classname = None)
+        #
+        # XXX The Latex builder will throw NoUri exceptions here,
+        # work around that by ignoring them.
+        #
+        try:
+            xref = cdom.resolve_xref(app.env, docname, app.builder,
+                                     reftype_str[match.re], target, pxref,
+                                     lit_text)
+        except NoUri:
+            xref = None
+    #
+    # Return the xref if we got it; otherwise just return the plain text.
+    #
+    if xref:
+        return xref
+    else:
+        return target_text
+
+#
+# Try to replace a documentation reference of the form Documentation/... with a
+# cross reference to that page
+#
+def markup_doc_ref(docname, app, match):
+    stddom = app.env.domains['std']
+    #
+    # Go through the dance of getting an xref out of the std domain
+    #
+    target = match.group(1)
+    xref = None
+    pxref = addnodes.pending_xref('', refdomain = 'std', reftype = 'doc',
+                                  reftarget = target, modname = None,
+                                  classname = None, refexplicit = False)
+    #
+    # XXX The Latex builder will throw NoUri exceptions here,
+    # work around that by ignoring them.
+    #
+    try:
+        xref = stddom.resolve_xref(app.env, docname, app.builder, 'doc',
+                                   target, pxref, None)
+    except NoUri:
+        xref = None
+    #
+    # Return the xref if we got it; otherwise just return the plain text.
+    #
+    if xref:
+        return xref
+    else:
+        return nodes.Text(match.group(0))
+
 def auto_markup(app, doctree, name):
     #
     # This loop could eventually be improved on.  Someday maybe we
@@ -97,7 +158,7 @@ def auto_markup(app, doctree, name):
     for para in doctree.traverse(nodes.paragraph):
         for node in para.traverse(nodes.Text):
             if not isinstance(node.parent, nodes.literal):
-                node.parent.replace(node, markup_funcs(name, app, node))
+                node.parent.replace(node, markup_refs(name, app, node))
 
 def setup(app):
     app.connect('doctree-resolved', auto_markup)
index c170916..10850a9 100644 (file)
@@ -40,7 +40,7 @@ Synopsis of kprobe_events
  MEMADDR       : Address where the probe is inserted.
  MAXACTIVE     : Maximum number of instances of the specified function that
                  can be probed simultaneously, or 0 for the default value
-                 as defined in Documentation/staging/kprobes.rst section 1.3.1.
+                 as defined in Documentation/trace/kprobes.rst section 1.3.1.
 
  FETCHARGS     : Arguments. Each probe can have up to 128 args.
   %REG         : Fetch register REG
index 9c8d22a..c5d77fc 100644 (file)
@@ -1,28 +1,4 @@
-.. This file is dual-licensed: you can use it either under the terms
-.. of the GPL 2.0 or the GFDL 1.2 license, at your option. Note that this
-.. dual licensing only applies to this file, and not this project as a
-.. whole.
-..
-.. a) This file is free software; you can redistribute it and/or
-..    modify it under the terms of the GNU General Public License as
-..    published by the Free Software Foundation version 2 of
-..    the License.
-..
-..    This file is distributed in the hope that it will be useful,
-..    but WITHOUT ANY WARRANTY; without even the implied warranty of
-..    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
-..    GNU General Public License for more details.
-..
-.. Or, alternatively,
-..
-.. b) Permission is granted to copy, distribute and/or modify this
-..    document under the terms of the GNU Free Documentation License,
-..    Version 1.2 version published by the Free Software
-..    Foundation, with no Invariant Sections, no Front-Cover Texts
-..    and no Back-Cover Texts. A copy of the license is included at
-..    Documentation/userspace-api/media/fdl-appendix.rst.
-..
-.. TODO: replace it to GPL-2.0 OR GFDL-1.2 WITH no-invariant-sections
+.. SPDX-License-Identifier: GPL-2.0 OR GFDL-1.2-no-invariants-only
 
 ===========================
 Lockless Ring Buffer Design
index 71d4823..240d29b 100644 (file)
@@ -284,9 +284,10 @@ Andrew Morton의 글이 있다.
 여러 메이저 넘버를 갖는 다양한 안정된 커널 트리들
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
-3 자리 숫자로 이루어진 버젼의 커널들은 -stable 커널들이다. 그것들은 해당 메이저
-메인라인 릴리즈에서 발견된 큰 회귀들이나 보안 문제들 중 비교적 작고 중요한
-수정들을 포함하며, 앞의 두 버전 넘버는 같은 기반 버전을 의미한다.
+세개의 버젼 넘버로 이루어진 버젼의 커널들은 -stable 커널들이다. 그것들은 해당
+메이저 메인라인 릴리즈에서 발견된 큰 회귀들이나 보안 문제들 중 비교적 작고
+중요한 수정들을 포함한다.  주요 stable 시리즈 릴리즈는 세번째 버젼 넘버를
+증가시키며 앞의 두 버젼 넘버는 그대로 유지한다.
 
 이것은 가장 최근의 안정적인 커널을 원하는 사용자에게 추천되는 브랜치이며,
 개발/실험적 버젼을 테스트하는 것을 돕고자 하는 사용자들과는 별로 관련이 없다.
@@ -316,7 +317,7 @@ Andrew Morton의 글이 있다.
 제안된 패치는 서브시스템 트리에 커밋되기 전에 메일링 리스트를 통해
 리뷰된다(아래의 관련 섹션을 참고하기 바란다). 일부 커널 서브시스템의 경우, 이
 리뷰 프로세스는 patchwork라는 도구를 통해 추적된다. patchwork은 등록된 패치와
\8c¨ì¹\98ì\97\90 ë\8c\80í\95\9c ì½\94ë©\98í\8a¸, í\8c¨ì¹\98ì\9d\98 ë²\84ì \84을 볼 수 있는 웹 인터페이스를 제공하고,
\8c¨ì¹\98ì\97\90 ë\8c\80í\95\9c ì½\94ë©\98í\8a¸, í\8c¨ì¹\98ì\9d\98 ë²\84ì ¼을 볼 수 있는 웹 인터페이스를 제공하고,
 메인테이너는 패치를 리뷰 중, 리뷰 통과, 또는 반려됨으로 표시할 수 있다.
 대부분의 이러한 patchwork 사이트는 https://patchwork.kernel.org/ 에 나열되어
 있다.
index 9dcc7c9..64d932f 100644 (file)
@@ -91,7 +91,6 @@ Documentation/memory-barriers.txt
 
      - 컴파일러 배리어.
      - CPU 메모리 배리어.
-     - MMIO 쓰기 배리어.
 
  (*) 암묵적 커널 메모리 배리어.
 
@@ -103,7 +102,6 @@ Documentation/memory-barriers.txt
  (*) CPU 간 ACQUIRING 배리어의 효과.
 
      - Acquire vs 메모리 액세스.
-     - Acquire vs I/O 액세스.
 
  (*) 메모리 배리어가 필요한 곳
 
@@ -515,14 +513,13 @@ CPU 에게 기대할 수 있는 최소한의 보장사항 몇가지가 있습니
      완료되기 전에 행해진 것처럼 보일 수 있습니다.
 
      ACQUIRE 와 RELEASE 오퍼레이션의 사용은 일반적으로 다른 메모리 배리어의
-     필요성을 없앱니다 (하지만 "MMIO 쓰기 배리어" 서브섹션에서 설명되는 예외를
-     알아두세요).  또한, RELEASE+ACQUIRE 조합은 범용 메모리 배리어처럼 동작할
-     것을 보장하지 -않습니다-.  하지만, 어떤 변수에 대한 RELEASE 오퍼레이션을
-     앞서는 메모리 액세스들의 수행 결과는 이 RELEASE 오퍼레이션을 뒤이어 같은
-     변수에 대해 수행된 ACQUIRE 오퍼레이션을 뒤따르는 메모리 액세스에는 보여질
-     것이 보장됩니다.  다르게 말하자면, 주어진 변수의 크리티컬 섹션에서는, 해당
-     변수에 대한 앞의 크리티컬 섹션에서의 모든 액세스들이 완료되었을 것을
-     보장합니다.
+     필요성을 없앱니다.  또한, RELEASE+ACQUIRE 조합은 범용 메모리 배리어처럼
+     동작할 것을 보장하지 -않습니다-.  하지만, 어떤 변수에 대한 RELEASE
+     오퍼레이션을 앞서는 메모리 액세스들의 수행 결과는 이 RELEASE 오퍼레이션을
+     뒤이어 같은 변수에 대해 수행된 ACQUIRE 오퍼레이션을 뒤따르는 메모리
+     액세스에는 보여질 것이 보장됩니다.  다르게 말하자면, 주어진 변수의
+     크리티컬 섹션에서는, 해당 변수에 대한 앞의 크리티컬 섹션에서의 모든
+     액세스들이 완료되었을 것을 보장합니다.
 
      즉, ACQUIRE 는 최소한의 "취득" 동작처럼, 그리고 RELEASE 는 최소한의 "공개"
      처럼 동작한다는 의미입니다.
@@ -1501,8 +1498,6 @@ u 로의 스토어를 cpu1() 의 v 로부터의 로드 뒤에 일어난 것으
 
   (*) CPU 메모리 배리어.
 
-  (*) MMIO 쓰기 배리어.
-
 
 컴파일러 배리어
 ---------------
@@ -1909,6 +1904,19 @@ Mandatory 배리어들은 SMP 시스템에서도 UP 시스템에서도 SMP 효
      "커널 I/O 배리어의 효과" 섹션을, consistent memory 에 대한 자세한 내용을
      위해선 Documentation/core-api/dma-api.rst 문서를 참고하세요.
 
+ (*) pmem_wmb();
+
+     이것은 persistent memory 를 위한 것으로, persistent 저장소에 가해진 변경
+     사항이 플랫폼 연속성 도메인에 도달했을 것을 보장하기 위한 것입니다.
+
+     예를 들어, 임시적이지 않은 pmem 영역으로의 쓰기 후, 우리는 쓰기가 플랫폼
+     연속성 도메인에 도달했을 것을 보장하기 위해 pmem_wmb() 를 사용합니다.
+     이는 쓰기가 뒤따르는 instruction 들이 유발하는 어떠한 데이터 액세스나
+     데이터 전송의 시작 전에 persistent 저장소를 업데이트 했을 것을 보장합니다.
+     이는 wmb() 에 의해 이뤄지는 순서 규칙을 포함합니다.
+
+     Persistent memory 에서의 로드를 위해선 현재의 읽기 메모리 배리어로도 읽기
+     순서를 보장하는데 충분합니다.
 
 =========================
 암묵적 커널 메모리 배리어
diff --git a/Documentation/translations/zh_CN/arm64/amu.rst b/Documentation/translations/zh_CN/arm64/amu.rst
new file mode 100644 (file)
index 0000000..bd875f2
--- /dev/null
@@ -0,0 +1,100 @@
+.. include:: ../disclaimer-zh_CN.rst
+
+:Original: :ref:`Documentation/arm64/amu.rst <amu_index>`
+
+Translator: Bailu Lin <bailu.lin@vivo.com>
+
+=================================
+AArch64 Linux 中扩展的活动监控单元
+=================================
+
+作者: Ionela Voinescu <ionela.voinescu@arm.com>
+
+日期: 2019-09-10
+
+本文档简要描述了 AArch64 Linux 支持的活动监控单元的规范。
+
+
+架构总述
+--------
+
+活动监控是 ARMv8.4 CPU 架构引入的一个可选扩展特性。
+
+活动监控单元(在每个 CPU 中实现)为系统管理提供了性能计数器。既可以通
+过系统寄存器的方式访问计数器,同时也支持外部内存映射的方式访问计数器。
+
+AMUv1 架构实现了一个由4个固定的64位事件计数器组成的计数器组。
+
+  - CPU 周期计数器:同 CPU 的频率增长
+  - 常量计数器:同固定的系统时钟频率增长
+  - 淘汰指令计数器: 同每次架构指令执行增长
+  - 内存停顿周期计数器:计算由在时钟域内的最后一级缓存中未命中而引起
+    的指令调度停顿周期数
+
+当处于 WFI 或者 WFE 状态时,计数器不会增长。
+
+AMU 架构提供了一个高达16位的事件计数器空间,未来新的 AMU 版本中可能
+用它来实现新增的事件计数器。
+
+另外,AMUv1 实现了一个多达16个64位辅助事件计数器的计数器组。
+
+冷复位时所有的计数器会清零。
+
+
+基本支持
+--------
+
+内核可以安全地运行在支持 AMU 和不支持 AMU 的 CPU 组合中。
+因此,当配置 CONFIG_ARM64_AMU_EXTN 后我们无条件使能后续
+(secondary or hotplugged) CPU 检测和使用这个特性。
+
+当在 CPU 上检测到该特性时,我们会标记为特性可用但是不能保证计数器的功能,
+仅表明有扩展属性。
+
+固件(代码运行在高异常级别,例如 arm-tf )需支持以下功能:
+
+ - 提供低异常级别(EL2 和 EL1)访问 AMU 寄存器的能力。
+ - 使能计数器。如果未使能,它的值应为 0。
+ - 在从电源关闭状态启动 CPU 前或后保存或者恢复计数器。
+
+当使用使能了该特性的内核启动但固件损坏时,访问计数器寄存器可能会遭遇
+panic 或者死锁。即使未发现这些症状,计数器寄存器返回的数据结果并不一
+定能反映真实情况。通常,计数器会返回 0,表明他们未被使能。
+
+如果固件没有提供适当的支持最好关闭 CONFIG_ARM64_AMU_EXTN。
+值得注意的是,出于安全原因,不要绕过 AMUSERRENR_EL0 设置而捕获从
+EL0(用户空间) 访问 EL1(内核空间)。 因此,固件应该确保访问 AMU寄存器
+不会困在 EL2或EL3。
+
+AMUv1 的固定计数器可以通过如下系统寄存器访问:
+
+ - SYS_AMEVCNTR0_CORE_EL0
+ - SYS_AMEVCNTR0_CONST_EL0
+ - SYS_AMEVCNTR0_INST_RET_EL0
+ - SYS_AMEVCNTR0_MEM_STALL_EL0
+
+特定辅助计数器可以通过 SYS_AMEVCNTR1_EL0(n) 访问,其中n介于0到15。
+
+详细信息定义在目录:arch/arm64/include/asm/sysreg.h。
+
+
+用户空间访问
+------------
+
+由于以下原因,当前禁止从用户空间访问 AMU 的寄存器:
+
+  - 安全因数:可能会暴露处于安全模式执行的代码信息。
+  - 意愿:AMU 是用于系统管理的。
+
+同样,该功能对用户空间不可见。
+
+
+虚拟化
+------
+
+由于以下原因,当前禁止从 KVM 客户端的用户空间(EL0)和内核空间(EL1)
+访问 AMU 的寄存器:
+
+  - 安全因数:可能会暴露给其他客户端或主机端执行的代码信息。
+
+任何试图访问 AMU 寄存器的行为都会触发一个注册在客户端的未定义异常。
diff --git a/Documentation/translations/zh_CN/arm64/index.rst b/Documentation/translations/zh_CN/arm64/index.rst
new file mode 100644 (file)
index 0000000..646ed1f
--- /dev/null
@@ -0,0 +1,16 @@
+.. include:: ../disclaimer-zh_CN.rst
+
+:Original: :ref:`Documentation/arm64/index.rst <arm64_index>`
+:Translator: Bailu Lin <bailu.lin@vivo.com>
+
+.. _cn_arm64_index:
+
+
+==========
+ARM64 架构
+==========
+
+.. toctree::
+    :maxdepth: 2
+
+    amu
index 9481e3e..046cc1d 100644 (file)
@@ -154,14 +154,13 @@ sysfs 会为这个类型调用适当的方法。当一个文件被读写时,
 
 示例:
 
-#define to_dev(obj) container_of(obj, struct device, kobj)
 #define to_dev_attr(_attr) container_of(_attr, struct device_attribute, attr)
 
 static ssize_t dev_attr_show(struct kobject *kobj, struct attribute *attr,
                              char *buf)
 {
         struct device_attribute *dev_attr = to_dev_attr(attr);
-        struct device *dev = to_dev(kobj);
+        struct device *dev = kobj_to_dev(kobj);
         ssize_t ret = -EIO;
 
         if (dev_attr->show)
index 85643e4..be6f111 100644 (file)
@@ -19,6 +19,7 @@
    admin-guide/index
    process/index
    filesystems/index
+   arm64/index
 
 目录和表格
 ----------
index de1ab81..d204902 100644 (file)
@@ -8,7 +8,7 @@ Linux Virtualization Support
    :maxdepth: 2
 
    kvm/index
-   uml/user_mode_linux
+   uml/user_mode_linux_howto_v2
    paravirt_ops
    guest-halt-polling
 
index 2d44388..09a8f2a 100644 (file)
@@ -53,11 +53,11 @@ key management interface to perform common hypervisor activities such as
 encrypting bootstrap code, snapshot, migrating and debugging the guest. For more
 information, see the SEV Key Management spec [api-spec]_
 
-The main ioctl to access SEV is KVM_MEM_ENCRYPT_OP.  If the argument
-to KVM_MEM_ENCRYPT_OP is NULL, the ioctl returns 0 if SEV is enabled
+The main ioctl to access SEV is KVM_MEMORY_ENCRYPT_OP.  If the argument
+to KVM_MEMORY_ENCRYPT_OP is NULL, the ioctl returns 0 if SEV is enabled
 and ``ENOTTY` if it is disabled (on some older versions of Linux,
 the ioctl runs normally even with a NULL argument, and therefore will
-likely return ``EFAULT``).  If non-NULL, the argument to KVM_MEM_ENCRYPT_OP
+likely return ``EFAULT``).  If non-NULL, the argument to KVM_MEMORY_ENCRYPT_OP
 must be a struct kvm_sev_cmd::
 
        struct kvm_sev_cmd {
index 51191b5..1f26d83 100644 (file)
@@ -4211,7 +4211,7 @@ H_GET_CPU_CHARACTERISTICS hypercall.
 
 :Capability: basic
 :Architectures: x86
-:Type: system
+:Type: vm
 :Parameters: an opaque platform specific structure (in/out)
 :Returns: 0 on success; -1 on error
 
@@ -4343,7 +4343,7 @@ Errors:
   #define KVM_STATE_NESTED_VMX_SMM_GUEST_MODE  0x00000001
   #define KVM_STATE_NESTED_VMX_SMM_VMXON       0x00000002
 
-#define KVM_STATE_VMX_PREEMPTION_TIMER_DEADLINE 0x00000001
+  #define KVM_STATE_VMX_PREEMPTION_TIMER_DEADLINE 0x00000001
 
   struct kvm_vmx_nested_state_hdr {
        __u64 vmxon_pa;
index d9eba93..83cadd8 100644 (file)
@@ -54,9 +54,9 @@ these functions (see arch/arm{,64}/include/asm/virt.h):
     x3 = x1's value when entering the next payload (arm64)
     x4 = x2's value when entering the next payload (arm64)
 
-  Mask all exceptions, disable the MMU, move the arguments into place
-  (arm64 only), and jump to the restart address while at HYP/EL2. This
-  hypercall is not expected to return to its caller.
+  Mask all exceptions, disable the MMU, clear I+D bits, move the arguments
+  into place (arm64 only), and jump to the restart address while at HYP/EL2.
+  This hypercall is not expected to return to its caller.
 
 Any other value of r0/x0 triggers a hypervisor-specific handling,
 which is not documented here.
index a7dff91..9150e9d 100644 (file)
@@ -78,7 +78,7 @@ KVM_FEATURE_PV_SEND_IPI           11          guest checks this feature bit
                                               before enabling paravirtualized
                                               sebd IPIs
 
-KVM_FEATURE_PV_POLL_CONTROL       12          host-side polling on HLT can
+KVM_FEATURE_POLL_CONTROL          12          host-side polling on HLT can
                                               be disabled by writing
                                               to msr 0x4b564d05.
 
diff --git a/Documentation/virt/uml/user_mode_linux.rst b/Documentation/virt/uml/user_mode_linux.rst
deleted file mode 100644 (file)
index de0f0b2..0000000
+++ /dev/null
@@ -1,4403 +0,0 @@
-.. SPDX-License-Identifier: GPL-2.0
-
-=====================
-User Mode Linux HOWTO
-=====================
-
-:Author:  User Mode Linux Core Team
-:Last-updated: Sat Jan 25 16:07:55 CET 2020
-
-This document describes the use and abuse of Jeff Dike's User Mode
-Linux: a port of the Linux kernel as a normal Intel Linux process.
-
-
-.. Table of Contents
-
-  1. Introduction
-
-     1.1 How is User Mode Linux Different?
-     1.2 Why Would I Want User Mode Linux?
-
-  2. Compiling the kernel and modules
-
-     2.1 Compiling the kernel
-     2.2 Compiling and installing kernel modules
-     2.3 Compiling and installing uml_utilities
-
-  3. Running UML and logging in
-
-     3.1 Running UML
-     3.2 Logging in
-     3.3 Examples
-
-  4. UML on 2G/2G hosts
-
-     4.1 Introduction
-     4.2 The problem
-     4.3 The solution
-
-  5. Setting up serial lines and consoles
-
-     5.1 Specifying the device
-     5.2 Specifying the channel
-     5.3 Examples
-
-  6. Setting up the network
-
-     6.1 General setup
-     6.2 Userspace daemons
-     6.3 Specifying ethernet addresses
-     6.4 UML interface setup
-     6.5 Multicast
-     6.6 TUN/TAP with the uml_net helper
-     6.7 TUN/TAP with a preconfigured tap device
-     6.8 Ethertap
-     6.9 The switch daemon
-     6.10 Slip
-     6.11 Slirp
-     6.12 pcap
-     6.13 Setting up the host yourself
-
-  7. Sharing Filesystems between Virtual Machines
-
-     7.1 A warning
-     7.2 Using layered block devices
-     7.3 Note!
-     7.4 Another warning
-     7.5 uml_moo : Merging a COW file with its backing file
-
-  8. Creating filesystems
-
-     8.1 Create the filesystem file
-     8.2 Assign the file to a UML device
-     8.3 Creating and mounting the filesystem
-
-  9. Host file access
-
-     9.1 Using hostfs
-     9.2 hostfs as the root filesystem
-     9.3 Building hostfs
-
-  10. The Management Console
-     10.1 version
-     10.2 halt and reboot
-     10.3 config
-     10.4 remove
-     10.5 sysrq
-     10.6 help
-     10.7 cad
-     10.8 stop
-     10.9 go
-
-  11. Kernel debugging
-
-     11.1 Starting the kernel under gdb
-     11.2 Examining sleeping processes
-     11.3 Running ddd on UML
-     11.4 Debugging modules
-     11.5 Attaching gdb to the kernel
-     11.6 Using alternate debuggers
-
-  12. Kernel debugging examples
-
-     12.1 The case of the hung fsck
-     12.2 Episode 2: The case of the hung fsck
-
-  13. What to do when UML doesn't work
-
-     13.1 Strange compilation errors when you build from source
-     13.2 (obsolete)
-     13.3 A variety of panics and hangs with /tmp on a reiserfs  filesystem
-     13.4 The compile fails with errors about conflicting types for 'open', 'dup', and 'waitpid'
-     13.5 UML doesn't work when /tmp is an NFS filesystem
-     13.6 UML hangs on boot when compiled with gprof support
-     13.7 syslogd dies with a SIGTERM on startup
-     13.8 TUN/TAP networking doesn't work on a 2.4 host
-     13.9 You can network to the host but not to other machines on the net
-     13.10 I have no root and I want to scream
-     13.11 UML build conflict between ptrace.h and ucontext.h
-     13.12 The UML BogoMips is exactly half the host's BogoMips
-     13.13 When you run UML, it immediately segfaults
-     13.14 xterms appear, then immediately disappear
-     13.15 Any other panic, hang, or strange behavior
-
-  14. Diagnosing Problems
-
-     14.1 Case 1 : Normal kernel panics
-     14.2 Case 2 : Tracing thread panics
-     14.3 Case 3 : Tracing thread panics caused by other threads
-     14.4 Case 4 : Hangs
-
-  15. Thanks
-
-     15.1 Code and Documentation
-     15.2 Flushing out bugs
-     15.3 Buglets and clean-ups
-     15.4 Case Studies
-     15.5 Other contributions
-
-
-1.  Introduction
-================
-
-  Welcome to User Mode Linux.  It's going to be fun.
-
-
-
-1.1.  How is User Mode Linux Different?
----------------------------------------
-
-  Normally, the Linux Kernel talks straight to your hardware (video
-  card, keyboard, hard drives, etc), and any programs which run ask the
-  kernel to operate the hardware, like so::
-
-
-
-         +-----------+-----------+----+
-         | Process 1 | Process 2 | ...|
-         +-----------+-----------+----+
-         |       Linux Kernel         |
-         +----------------------------+
-         |         Hardware           |
-         +----------------------------+
-
-
-
-
-  The User Mode Linux Kernel is different; instead of talking to the
-  hardware, it talks to a `real` Linux kernel (called the `host kernel`
-  from now on), like any other program.  Programs can then run inside
-  User-Mode Linux as if they were running under a normal kernel, like
-  so::
-
-
-
-                     +----------------+
-                     | Process 2 | ...|
-         +-----------+----------------+
-         | Process 1 | User-Mode Linux|
-         +----------------------------+
-         |       Linux Kernel         |
-         +----------------------------+
-         |         Hardware           |
-         +----------------------------+
-
-
-
-
-
-1.2.  Why Would I Want User Mode Linux?
----------------------------------------
-
-
-  1. If User Mode Linux crashes, your host kernel is still fine.
-
-  2. You can run a usermode kernel as a non-root user.
-
-  3. You can debug the User Mode Linux like any normal process.
-
-  4. You can run gprof (profiling) and gcov (coverage testing).
-
-  5. You can play with your kernel without breaking things.
-
-  6. You can use it as a sandbox for testing new apps.
-
-  7. You can try new development kernels safely.
-
-  8. You can run different distributions simultaneously.
-
-  9. It's extremely fun.
-
-
-
-.. _Compiling_the_kernel_and_modules:
-
-2.  Compiling the kernel and modules
-====================================
-
-
-
-
-2.1.  Compiling the kernel
---------------------------
-
-
-  Compiling the user mode kernel is just like compiling any other
-  kernel.
-
-
-  1. Download the latest kernel from your favourite kernel mirror,
-     such as:
-
-     https://mirrors.edge.kernel.org/pub/linux/kernel/v5.x/linux-5.4.14.tar.xz
-
-  2. Make a directory and unpack the kernel into it::
-
-       host%
-       mkdir ~/uml
-
-       host%
-       cd ~/uml
-
-       host%
-       tar xvf linux-5.4.14.tar.xz
-
-
-  3. Run your favorite config; ``make xconfig ARCH=um`` is the most
-     convenient.  ``make config ARCH=um`` and ``make menuconfig ARCH=um``
-     will work as well.  The defaults will give you a useful kernel.  If
-     you want to change something, go ahead, it probably won't hurt
-     anything.
-
-
-     Note:  If the host is configured with a 2G/2G address space split
-     rather than the usual 3G/1G split, then the packaged UML binaries
-     will not run.  They will immediately segfault.  See
-     :ref:`UML_on_2G/2G_hosts`  for the scoop on running UML on your system.
-
-
-
-  4. Finish with ``make linux ARCH=um``: the result is a file called
-     ``linux`` in the top directory of your source tree.
-
-
-2.2.  Compiling and installing kernel modules
----------------------------------------------
-
-  UML modules are built in the same way as the native kernel (with the
-  exception of the 'ARCH=um' that you always need for UML)::
-
-
-       host% make modules ARCH=um
-
-
-
-
-  Any modules that you want to load into this kernel need to be built in
-  the user-mode pool.  Modules from the native kernel won't work.
-
-  You can install them by using ftp or something to copy them into the
-  virtual machine and dropping them into ``/lib/modules/$(uname -r)``.
-
-  You can also get the kernel build process to install them as follows:
-
-  1. with the kernel not booted, mount the root filesystem in the top
-     level of the kernel pool::
-
-
-       host% mount root_fs mnt -o loop
-
-
-
-
-
-
-  2. run::
-
-
-       host%
-       make modules_install INSTALL_MOD_PATH=`pwd`/mnt ARCH=um
-
-
-
-
-
-
-  3. unmount the filesystem::
-
-
-       host% umount mnt
-
-
-
-
-
-
-  4. boot the kernel on it
-
-
-  When the system is booted, you can use insmod as usual to get the
-  modules into the kernel.  A number of things have been loaded into UML
-  as modules, especially filesystems and network protocols and filters,
-  so most symbols which need to be exported probably already are.
-  However, if you do find symbols that need exporting, let  us
-  know at http://user-mode-linux.sourceforge.net/, and
-  they'll be "taken care of".
-
-
-
-2.3.  Compiling and installing uml_utilities
---------------------------------------------
-
-  Many features of the UML kernel require a user-space helper program,
-  so a uml_utilities package is distributed separately from the kernel
-  patch which provides these helpers. Included within this is:
-
-  -  port-helper - Used by consoles which connect to xterms or ports
-
-  -  tunctl - Configuration tool to create and delete tap devices
-
-  -  uml_net - Setuid binary for automatic tap device configuration
-
-  -  uml_switch - User-space virtual switch required for daemon
-     transport
-
-     The uml_utilities tree is compiled with::
-
-
-       host#
-       make && make install
-
-
-
-
-  Note that UML kernel patches may require a specific version of the
-  uml_utilities distribution. If you don't keep up with the mailing
-  lists, ensure that you have the latest release of uml_utilities if you
-  are experiencing problems with your UML kernel, particularly when
-  dealing with consoles or command-line switches to the helper programs
-
-
-
-
-
-
-
-
-3.  Running UML and logging in
-==============================
-
-
-
-3.1.  Running UML
------------------
-
-  It runs on 2.2.15 or later, and all kernel versions since 2.4.
-
-
-  Booting UML is straightforward.  Simply run 'linux': it will try to
-  mount the file ``root_fs`` in the current directory.  You do not need to
-  run it as root.  If your root filesystem is not named ``root_fs``, then
-  you need to put a ``ubd0=root_fs_whatever`` switch on the linux command
-  line.
-
-
-  You will need a filesystem to boot UML from.  There are a number
-  available for download from http://user-mode-linux.sourceforge.net.
-  There are also  several tools at
-  http://user-mode-linux.sourceforge.net/  which can be
-  used to generate UML-compatible filesystem images from media.
-  The kernel will boot up and present you with a login prompt.
-
-
-Note:
-  If the host is configured with a 2G/2G address space split
-  rather than the usual 3G/1G split, then the packaged UML binaries will
-  not run.  They will immediately segfault.  See :ref:`UML_on_2G/2G_hosts`
-  for the scoop on running UML on your system.
-
-
-
-3.2.  Logging in
-----------------
-
-
-
-  The prepackaged filesystems have a root account with password 'root'
-  and a user account with password 'user'.  The login banner will
-  generally tell you how to log in.  So, you log in and you will find
-  yourself inside a little virtual machine. Our filesystems have a
-  variety of commands and utilities installed (and it is fairly easy to
-  add more), so you will have a lot of tools with which to poke around
-  the system.
-
-  There are a couple of other ways to log in:
-
-  -  On a virtual console
-
-
-
-     Each virtual console that is configured (i.e. the device exists in
-     /dev and /etc/inittab runs a getty on it) will come up in its own
-     xterm.  If you get tired of the xterms, read
-     :ref:`setting_up_serial_lines_and_consoles` to see how to attach
-     the consoles to something else, like host ptys.
-
-
-
-  -  Over the serial line
-
-
-     In the boot output, find a line that looks like::
-
-
-
-       serial line 0 assigned pty /dev/ptyp1
-
-
-
-
-  Attach your favorite terminal program to the corresponding tty.  I.e.
-  for minicom, the command would be::
-
-
-       host% minicom -o -p /dev/ttyp1
-
-
-
-
-
-
-  -  Over the net
-
-
-     If the network is running, then you can telnet to the virtual
-     machine and log in to it.  See :ref:`Setting_up_the_network`  to learn
-     about setting up a virtual network.
-
-  When you're done using it, run halt, and the kernel will bring itself
-  down and the process will exit.
-
-
-3.3.  Examples
---------------
-
-  Here are some examples of UML in action:
-
-  -  A login session http://user-mode-linux.sourceforge.net/old/login.html
-
-  -  A virtual network http://user-mode-linux.sourceforge.net/old/net.html
-
-
-
-
-
-.. _UML_on_2G/2G_hosts:
-
-4.  UML on 2G/2G hosts
-======================
-
-
-
-
-4.1.  Introduction
-------------------
-
-
-  Most Linux machines are configured so that the kernel occupies the
-  upper 1G (0xc0000000 - 0xffffffff) of the 4G address space and
-  processes use the lower 3G (0x00000000 - 0xbfffffff).  However, some
-  machine are configured with a 2G/2G split, with the kernel occupying
-  the upper 2G (0x80000000 - 0xffffffff) and processes using the lower
-  2G (0x00000000 - 0x7fffffff).
-
-
-
-
-4.2.  The problem
------------------
-
-
-  The prebuilt UML binaries on this site will not run on 2G/2G hosts
-  because UML occupies the upper .5G of the 3G process address space
-  (0xa0000000 - 0xbfffffff).  Obviously, on 2G/2G hosts, this is right
-  in the middle of the kernel address space, so UML won't even load - it
-  will immediately segfault.
-
-
-
-
-4.3.  The solution
-------------------
-
-
-  The fix for this is to rebuild UML from source after enabling
-  CONFIG_HOST_2G_2G (under 'General Setup').  This will cause UML to
-  load itself in the top .5G of that smaller process address space,
-  where it will run fine.  See :ref:`Compiling_the_kernel_and_modules`  if
-  you need help building UML from source.
-
-
-
-
-
-
-
-.. _setting_up_serial_lines_and_consoles:
-
-
-5.  Setting up serial lines and consoles
-========================================
-
-
-  It is possible to attach UML serial lines and consoles to many types
-  of host I/O channels by specifying them on the command line.
-
-
-  You can attach them to host ptys, ttys, file descriptors, and ports.
-  This allows you to do things like:
-
-  -  have a UML console appear on an unused host console,
-
-  -  hook two virtual machines together by having one attach to a pty
-     and having the other attach to the corresponding tty
-
-  -  make a virtual machine accessible from the net by attaching a
-     console to a port on the host.
-
-
-  The general format of the command line option is ``device=channel``.
-
-
-
-5.1.  Specifying the device
----------------------------
-
-  Devices are specified with "con" or "ssl" (console or serial line,
-  respectively), optionally with a device number if you are talking
-  about a specific device.
-
-
-  Using just "con" or "ssl" describes all of the consoles or serial
-  lines.  If you want to talk about console #3 or serial line #10, they
-  would be "con3" and "ssl10", respectively.
-
-
-  A specific device name will override a less general "con=" or "ssl=".
-  So, for example, you can assign a pty to each of the serial lines
-  except for the first two like this::
-
-
-        ssl=pty ssl0=tty:/dev/tty0 ssl1=tty:/dev/tty1
-
-
-
-
-  The specificity of the device name is all that matters; order on the
-  command line is irrelevant.
-
-
-
-5.2.  Specifying the channel
-----------------------------
-
-  There are a number of different types of channels to attach a UML
-  device to, each with a different way of specifying exactly what to
-  attach to.
-
-  -  pseudo-terminals - device=pty pts terminals - device=pts
-
-
-     This will cause UML to allocate a free host pseudo-terminal for the
-     device.  The terminal that it got will be announced in the boot
-     log.  You access it by attaching a terminal program to the
-     corresponding tty:
-
-  -  screen /dev/pts/n
-
-  -  screen /dev/ttyxx
-
-  -  minicom -o -p /dev/ttyxx - minicom seems not able to handle pts
-     devices
-
-  -  kermit - start it up, 'open' the device, then 'connect'
-
-
-
-
-
-  -  terminals - device=tty:tty device file
-
-
-     This will make UML attach the device to the specified tty (i.e::
-
-
-        con1=tty:/dev/tty3
-
-
-
-
-  will attach UML's console 1 to the host's /dev/tty3).  If the tty that
-  you specify is the slave end of a tty/pty pair, something else must
-  have already opened the corresponding pty in order for this to work.
-
-
-
-
-
-  -  xterms - device=xterm
-
-
-     UML will run an xterm and the device will be attached to it.
-
-
-
-
-
-  -  Port - device=port:port number
-
-
-     This will attach the UML devices to the specified host port.
-     Attaching console 1 to the host's port 9000 would be done like
-     this::
-
-
-        con1=port:9000
-
-
-
-
-  Attaching all the serial lines to that port would be done similarly::
-
-
-        ssl=port:9000
-
-
-
-
-  You access these devices by telnetting to that port.  Each active
-  telnet session gets a different device.  If there are more telnets to a
-  port than UML devices attached to it, then the extra telnet sessions
-  will block until an existing telnet detaches, or until another device
-  becomes active (i.e. by being activated in /etc/inittab).
-
-  This channel has the advantage that you can both attach multiple UML
-  devices to it and know how to access them without reading the UML boot
-  log.  It is also unique in allowing access to a UML from remote
-  machines without requiring that the UML be networked.  This could be
-  useful in allowing public access to UMLs because they would be
-  accessible from the net, but wouldn't need any kind of network
-  filtering or access control because they would have no network access.
-
-
-  If you attach the main console to a portal, then the UML boot will
-  appear to hang.  In reality, it's waiting for a telnet to connect, at
-  which point the boot will proceed.
-
-
-
-
-
-  -  already-existing file descriptors - device=file descriptor
-
-
-     If you set up a file descriptor on the UML command line, you can
-     attach a UML device to it.  This is most commonly used to put the
-     main console back on stdin and stdout after assigning all the other
-     consoles to something else::
-
-
-        con0=fd:0,fd:1 con=pts
-
-
-
-
-
-
-
-
-  -  Nothing - device=null
-
-
-     This allows the device to be opened, in contrast to 'none', but
-     reads will block, and writes will succeed and the data will be
-     thrown out.
-
-
-
-
-
-  -  None - device=none
-
-
-     This causes the device to disappear.
-
-
-
-  You can also specify different input and output channels for a device
-  by putting a comma between them::
-
-
-        ssl3=tty:/dev/tty2,xterm
-
-
-
-
-  will cause serial line 3 to accept input on the host's /dev/tty2 and
-  display output on an xterm.  That's a silly example - the most common
-  use of this syntax is to reattach the main console to stdin and stdout
-  as shown above.
-
-
-  If you decide to move the main console away from stdin/stdout, the
-  initial boot output will appear in the terminal that you're running
-  UML in.  However, once the console driver has been officially
-  initialized, then the boot output will start appearing wherever you
-  specified that console 0 should be.  That device will receive all
-  subsequent output.
-
-
-
-5.3.  Examples
---------------
-
-  There are a number of interesting things you can do with this
-  capability.
-
-
-  First, this is how you get rid of those bleeding console xterms by
-  attaching them to host ptys::
-
-
-        con=pty con0=fd:0,fd:1
-
-
-
-
-  This will make a UML console take over an unused host virtual console,
-  so that when you switch to it, you will see the UML login prompt
-  rather than the host login prompt::
-
-
-        con1=tty:/dev/tty6
-
-
-
-
-  You can attach two virtual machines together with what amounts to a
-  serial line as follows:
-
-  Run one UML with a serial line attached to a pty::
-
-
-        ssl1=pty
-
-
-
-
-  Look at the boot log to see what pty it got (this example will assume
-  that it got /dev/ptyp1).
-
-  Boot the other UML with a serial line attached to the corresponding
-  tty::
-
-
-        ssl1=tty:/dev/ttyp1
-
-
-
-
-  Log in, make sure that it has no getty on that serial line, attach a
-  terminal program like minicom to it, and you should see the login
-  prompt of the other virtual machine.
-
-
-.. _setting_up_the_network:
-
-6.  Setting up the network
-==========================
-
-
-
-  This page describes how to set up the various transports and to
-  provide a UML instance with network access to the host, other machines
-  on the local net, and the rest of the net.
-
-
-  As of 2.4.5, UML networking has been completely redone to make it much
-  easier to set up, fix bugs, and add new features.
-
-
-  There is a new helper, uml_net, which does the host setup that
-  requires root privileges.
-
-
-  There are currently five transport types available for a UML virtual
-  machine to exchange packets with other hosts:
-
-  -  ethertap
-
-  -  TUN/TAP
-
-  -  Multicast
-
-  -  a switch daemon
-
-  -  slip
-
-  -  slirp
-
-  -  pcap
-
-     The TUN/TAP, ethertap, slip, and slirp transports allow a UML
-     instance to exchange packets with the host.  They may be directed
-     to the host or the host may just act as a router to provide access
-     to other physical or virtual machines.
-
-
-  The pcap transport is a synthetic read-only interface, using the
-  libpcap binary to collect packets from interfaces on the host and
-  filter them.  This is useful for building preconfigured traffic
-  monitors or sniffers.
-
-
-  The daemon and multicast transports provide a completely virtual
-  network to other virtual machines.  This network is completely
-  disconnected from the physical network unless one of the virtual
-  machines on it is acting as a gateway.
-
-
-  With so many host transports, which one should you use?  Here's when
-  you should use each one:
-
-  -  ethertap - if you want access to the host networking and it is
-     running 2.2
-
-  -  TUN/TAP - if you want access to the host networking and it is
-     running 2.4.  Also, the TUN/TAP transport is able to use a
-     preconfigured device, allowing it to avoid using the setuid uml_net
-     helper, which is a security advantage.
-
-  -  Multicast - if you want a purely virtual network and you don't want
-     to set up anything but the UML
-
-  -  a switch daemon - if you want a purely virtual network and you
-     don't mind running the daemon in order to get somewhat better
-     performance
-
-  -  slip - there is no particular reason to run the slip backend unless
-     ethertap and TUN/TAP are just not available for some reason
-
-  -  slirp - if you don't have root access on the host to setup
-     networking, or if you don't want to allocate an IP to your UML
-
-  -  pcap - not much use for actual network connectivity, but great for
-     monitoring traffic on the host
-
-     Ethertap is available on 2.4 and works fine.  TUN/TAP is preferred
-     to it because it has better performance and ethertap is officially
-     considered obsolete in 2.4.  Also, the root helper only needs to
-     run occasionally for TUN/TAP, rather than handling every packet, as
-     it does with ethertap.  This is a slight security advantage since
-     it provides fewer opportunities for a nasty UML user to somehow
-     exploit the helper's root privileges.
-
-
-6.1.  General setup
--------------------
-
-  First, you must have the virtual network enabled in your UML.  If are
-  running a prebuilt kernel from this site, everything is already
-  enabled.  If you build the kernel yourself, under the "Network device
-  support" menu, enable "Network device support", and then the three
-  transports.
-
-
-  The next step is to provide a network device to the virtual machine.
-  This is done by describing it on the kernel command line.
-
-  The general format is::
-
-
-       eth <n> = <transport> , <transport args>
-
-
-
-
-  For example, a virtual ethernet device may be attached to a host
-  ethertap device as follows::
-
-
-       eth0=ethertap,tap0,fe:fd:0:0:0:1,192.168.0.254
-
-
-
-
-  This sets up eth0 inside the virtual machine to attach itself to the
-  host /dev/tap0, assigns it an ethernet address, and assigns the host
-  tap0 interface an IP address.
-
-
-
-  Note that the IP address you assign to the host end of the tap device
-  must be different than the IP you assign to the eth device inside UML.
-  If you are short on IPs and don't want to consume two per UML, then
-  you can reuse the host's eth IP address for the host ends of the tap
-  devices.  Internally, the UMLs must still get unique IPs for their eth
-  devices.  You can also give the UMLs non-routable IPs (192.168.x.x or
-  10.x.x.x) and have the host masquerade them.  This will let outgoing
-  connections work, but incoming connections won't without more work,
-  such as port forwarding from the host.
-  Also note that when you configure the host side of an interface, it is
-  only acting as a gateway.  It will respond to pings sent to it
-  locally, but is not useful to do that since it's a host interface.
-  You are not talking to the UML when you ping that interface and get a
-  response.
-
-
-  You can also add devices to a UML and remove them at runtime.  See the
-  :ref:`The_Management_Console`  page for details.
-
-
-  The sections below describe this in more detail.
-
-
-  Once you've decided how you're going to set up the devices, you boot
-  UML, log in, configure the UML side of the devices, and set up routes
-  to the outside world.  At that point, you will be able to talk to any
-  other machines, physical or virtual, on the net.
-
-
-  If ifconfig inside UML fails and the network refuses to come up, run
-  tell you what went wrong.
-
-
-
-6.2.  Userspace daemons
------------------------
-
-  You will likely need the setuid helper, or the switch daemon, or both.
-  They are both installed with the RPM and deb, so if you've installed
-  either, you can skip the rest of this section.
-
-
-  If not, then you need to check them out of CVS, build them, and
-  install them.  The helper is uml_net, in CVS /tools/uml_net, and the
-  daemon is uml_switch, in CVS /tools/uml_router.  They are both built
-  with a plain 'make'.  Both need to be installed in a directory that's
-  in your path - /usr/bin is recommend.  On top of that, uml_net needs
-  to be setuid root.
-
-
-
-6.3.  Specifying ethernet addresses
------------------------------------
-
-  Below, you will see that the TUN/TAP, ethertap, and daemon interfaces
-  allow you to specify hardware addresses for the virtual ethernet
-  devices.  This is generally not necessary.  If you don't have a
-  specific reason to do it, you probably shouldn't.  If one is not
-  specified on the command line, the driver will assign one based on the
-  device IP address.  It will provide the address fe:fd:nn:nn:nn:nn
-  where nn.nn.nn.nn is the device IP address.  This is nearly always
-  sufficient to guarantee a unique hardware address for the device.  A
-  couple of exceptions are:
-
-  -  Another set of virtual ethernet devices are on the same network and
-     they are assigned hardware addresses using a different scheme which
-     may conflict with the UML IP address-based scheme
-
-  -  You aren't going to use the device for IP networking, so you don't
-     assign the device an IP address
-
-     If you let the driver provide the hardware address, you should make
-     sure that the device IP address is known before the interface is
-     brought up.  So, inside UML, this will guarantee that::
-
-
-
-         UML#
-         ifconfig eth0 192.168.0.250 up
-
-
-
-
-  If you decide to assign the hardware address yourself, make sure that
-  the first byte of the address is even.  Addresses with an odd first
-  byte are broadcast addresses, which you don't want assigned to a
-  device.
-
-
-
-6.4.  UML interface setup
--------------------------
-
-  Once the network devices have been described on the command line, you
-  should boot UML and log in.
-
-
-  The first thing to do is bring the interface up::
-
-
-       UML# ifconfig ethn ip-address up
-
-
-
-
-  You should be able to ping the host at this point.
-
-
-  To reach the rest of the world, you should set a default route to the
-  host::
-
-
-       UML# route add default gw host ip
-
-
-
-
-  Again, with host ip of 192.168.0.4::
-
-
-       UML# route add default gw 192.168.0.4
-
-
-
-
-  This page used to recommend setting a network route to your local net.
-  This is wrong, because it will cause UML to try to figure out hardware
-  addresses of the local machines by arping on the interface to the
-  host.  Since that interface is basically a single strand of ethernet
-  with two nodes on it (UML and the host) and arp requests don't cross
-  networks, they will fail to elicit any responses.  So, what you want
-  is for UML to just blindly throw all packets at the host and let it
-  figure out what to do with them, which is what leaving out the network
-  route and adding the default route does.
-
-
-  Note: If you can't communicate with other hosts on your physical
-  ethernet, it's probably because of a network route that's
-  automatically set up.  If you run 'route -n' and see a route that
-  looks like this::
-
-
-
-
-    Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
-    192.168.0.0     0.0.0.0         255.255.255.0   U     0      0      0   eth0
-
-
-
-
-  with a mask that's not 255.255.255.255, then replace it with a route
-  to your host::
-
-
-       UML#
-       route del -net 192.168.0.0 dev eth0 netmask 255.255.255.0
-
-
-       UML#
-       route add -host 192.168.0.4 dev eth0
-
-
-
-
-  This, plus the default route to the host, will allow UML to exchange
-  packets with any machine on your ethernet.
-
-
-
-6.5.  Multicast
----------------
-
-  The simplest way to set up a virtual network between multiple UMLs is
-  to use the mcast transport.  This was written by Harald Welte and is
-  present in UML version 2.4.5-5um and later.  Your system must have
-  multicast enabled in the kernel and there must be a multicast-capable
-  network device on the host.  Normally, this is eth0, but if there is
-  no ethernet card on the host, then you will likely get strange error
-  messages when you bring the device up inside UML.
-
-
-  To use it, run two UMLs with::
-
-
-        eth0=mcast
-
-
-
-
-  on their command lines.  Log in, configure the ethernet device in each
-  machine with different IP addresses::
-
-
-       UML1# ifconfig eth0 192.168.0.254
-
-
-       UML2# ifconfig eth0 192.168.0.253
-
-
-
-
-  and they should be able to talk to each other.
-
-  The full set of command line options for this transport are::
-
-
-
-       ethn=mcast,ethernet address,multicast
-       address,multicast port,ttl
-
-
-
-  There is also a related point-to-point only "ucast" transport.
-  This is useful when your network does not support multicast, and
-  all network connections are simple point to point links.
-
-  The full set of command line options for this transport are::
-
-
-       ethn=ucast,ethernet address,remote address,listen port,remote port
-
-
-
-
-6.6.  TUN/TAP with the uml_net helper
--------------------------------------
-
-  TUN/TAP is the preferred mechanism on 2.4 to exchange packets with the
-  host.  The TUN/TAP backend has been in UML since 2.4.9-3um.
-
-
-  The easiest way to get up and running is to let the setuid uml_net
-  helper do the host setup for you.  This involves insmod-ing the tun.o
-  module if necessary, configuring the device, and setting up IP
-  forwarding, routing, and proxy arp.  If you are new to UML networking,
-  do this first.  If you're concerned about the security implications of
-  the setuid helper, use it to get up and running, then read the next
-  section to see how to have UML use a preconfigured tap device, which
-  avoids the use of uml_net.
-
-
-  If you specify an IP address for the host side of the device, the
-  uml_net helper will do all necessary setup on the host - the only
-  requirement is that TUN/TAP be available, either built in to the host
-  kernel or as the tun.o module.
-
-  The format of the command line switch to attach a device to a TUN/TAP
-  device is::
-
-
-       eth <n> =tuntap,,, <IP address>
-
-
-
-
-  For example, this argument will attach the UML's eth0 to the next
-  available tap device and assign an ethernet address to it based on its
-  IP address::
-
-
-       eth0=tuntap,,,192.168.0.254
-
-
-
-
-
-
-  Note that the IP address that must be used for the eth device inside
-  UML is fixed by the routing and proxy arp that is set up on the
-  TUN/TAP device on the host.  You can use a different one, but it won't
-  work because reply packets won't reach the UML.  This is a feature.
-  It prevents a nasty UML user from doing things like setting the UML IP
-  to the same as the network's nameserver or mail server.
-
-
-  There are a couple potential problems with running the TUN/TAP
-  transport on a 2.4 host kernel
-
-  -  TUN/TAP seems not to work on 2.4.3 and earlier.  Upgrade the host
-     kernel or use the ethertap transport.
-
-  -  With an upgraded kernel, TUN/TAP may fail with::
-
-
-       File descriptor in bad state
-
-
-
-
-  This is due to a header mismatch between the upgraded kernel and the
-  kernel that was originally installed on the machine.  The fix is to
-  make sure that /usr/src/linux points to the headers for the running
-  kernel.
-
-  These were pointed out by Tim Robinson <timro at trkr dot net> in the past.
-
-
-
-6.7.  TUN/TAP with a preconfigured tap device
----------------------------------------------
-
-  If you prefer not to have UML use uml_net (which is somewhat
-  insecure), with UML 2.4.17-11, you can set up a TUN/TAP device
-  beforehand.  The setup needs to be done as root, but once that's done,
-  there is no need for root assistance.  Setting up the device is done
-  as follows:
-
-  -  Create the device with tunctl (available from the UML utilities
-     tarball)::
-
-
-
-
-       host#  tunctl -u uid
-
-
-
-
-  where uid is the user id or username that UML will be run as.  This
-  will tell you what device was created.
-
-  -  Configure the device IP (change IP addresses and device name to
-     suit)::
-
-
-
-
-       host#  ifconfig tap0 192.168.0.254 up
-
-
-
-
-
-  -  Set up routing and arping if desired - this is my recipe, there are
-     other ways of doing the same thing::
-
-
-       host#
-       bash -c 'echo 1 > /proc/sys/net/ipv4/ip_forward'
-
-       host#
-       route add -host 192.168.0.253 dev tap0
-
-       host#
-       bash -c 'echo 1 > /proc/sys/net/ipv4/conf/tap0/proxy_arp'
-
-       host#
-       arp -Ds 192.168.0.253 eth0 pub
-
-
-
-
-  Note that this must be done every time the host boots - this configu-
-  ration is not stored across host reboots.  So, it's probably a good
-  idea to stick it in an rc file.  An even better idea would be a little
-  utility which reads the information from a config file and sets up
-  devices at boot time.
-
-  -  Rather than using up two IPs and ARPing for one of them, you can
-     also provide direct access to your LAN by the UML by using a
-     bridge::
-
-
-       host#
-       brctl addbr br0
-
-
-       host#
-       ifconfig eth0 0.0.0.0 promisc up
-
-
-       host#
-       ifconfig tap0 0.0.0.0 promisc up
-
-
-       host#
-       ifconfig br0 192.168.0.1 netmask 255.255.255.0 up
-
-
-       host#
-       brctl stp br0 off
-
-
-       host#
-       brctl setfd br0 1
-
-
-       host#
-       brctl sethello br0 1
-
-
-       host#
-       brctl addif br0 eth0
-
-
-       host#
-       brctl addif br0 tap0
-
-
-
-
-  Note that 'br0' should be setup using ifconfig with the existing IP
-  address of eth0, as eth0 no longer has its own IP.
-
-  -
-
-
-     Also, the /dev/net/tun device must be writable by the user running
-     UML in order for the UML to use the device that's been configured
-     for it.  The simplest thing to do is::
-
-
-       host#  chmod 666 /dev/net/tun
-
-
-
-
-  Making it world-writable looks bad, but it seems not to be
-  exploitable as a security hole.  However, it does allow anyone to cre-
-  ate useless tap devices (useless because they can't configure them),
-  which is a DOS attack.  A somewhat more secure alternative would to be
-  to create a group containing all the users who have preconfigured tap
-  devices and chgrp /dev/net/tun to that group with mode 664 or 660.
-
-
-  -  Once the device is set up, run UML with 'eth0=tuntap,device name'
-     (i.e. 'eth0=tuntap,tap0') on the command line (or do it with the
-     mconsole config command).
-
-  -  Bring the eth device up in UML and you're in business.
-
-     If you don't want that tap device any more, you can make it non-
-     persistent with::
-
-
-       host#  tunctl -d tap device
-
-
-
-
-  Finally, tunctl has a -b (for brief mode) switch which causes it to
-  output only the name of the tap device it created.  This makes it
-  suitable for capture by a script::
-
-
-       host#  TAP=`tunctl -u 1000 -b`
-
-
-
-
-
-
-6.8.  Ethertap
---------------
-
-  Ethertap is the general mechanism on 2.2 for userspace processes to
-  exchange packets with the kernel.
-
-
-
-  To use this transport, you need to describe the virtual network device
-  on the UML command line.  The general format for this is::
-
-
-       eth <n> =ethertap, <device> , <ethernet address> , <tap IP address>
-
-
-
-
-  So, the previous example::
-
-
-       eth0=ethertap,tap0,fe:fd:0:0:0:1,192.168.0.254
-
-
-
-
-  attaches the UML eth0 device to the host /dev/tap0, assigns it the
-  ethernet address fe:fd:0:0:0:1, and assigns the IP address
-  192.168.0.254 to the tap device.
-
-
-
-  The tap device is mandatory, but the others are optional.  If the
-  ethernet address is omitted, one will be assigned to it.
-
-
-  The presence of the tap IP address will cause the helper to run and do
-  whatever host setup is needed to allow the virtual machine to
-  communicate with the outside world.  If you're not sure you know what
-  you're doing, this is the way to go.
-
-
-  If it is absent, then you must configure the tap device and whatever
-  arping and routing you will need on the host.  However, even in this
-  case, the uml_net helper still needs to be in your path and it must be
-  setuid root if you're not running UML as root.  This is because the
-  tap device doesn't support SIGIO, which UML needs in order to use
-  something as a source of input.  So, the helper is used as a
-  convenient asynchronous IO thread.
-
-  If you're using the uml_net helper, you can ignore the following host
-  setup - uml_net will do it for you.  You just need to make sure you
-  have ethertap available, either built in to the host kernel or
-  available as a module.
-
-
-  If you want to set things up yourself, you need to make sure that the
-  appropriate /dev entry exists.  If it doesn't, become root and create
-  it as follows::
-
-
-       mknod /dev/tap <minor>  c 36  <minor>  + 16
-
-
-
-
-  For example, this is how to create /dev/tap0::
-
-
-       mknod /dev/tap0 c 36 0 + 16
-
-
-
-
-  You also need to make sure that the host kernel has ethertap support.
-  If ethertap is enabled as a module, you apparently need to insmod
-  ethertap once for each ethertap device you want to enable.  So,::
-
-
-       host#
-       insmod ethertap
-
-
-
-
-  will give you the tap0 interface.  To get the tap1 interface, you need
-  to run::
-
-
-       host#
-       insmod ethertap unit=1 -o ethertap1
-
-
-
-
-
-
-
-6.9.  The switch daemon
------------------------
-
-  Note: This is the daemon formerly known as uml_router, but which was
-  renamed so the network weenies of the world would stop growling at me.
-
-
-  The switch daemon, uml_switch, provides a mechanism for creating a
-  totally virtual network.  By default, it provides no connection to the
-  host network (but see -tap, below).
-
-
-  The first thing you need to do is run the daemon.  Running it with no
-  arguments will make it listen on a default pair of unix domain
-  sockets.
-
-
-  If you want it to listen on a different pair of sockets, use::
-
-
-        -unix control socket data socket
-
-
-
-
-
-  If you want it to act as a hub rather than a switch, use::
-
-
-        -hub
-
-
-
-
-
-  If you want the switch to be connected to host networking (allowing
-  the umls to get access to the outside world through the host), use::
-
-
-        -tap tap0
-
-
-
-
-
-  Note that the tap device must be preconfigured (see "TUN/TAP with a
-  preconfigured tap device", above).  If you're using a different tap
-  device than tap0, specify that instead of tap0.
-
-
-  uml_switch can be backgrounded as follows::
-
-
-       host%
-       uml_switch [ options ] < /dev/null > /dev/null
-
-
-
-
-  The reason it doesn't background by default is that it listens to
-  stdin for EOF.  When it sees that, it exits.
-
-
-  The general format of the kernel command line switch is::
-
-
-
-       ethn=daemon,ethernet address,socket
-       type,control socket,data socket
-
-
-
-
-  You can leave off everything except the 'daemon'.  You only need to
-  specify the ethernet address if the one that will be assigned to it
-  isn't acceptable for some reason.  The rest of the arguments describe
-  how to communicate with the daemon.  You should only specify them if
-  you told the daemon to use different sockets than the default.  So, if
-  you ran the daemon with no arguments, running the UML on the same
-  machine with::
-
-       eth0=daemon
-
-
-
-
-  will cause the eth0 driver to attach itself to the daemon correctly.
-
-
-
-6.10.  Slip
------------
-
-  Slip is another, less general, mechanism for a process to communicate
-  with the host networking.  In contrast to the ethertap interface,
-  which exchanges ethernet frames with the host and can be used to
-  transport any higher-level protocol, it can only be used to transport
-  IP.
-
-
-  The general format of the command line switch is::
-
-
-
-       ethn=slip,slip IP
-
-
-
-
-  The slip IP argument is the IP address that will be assigned to the
-  host end of the slip device.  If it is specified, the helper will run
-  and will set up the host so that the virtual machine can reach it and
-  the rest of the network.
-
-
-  There are some oddities with this interface that you should be aware
-  of.  You should only specify one slip device on a given virtual
-  machine, and its name inside UML will be 'umn', not 'eth0' or whatever
-  you specified on the command line.  These problems will be fixed at
-  some point.
-
-
-
-6.11.  Slirp
-------------
-
-  slirp uses an external program, usually /usr/bin/slirp, to provide IP
-  only networking connectivity through the host. This is similar to IP
-  masquerading with a firewall, although the translation is performed in
-  user-space, rather than by the kernel.  As slirp does not set up any
-  interfaces on the host, or changes routing, slirp does not require
-  root access or setuid binaries on the host.
-
-
-  The general format of the command line switch for slirp is::
-
-
-
-       ethn=slirp,ethernet address,slirp path
-
-
-
-
-  The ethernet address is optional, as UML will set up the interface
-  with an ethernet address based upon the initial IP address of the
-  interface.  The slirp path is generally /usr/bin/slirp, although it
-  will depend on distribution.
-
-
-  The slirp program can have a number of options passed to the command
-  line and we can't add them to the UML command line, as they will be
-  parsed incorrectly.  Instead, a wrapper shell script can be written or
-  the options inserted into the  /.slirprc file.  More information on
-  all of the slirp options can be found in its man pages.
-
-
-  The eth0 interface on UML should be set up with the IP 10.2.0.15,
-  although you can use anything as long as it is not used by a network
-  you will be connecting to. The default route on UML should be set to
-  use::
-
-
-       UML#
-       route add default dev eth0
-
-
-
-
-  slirp provides a number of useful IP addresses which can be used by
-  UML, such as 10.0.2.3 which is an alias for the DNS server specified
-  in /etc/resolv.conf on the host or the IP given in the 'dns' option
-  for slirp.
-
-
-  Even with a baudrate setting higher than 115200, the slirp connection
-  is limited to 115200. If you need it to go faster, the slirp binary
-  needs to be compiled with FULL_BOLT defined in config.h.
-
-
-
-6.12.  pcap
------------
-
-  The pcap transport is attached to a UML ethernet device on the command
-  line or with uml_mconsole with the following syntax::
-
-
-
-       ethn=pcap,host interface,filter
-       expression,option1,option2
-
-
-
-
-  The expression and options are optional.
-
-
-  The interface is whatever network device on the host you want to
-  sniff.  The expression is a pcap filter expression, which is also what
-  tcpdump uses, so if you know how to specify tcpdump filters, you will
-  use the same expressions here.  The options are up to two of
-  'promisc', control whether pcap puts the host interface into
-  promiscuous mode. 'optimize' and 'nooptimize' control whether the pcap
-  expression optimizer is used.
-
-
-  Example::
-
-
-
-       eth0=pcap,eth0,tcp
-
-       eth1=pcap,eth0,!tcp
-
-
-
-  will cause the UML eth0 to emit all tcp packets on the host eth0 and
-  the UML eth1 to emit all non-tcp packets on the host eth0.
-
-
-
-6.13.  Setting up the host yourself
------------------------------------
-
-  If you don't specify an address for the host side of the ethertap or
-  slip device, UML won't do any setup on the host.  So this is what is
-  needed to get things working (the examples use a host-side IP of
-  192.168.0.251 and a UML-side IP of 192.168.0.250 - adjust to suit your
-  own network):
-
-  -  The device needs to be configured with its IP address.  Tap devices
-     are also configured with an mtu of 1484.  Slip devices are
-     configured with a point-to-point address pointing at the UML ip
-     address::
-
-
-       host#  ifconfig tap0 arp mtu 1484 192.168.0.251 up
-
-
-       host#
-       ifconfig sl0 192.168.0.251 pointopoint 192.168.0.250 up
-
-
-
-
-
-  -  If a tap device is being set up, a route is set to the UML IP::
-
-
-       UML# route add -host 192.168.0.250 gw 192.168.0.251
-
-
-
-
-
-  -  To allow other hosts on your network to see the virtual machine,
-     proxy arp is set up for it::
-
-
-       host#  arp -Ds 192.168.0.250 eth0 pub
-
-
-
-
-
-  -  Finally, the host is set up to route packets::
-
-
-       host#  echo 1 > /proc/sys/net/ipv4/ip_forward
-
-
-
-
-
-
-
-
-
-
-7.  Sharing Filesystems between Virtual Machines
-================================================
-
-
-
-
-7.1.  A warning
----------------
-
-  Don't attempt to share filesystems simply by booting two UMLs from the
-  same file.  That's the same thing as booting two physical machines
-  from a shared disk.  It will result in filesystem corruption.
-
-
-
-7.2.  Using layered block devices
----------------------------------
-
-  The way to share a filesystem between two virtual machines is to use
-  the copy-on-write (COW) layering capability of the ubd block driver.
-  As of 2.4.6-2um, the driver supports layering a read-write private
-  device over a read-only shared device.  A machine's writes are stored
-  in the private device, while reads come from either device - the
-  private one if the requested block is valid in it, the shared one if
-  not.  Using this scheme, the majority of data which is unchanged is
-  shared between an arbitrary number of virtual machines, each of which
-  has a much smaller file containing the changes that it has made.  With
-  a large number of UMLs booting from a large root filesystem, this
-  leads to a huge disk space saving.  It will also help performance,
-  since the host will be able to cache the shared data using a much
-  smaller amount of memory, so UML disk requests will be served from the
-  host's memory rather than its disks.
-
-
-
-
-  To add a copy-on-write layer to an existing block device file, simply
-  add the name of the COW file to the appropriate ubd switch::
-
-
-        ubd0=root_fs_cow,root_fs_debian_22
-
-
-
-
-  where 'root_fs_cow' is the private COW file and 'root_fs_debian_22' is
-  the existing shared filesystem.  The COW file need not exist.  If it
-  doesn't, the driver will create and initialize it.  Once the COW file
-  has been initialized, it can be used on its own on the command line::
-
-
-        ubd0=root_fs_cow
-
-
-
-
-  The name of the backing file is stored in the COW file header, so it
-  would be redundant to continue specifying it on the command line.
-
-
-
-7.3.  Note!
------------
-
-  When checking the size of the COW file in order to see the gobs of
-  space that you're saving, make sure you use 'ls -ls' to see the actual
-  disk consumption rather than the length of the file.  The COW file is
-  sparse, so the length will be very different from the disk usage.
-  Here is a 'ls -l' of a COW file and backing file from one boot and
-  shutdown::
-
-       host% ls -l cow.debian debian2.2
-       -rw-r--r--    1 jdike    jdike    492504064 Aug  6 21:16 cow.debian
-       -rwxrw-rw-    1 jdike    jdike    537919488 Aug  6 20:42 debian2.2
-
-
-
-
-  Doesn't look like much saved space, does it?  Well, here's 'ls -ls'::
-
-
-       host% ls -ls cow.debian debian2.2
-          880 -rw-r--r--    1 jdike    jdike    492504064 Aug  6 21:16 cow.debian
-       525832 -rwxrw-rw-    1 jdike    jdike    537919488 Aug  6 20:42 debian2.2
-
-
-
-
-  Now, you can see that the COW file has less than a meg of disk, rather
-  than 492 meg.
-
-
-
-7.4.  Another warning
----------------------
-
-  Once a filesystem is being used as a readonly backing file for a COW
-  file, do not boot directly from it or modify it in any way.  Doing so
-  will invalidate any COW files that are using it.  The mtime and size
-  of the backing file are stored in the COW file header at its creation,
-  and they must continue to match.  If they don't, the driver will
-  refuse to use the COW file.
-
-
-
-
-  If you attempt to evade this restriction by changing either the
-  backing file or the COW header by hand, you will get a corrupted
-  filesystem.
-
-
-
-
-  Among other things, this means that upgrading the distribution in a
-  backing file and expecting that all of the COW files using it will see
-  the upgrade will not work.
-
-
-
-
-7.5.  uml_moo : Merging a COW file with its backing file
---------------------------------------------------------
-
-  Depending on how you use UML and COW devices, it may be advisable to
-  merge the changes in the COW file into the backing file every once in
-  a while.
-
-
-
-
-  The utility that does this is uml_moo.  Its usage is::
-
-
-       host% uml_moo COW file new backing file
-
-
-
-
-  There's no need to specify the backing file since that information is
-  already in the COW file header.  If you're paranoid, boot the new
-  merged file, and if you're happy with it, move it over the old backing
-  file.
-
-
-
-
-  uml_moo creates a new backing file by default as a safety measure.  It
-  also has a destructive merge option which will merge the COW file
-  directly into its current backing file.  This is really only usable
-  when the backing file only has one COW file associated with it.  If
-  there are multiple COWs associated with a backing file, a -d merge of
-  one of them will invalidate all of the others.  However, it is
-  convenient if you're short of disk space, and it should also be
-  noticeably faster than a non-destructive merge.
-
-
-
-
-  uml_moo is installed with the UML deb and RPM.  If you didn't install
-  UML from one of those packages, you can also get it from the UML
-  utilities http://user-mode-linux.sourceforge.net/utilities tar file
-  in tools/moo.
-
-
-
-
-
-
-
-
-8.  Creating filesystems
-========================
-
-
-  You may want to create and mount new UML filesystems, either because
-  your root filesystem isn't large enough or because you want to use a
-  filesystem other than ext2.
-
-
-  This was written on the occasion of reiserfs being included in the
-  2.4.1 kernel pool, and therefore the 2.4.1 UML, so the examples will
-  talk about reiserfs.  This information is generic, and the examples
-  should be easy to translate to the filesystem of your choice.
-
-
-8.1.  Create the filesystem file
-================================
-
-  dd is your friend.  All you need to do is tell dd to create an empty
-  file of the appropriate size.  I usually make it sparse to save time
-  and to avoid allocating disk space until it's actually used.  For
-  example, the following command will create a sparse 100 meg file full
-  of zeroes::
-
-
-       host%
-       dd if=/dev/zero of=new_filesystem seek=100 count=1 bs=1M
-
-
-
-
-
-
-  8.2.  Assign the file to a UML device
-
-  Add an argument like the following to the UML command line::
-
-       ubd4=new_filesystem
-
-
-
-
-  making sure that you use an unassigned ubd device number.
-
-
-
-  8.3.  Creating and mounting the filesystem
-
-  Make sure that the filesystem is available, either by being built into
-  the kernel, or available as a module, then boot up UML and log in.  If
-  the root filesystem doesn't have the filesystem utilities (mkfs, fsck,
-  etc), then get them into UML by way of the net or hostfs.
-
-
-  Make the new filesystem on the device assigned to the new file::
-
-
-       host#  mkreiserfs /dev/ubd/4
-
-
-       <----------- MKREISERFSv2 ----------->
-
-       ReiserFS version 3.6.25
-       Block size 4096 bytes
-       Block count 25856
-       Used blocks 8212
-               Journal - 8192 blocks (18-8209), journal header is in block 8210
-               Bitmaps: 17
-               Root block 8211
-       Hash function "r5"
-       ATTENTION: ALL DATA WILL BE LOST ON '/dev/ubd/4'! (y/n)y
-       journal size 8192 (from 18)
-       Initializing journal - 0%....20%....40%....60%....80%....100%
-       Syncing..done.
-
-
-
-
-  Now, mount it::
-
-
-       UML#
-       mount /dev/ubd/4 /mnt
-
-
-
-
-  and you're in business.
-
-
-
-
-
-
-
-
-
-9.  Host file access
-====================
-
-
-  If you want to access files on the host machine from inside UML, you
-  can treat it as a separate machine and either nfs mount directories
-  from the host or copy files into the virtual machine with scp or rcp.
-  However, since UML is running on the host, it can access those
-  files just like any other process and make them available inside the
-  virtual machine without needing to use the network.
-
-
-  This is now possible with the hostfs virtual filesystem.  With it, you
-  can mount a host directory into the UML filesystem and access the
-  files contained in it just as you would on the host.
-
-
-9.1.  Using hostfs
-------------------
-
-  To begin with, make sure that hostfs is available inside the virtual
-  machine with::
-
-
-       UML# cat /proc/filesystems
-
-
-
-  .  hostfs should be listed.  If it's not, either rebuild the kernel
-  with hostfs configured into it or make sure that hostfs is built as a
-  module and available inside the virtual machine, and insmod it.
-
-
-  Now all you need to do is run mount::
-
-
-       UML# mount none /mnt/host -t hostfs
-
-
-
-
-  will mount the host's / on the virtual machine's /mnt/host.
-
-
-  If you don't want to mount the host root directory, then you can
-  specify a subdirectory to mount with the -o switch to mount::
-
-
-       UML# mount none /mnt/home -t hostfs -o /home
-
-
-
-
-  will mount the hosts's /home on the virtual machine's /mnt/home.
-
-
-
-9.2.  hostfs as the root filesystem
------------------------------------
-
-  It's possible to boot from a directory hierarchy on the host using
-  hostfs rather than using the standard filesystem in a file.
-
-  To start, you need that hierarchy.  The easiest way is to loop mount
-  an existing root_fs file::
-
-
-       host#  mount root_fs uml_root_dir -o loop
-
-
-
-
-  You need to change the filesystem type of / in etc/fstab to be
-  'hostfs', so that line looks like this::
-
-    /dev/ubd/0       /        hostfs      defaults          1   1
-
-
-
-
-  Then you need to chown to yourself all the files in that directory
-  that are owned by root.  This worked for me::
-
-
-       host#  find . -uid 0 -exec chown jdike {} \;
-
-
-
-
-  Next, make sure that your UML kernel has hostfs compiled in, not as a
-  module.  Then run UML with the boot device pointing at that directory::
-
-
-        ubd0=/path/to/uml/root/directory
-
-
-
-
-  UML should then boot as it does normally.
-
-
-9.3.  Building hostfs
----------------------
-
-  If you need to build hostfs because it's not in your kernel, you have
-  two choices:
-
-
-
-  -  Compiling hostfs into the kernel:
-
-
-     Reconfigure the kernel and set the 'Host filesystem' option under
-
-
-  -  Compiling hostfs as a module:
-
-
-     Reconfigure the kernel and set the 'Host filesystem' option under
-     be in arch/um/fs/hostfs/hostfs.o.  Install that in
-     ``/lib/modules/$(uname -r)/fs`` in the virtual machine, boot it up, and::
-
-
-       UML# insmod hostfs
-
-
-.. _The_Management_Console:
-
-10.  The Management Console
-===========================
-
-
-
-  The UML management console is a low-level interface to the kernel,
-  somewhat like the i386 SysRq interface.  Since there is a full-blown
-  operating system under UML, there is much greater flexibility possible
-  than with the SysRq mechanism.
-
-
-  There are a number of things you can do with the mconsole interface:
-
-  -  get the kernel version
-
-  -  add and remove devices
-
-  -  halt or reboot the machine
-
-  -  Send SysRq commands
-
-  -  Pause and resume the UML
-
-
-  You need the mconsole client (uml_mconsole) which is present in CVS
-  (/tools/mconsole) in 2.4.5-9um and later, and will be in the RPM in
-  2.4.6.
-
-
-  You also need CONFIG_MCONSOLE (under 'General Setup') enabled in UML.
-  When you boot UML, you'll see a line like::
-
-
-       mconsole initialized on /home/jdike/.uml/umlNJ32yL/mconsole
-
-
-
-
-  If you specify a unique machine id one the UML command line, i.e.::
-
-
-        umid=debian
-
-
-
-
-  you'll see this::
-
-
-       mconsole initialized on /home/jdike/.uml/debian/mconsole
-
-
-
-
-  That file is the socket that uml_mconsole will use to communicate with
-  UML.  Run it with either the umid or the full path as its argument::
-
-
-       host% uml_mconsole debian
-
-
-
-
-  or::
-
-
-       host% uml_mconsole /home/jdike/.uml/debian/mconsole
-
-
-
-
-  You'll get a prompt, at which you can run one of these commands:
-
-  -  version
-
-  -  halt
-
-  -  reboot
-
-  -  config
-
-  -  remove
-
-  -  sysrq
-
-  -  help
-
-  -  cad
-
-  -  stop
-
-  -  go
-
-
-10.1.  version
---------------
-
-  This takes no arguments.  It prints the UML version::
-
-
-       (mconsole)  version
-       OK Linux usermode 2.4.5-9um #1 Wed Jun 20 22:47:08 EDT 2001 i686
-
-
-
-
-  There are a couple actual uses for this.  It's a simple no-op which
-  can be used to check that a UML is running.  It's also a way of
-  sending an interrupt to the UML.  This is sometimes useful on SMP
-  hosts, where there's a bug which causes signals to UML to be lost,
-  often causing it to appear to hang.  Sending such a UML the mconsole
-  version command is a good way to 'wake it up' before networking has
-  been enabled, as it does not do anything to the function of the UML.
-
-
-
-10.2.  halt and reboot
-----------------------
-
-  These take no arguments.  They shut the machine down immediately, with
-  no syncing of disks and no clean shutdown of userspace.  So, they are
-  pretty close to crashing the machine::
-
-
-       (mconsole)  halt
-       OK
-
-
-
-
-
-
-10.3.  config
--------------
-
-  "config" adds a new device to the virtual machine.  Currently the ubd
-  and network drivers support this.  It takes one argument, which is the
-  device to add, with the same syntax as the kernel command line::
-
-
-
-
-       (mconsole)
-       config ubd3=/home/jdike/incoming/roots/root_fs_debian22
-
-       OK
-       (mconsole)  config eth1=mcast
-       OK
-
-
-
-
-
-
-10.4.  remove
--------------
-
-  "remove" deletes a device from the system.  Its argument is just the
-  name of the device to be removed. The device must be idle in whatever
-  sense the driver considers necessary.  In the case of the ubd driver,
-  the removed block device must not be mounted, swapped on, or otherwise
-  open, and in the case of the network driver, the device must be down::
-
-
-       (mconsole)  remove ubd3
-       OK
-       (mconsole)  remove eth1
-       OK
-
-
-
-
-
-
-10.5.  sysrq
-------------
-
-  This takes one argument, which is a single letter.  It calls the
-  generic kernel's SysRq driver, which does whatever is called for by
-  that argument.  See the SysRq documentation in
-  Documentation/admin-guide/sysrq.rst in your favorite kernel tree to
-  see what letters are valid and what they do.
-
-
-
-10.6.  help
------------
-
-  "help" returns a string listing the valid commands and what each one
-  does.
-
-
-
-10.7.  cad
-----------
-
-  This invokes the Ctl-Alt-Del action on init.  What exactly this ends
-  up doing is up to /etc/inittab.  Normally, it reboots the machine.
-  With UML, this is usually not desired, so if a halt would be better,
-  then find the section of inittab that looks like this::
-
-
-       # What to do when CTRL-ALT-DEL is pressed.
-       ca:12345:ctrlaltdel:/sbin/shutdown -t1 -a -r now
-
-
-
-
-  and change the command to halt.
-
-
-
-10.8.  stop
------------
-
-  This puts the UML in a loop reading mconsole requests until a 'go'
-  mconsole command is received. This is very useful for making backups
-  of UML filesystems, as the UML can be stopped, then synced via 'sysrq
-  s', so that everything is written to the filesystem. You can then copy
-  the filesystem and then send the UML 'go' via mconsole.
-
-
-  Note that a UML running with more than one CPU will have problems
-  after you send the 'stop' command, as only one CPU will be held in a
-  mconsole loop and all others will continue as normal.  This is a bug,
-  and will be fixed.
-
-
-
-10.9.  go
----------
-
-  This resumes a UML after being paused by a 'stop' command. Note that
-  when the UML has resumed, TCP connections may have timed out and if
-  the UML is paused for a long period of time, crond might go a little
-  crazy, running all the jobs it didn't do earlier.
-
-
-
-
-
-
-.. _Kernel_debugging:
-
-11.  Kernel debugging
-=====================
-
-
-  Note: The interface that makes debugging, as described here, possible
-  is present in 2.4.0-test6 kernels and later.
-
-
-  Since the user-mode kernel runs as a normal Linux process, it is
-  possible to debug it with gdb almost like any other process.  It is
-  slightly different because the kernel's threads are already being
-  ptraced for system call interception, so gdb can't ptrace them.
-  However, a mechanism has been added to work around that problem.
-
-
-  In order to debug the kernel, you need build it from source.  See
-  :ref:`Compiling_the_kernel_and_modules`  for information on doing that.
-  Make sure that you enable CONFIG_DEBUGSYM and CONFIG_PT_PROXY during
-  the config.  These will compile the kernel with ``-g``, and enable the
-  ptrace proxy so that gdb works with UML, respectively.
-
-
-
-
-11.1.  Starting the kernel under gdb
-------------------------------------
-
-  You can have the kernel running under the control of gdb from the
-  beginning by putting 'debug' on the command line.  You will get an
-  xterm with gdb running inside it.  The kernel will send some commands
-  to gdb which will leave it stopped at the beginning of start_kernel.
-  At this point, you can get things going with 'next', 'step', or
-  'cont'.
-
-
-  There is a transcript of a debugging session  here <debug-
-  session.html> , with breakpoints being set in the scheduler and in an
-  interrupt handler.
-
-
-11.2.  Examining sleeping processes
------------------------------------
-
-
-  Not every bug is evident in the currently running process.  Sometimes,
-  processes hang in the kernel when they shouldn't because they've
-  deadlocked on a semaphore or something similar.  In this case, when
-  you ^C gdb and get a backtrace, you will see the idle thread, which
-  isn't very relevant.
-
-
-  What you want is the stack of whatever process is sleeping when it
-  shouldn't be.  You need to figure out which process that is, which is
-  generally fairly easy.  Then you need to get its host process id,
-  which you can do either by looking at ps on the host or at
-  task.thread.extern_pid in gdb.
-
-
-  Now what you do is this:
-
-  -  detach from the current thread::
-
-
-       (UML gdb)  det
-
-
-
-
-
-  -  attach to the thread you are interested in::
-
-
-       (UML gdb)  att <host pid>
-
-
-
-
-
-  -  look at its stack and anything else of interest::
-
-
-       (UML gdb)  bt
-
-
-
-
-  Note that you can't do anything at this point that requires that a
-  process execute, e.g. calling a function
-
-  -  when you're done looking at that process, reattach to the current
-     thread and continue it::
-
-
-       (UML gdb)
-       att 1
-
-
-       (UML gdb)
-       c
-
-
-
-
-  Here, specifying any pid which is not the process id of a UML thread
-  will cause gdb to reattach to the current thread.  I commonly use 1,
-  but any other invalid pid would work.
-
-
-
-11.3.  Running ddd on UML
--------------------------
-
-  ddd works on UML, but requires a special kludge.  The process goes
-  like this:
-
-  -  Start ddd::
-
-
-       host% ddd linux
-
-
-
-
-
-  -  With ps, get the pid of the gdb that ddd started.  You can ask the
-     gdb to tell you, but for some reason that confuses things and
-     causes a hang.
-
-  -  run UML with 'debug=parent gdb-pid=<pid>' added to the command line
-     - it will just sit there after you hit return
-
-  -  type 'att 1' to the ddd gdb and you will see something like::
-
-
-       0xa013dc51 in __kill ()
-
-
-       (gdb)
-
-
-
-
-
-  -  At this point, type 'c', UML will boot up, and you can use ddd just
-     as you do on any other process.
-
-
-
-11.4.  Debugging modules
-------------------------
-
-
-  gdb has support for debugging code which is dynamically loaded into
-  the process.  This support is what is needed to debug kernel modules
-  under UML.
-
-
-  Using that support is somewhat complicated.  You have to tell gdb what
-  object file you just loaded into UML and where in memory it is.  Then,
-  it can read the symbol table, and figure out where all the symbols are
-  from the load address that you provided.  It gets more interesting
-  when you load the module again (i.e. after an rmmod).  You have to
-  tell gdb to forget about all its symbols, including the main UML ones
-  for some reason, then load then all back in again.
-
-
-  There's an easy way and a hard way to do this.  The easy way is to use
-  the umlgdb expect script written by Chandan Kudige.  It basically
-  automates the process for you.
-
-
-  First, you must tell it where your modules are.  There is a list in
-  the script that looks like this::
-
-       set MODULE_PATHS {
-       "fat" "/usr/src/uml/linux-2.4.18/fs/fat/fat.o"
-       "isofs" "/usr/src/uml/linux-2.4.18/fs/isofs/isofs.o"
-       "minix" "/usr/src/uml/linux-2.4.18/fs/minix/minix.o"
-       }
-
-
-
-
-  You change that to list the names and paths of the modules that you
-  are going to debug.  Then you run it from the toplevel directory of
-  your UML pool and it basically tells you what to do::
-
-
-                   ******** GDB pid is 21903 ********
-       Start UML as: ./linux <kernel switches> debug gdb-pid=21903
-
-
-
-       GNU gdb 5.0rh-5 Red Hat Linux 7.1
-       Copyright 2001 Free Software Foundation, Inc.
-       GDB is free software, covered by the GNU General Public License, and you are
-       welcome to change it and/or distribute copies of it under certain conditions.
-       Type "show copying" to see the conditions.
-       There is absolutely no warranty for GDB.  Type "show warranty" for details.
-       This GDB was configured as "i386-redhat-linux"...
-       (gdb) b sys_init_module
-       Breakpoint 1 at 0xa0011923: file module.c, line 349.
-       (gdb) att 1
-
-
-
-
-  After you run UML and it sits there doing nothing, you hit return at
-  the 'att 1' and continue it::
-
-
-       Attaching to program: /home/jdike/linux/2.4/um/./linux, process 1
-       0xa00f4221 in __kill ()
-       (UML gdb)  c
-       Continuing.
-
-
-
-
-  At this point, you debug normally.  When you insmod something, the
-  expect magic will kick in and you'll see something like::
-
-
-     *** Module hostfs loaded ***
-    Breakpoint 1, sys_init_module (name_user=0x805abb0 "hostfs",
-        mod_user=0x8070e00) at module.c:349
-    349             char *name, *n_name, *name_tmp = NULL;
-    (UML gdb)  finish
-    Run till exit from #0  sys_init_module (name_user=0x805abb0 "hostfs",
-        mod_user=0x8070e00) at module.c:349
-    0xa00e2e23 in execute_syscall (r=0xa8140284) at syscall_kern.c:411
-    411             else res = EXECUTE_SYSCALL(syscall, regs);
-    Value returned is $1 = 0
-    (UML gdb)
-    p/x (int)module_list + module_list->size_of_struct
-
-    $2 = 0xa9021054
-    (UML gdb)  symbol-file ./linux
-    Load new symbol table from "./linux"? (y or n) y
-    Reading symbols from ./linux...
-    done.
-    (UML gdb)
-    add-symbol-file /home/jdike/linux/2.4/um/arch/um/fs/hostfs/hostfs.o 0xa9021054
-
-    add symbol table from file "/home/jdike/linux/2.4/um/arch/um/fs/hostfs/hostfs.o" at
-            .text_addr = 0xa9021054
-     (y or n) y
-
-    Reading symbols from /home/jdike/linux/2.4/um/arch/um/fs/hostfs/hostfs.o...
-    done.
-    (UML gdb)  p *module_list
-    $1 = {size_of_struct = 84, next = 0xa0178720, name = 0xa9022de0 "hostfs",
-      size = 9016, uc = {usecount = {counter = 0}, pad = 0}, flags = 1,
-      nsyms = 57, ndeps = 0, syms = 0xa9023170, deps = 0x0, refs = 0x0,
-      init = 0xa90221f0 <init_hostfs>, cleanup = 0xa902222c <exit_hostfs>,
-      ex_table_start = 0x0, ex_table_end = 0x0, persist_start = 0x0,
-      persist_end = 0x0, can_unload = 0, runsize = 0, kallsyms_start = 0x0,
-      kallsyms_end = 0x0,
-      archdata_start = 0x1b855 <Address 0x1b855 out of bounds>,
-      archdata_end = 0xe5890000 <Address 0xe5890000 out of bounds>,
-      kernel_data = 0xf689c35d <Address 0xf689c35d out of bounds>}
-    >> Finished loading symbols for hostfs ...
-
-
-
-
-  That's the easy way.  It's highly recommended.  The hard way is
-  described below in case you're interested in what's going on.
-
-
-  Boot the kernel under the debugger and load the module with insmod or
-  modprobe.  With gdb, do::
-
-
-       (UML gdb)  p module_list
-
-
-
-
-  This is a list of modules that have been loaded into the kernel, with
-  the most recently loaded module first.  Normally, the module you want
-  is at module_list.  If it's not, walk down the next links, looking at
-  the name fields until find the module you want to debug.  Take the
-  address of that structure, and add module.size_of_struct (which in
-  2.4.10 kernels is 96 (0x60)) to it.  Gdb can make this hard addition
-  for you :-)::
-
-
-
-       (UML gdb)
-       printf "%#x\n", (int)module_list module_list->size_of_struct
-
-
-
-
-  The offset from the module start occasionally changes (before 2.4.0,
-  it was module.size_of_struct + 4), so it's a good idea to check the
-  init and cleanup addresses once in a while, as describe below.  Now
-  do::
-
-
-       (UML gdb)
-       add-symbol-file /path/to/module/on/host that_address
-
-
-
-
-  Tell gdb you really want to do it, and you're in business.
-
-
-  If there's any doubt that you got the offset right, like breakpoints
-  appear not to work, or they're appearing in the wrong place, you can
-  check it by looking at the module structure.  The init and cleanup
-  fields should look like::
-
-
-       init = 0x588066b0 <init_hostfs>, cleanup = 0x588066c0 <exit_hostfs>
-
-
-
-
-  with no offsets on the symbol names.  If the names are right, but they
-  are offset, then the offset tells you how much you need to add to the
-  address you gave to add-symbol-file.
-
-
-  When you want to load in a new version of the module, you need to get
-  gdb to forget about the old one.  The only way I've found to do that
-  is to tell gdb to forget about all symbols that it knows about::
-
-
-       (UML gdb)  symbol-file
-
-
-
-
-  Then reload the symbols from the kernel binary::
-
-
-       (UML gdb)  symbol-file /path/to/kernel
-
-
-
-
-  and repeat the process above.  You'll also need to re-enable break-
-  points.  They were disabled when you dumped all the symbols because
-  gdb couldn't figure out where they should go.
-
-
-
-11.5.  Attaching gdb to the kernel
-----------------------------------
-
-  If you don't have the kernel running under gdb, you can attach gdb to
-  it later by sending the tracing thread a SIGUSR1.  The first line of
-  the console output identifies its pid::
-
-       tracing thread pid = 20093
-
-
-
-
-  When you send it the signal::
-
-
-       host% kill -USR1 20093
-
-
-
-
-  you will get an xterm with gdb running in it.
-
-
-  If you have the mconsole compiled into UML, then the mconsole client
-  can be used to start gdb::
-
-
-       (mconsole)  (mconsole) config gdb=xterm
-
-
-
-
-  will fire up an xterm with gdb running in it.
-
-
-
-11.6.  Using alternate debuggers
---------------------------------
-
-  UML has support for attaching to an already running debugger rather
-  than starting gdb itself.  This is present in CVS as of 17 Apr 2001.
-  I sent it to Alan for inclusion in the ac tree, and it will be in my
-  2.4.4 release.
-
-
-  This is useful when gdb is a subprocess of some UI, such as emacs or
-  ddd.  It can also be used to run debuggers other than gdb on UML.
-  Below is an example of using strace as an alternate debugger.
-
-
-  To do this, you need to get the pid of the debugger and pass it in
-  with the
-
-
-  If you are using gdb under some UI, then tell it to 'att 1', and
-  you'll find yourself attached to UML.
-
-
-  If you are using something other than gdb as your debugger, then
-  you'll need to get it to do the equivalent of 'att 1' if it doesn't do
-  it automatically.
-
-
-  An example of an alternate debugger is strace.  You can strace the
-  actual kernel as follows:
-
-  -  Run the following in a shell::
-
-
-       host%
-       sh -c 'echo pid=$$; echo -n hit return; read x; exec strace -p 1 -o strace.out'
-
-
-
-  -  Run UML with 'debug' and 'gdb-pid=<pid>' with the pid printed out
-     by the previous command
-
-  -  Hit return in the shell, and UML will start running, and strace
-     output will start accumulating in the output file.
-
-     Note that this is different from running::
-
-
-       host% strace ./linux
-
-
-
-
-  That will strace only the main UML thread, the tracing thread, which
-  doesn't do any of the actual kernel work.  It just oversees the vir-
-  tual machine.  In contrast, using strace as described above will show
-  you the low-level activity of the virtual machine.
-
-
-
-
-
-12.  Kernel debugging examples
-==============================
-
-12.1.  The case of the hung fsck
---------------------------------
-
-  When booting up the kernel, fsck failed, and dropped me into a shell
-  to fix things up.  I ran fsck -y, which hung::
-
-
-    Setting hostname uml                    [ OK ]
-    Checking root filesystem
-    /dev/fhd0 was not cleanly unmounted, check forced.
-    Error reading block 86894 (Attempt to read block from filesystem resulted in short read) while reading indirect blocks of inode 19780.
-
-    /dev/fhd0: UNEXPECTED INCONSISTENCY; RUN fsck MANUALLY.
-           (i.e., without -a or -p options)
-    [ FAILED ]
-
-    *** An error occurred during the file system check.
-    *** Dropping you to a shell; the system will reboot
-    *** when you leave the shell.
-    Give root password for maintenance
-    (or type Control-D for normal startup):
-
-    [root@uml /root]# fsck -y /dev/fhd0
-    fsck -y /dev/fhd0
-    Parallelizing fsck version 1.14 (9-Jan-1999)
-    e2fsck 1.14, 9-Jan-1999 for EXT2 FS 0.5b, 95/08/09
-    /dev/fhd0 contains a file system with errors, check forced.
-    Pass 1: Checking inodes, blocks, and sizes
-    Error reading block 86894 (Attempt to read block from filesystem resulted in short read) while reading indirect blocks of inode 19780.  Ignore error? yes
-
-    Inode 19780, i_blocks is 1548, should be 540.  Fix? yes
-
-    Pass 2: Checking directory structure
-    Error reading block 49405 (Attempt to read block from filesystem resulted in short read).  Ignore error? yes
-
-    Directory inode 11858, block 0, offset 0: directory corrupted
-    Salvage? yes
-
-    Missing '.' in directory inode 11858.
-    Fix? yes
-
-    Missing '..' in directory inode 11858.
-    Fix? yes
-
-
-  The standard drill in this sort of situation is to fire up gdb on the
-  signal thread, which, in this case, was pid 1935.  In another window,
-  I run gdb and attach pid 1935::
-
-
-       ~/linux/2.3.26/um 1016: gdb linux
-       GNU gdb 4.17.0.11 with Linux support
-       Copyright 1998 Free Software Foundation, Inc.
-       GDB is free software, covered by the GNU General Public License, and you are
-       welcome to change it and/or distribute copies of it under certain conditions.
-       Type "show copying" to see the conditions.
-       There is absolutely no warranty for GDB.  Type "show warranty" for details.
-       This GDB was configured as "i386-redhat-linux"...
-
-       (gdb) att 1935
-       Attaching to program `/home/dike/linux/2.3.26/um/linux', Pid 1935
-       0x100756d9 in __wait4 ()
-
-
-  Let's see what's currently running::
-
-
-
-       (gdb) p current_task.pid
-       $1 = 0
-
-
-
-
-
-  It's the idle thread, which means that fsck went to sleep for some
-  reason and never woke up.
-
-
-  Let's guess that the last process in the process list is fsck::
-
-
-
-       (gdb) p current_task.prev_task.comm
-       $13 = "fsck.ext2\000\000\000\000\000\000"
-
-
-
-
-
-  It is, so let's see what it thinks it's up to::
-
-
-
-       (gdb) p current_task.prev_task.thread
-       $14 = {extern_pid = 1980, tracing = 0, want_tracing = 0, forking = 0,
-         kernel_stack_page = 0, signal_stack = 1342627840, syscall = {id = 4, args = {
-             3, 134973440, 1024, 0, 1024}, have_result = 0, result = 50590720},
-         request = {op = 2, u = {exec = {ip = 1350467584, sp = 2952789424}, fork = {
-               regs = {1350467584, 2952789424, 0 <repeats 15 times>}, sigstack = 0,
-               pid = 0}, switch_to = 0x507e8000, thread = {proc = 0x507e8000,
-               arg = 0xaffffdb0, flags = 0, new_pid = 0}, input_request = {
-               op = 1350467584, fd = -1342177872, proc = 0, pid = 0}}}}
-
-
-
-  The interesting things here are the fact that its .thread.syscall.id
-  is __NR_write (see the big switch in arch/um/kernel/syscall_kern.c or
-  the defines in include/asm-um/arch/unistd.h), and that it never
-  returned.  Also, its .request.op is OP_SWITCH (see
-  arch/um/include/user_util.h).  These mean that it went into a write,
-  and, for some reason, called schedule().
-
-
-  The fact that it never returned from write means that its stack should
-  be fairly interesting.  Its pid is 1980 (.thread.extern_pid).  That
-  process is being ptraced by the signal thread, so it must be detached
-  before gdb can attach it::
-
-
-
-    (gdb) call detach(1980)
-
-    Program received signal SIGSEGV, Segmentation fault.
-    <function called from gdb>
-    The program being debugged stopped while in a function called from GDB.
-    When the function (detach) is done executing, GDB will silently
-    stop (instead of continuing to evaluate the expression containing
-    the function call).
-    (gdb) call detach(1980)
-    $15 = 0
-
-
-  The first detach segfaults for some reason, and the second one
-  succeeds.
-
-
-  Now I detach from the signal thread, attach to the fsck thread, and
-  look at its stack::
-
-
-       (gdb) det
-       Detaching from program: /home/dike/linux/2.3.26/um/linux Pid 1935
-       (gdb) att 1980
-       Attaching to program `/home/dike/linux/2.3.26/um/linux', Pid 1980
-       0x10070451 in __kill ()
-       (gdb) bt
-       #0  0x10070451 in __kill ()
-       #1  0x10068ccd in usr1_pid (pid=1980) at process.c:30
-       #2  0x1006a03f in _switch_to (prev=0x50072000, next=0x507e8000)
-           at process_kern.c:156
-       #3  0x1006a052 in switch_to (prev=0x50072000, next=0x507e8000, last=0x50072000)
-           at process_kern.c:161
-       #4  0x10001d12 in schedule () at core.c:777
-       #5  0x1006a744 in __down (sem=0x507d241c) at semaphore.c:71
-       #6  0x1006aa10 in __down_failed () at semaphore.c:157
-       #7  0x1006c5d8 in segv_handler (sc=0x5006e940) at trap_user.c:174
-       #8  0x1006c5ec in kern_segv_handler (sig=11) at trap_user.c:182
-       #9  <signal handler called>
-       #10 0x10155404 in errno ()
-       #11 0x1006c0aa in segv (address=1342179328, is_write=2) at trap_kern.c:50
-       #12 0x1006c5d8 in segv_handler (sc=0x5006eaf8) at trap_user.c:174
-       #13 0x1006c5ec in kern_segv_handler (sig=11) at trap_user.c:182
-       #14 <signal handler called>
-       #15 0xc0fd in ?? ()
-       #16 0x10016647 in sys_write (fd=3,
-           buf=0x80b8800 <Address 0x80b8800 out of bounds>, count=1024)
-           at read_write.c:159
-       #17 0x1006d5b3 in execute_syscall (syscall=4, args=0x5006ef08)
-           at syscall_kern.c:254
-       #18 0x1006af87 in really_do_syscall (sig=12) at syscall_user.c:35
-       #19 <signal handler called>
-       #20 0x400dc8b0 in ?? ()
-
-
-
-
-
-  The interesting things here are:
-
-  -  There are two segfaults on this stack (frames 9 and 14)
-
-  -  The first faulting address (frame 11) is 0x50000800::
-
-       (gdb) p (void *)1342179328
-       $16 = (void *) 0x50000800
-
-
-
-
-
-  The initial faulting address is interesting because it is on the idle
-  thread's stack.  I had been seeing the idle thread segfault for no
-  apparent reason, and the cause looked like stack corruption.  In hopes
-  of catching the culprit in the act, I had turned off all protections
-  to that stack while the idle thread wasn't running.  This apparently
-  tripped that trap.
-
-
-  However, the more immediate problem is that second segfault and I'm
-  going to concentrate on that.  First, I want to see where the fault
-  happened, so I have to go look at the sigcontent struct in frame 8::
-
-
-
-       (gdb) up
-       #1  0x10068ccd in usr1_pid (pid=1980) at process.c:30
-       30        kill(pid, SIGUSR1);
-       (gdb)
-       #2  0x1006a03f in _switch_to (prev=0x50072000, next=0x507e8000)
-           at process_kern.c:156
-       156       usr1_pid(getpid());
-       (gdb)
-       #3  0x1006a052 in switch_to (prev=0x50072000, next=0x507e8000, last=0x50072000)
-           at process_kern.c:161
-       161       _switch_to(prev, next);
-       (gdb)
-       #4  0x10001d12 in schedule () at core.c:777
-       777             switch_to(prev, next, prev);
-       (gdb)
-       #5  0x1006a744 in __down (sem=0x507d241c) at semaphore.c:71
-       71                      schedule();
-       (gdb)
-       #6  0x1006aa10 in __down_failed () at semaphore.c:157
-       157     }
-       (gdb)
-       #7  0x1006c5d8 in segv_handler (sc=0x5006e940) at trap_user.c:174
-       174       segv(sc->cr2, sc->err & 2);
-       (gdb)
-       #8  0x1006c5ec in kern_segv_handler (sig=11) at trap_user.c:182
-       182       segv_handler(sc);
-       (gdb) p *sc
-       Cannot access memory at address 0x0.
-
-
-
-
-  That's not very useful, so I'll try a more manual method::
-
-
-       (gdb) p *((struct sigcontext *) (&sig + 1))
-       $19 = {gs = 0, __gsh = 0, fs = 0, __fsh = 0, es = 43, __esh = 0, ds = 43,
-         __dsh = 0, edi = 1342179328, esi = 1350378548, ebp = 1342630440,
-         esp = 1342630420, ebx = 1348150624, edx = 1280, ecx = 0, eax = 0,
-         trapno = 14, err = 4, eip = 268480945, cs = 35, __csh = 0, eflags = 66118,
-         esp_at_signal = 1342630420, ss = 43, __ssh = 0, fpstate = 0x0, oldmask = 0,
-         cr2 = 1280}
-
-
-
-  The ip is in handle_mm_fault::
-
-
-       (gdb) p (void *)268480945
-       $20 = (void *) 0x1000b1b1
-       (gdb) i sym $20
-       handle_mm_fault + 57 in section .text
-
-
-
-
-
-  Specifically, it's in pte_alloc::
-
-
-       (gdb) i line *$20
-       Line 124 of "/home/dike/linux/2.3.26/um/include/asm/pgalloc.h"
-          starts at address 0x1000b1b1 <handle_mm_fault+57>
-          and ends at 0x1000b1b7 <handle_mm_fault+63>.
-
-
-
-
-
-  To find where in handle_mm_fault this is, I'll jump forward in the
-  code until I see an address in that procedure::
-
-
-
-       (gdb) i line *0x1000b1c0
-       Line 126 of "/home/dike/linux/2.3.26/um/include/asm/pgalloc.h"
-          starts at address 0x1000b1b7 <handle_mm_fault+63>
-          and ends at 0x1000b1c3 <handle_mm_fault+75>.
-       (gdb) i line *0x1000b1d0
-       Line 131 of "/home/dike/linux/2.3.26/um/include/asm/pgalloc.h"
-          starts at address 0x1000b1d0 <handle_mm_fault+88>
-          and ends at 0x1000b1da <handle_mm_fault+98>.
-       (gdb) i line *0x1000b1e0
-       Line 61 of "/home/dike/linux/2.3.26/um/include/asm/pgalloc.h"
-          starts at address 0x1000b1da <handle_mm_fault+98>
-          and ends at 0x1000b1e1 <handle_mm_fault+105>.
-       (gdb) i line *0x1000b1f0
-       Line 134 of "/home/dike/linux/2.3.26/um/include/asm/pgalloc.h"
-          starts at address 0x1000b1f0 <handle_mm_fault+120>
-          and ends at 0x1000b200 <handle_mm_fault+136>.
-       (gdb) i line *0x1000b200
-       Line 135 of "/home/dike/linux/2.3.26/um/include/asm/pgalloc.h"
-          starts at address 0x1000b200 <handle_mm_fault+136>
-          and ends at 0x1000b208 <handle_mm_fault+144>.
-       (gdb) i line *0x1000b210
-       Line 139 of "/home/dike/linux/2.3.26/um/include/asm/pgalloc.h"
-          starts at address 0x1000b210 <handle_mm_fault+152>
-          and ends at 0x1000b219 <handle_mm_fault+161>.
-       (gdb) i line *0x1000b220
-       Line 1168 of "memory.c" starts at address 0x1000b21e <handle_mm_fault+166>
-          and ends at 0x1000b222 <handle_mm_fault+170>.
-
-
-
-
-
-  Something is apparently wrong with the page tables or vma_structs, so
-  lets go back to frame 11 and have a look at them::
-
-
-
-    #11 0x1006c0aa in segv (address=1342179328, is_write=2) at trap_kern.c:50
-    50        handle_mm_fault(current, vma, address, is_write);
-    (gdb) call pgd_offset_proc(vma->vm_mm, address)
-    $22 = (pgd_t *) 0x80a548c
-
-
-
-
-
-  That's pretty bogus.  Page tables aren't supposed to be in process
-  text or data areas.  Let's see what's in the vma::
-
-
-       (gdb) p *vma
-       $23 = {vm_mm = 0x507d2434, vm_start = 0, vm_end = 134512640,
-         vm_next = 0x80a4f8c, vm_page_prot = {pgprot = 0}, vm_flags = 31200,
-         vm_avl_height = 2058, vm_avl_left = 0x80a8c94, vm_avl_right = 0x80d1000,
-         vm_next_share = 0xaffffdb0, vm_pprev_share = 0xaffffe63,
-         vm_ops = 0xaffffe7a, vm_pgoff = 2952789626, vm_file = 0xafffffec,
-         vm_private_data = 0x62}
-       (gdb) p *vma.vm_mm
-       $24 = {mmap = 0x507d2434, mmap_avl = 0x0, mmap_cache = 0x8048000,
-         pgd = 0x80a4f8c, mm_users = {counter = 0}, mm_count = {counter = 134904288},
-         map_count = 134909076, mmap_sem = {count = {counter = 135073792},
-           sleepers = -1342177872, wait = {lock = <optimized out or zero length>,
-             task_list = {next = 0xaffffe63, prev = 0xaffffe7a},
-             __magic = -1342177670, __creator = -1342177300}, __magic = 98},
-         page_table_lock = {}, context = 138, start_code = 0, end_code = 0,
-         start_data = 0, end_data = 0, start_brk = 0, brk = 0, start_stack = 0,
-         arg_start = 0, arg_end = 0, env_start = 0, env_end = 0, rss = 1350381536,
-         total_vm = 0, locked_vm = 0, def_flags = 0, cpu_vm_mask = 0, swap_cnt = 0,
-         swap_address = 0, segments = 0x0}
-
-
-
-  This also pretty bogus.  With all of the 0x80xxxxx and 0xaffffxxx
-  addresses, this is looking like a stack was plonked down on top of
-  these structures.  Maybe it's a stack overflow from the next page::
-
-
-       (gdb) p vma
-       $25 = (struct vm_area_struct *) 0x507d2434
-
-
-
-  That's towards the lower quarter of the page, so that would have to
-  have been pretty heavy stack overflow::
-
-
-    (gdb) x/100x $25
-    0x507d2434:     0x507d2434      0x00000000      0x08048000      0x080a4f8c
-    0x507d2444:     0x00000000      0x080a79e0      0x080a8c94      0x080d1000
-    0x507d2454:     0xaffffdb0      0xaffffe63      0xaffffe7a      0xaffffe7a
-    0x507d2464:     0xafffffec      0x00000062      0x0000008a      0x00000000
-    0x507d2474:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d2484:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d2494:     0x00000000      0x00000000      0x507d2fe0      0x00000000
-    0x507d24a4:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d24b4:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d24c4:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d24d4:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d24e4:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d24f4:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d2504:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d2514:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d2524:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d2534:     0x00000000      0x00000000      0x507d25dc      0x00000000
-    0x507d2544:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d2554:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d2564:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d2574:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d2584:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d2594:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d25a4:     0x00000000      0x00000000      0x00000000      0x00000000
-    0x507d25b4:     0x00000000      0x00000000      0x00000000      0x00000000
-
-
-
-  It's not stack overflow.  The only "stack-like" piece of this data is
-  the vma_struct itself.
-
-
-  At this point, I don't see any avenues to pursue, so I just have to
-  admit that I have no idea what's going on.  What I will do, though, is
-  stick a trap on the segfault handler which will stop if it sees any
-  writes to the idle thread's stack.  That was the thing that happened
-  first, and it may be that if I can catch it immediately, what's going
-  on will be somewhat clearer.
-
-
-12.2.  Episode 2: The case of the hung fsck
--------------------------------------------
-
-  After setting a trap in the SEGV handler for accesses to the signal
-  thread's stack, I reran the kernel.
-
-
-  fsck hung again, this time by hitting the trap::
-
-
-
-    Setting hostname uml                            [ OK ]
-    Checking root filesystem
-    /dev/fhd0 contains a file system with errors, check forced.
-    Error reading block 86894 (Attempt to read block from filesystem resulted in short read) while reading indirect blocks of inode 19780.
-
-    /dev/fhd0: UNEXPECTED INCONSISTENCY; RUN fsck MANUALLY.
-           (i.e., without -a or -p options)
-    [ FAILED ]
-
-    *** An error occurred during the file system check.
-    *** Dropping you to a shell; the system will reboot
-    *** when you leave the shell.
-    Give root password for maintenance
-    (or type Control-D for normal startup):
-
-    [root@uml /root]# fsck -y /dev/fhd0
-    fsck -y /dev/fhd0
-    Parallelizing fsck version 1.14 (9-Jan-1999)
-    e2fsck 1.14, 9-Jan-1999 for EXT2 FS 0.5b, 95/08/09
-    /dev/fhd0 contains a file system with errors, check forced.
-    Pass 1: Checking inodes, blocks, and sizes
-    Error reading block 86894 (Attempt to read block from filesystem resulted in short read) while reading indirect blocks of inode 19780.  Ignore error? yes
-
-    Pass 2: Checking directory structure
-    Error reading block 49405 (Attempt to read block from filesystem resulted in short read).  Ignore error? yes
-
-    Directory inode 11858, block 0, offset 0: directory corrupted
-    Salvage? yes
-
-    Missing '.' in directory inode 11858.
-    Fix? yes
-
-    Missing '..' in directory inode 11858.
-    Fix? yes
-
-    Untested (4127) [100fe44c]: trap_kern.c line 31
-
-
-
-
-
-  I need to get the signal thread to detach from pid 4127 so that I can
-  attach to it with gdb.  This is done by sending it a SIGUSR1, which is
-  caught by the signal thread, which detaches the process::
-
-
-       kill -USR1 4127
-
-
-
-
-
-  Now I can run gdb on it::
-
-
-    ~/linux/2.3.26/um 1034: gdb linux
-    GNU gdb 4.17.0.11 with Linux support
-    Copyright 1998 Free Software Foundation, Inc.
-    GDB is free software, covered by the GNU General Public License, and you are
-    welcome to change it and/or distribute copies of it under certain conditions.
-    Type "show copying" to see the conditions.
-    There is absolutely no warranty for GDB.  Type "show warranty" for details.
-    This GDB was configured as "i386-redhat-linux"...
-    (gdb) att 4127
-    Attaching to program `/home/dike/linux/2.3.26/um/linux', Pid 4127
-    0x10075891 in __libc_nanosleep ()
-
-
-
-
-
-  The backtrace shows that it was in a write and that the fault address
-  (address in frame 3) is 0x50000800, which is right in the middle of
-  the signal thread's stack page::
-
-
-       (gdb) bt
-       #0  0x10075891 in __libc_nanosleep ()
-       #1  0x1007584d in __sleep (seconds=1000000)
-           at ../sysdeps/unix/sysv/linux/sleep.c:78
-       #2  0x1006ce9a in stop () at user_util.c:191
-       #3  0x1006bf88 in segv (address=1342179328, is_write=2) at trap_kern.c:31
-       #4  0x1006c628 in segv_handler (sc=0x5006eaf8) at trap_user.c:174
-       #5  0x1006c63c in kern_segv_handler (sig=11) at trap_user.c:182
-       #6  <signal handler called>
-       #7  0xc0fd in ?? ()
-       #8  0x10016647 in sys_write (fd=3, buf=0x80b8800 "R.", count=1024)
-           at read_write.c:159
-       #9  0x1006d603 in execute_syscall (syscall=4, args=0x5006ef08)
-           at syscall_kern.c:254
-       #10 0x1006af87 in really_do_syscall (sig=12) at syscall_user.c:35
-       #11 <signal handler called>
-       #12 0x400dc8b0 in ?? ()
-       #13 <signal handler called>
-       #14 0x400dc8b0 in ?? ()
-       #15 0x80545fd in ?? ()
-       #16 0x804daae in ?? ()
-       #17 0x8054334 in ?? ()
-       #18 0x804d23e in ?? ()
-       #19 0x8049632 in ?? ()
-       #20 0x80491d2 in ?? ()
-       #21 0x80596b5 in ?? ()
-       (gdb) p (void *)1342179328
-       $3 = (void *) 0x50000800
-
-
-
-  Going up the stack to the segv_handler frame and looking at where in
-  the code the access happened shows that it happened near line 110 of
-  block_dev.c::
-
-
-
-    (gdb) up
-    #1  0x1007584d in __sleep (seconds=1000000)
-       at ../sysdeps/unix/sysv/linux/sleep.c:78
-    ../sysdeps/unix/sysv/linux/sleep.c:78: No such file or directory.
-    (gdb)
-    #2  0x1006ce9a in stop () at user_util.c:191
-    191       while(1) sleep(1000000);
-    (gdb)
-    #3  0x1006bf88 in segv (address=1342179328, is_write=2) at trap_kern.c:31
-    31          KERN_UNTESTED();
-    (gdb)
-    #4  0x1006c628 in segv_handler (sc=0x5006eaf8) at trap_user.c:174
-    174       segv(sc->cr2, sc->err & 2);
-    (gdb) p *sc
-    $1 = {gs = 0, __gsh = 0, fs = 0, __fsh = 0, es = 43, __esh = 0, ds = 43,
-       __dsh = 0, edi = 1342179328, esi = 134973440, ebp = 1342631484,
-       esp = 1342630864, ebx = 256, edx = 0, ecx = 256, eax = 1024, trapno = 14,
-       err = 6, eip = 268550834, cs = 35, __csh = 0, eflags = 66070,
-       esp_at_signal = 1342630864, ss = 43, __ssh = 0, fpstate = 0x0, oldmask = 0,
-       cr2 = 1342179328}
-    (gdb) p (void *)268550834
-    $2 = (void *) 0x1001c2b2
-    (gdb) i sym $2
-    block_write + 1090 in section .text
-    (gdb) i line *$2
-    Line 209 of "/home/dike/linux/2.3.26/um/include/asm/arch/string.h"
-       starts at address 0x1001c2a1 <block_write+1073>
-       and ends at 0x1001c2bf <block_write+1103>.
-    (gdb) i line *0x1001c2c0
-    Line 110 of "block_dev.c" starts at address 0x1001c2bf <block_write+1103>
-       and ends at 0x1001c2e3 <block_write+1139>.
-
-
-
-  Looking at the source shows that the fault happened during a call to
-  copy_from_user to copy the data into the kernel::
-
-
-       107             count -= chars;
-       108             copy_from_user(p,buf,chars);
-       109             p += chars;
-       110             buf += chars;
-
-
-
-  p is the pointer which must contain 0x50000800, since buf contains
-  0x80b8800 (frame 8 above).  It is defined as::
-
-
-                       p = offset + bh->b_data;
-
-
-
-
-
-  I need to figure out what bh is, and it just so happens that bh is
-  passed as an argument to mark_buffer_uptodate and mark_buffer_dirty a
-  few lines later, so I do a little disassembly::
-
-
-    (gdb) disas 0x1001c2bf 0x1001c2e0
-    Dump of assembler code from 0x1001c2bf to 0x1001c2d0:
-    0x1001c2bf <block_write+1103>:  addl   %eax,0xc(%ebp)
-    0x1001c2c2 <block_write+1106>:  movl   0xfffffdd4(%ebp),%edx
-    0x1001c2c8 <block_write+1112>:  btsl   $0x0,0x18(%edx)
-    0x1001c2cd <block_write+1117>:  btsl   $0x1,0x18(%edx)
-    0x1001c2d2 <block_write+1122>:  sbbl   %ecx,%ecx
-    0x1001c2d4 <block_write+1124>:  testl  %ecx,%ecx
-    0x1001c2d6 <block_write+1126>:  jne    0x1001c2e3 <block_write+1139>
-    0x1001c2d8 <block_write+1128>:  pushl  $0x0
-    0x1001c2da <block_write+1130>:  pushl  %edx
-    0x1001c2db <block_write+1131>:  call   0x1001819c <__mark_buffer_dirty>
-    End of assembler dump.
-
-
-
-
-
-  At that point, bh is in %edx (address 0x1001c2da), which is calculated
-  at 0x1001c2c2 as %ebp + 0xfffffdd4, so I figure exactly what that is,
-  taking %ebp from the sigcontext_struct above::
-
-
-       (gdb) p (void *)1342631484
-       $5 = (void *) 0x5006ee3c
-       (gdb) p 0x5006ee3c+0xfffffdd4
-       $6 = 1342630928
-       (gdb) p (void *)$6
-       $7 = (void *) 0x5006ec10
-       (gdb) p *((void **)$7)
-       $8 = (void *) 0x50100200
-
-
-
-
-
-  Now, I look at the structure to see what's in it, and particularly,
-  what its b_data field contains::
-
-
-       (gdb) p *((struct buffer_head *)0x50100200)
-       $13 = {b_next = 0x50289380, b_blocknr = 49405, b_size = 1024, b_list = 0,
-         b_dev = 15872, b_count = {counter = 1}, b_rdev = 15872, b_state = 24,
-         b_flushtime = 0, b_next_free = 0x501001a0, b_prev_free = 0x50100260,
-         b_this_page = 0x501001a0, b_reqnext = 0x0, b_pprev = 0x507fcf58,
-         b_data = 0x50000800 "", b_page = 0x50004000,
-         b_end_io = 0x10017f60 <end_buffer_io_sync>, b_dev_id = 0x0,
-         b_rsector = 98810, b_wait = {lock = <optimized out or zero length>,
-           task_list = {next = 0x50100248, prev = 0x50100248}, __magic = 1343226448,
-           __creator = 0}, b_kiobuf = 0x0}
-
-
-
-
-
-  The b_data field is indeed 0x50000800, so the question becomes how
-  that happened.  The rest of the structure looks fine, so this probably
-  is not a case of data corruption.  It happened on purpose somehow.
-
-
-  The b_page field is a pointer to the page_struct representing the
-  0x50000000 page.  Looking at it shows the kernel's idea of the state
-  of that page::
-
-
-
-    (gdb) p *$13.b_page
-    $17 = {list = {next = 0x50004a5c, prev = 0x100c5174}, mapping = 0x0,
-       index = 0, next_hash = 0x0, count = {counter = 1}, flags = 132, lru = {
-       next = 0x50008460, prev = 0x50019350}, wait = {
-       lock = <optimized out or zero length>, task_list = {next = 0x50004024,
-           prev = 0x50004024}, __magic = 1342193708, __creator = 0},
-       pprev_hash = 0x0, buffers = 0x501002c0, virtual = 1342177280,
-       zone = 0x100c5160}
-
-
-
-
-
-  Some sanity-checking: the virtual field shows the "virtual" address of
-  this page, which in this kernel is the same as its "physical" address,
-  and the page_struct itself should be mem_map[0], since it represents
-  the first page of memory::
-
-
-
-       (gdb) p (void *)1342177280
-       $18 = (void *) 0x50000000
-       (gdb) p mem_map
-       $19 = (mem_map_t *) 0x50004000
-
-
-
-
-
-  These check out fine.
-
-
-  Now to check out the page_struct itself.  In particular, the flags
-  field shows whether the page is considered free or not::
-
-
-       (gdb) p (void *)132
-       $21 = (void *) 0x84
-
-
-
-
-
-  The "reserved" bit is the high bit, which is definitely not set, so
-  the kernel considers the signal stack page to be free and available to
-  be used.
-
-
-  At this point, I jump to conclusions and start looking at my early
-  boot code, because that's where that page is supposed to be reserved.
-
-
-  In my setup_arch procedure, I have the following code which looks just
-  fine::
-
-
-
-       bootmap_size = init_bootmem(start_pfn, end_pfn - start_pfn);
-       free_bootmem(__pa(low_physmem) + bootmap_size, high_physmem - low_physmem);
-
-
-
-
-
-  Two stack pages have already been allocated, and low_physmem points to
-  the third page, which is the beginning of free memory.
-  The init_bootmem call declares the entire memory to the boot memory
-  manager, which marks it all reserved.  The free_bootmem call frees up
-  all of it, except for the first two pages.  This looks correct to me.
-
-
-  So, I decide to see init_bootmem run and make sure that it is marking
-  those first two pages as reserved.  I never get that far.
-
-
-  Stepping into init_bootmem, and looking at bootmem_map before looking
-  at what it contains shows the following::
-
-
-
-       (gdb) p bootmem_map
-       $3 = (void *) 0x50000000
-
-
-
-
-
-  Aha!  The light dawns.  That first page is doing double duty as a
-  stack and as the boot memory map.  The last thing that the boot memory
-  manager does is to free the pages used by its memory map, so this page
-  is getting freed even its marked as reserved.
-
-
-  The fix was to initialize the boot memory manager before allocating
-  those two stack pages, and then allocate them through the boot memory
-  manager.  After doing this, and fixing a couple of subsequent buglets,
-  the stack corruption problem disappeared.
-
-
-
-
-
-13.  What to do when UML doesn't work
-=====================================
-
-
-
-
-13.1.  Strange compilation errors when you build from source
-------------------------------------------------------------
-
-  As of test11, it is necessary to have "ARCH=um" in the environment or
-  on the make command line for all steps in building UML, including
-  clean, distclean, or mrproper, config, menuconfig, or xconfig, dep,
-  and linux.  If you forget for any of them, the i386 build seems to
-  contaminate the UML build.  If this happens, start from scratch with::
-
-
-       host%
-       make mrproper ARCH=um
-
-
-
-
-  and repeat the build process with ARCH=um on all the steps.
-
-
-  See :ref:`Compiling_the_kernel_and_modules`  for more details.
-
-
-  Another cause of strange compilation errors is building UML in
-  /usr/src/linux.  If you do this, the first thing you need to do is
-  clean up the mess you made.  The /usr/src/linux/asm link will now
-  point to /usr/src/linux/asm-um.  Make it point back to
-  /usr/src/linux/asm-i386.  Then, move your UML pool someplace else and
-  build it there.  Also see below, where a more specific set of symptoms
-  is described.
-
-
-
-13.3.  A variety of panics and hangs with /tmp on a reiserfs filesystem
------------------------------------------------------------------------
-
-  I saw this on reiserfs 3.5.21 and it seems to be fixed in 3.5.27.
-  Panics preceded by::
-
-
-       Detaching pid nnnn
-
-
-
-  are diagnostic of this problem.  This is a reiserfs bug which causes a
-  thread to occasionally read stale data from a mmapped page shared with
-  another thread.  The fix is to upgrade the filesystem or to have /tmp
-  be an ext2 filesystem.
-
-
-
-  13.4.  The compile fails with errors about conflicting types for
-  'open', 'dup', and 'waitpid'
-
-  This happens when you build in /usr/src/linux.  The UML build makes
-  the include/asm link point to include/asm-um.  /usr/include/asm points
-  to /usr/src/linux/include/asm, so when that link gets moved, files
-  which need to include the asm-i386 versions of headers get the
-  incompatible asm-um versions.  The fix is to move the include/asm link
-  back to include/asm-i386 and to do UML builds someplace else.
-
-
-
-13.5.  UML doesn't work when /tmp is an NFS filesystem
-------------------------------------------------------
-
-  This seems to be a similar situation with the ReiserFS problem above.
-  Some versions of NFS seems not to handle mmap correctly, which UML
-  depends on.  The workaround is have /tmp be a non-NFS directory.
-
-
-13.6.  UML hangs on boot when compiled with gprof support
----------------------------------------------------------
-
-  If you build UML with gprof support and, early in the boot, it does
-  this::
-
-
-       kernel BUG at page_alloc.c:100!
-
-
-
-
-  you have a buggy gcc.  You can work around the problem by removing
-  UM_FASTCALL from CFLAGS in arch/um/Makefile-i386.  This will open up
-  another bug, but that one is fairly hard to reproduce.
-
-
-
-13.7.  syslogd dies with a SIGTERM on startup
----------------------------------------------
-
-  The exact boot error depends on the distribution that you're booting,
-  but Debian produces this::
-
-
-       /etc/rc2.d/S10sysklogd: line 49:    93 Terminated
-       start-stop-daemon --start --quiet --exec /sbin/syslogd -- $SYSLOGD
-
-
-
-
-  This is a syslogd bug.  There's a race between a parent process
-  installing a signal handler and its child sending the signal.
-
-
-
-13.8.  TUN/TAP networking doesn't work on a 2.4 host
-----------------------------------------------------
-
-  There are a couple of problems which were reported by
-  Tim Robinson <timro at trkr dot net>
-
-  -  It doesn't work on hosts running 2.4.7 (or thereabouts) or earlier.
-     The fix is to upgrade to something more recent and then read the
-     next item.
-
-  -  If you see::
-
-
-       File descriptor in bad state
-
-
-
-  when you bring up the device inside UML, you have a header mismatch
-  between the original kernel and the upgraded one.  Make /usr/src/linux
-  point at the new headers.  This will only be a problem if you build
-  uml_net yourself.
-
-
-
-13.9.  You can network to the host but not to other machines on the net
-=======================================================================
-
-  If you can connect to the host, and the host can connect to UML, but
-  you cannot connect to any other machines, then you may need to enable
-  IP Masquerading on the host.  Usually this is only experienced when
-  using private IP addresses (192.168.x.x or 10.x.x.x) for host/UML
-  networking, rather than the public address space that your host is
-  connected to.  UML does not enable IP Masquerading, so you will need
-  to create a static rule to enable it::
-
-
-       host%
-       iptables -t nat -A POSTROUTING -o eth0 -j MASQUERADE
-
-
-
-
-  Replace eth0 with the interface that you use to talk to the rest of
-  the world.
-
-
-  Documentation on IP Masquerading, and SNAT, can be found at
-  http://www.netfilter.org.
-
-
-  If you can reach the local net, but not the outside Internet, then
-  that is usually a routing problem.  The UML needs a default route::
-
-
-       UML#
-       route add default gw gateway IP
-
-
-
-
-  The gateway IP can be any machine on the local net that knows how to
-  reach the outside world.  Usually, this is the host or the local net-
-  work's gateway.
-
-
-  Occasionally, we hear from someone who can reach some machines, but
-  not others on the same net, or who can reach some ports on other
-  machines, but not others.  These are usually caused by strange
-  firewalling somewhere between the UML and the other box.  You track
-  this down by running tcpdump on every interface the packets travel
-  over and see where they disappear.  When you find a machine that takes
-  the packets in, but does not send them onward, that's the culprit.
-
-
-
-13.10.  I have no root and I want to scream
-===========================================
-
-  Thanks to Birgit Wahlich for telling me about this strange one.  It
-  turns out that there's a limit of six environment variables on the
-  kernel command line.  When that limit is reached or exceeded, argument
-  processing stops, which means that the 'root=' argument that UML
-  usually adds is not seen.  So, the filesystem has no idea what the
-  root device is, so it panics.
-
-
-  The fix is to put less stuff on the command line.  Glomming all your
-  setup variables into one is probably the best way to go.
-
-
-
-13.11.  UML build conflict between ptrace.h and ucontext.h
-==========================================================
-
-  On some older systems, /usr/include/asm/ptrace.h and
-  /usr/include/sys/ucontext.h define the same names.  So, when they're
-  included together, the defines from one completely mess up the parsing
-  of the other, producing errors like::
-
-       /usr/include/sys/ucontext.h:47: parse error before
-       `10`
-
-
-
-
-  plus a pile of warnings.
-
-
-  This is a libc botch, which has since been fixed, and I don't see any
-  way around it besides upgrading.
-
-
-
-13.12.  The UML BogoMips is exactly half the host's BogoMips
-------------------------------------------------------------
-
-  On i386 kernels, there are two ways of running the loop that is used
-  to calculate the BogoMips rating, using the TSC if it's there or using
-  a one-instruction loop.  The TSC produces twice the BogoMips as the
-  loop.  UML uses the loop, since it has nothing resembling a TSC, and
-  will get almost exactly the same BogoMips as a host using the loop.
-  However, on a host with a TSC, its BogoMips will be double the loop
-  BogoMips, and therefore double the UML BogoMips.
-
-
-
-13.13.  When you run UML, it immediately segfaults
---------------------------------------------------
-
-  If the host is configured with the 2G/2G address space split, that's
-  why.  See ref:`UML_on_2G/2G_hosts`  for the details on getting UML to
-  run on your host.
-
-
-
-13.14.  xterms appear, then immediately disappear
--------------------------------------------------
-
-  If you're running an up to date kernel with an old release of
-  uml_utilities, the port-helper program will not work properly, so
-  xterms will exit straight after they appear. The solution is to
-  upgrade to the latest release of uml_utilities.  Usually this problem
-  occurs when you have installed a packaged release of UML then compiled
-  your own development kernel without upgrading the uml_utilities from
-  the source distribution.
-
-
-
-13.15.  Any other panic, hang, or strange behavior
---------------------------------------------------
-
-  If you're seeing truly strange behavior, such as hangs or panics that
-  happen in random places, or you try running the debugger to see what's
-  happening and it acts strangely, then it could be a problem in the
-  host kernel.  If you're not running a stock Linus or -ac kernel, then
-  try that.  An early version of the preemption patch and a 2.4.10 SuSE
-  kernel have caused very strange problems in UML.
-
-
-  Otherwise, let me know about it.  Send a message to one of the UML
-  mailing lists - either the developer list - user-mode-linux-devel at
-  lists dot sourceforge dot net (subscription info) or the user list -
-  user-mode-linux-user at lists dot sourceforge do net (subscription
-  info), whichever you prefer.  Don't assume that everyone knows about
-  it and that a fix is imminent.
-
-
-  If you want to be super-helpful, read :ref:`Diagnosing_Problems` and
-  follow the instructions contained therein.
-
-.. _Diagnosing_Problems:
-
-14.  Diagnosing Problems
-========================
-
-
-  If you get UML to crash, hang, or otherwise misbehave, you should
-  report this on one of the project mailing lists, either the developer
-  list - user-mode-linux-devel at lists dot sourceforge dot net
-  (subscription info) or the user list - user-mode-linux-user at lists
-  dot sourceforge dot net (subscription info).  When you do, it is
-  likely that I will want more information.  So, it would be helpful to
-  read the stuff below, do whatever is applicable in your case, and
-  report the results to the list.
-
-
-  For any diagnosis, you're going to need to build a debugging kernel.
-  The binaries from this site aren't debuggable.  If you haven't done
-  this before, read about :ref:`Compiling_the_kernel_and_modules`  and
-  :ref:`Kernel_debugging` UML first.
-
-
-14.1.  Case 1 : Normal kernel panics
-------------------------------------
-
-  The most common case is for a normal thread to panic.  To debug this,
-  you will need to run it under the debugger (add 'debug' to the command
-  line).  An xterm will start up with gdb running inside it.  Continue
-  it when it stops in start_kernel and make it crash.  Now ``^C gdb`` and
-
-
-  If the panic was a "Kernel mode fault", then there will be a segv
-  frame on the stack and I'm going to want some more information.  The
-  stack might look something like this::
-
-
-       (UML gdb)  backtrace
-       #0  0x1009bf76 in __sigprocmask (how=1, set=0x5f347940, oset=0x0)
-           at ../sysdeps/unix/sysv/linux/sigprocmask.c:49
-       #1  0x10091411 in change_sig (signal=10, on=1) at process.c:218
-       #2  0x10094785 in timer_handler (sig=26) at time_kern.c:32
-       #3  0x1009bf38 in __restore ()
-           at ../sysdeps/unix/sysv/linux/i386/sigaction.c:125
-       #4  0x1009534c in segv (address=8, ip=268849158, is_write=2, is_user=0)
-           at trap_kern.c:66
-       #5  0x10095c04 in segv_handler (sig=11) at trap_user.c:285
-       #6  0x1009bf38 in __restore ()
-
-
-
-
-  I'm going to want to see the symbol and line information for the value
-  of ip in the segv frame.  In this case, you would do the following::
-
-
-       (UML gdb)  i sym 268849158
-
-
-
-
-  and::
-
-
-       (UML gdb)  i line *268849158
-
-
-
-
-  The reason for this is the __restore frame right above the segv_han-
-  dler frame is hiding the frame that actually segfaulted.  So, I have
-  to get that information from the faulting ip.
-
-
-14.2.  Case 2 : Tracing thread panics
--------------------------------------
-
-  The less common and more painful case is when the tracing thread
-  panics.  In this case, the kernel debugger will be useless because it
-  needs a healthy tracing thread in order to work.  The first thing to
-  do is get a backtrace from the tracing thread.  This is done by
-  figuring out what its pid is, firing up gdb, and attaching it to that
-  pid.  You can figure out the tracing thread pid by looking at the
-  first line of the console output, which will look like this::
-
-
-       tracing thread pid = 15851
-
-
-
-
-  or by running ps on the host and finding the line that looks like
-  this::
-
-
-       jdike 15851 4.5 0.4 132568 1104 pts/0 S 21:34 0:05 ./linux [(tracing thread)]
-
-
-
-
-  If the panic was 'segfault in signals', then follow the instructions
-  above for collecting information about the location of the seg fault.
-
-
-  If the tracing thread flaked out all by itself, then send that
-  backtrace in and wait for our crack debugging team to fix the problem.
-
-
-  14.3.  Case 3 : Tracing thread panics caused by other threads
-
-  However, there are cases where the misbehavior of another thread
-  caused the problem.  The most common panic of this type is::
-
-
-       wait_for_stop failed to wait for  <pid>  to stop with  <signal number>
-
-
-
-
-  In this case, you'll need to get a backtrace from the process men-
-  tioned in the panic, which is complicated by the fact that the kernel
-  debugger is defunct and without some fancy footwork, another gdb can't
-  attach to it.  So, this is how the fancy footwork goes:
-
-  In a shell::
-
-
-       host% kill -STOP pid
-
-
-
-
-  Run gdb on the tracing thread as described in case 2 and do::
-
-
-       (host gdb)  call detach(pid)
-
-
-  If you get a segfault, do it again.  It always works the second time.
-
-  Detach from the tracing thread and attach to that other thread::
-
-
-       (host gdb)  detach
-
-
-
-
-
-
-       (host gdb)  attach pid
-
-
-
-
-  If gdb hangs when attaching to that process, go back to a shell and
-  do::
-
-
-       host%
-       kill -CONT pid
-
-
-
-
-  And then get the backtrace::
-
-
-       (host gdb)  backtrace
-
-
-
-
-
-14.4.  Case 4 : Hangs
----------------------
-
-  Hangs seem to be fairly rare, but they sometimes happen.  When a hang
-  happens, we need a backtrace from the offending process.  Run the
-  kernel debugger as described in case 1 and get a backtrace.  If the
-  current process is not the idle thread, then send in the backtrace.
-  You can tell that it's the idle thread if the stack looks like this::
-
-
-       #0  0x100b1401 in __libc_nanosleep ()
-       #1  0x100a2885 in idle_sleep (secs=10) at time.c:122
-       #2  0x100a546f in do_idle () at process_kern.c:445
-       #3  0x100a5508 in cpu_idle () at process_kern.c:471
-       #4  0x100ec18f in start_kernel () at init/main.c:592
-       #5  0x100a3e10 in start_kernel_proc (unused=0x0) at um_arch.c:71
-       #6  0x100a383f in signal_tramp (arg=0x100a3dd8) at trap_user.c:50
-
-
-
-
-  If this is the case, then some other process is at fault, and went to
-  sleep when it shouldn't have.  Run ps on the host and figure out which
-  process should not have gone to sleep and stayed asleep.  Then attach
-  to it with gdb and get a backtrace as described in case 3.
-
-
-
-
-
-
-15.  Thanks
-===========
-
-
-  A number of people have helped this project in various ways, and this
-  page gives recognition where recognition is due.
-
-
-  If you're listed here and you would prefer a real link on your name,
-  or no link at all, instead of the despammed email address pseudo-link,
-  let me know.
-
-
-  If you're not listed here and you think maybe you should be, please
-  let me know that as well.  I try to get everyone, but sometimes my
-  bookkeeping lapses and I forget about contributions.
-
-
-15.1.  Code and Documentation
------------------------------
-
-  Rusty Russell <rusty at linuxcare.com.au>  -
-
-  -  wrote the  HOWTO
-     http://user-mode-linux.sourceforge.net/old/UserModeLinux-HOWTO.html
-
-  -  prodded me into making this project official and putting it on
-     SourceForge
-
-  -  came up with the way cool UML logo
-     http://user-mode-linux.sourceforge.net/uml-small.png
-
-  -  redid the config process
-
-
-  Peter Moulder <reiter at netspace.net.au>  - Fixed my config and build
-  processes, and added some useful code to the block driver
-
-
-  Bill Stearns <wstearns at pobox.com>  -
-
-  -  HOWTO updates
-
-  -  lots of bug reports
-
-  -  lots of testing
-
-  -  dedicated a box (uml.ists.dartmouth.edu) to support UML development
-
-  -  wrote the mkrootfs script, which allows bootable filesystems of
-     RPM-based distributions to be cranked out
-
-  -  cranked out a large number of filesystems with said script
-
-
-  Jim Leu <jleu at mindspring.com>  - Wrote the virtual ethernet driver
-  and associated usermode tools
-
-  Lars Brinkhoff http://lars.nocrew.org/  - Contributed the ptrace
-  proxy from his own  project to allow easier kernel debugging
-
-
-  Andrea Arcangeli <andrea at suse.de>  - Redid some of the early boot
-  code so that it would work on machines with Large File Support
-
-
-  Chris Emerson - Did the first UML port to Linux/ppc
-
-
-  Harald Welte <laforge at gnumonks.org>  - Wrote the multicast
-  transport for the network driver
-
-
-  Jorgen Cederlof - Added special file support to hostfs
-
-
-  Greg Lonnon  <glonnon at ridgerun dot com>  - Changed the ubd driver
-  to allow it to layer a COW file on a shared read-only filesystem and
-  wrote the iomem emulation support
-
-
-  Henrik Nordstrom http://hem.passagen.se/hno/  - Provided a variety
-  of patches, fixes, and clues
-
-
-  Lennert Buytenhek - Contributed various patches, a rewrite of the
-  network driver, the first implementation of the mconsole driver, and
-  did the bulk of the work needed to get SMP working again.
-
-
-  Yon Uriarte - Fixed the TUN/TAP network backend while I slept.
-
-
-  Adam Heath - Made a bunch of nice cleanups to the initialization code,
-  plus various other small patches.
-
-
-  Matt Zimmerman - Matt volunteered to be the UML Debian maintainer and
-  is doing a real nice job of it.  He also noticed and fixed a number of
-  actually and potentially exploitable security holes in uml_net.  Plus
-  the occasional patch.  I like patches.
-
-
-  James McMechan - James seems to have taken over maintenance of the ubd
-  driver and is doing a nice job of it.
-
-
-  Chandan Kudige - wrote the umlgdb script which automates the reloading
-  of module symbols.
-
-
-  Steve Schmidtke - wrote the UML slirp transport and hostaudio drivers,
-  enabling UML processes to access audio devices on the host. He also
-  submitted patches for the slip transport and lots of other things.
-
-
-  David Coulson http://davidcoulson.net  -
-
-  -  Set up the http://usermodelinux.org  site,
-     which is a great way of keeping the UML user community on top of
-     UML goings-on.
-
-  -  Site documentation and updates
-
-  -  Nifty little UML management daemon  UMLd
-
-  -  Lots of testing and bug reports
-
-
-
-
-15.2.  Flushing out bugs
-------------------------
-
-
-
-  -  Yuri Pudgorodsky
-
-  -  Gerald Britton
-
-  -  Ian Wehrman
-
-  -  Gord Lamb
-
-  -  Eugene Koontz
-
-  -  John H. Hartman
-
-  -  Anders Karlsson
-
-  -  Daniel Phillips
-
-  -  John Fremlin
-
-  -  Rainer Burgstaller
-
-  -  James Stevenson
-
-  -  Matt Clay
-
-  -  Cliff Jefferies
-
-  -  Geoff Hoff
-
-  -  Lennert Buytenhek
-
-  -  Al Viro
-
-  -  Frank Klingenhoefer
-
-  -  Livio Baldini Soares
-
-  -  Jon Burgess
-
-  -  Petru Paler
-
-  -  Paul
-
-  -  Chris Reahard
-
-  -  Sverker Nilsson
-
-  -  Gong Su
-
-  -  johan verrept
-
-  -  Bjorn Eriksson
-
-  -  Lorenzo Allegrucci
-
-  -  Muli Ben-Yehuda
-
-  -  David Mansfield
-
-  -  Howard Goff
-
-  -  Mike Anderson
-
-  -  John Byrne
-
-  -  Sapan J. Batia
-
-  -  Iris Huang
-
-  -  Jan Hudec
-
-  -  Voluspa
-
-
-
-
-15.3.  Buglets and clean-ups
-----------------------------
-
-
-
-  -  Dave Zarzycki
-
-  -  Adam Lazur
-
-  -  Boria Feigin
-
-  -  Brian J. Murrell
-
-  -  JS
-
-  -  Roman Zippel
-
-  -  Wil Cooley
-
-  -  Ayelet Shemesh
-
-  -  Will Dyson
-
-  -  Sverker Nilsson
-
-  -  dvorak
-
-  -  v.naga srinivas
-
-  -  Shlomi Fish
-
-  -  Roger Binns
-
-  -  johan verrept
-
-  -  MrChuoi
-
-  -  Peter Cleve
-
-  -  Vincent Guffens
-
-  -  Nathan Scott
-
-  -  Patrick Caulfield
-
-  -  jbearce
-
-  -  Catalin Marinas
-
-  -  Shane Spencer
-
-  -  Zou Min
-
-
-  -  Ryan Boder
-
-  -  Lorenzo Colitti
-
-  -  Gwendal Grignou
-
-  -  Andre' Breiler
-
-  -  Tsutomu Yasuda
-
-
-
-15.4.  Case Studies
--------------------
-
-
-  -  Jon Wright
-
-  -  William McEwan
-
-  -  Michael Richardson
-
-
-
-15.5.  Other contributions
---------------------------
-
-
-  Bill Carr <Bill.Carr at compaq.com>  made the Red Hat mkrootfs script
-  work with RH 6.2.
-
-  Michael Jennings <mikejen at hevanet.com>  sent in some material which
-  is now gracing the top of the  index  page
-  http://user-mode-linux.sourceforge.net/  of this site.
-
-  SGI (and more specifically Ralf Baechle <ralf at
-  uni-koblenz.de> ) gave me an account on oss.sgi.com.
-  The bandwidth there made it possible to
-  produce most of the filesystems available on the project download
-  page.
-
-  Laurent Bonnaud <Laurent.Bonnaud at inpg.fr>  took the old grotty
-  Debian filesystem that I've been distributing and updated it to 2.2.
-  It is now available by itself here.
-
-  Rik van Riel gave me some ftp space on ftp.nl.linux.org so I can make
-  releases even when Sourceforge is broken.
-
-  Rodrigo de Castro looked at my broken pte code and told me what was
-  wrong with it, letting me fix a long-standing (several weeks) and
-  serious set of bugs.
-
-  Chris Reahard built a specialized root filesystem for running a DNS
-  server jailed inside UML.  It's available from the download
-  http://user-mode-linux.sourceforge.net/old/dl-sf.html  page in the Jail
-  Filesystems section.
diff --git a/Documentation/virt/uml/user_mode_linux_howto_v2.rst b/Documentation/virt/uml/user_mode_linux_howto_v2.rst
new file mode 100644 (file)
index 0000000..f70e6f5
--- /dev/null
@@ -0,0 +1,1208 @@
+.. SPDX-License-Identifier: GPL-2.0
+
+#########
+UML HowTo
+#########
+
+.. contents:: :local:
+
+************
+Introduction
+************
+
+Welcome to User Mode Linux
+
+User Mode Linux is the first Open Source virtualization platform (first
+release date 1991) and second virtualization platform for an x86 PC.
+
+How is UML Different from a VM using Virtualization package X?
+==============================================================
+
+We have come to assume that virtualization also means some level of
+hardware emulation. In fact, it does not. As long as a virtualization
+package provides the OS with devices which the OS can recognize and
+has a driver for, the devices do not need to emulate real hardware.
+Most OSes today have built-in support for a number of "fake"
+devices used only under virtualization.
+User Mode Linux takes this concept to the ultimate extreme - there
+is not a single real device in sight. It is 100% artificial or if
+we use the correct term 100% paravirtual. All UML devices are abstract
+concepts which map onto something provided by the host - files, sockets,
+pipes, etc.
+
+The other major difference between UML and various virtualization
+packages is that there is a distinct difference between the way the UML
+kernel and the UML programs operate.
+The UML kernel is just a process running on Linux - same as any other
+program. It can be run by an unprivileged user and it does not require
+anything in terms of special CPU features.
+The UML userspace, however, is a bit different. The Linux kernel on the
+host machine assists UML in intercepting everything the program running
+on a UML instance is trying to do and making the UML kernel handle all
+of its requests.
+This is different from other virtualization packages which do not make any
+difference between the guest kernel and guest programs. This difference
+results in a number of advantages and disadvantages of UML over let's say
+QEMU which we will cover later in this document.
+
+
+Why Would I Want User Mode Linux?
+=================================
+
+
+* If User Mode Linux kernel crashes, your host kernel is still fine. It
+  is not accelerated in any way (vhost, kvm, etc) and it is not trying to
+  access any devices directly.  It is, in fact, a process like any other.
+
+* You can run a usermode kernel as a non-root user (you may need to
+  arrange appropriate permissions for some devices).
+
+* You can run a very small VM with a minimal footprint for a specific
+  task (for example 32M or less).
+
+* You can get extremely high performance for anything which is a "kernel
+  specific task" such as forwarding, firewalling, etc while still being
+  isolated from the host kernel.
+
+* You can play with kernel concepts without breaking things.
+
+* You are not bound by "emulating" hardware, so you can try weird and
+  wonderful concepts which are very difficult to support when emulating
+  real hardware such as time travel and making your system clock
+  dependent on what UML does (very useful for things like tests).
+
+* It's fun.
+
+Why not to run UML
+==================
+
+* The syscall interception technique used by UML makes it inherently
+  slower for any userspace applications. While it can do kernel tasks
+  on par with most other virtualization packages, its userspace is
+  **slow**. The root cause is that UML has a very high cost of creating
+  new processes and threads (something most Unix/Linux applications
+  take for granted).
+
+* UML is strictly uniprocessor at present. If you want to run an
+  application which needs many CPUs to function, it is clearly the
+  wrong choice.
+
+***********************
+Building a UML instance
+***********************
+
+There is no UML installer in any distribution. While you can use off
+the shelf install media to install into a blank VM using a virtualization
+package, there is no UML equivalent. You have to use appropriate tools on
+your host to build a viable filesystem image.
+
+This is extremely easy on Debian - you can do it using debootstrap. It is
+also easy on OpenWRT - the build process can build UML images. All other
+distros - YMMV.
+
+Creating an image
+=================
+
+Create a sparse raw disk image::
+
+   # dd if=/dev/zero of=disk_image_name bs=1 count=1 seek=16G
+
+This will create a 16G disk image. The OS will initially allocate only one
+block and will allocate more as they are written by UML. As of kernel
+version 4.19 UML fully supports TRIM (as usually used by flash drives).
+Using TRIM inside the UML image by specifying discard as a mount option
+or by running ``tune2fs -o discard /dev/ubdXX`` will request UML to
+return any unused blocks to the OS.
+
+Create a filesystem on the disk image and mount it::
+
+   # mkfs.ext4 ./disk_image_name && mount ./disk_image_name /mnt
+
+This example uses ext4, any other filesystem such as ext3, btrfs, xfs,
+jfs, etc will work too.
+
+Create a minimal OS installation on the mounted filesystem::
+
+   # debootstrap buster /mnt http://deb.debian.org/debian
+
+debootstrap does not set up the root password, fstab, hostname or
+anything related to networking. It is up to the user to do that.
+
+Set the root password -t he easiest way to do that is to chroot into the
+mounted image::
+
+   # chroot /mnt
+   # passwd
+   # exit
+
+Edit key system files
+=====================
+
+UML block devices are called ubds. The fstab created by debootstrap
+will be empty and it needs an entry for the root file system::
+
+   /dev/ubd0   ext4    discard,errors=remount-ro  0       1
+
+The image hostname will be set to the same as the host on which you
+are creating it image. It is a good idea to change that to avoid
+"Oh, bummer, I rebooted the wrong machine".
+
+UML supports two classes of network devices - the older uml_net ones
+which are scheduled for obsoletion. These are called ethX. It also
+supports the newer vector IO devices which are significantly faster
+and have support for some standard virtual network encapsulations like
+Ethernet over GRE and Ethernet over L2TPv3. These are called vec0.
+
+Depending on which one is in use, ``/etc/network/interfaces`` will
+need entries like::
+
+   # legacy UML network devices
+   auto eth0
+   iface eth0 inet dhcp
+
+   # vector UML network devices
+   auto vec0
+   iface eth0 inet dhcp
+
+We now have a UML image which is nearly ready to run, all we need is a
+UML kernel and modules for it.
+
+Most distributions have a UML package. Even if you intend to use your own
+kernel, testing the image with a stock one is always a good start. These
+packages come with a set of modules which should be copied to the target
+filesystem. The location is distribution dependent. For Debian these
+reside under /usr/lib/uml/modules. Copy recursively the content of this
+directory to the mounted UML filesystem::
+
+   # cp -rax /usr/lib/uml/modules /mnt/lib/modules
+
+If you have compiled your own kernel, you need to use the usual "install
+modules to a location" procedure by running::
+
+  # make install MODULES_DIR=/mnt/lib/modules
+
+At this point the image is ready to be brought up.
+
+*************************
+Setting Up UML Networking
+*************************
+
+UML networking is designed to emulate an Ethernet connection. This
+connection may be either a point-to-point (similar to a connection
+between machines using a back-to-back cable) or a connection to a
+switch. UML supports a wide variety of means to build these
+connections to all of: local machine, remote machine(s), local and
+remote UML and other VM instances.
+
+
++-----------+--------+------------------------------------+------------+
+| Transport |  Type  |        Capabilities                | Throughput |
++===========+========+====================================+============+
+| tap       | vector | checksum, tso                      | > 8Gbit    |
++-----------+--------+------------------------------------+------------+
+| hybrid    | vector | checksum, tso, multipacket rx      | > 6GBit    |
++-----------+--------+------------------------------------+------------+
+| raw       | vector | checksum, tso, multipacket rx, tx" | > 6GBit    |
++-----------+--------+------------------------------------+------------+
+| EoGRE     | vector | multipacket rx, tx                 | > 3Gbit    |
++-----------+--------+------------------------------------+------------+
+| Eol2tpv3  | vector | multipacket rx, tx                 | > 3Gbit    |
++-----------+--------+------------------------------------+------------+
+| bess      | vector | multipacket rx, tx                 | > 3Gbit    |
++-----------+--------+------------------------------------+------------+
+| fd        | vector | dependent on fd type               | varies     |
++-----------+--------+------------------------------------+------------+
+| tuntap    | legacy | none                               | ~ 500Mbit  |
++-----------+--------+------------------------------------+------------+
+| daemon    | legacy | none                               | ~ 450Mbit  |
++-----------+--------+------------------------------------+------------+
+| socket    | legacy | none                               | ~ 450Mbit  |
++-----------+--------+------------------------------------+------------+
+| pcap      | legacy | rx only                            | ~ 450Mbit  |
++-----------+--------+------------------------------------+------------+
+| ethertap  | legacy | obsolete                           | ~ 500Mbit  |
++-----------+--------+------------------------------------+------------+
+| vde       | legacy | obsolete                           | ~ 500Mbit  |
++-----------+--------+------------------------------------+------------+
+
+* All transports which have tso and checksum offloads can deliver speeds
+  approaching 10G on TCP streams.
+
+* All transports which have multi-packet rx and/or tx can deliver pps
+  rates of up to 1Mps or more.
+
+* All legacy transports are generally limited to ~600-700MBit and 0.05Mps
+
+* GRE and L2TPv3 allow connections to all of: local machine, remote
+  machines, remote network devices and remote UML instances.
+
+* Socket allows connections only between UML instances.
+
+* Daemon and bess require running a local switch. This switch may be
+  connected to the host as well.
+
+
+Network configuration privileges
+================================
+
+The majority of the supported networking modes need ``root`` privileges.
+For example, in the legacy tuntap networking mode, users were required
+to be part of the group associated with the tunnel device.
+
+For newer network drivers like the vector transports, ``root`` privilege
+is required to fire an ioctl to setup the tun interface and/or use
+raw sockets where needed.
+
+This can be achieved by granting the user a particular capability instead
+of running UML as root.  In case of vector transport, a user can add the
+capability ``CAP_NET_ADMIN`` or ``CAP_NET_RAW``, to the uml binary.
+Thenceforth, UML can be run with normal user privilges, along with
+full networking.
+
+For example::
+
+   # sudo setcap cap_net_raw,cap_net_admin+ep linux
+
+Configuring vector transports
+===============================
+
+All vector transports support a similar syntax:
+
+If X is the interface number as in vec0, vec1, vec2, etc, the general
+syntax for options is::
+
+   vecX:transport="Transport Name",option=value,option=value,...,option=value
+
+Common options
+--------------
+
+These options are common for all transports:
+
+* ``depth=int`` - sets the queue depth for vector IO. This is the
+  amount of packets UML will attempt to read or write in a single
+  system call. The default number is 64 and is generally sufficient
+  for most applications that need throughput in the 2-4 Gbit range.
+  Higher speeds may require larger values.
+
+* ``mac=XX:XX:XX:XX:XX`` - sets the interface MAC address value.
+
+* ``gro=[0,1]`` - sets GRO on or off. Enables receive/transmit offloads.
+  The effect of this option depends on the host side support in the transport
+  which is being configured. In most cases it will enable TCP segmentation and
+  RX/TX checksumming offloads. The setting must be identical on the host side
+  and the UML side. The UML kernel will produce warnings if it is not.
+  For example, GRO is enabled by default on local machine interfaces
+  (e.g. veth pairs, bridge, etc), so it should be enabled in UML in the
+  corresponding UML transports (raw, tap, hybrid) in order for networking to
+  operate correctly.
+
+* ``mtu=int`` - sets the interface MTU
+
+* ``headroom=int`` - adjusts the default headroom (32 bytes) reserved
+  if a packet will need to be re-encapsulated into for instance VXLAN.
+
+* ``vec=0`` - disable multipacket io and fall back to packet at a
+  time mode
+
+Shared Options
+--------------
+
+* ``ifname=str`` Transports which bind to a local network interface
+  have a shared option - the name of the interface to bind to.
+
+* ``src, dst, src_port, dst_port`` - all transports which use sockets
+  which have the notion of source and destination and/or source port
+  and destination port use these to specify them.
+
+* ``v6=[0,1]`` to specify if a v6 connection is desired for all
+  transports which operate over IP. Additionally, for transports that
+  have some differences in the way they operate over v4 and v6 (for example
+  EoL2TPv3), sets the correct mode of operation. In the absense of this
+  option, the socket type is determined based on what do the src and dst
+  arguments resolve/parse to.
+
+tap transport
+-------------
+
+Example::
+
+   vecX:transport=tap,ifname=tap0,depth=128,gro=1
+
+This will connect vec0 to tap0 on the host. Tap0 must already exist (for example
+created using tunctl) and UP.
+
+tap0 can be configured as a point-to-point interface and given an ip
+address so that UML can talk to the host. Alternatively, it is possible
+to connect UML to a tap interface which is connected to a bridge.
+
+While tap relies on the vector infrastructure, it is not a true vector
+transport at this point, because Linux does not support multi-packet
+IO on tap file descriptors for normal userspace apps like UML. This
+is a privilege which is offered only to something which can hook up
+to it at kernel level via specialized interfaces like vhost-net. A
+vhost-net like helper for UML is planned at some point in the future.
+
+Privileges required: tap transport requires either:
+
+* tap interface to exist and be created persistent and owned by the
+  UML user using tunctl. Example ``tunctl -u uml-user -t tap0``
+
+* binary to have ``CAP_NET_ADMIN`` privilege
+
+hybrid transport
+----------------
+
+Example::
+
+   vecX:transport=hybrid,ifname=tap0,depth=128,gro=1
+
+This is an experimental/demo transport which couples tap for transmit
+and a raw socket for receive. The raw socket allows multi-packet
+receive resulting in significantly higher packet rates than normal tap
+
+Privileges required: hybrid requires ``CAP_NET_RAW`` capability by
+the UML user as well as the requirements for the tap transport.
+
+raw socket transport
+--------------------
+
+Example::
+
+   vecX:transport=raw,ifname=p-veth0,depth=128,gro=1
+
+
+This transport uses vector IO on raw sockets. While you can bind to any
+interface including a physical one, the most common use it to bind to
+the "peer" side of a veth pair with the other side configured on the
+host.
+
+Example host configuration for Debian:
+
+**/etc/network/interfaces**::
+
+   auto veth0
+   iface veth0 inet static
+       address 192.168.4.1
+       netmask 255.255.255.252
+       broadcast 192.168.4.3
+       pre-up ip link add veth0 type veth peer name p-veth0 && \
+          ifconfig p-veth0 up
+
+UML can now bind to p-veth0 like this::
+
+   vec0:transport=raw,ifname=p-veth0,depth=128,gro=1
+
+
+If the UML guest is configured with 192.168.4.2 and netmask 255.255.255.0
+it can talk to the host on 192.168.4.1
+
+The raw transport also provides some support for offloading some of the
+filtering to the host. The two options to control it are:
+
+* ``bpffile=str`` filename of raw bpf code to be loaded as a socket filter
+
+* ``bpfflash=int`` 0/1 allow loading of bpf from inside User Mode Linux.
+  This option allows the use of the ethtool load firmware command to
+  load bpf code.
+
+In either case the bpf code is loaded into the host kernel. While this is
+presently limited to legacy bpf syntax (not ebpf), it is still a security
+risk. It is not recommended to allow this unless the User Mode Linux
+instance is considered trusted.
+
+Privileges required: raw socket transport requires `CAP_NET_RAW`
+capability.
+
+GRE socket transport
+--------------------
+
+Example::
+
+   vecX:transport=gre,src=$src_host,dst=$dst_host
+
+
+This will configure an Ethernet over ``GRE`` (aka ``GRETAP`` or
+``GREIRB``) tunnel which will connect the UML instance to a ``GRE``
+endpoint at host dst_host. ``GRE`` supports the following additional
+options:
+
+* ``rx_key=int`` - GRE 32 bit integer key for rx packets, if set,
+  ``txkey`` must be set too
+
+* ``tx_key=int`` - GRE 32 bit integer key for tx packets, if set
+  ``rx_key`` must be set too
+
+* ``sequence=[0,1]`` - enable GRE sequence
+
+* ``pin_sequence=[0,1]`` - pretend that the sequence is always reset
+  on each packet (needed to interoperate with some really broken
+  implementations)
+
+* ``v6=[0,1]`` - force IPv4 or IPv6 sockets respectively
+
+* GRE checksum is not presently supported
+
+GRE has a number of caveats:
+
+* You can use only one GRE connection per ip address. There is no way to
+  multiplex connections as each GRE tunnel is terminated directly on
+  the UML instance.
+
+* The key is not really a security feature. While it was intended as such
+  it's "security" is laughable. It is, however, a useful feature to
+  ensure that the tunnel is not misconfigured.
+
+An example configuration for a Linux host with a local address of
+192.168.128.1 to connect to a UML instance at 192.168.129.1
+
+**/etc/network/interfaces**::
+
+   auto gt0
+   iface gt0 inet static
+    address 10.0.0.1
+    netmask 255.255.255.0
+    broadcast 10.0.0.255
+    mtu 1500
+    pre-up ip link add gt0 type gretap local 192.168.128.1 \
+           remote 192.168.129.1 || true
+    down ip link del gt0 || true
+
+Additionally, GRE has been tested versus a variety of network equipment.
+
+Privileges required: GRE requires ``CAP_NET_RAW``
+
+l2tpv3 socket transport
+-----------------------
+
+_Warning_. L2TPv3 has a "bug". It is the "bug" known as "has more
+options than GNU ls". While it has some advantages, there are usually
+easier (and less verbose) ways to connect a UML instance to something.
+For example, most devices which support L2TPv3 also support GRE.
+
+Example::
+
+    vec0:transport=l2tpv3,udp=1,src=$src_host,dst=$dst_host,srcport=$src_port,dstport=$dst_port,depth=128,rx_session=0xffffffff,tx_session=0xffff
+
+This will configure an Ethernet over L2TPv3 fixed tunnel which will
+connect the UML instance to a L2TPv3 endpoint at host $dst_host using
+the L2TPv3 UDP flavour and UDP destination port $dst_port.
+
+L2TPv3 always requires the following additional options:
+
+* ``rx_session=int`` - l2tpv3 32 bit integer session for rx packets
+
+* ``tx_session=int`` - l2tpv3 32 bit integer session for tx packets
+
+As the tunnel is fixed these are not negotiated and they are
+preconfigured on both ends.
+
+Additionally, L2TPv3 supports the following optional parameters
+
+* ``rx_cookie=int`` - l2tpv3 32 bit integer cookie for rx packets - same
+  functionality as GRE key, more to prevent misconfiguration than provide
+  actual security
+
+* ``tx_cookie=int`` - l2tpv3 32 bit integer cookie for tx packets
+
+* ``cookie64=[0,1]`` - use 64 bit cookies instead of 32 bit.
+
+* ``counter=[0,1]`` - enable l2tpv3 counter
+
+* ``pin_counter=[0,1]`` - pretend that the counter is always reset on
+  each packet (needed to interoperate with some really broken
+  implementations)
+
+* ``v6=[0,1]`` - force v6 sockets
+
+* ``udp=[0,1]`` - use raw sockets (0) or UDP (1) version of the protocol
+
+L2TPv3 has a number of caveats:
+
+* you can use only one connection per ip address in raw mode. There is
+  no way to multiplex connections as each L2TPv3 tunnel is terminated
+  directly on the UML instance. UDP mode can use different ports for
+  this purpose.
+
+Here is an example of how to configure a linux host to connect to UML
+via L2TPv3:
+
+**/etc/network/interfaces**::
+
+   auto l2tp1
+   iface l2tp1 inet static
+    address 192.168.126.1
+    netmask 255.255.255.0
+    broadcast 192.168.126.255
+    mtu 1500
+    pre-up ip l2tp add tunnel remote 127.0.0.1 \
+           local 127.0.0.1 encap udp tunnel_id 2 \
+           peer_tunnel_id 2 udp_sport 1706 udp_dport 1707 && \
+           ip l2tp add session name l2tp1 tunnel_id 2 \
+           session_id 0xffffffff peer_session_id 0xffffffff
+    down ip l2tp del session tunnel_id 2 session_id 0xffffffff && \
+           ip l2tp del tunnel tunnel_id 2
+
+
+Privileges required: L2TPv3 requires ``CAP_NET_RAW`` for raw IP mode and
+no special privileges for the UDP mode.
+
+BESS socket transport
+---------------------
+
+BESS is a high performance modular network switch.
+
+https://github.com/NetSys/bess
+
+It has support for a simple sequential packet socket mode which in the
+more recent versions is using vector IO for high performance.
+
+Example::
+
+   vecX:transport=bess,src=$unix_src,dst=$unix_dst
+
+This will configure a BESS transport using the unix_src Unix domain
+socket address as source and unix_dst socket address as destination.
+
+For BESS configuration and how to allocate a BESS Unix domain socket port
+please see the BESS documentation.
+
+https://github.com/NetSys/bess/wiki/Built-In-Modules-and-Ports
+
+BESS transport does not require any special privileges.
+
+Configuring Legacy transports
+=============================
+
+Legacy transports are now considered obsolete. Please use the vector
+versions.
+
+***********
+Running UML
+***********
+
+This section assumes that either the user-mode-linux package from the
+distribution or a custom built kernel has been installed on the host.
+
+These add an executable called linux to the system. This is the UML
+kernel. It can be run just like any other executable.
+It will take most normal linux kernel arguments as command line
+arguments.  Additionally, it will need some UML specific arguments
+in order to do something useful.
+
+Arguments
+=========
+
+Mandatory Arguments:
+--------------------
+
+* ``mem=int[K,M,G]`` - amount of memory. By default bytes. It will
+  also accept K, M or G qualifiers.
+
+* ``ubdX[s,d,c,t]=`` virtual disk specification. This is not really
+  mandatory, but it is likely to be needed in nearly all cases so we can
+  specify a root file system.
+  The simplest possible image specification is the name of the image
+  file for the filesystem (created using one of the methods described
+  in `Creating an image`_)
+
+  * UBD devices support copy on write (COW). The changes are kept in
+    a separate file which can be discarded allowing a rollback to the
+    original pristine image.  If COW is desired, the UBD image is
+    specified as: ``cow_file,master_image``.
+    Example:``ubd0=Filesystem.cow,Filesystem.img``
+
+  * UBD devices can be set to use synchronous IO. Any writes are
+    immediately flushed to disk. This is done by adding ``s`` after
+    the ``ubdX`` specification
+
+  * UBD performs some euristics on devices specified as a single
+    filename to make sure that a COW file has not been specified as
+    the image. To turn them off, use the ``d`` flag after ``ubdX``
+
+  * UBD supports TRIM - asking the Host OS to reclaim any unused
+    blocks in the image. To turn it off, specify the ``t`` flag after
+    ``ubdX``
+
+* ``root=`` root device - most likely ``/dev/ubd0`` (this is a Linux
+  filesystem image)
+
+Important Optional Arguments
+----------------------------
+
+If UML is run as "linux" with no extra arguments, it will try to start an
+xterm for every console configured inside the image (up to 6 in most
+linux distributions). Each console is started inside an
+xterm. This makes it nice and easy to use UML on a host with a GUI. It is,
+however, the wrong approach if UML is to be used as a testing harness or run
+in a text-only environment.
+
+In order to change this behaviour we need to specify an alternative console
+and wire it to one of the supported "line" channels. For this we need to map a
+console to use something different from the default xterm.
+
+Example which will divert console number 1 to stdin/stdout::
+
+   con1=fd:0,fd:1
+
+UML supports a wide variety of serial line channels which are specified using
+the following syntax
+
+   conX=channel_type:options[,channel_type:options]
+
+
+If the channel specification contains two parts separated by comma, the first
+one is input, the second one output.
+
+* The null channel - Discard all input or output. Example ``con=null`` will set
+  all consoles to null by default.
+
+* The fd channel - use file descriptor numbers for input/out. Example:
+  ``con1=fd:0,fd:1.``
+
+* The port channel - listen on tcp port number. Example: ``con1=port:4321``
+
+* The pty and pts channels - use system pty/pts.
+
+* The tty channel - bind to an existing system tty. Example: ``con1=/dev/tty8``
+  will make UML use the host 8th console (usually unused).
+
+* The xterm channel - this is the default - bring up an xterm on this channel
+  and direct IO to it. Note, that in order for xterm to work, the host must
+  have the UML distribution package installed. This usually contains the
+  port-helper and other utilities needed for UML to communicate with the xterm.
+  Alternatively, these need to be complied and installed from source. All
+  options applicable to consoles also apply to UML serial lines which are
+  presented as ttyS inside UML.
+
+Starting UML
+============
+
+We can now run UML.
+::
+   # linux mem=2048M umid=TEST \
+    ubd0=Filesystem.img \
+    vec0:transport=tap,ifname=tap0,depth=128,gro=1 \
+    root=/dev/ubda con=null con0=null,fd:2 con1=fd:0,fd:1
+
+This will run an instance with ``2048M RAM``, try to use the image file
+called ``Filesystem.img`` as root. It will connect to the host using tap0.
+All consoles except ``con1`` will be disabled and console 1 will
+use standard input/output making it appear in the same terminal it was started.
+
+Logging in
+============
+
+If you have not set up a password when generating the image, you will have to
+shut down the UML instance, mount the image, chroot into it and set it - as
+described in the Generating an Image section.  If the password is already set,
+you can just log in.
+
+The UML Management Console
+============================
+
+In addition to managing the image from "the inside" using normal sysadmin tools,
+it is possible to perform a number of low level operations using the UML
+management console. The UML management console is a low-level interface to the
+kernel on a running UML instance, somewhat like the i386 SysRq interface. Since
+there is a full-blown operating system under UML, there is much greater
+flexibility possible than with the SysRq mechanism.
+
+There are a number of things you can do with the mconsole interface:
+
+* get the kernel version
+* add and remove devices
+* halt or reboot the machine
+* Send SysRq commands
+* Pause and resume the UML
+* Inspect processes running inside UML
+* Inspect UML internal /proc state
+
+You need the mconsole client (uml\_mconsole) which is a part of the UML
+tools package available in most Linux distritions.
+
+You also need ``CONFIG_MCONSOLE`` (under 'General Setup') enabled in the UML
+kernel.  When you boot UML, you'll see a line like::
+
+   mconsole initialized on /home/jdike/.uml/umlNJ32yL/mconsole
+
+If you specify a unique machine id one the UML command line, i.e. 
+``umid=debian``, you'll see this::
+
+   mconsole initialized on /home/jdike/.uml/debian/mconsole
+
+
+That file is the socket that uml_mconsole will use to communicate with
+UML.  Run it with either the umid or the full path as its argument::
+
+   # uml_mconsole debian
+
+or
+
+   # uml_mconsole /home/jdike/.uml/debian/mconsole
+
+
+You'll get a prompt, at which you can run one of these commands:
+
+* version
+* help
+* halt
+* reboot
+* config
+* remove
+* sysrq
+* help
+* cad
+* stop
+* go
+* proc
+* stack
+
+version
+-------
+
+This command takes no arguments.  It prints the UML version::
+
+   (mconsole)  version
+   OK Linux OpenWrt 4.14.106 #0 Tue Mar 19 08:19:41 2019 x86_64
+
+
+There are a couple actual uses for this.  It's a simple no-op which
+can be used to check that a UML is running.  It's also a way of
+sending a device interrupt to the UML. UML mconsole is treated internally as
+a UML device.
+
+help
+----
+
+This command takes no arguments. It prints a short help screen with the
+supported mconsole commands.
+
+
+halt and reboot
+---------------
+
+These commands take no arguments.  They shut the machine down immediately, with
+no syncing of disks and no clean shutdown of userspace.  So, they are
+pretty close to crashing the machine::
+
+   (mconsole)  halt
+   OK
+
+config
+------
+
+"config" adds a new device to the virtual machine. This is supported
+by most UML device drivers. It takes one argument, which is the
+device to add, with the same syntax as the kernel command line::
+
+   (mconsole) config ubd3=/home/jdike/incoming/roots/root_fs_debian22
+
+remove
+------
+
+"remove" deletes a device from the system.  Its argument is just the
+name of the device to be removed. The device must be idle in whatever
+sense the driver considers necessary.  In the case of the ubd driver,
+the removed block device must not be mounted, swapped on, or otherwise
+open, and in the case of the network driver, the device must be down::
+
+   (mconsole)  remove ubd3
+
+sysrq
+-----
+
+This command takes one argument, which is a single letter.  It calls the
+generic kernel's SysRq driver, which does whatever is called for by
+that argument.  See the SysRq documentation in
+Documentation/admin-guide/sysrq.rst in your favorite kernel tree to
+see what letters are valid and what they do.
+
+cad
+---
+
+This invokes the ``Ctl-Alt-Del`` action in the running image.  What exactly
+this ends up doing is up to init, systemd, etc.  Normally, it reboots the
+machine.
+
+stop
+----
+
+This puts the UML in a loop reading mconsole requests until a 'go'
+mconsole command is received. This is very useful as a
+debugging/snapshotting tool.
+
+go
+--
+
+This resumes a UML after being paused by a 'stop' command. Note that
+when the UML has resumed, TCP connections may have timed out and if
+the UML is paused for a long period of time, crond might go a little
+crazy, running all the jobs it didn't do earlier.
+
+proc
+----
+
+This takes one argument - the name of a file in /proc which is printed
+to the mconsole standard output
+
+stack
+-----
+
+This takes one argument - the pid number of a process. Its stack is
+printed to a standard output.
+
+*******************
+Advanced UML Topics
+*******************
+
+Sharing Filesystems between Virtual Machines
+============================================
+
+Don't attempt to share filesystems simply by booting two UMLs from the
+same file.  That's the same thing as booting two physical machines
+from a shared disk.  It will result in filesystem corruption.
+
+Using layered block devices
+---------------------------
+
+The way to share a filesystem between two virtual machines is to use
+the copy-on-write (COW) layering capability of the ubd block driver.
+Any changed blocks are stored in the private COW file, while reads come
+from either device - the private one if the requested block is valid in
+it, the shared one if not.  Using this scheme, the majority of data
+which is unchanged is shared between an arbitrary number of virtual
+machines, each of which has a much smaller file containing the changes
+that it has made.  With a large number of UMLs booting from a large root
+filesystem, this leads to a huge disk space saving.
+
+Sharing file system data will also help performance, since the host will
+be able to cache the shared data using a much smaller amount of memory,
+so UML disk requests will be served from the host's memory rather than
+its disks.  There is a major caveat in doing this on multisocket NUMA
+machines.  On such hardware, running many UML instances with a shared
+master image and COW changes may caise issues like NMIs from excess of
+inter-socket traffic.
+
+If you are running UML on high end hardware like this, make sure to
+bind UML to a set of logical cpus residing on the same socket using the
+``taskset`` command or have a look at the "tuning" section.
+
+To add a copy-on-write layer to an existing block device file, simply
+add the name of the COW file to the appropriate ubd switch::
+
+   ubd0=root_fs_cow,root_fs_debian_22
+
+where ``root_fs_cow`` is the private COW file and ``root_fs_debian_22`` is
+the existing shared filesystem.  The COW file need not exist.  If it
+doesn't, the driver will create and initialize it.
+
+Disk Usage
+----------
+
+UML has TRIM support which will release any unused space in its disk
+image files to the underlying OS. It is important to use either ls -ls
+or du to verify the actual file size.
+
+COW validity.
+-------------
+
+Any changes to the master image will invalidate all COW files. If this
+happens, UML will *NOT* automatically delete any of the COW files and
+will refuse to boot. In this case the only solution is to either
+restore the old image (including its last modified timestamp) or remove
+all COW files which will result in their recreation. Any changes in
+the COW files will be lost.
+
+Cows can moo - uml_moo : Merging a COW file with its backing file
+-----------------------------------------------------------------
+
+Depending on how you use UML and COW devices, it may be advisable to
+merge the changes in the COW file into the backing file every once in
+a while.
+
+The utility that does this is uml_moo.  Its usage is::
+
+   uml_moo COW_file new_backing_file
+
+
+There's no need to specify the backing file since that information is
+already in the COW file header.  If you're paranoid, boot the new
+merged file, and if you're happy with it, move it over the old backing
+file.
+
+``uml_moo`` creates a new backing file by default as a safety measure.
+It also has a destructive merge option which will merge the COW file
+directly into its current backing file.  This is really only usable
+when the backing file only has one COW file associated with it.  If
+there are multiple COWs associated with a backing file, a -d merge of
+one of them will invalidate all of the others.  However, it is
+convenient if you're short of disk space, and it should also be
+noticeably faster than a non-destructive merge.
+
+``uml_moo`` is installed with the UML distribution packages and is
+available as a part of UML utilities.
+
+Host file access
+==================
+
+If you want to access files on the host machine from inside UML, you
+can treat it as a separate machine and either nfs mount directories
+from the host or copy files into the virtual machine with scp.
+However, since UML is running on the host, it can access those
+files just like any other process and make them available inside the
+virtual machine without the need to use the network.
+This is possible with the hostfs virtual filesystem.  With it, you
+can mount a host directory into the UML filesystem and access the
+files contained in it just as you would on the host.
+
+*SECURITY WARNING*
+
+Hostfs without any parameters to the UML Image will allow the image
+to mount any part of the host filesystem and write to it. Always
+confine hostfs to a specific "harmless" directory (for example ``/var/tmp``)
+if running UML. This is especially important if UML is being run as root.
+
+Using hostfs
+------------
+
+To begin with, make sure that hostfs is available inside the virtual
+machine with::
+
+   # cat /proc/filesystems
+
+``hostfs`` should be listed.  If it's not, either rebuild the kernel
+with hostfs configured into it or make sure that hostfs is built as a
+module and available inside the virtual machine, and insmod it.
+
+
+Now all you need to do is run mount::
+
+   # mount none /mnt/host -t hostfs
+
+will mount the host's ``/`` on the virtual machine's ``/mnt/host``.
+If you don't want to mount the host root directory, then you can
+specify a subdirectory to mount with the -o switch to mount::
+
+   # mount none /mnt/home -t hostfs -o /home
+
+will mount the hosts's /home on the virtual machine's /mnt/home.
+
+hostfs as the root filesystem
+-----------------------------
+
+It's possible to boot from a directory hierarchy on the host using
+hostfs rather than using the standard filesystem in a file.
+To start, you need that hierarchy.  The easiest way is to loop mount
+an existing root_fs file::
+
+   #  mount root_fs uml_root_dir -o loop
+
+
+You need to change the filesystem type of ``/`` in ``etc/fstab`` to be
+'hostfs', so that line looks like this::
+
+   /dev/ubd/0       /        hostfs      defaults          1   1
+
+Then you need to chown to yourself all the files in that directory
+that are owned by root.  This worked for me::
+
+   #  find . -uid 0 -exec chown jdike {} \;
+
+Next, make sure that your UML kernel has hostfs compiled in, not as a
+module.  Then run UML with the boot device pointing at that directory::
+
+   ubd0=/path/to/uml/root/directory
+
+UML should then boot as it does normally.
+
+Hostfs Caveats
+--------------
+
+Hostfs does not support keeping track of host filesystem changes on the
+host (outside UML). As a result, if a file is changed without UML's
+knowledge, UML will not know about it and its own in-memory cache of
+the file may be corrupt. While it is possible to fix this, it is not
+something which is being worked on at present.
+
+Tuning UML
+============
+
+UML at present is strictly uniprocessor. It will, however spin up a
+number of threads to handle various functions.
+
+The UBD driver, SIGIO and the MMU emulation do that. If the system is
+idle, these threads will be migrated to other processors on a SMP host.
+This, unfortunately, will usually result in LOWER performance because of
+all of the cache/memory synchronization traffic between cores. As a
+result, UML will usually benefit from being pinned on a single CPU
+especially on a large system. This can result in performance differences
+of 5 times or higher on some benchmarks.
+
+Similarly, on large multi-node NUMA systems UML will benefit if all of
+its memory is allocated from the same NUMA node it will run on. The
+OS will *NOT* do that by default. In order to do that, the sysadmin
+needs to create a suitable tmpfs ramdisk bound to a particular node
+and use that as the source for UML RAM allocation by specifying it
+in the TMP or TEMP environment variables. UML will look at the values
+of ``TMPDIR``, ``TMP`` or ``TEMP`` for that. If that fails, it will
+look for shmfs mounted under ``/dev/shm``. If everything else fails use
+``/tmp/`` regardless of the filesystem type used for it::
+
+   mount -t tmpfs -ompol=bind:X none /mnt/tmpfs-nodeX
+   TEMP=/mnt/tmpfs-nodeX taskset -cX linux options options options..
+
+*******************************************
+Contributing to UML and Developing with UML
+*******************************************
+
+UML is an excellent platform to develop new Linux kernel concepts -
+filesystems, devices, virtualization, etc. It provides unrivalled
+opportunities to create and test them without being constrained to
+emulating specific hardware.
+
+Example - want to try how linux will work with 4096 "proper" network
+devices?
+
+Not an issue with UML. At the same time, this is something which
+is difficult with other virtualization packages - they are
+constrained by the number of devices allowed on the hardware bus
+they are trying to emulate (for example 16 on a PCI bus in qemu).
+
+If you have something to contribute such as a patch, a bugfix, a
+new feature, please send it to ``linux-um@lists.infradead.org``
+
+Please follow all standard Linux patch guidelines such as cc-ing
+relevant maintainers and run ``./sripts/checkpatch.pl`` on your patch.
+For more details see ``Documentation/process/submitting-patches.rst``
+
+Note - the list does not accept HTML or attachments, all emails must
+be formatted as plain text.
+
+Developing always goes hand in hand with debugging. First of all,
+you can always run UML under gdb and there will be a whole section
+later on on how to do that. That, however, is not the only way to
+debug a linux kernel. Quite often adding tracing statements and/or
+using UML specific approaches such as ptracing the UML kernel process
+are significantly more informative.
+
+Tracing UML
+=============
+
+When running UML consists of a main kernel thread and a number of
+helper threads. The ones of interest for tracing are NOT the ones
+that are already ptraced by UML as a part of its MMU emulation.
+
+These are usually the first three threads visible in a ps display.
+The one with the lowest PID number and using most CPU is usually the
+kernel thread. The other threads are the disk
+(ubd) device helper thread and the sigio helper thread.
+Running ptrace on this thread usually results in the following picture::
+
+   host$ strace -p 16566
+   --- SIGIO {si_signo=SIGIO, si_code=POLL_IN, si_band=65} ---
+   epoll_wait(4, [{EPOLLIN, {u32=3721159424, u64=3721159424}}], 64, 0) = 1
+   epoll_wait(4, [], 64, 0)                = 0
+   rt_sigreturn({mask=[PIPE]})             = 16967
+   ptrace(PTRACE_GETREGS, 16967, NULL, 0xd5f34f38) = 0
+   ptrace(PTRACE_GETREGSET, 16967, NT_X86_XSTATE, [{iov_base=0xd5f35010, iov_len=832}]) = 0
+   ptrace(PTRACE_GETSIGINFO, 16967, NULL, {si_signo=SIGTRAP, si_code=0x85, si_pid=16967, si_uid=0}) = 0
+   ptrace(PTRACE_SETREGS, 16967, NULL, 0xd5f34f38) = 0
+   ptrace(PTRACE_SETREGSET, 16967, NT_X86_XSTATE, [{iov_base=0xd5f35010, iov_len=2696}]) = 0
+   ptrace(PTRACE_SYSEMU, 16967, NULL, 0)   = 0
+   --- SIGCHLD {si_signo=SIGCHLD, si_code=CLD_TRAPPED, si_pid=16967, si_uid=0, si_status=SIGTRAP, si_utime=65, si_stime=89} ---
+   wait4(16967, [{WIFSTOPPED(s) && WSTOPSIG(s) == SIGTRAP | 0x80}], WSTOPPED|__WALL, NULL) = 16967
+   ptrace(PTRACE_GETREGS, 16967, NULL, 0xd5f34f38) = 0
+   ptrace(PTRACE_GETREGSET, 16967, NT_X86_XSTATE, [{iov_base=0xd5f35010, iov_len=832}]) = 0
+   ptrace(PTRACE_GETSIGINFO, 16967, NULL, {si_signo=SIGTRAP, si_code=0x85, si_pid=16967, si_uid=0}) = 0
+   timer_settime(0, 0, {it_interval={tv_sec=0, tv_nsec=0}, it_value={tv_sec=0, tv_nsec=2830912}}, NULL) = 0
+   getpid()                                = 16566
+   clock_nanosleep(CLOCK_MONOTONIC, 0, {tv_sec=1, tv_nsec=0}, NULL) = ? ERESTART_RESTARTBLOCK (Interrupted by signal)
+   --- SIGALRM {si_signo=SIGALRM, si_code=SI_TIMER, si_timerid=0, si_overrun=0, si_value={int=1631716592, ptr=0x614204f0}} ---
+   rt_sigreturn({mask=[PIPE]})             = -1 EINTR (Interrupted system call)
+
+This is a typical picture from a mostly idle UML instance
+
+* UML interrupt controller uses epoll - this is UML waiting for IO
+  interrupts:
+
+   epoll_wait(4, [{EPOLLIN, {u32=3721159424, u64=3721159424}}], 64, 0) = 1
+
+* The sequence of ptrace calls is part of MMU emulation and runnin the
+  UML userspace
+* ``timer_settime`` is part of the UML high res timer subsystem mapping
+  timer requests from inside UML onto the host high resultion timers.
+* ``clock_nanosleep`` is UML going into idle (similar to the way a PC
+  will execute an ACPI idle).
+
+As you can see UML will generate quite a bit of output even in idle.The output
+can be very informative when observing IO. It shows the actual IO calls, their
+arguments and returns values.
+
+Kernel debugging
+================
+
+You can run UML under gdb now, though it will not necessarily agree to
+be started under it. If you are trying to track a runtime bug, it is
+much better to attach gdb to a running UML instance and let UML run.
+
+Assuming the same PID number as in the previous example, this would be::
+
+   # gdb -p 16566
+
+This will STOP the UML instance, so you must enter `cont` at the GDB
+command line to request it to continue. It may be a good idea to make
+this into a gdb script and pass it to gdb as an argument.
+
+Developing Device Drivers
+=========================
+
+Nearly all UML drivers are monolithic. While it is possible to build a
+UML driver as a kernel module, that limits the possible functionality
+to in-kernel only and non-UML specific.  The reason for this is that
+in order to really leverage UML, one needs to write a piece of
+userspace code which maps driver concepts onto actual userspace host
+calls.
+
+This forms the so called "user" portion of the driver. While it can
+reuse a lot of kernel concepts, it is generally just another piece of
+userspace code. This portion needs some matching "kernel" code which
+resides inside the UML image and which implements the Linux kernel part.
+
+*Note: There are very few limitations in the way "kernel" and "user" interact*.
+
+UML does not have a strictly defined kernel to host API. It does not
+try to emulate a specific architecture or bus. UML's "kernel" and
+"user" can share memory, code and interact as needed to implement
+whatever design the software developer has in mind. The only
+limitations are purely technical. Due to a lot of functions and
+variables having the same names, the developer should be careful
+which includes and libraries they are trying to refer to.
+
+As a result a lot of userspace code consists of simple wrappers.
+F.e. ``os_close_file()`` is just a wrapper around ``close()``
+which ensures that the userspace function close does not clash
+with similarly named function(s) in the kernel part.
+
+Security Considerations
+-----------------------
+
+Drivers or any new functionality should default to not
+accepting arbitrary filename, bpf code or other  parameters
+which can affect the host from inside the UML instance.
+For example, specifying the socket used for IPC communication
+between a driver and the host at the UML command line is OK
+security-wise. Allowing it as a loadable module parameter
+isn't.
+
+If such functionality is desireable for a particular application
+(e.g. loading BPF "firmware" for raw socket network transports),
+it should be off by default and should be explicitly turned on
+as a command line parameter at startup.
+
+Even with this in mind, the level of isolation between UML
+and the host is relatively weak. If the UML userspace is
+allowed to load arbitrary kernel drivers, an attacker can
+use this to break out of UML. Thus, if UML is used in
+a production application, it is recommended that all modules
+are loaded at boot and kernel module loading is disabled
+afterwards.
index 6f9e000..dd9f76a 100644 (file)
@@ -1,4 +1,4 @@
-.. hmm:
+.. _hmm:
 
 =====================================
 Heterogeneous Memory Management (HMM)
@@ -271,10 +271,139 @@ map those pages from the CPU side.
 Migration to and from device memory
 ===================================
 
-Because the CPU cannot access device memory, migration must use the device DMA
-engine to perform copy from and to device memory. For this we need to use
-migrate_vma_setup(), migrate_vma_pages(), and migrate_vma_finalize() helpers.
-
+Because the CPU cannot access device memory directly, the device driver must
+use hardware DMA or device specific load/store instructions to migrate data.
+The migrate_vma_setup(), migrate_vma_pages(), and migrate_vma_finalize()
+functions are designed to make drivers easier to write and to centralize common
+code across drivers.
+
+Before migrating pages to device private memory, special device private
+``struct page`` need to be created. These will be used as special "swap"
+page table entries so that a CPU process will fault if it tries to access
+a page that has been migrated to device private memory.
+
+These can be allocated and freed with::
+
+    struct resource *res;
+    struct dev_pagemap pagemap;
+
+    res = request_free_mem_region(&iomem_resource, /* number of bytes */,
+                                  "name of driver resource");
+    pagemap.type = MEMORY_DEVICE_PRIVATE;
+    pagemap.range.start = res->start;
+    pagemap.range.end = res->end;
+    pagemap.nr_range = 1;
+    pagemap.ops = &device_devmem_ops;
+    memremap_pages(&pagemap, numa_node_id());
+
+    memunmap_pages(&pagemap);
+    release_mem_region(pagemap.range.start, range_len(&pagemap.range));
+
+There are also devm_request_free_mem_region(), devm_memremap_pages(),
+devm_memunmap_pages(), and devm_release_mem_region() when the resources can
+be tied to a ``struct device``.
+
+The overall migration steps are similar to migrating NUMA pages within system
+memory (see :ref:`Page migration <page_migration>`) but the steps are split
+between device driver specific code and shared common code:
+
+1. ``mmap_read_lock()``
+
+   The device driver has to pass a ``struct vm_area_struct`` to
+   migrate_vma_setup() so the mmap_read_lock() or mmap_write_lock() needs to
+   be held for the duration of the migration.
+
+2. ``migrate_vma_setup(struct migrate_vma *args)``
+
+   The device driver initializes the ``struct migrate_vma`` fields and passes
+   the pointer to migrate_vma_setup(). The ``args->flags`` field is used to
+   filter which source pages should be migrated. For example, setting
+   ``MIGRATE_VMA_SELECT_SYSTEM`` will only migrate system memory and
+   ``MIGRATE_VMA_SELECT_DEVICE_PRIVATE`` will only migrate pages residing in
+   device private memory. If the latter flag is set, the ``args->pgmap_owner``
+   field is used to identify device private pages owned by the driver. This
+   avoids trying to migrate device private pages residing in other devices.
+   Currently only anonymous private VMA ranges can be migrated to or from
+   system memory and device private memory.
+
+   One of the first steps migrate_vma_setup() does is to invalidate other
+   device's MMUs with the ``mmu_notifier_invalidate_range_start(()`` and
+   ``mmu_notifier_invalidate_range_end()`` calls around the page table
+   walks to fill in the ``args->src`` array with PFNs to be migrated.
+   The ``invalidate_range_start()`` callback is passed a
+   ``struct mmu_notifier_range`` with the ``event`` field set to
+   ``MMU_NOTIFY_MIGRATE`` and the ``migrate_pgmap_owner`` field set to
+   the ``args->pgmap_owner`` field passed to migrate_vma_setup(). This is
+   allows the device driver to skip the invalidation callback and only
+   invalidate device private MMU mappings that are actually migrating.
+   This is explained more in the next section.
+
+   While walking the page tables, a ``pte_none()`` or ``is_zero_pfn()``
+   entry results in a valid "zero" PFN stored in the ``args->src`` array.
+   This lets the driver allocate device private memory and clear it instead
+   of copying a page of zeros. Valid PTE entries to system memory or
+   device private struct pages will be locked with ``lock_page()``, isolated
+   from the LRU (if system memory since device private pages are not on
+   the LRU), unmapped from the process, and a special migration PTE is
+   inserted in place of the original PTE.
+   migrate_vma_setup() also clears the ``args->dst`` array.
+
+3. The device driver allocates destination pages and copies source pages to
+   destination pages.
+
+   The driver checks each ``src`` entry to see if the ``MIGRATE_PFN_MIGRATE``
+   bit is set and skips entries that are not migrating. The device driver
+   can also choose to skip migrating a page by not filling in the ``dst``
+   array for that page.
+
+   The driver then allocates either a device private struct page or a
+   system memory page, locks the page with ``lock_page()``, and fills in the
+   ``dst`` array entry with::
+
+   dst[i] = migrate_pfn(page_to_pfn(dpage)) | MIGRATE_PFN_LOCKED;
+
+   Now that the driver knows that this page is being migrated, it can
+   invalidate device private MMU mappings and copy device private memory
+   to system memory or another device private page. The core Linux kernel
+   handles CPU page table invalidations so the device driver only has to
+   invalidate its own MMU mappings.
+
+   The driver can use ``migrate_pfn_to_page(src[i])`` to get the
+   ``struct page`` of the source and either copy the source page to the
+   destination or clear the destination device private memory if the pointer
+   is ``NULL`` meaning the source page was not populated in system memory.
+
+4. ``migrate_vma_pages()``
+
+   This step is where the migration is actually "committed".
+
+   If the source page was a ``pte_none()`` or ``is_zero_pfn()`` page, this
+   is where the newly allocated page is inserted into the CPU's page table.
+   This can fail if a CPU thread faults on the same page. However, the page
+   table is locked and only one of the new pages will be inserted.
+   The device driver will see that the ``MIGRATE_PFN_MIGRATE`` bit is cleared
+   if it loses the race.
+
+   If the source page was locked, isolated, etc. the source ``struct page``
+   information is now copied to destination ``struct page`` finalizing the
+   migration on the CPU side.
+
+5. Device driver updates device MMU page tables for pages still migrating,
+   rolling back pages not migrating.
+
+   If the ``src`` entry still has ``MIGRATE_PFN_MIGRATE`` bit set, the device
+   driver can update the device MMU and set the write enable bit if the
+   ``MIGRATE_PFN_WRITE`` bit is set.
+
+6. ``migrate_vma_finalize()``
+
+   This step replaces the special migration page table entry with the new
+   page's page table entry and releases the reference to the source and
+   destination ``struct page``.
+
+7. ``mmap_read_unlock()``
+
+   The lock can now be released.
 
 Memory cgroup (memcg) and rss accounting
 ========================================
index 611140f..eff5fbd 100644 (file)
@@ -29,6 +29,7 @@ descriptions of data structures and algorithms.
    :maxdepth: 1
 
    active_mm
+   arch_pgtable_helpers
    balance
    cleancache
    free_page_reporting
index 68883ac..91a98a6 100644 (file)
@@ -4,25 +4,28 @@
 Page migration
 ==============
 
-Page migration allows the moving of the physical location of pages between
-nodes in a numa system while the process is running. This means that the
+Page migration allows moving the physical location of pages between
+nodes in a NUMA system while the process is running. This means that the
 virtual addresses that the process sees do not change. However, the
 system rearranges the physical location of those pages.
 
-The main intend of page migration is to reduce the latency of memory access
+Also see :ref:`Heterogeneous Memory Management (HMM) <hmm>`
+for migrating pages to or from device private memory.
+
+The main intent of page migration is to reduce the latency of memory accesses
 by moving pages near to the processor where the process accessing that memory
 is running.
 
 Page migration allows a process to manually relocate the node on which its
 pages are located through the MF_MOVE and MF_MOVE_ALL options while setting
-a new memory policy via mbind(). The pages of process can also be relocated
+a new memory policy via mbind(). The pages of process can also be relocated
 from another process using the sys_migrate_pages() function call. The
-migrate_pages function call takes two sets of nodes and moves pages of a
+migrate_pages() function call takes two sets of nodes and moves pages of a
 process that are located on the from nodes to the destination nodes.
 Page migration functions are provided by the numactl package by Andi Kleen
 (a version later than 0.9.3 is required. Get it from
-ftp://oss.sgi.com/www/projects/libnuma/download/). numactl provides libnuma
-which provides an interface similar to other numa functionality for page
+https://github.com/numactl/numactl.git). numactl provides libnuma
+which provides an interface similar to other NUMA functionality for page
 migration.  cat ``/proc/<pid>/numa_maps`` allows an easy review of where the
 pages of a process are located. See also the numa_maps documentation in the
 proc(5) man page.
@@ -30,19 +33,19 @@ proc(5) man page.
 Manual migration is useful if for example the scheduler has relocated
 a process to a processor on a distant node. A batch scheduler or an
 administrator may detect the situation and move the pages of the process
-nearer to the new processor. The kernel itself does only provide
+nearer to the new processor. The kernel itself only provides
 manual page migration support. Automatic page migration may be implemented
 through user space processes that move pages. A special function call
 "move_pages" allows the moving of individual pages within a process.
-A NUMA profiler may f.e. obtain a log showing frequent off node
+For example, A NUMA profiler may obtain a log showing frequent off-node
 accesses and may use the result to move pages to more advantageous
 locations.
 
 Larger installations usually partition the system using cpusets into
 sections of nodes. Paul Jackson has equipped cpusets with the ability to
 move pages when a task is moved to another cpuset (See
-Documentation/admin-guide/cgroup-v1/cpusets.rst).
-Cpusets allows the automation of process locality. If a task is moved to
+:ref:`CPUSETS <cpusets>`).
+Cpusets allow the automation of process locality. If a task is moved to
 a new cpuset then also all its pages are moved with it so that the
 performance of the process does not sink dramatically. Also the pages
 of processes in a cpuset are moved if the allowed memory nodes of a
@@ -67,9 +70,9 @@ In kernel use of migrate_pages()
    Lists of pages to be migrated are generated by scanning over
    pages and moving them into lists. This is done by
    calling isolate_lru_page().
-   Calling isolate_lru_page increases the references to the page
+   Calling isolate_lru_page() increases the references to the page
    so that it cannot vanish while the page migration occurs.
-   It also prevents the swapper or other scans to encounter
+   It also prevents the swapper or other scans from encountering
    the page.
 
 2. We need to have a function of type new_page_t that can be
@@ -91,23 +94,24 @@ is increased so that the page cannot be freed while page migration occurs.
 
 Steps:
 
-1. Lock the page to be migrated
+1. Lock the page to be migrated.
 
 2. Ensure that writeback is complete.
 
 3. Lock the new page that we want to move to. It is locked so that accesses to
-   this (not yet uptodate) page immediately lock while the move is in progress.
+   this (not yet uptodate) page immediately block while the move is in progress.
 
 4. All the page table references to the page are converted to migration
    entries. This decreases the mapcount of a page. If the resulting
    mapcount is not zero then we do not migrate the page. All user space
-   processes that attempt to access the page will now wait on the page lock.
+   processes that attempt to access the page will now wait on the page lock
+   or wait for the migration page table entry to be removed.
 
 5. The i_pages lock is taken. This will cause all processes trying
    to access the page via the mapping to block on the spinlock.
 
-6. The refcount of the page is examined and we back out if references remain
-   otherwise we know that we are the only one referencing this page.
+6. The refcount of the page is examined and we back out if references remain.
+   Otherwise, we know that we are the only one referencing this page.
 
 7. The radix tree is checked and if it does not contain the pointer to this
    page then we back out because someone else modified the radix tree.
@@ -134,124 +138,124 @@ Steps:
 
 15. Queued up writeback on the new page is triggered.
 
-16. If migration entries were page then replace them with real ptes. Doing
-    so will enable access for user space processes not already waiting for
-    the page lock.
+16. If migration entries were inserted into the page table, then replace them
+    with real ptes. Doing so will enable access for user space processes not
+    already waiting for the page lock.
 
-19. The page locks are dropped from the old and new page.
+17. The page locks are dropped from the old and new page.
     Processes waiting on the page lock will redo their page faults
     and will reach the new page.
 
-20. The new page is moved to the LRU and can be scanned by the swapper
-    etc again.
+18. The new page is moved to the LRU and can be scanned by the swapper,
+    etc. again.
 
 Non-LRU page migration
 ======================
 
-Although original migration aimed for reducing the latency of memory access
-for NUMA, compaction who want to create high-order page is also main customer.
+Although migration originally aimed for reducing the latency of memory accesses
+for NUMA, compaction also uses migration to create high-order pages.
 
 Current problem of the implementation is that it is designed to migrate only
-*LRU* pages. However, there are potential non-lru pages which can be migrated
+*LRU* pages. However, there are potential non-LRU pages which can be migrated
 in drivers, for example, zsmalloc, virtio-balloon pages.
 
 For virtio-balloon pages, some parts of migration code path have been hooked
 up and added virtio-balloon specific functions to intercept migration logics.
 It's too specific to a driver so other drivers who want to make their pages
-movable would have to add own specific hooks in migration path.
+movable would have to add their own specific hooks in the migration path.
 
-To overclome the problem, VM supports non-LRU page migration which provides
+To overcome the problem, VM supports non-LRU page migration which provides
 generic functions for non-LRU movable pages without driver specific hooks
-migration path.
+in the migration path.
 
-If a driver want to make own pages movable, it should define three functions
+If a driver wants to make its pages movable, it should define three functions
 which are function pointers of struct address_space_operations.
 
 1. ``bool (*isolate_page) (struct page *page, isolate_mode_t mode);``
 
-   What VM expects on isolate_page function of driver is to return *true*
-   if driver isolates page successfully. On returing true, VM marks the page
+   What VM expects from isolate_page() function of driver is to return *true*
+   if driver isolates the page successfully. On returning true, VM marks the page
    as PG_isolated so concurrent isolation in several CPUs skip the page
    for isolation. If a driver cannot isolate the page, it should return *false*.
 
    Once page is successfully isolated, VM uses page.lru fields so driver
-   shouldn't expect to preserve values in that fields.
+   shouldn't expect to preserve values in those fields.
 
 2. ``int (*migratepage) (struct address_space *mapping,``
 |      ``struct page *newpage, struct page *oldpage, enum migrate_mode);``
 
-   After isolation, VM calls migratepage of driver with isolated page.
-   The function of migratepage is to move content of the old page to new page
+   After isolation, VM calls migratepage() of driver with the isolated page.
+   The function of migratepage() is to move the contents of the old page to the
+   new page
    and set up fields of struct page newpage. Keep in mind that you should
    indicate to the VM the oldpage is no longer movable via __ClearPageMovable()
-   under page_lock if you migrated the oldpage successfully and returns
+   under page_lock if you migrated the oldpage successfully and returned
    MIGRATEPAGE_SUCCESS. If driver cannot migrate the page at the moment, driver
    can return -EAGAIN. On -EAGAIN, VM will retry page migration in a short time
-   because VM interprets -EAGAIN as "temporal migration failure". On returning
-   any error except -EAGAIN, VM will give up the page migration without retrying
-   in this time.
+   because VM interprets -EAGAIN as "temporary migration failure". On returning
+   any error except -EAGAIN, VM will give up the page migration without
+   retrying.
 
-   Driver shouldn't touch page.lru field VM using in the functions.
+   Driver shouldn't touch the page.lru field while in the migratepage() function.
 
 3. ``void (*putback_page)(struct page *);``
 
-   If migration fails on isolated page, VM should return the isolated page
-   to the driver so VM calls driver's putback_page with migration failed page.
-   In this function, driver should put the isolated page back to the own data
+   If migration fails on the isolated page, VM should return the isolated page
+   to the driver so VM calls the driver's putback_page() with the isolated page.
+   In this function, the driver should put the isolated page back into its own data
    structure.
 
-4. non-lru movable page flags
+4. non-LRU movable page flags
 
-   There are two page flags for supporting non-lru movable page.
+   There are two page flags for supporting non-LRU movable page.
 
    * PG_movable
 
-     Driver should use the below function to make page movable under page_lock::
+     Driver should use the function below to make page movable under page_lock::
 
        void __SetPageMovable(struct page *page, struct address_space *mapping)
 
      It needs argument of address_space for registering migration
      family functions which will be called by VM. Exactly speaking,
-     PG_movable is not a real flag of struct page. Rather than, VM
-     reuses page->mapping's lower bits to represent it.
+     PG_movable is not a real flag of struct page. Rather, VM
+     reuses the page->mapping's lower bits to represent it::
 
-::
        #define PAGE_MAPPING_MOVABLE 0x2
        page->mapping = page->mapping | PAGE_MAPPING_MOVABLE;
 
      so driver shouldn't access page->mapping directly. Instead, driver should
-     use page_mapping which mask off the low two bits of page->mapping under
-     page lock so it can get right struct address_space.
-
-     For testing of non-lru movable page, VM supports __PageMovable function.
-     However, it doesn't guarantee to identify non-lru movable page because
-     page->mapping field is unified with other variables in struct page.
-     As well, if driver releases the page after isolation by VM, page->mapping
-     doesn't have stable value although it has PAGE_MAPPING_MOVABLE
-     (Look at __ClearPageMovable). But __PageMovable is cheap to catch whether
-     page is LRU or non-lru movable once the page has been isolated. Because
-     LRU pages never can have PAGE_MAPPING_MOVABLE in page->mapping. It is also
-     good for just peeking to test non-lru movable pages before more expensive
-     checking with lock_page in pfn scanning to select victim.
-
-     For guaranteeing non-lru movable page, VM provides PageMovable function.
-     Unlike __PageMovable, PageMovable functions validates page->mapping and
-     mapping->a_ops->isolate_page under lock_page. The lock_page prevents sudden
-     destroying of page->mapping.
-
-     Driver using __SetPageMovable should clear the flag via __ClearMovablePage
-     under page_lock before the releasing the page.
+     use page_mapping() which masks off the low two bits of page->mapping under
+     page lock so it can get the right struct address_space.
+
+     For testing of non-LRU movable pages, VM supports __PageMovable() function.
+     However, it doesn't guarantee to identify non-LRU movable pages because
+     the page->mapping field is unified with other variables in struct page.
+     If the driver releases the page after isolation by VM, page->mapping
+     doesn't have a stable value although it has PAGE_MAPPING_MOVABLE set
+     (look at __ClearPageMovable). But __PageMovable() is cheap to call whether
+     page is LRU or non-LRU movable once the page has been isolated because LRU
+     pages can never have PAGE_MAPPING_MOVABLE set in page->mapping. It is also
+     good for just peeking to test non-LRU movable pages before more expensive
+     checking with lock_page() in pfn scanning to select a victim.
+
+     For guaranteeing non-LRU movable page, VM provides PageMovable() function.
+     Unlike __PageMovable(), PageMovable() validates page->mapping and
+     mapping->a_ops->isolate_page under lock_page(). The lock_page() prevents
+     sudden destroying of page->mapping.
+
+     Drivers using __SetPageMovable() should clear the flag via
+     __ClearMovablePage() under page_lock() before the releasing the page.
 
    * PG_isolated
 
      To prevent concurrent isolation among several CPUs, VM marks isolated page
-     as PG_isolated under lock_page. So if a CPU encounters PG_isolated non-lru
-     movable page, it can skip it. Driver doesn't need to manipulate the flag
-     because VM will set/clear it automatically. Keep in mind that if driver
-     sees PG_isolated page, it means the page have been isolated by VM so it
-     shouldn't touch page.lru field.
-     PG_isolated is alias with PG_reclaim flag so driver shouldn't use the flag
-     for own purpose.
+     as PG_isolated under lock_page(). So if a CPU encounters PG_isolated
+     non-LRU movable page, it can skip it. Driver doesn't need to manipulate the
+     flag because VM will set/clear it automatically. Keep in mind that if the
+     driver sees a PG_isolated page, it means the page has been isolated by the
+     VM so it shouldn't touch the page.lru field.
+     The PG_isolated flag is aliased with the PG_reclaim flag so drivers
+     shouldn't use PG_isolated for its own purposes.
 
 Monitoring Migration
 =====================
@@ -266,8 +270,8 @@ The following events (counters) can be used to monitor page migration.
    512.
 
 2. PGMIGRATE_FAIL: Normal page migration failure. Same counting rules as for
-   _SUCCESS, above: this will be increased by the number of subpages, if it was
-   a THP.
+   PGMIGRATE_SUCCESS, above: this will be increased by the number of subpages,
+   if it was a THP.
 
 3. THP_MIGRATION_SUCCESS: A THP was migrated without being split.
 
index 849fad6..54f13ad 100644 (file)
@@ -103,8 +103,10 @@ watch that specific key).
 
 To manage a watch list, the following functions are provided:
 
-  * ``void init_watch_list(struct watch_list *wlist,
-                          void (*release_watch)(struct watch *wlist));``
+  * ::
+
+       void init_watch_list(struct watch_list *wlist,
+                            void (*release_watch)(struct watch *wlist));
 
     Initialise a watch list.  If ``release_watch`` is not NULL, then this
     indicates a function that should be called when the watch_list object is
@@ -179,9 +181,11 @@ The following functions are provided to manage watches:
     driver-settable fields in the watch struct must have been set before this
     is called.
 
-  * ``int remove_watch_from_object(struct watch_list *wlist,
-                                  struct watch_queue *wqueue,
-                                  u64 id, false);``
+  * ::
+
+       int remove_watch_from_object(struct watch_list *wlist,
+                                    struct watch_queue *wqueue,
+                                    u64 id, false);
 
     Remove a watch from a watch list, where the watch must match the specified
     watch queue (``wqueue``) and object identifier (``id``).  A notification
index 7fafc7a..abb9fc1 100644 (file)
@@ -1342,8 +1342,8 @@ follow::
 
 In addition to read/modify/write the setup header of the struct
 boot_params as that of 16-bit boot protocol, the boot loader should
-also fill the additional fields of the struct boot_params as that
-described in zero-page.txt.
+also fill the additional fields of the struct boot_params as
+described in chapter :doc:`zero-page`.
 
 After setting up the struct boot_params, the boot loader can load the
 32/64-bit kernel in the same way as that of 16-bit boot protocol.
@@ -1379,7 +1379,7 @@ can be calculated as follows::
 In addition to read/modify/write the setup header of the struct
 boot_params as that of 16-bit boot protocol, the boot loader should
 also fill the additional fields of the struct boot_params as described
-in zero-page.txt.
+in chapter :doc:`zero-page`.
 
 After setting up the struct boot_params, the boot loader can load
 64-bit kernel in the same way as that of 16-bit boot protocol, but
diff --git a/Documentation/x86/cpuinfo.rst b/Documentation/x86/cpuinfo.rst
new file mode 100644 (file)
index 0000000..5d54c39
--- /dev/null
@@ -0,0 +1,155 @@
+.. SPDX-License-Identifier: GPL-2.0
+
+=================
+x86 Feature Flags
+=================
+
+Introduction
+============
+
+On x86, flags appearing in /proc/cpuinfo have an X86_FEATURE definition
+in arch/x86/include/asm/cpufeatures.h. If the kernel cares about a feature
+or KVM want to expose the feature to a KVM guest, it can and should have
+an X86_FEATURE_* defined. These flags represent hardware features as
+well as software features.
+
+If users want to know if a feature is available on a given system, they
+try to find the flag in /proc/cpuinfo. If a given flag is present, it
+means that the kernel supports it and is currently making it available.
+If such flag represents a hardware feature, it also means that the
+hardware supports it.
+
+If the expected flag does not appear in /proc/cpuinfo, things are murkier.
+Users need to find out the reason why the flag is missing and find the way
+how to enable it, which is not always easy. There are several factors that
+can explain missing flags: the expected feature failed to enable, the feature
+is missing in hardware, platform firmware did not enable it, the feature is
+disabled at build or run time, an old kernel is in use, or the kernel does
+not support the feature and thus has not enabled it. In general, /proc/cpuinfo
+shows features which the kernel supports. For a full list of CPUID flags
+which the CPU supports, use tools/arch/x86/kcpuid.
+
+How are feature flags created?
+==============================
+
+a: Feature flags can be derived from the contents of CPUID leaves.
+------------------------------------------------------------------
+These feature definitions are organized mirroring the layout of CPUID
+leaves and grouped in words with offsets as mapped in enum cpuid_leafs
+in cpufeatures.h (see arch/x86/include/asm/cpufeatures.h for details).
+If a feature is defined with a X86_FEATURE_<name> definition in
+cpufeatures.h, and if it is detected at run time, the flags will be
+displayed accordingly in /proc/cpuinfo. For example, the flag "avx2"
+comes from X86_FEATURE_AVX2 in cpufeatures.h.
+
+b: Flags can be from scattered CPUID-based features.
+----------------------------------------------------
+Hardware features enumerated in sparsely populated CPUID leaves get
+software-defined values. Still, CPUID needs to be queried to determine
+if a given feature is present. This is done in init_scattered_cpuid_features().
+For instance, X86_FEATURE_CQM_LLC is defined as 11*32 + 0 and its presence is
+checked at runtime in the respective CPUID leaf [EAX=f, ECX=0] bit EDX[1].
+
+The intent of scattering CPUID leaves is to not bloat struct
+cpuinfo_x86.x86_capability[] unnecessarily. For instance, the CPUID leaf
+[EAX=7, ECX=0] has 30 features and is dense, but the CPUID leaf [EAX=7, EAX=1]
+has only one feature and would waste 31 bits of space in the x86_capability[]
+array. Since there is a struct cpuinfo_x86 for each possible CPU, the wasted
+memory is not trivial.
+
+c: Flags can be created synthetically under certain conditions for hardware features.
+-------------------------------------------------------------------------------------
+Examples of conditions include whether certain features are present in
+MSR_IA32_CORE_CAPS or specific CPU models are identified. If the needed
+conditions are met, the features are enabled by the set_cpu_cap or
+setup_force_cpu_cap macros. For example, if bit 5 is set in MSR_IA32_CORE_CAPS,
+the feature X86_FEATURE_SPLIT_LOCK_DETECT will be enabled and
+"split_lock_detect" will be displayed. The flag "ring3mwait" will be
+displayed only when running on INTEL_FAM6_XEON_PHI_[KNL|KNM] processors.
+
+d: Flags can represent purely software features.
+------------------------------------------------
+These flags do not represent hardware features. Instead, they represent a
+software feature implemented in the kernel. For example, Kernel Page Table
+Isolation is purely software feature and its feature flag X86_FEATURE_PTI is
+also defined in cpufeatures.h.
+
+Naming of Flags
+===============
+
+The script arch/x86/kernel/cpu/mkcapflags.sh processes the
+#define X86_FEATURE_<name> from cpufeatures.h and generates the
+x86_cap/bug_flags[] arrays in kernel/cpu/capflags.c. The names in the
+resulting x86_cap/bug_flags[] are used to populate /proc/cpuinfo. The naming
+of flags in the x86_cap/bug_flags[] are as follows:
+
+a: The name of the flag is from the string in X86_FEATURE_<name> by default.
+----------------------------------------------------------------------------
+By default, the flag <name> in /proc/cpuinfo is extracted from the respective
+X86_FEATURE_<name> in cpufeatures.h. For example, the flag "avx2" is from
+X86_FEATURE_AVX2.
+
+b: The naming can be overridden.
+--------------------------------
+If the comment on the line for the #define X86_FEATURE_* starts with a
+double-quote character (""), the string inside the double-quote characters
+will be the name of the flags. For example, the flag "sse4_1" comes from
+the comment "sse4_1" following the X86_FEATURE_XMM4_1 definition.
+
+There are situations in which overriding the displayed name of the flag is
+needed. For instance, /proc/cpuinfo is a userspace interface and must remain
+constant. If, for some reason, the naming of X86_FEATURE_<name> changes, one
+shall override the new naming with the name already used in /proc/cpuinfo.
+
+c: The naming override can be "", which means it will not appear in /proc/cpuinfo.
+----------------------------------------------------------------------------------
+The feature shall be omitted from /proc/cpuinfo if it does not make sense for
+the feature to be exposed to userspace. For example, X86_FEATURE_ALWAYS is
+defined in cpufeatures.h but that flag is an internal kernel feature used
+in the alternative runtime patching functionality. So, its name is overridden
+with "". Its flag will not appear in /proc/cpuinfo.
+
+Flags are missing when one or more of these happen
+==================================================
+
+a: The hardware does not enumerate support for it.
+--------------------------------------------------
+For example, when a new kernel is running on old hardware or the feature is
+not enabled by boot firmware. Even if the hardware is new, there might be a
+problem enabling the feature at run time, the flag will not be displayed.
+
+b: The kernel does not know about the flag.
+-------------------------------------------
+For example, when an old kernel is running on new hardware.
+
+c: The kernel disabled support for it at compile-time.
+------------------------------------------------------
+For example, if 5-level-paging is not enabled when building (i.e.,
+CONFIG_X86_5LEVEL is not selected) the flag "la57" will not show up [#f1]_.
+Even though the feature will still be detected via CPUID, the kernel disables
+it by clearing via setup_clear_cpu_cap(X86_FEATURE_LA57).
+
+d: The feature is disabled at boot-time.
+----------------------------------------
+A feature can be disabled either using a command-line parameter or because
+it failed to be enabled. The command-line parameter clearcpuid= can be used
+to disable features using the feature number as defined in
+/arch/x86/include/asm/cpufeatures.h. For instance, User Mode Instruction
+Protection can be disabled using clearcpuid=514. The number 514 is calculated
+from #define X86_FEATURE_UMIP (16*32 + 2).
+
+In addition, there exists a variety of custom command-line parameters that
+disable specific features. The list of parameters includes, but is not limited
+to, nofsgsbase, nosmap, and nosmep. 5-level paging can also be disabled using
+"no5lvl". SMAP and SMEP are disabled with the aforementioned parameters,
+respectively.
+
+e: The feature was known to be non-functional.
+----------------------------------------------
+The feature was known to be non-functional because a dependency was
+missing at runtime. For example, AVX flags will not show up if XSAVE feature
+is disabled since they depend on XSAVE feature. Another example would be broken
+CPUs and them missing microcode patches. Due to that, the kernel decides not to
+enable a feature.
+
+.. [#f1] 5-level paging uses linear address of 57 bits.
index 265d9e9..740ee7f 100644 (file)
@@ -9,6 +9,7 @@ x86-specific Documentation
    :numbered:
 
    boot
+   cpuinfo
    topology
    exception-tables
    kernel-stacks
@@ -30,3 +31,4 @@ x86-specific Documentation
    usb-legacy-support
    i386/index
    x86_64/index
+   sva
index 5368ced..e59b7b9 100644 (file)
@@ -138,6 +138,18 @@ with respect to allocation:
                non-linear. This field is purely informational
                only.
 
+"thread_throttle_mode":
+               Indicator on Intel systems of how tasks running on threads
+               of a physical core are throttled in cases where they
+               request different memory bandwidth percentages:
+
+               "max":
+                       the smallest percentage is applied
+                       to all threads
+               "per-thread":
+                       bandwidth percentages are directly applied to
+                       the threads running on the core
+
 If RDT monitoring is available there will be an "L3_MON" directory
 with the following files:
 
@@ -364,8 +376,10 @@ to the next control step available on the hardware.
 
 The bandwidth throttling is a core specific mechanism on some of Intel
 SKUs. Using a high bandwidth and a low bandwidth setting on two threads
-sharing a core will result in both threads being throttled to use the
-low bandwidth. The fact that Memory bandwidth allocation(MBA) is a core
+sharing a core may result in both threads being throttled to use the
+low bandwidth (see "thread_throttle_mode").
+
+The fact that Memory bandwidth allocation(MBA) may be a core
 specific mechanism where as memory bandwidth monitoring(MBM) is done at
 the package level may lead to confusion when users try to apply control
 via the MBA and then monitor the bandwidth to see if the controls are
diff --git a/Documentation/x86/sva.rst b/Documentation/x86/sva.rst
new file mode 100644 (file)
index 0000000..076efd5
--- /dev/null
@@ -0,0 +1,257 @@
+.. SPDX-License-Identifier: GPL-2.0
+
+===========================================
+Shared Virtual Addressing (SVA) with ENQCMD
+===========================================
+
+Background
+==========
+
+Shared Virtual Addressing (SVA) allows the processor and device to use the
+same virtual addresses avoiding the need for software to translate virtual
+addresses to physical addresses. SVA is what PCIe calls Shared Virtual
+Memory (SVM).
+
+In addition to the convenience of using application virtual addresses
+by the device, it also doesn't require pinning pages for DMA.
+PCIe Address Translation Services (ATS) along with Page Request Interface
+(PRI) allow devices to function much the same way as the CPU handling
+application page-faults. For more information please refer to the PCIe
+specification Chapter 10: ATS Specification.
+
+Use of SVA requires IOMMU support in the platform. IOMMU is also
+required to support the PCIe features ATS and PRI. ATS allows devices
+to cache translations for virtual addresses. The IOMMU driver uses the
+mmu_notifier() support to keep the device TLB cache and the CPU cache in
+sync. When an ATS lookup fails for a virtual address, the device should
+use the PRI in order to request the virtual address to be paged into the
+CPU page tables. The device must use ATS again in order the fetch the
+translation before use.
+
+Shared Hardware Workqueues
+==========================
+
+Unlike Single Root I/O Virtualization (SR-IOV), Scalable IOV (SIOV) permits
+the use of Shared Work Queues (SWQ) by both applications and Virtual
+Machines (VM's). This allows better hardware utilization vs. hard
+partitioning resources that could result in under utilization. In order to
+allow the hardware to distinguish the context for which work is being
+executed in the hardware by SWQ interface, SIOV uses Process Address Space
+ID (PASID), which is a 20-bit number defined by the PCIe SIG.
+
+PASID value is encoded in all transactions from the device. This allows the
+IOMMU to track I/O on a per-PASID granularity in addition to using the PCIe
+Resource Identifier (RID) which is the Bus/Device/Function.
+
+
+ENQCMD
+======
+
+ENQCMD is a new instruction on Intel platforms that atomically submits a
+work descriptor to a device. The descriptor includes the operation to be
+performed, virtual addresses of all parameters, virtual address of a completion
+record, and the PASID (process address space ID) of the current process.
+
+ENQCMD works with non-posted semantics and carries a status back if the
+command was accepted by hardware. This allows the submitter to know if the
+submission needs to be retried or other device specific mechanisms to
+implement fairness or ensure forward progress should be provided.
+
+ENQCMD is the glue that ensures applications can directly submit commands
+to the hardware and also permits hardware to be aware of application context
+to perform I/O operations via use of PASID.
+
+Process Address Space Tagging
+=============================
+
+A new thread-scoped MSR (IA32_PASID) provides the connection between
+user processes and the rest of the hardware. When an application first
+accesses an SVA-capable device, this MSR is initialized with a newly
+allocated PASID. The driver for the device calls an IOMMU-specific API
+that sets up the routing for DMA and page-requests.
+
+For example, the Intel Data Streaming Accelerator (DSA) uses
+iommu_sva_bind_device(), which will do the following:
+
+- Allocate the PASID, and program the process page-table (%cr3 register) in the
+  PASID context entries.
+- Register for mmu_notifier() to track any page-table invalidations to keep
+  the device TLB in sync. For example, when a page-table entry is invalidated,
+  the IOMMU propagates the invalidation to the device TLB. This will force any
+  future access by the device to this virtual address to participate in
+  ATS. If the IOMMU responds with proper response that a page is not
+  present, the device would request the page to be paged in via the PCIe PRI
+  protocol before performing I/O.
+
+This MSR is managed with the XSAVE feature set as "supervisor state" to
+ensure the MSR is updated during context switch.
+
+PASID Management
+================
+
+The kernel must allocate a PASID on behalf of each process which will use
+ENQCMD and program it into the new MSR to communicate the process identity to
+platform hardware.  ENQCMD uses the PASID stored in this MSR to tag requests
+from this process.  When a user submits a work descriptor to a device using the
+ENQCMD instruction, the PASID field in the descriptor is auto-filled with the
+value from MSR_IA32_PASID. Requests for DMA from the device are also tagged
+with the same PASID. The platform IOMMU uses the PASID in the transaction to
+perform address translation. The IOMMU APIs setup the corresponding PASID
+entry in IOMMU with the process address used by the CPU (e.g. %cr3 register in
+x86).
+
+The MSR must be configured on each logical CPU before any application
+thread can interact with a device. Threads that belong to the same
+process share the same page tables, thus the same MSR value.
+
+PASID is cleared when a process is created. The PASID allocation and MSR
+programming may occur long after a process and its threads have been created.
+One thread must call iommu_sva_bind_device() to allocate the PASID for the
+process. If a thread uses ENQCMD without the MSR first being populated, a #GP
+will be raised. The kernel will update the PASID MSR with the PASID for all
+threads in the process. A single process PASID can be used simultaneously
+with multiple devices since they all share the same address space.
+
+One thread can call iommu_sva_unbind_device() to free the allocated PASID.
+The kernel will clear the PASID MSR for all threads belonging to the process.
+
+New threads inherit the MSR value from the parent.
+
+Relationships
+=============
+
+ * Each process has many threads, but only one PASID.
+ * Devices have a limited number (~10's to 1000's) of hardware workqueues.
+   The device driver manages allocating hardware workqueues.
+ * A single mmap() maps a single hardware workqueue as a "portal" and
+   each portal maps down to a single workqueue.
+ * For each device with which a process interacts, there must be
+   one or more mmap()'d portals.
+ * Many threads within a process can share a single portal to access
+   a single device.
+ * Multiple processes can separately mmap() the same portal, in
+   which case they still share one device hardware workqueue.
+ * The single process-wide PASID is used by all threads to interact
+   with all devices.  There is not, for instance, a PASID for each
+   thread or each thread<->device pair.
+
+FAQ
+===
+
+* What is SVA/SVM?
+
+Shared Virtual Addressing (SVA) permits I/O hardware and the processor to
+work in the same address space, i.e., to share it. Some call it Shared
+Virtual Memory (SVM), but Linux community wanted to avoid confusing it with
+POSIX Shared Memory and Secure Virtual Machines which were terms already in
+circulation.
+
+* What is a PASID?
+
+A Process Address Space ID (PASID) is a PCIe-defined Transaction Layer Packet
+(TLP) prefix. A PASID is a 20-bit number allocated and managed by the OS.
+PASID is included in all transactions between the platform and the device.
+
+* How are shared workqueues different?
+
+Traditionally, in order for userspace applications to interact with hardware,
+there is a separate hardware instance required per process. For example,
+consider doorbells as a mechanism of informing hardware about work to process.
+Each doorbell is required to be spaced 4k (or page-size) apart for process
+isolation. This requires hardware to provision that space and reserve it in
+MMIO. This doesn't scale as the number of threads becomes quite large. The
+hardware also manages the queue depth for Shared Work Queues (SWQ), and
+consumers don't need to track queue depth. If there is no space to accept
+a command, the device will return an error indicating retry.
+
+A user should check Deferrable Memory Write (DMWr) capability on the device
+and only submits ENQCMD when the device supports it. In the new DMWr PCIe
+terminology, devices need to support DMWr completer capability. In addition,
+it requires all switch ports to support DMWr routing and must be enabled by
+the PCIe subsystem, much like how PCIe atomic operations are managed for
+instance.
+
+SWQ allows hardware to provision just a single address in the device. When
+used with ENQCMD to submit work, the device can distinguish the process
+submitting the work since it will include the PASID assigned to that
+process. This helps the device scale to a large number of processes.
+
+* Is this the same as a user space device driver?
+
+Communicating with the device via the shared workqueue is much simpler
+than a full blown user space driver. The kernel driver does all the
+initialization of the hardware. User space only needs to worry about
+submitting work and processing completions.
+
+* Is this the same as SR-IOV?
+
+Single Root I/O Virtualization (SR-IOV) focuses on providing independent
+hardware interfaces for virtualizing hardware. Hence, it's required to be
+almost fully functional interface to software supporting the traditional
+BARs, space for interrupts via MSI-X, its own register layout.
+Virtual Functions (VFs) are assisted by the Physical Function (PF)
+driver.
+
+Scalable I/O Virtualization builds on the PASID concept to create device
+instances for virtualization. SIOV requires host software to assist in
+creating virtual devices; each virtual device is represented by a PASID
+along with the bus/device/function of the device.  This allows device
+hardware to optimize device resource creation and can grow dynamically on
+demand. SR-IOV creation and management is very static in nature. Consult
+references below for more details.
+
+* Why not just create a virtual function for each app?
+
+Creating PCIe SR-IOV type Virtual Functions (VF) is expensive. VFs require
+duplicated hardware for PCI config space and interrupts such as MSI-X.
+Resources such as interrupts have to be hard partitioned between VFs at
+creation time, and cannot scale dynamically on demand. The VFs are not
+completely independent from the Physical Function (PF). Most VFs require
+some communication and assistance from the PF driver. SIOV, in contrast,
+creates a software-defined device where all the configuration and control
+aspects are mediated via the slow path. The work submission and completion
+happen without any mediation.
+
+* Does this support virtualization?
+
+ENQCMD can be used from within a guest VM. In these cases, the VMM helps
+with setting up a translation table to translate from Guest PASID to Host
+PASID. Please consult the ENQCMD instruction set reference for more
+details.
+
+* Does memory need to be pinned?
+
+When devices support SVA along with platform hardware such as IOMMU
+supporting such devices, there is no need to pin memory for DMA purposes.
+Devices that support SVA also support other PCIe features that remove the
+pinning requirement for memory.
+
+Device TLB support - Device requests the IOMMU to lookup an address before
+use via Address Translation Service (ATS) requests.  If the mapping exists
+but there is no page allocated by the OS, IOMMU hardware returns that no
+mapping exists.
+
+Device requests the virtual address to be mapped via Page Request
+Interface (PRI). Once the OS has successfully completed the mapping, it
+returns the response back to the device. The device requests again for
+a translation and continues.
+
+IOMMU works with the OS in managing consistency of page-tables with the
+device. When removing pages, it interacts with the device to remove any
+device TLB entry that might have been cached before removing the mappings from
+the OS.
+
+References
+==========
+
+VT-D:
+https://01.org/blogs/ashokraj/2018/recent-enhancements-intel-virtualization-technology-directed-i/o-intel-vt-d
+
+SIOV:
+https://01.org/blogs/2019/assignable-interfaces-intel-scalable-i/o-virtualization-linux
+
+ENQCMD in ISE:
+https://software.intel.com/sites/default/files/managed/c5/15/architecture-instruction-set-extensions-programming-reference.pdf
+
+DSA spec:
+https://software.intel.com/sites/default/files/341204-intel-data-streaming-accelerator-spec.pdf
index 33b27e6..b81a3ed 100644 (file)
@@ -802,6 +802,13 @@ S: Maintained
 F:     Documentation/devicetree/bindings/interrupt-controller/amazon,al-fic.txt
 F:     drivers/irqchip/irq-al-fic.c
 
+AMAZON ANNAPURNA LABS MEMORY CONTROLLER EDAC
+M:     Talel Shenhar <talel@amazon.com>
+M:     Talel Shenhar <talelshenhar@gmail.com>
+S:     Maintained
+F:     Documentation/devicetree/bindings/edac/amazon,al-mc-edac.yaml
+F:     drivers/edac/al_mc_edac.c
+
 AMAZON ANNAPURNA LABS THERMAL MMIO DRIVER
 M:     Talel Shenhar <talel@amazon.com>
 S:     Maintained
@@ -1460,6 +1467,11 @@ S:       Odd Fixes
 F:     drivers/amba/
 F:     include/linux/amba/bus.h
 
+ARM PRIMECELL CLCD PL110 DRIVER
+M:     Russell King <linux@armlinux.org.uk>
+S:     Odd Fixes
+F:     drivers/video/fbdev/amba-clcd.*
+
 ARM PRIMECELL KMI PL050 DRIVER
 M:     Russell King <linux@armlinux.org.uk>
 S:     Odd Fixes
@@ -1525,6 +1537,7 @@ F:        Documentation/devicetree/bindings/arm/actions.yaml
 F:     Documentation/devicetree/bindings/clock/actions,owl-cmu.txt
 F:     Documentation/devicetree/bindings/dma/owl-dma.txt
 F:     Documentation/devicetree/bindings/i2c/i2c-owl.txt
+F:     Documentation/devicetree/bindings/interrupt-controller/actions,owl-sirq.yaml
 F:     Documentation/devicetree/bindings/mmc/owl-mmc.yaml
 F:     Documentation/devicetree/bindings/pinctrl/actions,s900-pinctrl.txt
 F:     Documentation/devicetree/bindings/power/actions,owl-sps.txt
@@ -1536,6 +1549,7 @@ F:        drivers/clk/actions/
 F:     drivers/clocksource/timer-owl*
 F:     drivers/dma/owl-dma.c
 F:     drivers/i2c/busses/i2c-owl.c
+F:     drivers/irqchip/irq-owl-sirq.c
 F:     drivers/mmc/host/owl-mmc.c
 F:     drivers/pinctrl/actions/*
 F:     drivers/soc/actions/
@@ -1623,7 +1637,7 @@ N:        meson
 
 ARM/Annapurna Labs ALPINE ARCHITECTURE
 M:     Tsahee Zidenberg <tsahee@annapurnalabs.com>
-M:     Antoine Tenart <antoine.tenart@bootlin.com>
+M:     Antoine Tenart <atenart@kernel.org>
 L:     linux-arm-kernel@lists.infradead.org (moderated for non-subscribers)
 S:     Maintained
 F:     arch/arm/boot/dts/alpine*
@@ -2504,7 +2518,7 @@ S:        Maintained
 F:     drivers/clk/socfpga/
 
 ARM/SOCFPGA EDAC SUPPORT
-M:     Thor Thayer <thor.thayer@linux.intel.com>
+M:     Dinh Nguyen <dinguyen@kernel.org>
 S:     Maintained
 F:     drivers/edac/altera_edac.
 
@@ -6179,7 +6193,7 @@ S:        Supported
 F:     drivers/edac/bluefield_edac.c
 
 EDAC-CALXEDA
-M:     Robert Richter <rric@kernel.org>
+M:     Andre Przywara <andre.przywara@arm.com>
 L:     linux-edac@vger.kernel.org
 S:     Maintained
 F:     drivers/edac/highbank*
@@ -7235,7 +7249,7 @@ F:        drivers/staging/gasket/
 GCC PLUGINS
 M:     Kees Cook <keescook@chromium.org>
 R:     Emese Revfy <re.emese@gmail.com>
-L:     kernel-hardening@lists.openwall.com
+L:     linux-hardening@vger.kernel.org
 S:     Maintained
 F:     Documentation/kbuild/gcc-plugins.rst
 F:     scripts/Makefile.gcc-plugins
@@ -8673,7 +8687,7 @@ F:        drivers/input/input-mt.c
 K:     \b(ABS|SYN)_MT_
 
 INSIDE SECURE CRYPTO DRIVER
-M:     Antoine Tenart <antoine.tenart@bootlin.com>
+M:     Antoine Tenart <atenart@kernel.org>
 L:     linux-crypto@vger.kernel.org
 S:     Maintained
 F:     drivers/crypto/inside-secure/
@@ -8752,7 +8766,8 @@ F:        include/drm/i915*
 F:     include/uapi/drm/i915_drm.h
 
 INTEL ETHERNET DRIVERS
-M:     Jeff Kirsher <jeffrey.t.kirsher@intel.com>
+M:     Jesse Brandeburg <jesse.brandeburg@intel.com>
+M:     Tony Nguyen <anthony.l.nguyen@intel.com>
 L:     intel-wired-lan@lists.osuosl.org (moderated for non-subscribers)
 S:     Supported
 W:     http://www.intel.com/support/feedback.htm
@@ -9796,7 +9811,7 @@ F:        drivers/scsi/53c700*
 LEAKING_ADDRESSES
 M:     Tobin C. Harding <me@tobin.cc>
 M:     Tycho Andersen <tycho@tycho.pizza>
-L:     kernel-hardening@lists.openwall.com
+L:     linux-hardening@vger.kernel.org
 S:     Maintained
 T:     git git://git.kernel.org/pub/scm/linux/kernel/git/tobin/leaks.git
 F:     scripts/leaking_addresses.pl
@@ -11775,6 +11790,13 @@ Q:     http://patchwork.linuxtv.org/project/linux-media/list/
 T:     git git://linuxtv.org/anttip/media_tree.git
 F:     drivers/media/usb/msi2500/
 
+MSTAR INTERRUPT CONTROLLER DRIVER
+M:     Mark-PK Tsai <mark-pk.tsai@mediatek.com>
+M:     Daniel Palmer <daniel@thingy.jp>
+S:     Maintained
+F:     Documentation/devicetree/bindings/interrupt-controller/mstar,mst-intc.yaml
+F:     drivers/irqchip/irq-mst-intc.c
+
 MSYSTEMS DISKONCHIP G3 MTD DRIVER
 M:     Robert Jarzmik <robert.jarzmik@free.fr>
 L:     linux-mtd@lists.infradead.org
@@ -12077,6 +12099,7 @@ NETWORKING [DSA]
 M:     Andrew Lunn <andrew@lunn.ch>
 M:     Vivien Didelot <vivien.didelot@gmail.com>
 M:     Florian Fainelli <f.fainelli@gmail.com>
+M:     Vladimir Oltean <olteanv@gmail.com>
 S:     Maintained
 F:     Documentation/devicetree/bindings/net/dsa/
 F:     drivers/net/dsa/
@@ -13045,7 +13068,9 @@ F:      lib/packing.c
 
 PADATA PARALLEL EXECUTION MECHANISM
 M:     Steffen Klassert <steffen.klassert@secunet.com>
+M:     Daniel Jordan <daniel.m.jordan@oracle.com>
 L:     linux-crypto@vger.kernel.org
+L:     linux-kernel@vger.kernel.org
 S:     Maintained
 F:     Documentation/core-api/padata.rst
 F:     include/linux/padata.h
@@ -14236,7 +14261,7 @@ QLOGIC QLA3XXX NETWORK DRIVER
 M:     GR-Linux-NIC-Dev@marvell.com
 L:     netdev@vger.kernel.org
 S:     Supported
-F:     Documentation/networking/device_drivers/ethernet/qlogic/LICENSE.qla3xxx
+F:     Documentation/networking/device_drivers/qlogic/LICENSE.qla3xxx
 F:     drivers/net/ethernet/qlogic/qla3xxx.*
 
 QLOGIC QLA4XXX iSCSI DRIVER
@@ -15384,6 +15409,7 @@ R:      Dietmar Eggemann <dietmar.eggemann@arm.com> (SCHED_NORMAL)
 R:     Steven Rostedt <rostedt@goodmis.org> (SCHED_FIFO/SCHED_RR)
 R:     Ben Segall <bsegall@google.com> (CONFIG_CFS_BANDWIDTH)
 R:     Mel Gorman <mgorman@suse.de> (CONFIG_NUMA_BALANCING)
+R:     Daniel Bristot de Oliveira <bristot@redhat.com> (SCHED_DEADLINE)
 L:     linux-kernel@vger.kernel.org
 S:     Maintained
 T:     git git://git.kernel.org/pub/scm/linux/kernel/git/tip/tip.git sched/core
@@ -16725,6 +16751,13 @@ S:     Maintained
 F:     Documentation/devicetree/bindings/gpio/snps,dw-apb-gpio.yaml
 F:     drivers/gpio/gpio-dwapb.c
 
+SYNOPSYS DESIGNWARE APB SSI DRIVER
+M:     Serge Semin <fancer.lancer@gmail.com>
+L:     linux-spi@vger.kernel.org
+S:     Supported
+F:     Documentation/devicetree/bindings/spi/snps,dw-apb-ssi.yaml
+F:     drivers/spi/spi-dw*
+
 SYNOPSYS DESIGNWARE AXI DMAC DRIVER
 M:     Eugeniy Paltsev <Eugeniy.Paltsev@synopsys.com>
 S:     Maintained
@@ -17591,7 +17624,7 @@ L:      linux-integrity@vger.kernel.org
 S:     Maintained
 W:     https://kernsec.org/wiki/index.php/Linux_Kernel_Integrity
 Q:     https://patchwork.kernel.org/project/linux-integrity/list/
-T:     git git://git.infradead.org/users/jjs/linux-tpmdd.git
+T:     git git://git.kernel.org/pub/scm/linux/kernel/git/jarkko/linux-tpmdd.git
 F:     drivers/char/tpm/
 
 TRACING
@@ -17728,6 +17761,7 @@ S:      Supported
 W:     http://www.linux-mtd.infradead.org/doc/ubifs.html
 T:     git git://git.kernel.org/pub/scm/linux/kernel/git/rw/ubifs.git next
 T:     git git://git.kernel.org/pub/scm/linux/kernel/git/rw/ubifs.git fixes
+F:     Documentation/filesystems/ubifs-authentication.rst
 F:     Documentation/filesystems/ubifs.rst
 F:     fs/ubifs/
 
@@ -18282,7 +18316,8 @@ F:      drivers/gpu/vga/vga_switcheroo.c
 F:     include/linux/vga_switcheroo.h
 
 VIA RHINE NETWORK DRIVER
-S:     Orphan
+S:     Maintained
+M:     Kevin Brace <kevinbrace@bracecomputerlab.com>
 F:     drivers/net/ethernet/via/via-rhine.c
 
 VIA SD/MMC CARD CONTROLLER DRIVER
@@ -18887,10 +18922,10 @@ T:    git git://git.kernel.org/pub/scm/linux/kernel/git/tip/tip.git x86/mm
 F:     arch/x86/mm/
 
 X86 PLATFORM DRIVERS
-M:     Darren Hart <dvhart@infradead.org>
-M:     Andy Shevchenko <andy@infradead.org>
+M:     Hans de Goede <hdegoede@redhat.com>
+M:     Mark Gross <mgross@linux.intel.com>
 L:     platform-driver-x86@vger.kernel.org
-S:     Odd Fixes
+S:     Maintained
 T:     git git://git.infradead.org/linux-platform-drivers-x86.git
 F:     drivers/platform/olpc/
 F:     drivers/platform/x86/
index f84d7e4..51540b2 100644 (file)
--- a/Makefile
+++ b/Makefile
@@ -2,7 +2,7 @@
 VERSION = 5
 PATCHLEVEL = 9
 SUBLEVEL = 0
-EXTRAVERSION = -rc8
+EXTRAVERSION =
 NAME = Kleptomaniac Octopus
 
 # *DOCUMENTATION*
index af14a56..76ec339 100644 (file)
@@ -106,6 +106,12 @@ config STATIC_KEYS_SELFTEST
        help
          Boot time self-test of the branch patching code.
 
+config STATIC_CALL_SELFTEST
+       bool "Static call selftest"
+       depends on HAVE_STATIC_CALL
+       help
+         Boot time self-test of the call patching code.
+
 config OPTPROBES
        def_bool y
        depends on KPROBES && HAVE_OPTPROBES
@@ -975,6 +981,13 @@ config HAVE_SPARSE_SYSCALL_NR
 config ARCH_HAS_VDSO_DATA
        bool
 
+config HAVE_STATIC_CALL
+       bool
+
+config HAVE_STATIC_CALL_INLINE
+       bool
+       depends on HAVE_STATIC_CALL
+
 source "kernel/gcov/Kconfig"
 
 source "scripts/gcc-plugins/Kconfig"
index 0eac816..99d631e 100644 (file)
@@ -42,9 +42,10 @@ extern __wsum csum_partial(const void *buff, int len, __wsum sum);
  * better 64-bit) boundary
  */
 #define _HAVE_ARCH_COPY_AND_CSUM_FROM_USER
-__wsum csum_and_copy_from_user(const void __user *src, void *dst, int len, __wsum sum, int *errp);
+#define _HAVE_ARCH_CSUM_AND_COPY
+__wsum csum_and_copy_from_user(const void __user *src, void *dst, int len);
 
-__wsum csum_partial_copy_nocheck(const void *src, void *dst, int len, __wsum sum);
+__wsum csum_partial_copy_nocheck(const void *src, void *dst, int len);
 
 
 /*
index bc6f727..5b78d64 100644 (file)
@@ -72,6 +72,7 @@ SECTIONS
 
        STABS_DEBUG
        DWARF_DEBUG
+       ELF_DETAILS
 
        DISCARDS
 }
index af1dad7..dc68efb 100644 (file)
@@ -39,12 +39,11 @@ __asm__ __volatile__("insql %1,%2,%0":"=r" (z):"r" (x),"r" (y))
 #define insqh(x,y,z) \
 __asm__ __volatile__("insqh %1,%2,%0":"=r" (z):"r" (x),"r" (y))
 
-
-#define __get_user_u(x,ptr)                            \
+#define __get_word(insn,x,ptr)                         \
 ({                                                     \
        long __guu_err;                                 \
        __asm__ __volatile__(                           \
-       "1:     ldq_u %0,%2\n"                          \
+       "1:     "#insn" %0,%2\n"                        \
        "2:\n"                                          \
        EXC(1b,2b,%0,%1)                                \
                : "=r"(x), "=r"(__guu_err)              \
@@ -52,19 +51,6 @@ __asm__ __volatile__("insqh %1,%2,%0":"=r" (z):"r" (x),"r" (y))
        __guu_err;                                      \
 })
 
-#define __put_user_u(x,ptr)                            \
-({                                                     \
-       long __puu_err;                                 \
-       __asm__ __volatile__(                           \
-       "1:     stq_u %2,%1\n"                          \
-       "2:\n"                                          \
-       EXC(1b,2b,$31,%0)                               \
-               : "=r"(__puu_err)                       \
-               : "m"(__m(addr)), "rJ"(x), "0"(0));     \
-       __puu_err;                                      \
-})
-
-
 static inline unsigned short from64to16(unsigned long x)
 {
        /* Using extract instructions is a bit more efficient
@@ -95,15 +81,15 @@ static inline unsigned short from64to16(unsigned long x)
  */
 static inline unsigned long
 csum_partial_cfu_aligned(const unsigned long __user *src, unsigned long *dst,
-                        long len, unsigned long checksum,
-                        int *errp)
+                        long len)
 {
+       unsigned long checksum = ~0U;
        unsigned long carry = 0;
-       int err = 0;
 
        while (len >= 0) {
                unsigned long word;
-               err |= __get_user(word, src);
+               if (__get_word(ldq, word, src))
+                       return 0;
                checksum += carry;
                src++;
                checksum += word;
@@ -116,7 +102,8 @@ csum_partial_cfu_aligned(const unsigned long __user *src, unsigned long *dst,
        checksum += carry;
        if (len) {
                unsigned long word, tmp;
-               err |= __get_user(word, src);
+               if (__get_word(ldq, word, src))
+                       return 0;
                tmp = *dst;
                mskql(word, len, word);
                checksum += word;
@@ -125,7 +112,6 @@ csum_partial_cfu_aligned(const unsigned long __user *src, unsigned long *dst,
                *dst = word | tmp;
                checksum += carry;
        }
-       if (err && errp) *errp = err;
        return checksum;
 }
 
@@ -137,20 +123,21 @@ static inline unsigned long
 csum_partial_cfu_dest_aligned(const unsigned long __user *src,
                              unsigned long *dst,
                              unsigned long soff,
-                             long len, unsigned long checksum,
-                             int *errp)
+                             long len)
 {
        unsigned long first;
        unsigned long word, carry;
        unsigned long lastsrc = 7+len+(unsigned long)src;
-       int err = 0;
+       unsigned long checksum = ~0U;
 
-       err |= __get_user_u(first,src);
+       if (__get_word(ldq_u, first,src))
+               return 0;
        carry = 0;
        while (len >= 0) {
                unsigned long second;
 
-               err |= __get_user_u(second, src+1);
+               if (__get_word(ldq_u, second, src+1))
+                       return 0;
                extql(first, soff, word);
                len -= 8;
                src++;
@@ -168,7 +155,8 @@ csum_partial_cfu_dest_aligned(const unsigned long __user *src,
        if (len) {
                unsigned long tmp;
                unsigned long second;
-               err |= __get_user_u(second, lastsrc);
+               if (__get_word(ldq_u, second, lastsrc))
+                       return 0;
                tmp = *dst;
                extql(first, soff, word);
                extqh(second, soff, first);
@@ -180,7 +168,6 @@ csum_partial_cfu_dest_aligned(const unsigned long __user *src,
                *dst = word | tmp;
                checksum += carry;
        }
-       if (err && errp) *errp = err;
        return checksum;
 }
 
@@ -191,18 +178,18 @@ static inline unsigned long
 csum_partial_cfu_src_aligned(const unsigned long __user *src,
                             unsigned long *dst,
                             unsigned long doff,
-                            long len, unsigned long checksum,
-                            unsigned long partial_dest,
-                            int *errp)
+                            long len,
+                            unsigned long partial_dest)
 {
        unsigned long carry = 0;
        unsigned long word;
        unsigned long second_dest;
-       int err = 0;
+       unsigned long checksum = ~0U;
 
        mskql(partial_dest, doff, partial_dest);
        while (len >= 0) {
-               err |= __get_user(word, src);
+               if (__get_word(ldq, word, src))
+                       return 0;
                len -= 8;
                insql(word, doff, second_dest);
                checksum += carry;
@@ -216,7 +203,8 @@ csum_partial_cfu_src_aligned(const unsigned long __user *src,
        len += 8;
        if (len) {
                checksum += carry;
-               err |= __get_user(word, src);
+               if (__get_word(ldq, word, src))
+                       return 0;
                mskql(word, len, word);
                len -= 8;
                checksum += word;
@@ -237,7 +225,6 @@ csum_partial_cfu_src_aligned(const unsigned long __user *src,
        stq_u(partial_dest | second_dest, dst);
 out:
        checksum += carry;
-       if (err && errp) *errp = err;
        return checksum;
 }
 
@@ -249,23 +236,23 @@ static inline unsigned long
 csum_partial_cfu_unaligned(const unsigned long __user * src,
                           unsigned long * dst,
                           unsigned long soff, unsigned long doff,
-                          long len, unsigned long checksum,
-                          unsigned long partial_dest,
-                          int *errp)
+                          long len, unsigned long partial_dest)
 {
        unsigned long carry = 0;
        unsigned long first;
        unsigned long lastsrc;
-       int err = 0;
+       unsigned long checksum = ~0U;
 
-       err |= __get_user_u(first, src);
+       if (__get_word(ldq_u, first, src))
+               return 0;
        lastsrc = 7+len+(unsigned long)src;
        mskql(partial_dest, doff, partial_dest);
        while (len >= 0) {
                unsigned long second, word;
                unsigned long second_dest;
 
-               err |= __get_user_u(second, src+1);
+               if (__get_word(ldq_u, second, src+1))
+                       return 0;
                extql(first, soff, word);
                checksum += carry;
                len -= 8;
@@ -286,7 +273,8 @@ csum_partial_cfu_unaligned(const unsigned long __user * src,
                unsigned long second, word;
                unsigned long second_dest;
 
-               err |= __get_user_u(second, lastsrc);
+               if (__get_word(ldq_u, second, lastsrc))
+                       return 0;
                extql(first, soff, word);
                extqh(second, soff, first);
                word |= first;
@@ -307,7 +295,8 @@ csum_partial_cfu_unaligned(const unsigned long __user * src,
                unsigned long second, word;
                unsigned long second_dest;
 
-               err |= __get_user_u(second, lastsrc);
+               if (__get_word(ldq_u, second, lastsrc))
+                       return 0;
                extql(first, soff, word);
                extqh(second, soff, first);
                word |= first;
@@ -320,66 +309,55 @@ csum_partial_cfu_unaligned(const unsigned long __user * src,
                stq_u(partial_dest | word | second_dest, dst);
                checksum += carry;
        }
-       if (err && errp) *errp = err;
        return checksum;
 }
 
-__wsum
-csum_and_copy_from_user(const void __user *src, void *dst, int len,
-                              __wsum sum, int *errp)
+static __wsum __csum_and_copy(const void __user *src, void *dst, int len)
 {
-       unsigned long checksum = (__force u32) sum;
        unsigned long soff = 7 & (unsigned long) src;
        unsigned long doff = 7 & (unsigned long) dst;
-
-       if (len) {
-               if (!access_ok(src, len)) {
-                       if (errp) *errp = -EFAULT;
-                       memset(dst, 0, len);
-                       return sum;
-               }
-               if (!doff) {
-                       if (!soff)
-                               checksum = csum_partial_cfu_aligned(
-                                       (const unsigned long __user *) src,
-                                       (unsigned long *) dst,
-                                       len-8, checksum, errp);
-                       else
-                               checksum = csum_partial_cfu_dest_aligned(
-                                       (const unsigned long __user *) src,
-                                       (unsigned long *) dst,
-                                       soff, len-8, checksum, errp);
-               } else {
-                       unsigned long partial_dest;
-                       ldq_u(partial_dest, dst);
-                       if (!soff)
-                               checksum = csum_partial_cfu_src_aligned(
-                                       (const unsigned long __user *) src,
-                                       (unsigned long *) dst,
-                                       doff, len-8, checksum,
-                                       partial_dest, errp);
-                       else
-                               checksum = csum_partial_cfu_unaligned(
-                                       (const unsigned long __user *) src,
-                                       (unsigned long *) dst,
-                                       soff, doff, len-8, checksum,
-                                       partial_dest, errp);
-               }
-               checksum = from64to16 (checksum);
+       unsigned long checksum;
+
+       if (!doff) {
+               if (!soff)
+                       checksum = csum_partial_cfu_aligned(
+                               (const unsigned long __user *) src,
+                               (unsigned long *) dst, len-8);
+               else
+                       checksum = csum_partial_cfu_dest_aligned(
+                               (const unsigned long __user *) src,
+                               (unsigned long *) dst,
+                               soff, len-8);
+       } else {
+               unsigned long partial_dest;
+               ldq_u(partial_dest, dst);
+               if (!soff)
+                       checksum = csum_partial_cfu_src_aligned(
+                               (const unsigned long __user *) src,
+                               (unsigned long *) dst,
+                               doff, len-8, partial_dest);
+               else
+                       checksum = csum_partial_cfu_unaligned(
+                               (const unsigned long __user *) src,
+                               (unsigned long *) dst,
+                               soff, doff, len-8, partial_dest);
        }
-       return (__force __wsum)checksum;
+       return (__force __wsum)from64to16 (checksum);
+}
+
+__wsum
+csum_and_copy_from_user(const void __user *src, void *dst, int len)
+{
+       if (!access_ok(src, len))
+               return 0;
+       return __csum_and_copy(src, dst, len);
 }
 EXPORT_SYMBOL(csum_and_copy_from_user);
 
 __wsum
-csum_partial_copy_nocheck(const void *src, void *dst, int len, __wsum sum)
+csum_partial_copy_nocheck(const void *src, void *dst, int len)
 {
-       __wsum checksum;
-       mm_segment_t oldfs = get_fs();
-       set_fs(KERNEL_DS);
-       checksum = csum_and_copy_from_user((__force const void __user *)src,
-                                               dst, len, sum, NULL);
-       set_fs(oldfs);
-       return checksum;
+       return __csum_and_copy((__force const void __user *)src,
+                                               dst, len);
 }
 EXPORT_SYMBOL(csum_partial_copy_nocheck);
index 7d3efe8..cabef45 100644 (file)
@@ -388,6 +388,7 @@ void __kprobes arch_prepare_kretprobe(struct kretprobe_instance *ri,
 {
 
        ri->ret_addr = (kprobe_opcode_t *) regs->blink;
+       ri->fp = NULL;
 
        /* Replace the return addr with trampoline addr */
        regs->blink = (unsigned long)&kretprobe_trampoline;
@@ -396,58 +397,7 @@ void __kprobes arch_prepare_kretprobe(struct kretprobe_instance *ri,
 static int __kprobes trampoline_probe_handler(struct kprobe *p,
                                              struct pt_regs *regs)
 {
-       struct kretprobe_instance *ri = NULL;
-       struct hlist_head *head, empty_rp;
-       struct hlist_node *tmp;
-       unsigned long flags, orig_ret_address = 0;
-       unsigned long trampoline_address = (unsigned long)&kretprobe_trampoline;
-
-       INIT_HLIST_HEAD(&empty_rp);
-       kretprobe_hash_lock(current, &head, &flags);
-
-       /*
-        * It is possible to have multiple instances associated with a given
-        * task either because an multiple functions in the call path
-        * have a return probe installed on them, and/or more than one return
-        * return probe was registered for a target function.
-        *
-        * We can handle this because:
-        *     - instances are always inserted at the head of the list
-        *     - when multiple return probes are registered for the same
-        *       function, the first instance's ret_addr will point to the
-        *       real return address, and all the rest will point to
-        *       kretprobe_trampoline
-        */
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               if (ri->rp && ri->rp->handler)
-                       ri->rp->handler(ri, regs);
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-               recycle_rp_inst(ri, &empty_rp);
-
-               if (orig_ret_address != trampoline_address) {
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-               }
-       }
-
-       kretprobe_assert(ri, orig_ret_address, trampoline_address);
-       regs->ret = orig_ret_address;
-
-       kretprobe_hash_unlock(current, &flags);
-
-       hlist_for_each_entry_safe(ri, tmp, &empty_rp, hlist) {
-               hlist_del(&ri->hlist);
-               kfree(ri);
-       }
+       regs->ret = __kretprobe_trampoline_handler(regs, &kretprobe_trampoline, NULL);
 
        /* By returning a non zero value, we are telling the kprobe handler
         * that we don't want the post_handler to run
index 54139a6..33ce59d 100644 (file)
@@ -122,6 +122,7 @@ SECTIONS
        _end = . ;
 
        STABS_DEBUG
+       ELF_DETAILS
        DISCARDS
 
        .arcextmap 0 : {
index e00d94b..e67ef15 100644 (file)
@@ -49,6 +49,7 @@ config ARM
        select GENERIC_ARCH_TOPOLOGY if ARM_CPU_TOPOLOGY
        select GENERIC_ATOMIC64 if CPU_V7M || CPU_V6 || !CPU_32v6K || !AEABI
        select GENERIC_CLOCKEVENTS_BROADCAST if SMP
+       select GENERIC_IRQ_IPI if SMP
        select GENERIC_CPU_AUTOPROBE
        select GENERIC_EARLY_IOREMAP
        select GENERIC_IDLE_POLL_SETUP
index 4e87735..e589da3 100644 (file)
@@ -16,6 +16,10 @@ LDFLAGS_vmlinux      += --be8
 KBUILD_LDFLAGS_MODULE  += --be8
 endif
 
+# We never want expected sections to be placed heuristically by the
+# linker. All sections should be explicitly named in the linker script.
+LDFLAGS_vmlinux += $(call ld-option, --orphan-handling=warn)
+
 ifeq ($(CONFIG_ARM_MODULE_PLTS),y)
 KBUILD_LDS_MODULE      += $(srctree)/arch/arm/kernel/module.lds
 endif
index b1147b7..58028ab 100644 (file)
@@ -123,6 +123,8 @@ endif
 LDFLAGS_vmlinux += --no-undefined
 # Delete all temporary local symbols
 LDFLAGS_vmlinux += -X
+# Report orphan sections
+LDFLAGS_vmlinux += $(call ld-option, --orphan-handling=warn)
 # Next argument is a linker script
 LDFLAGS_vmlinux += -T
 
index 09ac33f..b914be3 100644 (file)
@@ -2,6 +2,7 @@
 /*
  *  Copyright (C) 2000 Russell King
  */
+#include <asm/vmlinux.lds.h>
 
 #ifdef CONFIG_CPU_ENDIAN_BE8
 #define ZIMAGE_MAGIC(x) ( (((x) >> 24) & 0x000000ff) | \
@@ -17,8 +18,11 @@ ENTRY(_start)
 SECTIONS
 {
   /DISCARD/ : {
+    COMMON_DISCARDS
     *(.ARM.exidx*)
     *(.ARM.extab*)
+    *(.note.*)
+    *(.rel.*)
     /*
      * Discard any r/w data - this produces a link error if we have any,
      * which is required for PIC decompression.  Local data generates
@@ -36,9 +40,7 @@ SECTIONS
     *(.start)
     *(.text)
     *(.text.*)
-    *(.gnu.warning)
-    *(.glue_7t)
-    *(.glue_7)
+    ARM_STUBS_TEXT
   }
   .table : ALIGN(4) {
     _table_start = .;
@@ -128,12 +130,10 @@ SECTIONS
   PROVIDE(__pecoff_data_size = ALIGN(512) - ADDR(.data));
   PROVIDE(__pecoff_end = ALIGN(512));
 
-  .stab 0              : { *(.stab) }
-  .stabstr 0           : { *(.stabstr) }
-  .stab.excl 0         : { *(.stab.excl) }
-  .stab.exclstr 0      : { *(.stab.exclstr) }
-  .stab.index 0                : { *(.stab.index) }
-  .stab.indexstr 0     : { *(.stab.indexstr) }
-  .comment 0           : { *(.comment) }
+  STABS_DEBUG
+  DWARF_DEBUG
+  ARM_DETAILS
+
+  ARM_ASSERTS
 }
 ASSERT(_edata_real == _edata, "error: zImage file size is incorrect");
index cfaed4e..7d0cc7f 100644 (file)
        vldr            \out\()h, \sym + 8
        .endm
 
-       .macro          __adr, reg, lbl
-       adr             \reg, \lbl
-THUMB( orr             \reg, \reg, #1          )
-       .endm
-
        .macro          in_bs_ch, b0, b1, b2, b3, b4, b5, b6, b7
        veor            \b2, \b2, \b1
        veor            \b5, \b5, \b6
@@ -629,11 +624,11 @@ ENDPROC(aesbs_decrypt8)
        push            {r4-r6, lr}
        ldr             r5, [sp, #16]           // number of blocks
 
-99:    __adr           ip, 0f
+99:    adr             ip, 0f
        and             lr, r5, #7
        cmp             r5, #8
        sub             ip, ip, lr, lsl #2
-       bxlt            ip                      // computed goto if blocks < 8
+       movlt           pc, ip                  // computed goto if blocks < 8
 
        vld1.8          {q0}, [r1]!
        vld1.8          {q1}, [r1]!
@@ -648,11 +643,11 @@ ENDPROC(aesbs_decrypt8)
        mov             rounds, r3
        bl              \do8
 
-       __adr           ip, 1f
+       adr             ip, 1f
        and             lr, r5, #7
        cmp             r5, #8
        sub             ip, ip, lr, lsl #2
-       bxlt            ip                      // computed goto if blocks < 8
+       movlt           pc, ip                  // computed goto if blocks < 8
 
        vst1.8          {\o0}, [r0]!
        vst1.8          {\o1}, [r0]!
@@ -689,12 +684,12 @@ ENTRY(aesbs_cbc_decrypt)
        push            {r4-r6, lr}
        ldm             ip, {r5-r6}             // load args 4-5
 
-99:    __adr           ip, 0f
+99:    adr             ip, 0f
        and             lr, r5, #7
        cmp             r5, #8
        sub             ip, ip, lr, lsl #2
        mov             lr, r1
-       bxlt            ip                      // computed goto if blocks < 8
+       movlt           pc, ip                  // computed goto if blocks < 8
 
        vld1.8          {q0}, [lr]!
        vld1.8          {q1}, [lr]!
@@ -718,11 +713,11 @@ ENTRY(aesbs_cbc_decrypt)
        vmov            q14, q8
        vmov            q15, q8
 
-       __adr           ip, 1f
+       adr             ip, 1f
        and             lr, r5, #7
        cmp             r5, #8
        sub             ip, ip, lr, lsl #2
-       bxlt            ip                      // computed goto if blocks < 8
+       movlt           pc, ip                  // computed goto if blocks < 8
 
        vld1.8          {q9}, [r1]!
        vld1.8          {q10}, [r1]!
@@ -733,9 +728,9 @@ ENTRY(aesbs_cbc_decrypt)
        vld1.8          {q15}, [r1]!
        W(nop)
 
-1:     __adr           ip, 2f
+1:     adr             ip, 2f
        sub             ip, ip, lr, lsl #3
-       bxlt            ip                      // computed goto if blocks < 8
+       movlt           pc, ip                  // computed goto if blocks < 8
 
        veor            q0, q0, q8
        vst1.8          {q0}, [r0]!
@@ -804,13 +799,13 @@ ENTRY(aesbs_ctr_encrypt)
        vmov            q6, q0
        vmov            q7, q0
 
-       __adr           ip, 0f
+       adr             ip, 0f
        sub             lr, r5, #1
        and             lr, lr, #7
        cmp             r5, #8
        sub             ip, ip, lr, lsl #5
        sub             ip, ip, lr, lsl #2
-       bxlt            ip                      // computed goto if blocks < 8
+       movlt           pc, ip                  // computed goto if blocks < 8
 
        next_ctr        q1
        next_ctr        q2
@@ -824,13 +819,13 @@ ENTRY(aesbs_ctr_encrypt)
        mov             rounds, r3
        bl              aesbs_encrypt8
 
-       __adr           ip, 1f
+       adr             ip, 1f
        and             lr, r5, #7
        cmp             r5, #8
        movgt           r4, #0
        ldrle           r4, [sp, #40]           // load final in the last round
        sub             ip, ip, lr, lsl #2
-       bxlt            ip                      // computed goto if blocks < 8
+       movlt           pc, ip                  // computed goto if blocks < 8
 
        vld1.8          {q8}, [r1]!
        vld1.8          {q9}, [r1]!
@@ -843,10 +838,10 @@ ENTRY(aesbs_ctr_encrypt)
 1:     bne             2f
        vld1.8          {q15}, [r1]!
 
-2:     __adr           ip, 3f
+2:     adr             ip, 3f
        cmp             r5, #8
        sub             ip, ip, lr, lsl #3
-       bxlt            ip                      // computed goto if blocks < 8
+       movlt           pc, ip                  // computed goto if blocks < 8
 
        veor            q0, q0, q8
        vst1.8          {q0}, [r0]!
@@ -900,12 +895,12 @@ __xts_prepare8:
        vshr.u64        d30, d31, #7
        vmov            q12, q14
 
-       __adr           ip, 0f
+       adr             ip, 0f
        and             r4, r6, #7
        cmp             r6, #8
        sub             ip, ip, r4, lsl #5
        mov             r4, sp
-       bxlt            ip                      // computed goto if blocks < 8
+       movlt           pc, ip                  // computed goto if blocks < 8
 
        vld1.8          {q0}, [r1]!
        next_tweak      q12, q14, q15, q13
@@ -961,8 +956,7 @@ ENDPROC(__xts_prepare8)
        push            {r4-r8, lr}
        mov             r5, sp                  // preserve sp
        ldrd            r6, r7, [sp, #24]       // get blocks and iv args
-       ldr             r8, [sp, #32]           // reorder final tweak?
-       rsb             r8, r8, #1
+       rsb             r8, ip, #1
        sub             ip, sp, #128            // make room for 8x tweak
        bic             ip, ip, #0xf            // align sp to 16 bytes
        mov             sp, ip
@@ -973,12 +967,12 @@ ENDPROC(__xts_prepare8)
        mov             rounds, r3
        bl              \do8
 
-       __adr           ip, 0f
+       adr             ip, 0f
        and             lr, r6, #7
        cmp             r6, #8
        sub             ip, ip, lr, lsl #2
        mov             r4, sp
-       bxlt            ip                      // computed goto if blocks < 8
+       movlt           pc, ip                  // computed goto if blocks < 8
 
        vld1.8          {q8}, [r4, :128]!
        vld1.8          {q9}, [r4, :128]!
@@ -989,9 +983,9 @@ ENDPROC(__xts_prepare8)
        vld1.8          {q14}, [r4, :128]!
        vld1.8          {q15}, [r4, :128]
 
-0:     __adr           ip, 1f
+0:     adr             ip, 1f
        sub             ip, ip, lr, lsl #3
-       bxlt            ip                      // computed goto if blocks < 8
+       movlt           pc, ip                  // computed goto if blocks < 8
 
        veor            \o0, \o0, q8
        vst1.8          {\o0}, [r0]!
@@ -1018,9 +1012,11 @@ ENDPROC(__xts_prepare8)
        .endm
 
 ENTRY(aesbs_xts_encrypt)
+       mov             ip, #0                  // never reorder final tweak
        __xts_crypt     aesbs_encrypt8, q0, q1, q4, q6, q3, q7, q2, q5
 ENDPROC(aesbs_xts_encrypt)
 
 ENTRY(aesbs_xts_decrypt)
+       ldr             ip, [sp, #8]            // reorder final tweak?
        __xts_crypt     aesbs_decrypt8, q0, q1, q6, q4, q2, q7, q3, q5
 ENDPROC(aesbs_xts_decrypt)
index e6fd329..bda8bf1 100644 (file)
@@ -8,7 +8,6 @@
 #include <asm/neon.h>
 #include <asm/simd.h>
 #include <crypto/aes.h>
-#include <crypto/cbc.h>
 #include <crypto/ctr.h>
 #include <crypto/internal/simd.h>
 #include <crypto/internal/skcipher.h>
@@ -49,7 +48,7 @@ struct aesbs_ctx {
 
 struct aesbs_cbc_ctx {
        struct aesbs_ctx        key;
-       struct crypto_cipher    *enc_tfm;
+       struct crypto_skcipher  *enc_tfm;
 };
 
 struct aesbs_xts_ctx {
@@ -140,19 +139,23 @@ static int aesbs_cbc_setkey(struct crypto_skcipher *tfm, const u8 *in_key,
        kernel_neon_end();
        memzero_explicit(&rk, sizeof(rk));
 
-       return crypto_cipher_setkey(ctx->enc_tfm, in_key, key_len);
+       return crypto_skcipher_setkey(ctx->enc_tfm, in_key, key_len);
 }
 
-static void cbc_encrypt_one(struct crypto_skcipher *tfm, const u8 *src, u8 *dst)
+static int cbc_encrypt(struct skcipher_request *req)
 {
+       struct skcipher_request *subreq = skcipher_request_ctx(req);
+       struct crypto_skcipher *tfm = crypto_skcipher_reqtfm(req);
        struct aesbs_cbc_ctx *ctx = crypto_skcipher_ctx(tfm);
 
-       crypto_cipher_encrypt_one(ctx->enc_tfm, dst, src);
-}
+       skcipher_request_set_tfm(subreq, ctx->enc_tfm);
+       skcipher_request_set_callback(subreq,
+                                     skcipher_request_flags(req),
+                                     NULL, NULL);
+       skcipher_request_set_crypt(subreq, req->src, req->dst,
+                                  req->cryptlen, req->iv);
 
-static int cbc_encrypt(struct skcipher_request *req)
-{
-       return crypto_cbc_encrypt_walk(req, cbc_encrypt_one);
+       return crypto_skcipher_encrypt(subreq);
 }
 
 static int cbc_decrypt(struct skcipher_request *req)
@@ -183,20 +186,27 @@ static int cbc_decrypt(struct skcipher_request *req)
        return err;
 }
 
-static int cbc_init(struct crypto_tfm *tfm)
+static int cbc_init(struct crypto_skcipher *tfm)
 {
-       struct aesbs_cbc_ctx *ctx = crypto_tfm_ctx(tfm);
+       struct aesbs_cbc_ctx *ctx = crypto_skcipher_ctx(tfm);
+       unsigned int reqsize;
 
-       ctx->enc_tfm = crypto_alloc_cipher("aes", 0, 0);
+       ctx->enc_tfm = crypto_alloc_skcipher("cbc(aes)", 0, CRYPTO_ALG_ASYNC);
+       if (IS_ERR(ctx->enc_tfm))
+               return PTR_ERR(ctx->enc_tfm);
 
-       return PTR_ERR_OR_ZERO(ctx->enc_tfm);
+       reqsize = sizeof(struct skcipher_request);
+       reqsize += crypto_skcipher_reqsize(ctx->enc_tfm);
+       crypto_skcipher_set_reqsize(tfm, reqsize);
+
+       return 0;
 }
 
-static void cbc_exit(struct crypto_tfm *tfm)
+static void cbc_exit(struct crypto_skcipher *tfm)
 {
-       struct aesbs_cbc_ctx *ctx = crypto_tfm_ctx(tfm);
+       struct aesbs_cbc_ctx *ctx = crypto_skcipher_ctx(tfm);
 
-       crypto_free_cipher(ctx->enc_tfm);
+       crypto_free_skcipher(ctx->enc_tfm);
 }
 
 static int aesbs_ctr_setkey_sync(struct crypto_skcipher *tfm, const u8 *in_key,
@@ -304,9 +314,9 @@ static int aesbs_xts_setkey(struct crypto_skcipher *tfm, const u8 *in_key,
        return aesbs_setkey(tfm, in_key, key_len);
 }
 
-static int xts_init(struct crypto_tfm *tfm)
+static int xts_init(struct crypto_skcipher *tfm)
 {
-       struct aesbs_xts_ctx *ctx = crypto_tfm_ctx(tfm);
+       struct aesbs_xts_ctx *ctx = crypto_skcipher_ctx(tfm);
 
        ctx->cts_tfm = crypto_alloc_cipher("aes", 0, 0);
        if (IS_ERR(ctx->cts_tfm))
@@ -319,9 +329,9 @@ static int xts_init(struct crypto_tfm *tfm)
        return PTR_ERR_OR_ZERO(ctx->tweak_tfm);
 }
 
-static void xts_exit(struct crypto_tfm *tfm)
+static void xts_exit(struct crypto_skcipher *tfm)
 {
-       struct aesbs_xts_ctx *ctx = crypto_tfm_ctx(tfm);
+       struct aesbs_xts_ctx *ctx = crypto_skcipher_ctx(tfm);
 
        crypto_free_cipher(ctx->tweak_tfm);
        crypto_free_cipher(ctx->cts_tfm);
@@ -432,8 +442,6 @@ static struct skcipher_alg aes_algs[] = { {
        .base.cra_ctxsize       = sizeof(struct aesbs_cbc_ctx),
        .base.cra_module        = THIS_MODULE,
        .base.cra_flags         = CRYPTO_ALG_INTERNAL,
-       .base.cra_init          = cbc_init,
-       .base.cra_exit          = cbc_exit,
 
        .min_keysize            = AES_MIN_KEY_SIZE,
        .max_keysize            = AES_MAX_KEY_SIZE,
@@ -442,6 +450,8 @@ static struct skcipher_alg aes_algs[] = { {
        .setkey                 = aesbs_cbc_setkey,
        .encrypt                = cbc_encrypt,
        .decrypt                = cbc_decrypt,
+       .init                   = cbc_init,
+       .exit                   = cbc_exit,
 }, {
        .base.cra_name          = "__ctr(aes)",
        .base.cra_driver_name   = "__ctr-aes-neonbs",
@@ -483,8 +493,6 @@ static struct skcipher_alg aes_algs[] = { {
        .base.cra_ctxsize       = sizeof(struct aesbs_xts_ctx),
        .base.cra_module        = THIS_MODULE,
        .base.cra_flags         = CRYPTO_ALG_INTERNAL,
-       .base.cra_init          = xts_init,
-       .base.cra_exit          = xts_exit,
 
        .min_keysize            = 2 * AES_MIN_KEY_SIZE,
        .max_keysize            = 2 * AES_MAX_KEY_SIZE,
@@ -493,6 +501,8 @@ static struct skcipher_alg aes_algs[] = { {
        .setkey                 = aesbs_xts_setkey,
        .encrypt                = xts_encrypt,
        .decrypt                = xts_decrypt,
+       .init                   = xts_init,
+       .exit                   = xts_exit,
 } };
 
 static struct simd_skcipher_alg *aes_simd_algs[ARRAY_SIZE(aes_algs)];
index 776ae07..31eb75b 100644 (file)
@@ -16,6 +16,7 @@
 #include <linux/module.h>
 #include <linux/init.h>
 #include <linux/jump_label.h>
+#include <linux/scatterlist.h>
 #include <crypto/curve25519.h>
 
 asmlinkage void curve25519_neon(u8 mypublic[CURVE25519_KEY_SIZE],
index 13cfef4..3023c1a 100644 (file)
@@ -20,6 +20,7 @@
 
 void poly1305_init_arm(void *state, const u8 *key);
 void poly1305_blocks_arm(void *state, const u8 *src, u32 len, u32 hibit);
+void poly1305_blocks_neon(void *state, const u8 *src, u32 len, u32 hibit);
 void poly1305_emit_arm(void *state, u8 *digest, const u32 *nonce);
 
 void __weak poly1305_blocks_neon(void *state, const u8 *src, u32 len, u32 hibit)
index 9f96ff4..f3a2b54 100644 (file)
@@ -175,7 +175,6 @@ $code=<<___;
 #else
 .syntax unified
 # ifdef __thumb2__
-#  define adrl adr
 .thumb
 # else
 .code   32
@@ -471,7 +470,8 @@ sha256_block_data_order_neon:
        stmdb   sp!,{r4-r12,lr}
 
        sub     $H,sp,#16*4+16
-       adrl    $Ktbl,K256
+       adr     $Ktbl,.Lsha256_block_data_order
+       sub     $Ktbl,$Ktbl,#.Lsha256_block_data_order-K256
        bic     $H,$H,#15               @ align for 128-bit stores
        mov     $t2,sp
        mov     sp,$H                   @ alloca
index ea04b2a..6363014 100644 (file)
@@ -56,7 +56,6 @@
 #else
 .syntax unified
 # ifdef __thumb2__
-#  define adrl adr
 .thumb
 # else
 .code   32
@@ -1885,7 +1884,8 @@ sha256_block_data_order_neon:
        stmdb   sp!,{r4-r12,lr}
 
        sub     r11,sp,#16*4+16
-       adrl    r14,K256
+       adr     r14,.Lsha256_block_data_order
+       sub     r14,r14,#.Lsha256_block_data_order-K256
        bic     r11,r11,#15             @ align for 128-bit stores
        mov     r12,sp
        mov     sp,r11                  @ alloca
index 69df689..2fc3516 100644 (file)
@@ -212,7 +212,6 @@ $code=<<___;
 #else
 .syntax unified
 # ifdef __thumb2__
-#  define adrl adr
 .thumb
 # else
 .code   32
@@ -602,7 +601,8 @@ sha512_block_data_order_neon:
        dmb                             @ errata #451034 on early Cortex A8
        add     $len,$inp,$len,lsl#7    @ len to point at the end of inp
        VFP_ABI_PUSH
-       adrl    $Ktbl,K512
+       adr     $Ktbl,.Lsha512_block_data_order
+       sub     $Ktbl,$Ktbl,.Lsha512_block_data_order-K512
        vldmia  $ctx,{$A-$H}            @ load context
 .Loop_neon:
 ___
index cb147db..0301462 100644 (file)
@@ -79,7 +79,6 @@
 #else
 .syntax unified
 # ifdef __thumb2__
-#  define adrl adr
 .thumb
 # else
 .code   32
@@ -543,7 +542,8 @@ sha512_block_data_order_neon:
        dmb                             @ errata #451034 on early Cortex A8
        add     r2,r1,r2,lsl#7  @ len to point at the end of inp
        VFP_ABI_PUSH
-       adrl    r3,K512
+       adr     r3,.Lsha512_block_data_order
+       sub     r3,r3,.Lsha512_block_data_order-K512
        vldmia  r0,{d16-d23}            @ load context
 .Loop_neon:
        vshr.u64        d24,d20,#14     @ 0
index ed6073f..f0f54ae 100644 (file)
@@ -35,23 +35,20 @@ __wsum csum_partial(const void *buff, int len, __wsum sum);
  */
 
 __wsum
-csum_partial_copy_nocheck(const void *src, void *dst, int len, __wsum sum);
+csum_partial_copy_nocheck(const void *src, void *dst, int len);
 
 __wsum
-csum_partial_copy_from_user(const void __user *src, void *dst, int len, __wsum sum, int *err_ptr);
+csum_partial_copy_from_user(const void __user *src, void *dst, int len);
 
 #define _HAVE_ARCH_COPY_AND_CSUM_FROM_USER
+#define _HAVE_ARCH_CSUM_AND_COPY
 static inline
-__wsum csum_and_copy_from_user (const void __user *src, void *dst,
-                                     int len, __wsum sum, int *err_ptr)
+__wsum csum_and_copy_from_user(const void __user *src, void *dst, int len)
 {
-       if (access_ok(src, len))
-               return csum_partial_copy_from_user(src, dst, len, sum, err_ptr);
+       if (!access_ok(src, len))
+               return 0;
 
-       if (len)
-               *err_ptr = -EFAULT;
-
-       return sum;
+       return csum_partial_copy_from_user(src, dst, len);
 }
 
 /*
index 5dcf3c6..3ee4f43 100644 (file)
@@ -66,25 +66,24 @@ static inline void efifb_setup_from_dmi(struct screen_info *si, const char *opt)
 #define MAX_UNCOMP_KERNEL_SIZE SZ_32M
 
 /*
- * The kernel zImage should preferably be located between 32 MB and 128 MB
- * from the base of DRAM. The min address leaves space for a maximal size
- * uncompressed image, and the max address is due to how the zImage decompressor
- * picks a destination address.
+ * phys-to-virt patching requires that the physical to virtual offset fits
+ * into the immediate field of an add/sub instruction, which comes down to the
+ * 24 least significant bits being zero, and so the offset should be a multiple
+ * of 16 MB. Since PAGE_OFFSET itself is a multiple of 16 MB, the physical
+ * base should be aligned to 16 MB as well.
  */
-#define ZIMAGE_OFFSET_LIMIT    SZ_128M
-#define MIN_ZIMAGE_OFFSET      MAX_UNCOMP_KERNEL_SIZE
+#define EFI_PHYS_ALIGN         SZ_16M
 
-/* on ARM, the FDT should be located in the first 128 MB of RAM */
-static inline unsigned long efi_get_max_fdt_addr(unsigned long dram_base)
+/* on ARM, the FDT should be located in a lowmem region */
+static inline unsigned long efi_get_max_fdt_addr(unsigned long image_addr)
 {
-       return dram_base + ZIMAGE_OFFSET_LIMIT;
+       return round_down(image_addr, EFI_PHYS_ALIGN) + SZ_512M;
 }
 
 /* on ARM, the initrd should be loaded in a lowmem region */
-static inline unsigned long efi_get_max_initrd_addr(unsigned long dram_base,
-                                                   unsigned long image_addr)
+static inline unsigned long efi_get_max_initrd_addr(unsigned long image_addr)
 {
-       return dram_base + SZ_512M;
+       return round_down(image_addr, EFI_PHYS_ALIGN) + SZ_512M;
 }
 
 struct efi_arm_entry_state {
index 7a88f16..b95848e 100644 (file)
@@ -6,29 +6,12 @@
 #include <linux/threads.h>
 #include <asm/irq.h>
 
-/* number of IPIS _not_ including IPI_CPU_BACKTRACE */
-#define NR_IPI 7
-
 typedef struct {
        unsigned int __softirq_pending;
-#ifdef CONFIG_SMP
-       unsigned int ipi_irqs[NR_IPI];
-#endif
 } ____cacheline_aligned irq_cpustat_t;
 
 #include <linux/irq_cpustat.h> /* Standard mappings for irq_cpustat_t above */
 
-#define __inc_irq_stat(cpu, member)    __IRQ_STAT(cpu, member)++
-#define __get_irq_stat(cpu, member)    __IRQ_STAT(cpu, member)
-
-#ifdef CONFIG_SMP
-u64 smp_irq_stat_cpu(unsigned int cpu);
-#else
-#define smp_irq_stat_cpu(cpu)  0
-#endif
-
-#define arch_irq_stat_cpu      smp_irq_stat_cpu
-
 #define __ARCH_IRQ_EXIT_IRQS_DISABLED  1
 
 #endif /* __ASM_HARDIRQ_H */
index a91f21e..0ca55a6 100644 (file)
@@ -39,11 +39,10 @@ void handle_IPI(int ipinr, struct pt_regs *regs);
  */
 extern void smp_init_cpus(void);
 
-
 /*
- * Provide a function to raise an IPI cross call on CPUs in callmap.
+ * Register IPI interrupts with the arch SMP code
  */
-extern void set_smp_cross_call(void (*)(const struct cpumask *, unsigned int));
+extern void set_smp_ipi_range(int ipi_base, int nr_ipi);
 
 /*
  * Called from platform specific assembly code, this is the
similarity index 84%
rename from arch/arm/kernel/vmlinux.lds.h
rename to arch/arm/include/asm/vmlinux.lds.h
index 381a8e1..4a91428 100644 (file)
@@ -1,4 +1,5 @@
 /* SPDX-License-Identifier: GPL-2.0 */
+#include <asm-generic/vmlinux.lds.h>
 
 #ifdef CONFIG_HOTPLUG_CPU
 #define ARM_CPU_DISCARD(x)
                EXIT_CALL                                               \
                ARM_MMU_DISCARD(*(.text.fixup))                         \
                ARM_MMU_DISCARD(*(__ex_table))                          \
-               *(.discard)                                             \
-               *(.discard.*)
+               COMMON_DISCARDS
+
+/*
+ * Sections that should stay zero sized, which is safer to explicitly
+ * check instead of blindly discarding.
+ */
+#define ARM_ASSERTS                                                    \
+       .plt : {                                                        \
+               *(.iplt) *(.rel.iplt) *(.iplt) *(.igot.plt)             \
+       }                                                               \
+       ASSERT(SIZEOF(.plt) == 0,                                       \
+              "Unexpected run-time procedure linkages detected!")
+
+#define ARM_DETAILS                                                    \
+               ELF_DETAILS                                             \
+               .ARM.attributes 0 : { *(.ARM.attributes) }
+
+#define ARM_STUBS_TEXT                                                 \
+               *(.gnu.warning)                                         \
+               *(.glue_7)                                              \
+               *(.glue_7t)                                             \
+               *(.vfp11_veneer)                                        \
+               *(.v4_bx)
 
 #define ARM_TEXT                                                       \
                IDMAP_TEXT                                              \
@@ -64,9 +86,7 @@
                CPUIDLE_TEXT                                            \
                LOCK_TEXT                                               \
                KPROBES_TEXT                                            \
-               *(.gnu.warning)                                         \
-               *(.glue_7)                                              \
-               *(.glue_7t)                                             \
+               ARM_STUBS_TEXT                                          \
                . = ALIGN(4);                                           \
                *(.got)                 /* Global offset table */       \
                ARM_CPU_KEEP(PROC_INFO)
index ee51403..698b6f6 100644 (file)
@@ -18,7 +18,6 @@
  *  IRQ's are in fact implemented a bit like signal handlers for the kernel.
  *  Naturally it's not a 1:1 relation, but there are similarities.
  */
-#include <linux/kernel_stat.h>
 #include <linux/signal.h>
 #include <linux/ioport.h>
 #include <linux/interrupt.h>
index 5d9da61..48099c6 100644 (file)
@@ -26,6 +26,7 @@
 #include <linux/completion.h>
 #include <linux/cpufreq.h>
 #include <linux/irq_work.h>
+#include <linux/kernel_stat.h>
 
 #include <linux/atomic.h>
 #include <asm/bugs.h>
@@ -65,18 +66,26 @@ enum ipi_msg_type {
        IPI_CPU_STOP,
        IPI_IRQ_WORK,
        IPI_COMPLETION,
+       NR_IPI,
        /*
         * CPU_BACKTRACE is special and not included in NR_IPI
         * or tracable with trace_ipi_*
         */
-       IPI_CPU_BACKTRACE,
+       IPI_CPU_BACKTRACE = NR_IPI,
        /*
         * SGI8-15 can be reserved by secure firmware, and thus may
         * not be usable by the kernel. Please keep the above limited
         * to at most 8 entries.
         */
+       MAX_IPI
 };
 
+static int ipi_irq_base __read_mostly;
+static int nr_ipi __read_mostly = NR_IPI;
+static struct irq_desc *ipi_desc[MAX_IPI] __read_mostly;
+
+static void ipi_setup(int cpu);
+
 static DECLARE_COMPLETION(cpu_running);
 
 static struct smp_operations smp_ops __ro_after_init;
@@ -226,6 +235,17 @@ int platform_can_hotplug_cpu(unsigned int cpu)
        return cpu != 0;
 }
 
+static void ipi_teardown(int cpu)
+{
+       int i;
+
+       if (WARN_ON_ONCE(!ipi_irq_base))
+               return;
+
+       for (i = 0; i < nr_ipi; i++)
+               disable_percpu_irq(ipi_irq_base + i);
+}
+
 /*
  * __cpu_disable runs on the processor to be shutdown.
  */
@@ -247,6 +267,7 @@ int __cpu_disable(void)
         * and we must not schedule until we're ready to give up the cpu.
         */
        set_cpu_online(cpu, false);
+       ipi_teardown(cpu);
 
        /*
         * OK - migrate IRQs away from this CPU
@@ -422,6 +443,8 @@ asmlinkage void secondary_start_kernel(void)
 
        notify_cpu_starting(cpu);
 
+       ipi_setup(cpu);
+
        calibrate_delay();
 
        smp_store_cpu_info(cpu);
@@ -500,14 +523,6 @@ void __init smp_prepare_cpus(unsigned int max_cpus)
        }
 }
 
-static void (*__smp_cross_call)(const struct cpumask *, unsigned int);
-
-void __init set_smp_cross_call(void (*fn)(const struct cpumask *, unsigned int))
-{
-       if (!__smp_cross_call)
-               __smp_cross_call = fn;
-}
-
 static const char *ipi_types[NR_IPI] __tracepoint_string = {
 #define S(x,s) [x] = s
        S(IPI_WAKEUP, "CPU wakeup interrupts"),
@@ -519,38 +534,28 @@ static const char *ipi_types[NR_IPI] __tracepoint_string = {
        S(IPI_COMPLETION, "completion interrupts"),
 };
 
-static void smp_cross_call(const struct cpumask *target, unsigned int ipinr)
-{
-       trace_ipi_raise_rcuidle(target, ipi_types[ipinr]);
-       __smp_cross_call(target, ipinr);
-}
+static void smp_cross_call(const struct cpumask *target, unsigned int ipinr);
 
 void show_ipi_list(struct seq_file *p, int prec)
 {
        unsigned int cpu, i;
 
        for (i = 0; i < NR_IPI; i++) {
+               unsigned int irq;
+
+               if (!ipi_desc[i])
+                       continue;
+
+               irq = irq_desc_get_irq(ipi_desc[i]);
                seq_printf(p, "%*s%u: ", prec - 1, "IPI", i);
 
                for_each_online_cpu(cpu)
-                       seq_printf(p, "%10u ",
-                                  __get_irq_stat(cpu, ipi_irqs[i]));
+                       seq_printf(p, "%10u ", kstat_irqs_cpu(irq, cpu));
 
                seq_printf(p, " %s\n", ipi_types[i]);
        }
 }
 
-u64 smp_irq_stat_cpu(unsigned int cpu)
-{
-       u64 sum = 0;
-       int i;
-
-       for (i = 0; i < NR_IPI; i++)
-               sum += __get_irq_stat(cpu, ipi_irqs[i]);
-
-       return sum;
-}
-
 void arch_send_call_function_ipi_mask(const struct cpumask *mask)
 {
        smp_cross_call(mask, IPI_CALL_FUNC);
@@ -627,15 +632,12 @@ asmlinkage void __exception_irq_entry do_IPI(int ipinr, struct pt_regs *regs)
        handle_IPI(ipinr, regs);
 }
 
-void handle_IPI(int ipinr, struct pt_regs *regs)
+static void do_handle_IPI(int ipinr)
 {
        unsigned int cpu = smp_processor_id();
-       struct pt_regs *old_regs = set_irq_regs(regs);
 
-       if ((unsigned)ipinr < NR_IPI) {
+       if ((unsigned)ipinr < NR_IPI)
                trace_ipi_entry_rcuidle(ipi_types[ipinr]);
-               __inc_irq_stat(cpu, ipi_irqs[ipinr]);
-       }
 
        switch (ipinr) {
        case IPI_WAKEUP:
@@ -643,9 +645,7 @@ void handle_IPI(int ipinr, struct pt_regs *regs)
 
 #ifdef CONFIG_GENERIC_CLOCKEVENTS_BROADCAST
        case IPI_TIMER:
-               irq_enter();
                tick_receive_broadcast();
-               irq_exit();
                break;
 #endif
 
@@ -654,36 +654,26 @@ void handle_IPI(int ipinr, struct pt_regs *regs)
                break;
 
        case IPI_CALL_FUNC:
-               irq_enter();
                generic_smp_call_function_interrupt();
-               irq_exit();
                break;
 
        case IPI_CPU_STOP:
-               irq_enter();
                ipi_cpu_stop(cpu);
-               irq_exit();
                break;
 
 #ifdef CONFIG_IRQ_WORK
        case IPI_IRQ_WORK:
-               irq_enter();
                irq_work_run();
-               irq_exit();
                break;
 #endif
 
        case IPI_COMPLETION:
-               irq_enter();
                ipi_complete(cpu);
-               irq_exit();
                break;
 
        case IPI_CPU_BACKTRACE:
                printk_nmi_enter();
-               irq_enter();
-               nmi_cpu_backtrace(regs);
-               irq_exit();
+               nmi_cpu_backtrace(get_irq_regs());
                printk_nmi_exit();
                break;
 
@@ -695,9 +685,67 @@ void handle_IPI(int ipinr, struct pt_regs *regs)
 
        if ((unsigned)ipinr < NR_IPI)
                trace_ipi_exit_rcuidle(ipi_types[ipinr]);
+}
+
+/* Legacy version, should go away once all irqchips have been converted */
+void handle_IPI(int ipinr, struct pt_regs *regs)
+{
+       struct pt_regs *old_regs = set_irq_regs(regs);
+
+       irq_enter();
+       do_handle_IPI(ipinr);
+       irq_exit();
+
        set_irq_regs(old_regs);
 }
 
+static irqreturn_t ipi_handler(int irq, void *data)
+{
+       do_handle_IPI(irq - ipi_irq_base);
+       return IRQ_HANDLED;
+}
+
+static void smp_cross_call(const struct cpumask *target, unsigned int ipinr)
+{
+       trace_ipi_raise_rcuidle(target, ipi_types[ipinr]);
+       __ipi_send_mask(ipi_desc[ipinr], target);
+}
+
+static void ipi_setup(int cpu)
+{
+       int i;
+
+       if (WARN_ON_ONCE(!ipi_irq_base))
+               return;
+
+       for (i = 0; i < nr_ipi; i++)
+               enable_percpu_irq(ipi_irq_base + i, 0);
+}
+
+void __init set_smp_ipi_range(int ipi_base, int n)
+{
+       int i;
+
+       WARN_ON(n < MAX_IPI);
+       nr_ipi = min(n, MAX_IPI);
+
+       for (i = 0; i < nr_ipi; i++) {
+               int err;
+
+               err = request_percpu_irq(ipi_base + i, ipi_handler,
+                                        "IPI", &irq_stat);
+               WARN_ON(err);
+
+               ipi_desc[i] = irq_to_desc(ipi_base + i);
+               irq_set_status_flags(ipi_base + i, IRQ_HIDDEN);
+       }
+
+       ipi_irq_base = ipi_base;
+
+       /* Setup the boot CPU immediately */
+       ipi_setup(smp_processor_id());
+}
+
 void smp_send_reschedule(int cpu)
 {
        smp_cross_call(cpumask_of(cpu), IPI_RESCHEDULE);
@@ -805,7 +853,7 @@ core_initcall(register_cpufreq_notifier);
 
 static void raise_nmi(cpumask_t *mask)
 {
-       __smp_cross_call(mask, IPI_CPU_BACKTRACE);
+       __ipi_send_mask(ipi_desc[IPI_CPU_BACKTRACE], mask);
 }
 
 void arch_trigger_cpumask_backtrace(const cpumask_t *mask, bool exclude_self)
index b5adaf7..ef0058d 100644 (file)
@@ -178,15 +178,6 @@ static inline void update_cpu_capacity(unsigned int cpuid) {}
 #endif
 
 /*
- * The current assumption is that we can power gate each core independently.
- * This will be superseded by DT binding once available.
- */
-const struct cpumask *cpu_corepower_mask(int cpu)
-{
-       return &cpu_topology[cpu].thread_sibling;
-}
-
-/*
  * store_cpu_topology is called at boot when only one cpu is running
  * and with the mutex cpu_hotplug.lock locked, when several cpus have booted,
  * which prevents simultaneous write access to cpu_topology array
@@ -241,20 +232,6 @@ topology_populated:
        update_siblings_masks(cpuid);
 }
 
-static inline int cpu_corepower_flags(void)
-{
-       return SD_SHARE_PKG_RESOURCES  | SD_SHARE_POWERDOMAIN;
-}
-
-static struct sched_domain_topology_level arm_topology[] = {
-#ifdef CONFIG_SCHED_MC
-       { cpu_corepower_mask, cpu_corepower_flags, SD_INIT_NAME(GMC) },
-       { cpu_coregroup_mask, cpu_core_flags, SD_INIT_NAME(MC) },
-#endif
-       { cpu_cpu_mask, SD_INIT_NAME(DIE) },
-       { NULL, },
-};
-
 /*
  * init_cpu_topology is called at boot when only one cpu is running
  * which prevent simultaneous write access to cpu_topology array
@@ -265,7 +242,4 @@ void __init init_cpu_topology(void)
        smp_wmb();
 
        parse_dt_topology();
-
-       /* Set scheduler topology descriptor */
-       set_sched_topology(arm_topology);
 }
index 6d2be99..5013682 100644 (file)
@@ -9,15 +9,13 @@
 
 #include <linux/sizes.h>
 
-#include <asm-generic/vmlinux.lds.h>
+#include <asm/vmlinux.lds.h>
 #include <asm/cache.h>
 #include <asm/thread_info.h>
 #include <asm/memory.h>
 #include <asm/mpu.h>
 #include <asm/page.h>
 
-#include "vmlinux.lds.h"
-
 OUTPUT_ARCH(arm)
 ENTRY(stext)
 
@@ -152,6 +150,10 @@ SECTIONS
        _end = .;
 
        STABS_DEBUG
+       DWARF_DEBUG
+       ARM_DETAILS
+
+       ARM_ASSERTS
 }
 
 /*
index 7f24bc0..5f4922e 100644 (file)
@@ -9,15 +9,13 @@
 #else
 
 #include <linux/pgtable.h>
-#include <asm-generic/vmlinux.lds.h>
+#include <asm/vmlinux.lds.h>
 #include <asm/cache.h>
 #include <asm/thread_info.h>
 #include <asm/memory.h>
 #include <asm/mpu.h>
 #include <asm/page.h>
 
-#include "vmlinux.lds.h"
-
 OUTPUT_ARCH(arm)
 ENTRY(stext)
 
@@ -151,6 +149,10 @@ SECTIONS
        _end = .;
 
        STABS_DEBUG
+       DWARF_DEBUG
+       ARM_DETAILS
+
+       ARM_ASSERTS
 }
 
 #ifdef CONFIG_STRICT_KERNEL_RWX
index 184d972..1ca6aad 100644 (file)
@@ -9,8 +9,8 @@
 
                .text
 
-/* Function: __u32 csum_partial_copy_nocheck(const char *src, char *dst, int len, __u32 sum)
- * Params  : r0 = src, r1 = dst, r2 = len, r3 = checksum
+/* Function: __u32 csum_partial_copy_nocheck(const char *src, char *dst, int len)
+ * Params  : r0 = src, r1 = dst, r2 = len
  * Returns : r0 = new checksum
  */
 
index 0b706a3..0fd5c10 100644 (file)
@@ -86,6 +86,7 @@ sum   .req    r3
 
 FN_ENTRY
                save_regs
+               mov     sum, #-1
 
                cmp     len, #8                 @ Ensure that we have at least
                blo     .Lless8                 @ 8 bytes to copy.
index 6bd3a93..6928781 100644 (file)
@@ -62,9 +62,9 @@
 
 /*
  * unsigned int
- * csum_partial_copy_from_user(const char *src, char *dst, int len, int sum, int *err_ptr)
- *  r0 = src, r1 = dst, r2 = len, r3 = sum, [sp] = *err_ptr
- *  Returns : r0 = checksum, [[sp, #0], #0] = 0 or -EFAULT
+ * csum_partial_copy_from_user(const char *src, char *dst, int len)
+ *  r0 = src, r1 = dst, r2 = len
+ *  Returns : r0 = checksum or 0
  */
 
 #define FN_ENTRY       ENTRY(csum_partial_copy_from_user)
 #include "csumpartialcopygeneric.S"
 
 /*
- * FIXME: minor buglet here
- * We don't return the checksum for the data present in the buffer.  To do
- * so properly, we would have to add in whatever registers were loaded before
- * the fault, which, with the current asm above is not predictable.
+ * We report fault by returning 0 csum - impossible in normal case, since
+ * we start with 0xffffffff for initial sum.
  */
                .pushsection .text.fixup,"ax"
                .align  4
-9001:          mov     r4, #-EFAULT
-#ifdef CONFIG_CPU_SW_DOMAIN_PAN
-               ldr     r5, [sp, #9*4]          @ *err_ptr
-#else
-               ldr     r5, [sp, #8*4]          @ *err_ptr
-#endif
-               str     r4, [r5]
-               ldmia   sp, {r1, r2}            @ retrieve dst, len
-               add     r2, r2, r1
-               mov     r0, #0                  @ zero the buffer
-9002:          teq     r2, r1
-               strbne  r0, [r1], #1
-               bne     9002b
+9001:          mov     r0, #0
                load_regs
                .popsection
index feefa20..a965311 100644 (file)
@@ -413,87 +413,15 @@ void __naked __kprobes kretprobe_trampoline(void)
 /* Called from kretprobe_trampoline */
 static __used __kprobes void *trampoline_handler(struct pt_regs *regs)
 {
-       struct kretprobe_instance *ri = NULL;
-       struct hlist_head *head, empty_rp;
-       struct hlist_node *tmp;
-       unsigned long flags, orig_ret_address = 0;
-       unsigned long trampoline_address = (unsigned long)&kretprobe_trampoline;
-       kprobe_opcode_t *correct_ret_addr = NULL;
-
-       INIT_HLIST_HEAD(&empty_rp);
-       kretprobe_hash_lock(current, &head, &flags);
-
-       /*
-        * It is possible to have multiple instances associated with a given
-        * task either because multiple functions in the call path have
-        * a return probe installed on them, and/or more than one return
-        * probe was registered for a target function.
-        *
-        * We can handle this because:
-        *     - instances are always inserted at the head of the list
-        *     - when multiple return probes are registered for the same
-        *       function, the first instance's ret_addr will point to the
-        *       real return address, and all the rest will point to
-        *       kretprobe_trampoline
-        */
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       kretprobe_assert(ri, orig_ret_address, trampoline_address);
-
-       correct_ret_addr = ri->ret_addr;
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-               if (ri->rp && ri->rp->handler) {
-                       __this_cpu_write(current_kprobe, &ri->rp->kp);
-                       get_kprobe_ctlblk()->kprobe_status = KPROBE_HIT_ACTIVE;
-                       ri->ret_addr = correct_ret_addr;
-                       ri->rp->handler(ri, regs);
-                       __this_cpu_write(current_kprobe, NULL);
-               }
-
-               recycle_rp_inst(ri, &empty_rp);
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       kretprobe_hash_unlock(current, &flags);
-
-       hlist_for_each_entry_safe(ri, tmp, &empty_rp, hlist) {
-               hlist_del(&ri->hlist);
-               kfree(ri);
-       }
-
-       return (void *)orig_ret_address;
+       return (void *)kretprobe_trampoline_handler(regs, &kretprobe_trampoline,
+                                                   (void *)regs->ARM_fp);
 }
 
 void __kprobes arch_prepare_kretprobe(struct kretprobe_instance *ri,
                                      struct pt_regs *regs)
 {
        ri->ret_addr = (kprobe_opcode_t *)regs->ARM_lr;
+       ri->fp = (void *)regs->ARM_fp;
 
        /* Replace the return addr with trampoline addr. */
        regs->ARM_lr = (unsigned long)&kretprobe_trampoline;
index e93145d..a6ab368 100644 (file)
@@ -150,7 +150,7 @@ static int xen_starting_cpu(unsigned int cpu)
        pr_info("Xen: initializing cpu%d\n", cpu);
        vcpup = per_cpu_ptr(xen_vcpu_info, cpu);
 
-       info.mfn = virt_to_gfn(vcpup);
+       info.mfn = percpu_to_gfn(vcpup);
        info.offset = xen_offset_in_page(vcpup);
 
        err = HYPERVISOR_vcpu_op(VCPUOP_register_vcpu_info, xen_vcpu_nr(cpu),
index 6d23283..4b136e9 100644 (file)
@@ -29,6 +29,7 @@ config ARM64
        select ARCH_HAS_SETUP_DMA_OPS
        select ARCH_HAS_SET_DIRECT_MAP
        select ARCH_HAS_SET_MEMORY
+       select ARCH_STACKWALK
        select ARCH_HAS_STRICT_KERNEL_RWX
        select ARCH_HAS_STRICT_MODULE_RWX
        select ARCH_HAS_SYNC_DMA_FOR_DEVICE
@@ -106,6 +107,7 @@ config ARM64
        select GENERIC_CPU_VULNERABILITIES
        select GENERIC_EARLY_IOREMAP
        select GENERIC_IDLE_POLL_SETUP
+       select GENERIC_IRQ_IPI
        select GENERIC_IRQ_MULTI_HANDLER
        select GENERIC_IRQ_PROBE
        select GENERIC_IRQ_SHOW
@@ -211,12 +213,18 @@ config ARM64_PAGE_SHIFT
        default 14 if ARM64_16K_PAGES
        default 12
 
-config ARM64_CONT_SHIFT
+config ARM64_CONT_PTE_SHIFT
        int
        default 5 if ARM64_64K_PAGES
        default 7 if ARM64_16K_PAGES
        default 4
 
+config ARM64_CONT_PMD_SHIFT
+       int
+       default 5 if ARM64_64K_PAGES
+       default 5 if ARM64_16K_PAGES
+       default 4
+
 config ARCH_MMAP_RND_BITS_MIN
        default 14 if ARM64_64K_PAGES
        default 16 if ARM64_16K_PAGES
@@ -1165,32 +1173,6 @@ config UNMAP_KERNEL_AT_EL0
 
          If unsure, say Y.
 
-config HARDEN_BRANCH_PREDICTOR
-       bool "Harden the branch predictor against aliasing attacks" if EXPERT
-       default y
-       help
-         Speculation attacks against some high-performance processors rely on
-         being able to manipulate the branch predictor for a victim context by
-         executing aliasing branches in the attacker context.  Such attacks
-         can be partially mitigated against by clearing internal branch
-         predictor state and limiting the prediction logic in some situations.
-
-         This config option will take CPU-specific actions to harden the
-         branch predictor against aliasing attacks and may rely on specific
-         instruction sequences or control bits being set by the system
-         firmware.
-
-         If unsure, say Y.
-
-config ARM64_SSBD
-       bool "Speculative Store Bypass Disable" if EXPERT
-       default y
-       help
-         This enables mitigation of the bypassing of previous stores
-         by speculative loads.
-
-         If unsure, say Y.
-
 config RODATA_FULL_DEFAULT_ENABLED
        bool "Apply r/o permissions of VM areas also to their linear aliases"
        default y
@@ -1664,6 +1646,39 @@ config ARCH_RANDOM
          provides a high bandwidth, cryptographically secure
          hardware random number generator.
 
+config ARM64_AS_HAS_MTE
+       # Initial support for MTE went in binutils 2.32.0, checked with
+       # ".arch armv8.5-a+memtag" below. However, this was incomplete
+       # as a late addition to the final architecture spec (LDGM/STGM)
+       # is only supported in the newer 2.32.x and 2.33 binutils
+       # versions, hence the extra "stgm" instruction check below.
+       def_bool $(as-instr,.arch armv8.5-a+memtag\nstgm xzr$(comma)[x0])
+
+config ARM64_MTE
+       bool "Memory Tagging Extension support"
+       default y
+       depends on ARM64_AS_HAS_MTE && ARM64_TAGGED_ADDR_ABI
+       select ARCH_USES_HIGH_VMA_FLAGS
+       help
+         Memory Tagging (part of the ARMv8.5 Extensions) provides
+         architectural support for run-time, always-on detection of
+         various classes of memory error to aid with software debugging
+         to eliminate vulnerabilities arising from memory-unsafe
+         languages.
+
+         This option enables the support for the Memory Tagging
+         Extension at EL0 (i.e. for userspace).
+
+         Selecting this option allows the feature to be detected at
+         runtime. Any secondary CPU not implementing this feature will
+         not be allowed a late bring-up.
+
+         Userspace binaries that want to use this feature must
+         explicitly opt in. The mechanism for the userspace is
+         described in:
+
+         Documentation/arm64/memory-tagging-extension.rst.
+
 endmenu
 
 config ARM64_SVE
@@ -1876,6 +1891,10 @@ config ARCH_ENABLE_HUGEPAGE_MIGRATION
        def_bool y
        depends on HUGETLB_PAGE && MIGRATION
 
+config ARCH_ENABLE_THP_MIGRATION
+       def_bool y
+       depends on TRANSPARENT_HUGEPAGE
+
 menu "Power management options"
 
 source "kernel/power/Kconfig"
index 130569f..f4717fa 100644 (file)
@@ -11,7 +11,6 @@
 # Copyright (C) 1995-2001 by Russell King
 
 LDFLAGS_vmlinux        :=--no-undefined -X
-CPPFLAGS_vmlinux.lds = -DTEXT_OFFSET=$(TEXT_OFFSET)
 
 ifeq ($(CONFIG_RELOCATABLE), y)
 # Pass --no-apply-dynamic-relocs to restore pre-binutils-2.27 behaviour
@@ -29,6 +28,10 @@ LDFLAGS_vmlinux      += --fix-cortex-a53-843419
   endif
 endif
 
+# We never want expected sections to be placed heuristically by the
+# linker. All sections should be explicitly named in the linker script.
+LDFLAGS_vmlinux += $(call ld-option, --orphan-handling=warn)
+
 ifeq ($(CONFIG_ARM64_USE_LSE_ATOMICS), y)
   ifneq ($(CONFIG_ARM64_LSE_ATOMICS), y)
 $(warning LSE atomics not supported by binutils)
@@ -47,13 +50,16 @@ endif
 
 KBUILD_CFLAGS  += -mgeneral-regs-only  \
                   $(compat_vdso) $(cc_has_k_constraint)
-KBUILD_CFLAGS  += -fno-asynchronous-unwind-tables
 KBUILD_CFLAGS  += $(call cc-disable-warning, psabi)
 KBUILD_AFLAGS  += $(compat_vdso)
 
 KBUILD_CFLAGS  += $(call cc-option,-mabi=lp64)
 KBUILD_AFLAGS  += $(call cc-option,-mabi=lp64)
 
+# Avoid generating .eh_frame* sections.
+KBUILD_CFLAGS  += -fno-asynchronous-unwind-tables -fno-unwind-tables
+KBUILD_AFLAGS  += -fno-asynchronous-unwind-tables -fno-unwind-tables
+
 ifeq ($(CONFIG_STACKPROTECTOR_PER_TASK),y)
 prepare: stack_protector_prepare
 stack_protector_prepare: prepare0
@@ -132,9 +138,6 @@ endif
 # Default value
 head-y         := arch/arm64/kernel/head.o
 
-# The byte offset of the kernel image in RAM from the start of RAM.
-TEXT_OFFSET := 0x0
-
 ifeq ($(CONFIG_KASAN_SW_TAGS), y)
 KASAN_SHADOW_SCALE_SHIFT := 4
 else
@@ -145,8 +148,6 @@ KBUILD_CFLAGS += -DKASAN_SHADOW_SCALE_SHIFT=$(KASAN_SHADOW_SCALE_SHIFT)
 KBUILD_CPPFLAGS += -DKASAN_SHADOW_SCALE_SHIFT=$(KASAN_SHADOW_SCALE_SHIFT)
 KBUILD_AFLAGS += -DKASAN_SHADOW_SCALE_SHIFT=$(KASAN_SHADOW_SCALE_SHIFT)
 
-export TEXT_OFFSET
-
 core-y         += arch/arm64/
 libs-y         := arch/arm64/lib/ $(libs-y)
 libs-$(CONFIG_EFI_STUB) += $(objtree)/drivers/firmware/efi/libstub/lib.a
index b357164..63a52ad 100644 (file)
@@ -788,7 +788,7 @@ SYM_FUNC_START_LOCAL(__xts_crypt8)
 
 0:     mov             bskey, x21
        mov             rounds, x22
-       br              x7
+       br              x16
 SYM_FUNC_END(__xts_crypt8)
 
        .macro          __xts_crypt, do8, o0, o1, o2, o3, o4, o5, o6, o7
@@ -806,7 +806,7 @@ SYM_FUNC_END(__xts_crypt8)
        uzp1            v30.4s, v30.4s, v25.4s
        ld1             {v25.16b}, [x24]
 
-99:    adr             x7, \do8
+99:    adr             x16, \do8
        bl              __xts_crypt8
 
        ldp             q16, q17, [sp, #.Lframe_local_offset]
index da10348..8536008 100644 (file)
@@ -347,7 +347,7 @@ static int gcm_encrypt(struct aead_request *req)
        u8 buf[AES_BLOCK_SIZE];
        u8 iv[AES_BLOCK_SIZE];
        u64 dg[2] = {};
-       u128 lengths;
+       be128 lengths;
        u8 *tag;
        int err;
 
@@ -461,7 +461,7 @@ static int gcm_decrypt(struct aead_request *req)
        u8 buf[AES_BLOCK_SIZE];
        u8 iv[AES_BLOCK_SIZE];
        u64 dg[2] = {};
-       u128 lengths;
+       be128 lengths;
        u8 *tag;
        int err;
 
index 565ef60..c63b992 100644 (file)
@@ -25,6 +25,9 @@ struct sha1_ce_state {
        u32                     finalize;
 };
 
+extern const u32 sha1_ce_offsetof_count;
+extern const u32 sha1_ce_offsetof_finalize;
+
 asmlinkage void sha1_ce_transform(struct sha1_ce_state *sst, u8 const *src,
                                  int blocks);
 
index 9450d19..5e956d7 100644 (file)
@@ -25,6 +25,9 @@ struct sha256_ce_state {
        u32                     finalize;
 };
 
+extern const u32 sha256_ce_offsetof_count;
+extern const u32 sha256_ce_offsetof_finalize;
+
 asmlinkage void sha2_ce_transform(struct sha256_ce_state *sst, u8 const *src,
                                  int blocks);
 
index 6647ae4..880b905 100644 (file)
@@ -153,7 +153,7 @@ static inline bool gic_prio_masking_enabled(void)
 
 static inline void gic_pmr_mask_irqs(void)
 {
-       BUILD_BUG_ON(GICD_INT_DEF_PRI < (GIC_PRIO_IRQOFF |
+       BUILD_BUG_ON(GICD_INT_DEF_PRI < (__GIC_PRIO_IRQOFF |
                                         GIC_PRIO_PSR_I_SET));
        BUILD_BUG_ON(GICD_INT_DEF_PRI >= GIC_PRIO_IRQON);
        /*
@@ -162,6 +162,12 @@ static inline void gic_pmr_mask_irqs(void)
         * are applied to IRQ priorities
         */
        BUILD_BUG_ON((0x80 | (GICD_INT_DEF_PRI >> 1)) >= GIC_PRIO_IRQON);
+       /*
+        * Same situation as above, but now we make sure that we can mask
+        * regular interrupts.
+        */
+       BUILD_BUG_ON((0x80 | (GICD_INT_DEF_PRI >> 1)) < (__GIC_PRIO_IRQOFF_NS |
+                                                        GIC_PRIO_PSR_I_SET));
        gic_write_pmr(GIC_PRIO_IRQOFF);
 }
 
index 44209f6..ffb1a40 100644 (file)
@@ -79,10 +79,5 @@ arch_get_random_seed_long_early(unsigned long *v)
 }
 #define arch_get_random_seed_long_early arch_get_random_seed_long_early
 
-#else
-
-static inline bool __arm64_rndr(unsigned long *v) { return false; }
-static inline bool __init __early_cpu_has_rndr(void) { return false; }
-
 #endif /* CONFIG_ARCH_RANDOM */
 #endif /* _ASM_ARCHRANDOM_H */
index c7f67da..3e7943f 100644 (file)
@@ -13,8 +13,7 @@
 #define MAX_FDT_SIZE           SZ_2M
 
 /*
- * arm64 requires the kernel image to placed
- * TEXT_OFFSET bytes beyond a 2 MB aligned base
+ * arm64 requires the kernel image to placed at a 2 MB aligned base address
  */
 #define MIN_KIMG_ALIGN         SZ_2M
 
index 935d2aa..23a9fb7 100644 (file)
@@ -35,8 +35,6 @@ typedef s32           compat_nlink_t;
 typedef u16            compat_ipc_pid_t;
 typedef u32            compat_caddr_t;
 typedef __kernel_fsid_t        compat_fsid_t;
-typedef s64            compat_s64;
-typedef u64            compat_u64;
 
 struct compat_stat {
 #ifdef __AARCH64EB__
index d28e8f3..e95c4df 100644 (file)
@@ -21,7 +21,7 @@
  *             mechanism for doing so, tests whether it is possible to boot
  *             the given CPU.
  * @cpu_boot:  Boots a cpu into the kernel.
- * @cpu_postboot: Optionally, perform any post-boot cleanup or necesary
+ * @cpu_postboot: Optionally, perform any post-boot cleanup or necessary
  *             synchronisation. Called from the cpu being booted.
  * @cpu_can_disable: Determines whether a CPU can be disabled based on
  *             mechanism-specific information.
index 07b643a..42868db 100644 (file)
 #define ARM64_HAS_DCPOP                                21
 #define ARM64_SVE                              22
 #define ARM64_UNMAP_KERNEL_AT_EL0              23
-#define ARM64_HARDEN_BRANCH_PREDICTOR          24
+#define ARM64_SPECTRE_V2                       24
 #define ARM64_HAS_RAS_EXTN                     25
 #define ARM64_WORKAROUND_843419                        26
 #define ARM64_HAS_CACHE_IDC                    27
 #define ARM64_HAS_CACHE_DIC                    28
 #define ARM64_HW_DBM                           29
-#define ARM64_SSBD                             30
+#define ARM64_SPECTRE_V4                       30
 #define ARM64_MISMATCHED_CACHE_TYPE            31
 #define ARM64_HAS_STAGE2_FWB                   32
 #define ARM64_HAS_CRC32                                33
@@ -64,7 +64,8 @@
 #define ARM64_BTI                              54
 #define ARM64_HAS_ARMv8_4_TTL                  55
 #define ARM64_HAS_TLB_RANGE                    56
+#define ARM64_MTE                              57
 
-#define ARM64_NCAPS                            57
+#define ARM64_NCAPS                            58
 
 #endif /* __ASM_CPUCAPS_H */
index 89b4f01..f7e7144 100644 (file)
@@ -358,7 +358,7 @@ static inline int cpucap_default_scope(const struct arm64_cpu_capabilities *cap)
 }
 
 /*
- * Generic helper for handling capabilties with multiple (match,enable) pairs
+ * Generic helper for handling capabilities with multiple (match,enable) pairs
  * of call backs, sharing the same capability bit.
  * Iterate over each entry to see if at least one matches.
  */
@@ -681,6 +681,12 @@ static __always_inline bool system_uses_irq_prio_masking(void)
               cpus_have_const_cap(ARM64_HAS_IRQ_PRIO_MASKING);
 }
 
+static inline bool system_supports_mte(void)
+{
+       return IS_ENABLED(CONFIG_ARM64_MTE) &&
+               cpus_have_const_cap(ARM64_MTE);
+}
+
 static inline bool system_has_prio_mask_debugging(void)
 {
        return IS_ENABLED(CONFIG_ARM64_DEBUG_PRIORITY_MASKING) &&
@@ -698,30 +704,6 @@ static inline bool system_supports_tlb_range(void)
                cpus_have_const_cap(ARM64_HAS_TLB_RANGE);
 }
 
-#define ARM64_BP_HARDEN_UNKNOWN                -1
-#define ARM64_BP_HARDEN_WA_NEEDED      0
-#define ARM64_BP_HARDEN_NOT_REQUIRED   1
-
-int get_spectre_v2_workaround_state(void);
-
-#define ARM64_SSBD_UNKNOWN             -1
-#define ARM64_SSBD_FORCE_DISABLE       0
-#define ARM64_SSBD_KERNEL              1
-#define ARM64_SSBD_FORCE_ENABLE                2
-#define ARM64_SSBD_MITIGATED           3
-
-static inline int arm64_get_ssbd_state(void)
-{
-#ifdef CONFIG_ARM64_SSBD
-       extern int ssbd_state;
-       return ssbd_state;
-#else
-       return ARM64_SSBD_UNKNOWN;
-#endif
-}
-
-void arm64_set_ssbd_mitigation(bool state);
-
 extern int do_emulate_mrs(struct pt_regs *regs, u32 sys_reg, u32 rt);
 
 static inline u32 id_aa64mmfr0_parange_to_phys_shift(int parange)
index d4ab3f7..973b144 100644 (file)
@@ -65,7 +65,7 @@ efi_status_t __efi_rt_asm_wrapper(void *, const char *, ...);
        (SEGMENT_ALIGN > THREAD_ALIGN ? SEGMENT_ALIGN : THREAD_ALIGN)
 
 /* on arm64, the FDT may be located anywhere in system RAM */
-static inline unsigned long efi_get_max_fdt_addr(unsigned long dram_base)
+static inline unsigned long efi_get_max_fdt_addr(unsigned long image_addr)
 {
        return ULONG_MAX;
 }
@@ -80,8 +80,7 @@ static inline unsigned long efi_get_max_fdt_addr(unsigned long dram_base)
  * apply to other bootloaders, and are required for some kernel
  * configurations.
  */
-static inline unsigned long efi_get_max_initrd_addr(unsigned long dram_base,
-                                                   unsigned long image_addr)
+static inline unsigned long efi_get_max_initrd_addr(unsigned long image_addr)
 {
        return (image_addr & ~(SZ_1G - 1UL)) + (1UL << (VA_BITS_MIN - 1));
 }
index 035003a..22c81f1 100644 (file)
@@ -35,7 +35,9 @@
 #define ESR_ELx_EC_SYS64       (0x18)
 #define ESR_ELx_EC_SVE         (0x19)
 #define ESR_ELx_EC_ERET                (0x1a)  /* EL2 only */
-/* Unallocated EC: 0x1b - 0x1E */
+/* Unallocated EC: 0x1B */
+#define ESR_ELx_EC_FPAC                (0x1C)  /* EL1 and above */
+/* Unallocated EC: 0x1D - 0x1E */
 #define ESR_ELx_EC_IMP_DEF     (0x1f)  /* EL3 only */
 #define ESR_ELx_EC_IABT_LOW    (0x20)
 #define ESR_ELx_EC_IABT_CUR    (0x21)
index 7577a75..99b9383 100644 (file)
@@ -47,4 +47,5 @@ void bad_el0_sync(struct pt_regs *regs, int reason, unsigned int esr);
 void do_cp15instr(unsigned int esr, struct pt_regs *regs);
 void do_el0_svc(struct pt_regs *regs);
 void do_el0_svc_compat(struct pt_regs *regs);
+void do_ptrauth_fault(struct pt_regs *regs, unsigned int esr);
 #endif /* __ASM_EXCEPTION_H */
index 840a35e..b15eb4a 100644 (file)
@@ -22,6 +22,15 @@ struct exception_table_entry
 
 #define ARCH_HAS_RELATIVE_EXTABLE
 
+static inline bool in_bpf_jit(struct pt_regs *regs)
+{
+       if (!IS_ENABLED(CONFIG_BPF_JIT))
+               return false;
+
+       return regs->pc >= BPF_JIT_REGION_START &&
+              regs->pc < BPF_JIT_REGION_END;
+}
+
 #ifdef CONFIG_BPF_JIT
 int arm64_bpf_fixup_exception(const struct exception_table_entry *ex,
                              struct pt_regs *regs);
index 59f10dd..bec5f14 100644 (file)
@@ -69,6 +69,9 @@ static inline void *sve_pffr(struct thread_struct *thread)
 extern void sve_save_state(void *state, u32 *pfpsr);
 extern void sve_load_state(void const *state, u32 const *pfpsr,
                           unsigned long vq_minus_1);
+extern void sve_flush_live(void);
+extern void sve_load_from_fpsimd_state(struct user_fpsimd_state const *state,
+                                      unsigned long vq_minus_1);
 extern unsigned int sve_get_vl(void);
 
 struct arm64_cpu_capabilities;
index 636e9d9..af43367 100644 (file)
                | ((\np) << 5)
 .endm
 
+/* PFALSE P\np.B */
+.macro _sve_pfalse np
+       _sve_check_preg \np
+       .inst   0x2518e400                      \
+               | (\np)
+.endm
+
 .macro __for from:req, to:req
        .if (\from) == (\to)
-               _for__body \from
+               _for__body %\from
        .else
-               __for \from, (\from) + ((\to) - (\from)) / 2
-               __for (\from) + ((\to) - (\from)) / 2 + 1, \to
+               __for %\from, %((\from) + ((\to) - (\from)) / 2)
+               __for %((\from) + ((\to) - (\from)) / 2 + 1), %\to
        .endif
 .endm
 
 .macro _for var:req, from:req, to:req, insn:vararg
        .macro _for__body \var:req
+               .noaltmacro
                \insn
+               .altmacro
        .endm
 
+       .altmacro
        __for \from, \to
+       .noaltmacro
 
        .purgem _for__body
 .endm
 
+/* Update ZCR_EL1.LEN with the new VQ */
+.macro sve_load_vq xvqminus1, xtmp, xtmp2
+               mrs_s           \xtmp, SYS_ZCR_EL1
+               bic             \xtmp2, \xtmp, ZCR_ELx_LEN_MASK
+               orr             \xtmp2, \xtmp2, \xvqminus1
+               cmp             \xtmp2, \xtmp
+               b.eq            921f
+               msr_s           SYS_ZCR_EL1, \xtmp2     //self-synchronising
+921:
+.endm
+
+/* Preserve the first 128-bits of Znz and zero the rest. */
+.macro _sve_flush_z nz
+       _sve_check_zreg \nz
+       mov     v\nz\().16b, v\nz\().16b
+.endm
+
+.macro sve_flush
+ _for n, 0, 31, _sve_flush_z   \n
+ _for n, 0, 15, _sve_pfalse    \n
+               _sve_wrffr      0
+.endm
+
 .macro sve_save nxbase, xpfpsr, nxtmp
  _for n, 0, 31,        _sve_str_v      \n, \nxbase, \n - 34
  _for n, 0, 15,        _sve_str_p      \n, \nxbase, \n - 16
 .endm
 
 .macro sve_load nxbase, xpfpsr, xvqminus1, nxtmp, xtmp2
-               mrs_s           x\nxtmp, SYS_ZCR_EL1
-               bic             \xtmp2, x\nxtmp, ZCR_ELx_LEN_MASK
-               orr             \xtmp2, \xtmp2, \xvqminus1
-               cmp             \xtmp2, x\nxtmp
-               b.eq            921f
-               msr_s           SYS_ZCR_EL1, \xtmp2     // self-synchronising
-921:
+               sve_load_vq     \xvqminus1, x\nxtmp, \xtmp2
  _for n, 0, 31,        _sve_ldr_v      \n, \nxbase, \n - 34
                _sve_ldr_p      0, \nxbase
                _sve_wrffr      0
index 985493a..5ffa4ba 100644 (file)
 #include <asm/kvm_arm.h>
 #include <asm/sysreg.h>
 
-#define NR_IPI 7
-
 typedef struct {
        unsigned int __softirq_pending;
-       unsigned int ipi_irqs[NR_IPI];
 } ____cacheline_aligned irq_cpustat_t;
 
 #include <linux/irq_cpustat.h> /* Standard mappings for irq_cpustat_t above */
 
-#define __inc_irq_stat(cpu, member)    __IRQ_STAT(cpu, member)++
-#define __get_irq_stat(cpu, member)    __IRQ_STAT(cpu, member)
-
-u64 smp_irq_stat_cpu(unsigned int cpu);
-#define arch_irq_stat_cpu      smp_irq_stat_cpu
-
 #define __ARCH_IRQ_EXIT_IRQS_DISABLED  1
 
 struct nmi_ctx {
index 22f73fe..9a5498c 100644 (file)
@@ -8,18 +8,27 @@
 #include <uapi/asm/hwcap.h>
 #include <asm/cpufeature.h>
 
+#define COMPAT_HWCAP_SWP       (1 << 0)
 #define COMPAT_HWCAP_HALF      (1 << 1)
 #define COMPAT_HWCAP_THUMB     (1 << 2)
+#define COMPAT_HWCAP_26BIT     (1 << 3)
 #define COMPAT_HWCAP_FAST_MULT (1 << 4)
+#define COMPAT_HWCAP_FPA       (1 << 5)
 #define COMPAT_HWCAP_VFP       (1 << 6)
 #define COMPAT_HWCAP_EDSP      (1 << 7)
+#define COMPAT_HWCAP_JAVA      (1 << 8)
+#define COMPAT_HWCAP_IWMMXT    (1 << 9)
+#define COMPAT_HWCAP_CRUNCH    (1 << 10)
+#define COMPAT_HWCAP_THUMBEE   (1 << 11)
 #define COMPAT_HWCAP_NEON      (1 << 12)
 #define COMPAT_HWCAP_VFPv3     (1 << 13)
+#define COMPAT_HWCAP_VFPV3D16  (1 << 14)
 #define COMPAT_HWCAP_TLS       (1 << 15)
 #define COMPAT_HWCAP_VFPv4     (1 << 16)
 #define COMPAT_HWCAP_IDIVA     (1 << 17)
 #define COMPAT_HWCAP_IDIVT     (1 << 18)
 #define COMPAT_HWCAP_IDIV      (COMPAT_HWCAP_IDIVA|COMPAT_HWCAP_IDIVT)
+#define COMPAT_HWCAP_VFPD32    (1 << 19)
 #define COMPAT_HWCAP_LPAE      (1 << 20)
 #define COMPAT_HWCAP_EVTSTRM   (1 << 21)
 
 #define KERNEL_HWCAP_DGH               __khwcap2_feature(DGH)
 #define KERNEL_HWCAP_RNG               __khwcap2_feature(RNG)
 #define KERNEL_HWCAP_BTI               __khwcap2_feature(BTI)
-/* reserved for KERNEL_HWCAP_MTE       __khwcap2_feature(MTE) */
+#define KERNEL_HWCAP_MTE               __khwcap2_feature(MTE)
 
 /*
  * This yields a mask that user programs can use to figure out what
index 0bc4614..4b39293 100644 (file)
@@ -359,9 +359,13 @@ __AARCH64_INSN_FUNCS(brk,  0xFFE0001F, 0xD4200000)
 __AARCH64_INSN_FUNCS(exception,        0xFF000000, 0xD4000000)
 __AARCH64_INSN_FUNCS(hint,     0xFFFFF01F, 0xD503201F)
 __AARCH64_INSN_FUNCS(br,       0xFFFFFC1F, 0xD61F0000)
+__AARCH64_INSN_FUNCS(br_auth,  0xFEFFF800, 0xD61F0800)
 __AARCH64_INSN_FUNCS(blr,      0xFFFFFC1F, 0xD63F0000)
+__AARCH64_INSN_FUNCS(blr_auth, 0xFEFFF800, 0xD63F0800)
 __AARCH64_INSN_FUNCS(ret,      0xFFFFFC1F, 0xD65F0000)
+__AARCH64_INSN_FUNCS(ret_auth, 0xFFFFFBFF, 0xD65F0BFF)
 __AARCH64_INSN_FUNCS(eret,     0xFFFFFFFF, 0xD69F03E0)
+__AARCH64_INSN_FUNCS(eret_auth,        0xFFFFFBFF, 0xD69F0BFF)
 __AARCH64_INSN_FUNCS(mrs,      0xFFF00000, 0xD5300000)
 __AARCH64_INSN_FUNCS(msr_imm,  0xFFF8F01F, 0xD500401F)
 __AARCH64_INSN_FUNCS(msr_reg,  0xFFF00000, 0xD5100000)
index 8a1ef19..a102028 100644 (file)
@@ -2,11 +2,9 @@
 #ifndef __ASM_IRQ_WORK_H
 #define __ASM_IRQ_WORK_H
 
-#include <asm/smp.h>
-
 static inline bool arch_irq_work_has_interrupt(void)
 {
-       return !!__smp_cross_call;
+       return true;
 }
 
 #endif /* __ASM_IRQ_WORK_H */
index 329fb15..19ca76e 100644 (file)
@@ -86,7 +86,7 @@
                        + EARLY_PGDS((vstart), (vend))  /* each PGDIR needs a next level page table */  \
                        + EARLY_PUDS((vstart), (vend))  /* each PUD needs a next level page table */    \
                        + EARLY_PMDS((vstart), (vend))) /* each PMD needs a next level page table */
-#define INIT_DIR_SIZE (PAGE_SIZE * EARLY_PAGES(KIMAGE_VADDR + TEXT_OFFSET, _end))
+#define INIT_DIR_SIZE (PAGE_SIZE * EARLY_PAGES(KIMAGE_VADDR, _end))
 #define IDMAP_DIR_SIZE         (IDMAP_PGTABLE_LEVELS * PAGE_SIZE)
 
 #ifdef CONFIG_ARM64_SW_TTBR0_PAN
index 1da8e3d..64ce293 100644 (file)
@@ -12,6 +12,7 @@
 #include <asm/types.h>
 
 /* Hyp Configuration Register (HCR) bits */
+#define HCR_ATA                (UL(1) << 56)
 #define HCR_FWB                (UL(1) << 46)
 #define HCR_API                (UL(1) << 41)
 #define HCR_APK                (UL(1) << 40)
@@ -66,7 +67,7 @@
  * TWI:                Trap WFI
  * TIDCP:      Trap L2CTLR/L2ECTLR
  * BSU_IS:     Upgrade barriers to the inner shareable domain
- * FB:         Force broadcast of all maintainance operations
+ * FB:         Force broadcast of all maintenance operations
  * AMO:                Override CPSR.A and enable signaling with VA
  * IMO:                Override CPSR.I and enable signaling with VI
  * FMO:                Override CPSR.F and enable signaling with VF
@@ -78,7 +79,7 @@
                         HCR_AMO | HCR_SWIO | HCR_TIDCP | HCR_RW | HCR_TLOR | \
                         HCR_FMO | HCR_IMO | HCR_PTW )
 #define HCR_VIRT_EXCP_MASK (HCR_VSE | HCR_VI | HCR_VF)
-#define HCR_HOST_NVHE_FLAGS (HCR_RW | HCR_API | HCR_APK)
+#define HCR_HOST_NVHE_FLAGS (HCR_RW | HCR_API | HCR_APK | HCR_ATA)
 #define HCR_HOST_VHE_FLAGS (HCR_RW | HCR_TGE | HCR_E2H)
 
 /* TCR_EL2 Registers bits */
index 6f98fbd..7f7072f 100644 (file)
@@ -9,9 +9,6 @@
 
 #include <asm/virt.h>
 
-#define        VCPU_WORKAROUND_2_FLAG_SHIFT    0
-#define        VCPU_WORKAROUND_2_FLAG          (_AC(1, UL) << VCPU_WORKAROUND_2_FLAG_SHIFT)
-
 #define ARM_EXIT_WITH_SERROR_BIT  31
 #define ARM_EXCEPTION_CODE(x)    ((x) & ~(1U << ARM_EXIT_WITH_SERROR_BIT))
 #define ARM_EXCEPTION_IS_TRAP(x)  (ARM_EXCEPTION_CODE((x)) == ARM_EXCEPTION_TRAP)
@@ -102,11 +99,9 @@ DECLARE_KVM_HYP_SYM(__kvm_hyp_vector);
 #define __kvm_hyp_init         CHOOSE_NVHE_SYM(__kvm_hyp_init)
 #define __kvm_hyp_vector       CHOOSE_HYP_SYM(__kvm_hyp_vector)
 
-#ifdef CONFIG_KVM_INDIRECT_VECTORS
 extern atomic_t arm64_el2_vector_last_slot;
 DECLARE_KVM_HYP_SYM(__bp_harden_hyp_vecs);
 #define __bp_harden_hyp_vecs   CHOOSE_HYP_SYM(__bp_harden_hyp_vecs)
-#endif
 
 extern void __kvm_flush_vm_context(void);
 extern void __kvm_tlb_flush_vmid_ipa(struct kvm_s2_mmu *mmu, phys_addr_t ipa,
index 1cc5f5f..5ef2669 100644 (file)
@@ -391,20 +391,6 @@ static inline unsigned long kvm_vcpu_get_mpidr_aff(struct kvm_vcpu *vcpu)
        return vcpu_read_sys_reg(vcpu, MPIDR_EL1) & MPIDR_HWID_BITMASK;
 }
 
-static inline bool kvm_arm_get_vcpu_workaround_2_flag(struct kvm_vcpu *vcpu)
-{
-       return vcpu->arch.workaround_flags & VCPU_WORKAROUND_2_FLAG;
-}
-
-static inline void kvm_arm_set_vcpu_workaround_2_flag(struct kvm_vcpu *vcpu,
-                                                     bool flag)
-{
-       if (flag)
-               vcpu->arch.workaround_flags |= VCPU_WORKAROUND_2_FLAG;
-       else
-               vcpu->arch.workaround_flags &= ~VCPU_WORKAROUND_2_FLAG;
-}
-
 static inline void kvm_vcpu_set_be(struct kvm_vcpu *vcpu)
 {
        if (vcpu_mode_is_32bit(vcpu)) {
index 905c2b8..bb5e5b8 100644 (file)
@@ -631,46 +631,6 @@ static inline void kvm_set_pmu_events(u32 set, struct perf_event_attr *attr) {}
 static inline void kvm_clr_pmu_events(u32 clr) {}
 #endif
 
-#define KVM_BP_HARDEN_UNKNOWN          -1
-#define KVM_BP_HARDEN_WA_NEEDED                0
-#define KVM_BP_HARDEN_NOT_REQUIRED     1
-
-static inline int kvm_arm_harden_branch_predictor(void)
-{
-       switch (get_spectre_v2_workaround_state()) {
-       case ARM64_BP_HARDEN_WA_NEEDED:
-               return KVM_BP_HARDEN_WA_NEEDED;
-       case ARM64_BP_HARDEN_NOT_REQUIRED:
-               return KVM_BP_HARDEN_NOT_REQUIRED;
-       case ARM64_BP_HARDEN_UNKNOWN:
-       default:
-               return KVM_BP_HARDEN_UNKNOWN;
-       }
-}
-
-#define KVM_SSBD_UNKNOWN               -1
-#define KVM_SSBD_FORCE_DISABLE         0
-#define KVM_SSBD_KERNEL                1
-#define KVM_SSBD_FORCE_ENABLE          2
-#define KVM_SSBD_MITIGATED             3
-
-static inline int kvm_arm_have_ssbd(void)
-{
-       switch (arm64_get_ssbd_state()) {
-       case ARM64_SSBD_FORCE_DISABLE:
-               return KVM_SSBD_FORCE_DISABLE;
-       case ARM64_SSBD_KERNEL:
-               return KVM_SSBD_KERNEL;
-       case ARM64_SSBD_FORCE_ENABLE:
-               return KVM_SSBD_FORCE_ENABLE;
-       case ARM64_SSBD_MITIGATED:
-               return KVM_SSBD_MITIGATED;
-       case ARM64_SSBD_UNKNOWN:
-       default:
-               return KVM_SSBD_UNKNOWN;
-       }
-}
-
 void kvm_vcpu_load_sysregs_vhe(struct kvm_vcpu *vcpu);
 void kvm_vcpu_put_sysregs_vhe(struct kvm_vcpu *vcpu);
 
index 189839c..cff1ceb 100644 (file)
@@ -9,6 +9,7 @@
 
 #include <asm/page.h>
 #include <asm/memory.h>
+#include <asm/mmu.h>
 #include <asm/cpufeature.h>
 
 /*
@@ -430,19 +431,17 @@ static inline int kvm_write_guest_lock(struct kvm *kvm, gpa_t gpa,
        return ret;
 }
 
-#ifdef CONFIG_KVM_INDIRECT_VECTORS
 /*
  * EL2 vectors can be mapped and rerouted in a number of ways,
  * depending on the kernel configuration and CPU present:
  *
- * - If the CPU has the ARM64_HARDEN_BRANCH_PREDICTOR cap, the
- *   hardening sequence is placed in one of the vector slots, which is
- *   executed before jumping to the real vectors.
+ * - If the CPU is affected by Spectre-v2, the hardening sequence is
+ *   placed in one of the vector slots, which is executed before jumping
+ *   to the real vectors.
  *
- * - If the CPU has both the ARM64_HARDEN_EL2_VECTORS cap and the
- *   ARM64_HARDEN_BRANCH_PREDICTOR cap, the slot containing the
- *   hardening sequence is mapped next to the idmap page, and executed
- *   before jumping to the real vectors.
+ * - If the CPU also has the ARM64_HARDEN_EL2_VECTORS cap, the slot
+ *   containing the hardening sequence is mapped next to the idmap page,
+ *   and executed before jumping to the real vectors.
  *
  * - If the CPU only has the ARM64_HARDEN_EL2_VECTORS cap, then an
  *   empty slot is selected, mapped next to the idmap page, and
@@ -452,19 +451,16 @@ static inline int kvm_write_guest_lock(struct kvm *kvm, gpa_t gpa,
  * VHE, as we don't have hypervisor-specific mappings. If the system
  * is VHE and yet selects this capability, it will be ignored.
  */
-#include <asm/mmu.h>
-
 extern void *__kvm_bp_vect_base;
 extern int __kvm_harden_el2_vector_slot;
 
-/*  This is called on both VHE and !VHE systems */
 static inline void *kvm_get_hyp_vector(void)
 {
        struct bp_hardening_data *data = arm64_get_bp_hardening_data();
        void *vect = kern_hyp_va(kvm_ksym_ref(__kvm_hyp_vector));
        int slot = -1;
 
-       if (cpus_have_const_cap(ARM64_HARDEN_BRANCH_PREDICTOR) && data->fn) {
+       if (cpus_have_const_cap(ARM64_SPECTRE_V2) && data->fn) {
                vect = kern_hyp_va(kvm_ksym_ref(__bp_harden_hyp_vecs));
                slot = data->hyp_vectors_slot;
        }
@@ -481,76 +477,6 @@ static inline void *kvm_get_hyp_vector(void)
        return vect;
 }
 
-/*  This is only called on a !VHE system */
-static inline int kvm_map_vectors(void)
-{
-       /*
-        * HBP  = ARM64_HARDEN_BRANCH_PREDICTOR
-        * HEL2 = ARM64_HARDEN_EL2_VECTORS
-        *
-        * !HBP + !HEL2 -> use direct vectors
-        *  HBP + !HEL2 -> use hardened vectors in place
-        * !HBP +  HEL2 -> allocate one vector slot and use exec mapping
-        *  HBP +  HEL2 -> use hardened vertors and use exec mapping
-        */
-       if (cpus_have_const_cap(ARM64_HARDEN_BRANCH_PREDICTOR)) {
-               __kvm_bp_vect_base = kvm_ksym_ref(__bp_harden_hyp_vecs);
-               __kvm_bp_vect_base = kern_hyp_va(__kvm_bp_vect_base);
-       }
-
-       if (cpus_have_const_cap(ARM64_HARDEN_EL2_VECTORS)) {
-               phys_addr_t vect_pa = __pa_symbol(__bp_harden_hyp_vecs);
-               unsigned long size = __BP_HARDEN_HYP_VECS_SZ;
-
-               /*
-                * Always allocate a spare vector slot, as we don't
-                * know yet which CPUs have a BP hardening slot that
-                * we can reuse.
-                */
-               __kvm_harden_el2_vector_slot = atomic_inc_return(&arm64_el2_vector_last_slot);
-               BUG_ON(__kvm_harden_el2_vector_slot >= BP_HARDEN_EL2_SLOTS);
-               return create_hyp_exec_mappings(vect_pa, size,
-                                               &__kvm_bp_vect_base);
-       }
-
-       return 0;
-}
-#else
-static inline void *kvm_get_hyp_vector(void)
-{
-       return kern_hyp_va(kvm_ksym_ref(__kvm_hyp_vector));
-}
-
-static inline int kvm_map_vectors(void)
-{
-       return 0;
-}
-#endif
-
-#ifdef CONFIG_ARM64_SSBD
-DECLARE_PER_CPU_READ_MOSTLY(u64, arm64_ssbd_callback_required);
-
-static inline int hyp_map_aux_data(void)
-{
-       int cpu, err;
-
-       for_each_possible_cpu(cpu) {
-               u64 *ptr;
-
-               ptr = per_cpu_ptr(&arm64_ssbd_callback_required, cpu);
-               err = create_hyp_mappings(ptr, ptr + 1, PAGE_HYP);
-               if (err)
-                       return err;
-       }
-       return 0;
-}
-#else
-static inline int hyp_map_aux_data(void)
-{
-       return 0;
-}
-#endif
-
 #define kvm_phys_to_vttbr(addr)                phys_to_ttbr(addr)
 
 /*
index afa7225..43640d7 100644 (file)
 
 /*
  * Memory types available.
+ *
+ * IMPORTANT: MT_NORMAL must be index 0 since vm_get_page_prot() may 'or' in
+ *           the MT_NORMAL_TAGGED memory type for PROT_MTE mappings. Note
+ *           that protection_map[] only contains MT_NORMAL attributes.
  */
-#define MT_DEVICE_nGnRnE       0
-#define MT_DEVICE_nGnRE                1
-#define MT_DEVICE_GRE          2
-#define MT_NORMAL_NC           3
-#define MT_NORMAL              4
-#define MT_NORMAL_WT           5
+#define MT_NORMAL              0
+#define MT_NORMAL_TAGGED       1
+#define MT_NORMAL_NC           2
+#define MT_NORMAL_WT           3
+#define MT_DEVICE_nGnRnE       4
+#define MT_DEVICE_nGnRE                5
+#define MT_DEVICE_GRE          6
 
 /*
  * Memory types for Stage-2 translation
@@ -169,7 +174,7 @@ extern s64                  memstart_addr;
 /* PHYS_OFFSET - the physical address of the start of memory. */
 #define PHYS_OFFSET            ({ VM_BUG_ON(memstart_addr & 1); memstart_addr; })
 
-/* the virtual base of the kernel image (minus TEXT_OFFSET) */
+/* the virtual base of the kernel image */
 extern u64                     kimage_vaddr;
 
 /* the offset between the kernel virtual and physical mappings */
index 081ec8d..e3e28f7 100644 (file)
@@ -9,16 +9,53 @@
 static inline unsigned long arch_calc_vm_prot_bits(unsigned long prot,
        unsigned long pkey __always_unused)
 {
+       unsigned long ret = 0;
+
        if (system_supports_bti() && (prot & PROT_BTI))
-               return VM_ARM64_BTI;
+               ret |= VM_ARM64_BTI;
 
-       return 0;
+       if (system_supports_mte() && (prot & PROT_MTE))
+               ret |= VM_MTE;
+
+       return ret;
 }
 #define arch_calc_vm_prot_bits(prot, pkey) arch_calc_vm_prot_bits(prot, pkey)
 
+static inline unsigned long arch_calc_vm_flag_bits(unsigned long flags)
+{
+       /*
+        * Only allow MTE on anonymous mappings as these are guaranteed to be
+        * backed by tags-capable memory. The vm_flags may be overridden by a
+        * filesystem supporting MTE (RAM-based).
+        */
+       if (system_supports_mte() && (flags & MAP_ANONYMOUS))
+               return VM_MTE_ALLOWED;
+
+       return 0;
+}
+#define arch_calc_vm_flag_bits(flags) arch_calc_vm_flag_bits(flags)
+
 static inline pgprot_t arch_vm_get_page_prot(unsigned long vm_flags)
 {
-       return (vm_flags & VM_ARM64_BTI) ? __pgprot(PTE_GP) : __pgprot(0);
+       pteval_t prot = 0;
+
+       if (vm_flags & VM_ARM64_BTI)
+               prot |= PTE_GP;
+
+       /*
+        * There are two conditions required for returning a Normal Tagged
+        * memory type: (1) the user requested it via PROT_MTE passed to
+        * mmap() or mprotect() and (2) the corresponding vma supports MTE. We
+        * register (1) as VM_MTE in the vma->vm_flags and (2) as
+        * VM_MTE_ALLOWED. Note that the latter can only be set during the
+        * mmap() call since mprotect() does not accept MAP_* flags.
+        * Checking for VM_MTE only is sufficient since arch_validate_flags()
+        * does not permit (VM_MTE & !VM_MTE_ALLOWED).
+        */
+       if (vm_flags & VM_MTE)
+               prot |= PTE_ATTRINDX(MT_NORMAL_TAGGED);
+
+       return __pgprot(prot);
 }
 #define arch_vm_get_page_prot(vm_flags) arch_vm_get_page_prot(vm_flags)
 
@@ -30,8 +67,21 @@ static inline bool arch_validate_prot(unsigned long prot,
        if (system_supports_bti())
                supported |= PROT_BTI;
 
+       if (system_supports_mte())
+               supported |= PROT_MTE;
+
        return (prot & ~supported) == 0;
 }
 #define arch_validate_prot(prot, addr) arch_validate_prot(prot, addr)
 
+static inline bool arch_validate_flags(unsigned long vm_flags)
+{
+       if (!system_supports_mte())
+               return true;
+
+       /* only allow VM_MTE if VM_MTE_ALLOWED has been set previously */
+       return !(vm_flags & VM_MTE) || (vm_flags & VM_MTE_ALLOWED);
+}
+#define arch_validate_flags(vm_flags) arch_validate_flags(vm_flags)
+
 #endif /* ! __ASM_MMAN_H__ */
index a7a5eca..b2e91c1 100644 (file)
 
 #ifndef __ASSEMBLY__
 
+#include <linux/refcount.h>
+
 typedef struct {
        atomic64_t      id;
 #ifdef CONFIG_COMPAT
        void            *sigpage;
 #endif
+       refcount_t      pinned;
        void            *vdso;
        unsigned long   flags;
 } mm_context_t;
@@ -45,7 +48,6 @@ struct bp_hardening_data {
        bp_hardening_cb_t       fn;
 };
 
-#ifdef CONFIG_HARDEN_BRANCH_PREDICTOR
 DECLARE_PER_CPU_READ_MOSTLY(struct bp_hardening_data, bp_hardening_data);
 
 static inline struct bp_hardening_data *arm64_get_bp_hardening_data(void)
@@ -57,21 +59,13 @@ static inline void arm64_apply_bp_hardening(void)
 {
        struct bp_hardening_data *d;
 
-       if (!cpus_have_const_cap(ARM64_HARDEN_BRANCH_PREDICTOR))
+       if (!cpus_have_const_cap(ARM64_SPECTRE_V2))
                return;
 
        d = arm64_get_bp_hardening_data();
        if (d->fn)
                d->fn();
 }
-#else
-static inline struct bp_hardening_data *arm64_get_bp_hardening_data(void)
-{
-       return NULL;
-}
-
-static inline void arm64_apply_bp_hardening(void)      { }
-#endif /* CONFIG_HARDEN_BRANCH_PREDICTOR */
 
 extern void arm64_memblock_init(void);
 extern void paging_init(void);
index f2d7537..0672236 100644 (file)
@@ -177,7 +177,13 @@ static inline void cpu_replace_ttbr1(pgd_t *pgdp)
 #define destroy_context(mm)            do { } while(0)
 void check_and_switch_context(struct mm_struct *mm);
 
-#define init_new_context(tsk,mm)       ({ atomic64_set(&(mm)->context.id, 0); 0; })
+static inline int
+init_new_context(struct task_struct *tsk, struct mm_struct *mm)
+{
+       atomic64_set(&mm->context.id, 0);
+       refcount_set(&mm->context.pinned, 0);
+       return 0;
+}
 
 #ifdef CONFIG_ARM64_SW_TTBR0_PAN
 static inline void update_saved_ttbr0(struct task_struct *tsk,
@@ -248,6 +254,9 @@ switch_mm(struct mm_struct *prev, struct mm_struct *next,
 void verify_cpu_asid_bits(void);
 void post_ttbr_update_workaround(void);
 
+unsigned long arm64_mm_context_get(struct mm_struct *mm);
+void arm64_mm_context_put(struct mm_struct *mm);
+
 #endif /* !__ASSEMBLY__ */
 
 #endif /* !__ASM_MMU_CONTEXT_H */
diff --git a/arch/arm64/include/asm/mte.h b/arch/arm64/include/asm/mte.h
new file mode 100644 (file)
index 0000000..1c99fca
--- /dev/null
@@ -0,0 +1,86 @@
+/* SPDX-License-Identifier: GPL-2.0 */
+/*
+ * Copyright (C) 2020 ARM Ltd.
+ */
+#ifndef __ASM_MTE_H
+#define __ASM_MTE_H
+
+#define MTE_GRANULE_SIZE       UL(16)
+#define MTE_GRANULE_MASK       (~(MTE_GRANULE_SIZE - 1))
+#define MTE_TAG_SHIFT          56
+#define MTE_TAG_SIZE           4
+
+#ifndef __ASSEMBLY__
+
+#include <linux/page-flags.h>
+
+#include <asm/pgtable-types.h>
+
+void mte_clear_page_tags(void *addr);
+unsigned long mte_copy_tags_from_user(void *to, const void __user *from,
+                                     unsigned long n);
+unsigned long mte_copy_tags_to_user(void __user *to, void *from,
+                                   unsigned long n);
+int mte_save_tags(struct page *page);
+void mte_save_page_tags(const void *page_addr, void *tag_storage);
+bool mte_restore_tags(swp_entry_t entry, struct page *page);
+void mte_restore_page_tags(void *page_addr, const void *tag_storage);
+void mte_invalidate_tags(int type, pgoff_t offset);
+void mte_invalidate_tags_area(int type);
+void *mte_allocate_tag_storage(void);
+void mte_free_tag_storage(char *storage);
+
+#ifdef CONFIG_ARM64_MTE
+
+/* track which pages have valid allocation tags */
+#define PG_mte_tagged  PG_arch_2
+
+void mte_sync_tags(pte_t *ptep, pte_t pte);
+void mte_copy_page_tags(void *kto, const void *kfrom);
+void flush_mte_state(void);
+void mte_thread_switch(struct task_struct *next);
+void mte_suspend_exit(void);
+long set_mte_ctrl(struct task_struct *task, unsigned long arg);
+long get_mte_ctrl(struct task_struct *task);
+int mte_ptrace_copy_tags(struct task_struct *child, long request,
+                        unsigned long addr, unsigned long data);
+
+#else
+
+/* unused if !CONFIG_ARM64_MTE, silence the compiler */
+#define PG_mte_tagged  0
+
+static inline void mte_sync_tags(pte_t *ptep, pte_t pte)
+{
+}
+static inline void mte_copy_page_tags(void *kto, const void *kfrom)
+{
+}
+static inline void flush_mte_state(void)
+{
+}
+static inline void mte_thread_switch(struct task_struct *next)
+{
+}
+static inline void mte_suspend_exit(void)
+{
+}
+static inline long set_mte_ctrl(struct task_struct *task, unsigned long arg)
+{
+       return 0;
+}
+static inline long get_mte_ctrl(struct task_struct *task)
+{
+       return 0;
+}
+static inline int mte_ptrace_copy_tags(struct task_struct *child,
+                                      long request, unsigned long addr,
+                                      unsigned long data)
+{
+       return -EIO;
+}
+
+#endif
+
+#endif /* __ASSEMBLY__ */
+#endif /* __ASM_MTE_H  */
index 626ad01..dd87039 100644 (file)
@@ -25,6 +25,9 @@ const struct cpumask *cpumask_of_node(int node);
 /* Returns a pointer to the cpumask of CPUs on Node 'node'. */
 static inline const struct cpumask *cpumask_of_node(int node)
 {
+       if (node == NUMA_NO_NODE)
+               return cpu_all_mask;
+
        return node_to_cpumask_map[node];
 }
 #endif
index f99d48e..2403f7b 100644 (file)
 #include <linux/const.h>
 
 /* PAGE_SHIFT determines the page size */
-/* CONT_SHIFT determines the number of pages which can be tracked together  */
 #define PAGE_SHIFT             CONFIG_ARM64_PAGE_SHIFT
-#define CONT_SHIFT             CONFIG_ARM64_CONT_SHIFT
 #define PAGE_SIZE              (_AC(1, UL) << PAGE_SHIFT)
 #define PAGE_MASK              (~(PAGE_SIZE-1))
 
-#define CONT_SIZE              (_AC(1, UL) << (CONT_SHIFT + PAGE_SHIFT))
-#define CONT_MASK              (~(CONT_SIZE-1))
-
 #endif /* __ASM_PAGE_DEF_H */
index c01b52a..012cffc 100644 (file)
 #include <linux/personality.h> /* for READ_IMPLIES_EXEC */
 #include <asm/pgtable-types.h>
 
-extern void __cpu_clear_user_page(void *p, unsigned long user);
-extern void __cpu_copy_user_page(void *to, const void *from,
-                                unsigned long user);
+struct page;
+struct vm_area_struct;
+
 extern void copy_page(void *to, const void *from);
 extern void clear_page(void *to);
 
+void copy_user_highpage(struct page *to, struct page *from,
+                       unsigned long vaddr, struct vm_area_struct *vma);
+#define __HAVE_ARCH_COPY_USER_HIGHPAGE
+
+void copy_highpage(struct page *to, struct page *from);
+#define __HAVE_ARCH_COPY_HIGHPAGE
+
 #define __alloc_zeroed_user_highpage(movableflags, vma, vaddr) \
        alloc_page_vma(GFP_HIGHUSER | __GFP_ZERO | movableflags, vma, vaddr)
 #define __HAVE_ARCH_ALLOC_ZEROED_USER_HIGHPAGE
 
-#define clear_user_page(addr,vaddr,pg)  __cpu_clear_user_page(addr, vaddr)
-#define copy_user_page(to,from,vaddr,pg) __cpu_copy_user_page(to, from, vaddr)
+#define clear_user_page(page, vaddr, pg)       clear_page(page)
+#define copy_user_page(to, from, vaddr, pg)    copy_page(to, from)
 
 typedef struct page *pgtable_t;
 
@@ -36,7 +43,7 @@ extern int pfn_valid(unsigned long);
 
 #endif /* !__ASSEMBLY__ */
 
-#define VM_DATA_DEFAULT_FLAGS  VM_DATA_FLAGS_TSK_EXEC
+#define VM_DATA_DEFAULT_FLAGS  (VM_DATA_FLAGS_TSK_EXEC | VM_MTE_ALLOWED)
 
 #include <asm-generic/getorder.h>
 
index 70b323c..b33ca26 100644 (file)
@@ -17,6 +17,7 @@
 #define pcibios_assign_all_busses() \
        (pci_has_flag(PCI_REASSIGN_ALL_BUS))
 
+#define arch_can_pci_mmap_wc() 1
 #define ARCH_GENERIC_PCI_MMAP_RESOURCE 1
 
 extern int isa_dma_bridge_buggy;
index 2c2d7db..60731f6 100644 (file)
 #define ARMV8_PMU_USERENR_CR   (1 << 2) /* Cycle counter can be read at EL0 */
 #define ARMV8_PMU_USERENR_ER   (1 << 3) /* Event counter can be read at EL0 */
 
+/* PMMIR_EL1.SLOTS mask */
+#define ARMV8_PMU_SLOTS_MASK   0xff
+
 #ifdef CONFIG_PERF_EVENTS
 struct pt_regs;
 extern unsigned long perf_instruction_pointer(struct pt_regs *regs);
index d400a4d..94b3f2a 100644 (file)
 /*
  * Contiguous page definitions.
  */
-#ifdef CONFIG_ARM64_64K_PAGES
-#define CONT_PTE_SHIFT         (5 + PAGE_SHIFT)
-#define CONT_PMD_SHIFT         (5 + PMD_SHIFT)
-#elif defined(CONFIG_ARM64_16K_PAGES)
-#define CONT_PTE_SHIFT         (7 + PAGE_SHIFT)
-#define CONT_PMD_SHIFT         (5 + PMD_SHIFT)
-#else
-#define CONT_PTE_SHIFT         (4 + PAGE_SHIFT)
-#define CONT_PMD_SHIFT         (4 + PMD_SHIFT)
-#endif
-
+#define CONT_PTE_SHIFT         (CONFIG_ARM64_CONT_PTE_SHIFT + PAGE_SHIFT)
 #define CONT_PTES              (1 << (CONT_PTE_SHIFT - PAGE_SHIFT))
 #define CONT_PTE_SIZE          (CONT_PTES * PAGE_SIZE)
 #define CONT_PTE_MASK          (~(CONT_PTE_SIZE - 1))
+
+#define CONT_PMD_SHIFT         (CONFIG_ARM64_CONT_PMD_SHIFT + PMD_SHIFT)
 #define CONT_PMDS              (1 << (CONT_PMD_SHIFT - PMD_SHIFT))
 #define CONT_PMD_SIZE          (CONT_PMDS * PMD_SIZE)
 #define CONT_PMD_MASK          (~(CONT_PMD_SIZE - 1))
-/* the numerical offset of the PTE within a range of CONT_PTES */
-#define CONT_RANGE_OFFSET(addr) (((addr)>>PAGE_SHIFT)&(CONT_PTES-1))
 
 /*
  * Hardware page table definitions.
index 4d867c6..4cd0d6c 100644 (file)
 #define PTE_DEVMAP             (_AT(pteval_t, 1) << 57)
 #define PTE_PROT_NONE          (_AT(pteval_t, 1) << 58) /* only when !PTE_VALID */
 
+/*
+ * This bit indicates that the entry is present i.e. pmd_page()
+ * still points to a valid huge page in memory even if the pmd
+ * has been invalidated.
+ */
+#define PMD_PRESENT_INVALID    (_AT(pteval_t, 1) << 59) /* only when !PMD_SECT_VALID */
+
 #ifndef __ASSEMBLY__
 
 #include <asm/cpufeature.h>
@@ -50,6 +57,7 @@ extern bool arm64_use_ng_mappings;
 #define PROT_NORMAL_NC         (PROT_DEFAULT | PTE_PXN | PTE_UXN | PTE_WRITE | PTE_ATTRINDX(MT_NORMAL_NC))
 #define PROT_NORMAL_WT         (PROT_DEFAULT | PTE_PXN | PTE_UXN | PTE_WRITE | PTE_ATTRINDX(MT_NORMAL_WT))
 #define PROT_NORMAL            (PROT_DEFAULT | PTE_PXN | PTE_UXN | PTE_WRITE | PTE_ATTRINDX(MT_NORMAL))
+#define PROT_NORMAL_TAGGED     (PROT_DEFAULT | PTE_PXN | PTE_UXN | PTE_WRITE | PTE_ATTRINDX(MT_NORMAL_TAGGED))
 
 #define PROT_SECT_DEVICE_nGnRE (PROT_SECT_DEFAULT | PMD_SECT_PXN | PMD_SECT_UXN | PMD_ATTRINDX(MT_DEVICE_nGnRE))
 #define PROT_SECT_NORMAL       (PROT_SECT_DEFAULT | PMD_SECT_PXN | PMD_SECT_UXN | PMD_ATTRINDX(MT_NORMAL))
@@ -59,6 +67,7 @@ extern bool arm64_use_ng_mappings;
 #define _HYP_PAGE_DEFAULT      _PAGE_DEFAULT
 
 #define PAGE_KERNEL            __pgprot(PROT_NORMAL)
+#define PAGE_KERNEL_TAGGED     __pgprot(PROT_NORMAL_TAGGED)
 #define PAGE_KERNEL_RO         __pgprot((PROT_NORMAL & ~PTE_WRITE) | PTE_RDONLY)
 #define PAGE_KERNEL_ROX                __pgprot((PROT_NORMAL & ~(PTE_WRITE | PTE_PXN)) | PTE_RDONLY)
 #define PAGE_KERNEL_EXEC       __pgprot(PROT_NORMAL & ~PTE_PXN)
index d5d3fbe..a11bf52 100644 (file)
@@ -9,6 +9,7 @@
 #include <asm/proc-fns.h>
 
 #include <asm/memory.h>
+#include <asm/mte.h>
 #include <asm/pgtable-hwdef.h>
 #include <asm/pgtable-prot.h>
 #include <asm/tlbflush.h>
 
 extern struct page *vmemmap;
 
-extern void __pte_error(const char *file, int line, unsigned long val);
-extern void __pmd_error(const char *file, int line, unsigned long val);
-extern void __pud_error(const char *file, int line, unsigned long val);
-extern void __pgd_error(const char *file, int line, unsigned long val);
-
 #ifdef CONFIG_TRANSPARENT_HUGEPAGE
 #define __HAVE_ARCH_FLUSH_PMD_TLB_RANGE
 
@@ -51,13 +47,22 @@ extern void __pgd_error(const char *file, int line, unsigned long val);
 #endif /* CONFIG_TRANSPARENT_HUGEPAGE */
 
 /*
+ * Outside of a few very special situations (e.g. hibernation), we always
+ * use broadcast TLB invalidation instructions, therefore a spurious page
+ * fault on one CPU which has been handled concurrently by another CPU
+ * does not need to perform additional invalidation.
+ */
+#define flush_tlb_fix_spurious_fault(vma, address) do { } while (0)
+
+/*
  * ZERO_PAGE is a global shared page that is always zero: used
  * for zero-mapped memory areas etc..
  */
 extern unsigned long empty_zero_page[PAGE_SIZE / sizeof(unsigned long)];
 #define ZERO_PAGE(vaddr)       phys_to_page(__pa_symbol(empty_zero_page))
 
-#define pte_ERROR(pte)         __pte_error(__FILE__, __LINE__, pte_val(pte))
+#define pte_ERROR(e)   \
+       pr_err("%s:%d: bad pte %016llx.\n", __FILE__, __LINE__, pte_val(e))
 
 /*
  * Macros to convert between a physical address and its placement in a
@@ -90,6 +95,8 @@ extern unsigned long empty_zero_page[PAGE_SIZE / sizeof(unsigned long)];
 #define pte_user_exec(pte)     (!(pte_val(pte) & PTE_UXN))
 #define pte_cont(pte)          (!!(pte_val(pte) & PTE_CONT))
 #define pte_devmap(pte)                (!!(pte_val(pte) & PTE_DEVMAP))
+#define pte_tagged(pte)                ((pte_val(pte) & PTE_ATTRINDX_MASK) == \
+                                PTE_ATTRINDX(MT_NORMAL_TAGGED))
 
 #define pte_cont_addr_end(addr, end)                                           \
 ({     unsigned long __boundary = ((addr) + CONT_PTE_SIZE) & CONT_PTE_MASK;    \
@@ -145,6 +152,18 @@ static inline pte_t set_pte_bit(pte_t pte, pgprot_t prot)
        return pte;
 }
 
+static inline pmd_t clear_pmd_bit(pmd_t pmd, pgprot_t prot)
+{
+       pmd_val(pmd) &= ~pgprot_val(prot);
+       return pmd;
+}
+
+static inline pmd_t set_pmd_bit(pmd_t pmd, pgprot_t prot)
+{
+       pmd_val(pmd) |= pgprot_val(prot);
+       return pmd;
+}
+
 static inline pte_t pte_wrprotect(pte_t pte)
 {
        pte = clear_pte_bit(pte, __pgprot(PTE_WRITE));
@@ -284,6 +303,10 @@ static inline void set_pte_at(struct mm_struct *mm, unsigned long addr,
        if (pte_present(pte) && pte_user_exec(pte) && !pte_special(pte))
                __sync_icache_dcache(pte);
 
+       if (system_supports_mte() &&
+           pte_present(pte) && pte_tagged(pte) && !pte_special(pte))
+               mte_sync_tags(ptep, pte);
+
        __check_racy_pte_update(mm, ptep, pte);
 
        set_pte(ptep, pte);
@@ -363,15 +386,24 @@ static inline int pmd_protnone(pmd_t pmd)
 }
 #endif
 
+#define pmd_present_invalid(pmd)     (!!(pmd_val(pmd) & PMD_PRESENT_INVALID))
+
+static inline int pmd_present(pmd_t pmd)
+{
+       return pte_present(pmd_pte(pmd)) || pmd_present_invalid(pmd);
+}
+
 /*
  * THP definitions.
  */
 
 #ifdef CONFIG_TRANSPARENT_HUGEPAGE
-#define pmd_trans_huge(pmd)    (pmd_val(pmd) && !(pmd_val(pmd) & PMD_TABLE_BIT))
+static inline int pmd_trans_huge(pmd_t pmd)
+{
+       return pmd_val(pmd) && pmd_present(pmd) && !(pmd_val(pmd) & PMD_TABLE_BIT);
+}
 #endif /* CONFIG_TRANSPARENT_HUGEPAGE */
 
-#define pmd_present(pmd)       pte_present(pmd_pte(pmd))
 #define pmd_dirty(pmd)         pte_dirty(pmd_pte(pmd))
 #define pmd_young(pmd)         pte_young(pmd_pte(pmd))
 #define pmd_valid(pmd)         pte_valid(pmd_pte(pmd))
@@ -381,7 +413,14 @@ static inline int pmd_protnone(pmd_t pmd)
 #define pmd_mkclean(pmd)       pte_pmd(pte_mkclean(pmd_pte(pmd)))
 #define pmd_mkdirty(pmd)       pte_pmd(pte_mkdirty(pmd_pte(pmd)))
 #define pmd_mkyoung(pmd)       pte_pmd(pte_mkyoung(pmd_pte(pmd)))
-#define pmd_mkinvalid(pmd)     (__pmd(pmd_val(pmd) & ~PMD_SECT_VALID))
+
+static inline pmd_t pmd_mkinvalid(pmd_t pmd)
+{
+       pmd = set_pmd_bit(pmd, __pgprot(PMD_PRESENT_INVALID));
+       pmd = clear_pmd_bit(pmd, __pgprot(PMD_SECT_VALID));
+
+       return pmd;
+}
 
 #define pmd_thp_or_huge(pmd)   (pmd_huge(pmd) || pmd_trans_huge(pmd))
 
@@ -541,7 +580,8 @@ static inline unsigned long pmd_page_vaddr(pmd_t pmd)
 
 #if CONFIG_PGTABLE_LEVELS > 2
 
-#define pmd_ERROR(pmd)         __pmd_error(__FILE__, __LINE__, pmd_val(pmd))
+#define pmd_ERROR(e)   \
+       pr_err("%s:%d: bad pmd %016llx.\n", __FILE__, __LINE__, pmd_val(e))
 
 #define pud_none(pud)          (!pud_val(pud))
 #define pud_bad(pud)           (!(pud_val(pud) & PUD_TABLE_BIT))
@@ -608,7 +648,8 @@ static inline unsigned long pud_page_vaddr(pud_t pud)
 
 #if CONFIG_PGTABLE_LEVELS > 3
 
-#define pud_ERROR(pud)         __pud_error(__FILE__, __LINE__, pud_val(pud))
+#define pud_ERROR(e)   \
+       pr_err("%s:%d: bad pud %016llx.\n", __FILE__, __LINE__, pud_val(e))
 
 #define p4d_none(p4d)          (!p4d_val(p4d))
 #define p4d_bad(p4d)           (!(p4d_val(p4d) & 2))
@@ -667,15 +708,21 @@ static inline unsigned long p4d_page_vaddr(p4d_t p4d)
 
 #endif  /* CONFIG_PGTABLE_LEVELS > 3 */
 
-#define pgd_ERROR(pgd)         __pgd_error(__FILE__, __LINE__, pgd_val(pgd))
+#define pgd_ERROR(e)   \
+       pr_err("%s:%d: bad pgd %016llx.\n", __FILE__, __LINE__, pgd_val(e))
 
 #define pgd_set_fixmap(addr)   ((pgd_t *)set_fixmap_offset(FIX_PGD, addr))
 #define pgd_clear_fixmap()     clear_fixmap(FIX_PGD)
 
 static inline pte_t pte_modify(pte_t pte, pgprot_t newprot)
 {
+       /*
+        * Normal and Normal-Tagged are two different memory types and indices
+        * in MAIR_EL1. The mask below has to include PTE_ATTRINDX_MASK.
+        */
        const pteval_t mask = PTE_USER | PTE_PXN | PTE_UXN | PTE_RDONLY |
-                             PTE_PROT_NONE | PTE_VALID | PTE_WRITE | PTE_GP;
+                             PTE_PROT_NONE | PTE_VALID | PTE_WRITE | PTE_GP |
+                             PTE_ATTRINDX_MASK;
        /* preserve the hardware dirty information */
        if (pte_hw_dirty(pte))
                pte = pte_mkdirty(pte);
@@ -847,6 +894,11 @@ static inline pmd_t pmdp_establish(struct vm_area_struct *vma,
 #define __pte_to_swp_entry(pte)        ((swp_entry_t) { pte_val(pte) })
 #define __swp_entry_to_pte(swp)        ((pte_t) { (swp).val })
 
+#ifdef CONFIG_ARCH_ENABLE_THP_MIGRATION
+#define __pmd_to_swp_entry(pmd)                ((swp_entry_t) { pmd_val(pmd) })
+#define __swp_entry_to_pmd(swp)                __pmd((swp).val)
+#endif /* CONFIG_ARCH_ENABLE_THP_MIGRATION */
+
 /*
  * Ensure that there are not more swap files than can be encoded in the kernel
  * PTEs.
@@ -855,6 +907,38 @@ static inline pmd_t pmdp_establish(struct vm_area_struct *vma,
 
 extern int kern_addr_valid(unsigned long addr);
 
+#ifdef CONFIG_ARM64_MTE
+
+#define __HAVE_ARCH_PREPARE_TO_SWAP
+static inline int arch_prepare_to_swap(struct page *page)
+{
+       if (system_supports_mte())
+               return mte_save_tags(page);
+       return 0;
+}
+
+#define __HAVE_ARCH_SWAP_INVALIDATE
+static inline void arch_swap_invalidate_page(int type, pgoff_t offset)
+{
+       if (system_supports_mte())
+               mte_invalidate_tags(type, offset);
+}
+
+static inline void arch_swap_invalidate_area(int type)
+{
+       if (system_supports_mte())
+               mte_invalidate_tags_area(type);
+}
+
+#define __HAVE_ARCH_SWAP_RESTORE
+static inline void arch_swap_restore(swp_entry_t entry, struct page *page)
+{
+       if (system_supports_mte() && mte_restore_tags(entry, page))
+               set_bit(PG_mte_tagged, &page->flags);
+}
+
+#endif /* CONFIG_ARM64_MTE */
+
 /*
  * On AArch64, the cache coherency is handled via the set_pte_at() function.
  */
index 240fe5e..fce8cbe 100644 (file)
@@ -38,6 +38,7 @@
 #include <asm/pgtable-hwdef.h>
 #include <asm/pointer_auth.h>
 #include <asm/ptrace.h>
+#include <asm/spectre.h>
 #include <asm/types.h>
 
 /*
@@ -151,6 +152,10 @@ struct thread_struct {
        struct ptrauth_keys_user        keys_user;
        struct ptrauth_keys_kernel      keys_kernel;
 #endif
+#ifdef CONFIG_ARM64_MTE
+       u64                     sctlr_tcf0;
+       u64                     gcr_user_incl;
+#endif
 };
 
 static inline void arch_thread_struct_whitelist(unsigned long *offset,
@@ -197,40 +202,15 @@ static inline void start_thread_common(struct pt_regs *regs, unsigned long pc)
                regs->pmr_save = GIC_PRIO_IRQON;
 }
 
-static inline void set_ssbs_bit(struct pt_regs *regs)
-{
-       regs->pstate |= PSR_SSBS_BIT;
-}
-
-static inline void set_compat_ssbs_bit(struct pt_regs *regs)
-{
-       regs->pstate |= PSR_AA32_SSBS_BIT;
-}
-
 static inline void start_thread(struct pt_regs *regs, unsigned long pc,
                                unsigned long sp)
 {
        start_thread_common(regs, pc);
        regs->pstate = PSR_MODE_EL0t;
-
-       if (arm64_get_ssbd_state() != ARM64_SSBD_FORCE_ENABLE)
-               set_ssbs_bit(regs);
-
+       spectre_v4_enable_task_mitigation(current);
        regs->sp = sp;
 }
 
-static inline bool is_ttbr0_addr(unsigned long addr)
-{
-       /* entry assembly clears tags for TTBR0 addrs */
-       return addr < TASK_SIZE;
-}
-
-static inline bool is_ttbr1_addr(unsigned long addr)
-{
-       /* TTBR1 addresses may have a tag if KASAN_SW_TAGS is in use */
-       return arch_kasan_reset_tag(addr) >= PAGE_OFFSET;
-}
-
 #ifdef CONFIG_COMPAT
 static inline void compat_start_thread(struct pt_regs *regs, unsigned long pc,
                                       unsigned long sp)
@@ -244,13 +224,23 @@ static inline void compat_start_thread(struct pt_regs *regs, unsigned long pc,
        regs->pstate |= PSR_AA32_E_BIT;
 #endif
 
-       if (arm64_get_ssbd_state() != ARM64_SSBD_FORCE_ENABLE)
-               set_compat_ssbs_bit(regs);
-
+       spectre_v4_enable_task_mitigation(current);
        regs->compat_sp = sp;
 }
 #endif
 
+static inline bool is_ttbr0_addr(unsigned long addr)
+{
+       /* entry assembly clears tags for TTBR0 addrs */
+       return addr < TASK_SIZE;
+}
+
+static inline bool is_ttbr1_addr(unsigned long addr)
+{
+       /* TTBR1 addresses may have a tag if KASAN_SW_TAGS is in use */
+       return arch_kasan_reset_tag(addr) >= PAGE_OFFSET;
+}
+
 /* Forward declaration, a strange C thing */
 struct task_struct;
 
@@ -315,10 +305,10 @@ extern void __init minsigstksz_setup(void);
 
 #ifdef CONFIG_ARM64_TAGGED_ADDR_ABI
 /* PR_{SET,GET}_TAGGED_ADDR_CTRL prctl */
-long set_tagged_addr_ctrl(unsigned long arg);
-long get_tagged_addr_ctrl(void);
-#define SET_TAGGED_ADDR_CTRL(arg)      set_tagged_addr_ctrl(arg)
-#define GET_TAGGED_ADDR_CTRL()         get_tagged_addr_ctrl()
+long set_tagged_addr_ctrl(struct task_struct *task, unsigned long arg);
+long get_tagged_addr_ctrl(struct task_struct *task);
+#define SET_TAGGED_ADDR_CTRL(arg)      set_tagged_addr_ctrl(current, arg)
+#define GET_TAGGED_ADDR_CTRL()         get_tagged_addr_ctrl(current)
 #endif
 
 /*
index 966ed30..997cf8c 100644 (file)
  * interrupt disabling temporarily does not rely on IRQ priorities.
  */
 #define GIC_PRIO_IRQON                 0xe0
-#define GIC_PRIO_IRQOFF                        (GIC_PRIO_IRQON & ~0x80)
+#define __GIC_PRIO_IRQOFF              (GIC_PRIO_IRQON & ~0x80)
+#define __GIC_PRIO_IRQOFF_NS           0xa0
 #define GIC_PRIO_PSR_I_SET             (1 << 4)
 
+#define GIC_PRIO_IRQOFF                                                        \
+       ({                                                              \
+               extern struct static_key_false gic_nonsecure_priorities;\
+               u8 __prio = __GIC_PRIO_IRQOFF;                          \
+                                                                       \
+               if (static_branch_unlikely(&gic_nonsecure_priorities))  \
+                       __prio = __GIC_PRIO_IRQOFF_NS;                  \
+                                                                       \
+               __prio;                                                 \
+       })
+
 /* Additional SPSR bits not exposed in the UABI */
 #define PSR_MODE_THREAD_BIT    (1 << 0)
 #define PSR_IL_BIT             (1 << 20)
index 0eadbf9..2e7f529 100644 (file)
@@ -56,27 +56,15 @@ static inline void set_cpu_logical_map(int cpu, u64 hwid)
 struct seq_file;
 
 /*
- * generate IPI list text
- */
-extern void show_ipi_list(struct seq_file *p, int prec);
-
-/*
- * Called from C code, this handles an IPI.
- */
-extern void handle_IPI(int ipinr, struct pt_regs *regs);
-
-/*
  * Discover the set of possible CPUs and determine their
  * SMP operations.
  */
 extern void smp_init_cpus(void);
 
 /*
- * Provide a function to raise an IPI cross call on CPUs in callmap.
+ * Register IPI interrupts with the arch SMP code
  */
-extern void set_smp_cross_call(void (*)(const struct cpumask *, unsigned int));
-
-extern void (*__smp_cross_call)(const struct cpumask *, unsigned int);
+extern void set_smp_ipi_range(int ipi_base, int nr_ipi);
 
 /*
  * Called from the secondary holding pen, this is the secondary CPU entry point.
diff --git a/arch/arm64/include/asm/spectre.h b/arch/arm64/include/asm/spectre.h
new file mode 100644 (file)
index 0000000..fcdfbce
--- /dev/null
@@ -0,0 +1,32 @@
+/* SPDX-License-Identifier: GPL-2.0-only */
+/*
+ * Interface for managing mitigations for Spectre vulnerabilities.
+ *
+ * Copyright (C) 2020 Google LLC
+ * Author: Will Deacon <will@kernel.org>
+ */
+
+#ifndef __ASM_SPECTRE_H
+#define __ASM_SPECTRE_H
+
+#include <asm/cpufeature.h>
+
+/* Watch out, ordering is important here. */
+enum mitigation_state {
+       SPECTRE_UNAFFECTED,
+       SPECTRE_MITIGATED,
+       SPECTRE_VULNERABLE,
+};
+
+struct task_struct;
+
+enum mitigation_state arm64_get_spectre_v2_state(void);
+bool has_spectre_v2(const struct arm64_cpu_capabilities *cap, int scope);
+void spectre_v2_enable_mitigation(const struct arm64_cpu_capabilities *__unused);
+
+enum mitigation_state arm64_get_spectre_v4_state(void);
+bool has_spectre_v4(const struct arm64_cpu_capabilities *cap, int scope);
+void spectre_v4_enable_mitigation(const struct arm64_cpu_capabilities *__unused);
+void spectre_v4_enable_task_mitigation(struct task_struct *tsk);
+
+#endif /* __ASM_SPECTRE_H */
index fc76130..eb29b1f 100644 (file)
@@ -63,7 +63,7 @@ struct stackframe {
 
 extern int unwind_frame(struct task_struct *tsk, struct stackframe *frame);
 extern void walk_stackframe(struct task_struct *tsk, struct stackframe *frame,
-                           int (*fn)(struct stackframe *, void *), void *data);
+                           bool (*fn)(void *, unsigned long), void *data);
 extern void dump_backtrace(struct pt_regs *regs, struct task_struct *tsk,
                           const char *loglvl);
 
index 554a7e8..d52c1b3 100644 (file)
 #define PSTATE_PAN                     pstate_field(0, 4)
 #define PSTATE_UAO                     pstate_field(0, 3)
 #define PSTATE_SSBS                    pstate_field(3, 1)
+#define PSTATE_TCO                     pstate_field(3, 4)
 
 #define SET_PSTATE_PAN(x)              __emit_inst(0xd500401f | PSTATE_PAN | ((!!x) << PSTATE_Imm_shift))
 #define SET_PSTATE_UAO(x)              __emit_inst(0xd500401f | PSTATE_UAO | ((!!x) << PSTATE_Imm_shift))
 #define SET_PSTATE_SSBS(x)             __emit_inst(0xd500401f | PSTATE_SSBS | ((!!x) << PSTATE_Imm_shift))
+#define SET_PSTATE_TCO(x)              __emit_inst(0xd500401f | PSTATE_TCO | ((!!x) << PSTATE_Imm_shift))
 
 #define __SYS_BARRIER_INSN(CRm, op2, Rt) \
        __emit_inst(0xd5000000 | sys_insn(0, 3, 3, (CRm), (op2)) | ((Rt) & 0x1f))
 #define SYS_SCTLR_EL1                  sys_reg(3, 0, 1, 0, 0)
 #define SYS_ACTLR_EL1                  sys_reg(3, 0, 1, 0, 1)
 #define SYS_CPACR_EL1                  sys_reg(3, 0, 1, 0, 2)
+#define SYS_RGSR_EL1                   sys_reg(3, 0, 1, 0, 5)
+#define SYS_GCR_EL1                    sys_reg(3, 0, 1, 0, 6)
 
 #define SYS_ZCR_EL1                    sys_reg(3, 0, 1, 2, 0)
 
 #define SYS_ERXADDR_EL1                        sys_reg(3, 0, 5, 4, 3)
 #define SYS_ERXMISC0_EL1               sys_reg(3, 0, 5, 5, 0)
 #define SYS_ERXMISC1_EL1               sys_reg(3, 0, 5, 5, 1)
+#define SYS_TFSR_EL1                   sys_reg(3, 0, 5, 6, 0)
+#define SYS_TFSRE0_EL1                 sys_reg(3, 0, 5, 6, 1)
 
 #define SYS_FAR_EL1                    sys_reg(3, 0, 6, 0, 0)
 #define SYS_PAR_EL1                    sys_reg(3, 0, 7, 4, 0)
 #define SYS_PMINTENSET_EL1             sys_reg(3, 0, 9, 14, 1)
 #define SYS_PMINTENCLR_EL1             sys_reg(3, 0, 9, 14, 2)
 
+#define SYS_PMMIR_EL1                  sys_reg(3, 0, 9, 14, 6)
+
 #define SYS_MAIR_EL1                   sys_reg(3, 0, 10, 2, 0)
 #define SYS_AMAIR_EL1                  sys_reg(3, 0, 10, 3, 0)
 
 
 #define SYS_CCSIDR_EL1                 sys_reg(3, 1, 0, 0, 0)
 #define SYS_CLIDR_EL1                  sys_reg(3, 1, 0, 0, 1)
+#define SYS_GMID_EL1                   sys_reg(3, 1, 0, 0, 4)
 #define SYS_AIDR_EL1                   sys_reg(3, 1, 0, 0, 7)
 
 #define SYS_CSSELR_EL1                 sys_reg(3, 2, 0, 0, 0)
 #define SYS_ESR_EL2                    sys_reg(3, 4, 5, 2, 0)
 #define SYS_VSESR_EL2                  sys_reg(3, 4, 5, 2, 3)
 #define SYS_FPEXC32_EL2                        sys_reg(3, 4, 5, 3, 0)
+#define SYS_TFSR_EL2                   sys_reg(3, 4, 5, 6, 0)
 #define SYS_FAR_EL2                    sys_reg(3, 4, 6, 0, 0)
 
 #define SYS_VDISR_EL2                  sys_reg(3, 4, 12, 1,  1)
 #define SYS_AFSR0_EL12                 sys_reg(3, 5, 5, 1, 0)
 #define SYS_AFSR1_EL12                 sys_reg(3, 5, 5, 1, 1)
 #define SYS_ESR_EL12                   sys_reg(3, 5, 5, 2, 0)
+#define SYS_TFSR_EL12                  sys_reg(3, 5, 5, 6, 0)
 #define SYS_FAR_EL12                   sys_reg(3, 5, 6, 0, 0)
 #define SYS_MAIR_EL12                  sys_reg(3, 5, 10, 2, 0)
 #define SYS_AMAIR_EL12                 sys_reg(3, 5, 10, 3, 0)
 
 /* Common SCTLR_ELx flags. */
 #define SCTLR_ELx_DSSBS        (BIT(44))
+#define SCTLR_ELx_ATA  (BIT(43))
+
+#define SCTLR_ELx_TCF_SHIFT    40
+#define SCTLR_ELx_TCF_NONE     (UL(0x0) << SCTLR_ELx_TCF_SHIFT)
+#define SCTLR_ELx_TCF_SYNC     (UL(0x1) << SCTLR_ELx_TCF_SHIFT)
+#define SCTLR_ELx_TCF_ASYNC    (UL(0x2) << SCTLR_ELx_TCF_SHIFT)
+#define SCTLR_ELx_TCF_MASK     (UL(0x3) << SCTLR_ELx_TCF_SHIFT)
+
+#define SCTLR_ELx_ITFSB        (BIT(37))
 #define SCTLR_ELx_ENIA (BIT(31))
 #define SCTLR_ELx_ENIB (BIT(30))
 #define SCTLR_ELx_ENDA (BIT(27))
 #endif
 
 /* SCTLR_EL1 specific flags. */
+#define SCTLR_EL1_ATA0         (BIT(42))
+
+#define SCTLR_EL1_TCF0_SHIFT   38
+#define SCTLR_EL1_TCF0_NONE    (UL(0x0) << SCTLR_EL1_TCF0_SHIFT)
+#define SCTLR_EL1_TCF0_SYNC    (UL(0x1) << SCTLR_EL1_TCF0_SHIFT)
+#define SCTLR_EL1_TCF0_ASYNC   (UL(0x2) << SCTLR_EL1_TCF0_SHIFT)
+#define SCTLR_EL1_TCF0_MASK    (UL(0x3) << SCTLR_EL1_TCF0_SHIFT)
+
 #define SCTLR_EL1_BT1          (BIT(36))
 #define SCTLR_EL1_BT0          (BIT(35))
 #define SCTLR_EL1_UCI          (BIT(26))
                         SCTLR_EL1_SA0  | SCTLR_EL1_SED  | SCTLR_ELx_I    |\
                         SCTLR_EL1_DZE  | SCTLR_EL1_UCT                   |\
                         SCTLR_EL1_NTWE | SCTLR_ELx_IESB | SCTLR_EL1_SPAN |\
+                        SCTLR_ELx_ITFSB| SCTLR_ELx_ATA  | SCTLR_EL1_ATA0 |\
                         ENDIAN_SET_EL1 | SCTLR_EL1_UCI  | SCTLR_EL1_RES1)
 
 /* MAIR_ELx memory attributes (used by Linux) */
 #define MAIR_ATTR_DEVICE_GRE           UL(0x0c)
 #define MAIR_ATTR_NORMAL_NC            UL(0x44)
 #define MAIR_ATTR_NORMAL_WT            UL(0xbb)
+#define MAIR_ATTR_NORMAL_TAGGED                UL(0xf0)
 #define MAIR_ATTR_NORMAL               UL(0xff)
 #define MAIR_ATTR_MASK                 UL(0xff)
 
 #define ID_AA64ISAR1_APA_SHIFT         4
 #define ID_AA64ISAR1_DPB_SHIFT         0
 
-#define ID_AA64ISAR1_APA_NI            0x0
-#define ID_AA64ISAR1_APA_ARCHITECTED   0x1
-#define ID_AA64ISAR1_API_NI            0x0
-#define ID_AA64ISAR1_API_IMP_DEF       0x1
-#define ID_AA64ISAR1_GPA_NI            0x0
-#define ID_AA64ISAR1_GPA_ARCHITECTED   0x1
-#define ID_AA64ISAR1_GPI_NI            0x0
-#define ID_AA64ISAR1_GPI_IMP_DEF       0x1
+#define ID_AA64ISAR1_APA_NI                    0x0
+#define ID_AA64ISAR1_APA_ARCHITECTED           0x1
+#define ID_AA64ISAR1_APA_ARCH_EPAC             0x2
+#define ID_AA64ISAR1_APA_ARCH_EPAC2            0x3
+#define ID_AA64ISAR1_APA_ARCH_EPAC2_FPAC       0x4
+#define ID_AA64ISAR1_APA_ARCH_EPAC2_FPAC_CMB   0x5
+#define ID_AA64ISAR1_API_NI                    0x0
+#define ID_AA64ISAR1_API_IMP_DEF               0x1
+#define ID_AA64ISAR1_API_IMP_DEF_EPAC          0x2
+#define ID_AA64ISAR1_API_IMP_DEF_EPAC2         0x3
+#define ID_AA64ISAR1_API_IMP_DEF_EPAC2_FPAC    0x4
+#define ID_AA64ISAR1_API_IMP_DEF_EPAC2_FPAC_CMB        0x5
+#define ID_AA64ISAR1_GPA_NI                    0x0
+#define ID_AA64ISAR1_GPA_ARCHITECTED           0x1
+#define ID_AA64ISAR1_GPI_NI                    0x0
+#define ID_AA64ISAR1_GPI_IMP_DEF               0x1
 
 /* id_aa64pfr0 */
 #define ID_AA64PFR0_CSV3_SHIFT         60
 #define ID_AA64PFR1_SSBS_PSTATE_INSNS  2
 #define ID_AA64PFR1_BT_BTI             0x1
 
+#define ID_AA64PFR1_MTE_NI             0x0
+#define ID_AA64PFR1_MTE_EL0            0x1
+#define ID_AA64PFR1_MTE                        0x2
+
 /* id_aa64zfr0 */
 #define ID_AA64ZFR0_F64MM_SHIFT                56
 #define ID_AA64ZFR0_F32MM_SHIFT                52
 #define CPACR_EL1_ZEN_EL0EN    (BIT(17)) /* enable EL0 access, if EL1EN set */
 #define CPACR_EL1_ZEN          (CPACR_EL1_ZEN_EL1EN | CPACR_EL1_ZEN_EL0EN)
 
+/* TCR EL1 Bit Definitions */
+#define SYS_TCR_EL1_TCMA1      (BIT(58))
+#define SYS_TCR_EL1_TCMA0      (BIT(57))
+
+/* GCR_EL1 Definitions */
+#define SYS_GCR_EL1_RRND       (BIT(16))
+#define SYS_GCR_EL1_EXCL_MASK  0xffffUL
+
+/* RGSR_EL1 Definitions */
+#define SYS_RGSR_EL1_TAG_MASK  0xfUL
+#define SYS_RGSR_EL1_SEED_SHIFT        8
+#define SYS_RGSR_EL1_SEED_MASK 0xffffUL
+
+/* GMID_EL1 field definitions */
+#define SYS_GMID_EL1_BS_SHIFT  0
+#define SYS_GMID_EL1_BS_SIZE   4
+
+/* TFSR{,E0}_EL1 bit definitions */
+#define SYS_TFSR_EL1_TF0_SHIFT 0
+#define SYS_TFSR_EL1_TF1_SHIFT 1
+#define SYS_TFSR_EL1_TF0       (UL(1) << SYS_TFSR_EL1_TF0_SHIFT)
+#define SYS_TFSR_EL1_TF1       (UK(2) << SYS_TFSR_EL1_TF1_SHIFT)
 
 /* Safe value for MPIDR_EL1: Bit31:RES1, Bit30:U:0, Bit24:MT:0 */
 #define SYS_MPIDR_SAFE_VAL     (BIT(31))
                write_sysreg(__scs_new, sysreg);                        \
 } while (0)
 
+#define sysreg_clear_set_s(sysreg, clear, set) do {                    \
+       u64 __scs_val = read_sysreg_s(sysreg);                          \
+       u64 __scs_new = (__scs_val & ~(u64)(clear)) | (set);            \
+       if (__scs_new != __scs_val)                                     \
+               write_sysreg_s(__scs_new, sysreg);                      \
+} while (0)
+
 #endif
 
 #endif /* __ASM_SYSREG_H */
index 5e784e1..1fbab85 100644 (file)
@@ -67,6 +67,7 @@ void arch_release_task_struct(struct task_struct *tsk);
 #define TIF_FOREIGN_FPSTATE    3       /* CPU's FP state is not current's */
 #define TIF_UPROBE             4       /* uprobe breakpoint or singlestep */
 #define TIF_FSCHECK            5       /* Check FS is USER_DS on return */
+#define TIF_MTE_ASYNC_FAULT    6       /* MTE Asynchronous Tag Check Fault */
 #define TIF_SYSCALL_TRACE      8       /* syscall trace active */
 #define TIF_SYSCALL_AUDIT      9       /* syscall auditing */
 #define TIF_SYSCALL_TRACEPOINT 10      /* syscall tracepoint for ftrace */
@@ -96,10 +97,11 @@ void arch_release_task_struct(struct task_struct *tsk);
 #define _TIF_SINGLESTEP                (1 << TIF_SINGLESTEP)
 #define _TIF_32BIT             (1 << TIF_32BIT)
 #define _TIF_SVE               (1 << TIF_SVE)
+#define _TIF_MTE_ASYNC_FAULT   (1 << TIF_MTE_ASYNC_FAULT)
 
 #define _TIF_WORK_MASK         (_TIF_NEED_RESCHED | _TIF_SIGPENDING | \
                                 _TIF_NOTIFY_RESUME | _TIF_FOREIGN_FPSTATE | \
-                                _TIF_UPROBE | _TIF_FSCHECK)
+                                _TIF_UPROBE | _TIF_FSCHECK | _TIF_MTE_ASYNC_FAULT)
 
 #define _TIF_SYSCALL_WORK      (_TIF_SYSCALL_TRACE | _TIF_SYSCALL_AUDIT | \
                                 _TIF_SYSCALL_TRACEPOINT | _TIF_SECCOMP | \
index cee5928..d96dc2c 100644 (file)
@@ -24,7 +24,7 @@ struct undef_hook {
 
 void register_undef_hook(struct undef_hook *hook);
 void unregister_undef_hook(struct undef_hook *hook);
-void force_signal_inject(int signal, int code, unsigned long address);
+void force_signal_inject(int signal, int code, unsigned long address, unsigned int err);
 void arm64_notify_segfault(unsigned long addr);
 void arm64_force_sig_fault(int signo, int code, void __user *addr, const char *str);
 void arm64_force_sig_mceerr(int code, void __user *addr, short lsb, const char *str);
index 734860a..2a3ad9b 100644 (file)
@@ -53,7 +53,7 @@ __SYSCALL(__NR_lseek, compat_sys_lseek)
 #define __NR_getpid 20
 __SYSCALL(__NR_getpid, sys_getpid)
 #define __NR_mount 21
-__SYSCALL(__NR_mount, compat_sys_mount)
+__SYSCALL(__NR_mount, sys_mount)
                        /* 22 was sys_umount */
 __SYSCALL(22, sys_ni_syscall)
 #define __NR_setuid 23
@@ -301,9 +301,9 @@ __SYSCALL(__NR_flock, sys_flock)
 #define __NR_msync 144
 __SYSCALL(__NR_msync, sys_msync)
 #define __NR_readv 145
-__SYSCALL(__NR_readv, compat_sys_readv)
+__SYSCALL(__NR_readv, sys_readv)
 #define __NR_writev 146
-__SYSCALL(__NR_writev, compat_sys_writev)
+__SYSCALL(__NR_writev, sys_writev)
 #define __NR_getsid 147
 __SYSCALL(__NR_getsid, sys_getsid)
 #define __NR_fdatasync 148
@@ -697,7 +697,7 @@ __SYSCALL(__NR_sync_file_range2, compat_sys_aarch32_sync_file_range2)
 #define __NR_tee 342
 __SYSCALL(__NR_tee, sys_tee)
 #define __NR_vmsplice 343
-__SYSCALL(__NR_vmsplice, compat_sys_vmsplice)
+__SYSCALL(__NR_vmsplice, sys_vmsplice)
 #define __NR_move_pages 344
 __SYSCALL(__NR_move_pages, compat_sys_move_pages)
 #define __NR_getcpu 345
@@ -763,9 +763,9 @@ __SYSCALL(__NR_sendmmsg, compat_sys_sendmmsg)
 #define __NR_setns 375
 __SYSCALL(__NR_setns, sys_setns)
 #define __NR_process_vm_readv 376
-__SYSCALL(__NR_process_vm_readv, compat_sys_process_vm_readv)
+__SYSCALL(__NR_process_vm_readv, sys_process_vm_readv)
 #define __NR_process_vm_writev 377
-__SYSCALL(__NR_process_vm_writev, compat_sys_process_vm_writev)
+__SYSCALL(__NR_process_vm_writev, sys_process_vm_writev)
 #define __NR_kcmp 378
 __SYSCALL(__NR_kcmp, sys_kcmp)
 #define __NR_finit_module 379
index 912162f..b8f41aa 100644 (file)
@@ -74,6 +74,6 @@
 #define HWCAP2_DGH             (1 << 15)
 #define HWCAP2_RNG             (1 << 16)
 #define HWCAP2_BTI             (1 << 17)
-/* reserved for HWCAP2_MTE     (1 << 18) */
+#define HWCAP2_MTE             (1 << 18)
 
 #endif /* _UAPI__ASM_HWCAP_H */
index ba85bb2..7d804fd 100644 (file)
@@ -242,6 +242,15 @@ struct kvm_vcpu_events {
 #define KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_1_NOT_AVAIL          0
 #define KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_1_AVAIL              1
 #define KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_1_NOT_REQUIRED       2
+
+/*
+ * Only two states can be presented by the host kernel:
+ * - NOT_REQUIRED: the guest doesn't need to do anything
+ * - NOT_AVAIL: the guest isn't mitigated (it can still use SSBS if available)
+ *
+ * All the other values are deprecated. The host still accepts all
+ * values (they are ABI), but will narrow them to the above two.
+ */
 #define KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2    KVM_REG_ARM_FW_REG(2)
 #define KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_NOT_AVAIL          0
 #define KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_UNKNOWN            1
index 6fdd71e..1e6482a 100644 (file)
@@ -5,5 +5,6 @@
 #include <asm-generic/mman.h>
 
 #define PROT_BTI       0x10            /* BTI guarded page */
+#define PROT_MTE       0x20            /* Normal Tagged mapping */
 
 #endif /* ! _UAPI__ASM_MMAN_H */
index 42cbe34..758ae98 100644 (file)
@@ -51,6 +51,7 @@
 #define PSR_PAN_BIT    0x00400000
 #define PSR_UAO_BIT    0x00800000
 #define PSR_DIT_BIT    0x01000000
+#define PSR_TCO_BIT    0x02000000
 #define PSR_V_BIT      0x10000000
 #define PSR_C_BIT      0x20000000
 #define PSR_Z_BIT      0x40000000
@@ -75,6 +76,9 @@
 /* syscall emulation path in ptrace */
 #define PTRACE_SYSEMU            31
 #define PTRACE_SYSEMU_SINGLESTEP  32
+/* MTE allocation tag access */
+#define PTRACE_PEEKMTETAGS       33
+#define PTRACE_POKEMTETAGS       34
 
 #ifndef __ASSEMBLY__
 
index a561cbb..bbaf0bc 100644 (file)
@@ -3,8 +3,6 @@
 # Makefile for the linux kernel.
 #
 
-CPPFLAGS_vmlinux.lds   := -DTEXT_OFFSET=$(TEXT_OFFSET)
-AFLAGS_head.o          := -DTEXT_OFFSET=$(TEXT_OFFSET)
 CFLAGS_armv8_deprecated.o := -I$(src)
 
 CFLAGS_REMOVE_ftrace.o = $(CC_FLAGS_FTRACE)
@@ -19,7 +17,7 @@ obj-y                 := debug-monitors.o entry.o irq.o fpsimd.o              \
                           return_address.o cpuinfo.o cpu_errata.o              \
                           cpufeature.o alternative.o cacheinfo.o               \
                           smp.o smp_spin_table.o topology.o smccc-call.o       \
-                          syscall.o
+                          syscall.o proton-pack.o
 
 targets                        += efi-entry.o
 
@@ -59,9 +57,9 @@ arm64-reloc-test-y := reloc_test_core.o reloc_test_syms.o
 obj-$(CONFIG_CRASH_DUMP)               += crash_dump.o
 obj-$(CONFIG_CRASH_CORE)               += crash_core.o
 obj-$(CONFIG_ARM_SDE_INTERFACE)                += sdei.o
-obj-$(CONFIG_ARM64_SSBD)               += ssbd.o
 obj-$(CONFIG_ARM64_PTR_AUTH)           += pointer_auth.o
 obj-$(CONFIG_SHADOW_CALL_STACK)                += scs.o
+obj-$(CONFIG_ARM64_MTE)                        += mte.o
 
 obj-y                                  += vdso/ probes/
 obj-$(CONFIG_COMPAT_VDSO)              += vdso32/
index 4a18055..37721eb 100644 (file)
@@ -35,6 +35,10 @@ SYM_CODE_START(__cpu_soft_restart)
        mov_q   x13, SCTLR_ELx_FLAGS
        bic     x12, x12, x13
        pre_disable_mmu_workaround
+       /*
+        * either disable EL1&0 translation regime or disable EL2&0 translation
+        * regime if HCR_EL2.E2H == 1
+        */
        msr     sctlr_el1, x12
        isb
 
index 560ba69..24d75af 100644 (file)
@@ -106,365 +106,6 @@ cpu_enable_trap_ctr_access(const struct arm64_cpu_capabilities *cap)
                sysreg_clear_set(sctlr_el1, SCTLR_EL1_UCT, 0);
 }
 
-atomic_t arm64_el2_vector_last_slot = ATOMIC_INIT(-1);
-
-#include <asm/mmu_context.h>
-#include <asm/cacheflush.h>
-
-DEFINE_PER_CPU_READ_MOSTLY(struct bp_hardening_data, bp_hardening_data);
-
-#ifdef CONFIG_KVM_INDIRECT_VECTORS
-static void __copy_hyp_vect_bpi(int slot, const char *hyp_vecs_start,
-                               const char *hyp_vecs_end)
-{
-       void *dst = lm_alias(__bp_harden_hyp_vecs + slot * SZ_2K);
-       int i;
-
-       for (i = 0; i < SZ_2K; i += 0x80)
-               memcpy(dst + i, hyp_vecs_start, hyp_vecs_end - hyp_vecs_start);
-
-       __flush_icache_range((uintptr_t)dst, (uintptr_t)dst + SZ_2K);
-}
-
-static void install_bp_hardening_cb(bp_hardening_cb_t fn,
-                                   const char *hyp_vecs_start,
-                                   const char *hyp_vecs_end)
-{
-       static DEFINE_RAW_SPINLOCK(bp_lock);
-       int cpu, slot = -1;
-
-       /*
-        * detect_harden_bp_fw() passes NULL for the hyp_vecs start/end if
-        * we're a guest. Skip the hyp-vectors work.
-        */
-       if (!hyp_vecs_start) {
-               __this_cpu_write(bp_hardening_data.fn, fn);
-               return;
-       }
-
-       raw_spin_lock(&bp_lock);
-       for_each_possible_cpu(cpu) {
-               if (per_cpu(bp_hardening_data.fn, cpu) == fn) {
-                       slot = per_cpu(bp_hardening_data.hyp_vectors_slot, cpu);
-                       break;
-               }
-       }
-
-       if (slot == -1) {
-               slot = atomic_inc_return(&arm64_el2_vector_last_slot);
-               BUG_ON(slot >= BP_HARDEN_EL2_SLOTS);
-               __copy_hyp_vect_bpi(slot, hyp_vecs_start, hyp_vecs_end);
-       }
-
-       __this_cpu_write(bp_hardening_data.hyp_vectors_slot, slot);
-       __this_cpu_write(bp_hardening_data.fn, fn);
-       raw_spin_unlock(&bp_lock);
-}
-#else
-static void install_bp_hardening_cb(bp_hardening_cb_t fn,
-                                     const char *hyp_vecs_start,
-                                     const char *hyp_vecs_end)
-{
-       __this_cpu_write(bp_hardening_data.fn, fn);
-}
-#endif /* CONFIG_KVM_INDIRECT_VECTORS */
-
-#include <linux/arm-smccc.h>
-
-static void __maybe_unused call_smc_arch_workaround_1(void)
-{
-       arm_smccc_1_1_smc(ARM_SMCCC_ARCH_WORKAROUND_1, NULL);
-}
-
-static void call_hvc_arch_workaround_1(void)
-{
-       arm_smccc_1_1_hvc(ARM_SMCCC_ARCH_WORKAROUND_1, NULL);
-}
-
-static void qcom_link_stack_sanitization(void)
-{
-       u64 tmp;
-
-       asm volatile("mov       %0, x30         \n"
-                    ".rept     16              \n"
-                    "bl        . + 4           \n"
-                    ".endr                     \n"
-                    "mov       x30, %0         \n"
-                    : "=&r" (tmp));
-}
-
-static bool __nospectre_v2;
-static int __init parse_nospectre_v2(char *str)
-{
-       __nospectre_v2 = true;
-       return 0;
-}
-early_param("nospectre_v2", parse_nospectre_v2);
-
-/*
- * -1: No workaround
- *  0: No workaround required
- *  1: Workaround installed
- */
-static int detect_harden_bp_fw(void)
-{
-       bp_hardening_cb_t cb;
-       void *smccc_start, *smccc_end;
-       struct arm_smccc_res res;
-       u32 midr = read_cpuid_id();
-
-       arm_smccc_1_1_invoke(ARM_SMCCC_ARCH_FEATURES_FUNC_ID,
-                            ARM_SMCCC_ARCH_WORKAROUND_1, &res);
-
-       switch ((int)res.a0) {
-       case 1:
-               /* Firmware says we're just fine */
-               return 0;
-       case 0:
-               break;
-       default:
-               return -1;
-       }
-
-       switch (arm_smccc_1_1_get_conduit()) {
-       case SMCCC_CONDUIT_HVC:
-               cb = call_hvc_arch_workaround_1;
-               /* This is a guest, no need to patch KVM vectors */
-               smccc_start = NULL;
-               smccc_end = NULL;
-               break;
-
-#if IS_ENABLED(CONFIG_KVM)
-       case SMCCC_CONDUIT_SMC:
-               cb = call_smc_arch_workaround_1;
-               smccc_start = __smccc_workaround_1_smc;
-               smccc_end = __smccc_workaround_1_smc +
-                       __SMCCC_WORKAROUND_1_SMC_SZ;
-               break;
-#endif
-
-       default:
-               return -1;
-       }
-
-       if (((midr & MIDR_CPU_MODEL_MASK) == MIDR_QCOM_FALKOR) ||
-           ((midr & MIDR_CPU_MODEL_MASK) == MIDR_QCOM_FALKOR_V1))
-               cb = qcom_link_stack_sanitization;
-
-       if (IS_ENABLED(CONFIG_HARDEN_BRANCH_PREDICTOR))
-               install_bp_hardening_cb(cb, smccc_start, smccc_end);
-
-       return 1;
-}
-
-DEFINE_PER_CPU_READ_MOSTLY(u64, arm64_ssbd_callback_required);
-
-int ssbd_state __read_mostly = ARM64_SSBD_KERNEL;
-static bool __ssb_safe = true;
-
-static const struct ssbd_options {
-       const char      *str;
-       int             state;
-} ssbd_options[] = {
-       { "force-on",   ARM64_SSBD_FORCE_ENABLE, },
-       { "force-off",  ARM64_SSBD_FORCE_DISABLE, },
-       { "kernel",     ARM64_SSBD_KERNEL, },
-};
-
-static int __init ssbd_cfg(char *buf)
-{
-       int i;
-
-       if (!buf || !buf[0])
-               return -EINVAL;
-
-       for (i = 0; i < ARRAY_SIZE(ssbd_options); i++) {
-               int len = strlen(ssbd_options[i].str);
-
-               if (strncmp(buf, ssbd_options[i].str, len))
-                       continue;
-
-               ssbd_state = ssbd_options[i].state;
-               return 0;
-       }
-
-       return -EINVAL;
-}
-early_param("ssbd", ssbd_cfg);
-
-void __init arm64_update_smccc_conduit(struct alt_instr *alt,
-                                      __le32 *origptr, __le32 *updptr,
-                                      int nr_inst)
-{
-       u32 insn;
-
-       BUG_ON(nr_inst != 1);
-
-       switch (arm_smccc_1_1_get_conduit()) {
-       case SMCCC_CONDUIT_HVC:
-               insn = aarch64_insn_get_hvc_value();
-               break;
-       case SMCCC_CONDUIT_SMC:
-               insn = aarch64_insn_get_smc_value();
-               break;
-       default:
-               return;
-       }
-
-       *updptr = cpu_to_le32(insn);
-}
-
-void __init arm64_enable_wa2_handling(struct alt_instr *alt,
-                                     __le32 *origptr, __le32 *updptr,
-                                     int nr_inst)
-{
-       BUG_ON(nr_inst != 1);
-       /*
-        * Only allow mitigation on EL1 entry/exit and guest
-        * ARCH_WORKAROUND_2 handling if the SSBD state allows it to
-        * be flipped.
-        */
-       if (arm64_get_ssbd_state() == ARM64_SSBD_KERNEL)
-               *updptr = cpu_to_le32(aarch64_insn_gen_nop());
-}
-
-void arm64_set_ssbd_mitigation(bool state)
-{
-       int conduit;
-
-       if (!IS_ENABLED(CONFIG_ARM64_SSBD)) {
-               pr_info_once("SSBD disabled by kernel configuration\n");
-               return;
-       }
-
-       if (this_cpu_has_cap(ARM64_SSBS)) {
-               if (state)
-                       asm volatile(SET_PSTATE_SSBS(0));
-               else
-                       asm volatile(SET_PSTATE_SSBS(1));
-               return;
-       }
-
-       conduit = arm_smccc_1_1_invoke(ARM_SMCCC_ARCH_WORKAROUND_2, state,
-                                      NULL);
-
-       WARN_ON_ONCE(conduit == SMCCC_CONDUIT_NONE);
-}
-
-static bool has_ssbd_mitigation(const struct arm64_cpu_capabilities *entry,
-                                   int scope)
-{
-       struct arm_smccc_res res;
-       bool required = true;
-       s32 val;
-       bool this_cpu_safe = false;
-       int conduit;
-
-       WARN_ON(scope != SCOPE_LOCAL_CPU || preemptible());
-
-       if (cpu_mitigations_off())
-               ssbd_state = ARM64_SSBD_FORCE_DISABLE;
-
-       /* delay setting __ssb_safe until we get a firmware response */
-       if (is_midr_in_range_list(read_cpuid_id(), entry->midr_range_list))
-               this_cpu_safe = true;
-
-       if (this_cpu_has_cap(ARM64_SSBS)) {
-               if (!this_cpu_safe)
-                       __ssb_safe = false;
-               required = false;
-               goto out_printmsg;
-       }
-
-       conduit = arm_smccc_1_1_invoke(ARM_SMCCC_ARCH_FEATURES_FUNC_ID,
-                                      ARM_SMCCC_ARCH_WORKAROUND_2, &res);
-
-       if (conduit == SMCCC_CONDUIT_NONE) {
-               ssbd_state = ARM64_SSBD_UNKNOWN;
-               if (!this_cpu_safe)
-                       __ssb_safe = false;
-               return false;
-       }
-
-       val = (s32)res.a0;
-
-       switch (val) {
-       case SMCCC_RET_NOT_SUPPORTED:
-               ssbd_state = ARM64_SSBD_UNKNOWN;
-               if (!this_cpu_safe)
-                       __ssb_safe = false;
-               return false;
-
-       /* machines with mixed mitigation requirements must not return this */
-       case SMCCC_RET_NOT_REQUIRED:
-               pr_info_once("%s mitigation not required\n", entry->desc);
-               ssbd_state = ARM64_SSBD_MITIGATED;
-               return false;
-
-       case SMCCC_RET_SUCCESS:
-               __ssb_safe = false;
-               required = true;
-               break;
-
-       case 1: /* Mitigation not required on this CPU */
-               required = false;
-               break;
-
-       default:
-               WARN_ON(1);
-               if (!this_cpu_safe)
-                       __ssb_safe = false;
-               return false;
-       }
-
-       switch (ssbd_state) {
-       case ARM64_SSBD_FORCE_DISABLE:
-               arm64_set_ssbd_mitigation(false);
-               required = false;
-               break;
-
-       case ARM64_SSBD_KERNEL:
-               if (required) {
-                       __this_cpu_write(arm64_ssbd_callback_required, 1);
-                       arm64_set_ssbd_mitigation(true);
-               }
-               break;
-
-       case ARM64_SSBD_FORCE_ENABLE:
-               arm64_set_ssbd_mitigation(true);
-               required = true;
-               break;
-
-       default:
-               WARN_ON(1);
-               break;
-       }
-
-out_printmsg:
-       switch (ssbd_state) {
-       case ARM64_SSBD_FORCE_DISABLE:
-               pr_info_once("%s disabled from command-line\n", entry->desc);
-               break;
-
-       case ARM64_SSBD_FORCE_ENABLE:
-               pr_info_once("%s forced from command-line\n", entry->desc);
-               break;
-       }
-
-       return required;
-}
-
-/* known invulnerable cores */
-static const struct midr_range arm64_ssb_cpus[] = {
-       MIDR_ALL_VERSIONS(MIDR_CORTEX_A35),
-       MIDR_ALL_VERSIONS(MIDR_CORTEX_A53),
-       MIDR_ALL_VERSIONS(MIDR_CORTEX_A55),
-       MIDR_ALL_VERSIONS(MIDR_BRAHMA_B53),
-       MIDR_ALL_VERSIONS(MIDR_QCOM_KRYO_3XX_SILVER),
-       MIDR_ALL_VERSIONS(MIDR_QCOM_KRYO_4XX_SILVER),
-       {},
-};
-
 #ifdef CONFIG_ARM64_ERRATUM_1463225
 DEFINE_PER_CPU(int, __in_cortex_a76_erratum_1463225_wa);
 
@@ -519,83 +160,6 @@ cpu_enable_cache_maint_trap(const struct arm64_cpu_capabilities *__unused)
        .type = ARM64_CPUCAP_LOCAL_CPU_ERRATUM,                 \
        CAP_MIDR_RANGE_LIST(midr_list)
 
-/* Track overall mitigation state. We are only mitigated if all cores are ok */
-static bool __hardenbp_enab = true;
-static bool __spectrev2_safe = true;
-
-int get_spectre_v2_workaround_state(void)
-{
-       if (__spectrev2_safe)
-               return ARM64_BP_HARDEN_NOT_REQUIRED;
-
-       if (!__hardenbp_enab)
-               return ARM64_BP_HARDEN_UNKNOWN;
-
-       return ARM64_BP_HARDEN_WA_NEEDED;
-}
-
-/*
- * List of CPUs that do not need any Spectre-v2 mitigation at all.
- */
-static const struct midr_range spectre_v2_safe_list[] = {
-       MIDR_ALL_VERSIONS(MIDR_CORTEX_A35),
-       MIDR_ALL_VERSIONS(MIDR_CORTEX_A53),
-       MIDR_ALL_VERSIONS(MIDR_CORTEX_A55),
-       MIDR_ALL_VERSIONS(MIDR_BRAHMA_B53),
-       MIDR_ALL_VERSIONS(MIDR_HISI_TSV110),
-       MIDR_ALL_VERSIONS(MIDR_QCOM_KRYO_3XX_SILVER),
-       MIDR_ALL_VERSIONS(MIDR_QCOM_KRYO_4XX_SILVER),
-       { /* sentinel */ }
-};
-
-/*
- * Track overall bp hardening for all heterogeneous cores in the machine.
- * We are only considered "safe" if all booted cores are known safe.
- */
-static bool __maybe_unused
-check_branch_predictor(const struct arm64_cpu_capabilities *entry, int scope)
-{
-       int need_wa;
-
-       WARN_ON(scope != SCOPE_LOCAL_CPU || preemptible());
-
-       /* If the CPU has CSV2 set, we're safe */
-       if (cpuid_feature_extract_unsigned_field(read_cpuid(ID_AA64PFR0_EL1),
-                                                ID_AA64PFR0_CSV2_SHIFT))
-               return false;
-
-       /* Alternatively, we have a list of unaffected CPUs */
-       if (is_midr_in_range_list(read_cpuid_id(), spectre_v2_safe_list))
-               return false;
-
-       /* Fallback to firmware detection */
-       need_wa = detect_harden_bp_fw();
-       if (!need_wa)
-               return false;
-
-       __spectrev2_safe = false;
-
-       if (!IS_ENABLED(CONFIG_HARDEN_BRANCH_PREDICTOR)) {
-               pr_warn_once("spectrev2 mitigation disabled by kernel configuration\n");
-               __hardenbp_enab = false;
-               return false;
-       }
-
-       /* forced off */
-       if (__nospectre_v2 || cpu_mitigations_off()) {
-               pr_info_once("spectrev2 mitigation disabled by command line option\n");
-               __hardenbp_enab = false;
-               return false;
-       }
-
-       if (need_wa < 0) {
-               pr_warn_once("ARM_SMCCC_ARCH_WORKAROUND_1 missing from firmware\n");
-               __hardenbp_enab = false;
-       }
-
-       return (need_wa > 0);
-}
-
 static const __maybe_unused struct midr_range tx2_family_cpus[] = {
        MIDR_ALL_VERSIONS(MIDR_BRCM_VULCAN),
        MIDR_ALL_VERSIONS(MIDR_CAVIUM_THUNDERX2),
@@ -887,9 +451,11 @@ const struct arm64_cpu_capabilities arm64_errata[] = {
        },
 #endif
        {
-               .capability = ARM64_HARDEN_BRANCH_PREDICTOR,
+               .desc = "Spectre-v2",
+               .capability = ARM64_SPECTRE_V2,
                .type = ARM64_CPUCAP_LOCAL_CPU_ERRATUM,
-               .matches = check_branch_predictor,
+               .matches = has_spectre_v2,
+               .cpu_enable = spectre_v2_enable_mitigation,
        },
 #ifdef CONFIG_RANDOMIZE_BASE
        {
@@ -899,11 +465,11 @@ const struct arm64_cpu_capabilities arm64_errata[] = {
        },
 #endif
        {
-               .desc = "Speculative Store Bypass Disable",
-               .capability = ARM64_SSBD,
+               .desc = "Spectre-v4",
+               .capability = ARM64_SPECTRE_V4,
                .type = ARM64_CPUCAP_LOCAL_CPU_ERRATUM,
-               .matches = has_ssbd_mitigation,
-               .midr_range_list = arm64_ssb_cpus,
+               .matches = has_spectre_v4,
+               .cpu_enable = spectre_v4_enable_mitigation,
        },
 #ifdef CONFIG_ARM64_ERRATUM_1418040
        {
@@ -960,40 +526,3 @@ const struct arm64_cpu_capabilities arm64_errata[] = {
        {
        }
 };
-
-ssize_t cpu_show_spectre_v1(struct device *dev, struct device_attribute *attr,
-                           char *buf)
-{
-       return sprintf(buf, "Mitigation: __user pointer sanitization\n");
-}
-
-ssize_t cpu_show_spectre_v2(struct device *dev, struct device_attribute *attr,
-               char *buf)
-{
-       switch (get_spectre_v2_workaround_state()) {
-       case ARM64_BP_HARDEN_NOT_REQUIRED:
-               return sprintf(buf, "Not affected\n");
-        case ARM64_BP_HARDEN_WA_NEEDED:
-               return sprintf(buf, "Mitigation: Branch predictor hardening\n");
-        case ARM64_BP_HARDEN_UNKNOWN:
-       default:
-               return sprintf(buf, "Vulnerable\n");
-       }
-}
-
-ssize_t cpu_show_spec_store_bypass(struct device *dev,
-               struct device_attribute *attr, char *buf)
-{
-       if (__ssb_safe)
-               return sprintf(buf, "Not affected\n");
-
-       switch (ssbd_state) {
-       case ARM64_SSBD_KERNEL:
-       case ARM64_SSBD_FORCE_ENABLE:
-               if (IS_ENABLED(CONFIG_ARM64_SSBD))
-                       return sprintf(buf,
-                           "Mitigation: Speculative Store Bypass disabled via prctl\n");
-       }
-
-       return sprintf(buf, "Vulnerable\n");
-}
index 6424584..dcc165b 100644 (file)
@@ -75,6 +75,7 @@
 #include <asm/cpu_ops.h>
 #include <asm/fpsimd.h>
 #include <asm/mmu_context.h>
+#include <asm/mte.h>
 #include <asm/processor.h>
 #include <asm/sysreg.h>
 #include <asm/traps.h>
@@ -197,9 +198,9 @@ static const struct arm64_ftr_bits ftr_id_aa64isar1[] = {
        ARM64_FTR_BITS(FTR_VISIBLE, FTR_STRICT, FTR_LOWER_SAFE, ID_AA64ISAR1_FCMA_SHIFT, 4, 0),
        ARM64_FTR_BITS(FTR_VISIBLE, FTR_STRICT, FTR_LOWER_SAFE, ID_AA64ISAR1_JSCVT_SHIFT, 4, 0),
        ARM64_FTR_BITS(FTR_VISIBLE_IF_IS_ENABLED(CONFIG_ARM64_PTR_AUTH),
-                      FTR_STRICT, FTR_LOWER_SAFE, ID_AA64ISAR1_API_SHIFT, 4, 0),
+                      FTR_STRICT, FTR_EXACT, ID_AA64ISAR1_API_SHIFT, 4, 0),
        ARM64_FTR_BITS(FTR_VISIBLE_IF_IS_ENABLED(CONFIG_ARM64_PTR_AUTH),
-                      FTR_STRICT, FTR_LOWER_SAFE, ID_AA64ISAR1_APA_SHIFT, 4, 0),
+                      FTR_STRICT, FTR_EXACT, ID_AA64ISAR1_APA_SHIFT, 4, 0),
        ARM64_FTR_BITS(FTR_VISIBLE, FTR_STRICT, FTR_LOWER_SAFE, ID_AA64ISAR1_DPB_SHIFT, 4, 0),
        ARM64_FTR_END,
 };
@@ -227,7 +228,9 @@ static const struct arm64_ftr_bits ftr_id_aa64pfr0[] = {
 static const struct arm64_ftr_bits ftr_id_aa64pfr1[] = {
        ARM64_FTR_BITS(FTR_HIDDEN, FTR_STRICT, FTR_LOWER_SAFE, ID_AA64PFR1_MPAMFRAC_SHIFT, 4, 0),
        ARM64_FTR_BITS(FTR_HIDDEN, FTR_STRICT, FTR_LOWER_SAFE, ID_AA64PFR1_RASFRAC_SHIFT, 4, 0),
-       ARM64_FTR_BITS(FTR_VISIBLE, FTR_STRICT, FTR_LOWER_SAFE, ID_AA64PFR1_SSBS_SHIFT, 4, ID_AA64PFR1_SSBS_PSTATE_NI),
+       ARM64_FTR_BITS(FTR_VISIBLE_IF_IS_ENABLED(CONFIG_ARM64_MTE),
+                      FTR_STRICT, FTR_LOWER_SAFE, ID_AA64PFR1_MTE_SHIFT, 4, ID_AA64PFR1_MTE_NI),
+       ARM64_FTR_BITS(FTR_VISIBLE, FTR_NONSTRICT, FTR_LOWER_SAFE, ID_AA64PFR1_SSBS_SHIFT, 4, ID_AA64PFR1_SSBS_PSTATE_NI),
        ARM64_FTR_BITS(FTR_VISIBLE_IF_IS_ENABLED(CONFIG_ARM64_BTI),
                                    FTR_STRICT, FTR_LOWER_SAFE, ID_AA64PFR1_BT_SHIFT, 4, 0),
        ARM64_FTR_END,
@@ -487,7 +490,7 @@ static const struct arm64_ftr_bits ftr_id_pfr1[] = {
 };
 
 static const struct arm64_ftr_bits ftr_id_pfr2[] = {
-       ARM64_FTR_BITS(FTR_HIDDEN, FTR_STRICT, FTR_LOWER_SAFE, ID_PFR2_SSBS_SHIFT, 4, 0),
+       ARM64_FTR_BITS(FTR_HIDDEN, FTR_NONSTRICT, FTR_LOWER_SAFE, ID_PFR2_SSBS_SHIFT, 4, 0),
        ARM64_FTR_BITS(FTR_HIDDEN, FTR_NONSTRICT, FTR_LOWER_SAFE, ID_PFR2_CSV3_SHIFT, 4, 0),
        ARM64_FTR_END,
 };
@@ -1111,6 +1114,7 @@ u64 read_sanitised_ftr_reg(u32 id)
                return 0;
        return regp->sys_val;
 }
+EXPORT_SYMBOL_GPL(read_sanitised_ftr_reg);
 
 #define read_sysreg_case(r)    \
        case r:         return read_sysreg_s(r)
@@ -1443,6 +1447,7 @@ static inline void __cpu_enable_hw_dbm(void)
 
        write_sysreg(tcr, tcr_el1);
        isb();
+       local_flush_tlb_all();
 }
 
 static bool cpu_has_broken_dbm(void)
@@ -1583,48 +1588,6 @@ static void cpu_has_fwb(const struct arm64_cpu_capabilities *__unused)
        WARN_ON(val & (7 << 27 | 7 << 21));
 }
 
-#ifdef CONFIG_ARM64_SSBD
-static int ssbs_emulation_handler(struct pt_regs *regs, u32 instr)
-{
-       if (user_mode(regs))
-               return 1;
-
-       if (instr & BIT(PSTATE_Imm_shift))
-               regs->pstate |= PSR_SSBS_BIT;
-       else
-               regs->pstate &= ~PSR_SSBS_BIT;
-
-       arm64_skip_faulting_instruction(regs, 4);
-       return 0;
-}
-
-static struct undef_hook ssbs_emulation_hook = {
-       .instr_mask     = ~(1U << PSTATE_Imm_shift),
-       .instr_val      = 0xd500401f | PSTATE_SSBS,
-       .fn             = ssbs_emulation_handler,
-};
-
-static void cpu_enable_ssbs(const struct arm64_cpu_capabilities *__unused)
-{
-       static bool undef_hook_registered = false;
-       static DEFINE_RAW_SPINLOCK(hook_lock);
-
-       raw_spin_lock(&hook_lock);
-       if (!undef_hook_registered) {
-               register_undef_hook(&ssbs_emulation_hook);
-               undef_hook_registered = true;
-       }
-       raw_spin_unlock(&hook_lock);
-
-       if (arm64_get_ssbd_state() == ARM64_SSBD_FORCE_DISABLE) {
-               sysreg_clear_set(sctlr_el1, 0, SCTLR_ELx_DSSBS);
-               arm64_set_ssbd_mitigation(false);
-       } else {
-               arm64_set_ssbd_mitigation(true);
-       }
-}
-#endif /* CONFIG_ARM64_SSBD */
-
 #ifdef CONFIG_ARM64_PAN
 static void cpu_enable_pan(const struct arm64_cpu_capabilities *__unused)
 {
@@ -1648,11 +1611,37 @@ static void cpu_clear_disr(const struct arm64_cpu_capabilities *__unused)
 #endif /* CONFIG_ARM64_RAS_EXTN */
 
 #ifdef CONFIG_ARM64_PTR_AUTH
-static bool has_address_auth(const struct arm64_cpu_capabilities *entry,
-                            int __unused)
+static bool has_address_auth_cpucap(const struct arm64_cpu_capabilities *entry, int scope)
 {
-       return __system_matches_cap(ARM64_HAS_ADDRESS_AUTH_ARCH) ||
-              __system_matches_cap(ARM64_HAS_ADDRESS_AUTH_IMP_DEF);
+       int boot_val, sec_val;
+
+       /* We don't expect to be called with SCOPE_SYSTEM */
+       WARN_ON(scope == SCOPE_SYSTEM);
+       /*
+        * The ptr-auth feature levels are not intercompatible with lower
+        * levels. Hence we must match ptr-auth feature level of the secondary
+        * CPUs with that of the boot CPU. The level of boot cpu is fetched
+        * from the sanitised register whereas direct register read is done for
+        * the secondary CPUs.
+        * The sanitised feature state is guaranteed to match that of the
+        * boot CPU as a mismatched secondary CPU is parked before it gets
+        * a chance to update the state, with the capability.
+        */
+       boot_val = cpuid_feature_extract_field(read_sanitised_ftr_reg(entry->sys_reg),
+                                              entry->field_pos, entry->sign);
+       if (scope & SCOPE_BOOT_CPU)
+               return boot_val >= entry->min_field_value;
+       /* Now check for the secondary CPUs with SCOPE_LOCAL_CPU scope */
+       sec_val = cpuid_feature_extract_field(__read_sysreg_by_encoding(entry->sys_reg),
+                                             entry->field_pos, entry->sign);
+       return sec_val == boot_val;
+}
+
+static bool has_address_auth_metacap(const struct arm64_cpu_capabilities *entry,
+                                    int scope)
+{
+       return has_address_auth_cpucap(cpu_hwcaps_ptrs[ARM64_HAS_ADDRESS_AUTH_ARCH], scope) ||
+              has_address_auth_cpucap(cpu_hwcaps_ptrs[ARM64_HAS_ADDRESS_AUTH_IMP_DEF], scope);
 }
 
 static bool has_generic_auth(const struct arm64_cpu_capabilities *entry,
@@ -1702,6 +1691,22 @@ static void bti_enable(const struct arm64_cpu_capabilities *__unused)
 }
 #endif /* CONFIG_ARM64_BTI */
 
+#ifdef CONFIG_ARM64_MTE
+static void cpu_enable_mte(struct arm64_cpu_capabilities const *cap)
+{
+       static bool cleared_zero_page = false;
+
+       /*
+        * Clear the tags in the zero page. This needs to be done via the
+        * linear map which has the Tagged attribute.
+        */
+       if (!cleared_zero_page) {
+               cleared_zero_page = true;
+               mte_clear_page_tags(lm_alias(empty_zero_page));
+       }
+}
+#endif /* CONFIG_ARM64_MTE */
+
 /* Internal helper functions to match cpu capability type */
 static bool
 cpucap_late_cpu_optional(const struct arm64_cpu_capabilities *cap)
@@ -1976,19 +1981,16 @@ static const struct arm64_cpu_capabilities arm64_features[] = {
                .field_pos = ID_AA64ISAR0_CRC32_SHIFT,
                .min_field_value = 1,
        },
-#ifdef CONFIG_ARM64_SSBD
        {
                .desc = "Speculative Store Bypassing Safe (SSBS)",
                .capability = ARM64_SSBS,
-               .type = ARM64_CPUCAP_WEAK_LOCAL_CPU_FEATURE,
+               .type = ARM64_CPUCAP_SYSTEM_FEATURE,
                .matches = has_cpuid_feature,
                .sys_reg = SYS_ID_AA64PFR1_EL1,
                .field_pos = ID_AA64PFR1_SSBS_SHIFT,
                .sign = FTR_UNSIGNED,
                .min_field_value = ID_AA64PFR1_SSBS_PSTATE_ONLY,
-               .cpu_enable = cpu_enable_ssbs,
        },
-#endif
 #ifdef CONFIG_ARM64_CNP
        {
                .desc = "Common not Private translations",
@@ -2021,7 +2023,7 @@ static const struct arm64_cpu_capabilities arm64_features[] = {
                .sign = FTR_UNSIGNED,
                .field_pos = ID_AA64ISAR1_APA_SHIFT,
                .min_field_value = ID_AA64ISAR1_APA_ARCHITECTED,
-               .matches = has_cpuid_feature,
+               .matches = has_address_auth_cpucap,
        },
        {
                .desc = "Address authentication (IMP DEF algorithm)",
@@ -2031,12 +2033,12 @@ static const struct arm64_cpu_capabilities arm64_features[] = {
                .sign = FTR_UNSIGNED,
                .field_pos = ID_AA64ISAR1_API_SHIFT,
                .min_field_value = ID_AA64ISAR1_API_IMP_DEF,
-               .matches = has_cpuid_feature,
+               .matches = has_address_auth_cpucap,
        },
        {
                .capability = ARM64_HAS_ADDRESS_AUTH,
                .type = ARM64_CPUCAP_BOOT_CPU_FEATURE,
-               .matches = has_address_auth,
+               .matches = has_address_auth_metacap,
        },
        {
                .desc = "Generic authentication (architected algorithm)",
@@ -2121,6 +2123,19 @@ static const struct arm64_cpu_capabilities arm64_features[] = {
                .sign = FTR_UNSIGNED,
        },
 #endif
+#ifdef CONFIG_ARM64_MTE
+       {
+               .desc = "Memory Tagging Extension",
+               .capability = ARM64_MTE,
+               .type = ARM64_CPUCAP_STRICT_BOOT_CPU_FEATURE,
+               .matches = has_cpuid_feature,
+               .sys_reg = SYS_ID_AA64PFR1_EL1,
+               .field_pos = ID_AA64PFR1_MTE_SHIFT,
+               .min_field_value = ID_AA64PFR1_MTE,
+               .sign = FTR_UNSIGNED,
+               .cpu_enable = cpu_enable_mte,
+       },
+#endif /* CONFIG_ARM64_MTE */
        {},
 };
 
@@ -2237,6 +2252,9 @@ static const struct arm64_cpu_capabilities arm64_elf_hwcaps[] = {
        HWCAP_MULTI_CAP(ptr_auth_hwcap_addr_matches, CAP_HWCAP, KERNEL_HWCAP_PACA),
        HWCAP_MULTI_CAP(ptr_auth_hwcap_gen_matches, CAP_HWCAP, KERNEL_HWCAP_PACG),
 #endif
+#ifdef CONFIG_ARM64_MTE
+       HWCAP_CAP(SYS_ID_AA64PFR1_EL1, ID_AA64PFR1_MTE_SHIFT, FTR_UNSIGNED, ID_AA64PFR1_MTE, CAP_HWCAP, KERNEL_HWCAP_MTE),
+#endif /* CONFIG_ARM64_MTE */
        {},
 };
 
index d0076c2..6a7bb37 100644 (file)
@@ -43,94 +43,93 @@ static const char *icache_policy_str[] = {
 unsigned long __icache_flags;
 
 static const char *const hwcap_str[] = {
-       "fp",
-       "asimd",
-       "evtstrm",
-       "aes",
-       "pmull",
-       "sha1",
-       "sha2",
-       "crc32",
-       "atomics",
-       "fphp",
-       "asimdhp",
-       "cpuid",
-       "asimdrdm",
-       "jscvt",
-       "fcma",
-       "lrcpc",
-       "dcpop",
-       "sha3",
-       "sm3",
-       "sm4",
-       "asimddp",
-       "sha512",
-       "sve",
-       "asimdfhm",
-       "dit",
-       "uscat",
-       "ilrcpc",
-       "flagm",
-       "ssbs",
-       "sb",
-       "paca",
-       "pacg",
-       "dcpodp",
-       "sve2",
-       "sveaes",
-       "svepmull",
-       "svebitperm",
-       "svesha3",
-       "svesm4",
-       "flagm2",
-       "frint",
-       "svei8mm",
-       "svef32mm",
-       "svef64mm",
-       "svebf16",
-       "i8mm",
-       "bf16",
-       "dgh",
-       "rng",
-       "bti",
-       /* reserved for "mte" */
-       NULL
+       [KERNEL_HWCAP_FP]               = "fp",
+       [KERNEL_HWCAP_ASIMD]            = "asimd",
+       [KERNEL_HWCAP_EVTSTRM]          = "evtstrm",
+       [KERNEL_HWCAP_AES]              = "aes",
+       [KERNEL_HWCAP_PMULL]            = "pmull",
+       [KERNEL_HWCAP_SHA1]             = "sha1",
+       [KERNEL_HWCAP_SHA2]             = "sha2",
+       [KERNEL_HWCAP_CRC32]            = "crc32",
+       [KERNEL_HWCAP_ATOMICS]          = "atomics",
+       [KERNEL_HWCAP_FPHP]             = "fphp",
+       [KERNEL_HWCAP_ASIMDHP]          = "asimdhp",
+       [KERNEL_HWCAP_CPUID]            = "cpuid",
+       [KERNEL_HWCAP_ASIMDRDM]         = "asimdrdm",
+       [KERNEL_HWCAP_JSCVT]            = "jscvt",
+       [KERNEL_HWCAP_FCMA]             = "fcma",
+       [KERNEL_HWCAP_LRCPC]            = "lrcpc",
+       [KERNEL_HWCAP_DCPOP]            = "dcpop",
+       [KERNEL_HWCAP_SHA3]             = "sha3",
+       [KERNEL_HWCAP_SM3]              = "sm3",
+       [KERNEL_HWCAP_SM4]              = "sm4",
+       [KERNEL_HWCAP_ASIMDDP]          = "asimddp",
+       [KERNEL_HWCAP_SHA512]           = "sha512",
+       [KERNEL_HWCAP_SVE]              = "sve",
+       [KERNEL_HWCAP_ASIMDFHM]         = "asimdfhm",
+       [KERNEL_HWCAP_DIT]              = "dit",
+       [KERNEL_HWCAP_USCAT]            = "uscat",
+       [KERNEL_HWCAP_ILRCPC]           = "ilrcpc",
+       [KERNEL_HWCAP_FLAGM]            = "flagm",
+       [KERNEL_HWCAP_SSBS]             = "ssbs",
+       [KERNEL_HWCAP_SB]               = "sb",
+       [KERNEL_HWCAP_PACA]             = "paca",
+       [KERNEL_HWCAP_PACG]             = "pacg",
+       [KERNEL_HWCAP_DCPODP]           = "dcpodp",
+       [KERNEL_HWCAP_SVE2]             = "sve2",
+       [KERNEL_HWCAP_SVEAES]           = "sveaes",
+       [KERNEL_HWCAP_SVEPMULL]         = "svepmull",
+       [KERNEL_HWCAP_SVEBITPERM]       = "svebitperm",
+       [KERNEL_HWCAP_SVESHA3]          = "svesha3",
+       [KERNEL_HWCAP_SVESM4]           = "svesm4",
+       [KERNEL_HWCAP_FLAGM2]           = "flagm2",
+       [KERNEL_HWCAP_FRINT]            = "frint",
+       [KERNEL_HWCAP_SVEI8MM]          = "svei8mm",
+       [KERNEL_HWCAP_SVEF32MM]         = "svef32mm",
+       [KERNEL_HWCAP_SVEF64MM]         = "svef64mm",
+       [KERNEL_HWCAP_SVEBF16]          = "svebf16",
+       [KERNEL_HWCAP_I8MM]             = "i8mm",
+       [KERNEL_HWCAP_BF16]             = "bf16",
+       [KERNEL_HWCAP_DGH]              = "dgh",
+       [KERNEL_HWCAP_RNG]              = "rng",
+       [KERNEL_HWCAP_BTI]              = "bti",
+       [KERNEL_HWCAP_MTE]              = "mte",
 };
 
 #ifdef CONFIG_COMPAT
+#define COMPAT_KERNEL_HWCAP(x) const_ilog2(COMPAT_HWCAP_ ## x)
 static const char *const compat_hwcap_str[] = {
-       "swp",
-       "half",
-       "thumb",
-       "26bit",
-       "fastmult",
-       "fpa",
-       "vfp",
-       "edsp",
-       "java",
-       "iwmmxt",
-       "crunch",
-       "thumbee",
-       "neon",
-       "vfpv3",
-       "vfpv3d16",
-       "tls",
-       "vfpv4",
-       "idiva",
-       "idivt",
-       "vfpd32",
-       "lpae",
-       "evtstrm",
-       NULL
+       [COMPAT_KERNEL_HWCAP(SWP)]      = "swp",
+       [COMPAT_KERNEL_HWCAP(HALF)]     = "half",
+       [COMPAT_KERNEL_HWCAP(THUMB)]    = "thumb",
+       [COMPAT_KERNEL_HWCAP(26BIT)]    = NULL, /* Not possible on arm64 */
+       [COMPAT_KERNEL_HWCAP(FAST_MULT)] = "fastmult",
+       [COMPAT_KERNEL_HWCAP(FPA)]      = NULL, /* Not possible on arm64 */
+       [COMPAT_KERNEL_HWCAP(VFP)]      = "vfp",
+       [COMPAT_KERNEL_HWCAP(EDSP)]     = "edsp",
+       [COMPAT_KERNEL_HWCAP(JAVA)]     = NULL, /* Not possible on arm64 */
+       [COMPAT_KERNEL_HWCAP(IWMMXT)]   = NULL, /* Not possible on arm64 */
+       [COMPAT_KERNEL_HWCAP(CRUNCH)]   = NULL, /* Not possible on arm64 */
+       [COMPAT_KERNEL_HWCAP(THUMBEE)]  = NULL, /* Not possible on arm64 */
+       [COMPAT_KERNEL_HWCAP(NEON)]     = "neon",
+       [COMPAT_KERNEL_HWCAP(VFPv3)]    = "vfpv3",
+       [COMPAT_KERNEL_HWCAP(VFPV3D16)] = NULL, /* Not possible on arm64 */
+       [COMPAT_KERNEL_HWCAP(TLS)]      = "tls",
+       [COMPAT_KERNEL_HWCAP(VFPv4)]    = "vfpv4",
+       [COMPAT_KERNEL_HWCAP(IDIVA)]    = "idiva",
+       [COMPAT_KERNEL_HWCAP(IDIVT)]    = "idivt",
+       [COMPAT_KERNEL_HWCAP(VFPD32)]   = NULL, /* Not possible on arm64 */
+       [COMPAT_KERNEL_HWCAP(LPAE)]     = "lpae",
+       [COMPAT_KERNEL_HWCAP(EVTSTRM)]  = "evtstrm",
 };
 
+#define COMPAT_KERNEL_HWCAP2(x)        const_ilog2(COMPAT_HWCAP2_ ## x)
 static const char *const compat_hwcap2_str[] = {
-       "aes",
-       "pmull",
-       "sha1",
-       "sha2",
-       "crc32",
-       NULL
+       [COMPAT_KERNEL_HWCAP2(AES)]     = "aes",
+       [COMPAT_KERNEL_HWCAP2(PMULL)]   = "pmull",
+       [COMPAT_KERNEL_HWCAP2(SHA1)]    = "sha1",
+       [COMPAT_KERNEL_HWCAP2(SHA2)]    = "sha2",
+       [COMPAT_KERNEL_HWCAP2(CRC32)]   = "crc32",
 };
 #endif /* CONFIG_COMPAT */
 
@@ -166,16 +165,25 @@ static int c_show(struct seq_file *m, void *v)
                seq_puts(m, "Features\t:");
                if (compat) {
 #ifdef CONFIG_COMPAT
-                       for (j = 0; compat_hwcap_str[j]; j++)
-                               if (compat_elf_hwcap & (1 << j))
+                       for (j = 0; j < ARRAY_SIZE(compat_hwcap_str); j++) {
+                               if (compat_elf_hwcap & (1 << j)) {
+                                       /*
+                                        * Warn once if any feature should not
+                                        * have been present on arm64 platform.
+                                        */
+                                       if (WARN_ON_ONCE(!compat_hwcap_str[j]))
+                                               continue;
+
                                        seq_printf(m, " %s", compat_hwcap_str[j]);
+                               }
+                       }
 
-                       for (j = 0; compat_hwcap2_str[j]; j++)
+                       for (j = 0; j < ARRAY_SIZE(compat_hwcap2_str); j++)
                                if (compat_elf_hwcap2 & (1 << j))
                                        seq_printf(m, " %s", compat_hwcap2_str[j]);
 #endif /* CONFIG_COMPAT */
                } else {
-                       for (j = 0; hwcap_str[j]; j++)
+                       for (j = 0; j < ARRAY_SIZE(hwcap_str); j++)
                                if (cpu_have_feature(j))
                                        seq_printf(m, " %s", hwcap_str[j]);
                }
index 7310a4f..fa76151 100644 (file)
@@ -384,7 +384,7 @@ void __init debug_traps_init(void)
        hook_debug_fault_code(DBG_ESR_EVT_HWSS, single_step_handler, SIGTRAP,
                              TRAP_TRACE, "single-step handler");
        hook_debug_fault_code(DBG_ESR_EVT_BRK, brk_handler, SIGTRAP,
-                             TRAP_BRKPT, "ptrace BRK handler");
+                             TRAP_BRKPT, "BRK handler");
 }
 
 /* Re-enable single step for syscall restarting. */
index d3be9db..43d4c32 100644 (file)
@@ -66,6 +66,13 @@ static void notrace el1_dbg(struct pt_regs *regs, unsigned long esr)
 }
 NOKPROBE_SYMBOL(el1_dbg);
 
+static void notrace el1_fpac(struct pt_regs *regs, unsigned long esr)
+{
+       local_daif_inherit(regs);
+       do_ptrauth_fault(regs, esr);
+}
+NOKPROBE_SYMBOL(el1_fpac);
+
 asmlinkage void notrace el1_sync_handler(struct pt_regs *regs)
 {
        unsigned long esr = read_sysreg(esr_el1);
@@ -92,6 +99,9 @@ asmlinkage void notrace el1_sync_handler(struct pt_regs *regs)
        case ESR_ELx_EC_BRK64:
                el1_dbg(regs, esr);
                break;
+       case ESR_ELx_EC_FPAC:
+               el1_fpac(regs, esr);
+               break;
        default:
                el1_inv(regs, esr);
        }
@@ -227,6 +237,14 @@ static void notrace el0_svc(struct pt_regs *regs)
 }
 NOKPROBE_SYMBOL(el0_svc);
 
+static void notrace el0_fpac(struct pt_regs *regs, unsigned long esr)
+{
+       user_exit_irqoff();
+       local_daif_restore(DAIF_PROCCTX);
+       do_ptrauth_fault(regs, esr);
+}
+NOKPROBE_SYMBOL(el0_fpac);
+
 asmlinkage void notrace el0_sync_handler(struct pt_regs *regs)
 {
        unsigned long esr = read_sysreg(esr_el1);
@@ -272,6 +290,9 @@ asmlinkage void notrace el0_sync_handler(struct pt_regs *regs)
        case ESR_ELx_EC_BRK64:
                el0_dbg(regs, esr);
                break;
+       case ESR_ELx_EC_FPAC:
+               el0_fpac(regs, esr);
+               break;
        default:
                el0_inv(regs, esr);
        }
index f880dd6..2ca395c 100644 (file)
@@ -32,6 +32,7 @@ SYM_FUNC_START(fpsimd_load_state)
 SYM_FUNC_END(fpsimd_load_state)
 
 #ifdef CONFIG_ARM64_SVE
+
 SYM_FUNC_START(sve_save_state)
        sve_save 0, x1, 2
        ret
@@ -46,4 +47,28 @@ SYM_FUNC_START(sve_get_vl)
        _sve_rdvl       0, 1
        ret
 SYM_FUNC_END(sve_get_vl)
+
+/*
+ * Load SVE state from FPSIMD state.
+ *
+ * x0 = pointer to struct fpsimd_state
+ * x1 = VQ - 1
+ *
+ * Each SVE vector will be loaded with the first 128-bits taken from FPSIMD
+ * and the rest zeroed. All the other SVE registers will be zeroed.
+ */
+SYM_FUNC_START(sve_load_from_fpsimd_state)
+               sve_load_vq     x1, x2, x3
+               fpsimd_restore  x0, 8
+ _for n, 0, 15, _sve_pfalse    \n
+               _sve_wrffr      0
+               ret
+SYM_FUNC_END(sve_load_from_fpsimd_state)
+
+/* Zero all SVE registers but the first 128-bits of each vector */
+SYM_FUNC_START(sve_flush_live)
+       sve_flush
+       ret
+SYM_FUNC_END(sve_flush_live)
+
 #endif /* CONFIG_ARM64_SVE */
index 55af8b5..f30007d 100644 (file)
@@ -132,9 +132,8 @@ alternative_else_nop_endif
         * them if required.
         */
        .macro  apply_ssbd, state, tmp1, tmp2
-#ifdef CONFIG_ARM64_SSBD
-alternative_cb arm64_enable_wa2_handling
-       b       .L__asm_ssbd_skip\@
+alternative_cb spectre_v4_patch_fw_mitigation_enable
+       b       .L__asm_ssbd_skip\@             // Patched to NOP
 alternative_cb_end
        ldr_this_cpu    \tmp2, arm64_ssbd_callback_required, \tmp1
        cbz     \tmp2,  .L__asm_ssbd_skip\@
@@ -142,10 +141,35 @@ alternative_cb_end
        tbnz    \tmp2, #TIF_SSBD, .L__asm_ssbd_skip\@
        mov     w0, #ARM_SMCCC_ARCH_WORKAROUND_2
        mov     w1, #\state
-alternative_cb arm64_update_smccc_conduit
+alternative_cb spectre_v4_patch_fw_mitigation_conduit
        nop                                     // Patched to SMC/HVC #0
 alternative_cb_end
 .L__asm_ssbd_skip\@:
+       .endm
+
+       /* Check for MTE asynchronous tag check faults */
+       .macro check_mte_async_tcf, flgs, tmp
+#ifdef CONFIG_ARM64_MTE
+alternative_if_not ARM64_MTE
+       b       1f
+alternative_else_nop_endif
+       mrs_s   \tmp, SYS_TFSRE0_EL1
+       tbz     \tmp, #SYS_TFSR_EL1_TF0_SHIFT, 1f
+       /* Asynchronous TCF occurred for TTBR0 access, set the TI flag */
+       orr     \flgs, \flgs, #_TIF_MTE_ASYNC_FAULT
+       str     \flgs, [tsk, #TSK_TI_FLAGS]
+       msr_s   SYS_TFSRE0_EL1, xzr
+1:
+#endif
+       .endm
+
+       /* Clear the MTE asynchronous tag check faults */
+       .macro clear_mte_async_tcf
+#ifdef CONFIG_ARM64_MTE
+alternative_if ARM64_MTE
+       dsb     ish
+       msr_s   SYS_TFSRE0_EL1, xzr
+alternative_else_nop_endif
 #endif
        .endm
 
@@ -182,6 +206,8 @@ alternative_cb_end
        ldr     x19, [tsk, #TSK_TI_FLAGS]
        disable_step_tsk x19, x20
 
+       /* Check for asynchronous tag check faults in user space */
+       check_mte_async_tcf x19, x22
        apply_ssbd 1, x22, x23
 
        ptrauth_keys_install_kernel tsk, x20, x22, x23
@@ -233,6 +259,13 @@ alternative_if ARM64_HAS_IRQ_PRIO_MASKING
        str     x20, [sp, #S_PMR_SAVE]
 alternative_else_nop_endif
 
+       /* Re-enable tag checking (TCO set on exception entry) */
+#ifdef CONFIG_ARM64_MTE
+alternative_if ARM64_MTE
+       SET_PSTATE_TCO(0)
+alternative_else_nop_endif
+#endif
+
        /*
         * Registers that may be useful after this macro is invoked:
         *
@@ -697,11 +730,9 @@ el0_irq_naked:
        bl      trace_hardirqs_off
 #endif
 
-#ifdef CONFIG_HARDEN_BRANCH_PREDICTOR
        tbz     x22, #55, 1f
        bl      do_el0_irq_bp_hardening
 1:
-#endif
        irq_handler
 
 #ifdef CONFIG_TRACE_IRQFLAGS
@@ -744,6 +775,8 @@ SYM_CODE_START_LOCAL(ret_to_user)
        and     x2, x1, #_TIF_WORK_MASK
        cbnz    x2, work_pending
 finish_ret_to_user:
+       /* Ignore asynchronous tag check faults in the uaccess routines */
+       clear_mte_async_tcf
        enable_step_tsk x1, x2
 #ifdef CONFIG_GCC_PLUGIN_STACKLEAK
        bl      stackleak_erase
index 55c8f3e..a6d688c 100644 (file)
 #include <linux/swab.h>
 
 #include <asm/esr.h>
+#include <asm/exception.h>
 #include <asm/fpsimd.h>
 #include <asm/cpufeature.h>
 #include <asm/cputype.h>
+#include <asm/neon.h>
 #include <asm/processor.h>
 #include <asm/simd.h>
 #include <asm/sigcontext.h>
@@ -312,7 +314,7 @@ static void fpsimd_save(void)
                                 * re-enter user with corrupt state.
                                 * There's no way to recover, so kill it:
                                 */
-                               force_signal_inject(SIGKILL, SI_KERNEL, 0);
+                               force_signal_inject(SIGKILL, SI_KERNEL, 0, 0);
                                return;
                        }
 
@@ -928,7 +930,7 @@ void fpsimd_release_task(struct task_struct *dead_task)
  * the SVE access trap will be disabled the next time this task
  * reaches ret_to_user.
  *
- * TIF_SVE should be clear on entry: otherwise, task_fpsimd_load()
+ * TIF_SVE should be clear on entry: otherwise, fpsimd_restore_current_state()
  * would have disabled the SVE access trap for userspace during
  * ret_to_user, making an SVE access trap impossible in that case.
  */
@@ -936,7 +938,7 @@ void do_sve_acc(unsigned int esr, struct pt_regs *regs)
 {
        /* Even if we chose not to use SVE, the hardware could still trap: */
        if (unlikely(!system_supports_sve()) || WARN_ON(is_compat_task())) {
-               force_signal_inject(SIGILL, ILL_ILLOPC, regs->pc);
+               force_signal_inject(SIGILL, ILL_ILLOPC, regs->pc, 0);
                return;
        }
 
index 037421c..d8d9caf 100644 (file)
 
 #include "efi-header.S"
 
-#define __PHYS_OFFSET  (KERNEL_START - TEXT_OFFSET)
+#define __PHYS_OFFSET  KERNEL_START
 
-#if (TEXT_OFFSET & 0xfff) != 0
-#error TEXT_OFFSET must be at least 4KB aligned
-#elif (PAGE_OFFSET & 0x1fffff) != 0
+#if (PAGE_OFFSET & 0x1fffff) != 0
 #error PAGE_OFFSET must be at least 2MB aligned
-#elif TEXT_OFFSET > 0x1fffff
-#error TEXT_OFFSET must be less than 2MB
 #endif
 
 /*
@@ -55,7 +51,7 @@
  *   x0 = physical address to the FDT blob.
  *
  * This code is mostly position independent so you call this at
- * __pa(PAGE_OFFSET + TEXT_OFFSET).
+ * __pa(PAGE_OFFSET).
  *
  * Note that the callee-saved registers are used for storing variables
  * that are useful before the MMU is enabled. The allocations are described
@@ -77,7 +73,7 @@ _head:
        b       primary_entry                   // branch to kernel start, magic
        .long   0                               // reserved
 #endif
-       le64sym _kernel_offset_le               // Image load offset from start of RAM, little-endian
+       .quad   0                               // Image load offset from start of RAM, little-endian
        le64sym _kernel_size_le                 // Effective size of kernel image, little-endian
        le64sym _kernel_flags_le                // Informative flags, little-endian
        .quad   0                               // reserved
@@ -382,7 +378,7 @@ SYM_FUNC_START_LOCAL(__create_page_tables)
         * Map the kernel image (starting with PHYS_OFFSET).
         */
        adrp    x0, init_pg_dir
-       mov_q   x5, KIMAGE_VADDR + TEXT_OFFSET  // compile time __va(_text)
+       mov_q   x5, KIMAGE_VADDR                // compile time __va(_text)
        add     x5, x5, x23                     // add KASLR displacement
        mov     x4, PTRS_PER_PGD
        adrp    x6, _end                        // runtime __pa(_end)
@@ -474,7 +470,7 @@ SYM_FUNC_END(__primary_switched)
 
        .pushsection ".rodata", "a"
 SYM_DATA_START(kimage_vaddr)
-       .quad           _text - TEXT_OFFSET
+       .quad           _text
 SYM_DATA_END(kimage_vaddr)
 EXPORT_SYMBOL(kimage_vaddr)
        .popsection
index 68e1415..4200377 100644 (file)
@@ -21,7 +21,6 @@
 #include <linux/sched.h>
 #include <linux/suspend.h>
 #include <linux/utsname.h>
-#include <linux/version.h>
 
 #include <asm/barrier.h>
 #include <asm/cacheflush.h>
@@ -31,6 +30,7 @@
 #include <asm/kexec.h>
 #include <asm/memory.h>
 #include <asm/mmu_context.h>
+#include <asm/mte.h>
 #include <asm/pgalloc.h>
 #include <asm/pgtable-hwdef.h>
 #include <asm/sections.h>
@@ -285,6 +285,117 @@ static int create_safe_exec_page(void *src_start, size_t length,
 
 #define dcache_clean_range(start, end) __flush_dcache_area(start, (end - start))
 
+#ifdef CONFIG_ARM64_MTE
+
+static DEFINE_XARRAY(mte_pages);
+
+static int save_tags(struct page *page, unsigned long pfn)
+{
+       void *tag_storage, *ret;
+
+       tag_storage = mte_allocate_tag_storage();
+       if (!tag_storage)
+               return -ENOMEM;
+
+       mte_save_page_tags(page_address(page), tag_storage);
+
+       ret = xa_store(&mte_pages, pfn, tag_storage, GFP_KERNEL);
+       if (WARN(xa_is_err(ret), "Failed to store MTE tags")) {
+               mte_free_tag_storage(tag_storage);
+               return xa_err(ret);
+       } else if (WARN(ret, "swsusp: %s: Duplicate entry", __func__)) {
+               mte_free_tag_storage(ret);
+       }
+
+       return 0;
+}
+
+static void swsusp_mte_free_storage(void)
+{
+       XA_STATE(xa_state, &mte_pages, 0);
+       void *tags;
+
+       xa_lock(&mte_pages);
+       xas_for_each(&xa_state, tags, ULONG_MAX) {
+               mte_free_tag_storage(tags);
+       }
+       xa_unlock(&mte_pages);
+
+       xa_destroy(&mte_pages);
+}
+
+static int swsusp_mte_save_tags(void)
+{
+       struct zone *zone;
+       unsigned long pfn, max_zone_pfn;
+       int ret = 0;
+       int n = 0;
+
+       if (!system_supports_mte())
+               return 0;
+
+       for_each_populated_zone(zone) {
+               max_zone_pfn = zone_end_pfn(zone);
+               for (pfn = zone->zone_start_pfn; pfn < max_zone_pfn; pfn++) {
+                       struct page *page = pfn_to_online_page(pfn);
+
+                       if (!page)
+                               continue;
+
+                       if (!test_bit(PG_mte_tagged, &page->flags))
+                               continue;
+
+                       ret = save_tags(page, pfn);
+                       if (ret) {
+                               swsusp_mte_free_storage();
+                               goto out;
+                       }
+
+                       n++;
+               }
+       }
+       pr_info("Saved %d MTE pages\n", n);
+
+out:
+       return ret;
+}
+
+static void swsusp_mte_restore_tags(void)
+{
+       XA_STATE(xa_state, &mte_pages, 0);
+       int n = 0;
+       void *tags;
+
+       xa_lock(&mte_pages);
+       xas_for_each(&xa_state, tags, ULONG_MAX) {
+               unsigned long pfn = xa_state.xa_index;
+               struct page *page = pfn_to_online_page(pfn);
+
+               mte_restore_page_tags(page_address(page), tags);
+
+               mte_free_tag_storage(tags);
+               n++;
+       }
+       xa_unlock(&mte_pages);
+
+       pr_info("Restored %d MTE pages\n", n);
+
+       xa_destroy(&mte_pages);
+}
+
+#else  /* CONFIG_ARM64_MTE */
+
+static int swsusp_mte_save_tags(void)
+{
+       return 0;
+}
+
+static void swsusp_mte_restore_tags(void)
+{
+}
+
+#endif /* CONFIG_ARM64_MTE */
+
 int swsusp_arch_suspend(void)
 {
        int ret = 0;
@@ -302,6 +413,10 @@ int swsusp_arch_suspend(void)
                /* make the crash dump kernel image visible/saveable */
                crash_prepare_suspend();
 
+               ret = swsusp_mte_save_tags();
+               if (ret)
+                       return ret;
+
                sleep_cpu = smp_processor_id();
                ret = swsusp_save();
        } else {
@@ -315,6 +430,8 @@ int swsusp_arch_suspend(void)
                        dcache_clean_range(__hyp_text_start, __hyp_text_end);
                }
 
+               swsusp_mte_restore_tags();
+
                /* make the crash dump kernel image protected again */
                crash_post_resume();
 
@@ -332,11 +449,7 @@ int swsusp_arch_suspend(void)
                 * mitigation off behind our back, let's set the state
                 * to what we expect it to be.
                 */
-               switch (arm64_get_ssbd_state()) {
-               case ARM64_SSBD_FORCE_ENABLE:
-               case ARM64_SSBD_KERNEL:
-                       arm64_set_ssbd_mitigation(true);
-               }
+               spectre_v4_enable_mitigation(NULL);
        }
 
        local_daif_restore(flags);
index 8982b68..843ecfb 100644 (file)
@@ -64,12 +64,10 @@ __efistub__ctype            = _ctype;
 #define KVM_NVHE_ALIAS(sym) __kvm_nvhe_##sym = sym;
 
 /* Alternative callbacks for init-time patching of nVHE hyp code. */
-KVM_NVHE_ALIAS(arm64_enable_wa2_handling);
 KVM_NVHE_ALIAS(kvm_patch_vector_branch);
 KVM_NVHE_ALIAS(kvm_update_va_mask);
 
 /* Global kernel state accessed by nVHE hyp code. */
-KVM_NVHE_ALIAS(arm64_ssbd_callback_required);
 KVM_NVHE_ALIAS(kvm_host_data);
 KVM_NVHE_ALIAS(kvm_vgic_global_state);
 
@@ -101,6 +99,8 @@ KVM_NVHE_ALIAS(vgic_v3_cpuif_trap);
 /* Static key checked in pmr_sync(). */
 #ifdef CONFIG_ARM64_PSEUDO_NMI
 KVM_NVHE_ALIAS(gic_pmr_sync);
+/* Static key checked in GIC_PRIO_IRQOFF. */
+KVM_NVHE_ALIAS(gic_nonsecure_priorities);
 #endif
 
 /* EL2 exception handling */
index c7d38c6..7bc3ba8 100644 (file)
@@ -62,7 +62,6 @@
  */
 #define HEAD_SYMBOLS                                           \
        DEFINE_IMAGE_LE64(_kernel_size_le, _end - _text);       \
-       DEFINE_IMAGE_LE64(_kernel_offset_le, TEXT_OFFSET);      \
        DEFINE_IMAGE_LE64(_kernel_flags_le, __HEAD_FLAGS);
 
 #endif /* __ARM64_KERNEL_IMAGE_H */
index a107375..6c0de2f 100644 (file)
@@ -60,16 +60,10 @@ bool __kprobes aarch64_insn_is_steppable_hint(u32 insn)
        case AARCH64_INSN_HINT_XPACLRI:
        case AARCH64_INSN_HINT_PACIA_1716:
        case AARCH64_INSN_HINT_PACIB_1716:
-       case AARCH64_INSN_HINT_AUTIA_1716:
-       case AARCH64_INSN_HINT_AUTIB_1716:
        case AARCH64_INSN_HINT_PACIAZ:
        case AARCH64_INSN_HINT_PACIASP:
        case AARCH64_INSN_HINT_PACIBZ:
        case AARCH64_INSN_HINT_PACIBSP:
-       case AARCH64_INSN_HINT_AUTIAZ:
-       case AARCH64_INSN_HINT_AUTIASP:
-       case AARCH64_INSN_HINT_AUTIBZ:
-       case AARCH64_INSN_HINT_AUTIBSP:
        case AARCH64_INSN_HINT_BTI:
        case AARCH64_INSN_HINT_BTIC:
        case AARCH64_INSN_HINT_BTIJ:
@@ -176,7 +170,7 @@ bool __kprobes aarch64_insn_uses_literal(u32 insn)
 
 bool __kprobes aarch64_insn_is_branch(u32 insn)
 {
-       /* b, bl, cb*, tb*, b.cond, br, blr */
+       /* b, bl, cb*, tb*, ret*, b.cond, br*, blr* */
 
        return aarch64_insn_is_b(insn) ||
                aarch64_insn_is_bl(insn) ||
@@ -185,8 +179,11 @@ bool __kprobes aarch64_insn_is_branch(u32 insn)
                aarch64_insn_is_tbz(insn) ||
                aarch64_insn_is_tbnz(insn) ||
                aarch64_insn_is_ret(insn) ||
+               aarch64_insn_is_ret_auth(insn) ||
                aarch64_insn_is_br(insn) ||
+               aarch64_insn_is_br_auth(insn) ||
                aarch64_insn_is_blr(insn) ||
+               aarch64_insn_is_blr_auth(insn) ||
                aarch64_insn_is_bcond(insn);
 }
 
index 04a327c..9cf2fb8 100644 (file)
  * Copyright (C) 2012 ARM Ltd.
  */
 
-#include <linux/kernel_stat.h>
 #include <linux/irq.h>
 #include <linux/memory.h>
 #include <linux/smp.h>
+#include <linux/hardirq.h>
 #include <linux/init.h>
 #include <linux/irqchip.h>
 #include <linux/kprobes.h>
 #include <asm/daifflags.h>
 #include <asm/vmap_stack.h>
 
-unsigned long irq_err_count;
-
 /* Only access this in an NMI enter/exit */
 DEFINE_PER_CPU(struct nmi_ctx, nmi_contexts);
 
 DEFINE_PER_CPU(unsigned long *, irq_stack_ptr);
 
-int arch_show_interrupts(struct seq_file *p, int prec)
-{
-       show_ipi_list(p, prec);
-       seq_printf(p, "%*s: %10lu\n", prec, "Err", irq_err_count);
-       return 0;
-}
-
 #ifdef CONFIG_VMAP_STACK
 static void init_irq_stacks(void)
 {
diff --git a/arch/arm64/kernel/mte.c b/arch/arm64/kernel/mte.c
new file mode 100644 (file)
index 0000000..52a0638
--- /dev/null
@@ -0,0 +1,336 @@
+// SPDX-License-Identifier: GPL-2.0-only
+/*
+ * Copyright (C) 2020 ARM Ltd.
+ */
+
+#include <linux/bitops.h>
+#include <linux/kernel.h>
+#include <linux/mm.h>
+#include <linux/prctl.h>
+#include <linux/sched.h>
+#include <linux/sched/mm.h>
+#include <linux/string.h>
+#include <linux/swap.h>
+#include <linux/swapops.h>
+#include <linux/thread_info.h>
+#include <linux/uio.h>
+
+#include <asm/cpufeature.h>
+#include <asm/mte.h>
+#include <asm/ptrace.h>
+#include <asm/sysreg.h>
+
+static void mte_sync_page_tags(struct page *page, pte_t *ptep, bool check_swap)
+{
+       pte_t old_pte = READ_ONCE(*ptep);
+
+       if (check_swap && is_swap_pte(old_pte)) {
+               swp_entry_t entry = pte_to_swp_entry(old_pte);
+
+               if (!non_swap_entry(entry) && mte_restore_tags(entry, page))
+                       return;
+       }
+
+       mte_clear_page_tags(page_address(page));
+}
+
+void mte_sync_tags(pte_t *ptep, pte_t pte)
+{
+       struct page *page = pte_page(pte);
+       long i, nr_pages = compound_nr(page);
+       bool check_swap = nr_pages == 1;
+
+       /* if PG_mte_tagged is set, tags have already been initialised */
+       for (i = 0; i < nr_pages; i++, page++) {
+               if (!test_and_set_bit(PG_mte_tagged, &page->flags))
+                       mte_sync_page_tags(page, ptep, check_swap);
+       }
+}
+
+int memcmp_pages(struct page *page1, struct page *page2)
+{
+       char *addr1, *addr2;
+       int ret;
+
+       addr1 = page_address(page1);
+       addr2 = page_address(page2);
+       ret = memcmp(addr1, addr2, PAGE_SIZE);
+
+       if (!system_supports_mte() || ret)
+               return ret;
+
+       /*
+        * If the page content is identical but at least one of the pages is
+        * tagged, return non-zero to avoid KSM merging. If only one of the
+        * pages is tagged, set_pte_at() may zero or change the tags of the
+        * other page via mte_sync_tags().
+        */
+       if (test_bit(PG_mte_tagged, &page1->flags) ||
+           test_bit(PG_mte_tagged, &page2->flags))
+               return addr1 != addr2;
+
+       return ret;
+}
+
+static void update_sctlr_el1_tcf0(u64 tcf0)
+{
+       /* ISB required for the kernel uaccess routines */
+       sysreg_clear_set(sctlr_el1, SCTLR_EL1_TCF0_MASK, tcf0);
+       isb();
+}
+
+static void set_sctlr_el1_tcf0(u64 tcf0)
+{
+       /*
+        * mte_thread_switch() checks current->thread.sctlr_tcf0 as an
+        * optimisation. Disable preemption so that it does not see
+        * the variable update before the SCTLR_EL1.TCF0 one.
+        */
+       preempt_disable();
+       current->thread.sctlr_tcf0 = tcf0;
+       update_sctlr_el1_tcf0(tcf0);
+       preempt_enable();
+}
+
+static void update_gcr_el1_excl(u64 incl)
+{
+       u64 excl = ~incl & SYS_GCR_EL1_EXCL_MASK;
+
+       /*
+        * Note that 'incl' is an include mask (controlled by the user via
+        * prctl()) while GCR_EL1 accepts an exclude mask.
+        * No need for ISB since this only affects EL0 currently, implicit
+        * with ERET.
+        */
+       sysreg_clear_set_s(SYS_GCR_EL1, SYS_GCR_EL1_EXCL_MASK, excl);
+}
+
+static void set_gcr_el1_excl(u64 incl)
+{
+       current->thread.gcr_user_incl = incl;
+       update_gcr_el1_excl(incl);
+}
+
+void flush_mte_state(void)
+{
+       if (!system_supports_mte())
+               return;
+
+       /* clear any pending asynchronous tag fault */
+       dsb(ish);
+       write_sysreg_s(0, SYS_TFSRE0_EL1);
+       clear_thread_flag(TIF_MTE_ASYNC_FAULT);
+       /* disable tag checking */
+       set_sctlr_el1_tcf0(SCTLR_EL1_TCF0_NONE);
+       /* reset tag generation mask */
+       set_gcr_el1_excl(0);
+}
+
+void mte_thread_switch(struct task_struct *next)
+{
+       if (!system_supports_mte())
+               return;
+
+       /* avoid expensive SCTLR_EL1 accesses if no change */
+       if (current->thread.sctlr_tcf0 != next->thread.sctlr_tcf0)
+               update_sctlr_el1_tcf0(next->thread.sctlr_tcf0);
+       update_gcr_el1_excl(next->thread.gcr_user_incl);
+}
+
+void mte_suspend_exit(void)
+{
+       if (!system_supports_mte())
+               return;
+
+       update_gcr_el1_excl(current->thread.gcr_user_incl);
+}
+
+long set_mte_ctrl(struct task_struct *task, unsigned long arg)
+{
+       u64 tcf0;
+       u64 gcr_incl = (arg & PR_MTE_TAG_MASK) >> PR_MTE_TAG_SHIFT;
+
+       if (!system_supports_mte())
+               return 0;
+
+       switch (arg & PR_MTE_TCF_MASK) {
+       case PR_MTE_TCF_NONE:
+               tcf0 = SCTLR_EL1_TCF0_NONE;
+               break;
+       case PR_MTE_TCF_SYNC:
+               tcf0 = SCTLR_EL1_TCF0_SYNC;
+               break;
+       case PR_MTE_TCF_ASYNC:
+               tcf0 = SCTLR_EL1_TCF0_ASYNC;
+               break;
+       default:
+               return -EINVAL;
+       }
+
+       if (task != current) {
+               task->thread.sctlr_tcf0 = tcf0;
+               task->thread.gcr_user_incl = gcr_incl;
+       } else {
+               set_sctlr_el1_tcf0(tcf0);
+               set_gcr_el1_excl(gcr_incl);
+       }
+
+       return 0;
+}
+
+long get_mte_ctrl(struct task_struct *task)
+{
+       unsigned long ret;
+
+       if (!system_supports_mte())
+               return 0;
+
+       ret = task->thread.gcr_user_incl << PR_MTE_TAG_SHIFT;
+
+       switch (task->thread.sctlr_tcf0) {
+       case SCTLR_EL1_TCF0_NONE:
+               return PR_MTE_TCF_NONE;
+       case SCTLR_EL1_TCF0_SYNC:
+               ret |= PR_MTE_TCF_SYNC;
+               break;
+       case SCTLR_EL1_TCF0_ASYNC:
+               ret |= PR_MTE_TCF_ASYNC;
+               break;
+       }
+
+       return ret;
+}
+
+/*
+ * Access MTE tags in another process' address space as given in mm. Update
+ * the number of tags copied. Return 0 if any tags copied, error otherwise.
+ * Inspired by __access_remote_vm().
+ */
+static int __access_remote_tags(struct mm_struct *mm, unsigned long addr,
+                               struct iovec *kiov, unsigned int gup_flags)
+{
+       struct vm_area_struct *vma;
+       void __user *buf = kiov->iov_base;
+       size_t len = kiov->iov_len;
+       int ret;
+       int write = gup_flags & FOLL_WRITE;
+
+       if (!access_ok(buf, len))
+               return -EFAULT;
+
+       if (mmap_read_lock_killable(mm))
+               return -EIO;
+
+       while (len) {
+               unsigned long tags, offset;
+               void *maddr;
+               struct page *page = NULL;
+
+               ret = get_user_pages_remote(mm, addr, 1, gup_flags, &page,
+                                           &vma, NULL);
+               if (ret <= 0)
+                       break;
+
+               /*
+                * Only copy tags if the page has been mapped as PROT_MTE
+                * (PG_mte_tagged set). Otherwise the tags are not valid and
+                * not accessible to user. Moreover, an mprotect(PROT_MTE)
+                * would cause the existing tags to be cleared if the page
+                * was never mapped with PROT_MTE.
+                */
+               if (!test_bit(PG_mte_tagged, &page->flags)) {
+                       ret = -EOPNOTSUPP;
+                       put_page(page);
+                       break;
+               }
+
+               /* limit access to the end of the page */
+               offset = offset_in_page(addr);
+               tags = min(len, (PAGE_SIZE - offset) / MTE_GRANULE_SIZE);
+
+               maddr = page_address(page);
+               if (write) {
+                       tags = mte_copy_tags_from_user(maddr + offset, buf, tags);
+                       set_page_dirty_lock(page);
+               } else {
+                       tags = mte_copy_tags_to_user(buf, maddr + offset, tags);
+               }
+               put_page(page);
+
+               /* error accessing the tracer's buffer */
+               if (!tags)
+                       break;
+
+               len -= tags;
+               buf += tags;
+               addr += tags * MTE_GRANULE_SIZE;
+       }
+       mmap_read_unlock(mm);
+
+       /* return an error if no tags copied */
+       kiov->iov_len = buf - kiov->iov_base;
+       if (!kiov->iov_len) {
+               /* check for error accessing the tracee's address space */
+               if (ret <= 0)
+                       return -EIO;
+               else
+                       return -EFAULT;
+       }
+
+       return 0;
+}
+
+/*
+ * Copy MTE tags in another process' address space at 'addr' to/from tracer's
+ * iovec buffer. Return 0 on success. Inspired by ptrace_access_vm().
+ */
+static int access_remote_tags(struct task_struct *tsk, unsigned long addr,
+                             struct iovec *kiov, unsigned int gup_flags)
+{
+       struct mm_struct *mm;
+       int ret;
+
+       mm = get_task_mm(tsk);
+       if (!mm)
+               return -EPERM;
+
+       if (!tsk->ptrace || (current != tsk->parent) ||
+           ((get_dumpable(mm) != SUID_DUMP_USER) &&
+            !ptracer_capable(tsk, mm->user_ns))) {
+               mmput(mm);
+               return -EPERM;
+       }
+
+       ret = __access_remote_tags(mm, addr, kiov, gup_flags);
+       mmput(mm);
+
+       return ret;
+}
+
+int mte_ptrace_copy_tags(struct task_struct *child, long request,
+                        unsigned long addr, unsigned long data)
+{
+       int ret;
+       struct iovec kiov;
+       struct iovec __user *uiov = (void __user *)data;
+       unsigned int gup_flags = FOLL_FORCE;
+
+       if (!system_supports_mte())
+               return -EIO;
+
+       if (get_user(kiov.iov_base, &uiov->iov_base) ||
+           get_user(kiov.iov_len, &uiov->iov_len))
+               return -EFAULT;
+
+       if (request == PTRACE_POKEMTETAGS)
+               gup_flags |= FOLL_WRITE;
+
+       /* align addr to the MTE tag granule */
+       addr &= MTE_GRANULE_MASK;
+
+       ret = access_remote_tags(child, addr, &kiov, gup_flags);
+       if (!ret)
+               ret = put_user(kiov.iov_len, &uiov->iov_len);
+
+       return ret;
+}
index b0e03e0..88ff471 100644 (file)
@@ -137,11 +137,11 @@ void perf_callchain_user(struct perf_callchain_entry_ctx *entry,
  * whist unwinding the stackframe and is like a subroutine return so we use
  * the PC.
  */
-static int callchain_trace(struct stackframe *frame, void *data)
+static bool callchain_trace(void *data, unsigned long pc)
 {
        struct perf_callchain_entry_ctx *entry = data;
-       perf_callchain_store(entry, frame->pc);
-       return 0;
+       perf_callchain_store(entry, pc);
+       return true;
 }
 
 void perf_callchain_kernel(struct perf_callchain_entry_ctx *entry,
index 462f9a9..3605f77 100644 (file)
@@ -69,6 +69,9 @@ static const unsigned armv8_pmuv3_perf_cache_map[PERF_COUNT_HW_CACHE_MAX]
        [C(ITLB)][C(OP_READ)][C(RESULT_MISS)]   = ARMV8_PMUV3_PERFCTR_L1I_TLB_REFILL,
        [C(ITLB)][C(OP_READ)][C(RESULT_ACCESS)] = ARMV8_PMUV3_PERFCTR_L1I_TLB,
 
+       [C(LL)][C(OP_READ)][C(RESULT_MISS)]     = ARMV8_PMUV3_PERFCTR_LL_CACHE_MISS_RD,
+       [C(LL)][C(OP_READ)][C(RESULT_ACCESS)]   = ARMV8_PMUV3_PERFCTR_LL_CACHE_RD,
+
        [C(BPU)][C(OP_READ)][C(RESULT_ACCESS)]  = ARMV8_PMUV3_PERFCTR_BR_PRED,
        [C(BPU)][C(OP_READ)][C(RESULT_MISS)]    = ARMV8_PMUV3_PERFCTR_BR_MIS_PRED,
 };
@@ -302,13 +305,33 @@ static struct attribute_group armv8_pmuv3_format_attr_group = {
        .attrs = armv8_pmuv3_format_attrs,
 };
 
+static ssize_t slots_show(struct device *dev, struct device_attribute *attr,
+                         char *page)
+{
+       struct pmu *pmu = dev_get_drvdata(dev);
+       struct arm_pmu *cpu_pmu = container_of(pmu, struct arm_pmu, pmu);
+       u32 slots = cpu_pmu->reg_pmmir & ARMV8_PMU_SLOTS_MASK;
+
+       return snprintf(page, PAGE_SIZE, "0x%08x\n", slots);
+}
+
+static DEVICE_ATTR_RO(slots);
+
+static struct attribute *armv8_pmuv3_caps_attrs[] = {
+       &dev_attr_slots.attr,
+       NULL,
+};
+
+static struct attribute_group armv8_pmuv3_caps_attr_group = {
+       .name = "caps",
+       .attrs = armv8_pmuv3_caps_attrs,
+};
+
 /*
  * Perf Events' indices
  */
 #define        ARMV8_IDX_CYCLE_COUNTER 0
 #define        ARMV8_IDX_COUNTER0      1
-#define        ARMV8_IDX_COUNTER_LAST(cpu_pmu) \
-       (ARMV8_IDX_CYCLE_COUNTER + cpu_pmu->num_events - 1)
 
 
 /*
@@ -348,6 +371,73 @@ static inline bool armv8pmu_event_is_chained(struct perf_event *event)
 #define        ARMV8_IDX_TO_COUNTER(x) \
        (((x) - ARMV8_IDX_COUNTER0) & ARMV8_PMU_COUNTER_MASK)
 
+/*
+ * This code is really good
+ */
+
+#define PMEVN_CASE(n, case_macro) \
+       case n: case_macro(n); break
+
+#define PMEVN_SWITCH(x, case_macro)                            \
+       do {                                                    \
+               switch (x) {                                    \
+               PMEVN_CASE(0,  case_macro);                     \
+               PMEVN_CASE(1,  case_macro);                     \
+               PMEVN_CASE(2,  case_macro);                     \
+               PMEVN_CASE(3,  case_macro);                     \
+               PMEVN_CASE(4,  case_macro);                     \
+               PMEVN_CASE(5,  case_macro);                     \
+               PMEVN_CASE(6,  case_macro);                     \
+               PMEVN_CASE(7,  case_macro);                     \
+               PMEVN_CASE(8,  case_macro);                     \
+               PMEVN_CASE(9,  case_macro);                     \
+               PMEVN_CASE(10, case_macro);                     \
+               PMEVN_CASE(11, case_macro);                     \
+               PMEVN_CASE(12, case_macro);                     \
+               PMEVN_CASE(13, case_macro);                     \
+               PMEVN_CASE(14, case_macro);                     \
+               PMEVN_CASE(15, case_macro);                     \
+               PMEVN_CASE(16, case_macro);                     \
+               PMEVN_CASE(17, case_macro);                     \
+               PMEVN_CASE(18, case_macro);                     \
+               PMEVN_CASE(19, case_macro);                     \
+               PMEVN_CASE(20, case_macro);                     \
+               PMEVN_CASE(21, case_macro);                     \
+               PMEVN_CASE(22, case_macro);                     \
+               PMEVN_CASE(23, case_macro);                     \
+               PMEVN_CASE(24, case_macro);                     \
+               PMEVN_CASE(25, case_macro);                     \
+               PMEVN_CASE(26, case_macro);                     \
+               PMEVN_CASE(27, case_macro);                     \
+               PMEVN_CASE(28, case_macro);                     \
+               PMEVN_CASE(29, case_macro);                     \
+               PMEVN_CASE(30, case_macro);                     \
+               default: WARN(1, "Invalid PMEV* index\n");      \
+               }                                               \
+       } while (0)
+
+#define RETURN_READ_PMEVCNTRN(n) \
+       return read_sysreg(pmevcntr##n##_el0)
+static unsigned long read_pmevcntrn(int n)
+{
+       PMEVN_SWITCH(n, RETURN_READ_PMEVCNTRN);
+       return 0;
+}
+
+#define WRITE_PMEVCNTRN(n) \
+       write_sysreg(val, pmevcntr##n##_el0)
+static void write_pmevcntrn(int n, unsigned long val)
+{
+       PMEVN_SWITCH(n, WRITE_PMEVCNTRN);
+}
+
+#define WRITE_PMEVTYPERN(n) \
+       write_sysreg(val, pmevtyper##n##_el0)
+static void write_pmevtypern(int n, unsigned long val)
+{
+       PMEVN_SWITCH(n, WRITE_PMEVTYPERN);
+}
+
 static inline u32 armv8pmu_pmcr_read(void)
 {
        return read_sysreg(pmcr_el0);
@@ -365,28 +455,16 @@ static inline int armv8pmu_has_overflowed(u32 pmovsr)
        return pmovsr & ARMV8_PMU_OVERFLOWED_MASK;
 }
 
-static inline int armv8pmu_counter_valid(struct arm_pmu *cpu_pmu, int idx)
-{
-       return idx >= ARMV8_IDX_CYCLE_COUNTER &&
-               idx <= ARMV8_IDX_COUNTER_LAST(cpu_pmu);
-}
-
 static inline int armv8pmu_counter_has_overflowed(u32 pmnc, int idx)
 {
        return pmnc & BIT(ARMV8_IDX_TO_COUNTER(idx));
 }
 
-static inline void armv8pmu_select_counter(int idx)
+static inline u32 armv8pmu_read_evcntr(int idx)
 {
        u32 counter = ARMV8_IDX_TO_COUNTER(idx);
-       write_sysreg(counter, pmselr_el0);
-       isb();
-}
 
-static inline u64 armv8pmu_read_evcntr(int idx)
-{
-       armv8pmu_select_counter(idx);
-       return read_sysreg(pmxevcntr_el0);
+       return read_pmevcntrn(counter);
 }
 
 static inline u64 armv8pmu_read_hw_counter(struct perf_event *event)
@@ -440,15 +518,11 @@ static u64 armv8pmu_unbias_long_counter(struct perf_event *event, u64 value)
 
 static u64 armv8pmu_read_counter(struct perf_event *event)
 {
-       struct arm_pmu *cpu_pmu = to_arm_pmu(event->pmu);
        struct hw_perf_event *hwc = &event->hw;
        int idx = hwc->idx;
        u64 value = 0;
 
-       if (!armv8pmu_counter_valid(cpu_pmu, idx))
-               pr_err("CPU%u reading wrong counter %d\n",
-                       smp_processor_id(), idx);
-       else if (idx == ARMV8_IDX_CYCLE_COUNTER)
+       if (idx == ARMV8_IDX_CYCLE_COUNTER)
                value = read_sysreg(pmccntr_el0);
        else
                value = armv8pmu_read_hw_counter(event);
@@ -458,8 +532,9 @@ static u64 armv8pmu_read_counter(struct perf_event *event)
 
 static inline void armv8pmu_write_evcntr(int idx, u64 value)
 {
-       armv8pmu_select_counter(idx);
-       write_sysreg(value, pmxevcntr_el0);
+       u32 counter = ARMV8_IDX_TO_COUNTER(idx);
+
+       write_pmevcntrn(counter, value);
 }
 
 static inline void armv8pmu_write_hw_counter(struct perf_event *event,
@@ -477,16 +552,12 @@ static inline void armv8pmu_write_hw_counter(struct perf_event *event,
 
 static void armv8pmu_write_counter(struct perf_event *event, u64 value)
 {
-       struct arm_pmu *cpu_pmu = to_arm_pmu(event->pmu);
        struct hw_perf_event *hwc = &event->hw;
        int idx = hwc->idx;
 
        value = armv8pmu_bias_long_counter(event, value);
 
-       if (!armv8pmu_counter_valid(cpu_pmu, idx))
-               pr_err("CPU%u writing wrong counter %d\n",
-                       smp_processor_id(), idx);
-       else if (idx == ARMV8_IDX_CYCLE_COUNTER)
+       if (idx == ARMV8_IDX_CYCLE_COUNTER)
                write_sysreg(value, pmccntr_el0);
        else
                armv8pmu_write_hw_counter(event, value);
@@ -494,9 +565,10 @@ static void armv8pmu_write_counter(struct perf_event *event, u64 value)
 
 static inline void armv8pmu_write_evtype(int idx, u32 val)
 {
-       armv8pmu_select_counter(idx);
+       u32 counter = ARMV8_IDX_TO_COUNTER(idx);
+
        val &= ARMV8_PMU_EVTYPE_MASK;
-       write_sysreg(val, pmxevtyper_el0);
+       write_pmevtypern(counter, val);
 }
 
 static inline void armv8pmu_write_event_type(struct perf_event *event)
@@ -516,7 +588,10 @@ static inline void armv8pmu_write_event_type(struct perf_event *event)
                armv8pmu_write_evtype(idx - 1, hwc->config_base);
                armv8pmu_write_evtype(idx, chain_evt);
        } else {
-               armv8pmu_write_evtype(idx, hwc->config_base);
+               if (idx == ARMV8_IDX_CYCLE_COUNTER)
+                       write_sysreg(hwc->config_base, pmccfiltr_el0);
+               else
+                       armv8pmu_write_evtype(idx, hwc->config_base);
        }
 }
 
@@ -532,6 +607,11 @@ static u32 armv8pmu_event_cnten_mask(struct perf_event *event)
 
 static inline void armv8pmu_enable_counter(u32 mask)
 {
+       /*
+        * Make sure event configuration register writes are visible before we
+        * enable the counter.
+        * */
+       isb();
        write_sysreg(mask, pmcntenset_el0);
 }
 
@@ -550,6 +630,11 @@ static inline void armv8pmu_enable_event_counter(struct perf_event *event)
 static inline void armv8pmu_disable_counter(u32 mask)
 {
        write_sysreg(mask, pmcntenclr_el0);
+       /*
+        * Make sure the effects of disabling the counter are visible before we
+        * start configuring the event.
+        */
+       isb();
 }
 
 static inline void armv8pmu_disable_event_counter(struct perf_event *event)
@@ -606,15 +691,10 @@ static inline u32 armv8pmu_getreset_flags(void)
 
 static void armv8pmu_enable_event(struct perf_event *event)
 {
-       unsigned long flags;
-       struct arm_pmu *cpu_pmu = to_arm_pmu(event->pmu);
-       struct pmu_hw_events *events = this_cpu_ptr(cpu_pmu->hw_events);
-
        /*
         * Enable counter and interrupt, and set the counter to count
         * the event that we're interested in.
         */
-       raw_spin_lock_irqsave(&events->pmu_lock, flags);
 
        /*
         * Disable counter
@@ -622,7 +702,7 @@ static void armv8pmu_enable_event(struct perf_event *event)
        armv8pmu_disable_event_counter(event);
 
        /*
-        * Set event (if destined for PMNx counters).
+        * Set event.
         */
        armv8pmu_write_event_type(event);
 
@@ -635,21 +715,10 @@ static void armv8pmu_enable_event(struct perf_event *event)
         * Enable counter
         */
        armv8pmu_enable_event_counter(event);
-
-       raw_spin_unlock_irqrestore(&events->pmu_lock, flags);
 }
 
 static void armv8pmu_disable_event(struct perf_event *event)
 {
-       unsigned long flags;
-       struct arm_pmu *cpu_pmu = to_arm_pmu(event->pmu);
-       struct pmu_hw_events *events = this_cpu_ptr(cpu_pmu->hw_events);
-
-       /*
-        * Disable counter and interrupt
-        */
-       raw_spin_lock_irqsave(&events->pmu_lock, flags);
-
        /*
         * Disable counter
         */
@@ -659,30 +728,18 @@ static void armv8pmu_disable_event(struct perf_event *event)
         * Disable interrupt for this counter
         */
        armv8pmu_disable_event_irq(event);
-
-       raw_spin_unlock_irqrestore(&events->pmu_lock, flags);
 }
 
 static void armv8pmu_start(struct arm_pmu *cpu_pmu)
 {
-       unsigned long flags;
-       struct pmu_hw_events *events = this_cpu_ptr(cpu_pmu->hw_events);
-
-       raw_spin_lock_irqsave(&events->pmu_lock, flags);
        /* Enable all counters */
        armv8pmu_pmcr_write(armv8pmu_pmcr_read() | ARMV8_PMU_PMCR_E);
-       raw_spin_unlock_irqrestore(&events->pmu_lock, flags);
 }
 
 static void armv8pmu_stop(struct arm_pmu *cpu_pmu)
 {
-       unsigned long flags;
-       struct pmu_hw_events *events = this_cpu_ptr(cpu_pmu->hw_events);
-
-       raw_spin_lock_irqsave(&events->pmu_lock, flags);
        /* Disable all counters */
        armv8pmu_pmcr_write(armv8pmu_pmcr_read() & ~ARMV8_PMU_PMCR_E);
-       raw_spin_unlock_irqrestore(&events->pmu_lock, flags);
 }
 
 static irqreturn_t armv8pmu_handle_irq(struct arm_pmu *cpu_pmu)
@@ -735,20 +792,16 @@ static irqreturn_t armv8pmu_handle_irq(struct arm_pmu *cpu_pmu)
                if (!armpmu_event_set_period(event))
                        continue;
 
+               /*
+                * Perf event overflow will queue the processing of the event as
+                * an irq_work which will be taken care of in the handling of
+                * IPI_IRQ_WORK.
+                */
                if (perf_event_overflow(event, &data, regs))
                        cpu_pmu->disable(event);
        }
        armv8pmu_start(cpu_pmu);
 
-       /*
-        * Handle the pending perf events.
-        *
-        * Note: this call *must* be run with interrupts disabled. For
-        * platforms that can have the PMU interrupts raised as an NMI, this
-        * will not work.
-        */
-       irq_work_run();
-
        return IRQ_HANDLED;
 }
 
@@ -997,6 +1050,12 @@ static void __armv8pmu_probe_pmu(void *info)
 
        bitmap_from_arr32(cpu_pmu->pmceid_ext_bitmap,
                             pmceid, ARMV8_PMUV3_MAX_COMMON_EVENTS);
+
+       /* store PMMIR_EL1 register for sysfs */
+       if (pmuver >= ID_AA64DFR0_PMUVER_8_4 && (pmceid_raw[1] & BIT(31)))
+               cpu_pmu->reg_pmmir = read_cpuid(PMMIR_EL1);
+       else
+               cpu_pmu->reg_pmmir = 0;
 }
 
 static int armv8pmu_probe_pmu(struct arm_pmu *cpu_pmu)
@@ -1019,7 +1078,8 @@ static int armv8pmu_probe_pmu(struct arm_pmu *cpu_pmu)
 static int armv8_pmu_init(struct arm_pmu *cpu_pmu, char *name,
                          int (*map_event)(struct perf_event *event),
                          const struct attribute_group *events,
-                         const struct attribute_group *format)
+                         const struct attribute_group *format,
+                         const struct attribute_group *caps)
 {
        int ret = armv8pmu_probe_pmu(cpu_pmu);
        if (ret)
@@ -1044,104 +1104,112 @@ static int armv8_pmu_init(struct arm_pmu *cpu_pmu, char *name,
                        events : &armv8_pmuv3_events_attr_group;
        cpu_pmu->attr_groups[ARMPMU_ATTR_GROUP_FORMATS] = format ?
                        format : &armv8_pmuv3_format_attr_group;
+       cpu_pmu->attr_groups[ARMPMU_ATTR_GROUP_CAPS] = caps ?
+                       caps : &armv8_pmuv3_caps_attr_group;
 
        return 0;
 }
 
+static int armv8_pmu_init_nogroups(struct arm_pmu *cpu_pmu, char *name,
+                                  int (*map_event)(struct perf_event *event))
+{
+       return armv8_pmu_init(cpu_pmu, name, map_event, NULL, NULL, NULL);
+}
+
 static int armv8_pmuv3_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_pmuv3",
-                             armv8_pmuv3_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_pmuv3",
+                                      armv8_pmuv3_map_event);
 }
 
 static int armv8_a34_pmu_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_cortex_a34",
-                             armv8_pmuv3_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_cortex_a34",
+                                      armv8_pmuv3_map_event);
 }
 
 static int armv8_a35_pmu_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_cortex_a35",
-                             armv8_a53_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_cortex_a35",
+                                      armv8_a53_map_event);
 }
 
 static int armv8_a53_pmu_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_cortex_a53",
-                             armv8_a53_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_cortex_a53",
+                                      armv8_a53_map_event);
 }
 
 static int armv8_a55_pmu_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_cortex_a55",
-                             armv8_pmuv3_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_cortex_a55",
+                                      armv8_pmuv3_map_event);
 }
 
 static int armv8_a57_pmu_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_cortex_a57",
-                             armv8_a57_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_cortex_a57",
+                                      armv8_a57_map_event);
 }
 
 static int armv8_a65_pmu_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_cortex_a65",
-                             armv8_pmuv3_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_cortex_a65",
+                                      armv8_pmuv3_map_event);
 }
 
 static int armv8_a72_pmu_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_cortex_a72",
-                             armv8_a57_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_cortex_a72",
+                                      armv8_a57_map_event);
 }
 
 static int armv8_a73_pmu_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_cortex_a73",
-                             armv8_a73_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_cortex_a73",
+                                      armv8_a73_map_event);
 }
 
 static int armv8_a75_pmu_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_cortex_a75",
-                             armv8_pmuv3_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_cortex_a75",
+                                      armv8_pmuv3_map_event);
 }
 
 static int armv8_a76_pmu_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_cortex_a76",
-                             armv8_pmuv3_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_cortex_a76",
+                                      armv8_pmuv3_map_event);
 }
 
 static int armv8_a77_pmu_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_cortex_a77",
-                             armv8_pmuv3_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_cortex_a77",
+                                      armv8_pmuv3_map_event);
 }
 
 static int armv8_e1_pmu_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_neoverse_e1",
-                             armv8_pmuv3_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_neoverse_e1",
+                                      armv8_pmuv3_map_event);
 }
 
 static int armv8_n1_pmu_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_neoverse_n1",
-                             armv8_pmuv3_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_neoverse_n1",
+                                      armv8_pmuv3_map_event);
 }
 
 static int armv8_thunder_pmu_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_cavium_thunder",
-                             armv8_thunder_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_cavium_thunder",
+                                      armv8_thunder_map_event);
 }
 
 static int armv8_vulcan_pmu_init(struct arm_pmu *cpu_pmu)
 {
-       return armv8_pmu_init(cpu_pmu, "armv8_brcm_vulcan",
-                             armv8_vulcan_map_event, NULL, NULL);
+       return armv8_pmu_init_nogroups(cpu_pmu, "armv8_brcm_vulcan",
+                                      armv8_vulcan_map_event);
 }
 
 static const struct of_device_id armv8_pmu_of_device_ids[] = {
index 666b225..94e8718 100644 (file)
@@ -16,7 +16,7 @@ u64 perf_reg_value(struct pt_regs *regs, int idx)
 
        /*
         * Our handling of compat tasks (PERF_SAMPLE_REGS_ABI_32) is weird, but
-        * we're stuck with it for ABI compatability reasons.
+        * we're stuck with it for ABI compatibility reasons.
         *
         * For a 32-bit consumer inspecting a 32-bit task, then it will look at
         * the first 16 registers (see arch/arm/include/uapi/asm/perf_regs.h).
index 263d5fb..104101f 100644 (file)
@@ -29,7 +29,8 @@ static bool __kprobes aarch64_insn_is_steppable(u32 insn)
                    aarch64_insn_is_msr_imm(insn) ||
                    aarch64_insn_is_msr_reg(insn) ||
                    aarch64_insn_is_exception(insn) ||
-                   aarch64_insn_is_eret(insn))
+                   aarch64_insn_is_eret(insn) ||
+                   aarch64_insn_is_eret_auth(insn))
                        return false;
 
                /*
@@ -42,8 +43,10 @@ static bool __kprobes aarch64_insn_is_steppable(u32 insn)
                             != AARCH64_INSN_SPCLREG_DAIF;
 
                /*
-                * The HINT instruction is is problematic when single-stepping,
-                * except for the NOP case.
+                * The HINT instruction is steppable only if it is in whitelist
+                * and the rest of other such instructions are blocked for
+                * single stepping as they may cause exception or other
+                * unintended behaviour.
                 */
                if (aarch64_insn_is_hint(insn))
                        return aarch64_insn_is_steppable_hint(insn);
index 5290f17..deba738 100644 (file)
@@ -464,87 +464,15 @@ int __init arch_populate_kprobe_blacklist(void)
 
 void __kprobes __used *trampoline_probe_handler(struct pt_regs *regs)
 {
-       struct kretprobe_instance *ri = NULL;
-       struct hlist_head *head, empty_rp;
-       struct hlist_node *tmp;
-       unsigned long flags, orig_ret_address = 0;
-       unsigned long trampoline_address =
-               (unsigned long)&kretprobe_trampoline;
-       kprobe_opcode_t *correct_ret_addr = NULL;
-
-       INIT_HLIST_HEAD(&empty_rp);
-       kretprobe_hash_lock(current, &head, &flags);
-
-       /*
-        * It is possible to have multiple instances associated with a given
-        * task either because multiple functions in the call path have
-        * return probes installed on them, and/or more than one
-        * return probe was registered for a target function.
-        *
-        * We can handle this because:
-        *     - instances are always pushed into the head of the list
-        *     - when multiple return probes are registered for the same
-        *       function, the (chronologically) first instance's ret_addr
-        *       will be the real return address, and all the rest will
-        *       point to kretprobe_trampoline.
-        */
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       kretprobe_assert(ri, orig_ret_address, trampoline_address);
-
-       correct_ret_addr = ri->ret_addr;
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-               if (ri->rp && ri->rp->handler) {
-                       __this_cpu_write(current_kprobe, &ri->rp->kp);
-                       get_kprobe_ctlblk()->kprobe_status = KPROBE_HIT_ACTIVE;
-                       ri->ret_addr = correct_ret_addr;
-                       ri->rp->handler(ri, regs);
-                       __this_cpu_write(current_kprobe, NULL);
-               }
-
-               recycle_rp_inst(ri, &empty_rp);
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       kretprobe_hash_unlock(current, &flags);
-
-       hlist_for_each_entry_safe(ri, tmp, &empty_rp, hlist) {
-               hlist_del(&ri->hlist);
-               kfree(ri);
-       }
-       return (void *)orig_ret_address;
+       return (void *)kretprobe_trampoline_handler(regs, &kretprobe_trampoline,
+                                       (void *)kernel_stack_pointer(regs));
 }
 
 void __kprobes arch_prepare_kretprobe(struct kretprobe_instance *ri,
                                      struct pt_regs *regs)
 {
        ri->ret_addr = (kprobe_opcode_t *)regs->regs[30];
+       ri->fp = (void *)kernel_stack_pointer(regs);
 
        /* replace return addr (x30) with trampoline */
        regs->regs[30] = (long)&kretprobe_trampoline;
index f180449..4784011 100644 (file)
@@ -21,6 +21,7 @@
 #include <linux/lockdep.h>
 #include <linux/mman.h>
 #include <linux/mm.h>
+#include <linux/nospec.h>
 #include <linux/stddef.h>
 #include <linux/sysctl.h>
 #include <linux/unistd.h>
@@ -52,6 +53,7 @@
 #include <asm/exec.h>
 #include <asm/fpsimd.h>
 #include <asm/mmu_context.h>
+#include <asm/mte.h>
 #include <asm/processor.h>
 #include <asm/pointer_auth.h>
 #include <asm/stacktrace.h>
@@ -239,7 +241,7 @@ static void print_pstate(struct pt_regs *regs)
                const char *btype_str = btypes[(pstate & PSR_BTYPE_MASK) >>
                                               PSR_BTYPE_SHIFT];
 
-               printk("pstate: %08llx (%c%c%c%c %c%c%c%c %cPAN %cUAO BTYPE=%s)\n",
+               printk("pstate: %08llx (%c%c%c%c %c%c%c%c %cPAN %cUAO %cTCO BTYPE=%s)\n",
                        pstate,
                        pstate & PSR_N_BIT ? 'N' : 'n',
                        pstate & PSR_Z_BIT ? 'Z' : 'z',
@@ -251,6 +253,7 @@ static void print_pstate(struct pt_regs *regs)
                        pstate & PSR_F_BIT ? 'F' : 'f',
                        pstate & PSR_PAN_BIT ? '+' : '-',
                        pstate & PSR_UAO_BIT ? '+' : '-',
+                       pstate & PSR_TCO_BIT ? '+' : '-',
                        btype_str);
        }
 }
@@ -336,6 +339,7 @@ void flush_thread(void)
        tls_thread_flush();
        flush_ptrace_hw_breakpoint(current);
        flush_tagged_addr_state();
+       flush_mte_state();
 }
 
 void release_thread(struct task_struct *dead_task)
@@ -368,6 +372,9 @@ int arch_dup_task_struct(struct task_struct *dst, struct task_struct *src)
        dst->thread.sve_state = NULL;
        clear_tsk_thread_flag(dst, TIF_SVE);
 
+       /* clear any pending asynchronous tag fault raised by the parent */
+       clear_tsk_thread_flag(dst, TIF_MTE_ASYNC_FAULT);
+
        return 0;
 }
 
@@ -421,8 +428,7 @@ int copy_thread(unsigned long clone_flags, unsigned long stack_start,
                    cpus_have_const_cap(ARM64_HAS_UAO))
                        childregs->pstate |= PSR_UAO_BIT;
 
-               if (arm64_get_ssbd_state() == ARM64_SSBD_FORCE_DISABLE)
-                       set_ssbs_bit(childregs);
+               spectre_v4_enable_task_mitigation(p);
 
                if (system_uses_irq_prio_masking())
                        childregs->pmr_save = GIC_PRIO_IRQON;
@@ -472,8 +478,6 @@ void uao_thread_switch(struct task_struct *next)
  */
 static void ssbs_thread_switch(struct task_struct *next)
 {
-       struct pt_regs *regs = task_pt_regs(next);
-
        /*
         * Nothing to do for kernel threads, but 'regs' may be junk
         * (e.g. idle task) so check the flags and bail early.
@@ -485,18 +489,10 @@ static void ssbs_thread_switch(struct task_struct *next)
         * If all CPUs implement the SSBS extension, then we just need to
         * context-switch the PSTATE field.
         */
-       if (cpu_have_feature(cpu_feature(SSBS)))
+       if (cpus_have_const_cap(ARM64_SSBS))
                return;
 
-       /* If the mitigation is enabled, then we leave SSBS clear. */
-       if ((arm64_get_ssbd_state() == ARM64_SSBD_FORCE_ENABLE) ||
-           test_tsk_thread_flag(next, TIF_SSBD))
-               return;
-
-       if (compat_user_mode(regs))
-               set_compat_ssbs_bit(regs);
-       else if (user_mode(regs))
-               set_ssbs_bit(regs);
+       spectre_v4_enable_task_mitigation(next);
 }
 
 /*
@@ -571,6 +567,13 @@ __notrace_funcgraph struct task_struct *__switch_to(struct task_struct *prev,
         */
        dsb(ish);
 
+       /*
+        * MTE thread switching must happen after the DSB above to ensure that
+        * any asynchronous tag check faults have been logged in the TFSR*_EL1
+        * registers.
+        */
+       mte_thread_switch(next);
+
        /* the actual thread switch */
        last = cpu_switch_to(prev, next);
 
@@ -620,6 +623,11 @@ void arch_setup_new_exec(void)
        current->mm->context.flags = is_compat_task() ? MMCF_AARCH32 : 0;
 
        ptrauth_thread_init_user(current);
+
+       if (task_spec_ssb_noexec(current)) {
+               arch_prctl_spec_ctrl_set(current, PR_SPEC_STORE_BYPASS,
+                                        PR_SPEC_ENABLE);
+       }
 }
 
 #ifdef CONFIG_ARM64_TAGGED_ADDR_ABI
@@ -628,11 +636,18 @@ void arch_setup_new_exec(void)
  */
 static unsigned int tagged_addr_disabled;
 
-long set_tagged_addr_ctrl(unsigned long arg)
+long set_tagged_addr_ctrl(struct task_struct *task, unsigned long arg)
 {
-       if (is_compat_task())
+       unsigned long valid_mask = PR_TAGGED_ADDR_ENABLE;
+       struct thread_info *ti = task_thread_info(task);
+
+       if (is_compat_thread(ti))
                return -EINVAL;
-       if (arg & ~PR_TAGGED_ADDR_ENABLE)
+
+       if (system_supports_mte())
+               valid_mask |= PR_MTE_TCF_MASK | PR_MTE_TAG_MASK;
+
+       if (arg & ~valid_mask)
                return -EINVAL;
 
        /*
@@ -642,20 +657,28 @@ long set_tagged_addr_ctrl(unsigned long arg)
        if (arg & PR_TAGGED_ADDR_ENABLE && tagged_addr_disabled)
                return -EINVAL;
 
-       update_thread_flag(TIF_TAGGED_ADDR, arg & PR_TAGGED_ADDR_ENABLE);
+       if (set_mte_ctrl(task, arg) != 0)
+               return -EINVAL;
+
+       update_ti_thread_flag(ti, TIF_TAGGED_ADDR, arg & PR_TAGGED_ADDR_ENABLE);
 
        return 0;
 }
 
-long get_tagged_addr_ctrl(void)
+long get_tagged_addr_ctrl(struct task_struct *task)
 {
-       if (is_compat_task())
+       long ret = 0;
+       struct thread_info *ti = task_thread_info(task);
+
+       if (is_compat_thread(ti))
                return -EINVAL;
 
-       if (test_thread_flag(TIF_TAGGED_ADDR))
-               return PR_TAGGED_ADDR_ENABLE;
+       if (test_ti_thread_flag(ti, TIF_TAGGED_ADDR))
+               ret = PR_TAGGED_ADDR_ENABLE;
 
-       return 0;
+       ret |= get_mte_ctrl(task);
+
+       return ret;
 }
 
 /*
diff --git a/arch/arm64/kernel/proton-pack.c b/arch/arm64/kernel/proton-pack.c
new file mode 100644 (file)
index 0000000..68b710f
--- /dev/null
@@ -0,0 +1,792 @@
+// SPDX-License-Identifier: GPL-2.0-only
+/*
+ * Handle detection, reporting and mitigation of Spectre v1, v2 and v4, as
+ * detailed at:
+ *
+ *   https://developer.arm.com/support/arm-security-updates/speculative-processor-vulnerability
+ *
+ * This code was originally written hastily under an awful lot of stress and so
+ * aspects of it are somewhat hacky. Unfortunately, changing anything in here
+ * instantly makes me feel ill. Thanks, Jann. Thann.
+ *
+ * Copyright (C) 2018 ARM Ltd, All Rights Reserved.
+ * Copyright (C) 2020 Google LLC
+ *
+ * "If there's something strange in your neighbourhood, who you gonna call?"
+ *
+ * Authors: Will Deacon <will@kernel.org> and Marc Zyngier <maz@kernel.org>
+ */
+
+#include <linux/arm-smccc.h>
+#include <linux/cpu.h>
+#include <linux/device.h>
+#include <linux/nospec.h>
+#include <linux/prctl.h>
+#include <linux/sched/task_stack.h>
+
+#include <asm/spectre.h>
+#include <asm/traps.h>
+
+/*
+ * We try to ensure that the mitigation state can never change as the result of
+ * onlining a late CPU.
+ */
+static void update_mitigation_state(enum mitigation_state *oldp,
+                                   enum mitigation_state new)
+{
+       enum mitigation_state state;
+
+       do {
+               state = READ_ONCE(*oldp);
+               if (new <= state)
+                       break;
+
+               /* Userspace almost certainly can't deal with this. */
+               if (WARN_ON(system_capabilities_finalized()))
+                       break;
+       } while (cmpxchg_relaxed(oldp, state, new) != state);
+}
+
+/*
+ * Spectre v1.
+ *
+ * The kernel can't protect userspace for this one: it's each person for
+ * themselves. Advertise what we're doing and be done with it.
+ */
+ssize_t cpu_show_spectre_v1(struct device *dev, struct device_attribute *attr,
+                           char *buf)
+{
+       return sprintf(buf, "Mitigation: __user pointer sanitization\n");
+}
+
+/*
+ * Spectre v2.
+ *
+ * This one sucks. A CPU is either:
+ *
+ * - Mitigated in hardware and advertised by ID_AA64PFR0_EL1.CSV2.
+ * - Mitigated in hardware and listed in our "safe list".
+ * - Mitigated in software by firmware.
+ * - Mitigated in software by a CPU-specific dance in the kernel.
+ * - Vulnerable.
+ *
+ * It's not unlikely for different CPUs in a big.LITTLE system to fall into
+ * different camps.
+ */
+static enum mitigation_state spectre_v2_state;
+
+static bool __read_mostly __nospectre_v2;
+static int __init parse_spectre_v2_param(char *str)
+{
+       __nospectre_v2 = true;
+       return 0;
+}
+early_param("nospectre_v2", parse_spectre_v2_param);
+
+static bool spectre_v2_mitigations_off(void)
+{
+       bool ret = __nospectre_v2 || cpu_mitigations_off();
+
+       if (ret)
+               pr_info_once("spectre-v2 mitigation disabled by command line option\n");
+
+       return ret;
+}
+
+ssize_t cpu_show_spectre_v2(struct device *dev, struct device_attribute *attr,
+                           char *buf)
+{
+       switch (spectre_v2_state) {
+       case SPECTRE_UNAFFECTED:
+               return sprintf(buf, "Not affected\n");
+       case SPECTRE_MITIGATED:
+               return sprintf(buf, "Mitigation: Branch predictor hardening\n");
+       case SPECTRE_VULNERABLE:
+               fallthrough;
+       default:
+               return sprintf(buf, "Vulnerable\n");
+       }
+}
+
+static enum mitigation_state spectre_v2_get_cpu_hw_mitigation_state(void)
+{
+       u64 pfr0;
+       static const struct midr_range spectre_v2_safe_list[] = {
+               MIDR_ALL_VERSIONS(MIDR_CORTEX_A35),
+               MIDR_ALL_VERSIONS(MIDR_CORTEX_A53),
+               MIDR_ALL_VERSIONS(MIDR_CORTEX_A55),
+               MIDR_ALL_VERSIONS(MIDR_BRAHMA_B53),
+               MIDR_ALL_VERSIONS(MIDR_HISI_TSV110),
+               MIDR_ALL_VERSIONS(MIDR_QCOM_KRYO_3XX_SILVER),
+               MIDR_ALL_VERSIONS(MIDR_QCOM_KRYO_4XX_SILVER),
+               { /* sentinel */ }
+       };
+
+       /* If the CPU has CSV2 set, we're safe */
+       pfr0 = read_cpuid(ID_AA64PFR0_EL1);
+       if (cpuid_feature_extract_unsigned_field(pfr0, ID_AA64PFR0_CSV2_SHIFT))
+               return SPECTRE_UNAFFECTED;
+
+       /* Alternatively, we have a list of unaffected CPUs */
+       if (is_midr_in_range_list(read_cpuid_id(), spectre_v2_safe_list))
+               return SPECTRE_UNAFFECTED;
+
+       return SPECTRE_VULNERABLE;
+}
+
+#define SMCCC_ARCH_WORKAROUND_RET_UNAFFECTED   (1)
+
+static enum mitigation_state spectre_v2_get_cpu_fw_mitigation_state(void)
+{
+       int ret;
+       struct arm_smccc_res res;
+
+       arm_smccc_1_1_invoke(ARM_SMCCC_ARCH_FEATURES_FUNC_ID,
+                            ARM_SMCCC_ARCH_WORKAROUND_1, &res);
+
+       ret = res.a0;
+       switch (ret) {
+       case SMCCC_RET_SUCCESS:
+               return SPECTRE_MITIGATED;
+       case SMCCC_ARCH_WORKAROUND_RET_UNAFFECTED:
+               return SPECTRE_UNAFFECTED;
+       default:
+               fallthrough;
+       case SMCCC_RET_NOT_SUPPORTED:
+               return SPECTRE_VULNERABLE;
+       }
+}
+
+bool has_spectre_v2(const struct arm64_cpu_capabilities *entry, int scope)
+{
+       WARN_ON(scope != SCOPE_LOCAL_CPU || preemptible());
+
+       if (spectre_v2_get_cpu_hw_mitigation_state() == SPECTRE_UNAFFECTED)
+               return false;
+
+       if (spectre_v2_get_cpu_fw_mitigation_state() == SPECTRE_UNAFFECTED)
+               return false;
+
+       return true;
+}
+
+DEFINE_PER_CPU_READ_MOSTLY(struct bp_hardening_data, bp_hardening_data);
+
+enum mitigation_state arm64_get_spectre_v2_state(void)
+{
+       return spectre_v2_state;
+}
+
+#ifdef CONFIG_KVM
+#include <asm/cacheflush.h>
+#include <asm/kvm_asm.h>
+
+atomic_t arm64_el2_vector_last_slot = ATOMIC_INIT(-1);
+
+static void __copy_hyp_vect_bpi(int slot, const char *hyp_vecs_start,
+                               const char *hyp_vecs_end)
+{
+       void *dst = lm_alias(__bp_harden_hyp_vecs + slot * SZ_2K);
+       int i;
+
+       for (i = 0; i < SZ_2K; i += 0x80)
+               memcpy(dst + i, hyp_vecs_start, hyp_vecs_end - hyp_vecs_start);
+
+       __flush_icache_range((uintptr_t)dst, (uintptr_t)dst + SZ_2K);
+}
+
+static void install_bp_hardening_cb(bp_hardening_cb_t fn)
+{
+       static DEFINE_RAW_SPINLOCK(bp_lock);
+       int cpu, slot = -1;
+       const char *hyp_vecs_start = __smccc_workaround_1_smc;
+       const char *hyp_vecs_end = __smccc_workaround_1_smc +
+                                  __SMCCC_WORKAROUND_1_SMC_SZ;
+
+       /*
+        * detect_harden_bp_fw() passes NULL for the hyp_vecs start/end if
+        * we're a guest. Skip the hyp-vectors work.
+        */
+       if (!is_hyp_mode_available()) {
+               __this_cpu_write(bp_hardening_data.fn, fn);
+               return;
+       }
+
+       raw_spin_lock(&bp_lock);
+       for_each_possible_cpu(cpu) {
+               if (per_cpu(bp_hardening_data.fn, cpu) == fn) {
+                       slot = per_cpu(bp_hardening_data.hyp_vectors_slot, cpu);
+                       break;
+               }
+       }
+
+       if (slot == -1) {
+               slot = atomic_inc_return(&arm64_el2_vector_last_slot);
+               BUG_ON(slot >= BP_HARDEN_EL2_SLOTS);
+               __copy_hyp_vect_bpi(slot, hyp_vecs_start, hyp_vecs_end);
+       }
+
+       __this_cpu_write(bp_hardening_data.hyp_vectors_slot, slot);
+       __this_cpu_write(bp_hardening_data.fn, fn);
+       raw_spin_unlock(&bp_lock);
+}
+#else
+static void install_bp_hardening_cb(bp_hardening_cb_t fn)
+{
+       __this_cpu_write(bp_hardening_data.fn, fn);
+}
+#endif /* CONFIG_KVM */
+
+static void call_smc_arch_workaround_1(void)
+{
+       arm_smccc_1_1_smc(ARM_SMCCC_ARCH_WORKAROUND_1, NULL);
+}
+
+static void call_hvc_arch_workaround_1(void)
+{
+       arm_smccc_1_1_hvc(ARM_SMCCC_ARCH_WORKAROUND_1, NULL);
+}
+
+static void qcom_link_stack_sanitisation(void)
+{
+       u64 tmp;
+
+       asm volatile("mov       %0, x30         \n"
+                    ".rept     16              \n"
+                    "bl        . + 4           \n"
+                    ".endr                     \n"
+                    "mov       x30, %0         \n"
+                    : "=&r" (tmp));
+}
+
+static enum mitigation_state spectre_v2_enable_fw_mitigation(void)
+{
+       bp_hardening_cb_t cb;
+       enum mitigation_state state;
+
+       state = spectre_v2_get_cpu_fw_mitigation_state();
+       if (state != SPECTRE_MITIGATED)
+               return state;
+
+       if (spectre_v2_mitigations_off())
+               return SPECTRE_VULNERABLE;
+
+       switch (arm_smccc_1_1_get_conduit()) {
+       case SMCCC_CONDUIT_HVC:
+               cb = call_hvc_arch_workaround_1;
+               break;
+
+       case SMCCC_CONDUIT_SMC:
+               cb = call_smc_arch_workaround_1;
+               break;
+
+       default:
+               return SPECTRE_VULNERABLE;
+       }
+
+       install_bp_hardening_cb(cb);
+       return SPECTRE_MITIGATED;
+}
+
+static enum mitigation_state spectre_v2_enable_sw_mitigation(void)
+{
+       u32 midr;
+
+       if (spectre_v2_mitigations_off())
+               return SPECTRE_VULNERABLE;
+
+       midr = read_cpuid_id();
+       if (((midr & MIDR_CPU_MODEL_MASK) != MIDR_QCOM_FALKOR) &&
+           ((midr & MIDR_CPU_MODEL_MASK) != MIDR_QCOM_FALKOR_V1))
+               return SPECTRE_VULNERABLE;
+
+       install_bp_hardening_cb(qcom_link_stack_sanitisation);
+       return SPECTRE_MITIGATED;
+}
+
+void spectre_v2_enable_mitigation(const struct arm64_cpu_capabilities *__unused)
+{
+       enum mitigation_state state;
+
+       WARN_ON(preemptible());
+
+       state = spectre_v2_get_cpu_hw_mitigation_state();
+       if (state == SPECTRE_VULNERABLE)
+               state = spectre_v2_enable_fw_mitigation();
+       if (state == SPECTRE_VULNERABLE)
+               state = spectre_v2_enable_sw_mitigation();
+
+       update_mitigation_state(&spectre_v2_state, state);
+}
+
+/*
+ * Spectre v4.
+ *
+ * If you thought Spectre v2 was nasty, wait until you see this mess. A CPU is
+ * either:
+ *
+ * - Mitigated in hardware and listed in our "safe list".
+ * - Mitigated in hardware via PSTATE.SSBS.
+ * - Mitigated in software by firmware (sometimes referred to as SSBD).
+ *
+ * Wait, that doesn't sound so bad, does it? Keep reading...
+ *
+ * A major source of headaches is that the software mitigation is enabled both
+ * on a per-task basis, but can also be forced on for the kernel, necessitating
+ * both context-switch *and* entry/exit hooks. To make it even worse, some CPUs
+ * allow EL0 to toggle SSBS directly, which can end up with the prctl() state
+ * being stale when re-entering the kernel. The usual big.LITTLE caveats apply,
+ * so you can have systems that have both firmware and SSBS mitigations. This
+ * means we actually have to reject late onlining of CPUs with mitigations if
+ * all of the currently onlined CPUs are safelisted, as the mitigation tends to
+ * be opt-in for userspace. Yes, really, the cure is worse than the disease.
+ *
+ * The only good part is that if the firmware mitigation is present, then it is
+ * present for all CPUs, meaning we don't have to worry about late onlining of a
+ * vulnerable CPU if one of the boot CPUs is using the firmware mitigation.
+ *
+ * Give me a VAX-11/780 any day of the week...
+ */
+static enum mitigation_state spectre_v4_state;
+
+/* This is the per-cpu state tracking whether we need to talk to firmware */
+DEFINE_PER_CPU_READ_MOSTLY(u64, arm64_ssbd_callback_required);
+
+enum spectre_v4_policy {
+       SPECTRE_V4_POLICY_MITIGATION_DYNAMIC,
+       SPECTRE_V4_POLICY_MITIGATION_ENABLED,
+       SPECTRE_V4_POLICY_MITIGATION_DISABLED,
+};
+
+static enum spectre_v4_policy __read_mostly __spectre_v4_policy;
+
+static const struct spectre_v4_param {
+       const char              *str;
+       enum spectre_v4_policy  policy;
+} spectre_v4_params[] = {
+       { "force-on",   SPECTRE_V4_POLICY_MITIGATION_ENABLED, },
+       { "force-off",  SPECTRE_V4_POLICY_MITIGATION_DISABLED, },
+       { "kernel",     SPECTRE_V4_POLICY_MITIGATION_DYNAMIC, },
+};
+static int __init parse_spectre_v4_param(char *str)
+{
+       int i;
+
+       if (!str || !str[0])
+               return -EINVAL;
+
+       for (i = 0; i < ARRAY_SIZE(spectre_v4_params); i++) {
+               const struct spectre_v4_param *param = &spectre_v4_params[i];
+
+               if (strncmp(str, param->str, strlen(param->str)))
+                       continue;
+
+               __spectre_v4_policy = param->policy;
+               return 0;
+       }
+
+       return -EINVAL;
+}
+early_param("ssbd", parse_spectre_v4_param);
+
+/*
+ * Because this was all written in a rush by people working in different silos,
+ * we've ended up with multiple command line options to control the same thing.
+ * Wrap these up in some helpers, which prefer disabling the mitigation if faced
+ * with contradictory parameters. The mitigation is always either "off",
+ * "dynamic" or "on".
+ */
+static bool spectre_v4_mitigations_off(void)
+{
+       bool ret = cpu_mitigations_off() ||
+                  __spectre_v4_policy == SPECTRE_V4_POLICY_MITIGATION_DISABLED;
+
+       if (ret)
+               pr_info_once("spectre-v4 mitigation disabled by command-line option\n");
+
+       return ret;
+}
+
+/* Do we need to toggle the mitigation state on entry to/exit from the kernel? */
+static bool spectre_v4_mitigations_dynamic(void)
+{
+       return !spectre_v4_mitigations_off() &&
+              __spectre_v4_policy == SPECTRE_V4_POLICY_MITIGATION_DYNAMIC;
+}
+
+static bool spectre_v4_mitigations_on(void)
+{
+       return !spectre_v4_mitigations_off() &&
+              __spectre_v4_policy == SPECTRE_V4_POLICY_MITIGATION_ENABLED;
+}
+
+ssize_t cpu_show_spec_store_bypass(struct device *dev,
+                                  struct device_attribute *attr, char *buf)
+{
+       switch (spectre_v4_state) {
+       case SPECTRE_UNAFFECTED:
+               return sprintf(buf, "Not affected\n");
+       case SPECTRE_MITIGATED:
+               return sprintf(buf, "Mitigation: Speculative Store Bypass disabled via prctl\n");
+       case SPECTRE_VULNERABLE:
+               fallthrough;
+       default:
+               return sprintf(buf, "Vulnerable\n");
+       }
+}
+
+enum mitigation_state arm64_get_spectre_v4_state(void)
+{
+       return spectre_v4_state;
+}
+
+static enum mitigation_state spectre_v4_get_cpu_hw_mitigation_state(void)
+{
+       static const struct midr_range spectre_v4_safe_list[] = {
+               MIDR_ALL_VERSIONS(MIDR_CORTEX_A35),
+               MIDR_ALL_VERSIONS(MIDR_CORTEX_A53),
+               MIDR_ALL_VERSIONS(MIDR_CORTEX_A55),
+               MIDR_ALL_VERSIONS(MIDR_BRAHMA_B53),
+               MIDR_ALL_VERSIONS(MIDR_QCOM_KRYO_3XX_SILVER),
+               MIDR_ALL_VERSIONS(MIDR_QCOM_KRYO_4XX_SILVER),
+               { /* sentinel */ },
+       };
+
+       if (is_midr_in_range_list(read_cpuid_id(), spectre_v4_safe_list))
+               return SPECTRE_UNAFFECTED;
+
+       /* CPU features are detected first */
+       if (this_cpu_has_cap(ARM64_SSBS))
+               return SPECTRE_MITIGATED;
+
+       return SPECTRE_VULNERABLE;
+}
+
+static enum mitigation_state spectre_v4_get_cpu_fw_mitigation_state(void)
+{
+       int ret;
+       struct arm_smccc_res res;
+
+       arm_smccc_1_1_invoke(ARM_SMCCC_ARCH_FEATURES_FUNC_ID,
+                            ARM_SMCCC_ARCH_WORKAROUND_2, &res);
+
+       ret = res.a0;
+       switch (ret) {
+       case SMCCC_RET_SUCCESS:
+               return SPECTRE_MITIGATED;
+       case SMCCC_ARCH_WORKAROUND_RET_UNAFFECTED:
+               fallthrough;
+       case SMCCC_RET_NOT_REQUIRED:
+               return SPECTRE_UNAFFECTED;
+       default:
+               fallthrough;
+       case SMCCC_RET_NOT_SUPPORTED:
+               return SPECTRE_VULNERABLE;
+       }
+}
+
+bool has_spectre_v4(const struct arm64_cpu_capabilities *cap, int scope)
+{
+       enum mitigation_state state;
+
+       WARN_ON(scope != SCOPE_LOCAL_CPU || preemptible());
+
+       state = spectre_v4_get_cpu_hw_mitigation_state();
+       if (state == SPECTRE_VULNERABLE)
+               state = spectre_v4_get_cpu_fw_mitigation_state();
+
+       return state != SPECTRE_UNAFFECTED;
+}
+
+static int ssbs_emulation_handler(struct pt_regs *regs, u32 instr)
+{
+       if (user_mode(regs))
+               return 1;
+
+       if (instr & BIT(PSTATE_Imm_shift))
+               regs->pstate |= PSR_SSBS_BIT;
+       else
+               regs->pstate &= ~PSR_SSBS_BIT;
+
+       arm64_skip_faulting_instruction(regs, 4);
+       return 0;
+}
+
+static struct undef_hook ssbs_emulation_hook = {
+       .instr_mask     = ~(1U << PSTATE_Imm_shift),
+       .instr_val      = 0xd500401f | PSTATE_SSBS,
+       .fn             = ssbs_emulation_handler,
+};
+
+static enum mitigation_state spectre_v4_enable_hw_mitigation(void)
+{
+       static bool undef_hook_registered = false;
+       static DEFINE_RAW_SPINLOCK(hook_lock);
+       enum mitigation_state state;
+
+       /*
+        * If the system is mitigated but this CPU doesn't have SSBS, then
+        * we must be on the safelist and there's nothing more to do.
+        */
+       state = spectre_v4_get_cpu_hw_mitigation_state();
+       if (state != SPECTRE_MITIGATED || !this_cpu_has_cap(ARM64_SSBS))
+               return state;
+
+       raw_spin_lock(&hook_lock);
+       if (!undef_hook_registered) {
+               register_undef_hook(&ssbs_emulation_hook);
+               undef_hook_registered = true;
+       }
+       raw_spin_unlock(&hook_lock);
+
+       if (spectre_v4_mitigations_off()) {
+               sysreg_clear_set(sctlr_el1, 0, SCTLR_ELx_DSSBS);
+               asm volatile(SET_PSTATE_SSBS(1));
+               return SPECTRE_VULNERABLE;
+       }
+
+       /* SCTLR_EL1.DSSBS was initialised to 0 during boot */
+       asm volatile(SET_PSTATE_SSBS(0));
+       return SPECTRE_MITIGATED;
+}
+
+/*
+ * Patch a branch over the Spectre-v4 mitigation code with a NOP so that
+ * we fallthrough and check whether firmware needs to be called on this CPU.
+ */
+void __init spectre_v4_patch_fw_mitigation_enable(struct alt_instr *alt,
+                                                 __le32 *origptr,
+                                                 __le32 *updptr, int nr_inst)
+{
+       BUG_ON(nr_inst != 1); /* Branch -> NOP */
+
+       if (spectre_v4_mitigations_off())
+               return;
+
+       if (cpus_have_final_cap(ARM64_SSBS))
+               return;
+
+       if (spectre_v4_mitigations_dynamic())
+               *updptr = cpu_to_le32(aarch64_insn_gen_nop());
+}
+
+/*
+ * Patch a NOP in the Spectre-v4 mitigation code with an SMC/HVC instruction
+ * to call into firmware to adjust the mitigation state.
+ */
+void __init spectre_v4_patch_fw_mitigation_conduit(struct alt_instr *alt,
+                                                  __le32 *origptr,
+                                                  __le32 *updptr, int nr_inst)
+{
+       u32 insn;
+
+       BUG_ON(nr_inst != 1); /* NOP -> HVC/SMC */
+
+       switch (arm_smccc_1_1_get_conduit()) {
+       case SMCCC_CONDUIT_HVC:
+               insn = aarch64_insn_get_hvc_value();
+               break;
+       case SMCCC_CONDUIT_SMC:
+               insn = aarch64_insn_get_smc_value();
+               break;
+       default:
+               return;
+       }
+
+       *updptr = cpu_to_le32(insn);
+}
+
+static enum mitigation_state spectre_v4_enable_fw_mitigation(void)
+{
+       enum mitigation_state state;
+
+       state = spectre_v4_get_cpu_fw_mitigation_state();
+       if (state != SPECTRE_MITIGATED)
+               return state;
+
+       if (spectre_v4_mitigations_off()) {
+               arm_smccc_1_1_invoke(ARM_SMCCC_ARCH_WORKAROUND_2, false, NULL);
+               return SPECTRE_VULNERABLE;
+       }
+
+       arm_smccc_1_1_invoke(ARM_SMCCC_ARCH_WORKAROUND_2, true, NULL);
+
+       if (spectre_v4_mitigations_dynamic())
+               __this_cpu_write(arm64_ssbd_callback_required, 1);
+
+       return SPECTRE_MITIGATED;
+}
+
+void spectre_v4_enable_mitigation(const struct arm64_cpu_capabilities *__unused)
+{
+       enum mitigation_state state;
+
+       WARN_ON(preemptible());
+
+       state = spectre_v4_enable_hw_mitigation();
+       if (state == SPECTRE_VULNERABLE)
+               state = spectre_v4_enable_fw_mitigation();
+
+       update_mitigation_state(&spectre_v4_state, state);
+}
+
+static void __update_pstate_ssbs(struct pt_regs *regs, bool state)
+{
+       u64 bit = compat_user_mode(regs) ? PSR_AA32_SSBS_BIT : PSR_SSBS_BIT;
+
+       if (state)
+               regs->pstate |= bit;
+       else
+               regs->pstate &= ~bit;
+}
+
+void spectre_v4_enable_task_mitigation(struct task_struct *tsk)
+{
+       struct pt_regs *regs = task_pt_regs(tsk);
+       bool ssbs = false, kthread = tsk->flags & PF_KTHREAD;
+
+       if (spectre_v4_mitigations_off())
+               ssbs = true;
+       else if (spectre_v4_mitigations_dynamic() && !kthread)
+               ssbs = !test_tsk_thread_flag(tsk, TIF_SSBD);
+
+       __update_pstate_ssbs(regs, ssbs);
+}
+
+/*
+ * The Spectre-v4 mitigation can be controlled via a prctl() from userspace.
+ * This is interesting because the "speculation disabled" behaviour can be
+ * configured so that it is preserved across exec(), which means that the
+ * prctl() may be necessary even when PSTATE.SSBS can be toggled directly
+ * from userspace.
+ */
+static void ssbd_prctl_enable_mitigation(struct task_struct *task)
+{
+       task_clear_spec_ssb_noexec(task);
+       task_set_spec_ssb_disable(task);
+       set_tsk_thread_flag(task, TIF_SSBD);
+}
+
+static void ssbd_prctl_disable_mitigation(struct task_struct *task)
+{
+       task_clear_spec_ssb_noexec(task);
+       task_clear_spec_ssb_disable(task);
+       clear_tsk_thread_flag(task, TIF_SSBD);
+}
+
+static int ssbd_prctl_set(struct task_struct *task, unsigned long ctrl)
+{
+       switch (ctrl) {
+       case PR_SPEC_ENABLE:
+               /* Enable speculation: disable mitigation */
+               /*
+                * Force disabled speculation prevents it from being
+                * re-enabled.
+                */
+               if (task_spec_ssb_force_disable(task))
+                       return -EPERM;
+
+               /*
+                * If the mitigation is forced on, then speculation is forced
+                * off and we again prevent it from being re-enabled.
+                */
+               if (spectre_v4_mitigations_on())
+                       return -EPERM;
+
+               ssbd_prctl_disable_mitigation(task);
+               break;
+       case PR_SPEC_FORCE_DISABLE:
+               /* Force disable speculation: force enable mitigation */
+               /*
+                * If the mitigation is forced off, then speculation is forced
+                * on and we prevent it from being disabled.
+                */
+               if (spectre_v4_mitigations_off())
+                       return -EPERM;
+
+               task_set_spec_ssb_force_disable(task);
+               fallthrough;
+       case PR_SPEC_DISABLE:
+               /* Disable speculation: enable mitigation */
+               /* Same as PR_SPEC_FORCE_DISABLE */
+               if (spectre_v4_mitigations_off())
+                       return -EPERM;
+
+               ssbd_prctl_enable_mitigation(task);
+               break;
+       case PR_SPEC_DISABLE_NOEXEC:
+               /* Disable speculation until execve(): enable mitigation */
+               /*
+                * If the mitigation state is forced one way or the other, then
+                * we must fail now before we try to toggle it on execve().
+                */
+               if (task_spec_ssb_force_disable(task) ||
+                   spectre_v4_mitigations_off() ||
+                   spectre_v4_mitigations_on()) {
+                       return -EPERM;
+               }
+
+               ssbd_prctl_enable_mitigation(task);
+               task_set_spec_ssb_noexec(task);
+               break;
+       default:
+               return -ERANGE;
+       }
+
+       spectre_v4_enable_task_mitigation(task);
+       return 0;
+}
+
+int arch_prctl_spec_ctrl_set(struct task_struct *task, unsigned long which,
+                            unsigned long ctrl)
+{
+       switch (which) {
+       case PR_SPEC_STORE_BYPASS:
+               return ssbd_prctl_set(task, ctrl);
+       default:
+               return -ENODEV;
+       }
+}
+
+static int ssbd_prctl_get(struct task_struct *task)
+{
+       switch (spectre_v4_state) {
+       case SPECTRE_UNAFFECTED:
+               return PR_SPEC_NOT_AFFECTED;
+       case SPECTRE_MITIGATED:
+               if (spectre_v4_mitigations_on())
+                       return PR_SPEC_NOT_AFFECTED;
+
+               if (spectre_v4_mitigations_dynamic())
+                       break;
+
+               /* Mitigations are disabled, so we're vulnerable. */
+               fallthrough;
+       case SPECTRE_VULNERABLE:
+               fallthrough;
+       default:
+               return PR_SPEC_ENABLE;
+       }
+
+       /* Check the mitigation state for this task */
+       if (task_spec_ssb_force_disable(task))
+               return PR_SPEC_PRCTL | PR_SPEC_FORCE_DISABLE;
+
+       if (task_spec_ssb_noexec(task))
+               return PR_SPEC_PRCTL | PR_SPEC_DISABLE_NOEXEC;
+
+       if (task_spec_ssb_disable(task))
+               return PR_SPEC_PRCTL | PR_SPEC_DISABLE;
+
+       return PR_SPEC_PRCTL | PR_SPEC_ENABLE;
+}
+
+int arch_prctl_spec_ctrl_get(struct task_struct *task, unsigned long which)
+{
+       switch (which) {
+       case PR_SPEC_STORE_BYPASS:
+               return ssbd_prctl_get(task);
+       default:
+               return -ENODEV;
+       }
+}
index d8ebfd8..f49b349 100644 (file)
@@ -34,6 +34,7 @@
 #include <asm/cpufeature.h>
 #include <asm/debug-monitors.h>
 #include <asm/fpsimd.h>
+#include <asm/mte.h>
 #include <asm/pointer_auth.h>
 #include <asm/stacktrace.h>
 #include <asm/syscall.h>
@@ -1032,6 +1033,35 @@ static int pac_generic_keys_set(struct task_struct *target,
 #endif /* CONFIG_CHECKPOINT_RESTORE */
 #endif /* CONFIG_ARM64_PTR_AUTH */
 
+#ifdef CONFIG_ARM64_TAGGED_ADDR_ABI
+static int tagged_addr_ctrl_get(struct task_struct *target,
+                               const struct user_regset *regset,
+                               struct membuf to)
+{
+       long ctrl = get_tagged_addr_ctrl(target);
+
+       if (IS_ERR_VALUE(ctrl))
+               return ctrl;
+
+       return membuf_write(&to, &ctrl, sizeof(ctrl));
+}
+
+static int tagged_addr_ctrl_set(struct task_struct *target, const struct
+                               user_regset *regset, unsigned int pos,
+                               unsigned int count, const void *kbuf, const
+                               void __user *ubuf)
+{
+       int ret;
+       long ctrl;
+
+       ret = user_regset_copyin(&pos, &count, &kbuf, &ubuf, &ctrl, 0, -1);
+       if (ret)
+               return ret;
+
+       return set_tagged_addr_ctrl(target, ctrl);
+}
+#endif
+
 enum aarch64_regset {
        REGSET_GPR,
        REGSET_FPR,
@@ -1051,6 +1081,9 @@ enum aarch64_regset {
        REGSET_PACG_KEYS,
 #endif
 #endif
+#ifdef CONFIG_ARM64_TAGGED_ADDR_ABI
+       REGSET_TAGGED_ADDR_CTRL,
+#endif
 };
 
 static const struct user_regset aarch64_regsets[] = {
@@ -1148,6 +1181,16 @@ static const struct user_regset aarch64_regsets[] = {
        },
 #endif
 #endif
+#ifdef CONFIG_ARM64_TAGGED_ADDR_ABI
+       [REGSET_TAGGED_ADDR_CTRL] = {
+               .core_note_type = NT_ARM_TAGGED_ADDR_CTRL,
+               .n = 1,
+               .size = sizeof(long),
+               .align = sizeof(long),
+               .regset_get = tagged_addr_ctrl_get,
+               .set = tagged_addr_ctrl_set,
+       },
+#endif
 };
 
 static const struct user_regset_view user_aarch64_view = {
@@ -1691,6 +1734,12 @@ const struct user_regset_view *task_user_regset_view(struct task_struct *task)
 long arch_ptrace(struct task_struct *child, long request,
                 unsigned long addr, unsigned long data)
 {
+       switch (request) {
+       case PTRACE_PEEKMTETAGS:
+       case PTRACE_POKEMTETAGS:
+               return mte_ptrace_copy_tags(child, request, addr, data);
+       }
+
        return ptrace_request(child, request, addr, data);
 }
 
@@ -1793,7 +1842,7 @@ void syscall_trace_exit(struct pt_regs *regs)
  * We also reserve IL for the kernel; SS is handled dynamically.
  */
 #define SPSR_EL1_AARCH64_RES0_BITS \
-       (GENMASK_ULL(63, 32) | GENMASK_ULL(27, 25) | GENMASK_ULL(23, 22) | \
+       (GENMASK_ULL(63, 32) | GENMASK_ULL(27, 26) | GENMASK_ULL(23, 22) | \
         GENMASK_ULL(20, 13) | GENMASK_ULL(5, 5))
 #define SPSR_EL1_AARCH32_RES0_BITS \
        (GENMASK_ULL(63, 32) | GENMASK_ULL(22, 22) | GENMASK_ULL(20, 20))
index 542d6ed..84eec95 100644 (file)
@@ -36,18 +36,6 @@ SYM_CODE_START(arm64_relocate_new_kernel)
        mov     x14, xzr                        /* x14 = entry ptr */
        mov     x13, xzr                        /* x13 = copy dest */
 
-       /* Clear the sctlr_el2 flags. */
-       mrs     x0, CurrentEL
-       cmp     x0, #CurrentEL_EL2
-       b.ne    1f
-       mrs     x0, sctlr_el2
-       mov_q   x1, SCTLR_ELx_FLAGS
-       bic     x0, x0, x1
-       pre_disable_mmu_workaround
-       msr     sctlr_el2, x0
-       isb
-1:
-
        /* Check if the new image needs relocation. */
        tbnz    x16, IND_DONE_BIT, .Ldone
 
index a5e8b3b..a6d1875 100644 (file)
@@ -18,16 +18,16 @@ struct return_address_data {
        void *addr;
 };
 
-static int save_return_addr(struct stackframe *frame, void *d)
+static bool save_return_addr(void *d, unsigned long pc)
 {
        struct return_address_data *data = d;
 
        if (!data->level) {
-               data->addr = (void *)frame->pc;
-               return 1;
+               data->addr = (void *)pc;
+               return false;
        } else {
                --data->level;
-               return 0;
+               return true;
        }
 }
 NOKPROBE_SYMBOL(save_return_addr);
index 3b4f31f..bdcaaf0 100644 (file)
@@ -244,7 +244,8 @@ static int preserve_sve_context(struct sve_context __user *ctx)
        if (vq) {
                /*
                 * This assumes that the SVE state has already been saved to
-                * the task struct by calling preserve_fpsimd_context().
+                * the task struct by calling the function
+                * fpsimd_signal_preserve_current_state().
                 */
                err |= __copy_to_user((char __user *)ctx + SVE_SIG_REGS_OFFSET,
                                      current->thread.sve_state,
@@ -748,6 +749,9 @@ static void setup_return(struct pt_regs *regs, struct k_sigaction *ka,
                regs->pstate |= PSR_BTYPE_C;
        }
 
+       /* TCO (Tag Check Override) always cleared for signal handlers */
+       regs->pstate &= ~PSR_TCO_BIT;
+
        if (ka->sa.sa_flags & SA_RESTORER)
                sigtramp = ka->sa.sa_restorer;
        else
@@ -932,6 +936,12 @@ asmlinkage void do_notify_resume(struct pt_regs *regs,
                        if (thread_flags & _TIF_UPROBE)
                                uprobe_notify_resume(regs);
 
+                       if (thread_flags & _TIF_MTE_ASYNC_FAULT) {
+                               clear_thread_flag(TIF_MTE_ASYNC_FAULT);
+                               send_sig_fault(SIGSEGV, SEGV_MTEAERR,
+                                              (void __user *)NULL, current);
+                       }
+
                        if (thread_flags & _TIF_SIGPENDING)
                                do_signal(regs);
 
index 1f93809..d624479 100644 (file)
@@ -9,7 +9,6 @@
 #include <asm/assembler.h>
 
        .macro SMCCC instr
-       .cfi_startproc
        \instr  #0
        ldr     x4, [sp]
        stp     x0, x1, [x4, #ARM_SMCCC_RES_X0_OFFS]
@@ -21,7 +20,6 @@
        b.ne    1f
        str     x6, [x4, ARM_SMCCC_QUIRK_STATE_OFFS]
 1:     ret
-       .cfi_endproc
        .endm
 
 /*
index 355ee9e..82e75fc 100644 (file)
@@ -30,6 +30,7 @@
 #include <linux/completion.h>
 #include <linux/of.h>
 #include <linux/irq_work.h>
+#include <linux/kernel_stat.h>
 #include <linux/kexec.h>
 #include <linux/kvm_host.h>
 
@@ -72,10 +73,18 @@ enum ipi_msg_type {
        IPI_CPU_CRASH_STOP,
        IPI_TIMER,
        IPI_IRQ_WORK,
-       IPI_WAKEUP
+       IPI_WAKEUP,
+       NR_IPI
 };
 
+static int ipi_irq_base __read_mostly;
+static int nr_ipi __read_mostly = NR_IPI;
+static struct irq_desc *ipi_desc[NR_IPI] __read_mostly;
+
+static void ipi_setup(int cpu);
+
 #ifdef CONFIG_HOTPLUG_CPU
+static void ipi_teardown(int cpu);
 static int op_cpu_kill(unsigned int cpu);
 #else
 static inline int op_cpu_kill(unsigned int cpu)
@@ -237,6 +246,8 @@ asmlinkage notrace void secondary_start_kernel(void)
         */
        notify_cpu_starting(cpu);
 
+       ipi_setup(cpu);
+
        store_cpu_topology(cpu);
        numa_add_cpu(cpu);
 
@@ -302,6 +313,7 @@ int __cpu_disable(void)
         * and we must not schedule until we're ready to give up the cpu.
         */
        set_cpu_online(cpu, false);
+       ipi_teardown(cpu);
 
        /*
         * OK - migrate IRQs away from this CPU
@@ -772,13 +784,6 @@ void __init smp_prepare_cpus(unsigned int max_cpus)
        }
 }
 
-void (*__smp_cross_call)(const struct cpumask *, unsigned int);
-
-void __init set_smp_cross_call(void (*fn)(const struct cpumask *, unsigned int))
-{
-       __smp_cross_call = fn;
-}
-
 static const char *ipi_types[NR_IPI] __tracepoint_string = {
 #define S(x,s) [x] = s
        S(IPI_RESCHEDULE, "Rescheduling interrupts"),
@@ -790,35 +795,25 @@ static const char *ipi_types[NR_IPI] __tracepoint_string = {
        S(IPI_WAKEUP, "CPU wake-up interrupts"),
 };
 
-static void smp_cross_call(const struct cpumask *target, unsigned int ipinr)
-{
-       trace_ipi_raise(target, ipi_types[ipinr]);
-       __smp_cross_call(target, ipinr);
-}
+static void smp_cross_call(const struct cpumask *target, unsigned int ipinr);
 
-void show_ipi_list(struct seq_file *p, int prec)
+unsigned long irq_err_count;
+
+int arch_show_interrupts(struct seq_file *p, int prec)
 {
        unsigned int cpu, i;
 
        for (i = 0; i < NR_IPI; i++) {
+               unsigned int irq = irq_desc_get_irq(ipi_desc[i]);
                seq_printf(p, "%*s%u:%s", prec - 1, "IPI", i,
                           prec >= 4 ? " " : "");
                for_each_online_cpu(cpu)
-                       seq_printf(p, "%10u ",
-                                  __get_irq_stat(cpu, ipi_irqs[i]));
+                       seq_printf(p, "%10u ", kstat_irqs_cpu(irq, cpu));
                seq_printf(p, "      %s\n", ipi_types[i]);
        }
-}
-
-u64 smp_irq_stat_cpu(unsigned int cpu)
-{
-       u64 sum = 0;
-       int i;
 
-       for (i = 0; i < NR_IPI; i++)
-               sum += __get_irq_stat(cpu, ipi_irqs[i]);
-
-       return sum;
+       seq_printf(p, "%*s: %10lu\n", prec, "Err", irq_err_count);
+       return 0;
 }
 
 void arch_send_call_function_ipi_mask(const struct cpumask *mask)
@@ -841,8 +836,7 @@ void arch_send_wakeup_ipi_mask(const struct cpumask *mask)
 #ifdef CONFIG_IRQ_WORK
 void arch_irq_work_raise(void)
 {
-       if (__smp_cross_call)
-               smp_cross_call(cpumask_of(smp_processor_id()), IPI_IRQ_WORK);
+       smp_cross_call(cpumask_of(smp_processor_id()), IPI_IRQ_WORK);
 }
 #endif
 
@@ -890,15 +884,12 @@ static void ipi_cpu_crash_stop(unsigned int cpu, struct pt_regs *regs)
 /*
  * Main handler for inter-processor interrupts
  */
-void handle_IPI(int ipinr, struct pt_regs *regs)
+static void do_handle_IPI(int ipinr)
 {
        unsigned int cpu = smp_processor_id();
-       struct pt_regs *old_regs = set_irq_regs(regs);
 
-       if ((unsigned)ipinr < NR_IPI) {
+       if ((unsigned)ipinr < NR_IPI)
                trace_ipi_entry_rcuidle(ipi_types[ipinr]);
-               __inc_irq_stat(cpu, ipi_irqs[ipinr]);
-       }
 
        switch (ipinr) {
        case IPI_RESCHEDULE:
@@ -906,21 +897,16 @@ void handle_IPI(int ipinr, struct pt_regs *regs)
                break;
 
        case IPI_CALL_FUNC:
-               irq_enter();
                generic_smp_call_function_interrupt();
-               irq_exit();
                break;
 
        case IPI_CPU_STOP:
-               irq_enter();
                local_cpu_stop();
-               irq_exit();
                break;
 
        case IPI_CPU_CRASH_STOP:
                if (IS_ENABLED(CONFIG_KEXEC_CORE)) {
-                       irq_enter();
-                       ipi_cpu_crash_stop(cpu, regs);
+                       ipi_cpu_crash_stop(cpu, get_irq_regs());
 
                        unreachable();
                }
@@ -928,17 +914,13 @@ void handle_IPI(int ipinr, struct pt_regs *regs)
 
 #ifdef CONFIG_GENERIC_CLOCKEVENTS_BROADCAST
        case IPI_TIMER:
-               irq_enter();
                tick_receive_broadcast();
-               irq_exit();
                break;
 #endif
 
 #ifdef CONFIG_IRQ_WORK
        case IPI_IRQ_WORK:
-               irq_enter();
                irq_work_run();
-               irq_exit();
                break;
 #endif
 
@@ -957,7 +939,66 @@ void handle_IPI(int ipinr, struct pt_regs *regs)
 
        if ((unsigned)ipinr < NR_IPI)
                trace_ipi_exit_rcuidle(ipi_types[ipinr]);
-       set_irq_regs(old_regs);
+}
+
+static irqreturn_t ipi_handler(int irq, void *data)
+{
+       do_handle_IPI(irq - ipi_irq_base);
+       return IRQ_HANDLED;
+}
+
+static void smp_cross_call(const struct cpumask *target, unsigned int ipinr)
+{
+       trace_ipi_raise(target, ipi_types[ipinr]);
+       __ipi_send_mask(ipi_desc[ipinr], target);
+}
+
+static void ipi_setup(int cpu)
+{
+       int i;
+
+       if (WARN_ON_ONCE(!ipi_irq_base))
+               return;
+
+       for (i = 0; i < nr_ipi; i++)
+               enable_percpu_irq(ipi_irq_base + i, 0);
+}
+
+#ifdef CONFIG_HOTPLUG_CPU
+static void ipi_teardown(int cpu)
+{
+       int i;
+
+       if (WARN_ON_ONCE(!ipi_irq_base))
+               return;
+
+       for (i = 0; i < nr_ipi; i++)
+               disable_percpu_irq(ipi_irq_base + i);
+}
+#endif
+
+void __init set_smp_ipi_range(int ipi_base, int n)
+{
+       int i;
+
+       WARN_ON(n < NR_IPI);
+       nr_ipi = min(n, NR_IPI);
+
+       for (i = 0; i < nr_ipi; i++) {
+               int err;
+
+               err = request_percpu_irq(ipi_base + i, ipi_handler,
+                                        "IPI", &cpu_number);
+               WARN_ON(err);
+
+               ipi_desc[i] = irq_to_desc(ipi_base + i);
+               irq_set_status_flags(ipi_base + i, IRQ_HIDDEN);
+       }
+
+       ipi_irq_base = ipi_base;
+
+       /* Setup the boot CPU immediately */
+       ipi_setup(smp_processor_id());
 }
 
 void smp_send_reschedule(int cpu)
index c8a3fee..5892e79 100644 (file)
@@ -83,9 +83,9 @@ static int smp_spin_table_cpu_prepare(unsigned int cpu)
 
        /*
         * We write the release address as LE regardless of the native
-        * endianess of the kernel. Therefore, any boot-loaders that
+        * endianness of the kernel. Therefore, any boot-loaders that
         * read this address need to convert this address to the
-        * boot-loader's endianess before jumping. This is mandated by
+        * boot-loader's endianness before jumping. This is mandated by
         * the boot protocol.
         */
        writeq_relaxed(__pa_symbol(secondary_holding_pen), release_addr);
diff --git a/arch/arm64/kernel/ssbd.c b/arch/arm64/kernel/ssbd.c
deleted file mode 100644 (file)
index b26955f..0000000
+++ /dev/null
@@ -1,129 +0,0 @@
-// SPDX-License-Identifier: GPL-2.0
-/*
- * Copyright (C) 2018 ARM Ltd, All Rights Reserved.
- */
-
-#include <linux/compat.h>
-#include <linux/errno.h>
-#include <linux/prctl.h>
-#include <linux/sched.h>
-#include <linux/sched/task_stack.h>
-#include <linux/thread_info.h>
-
-#include <asm/cpufeature.h>
-
-static void ssbd_ssbs_enable(struct task_struct *task)
-{
-       u64 val = is_compat_thread(task_thread_info(task)) ?
-                 PSR_AA32_SSBS_BIT : PSR_SSBS_BIT;
-
-       task_pt_regs(task)->pstate |= val;
-}
-
-static void ssbd_ssbs_disable(struct task_struct *task)
-{
-       u64 val = is_compat_thread(task_thread_info(task)) ?
-                 PSR_AA32_SSBS_BIT : PSR_SSBS_BIT;
-
-       task_pt_regs(task)->pstate &= ~val;
-}
-
-/*
- * prctl interface for SSBD
- */
-static int ssbd_prctl_set(struct task_struct *task, unsigned long ctrl)
-{
-       int state = arm64_get_ssbd_state();
-
-       /* Unsupported */
-       if (state == ARM64_SSBD_UNKNOWN)
-               return -ENODEV;
-
-       /* Treat the unaffected/mitigated state separately */
-       if (state == ARM64_SSBD_MITIGATED) {
-               switch (ctrl) {
-               case PR_SPEC_ENABLE:
-                       return -EPERM;
-               case PR_SPEC_DISABLE:
-               case PR_SPEC_FORCE_DISABLE:
-                       return 0;
-               }
-       }
-
-       /*
-        * Things are a bit backward here: the arm64 internal API
-        * *enables the mitigation* when the userspace API *disables
-        * speculation*. So much fun.
-        */
-       switch (ctrl) {
-       case PR_SPEC_ENABLE:
-               /* If speculation is force disabled, enable is not allowed */
-               if (state == ARM64_SSBD_FORCE_ENABLE ||
-                   task_spec_ssb_force_disable(task))
-                       return -EPERM;
-               task_clear_spec_ssb_disable(task);
-               clear_tsk_thread_flag(task, TIF_SSBD);
-               ssbd_ssbs_enable(task);
-               break;
-       case PR_SPEC_DISABLE:
-               if (state == ARM64_SSBD_FORCE_DISABLE)
-                       return -EPERM;
-               task_set_spec_ssb_disable(task);
-               set_tsk_thread_flag(task, TIF_SSBD);
-               ssbd_ssbs_disable(task);
-               break;
-       case PR_SPEC_FORCE_DISABLE:
-               if (state == ARM64_SSBD_FORCE_DISABLE)
-                       return -EPERM;
-               task_set_spec_ssb_disable(task);
-               task_set_spec_ssb_force_disable(task);
-               set_tsk_thread_flag(task, TIF_SSBD);
-               ssbd_ssbs_disable(task);
-               break;
-       default:
-               return -ERANGE;
-       }
-
-       return 0;
-}
-
-int arch_prctl_spec_ctrl_set(struct task_struct *task, unsigned long which,
-                            unsigned long ctrl)
-{
-       switch (which) {
-       case PR_SPEC_STORE_BYPASS:
-               return ssbd_prctl_set(task, ctrl);
-       default:
-               return -ENODEV;
-       }
-}
-
-static int ssbd_prctl_get(struct task_struct *task)
-{
-       switch (arm64_get_ssbd_state()) {
-       case ARM64_SSBD_UNKNOWN:
-               return -ENODEV;
-       case ARM64_SSBD_FORCE_ENABLE:
-               return PR_SPEC_DISABLE;
-       case ARM64_SSBD_KERNEL:
-               if (task_spec_ssb_force_disable(task))
-                       return PR_SPEC_PRCTL | PR_SPEC_FORCE_DISABLE;
-               if (task_spec_ssb_disable(task))
-                       return PR_SPEC_PRCTL | PR_SPEC_DISABLE;
-               return PR_SPEC_PRCTL | PR_SPEC_ENABLE;
-       case ARM64_SSBD_FORCE_DISABLE:
-               return PR_SPEC_ENABLE;
-       default:
-               return PR_SPEC_NOT_AFFECTED;
-       }
-}
-
-int arch_prctl_spec_ctrl_get(struct task_struct *task, unsigned long which)
-{
-       switch (which) {
-       case PR_SPEC_STORE_BYPASS:
-               return ssbd_prctl_get(task);
-       default:
-               return -ENODEV;
-       }
-}
index 2dd8e3b..fa56af1 100644 (file)
@@ -118,12 +118,12 @@ int notrace unwind_frame(struct task_struct *tsk, struct stackframe *frame)
 NOKPROBE_SYMBOL(unwind_frame);
 
 void notrace walk_stackframe(struct task_struct *tsk, struct stackframe *frame,
-                    int (*fn)(struct stackframe *, void *), void *data)
+                            bool (*fn)(void *, unsigned long), void *data)
 {
        while (1) {
                int ret;
 
-               if (fn(frame, data))
+               if (!fn(data, frame->pc))
                        break;
                ret = unwind_frame(tsk, frame);
                if (ret < 0)
@@ -132,84 +132,89 @@ void notrace walk_stackframe(struct task_struct *tsk, struct stackframe *frame,
 }
 NOKPROBE_SYMBOL(walk_stackframe);
 
-#ifdef CONFIG_STACKTRACE
-struct stack_trace_data {
-       struct stack_trace *trace;
-       unsigned int no_sched_functions;
-       unsigned int skip;
-};
-
-static int save_trace(struct stackframe *frame, void *d)
+static void dump_backtrace_entry(unsigned long where, const char *loglvl)
 {
-       struct stack_trace_data *data = d;
-       struct stack_trace *trace = data->trace;
-       unsigned long addr = frame->pc;
-
-       if (data->no_sched_functions && in_sched_functions(addr))
-               return 0;
-       if (data->skip) {
-               data->skip--;
-               return 0;
-       }
-
-       trace->entries[trace->nr_entries++] = addr;
-
-       return trace->nr_entries >= trace->max_entries;
+       printk("%s %pS\n", loglvl, (void *)where);
 }
 
-void save_stack_trace_regs(struct pt_regs *regs, struct stack_trace *trace)
+void dump_backtrace(struct pt_regs *regs, struct task_struct *tsk,
+                   const char *loglvl)
 {
-       struct stack_trace_data data;
        struct stackframe frame;
+       int skip = 0;
 
-       data.trace = trace;
-       data.skip = trace->skip;
-       data.no_sched_functions = 0;
+       pr_debug("%s(regs = %p tsk = %p)\n", __func__, regs, tsk);
 
-       start_backtrace(&frame, regs->regs[29], regs->pc);
-       walk_stackframe(current, &frame, save_trace, &data);
-}
-EXPORT_SYMBOL_GPL(save_stack_trace_regs);
+       if (regs) {
+               if (user_mode(regs))
+                       return;
+               skip = 1;
+       }
 
-static noinline void __save_stack_trace(struct task_struct *tsk,
-       struct stack_trace *trace, unsigned int nosched)
-{
-       struct stack_trace_data data;
-       struct stackframe frame;
+       if (!tsk)
+               tsk = current;
 
        if (!try_get_task_stack(tsk))
                return;
 
-       data.trace = trace;
-       data.skip = trace->skip;
-       data.no_sched_functions = nosched;
-
-       if (tsk != current) {
-               start_backtrace(&frame, thread_saved_fp(tsk),
-                               thread_saved_pc(tsk));
-       } else {
-               /* We don't want this function nor the caller */
-               data.skip += 2;
+       if (tsk == current) {
                start_backtrace(&frame,
                                (unsigned long)__builtin_frame_address(0),
-                               (unsigned long)__save_stack_trace);
+                               (unsigned long)dump_backtrace);
+       } else {
+               /*
+                * task blocked in __switch_to
+                */
+               start_backtrace(&frame,
+                               thread_saved_fp(tsk),
+                               thread_saved_pc(tsk));
        }
 
-       walk_stackframe(tsk, &frame, save_trace, &data);
+       printk("%sCall trace:\n", loglvl);
+       do {
+               /* skip until specified stack frame */
+               if (!skip) {
+                       dump_backtrace_entry(frame.pc, loglvl);
+               } else if (frame.fp == regs->regs[29]) {
+                       skip = 0;
+                       /*
+                        * Mostly, this is the case where this function is
+                        * called in panic/abort. As exception handler's
+                        * stack frame does not contain the corresponding pc
+                        * at which an exception has taken place, use regs->pc
+                        * instead.
+                        */
+                       dump_backtrace_entry(regs->pc, loglvl);
+               }
+       } while (!unwind_frame(tsk, &frame));
 
        put_task_stack(tsk);
 }
 
-void save_stack_trace_tsk(struct task_struct *tsk, struct stack_trace *trace)
+void show_stack(struct task_struct *tsk, unsigned long *sp, const char *loglvl)
 {
-       __save_stack_trace(tsk, trace, 1);
+       dump_backtrace(NULL, tsk, loglvl);
+       barrier();
 }
-EXPORT_SYMBOL_GPL(save_stack_trace_tsk);
 
-void save_stack_trace(struct stack_trace *trace)
+#ifdef CONFIG_STACKTRACE
+
+void arch_stack_walk(stack_trace_consume_fn consume_entry, void *cookie,
+                    struct task_struct *task, struct pt_regs *regs)
 {
-       __save_stack_trace(current, trace, 0);
+       struct stackframe frame;
+
+       if (regs)
+               start_backtrace(&frame, regs->regs[29], regs->pc);
+       else if (task == current)
+               start_backtrace(&frame,
+                               (unsigned long)__builtin_frame_address(0),
+                               (unsigned long)arch_stack_walk);
+       else
+               start_backtrace(&frame, thread_saved_fp(task),
+                               thread_saved_pc(task));
+
+       walk_stackframe(task, &frame, consume_entry, cookie);
 }
 
-EXPORT_SYMBOL_GPL(save_stack_trace);
 #endif
index c1dee90..96cd347 100644 (file)
@@ -10,6 +10,7 @@
 #include <asm/daifflags.h>
 #include <asm/debug-monitors.h>
 #include <asm/exec.h>
+#include <asm/mte.h>
 #include <asm/memory.h>
 #include <asm/mmu_context.h>
 #include <asm/smp_plat.h>
@@ -72,8 +73,10 @@ void notrace __cpu_suspend_exit(void)
         * have turned the mitigation on. If the user has forcefully
         * disabled it, make sure their wishes are obeyed.
         */
-       if (arm64_get_ssbd_state() == ARM64_SSBD_FORCE_DISABLE)
-               arm64_set_ssbd_mitigation(false);
+       spectre_v4_enable_mitigation(NULL);
+
+       /* Restore additional MTE-specific configuration */
+       mte_suspend_exit();
 }
 
 /*
index 5f0c048..e4c0dad 100644 (file)
@@ -123,6 +123,16 @@ static void el0_svc_common(struct pt_regs *regs, int scno, int sc_nr,
        local_daif_restore(DAIF_PROCCTX);
        user_exit();
 
+       if (system_supports_mte() && (flags & _TIF_MTE_ASYNC_FAULT)) {
+               /*
+                * Process the asynchronous tag check fault before the actual
+                * syscall. do_notify_resume() will send a signal to userspace
+                * before the syscall is restarted.
+                */
+               regs->regs[0] = -ERESTARTNOINTR;
+               return;
+       }
+
        if (has_syscall_work(flags)) {
                /*
                 * The de-facto standard way to skip a system call using ptrace
index 0801a0f..ff1dd1d 100644 (file)
@@ -36,21 +36,23 @@ void store_cpu_topology(unsigned int cpuid)
        if (mpidr & MPIDR_UP_BITMASK)
                return;
 
-       /* Create cpu topology mapping based on MPIDR. */
-       if (mpidr & MPIDR_MT_BITMASK) {
-               /* Multiprocessor system : Multi-threads per core */
-               cpuid_topo->thread_id  = MPIDR_AFFINITY_LEVEL(mpidr, 0);
-               cpuid_topo->core_id    = MPIDR_AFFINITY_LEVEL(mpidr, 1);
-               cpuid_topo->package_id = MPIDR_AFFINITY_LEVEL(mpidr, 2) |
-                                        MPIDR_AFFINITY_LEVEL(mpidr, 3) << 8;
-       } else {
-               /* Multiprocessor system : Single-thread per core */
-               cpuid_topo->thread_id  = -1;
-               cpuid_topo->core_id    = MPIDR_AFFINITY_LEVEL(mpidr, 0);
-               cpuid_topo->package_id = MPIDR_AFFINITY_LEVEL(mpidr, 1) |
-                                        MPIDR_AFFINITY_LEVEL(mpidr, 2) << 8 |
-                                        MPIDR_AFFINITY_LEVEL(mpidr, 3) << 16;
-       }
+       /*
+        * This would be the place to create cpu topology based on MPIDR.
+        *
+        * However, it cannot be trusted to depict the actual topology; some
+        * pieces of the architecture enforce an artificial cap on Aff0 values
+        * (e.g. GICv3's ICC_SGI1R_EL1 limits it to 15), leading to an
+        * artificial cycling of Aff1, Aff2 and Aff3 values. IOW, these end up
+        * having absolutely no relationship to the actual underlying system
+        * topology, and cannot be reasonably used as core / package ID.
+        *
+        * If the MT bit is set, Aff0 *could* be used to define a thread ID, but
+        * we still wouldn't be able to obtain a sane core ID. This means we
+        * need to entirely ignore MPIDR for any topology deduction.
+        */
+       cpuid_topo->thread_id  = -1;
+       cpuid_topo->core_id    = cpuid;
+       cpuid_topo->package_id = cpu_to_node(cpuid);
 
        pr_debug("CPU%u: cluster %d core %d thread %d mpidr %#016llx\n",
                 cpuid, cpuid_topo->package_id, cpuid_topo->core_id,
index 13ebd5c..8af4e0e 100644 (file)
@@ -34,6 +34,7 @@
 #include <asm/daifflags.h>
 #include <asm/debug-monitors.h>
 #include <asm/esr.h>
+#include <asm/extable.h>
 #include <asm/insn.h>
 #include <asm/kprobes.h>
 #include <asm/traps.h>
@@ -53,11 +54,6 @@ static const char *handler[]= {
 
 int show_unhandled_signals = 0;
 
-static void dump_backtrace_entry(unsigned long where, const char *loglvl)
-{
-       printk("%s %pS\n", loglvl, (void *)where);
-}
-
 static void dump_kernel_instr(const char *lvl, struct pt_regs *regs)
 {
        unsigned long addr = instruction_pointer(regs);
@@ -83,66 +79,6 @@ static void dump_kernel_instr(const char *lvl, struct pt_regs *regs)
        printk("%sCode: %s\n", lvl, str);
 }
 
-void dump_backtrace(struct pt_regs *regs, struct task_struct *tsk,
-                   const char *loglvl)
-{
-       struct stackframe frame;
-       int skip = 0;
-
-       pr_debug("%s(regs = %p tsk = %p)\n", __func__, regs, tsk);
-
-       if (regs) {
-               if (user_mode(regs))
-                       return;
-               skip = 1;
-       }
-
-       if (!tsk)
-               tsk = current;
-
-       if (!try_get_task_stack(tsk))
-               return;
-
-       if (tsk == current) {
-               start_backtrace(&frame,
-                               (unsigned long)__builtin_frame_address(0),
-                               (unsigned long)dump_backtrace);
-       } else {
-               /*
-                * task blocked in __switch_to
-                */
-               start_backtrace(&frame,
-                               thread_saved_fp(tsk),
-                               thread_saved_pc(tsk));
-       }
-
-       printk("%sCall trace:\n", loglvl);
-       do {
-               /* skip until specified stack frame */
-               if (!skip) {
-                       dump_backtrace_entry(frame.pc, loglvl);
-               } else if (frame.fp == regs->regs[29]) {
-                       skip = 0;
-                       /*
-                        * Mostly, this is the case where this function is
-                        * called in panic/abort. As exception handler's
-                        * stack frame does not contain the corresponding pc
-                        * at which an exception has taken place, use regs->pc
-                        * instead.
-                        */
-                       dump_backtrace_entry(regs->pc, loglvl);
-               }
-       } while (!unwind_frame(tsk, &frame));
-
-       put_task_stack(tsk);
-}
-
-void show_stack(struct task_struct *tsk, unsigned long *sp, const char *loglvl)
-{
-       dump_backtrace(NULL, tsk, loglvl);
-       barrier();
-}
-
 #ifdef CONFIG_PREEMPT
 #define S_PREEMPT " PREEMPT"
 #elif defined(CONFIG_PREEMPT_RT)
@@ -200,9 +136,9 @@ void die(const char *str, struct pt_regs *regs, int err)
        oops_exit();
 
        if (in_interrupt())
-               panic("Fatal exception in interrupt");
+               panic("%s: Fatal exception in interrupt", str);
        if (panic_on_oops)
-               panic("Fatal exception");
+               panic("%s: Fatal exception", str);
 
        raw_spin_unlock_irqrestore(&die_lock, flags);
 
@@ -412,7 +348,7 @@ exit:
        return fn ? fn(regs, instr) : 1;
 }
 
-void force_signal_inject(int signal, int code, unsigned long address)
+void force_signal_inject(int signal, int code, unsigned long address, unsigned int err)
 {
        const char *desc;
        struct pt_regs *regs = current_pt_regs();
@@ -438,7 +374,7 @@ void force_signal_inject(int signal, int code, unsigned long address)
                signal = SIGKILL;
        }
 
-       arm64_notify_die(desc, regs, signal, code, (void __user *)address, 0);
+       arm64_notify_die(desc, regs, signal, code, (void __user *)address, err);
 }
 
 /*
@@ -455,7 +391,7 @@ void arm64_notify_segfault(unsigned long addr)
                code = SEGV_ACCERR;
        mmap_read_unlock(current->mm);
 
-       force_signal_inject(SIGSEGV, code, addr);
+       force_signal_inject(SIGSEGV, code, addr, 0);
 }
 
 void do_undefinstr(struct pt_regs *regs)
@@ -468,17 +404,28 @@ void do_undefinstr(struct pt_regs *regs)
                return;
 
        BUG_ON(!user_mode(regs));
-       force_signal_inject(SIGILL, ILL_ILLOPC, regs->pc);
+       force_signal_inject(SIGILL, ILL_ILLOPC, regs->pc, 0);
 }
 NOKPROBE_SYMBOL(do_undefinstr);
 
 void do_bti(struct pt_regs *regs)
 {
        BUG_ON(!user_mode(regs));
-       force_signal_inject(SIGILL, ILL_ILLOPC, regs->pc);
+       force_signal_inject(SIGILL, ILL_ILLOPC, regs->pc, 0);
 }
 NOKPROBE_SYMBOL(do_bti);
 
+void do_ptrauth_fault(struct pt_regs *regs, unsigned int esr)
+{
+       /*
+        * Unexpected FPAC exception or pointer authentication failure in
+        * the kernel: kill the task before it does any more harm.
+        */
+       BUG_ON(!user_mode(regs));
+       force_signal_inject(SIGILL, ILL_ILLOPN, regs->pc, esr);
+}
+NOKPROBE_SYMBOL(do_ptrauth_fault);
+
 #define __user_cache_maint(insn, address, res)                 \
        if (address >= user_addr_max()) {                       \
                res = -EFAULT;                                  \
@@ -528,7 +475,7 @@ static void user_cache_maint_handler(unsigned int esr, struct pt_regs *regs)
                __user_cache_maint("ic ivau", address, ret);
                break;
        default:
-               force_signal_inject(SIGILL, ILL_ILLOPC, regs->pc);
+               force_signal_inject(SIGILL, ILL_ILLOPC, regs->pc, 0);
                return;
        }
 
@@ -581,7 +528,7 @@ static void mrs_handler(unsigned int esr, struct pt_regs *regs)
        sysreg = esr_sys64_to_sysreg(esr);
 
        if (do_emulate_mrs(regs, sysreg, rt) != 0)
-               force_signal_inject(SIGILL, ILL_ILLOPC, regs->pc);
+               force_signal_inject(SIGILL, ILL_ILLOPC, regs->pc, 0);
 }
 
 static void wfi_handler(unsigned int esr, struct pt_regs *regs)
@@ -775,6 +722,7 @@ static const char *esr_class_str[] = {
        [ESR_ELx_EC_SYS64]              = "MSR/MRS (AArch64)",
        [ESR_ELx_EC_SVE]                = "SVE",
        [ESR_ELx_EC_ERET]               = "ERET/ERETAA/ERETAB",
+       [ESR_ELx_EC_FPAC]               = "FPAC",
        [ESR_ELx_EC_IMP_DEF]            = "EL3 IMP DEF",
        [ESR_ELx_EC_IABT_LOW]           = "IABT (lower EL)",
        [ESR_ELx_EC_IABT_CUR]           = "IABT (current EL)",
@@ -935,26 +883,6 @@ asmlinkage void enter_from_user_mode(void)
 }
 NOKPROBE_SYMBOL(enter_from_user_mode);
 
-void __pte_error(const char *file, int line, unsigned long val)
-{
-       pr_err("%s:%d: bad pte %016lx.\n", file, line, val);
-}
-
-void __pmd_error(const char *file, int line, unsigned long val)
-{
-       pr_err("%s:%d: bad pmd %016lx.\n", file, line, val);
-}
-
-void __pud_error(const char *file, int line, unsigned long val)
-{
-       pr_err("%s:%d: bad pud %016lx.\n", file, line, val);
-}
-
-void __pgd_error(const char *file, int line, unsigned long val)
-{
-       pr_err("%s:%d: bad pgd %016lx.\n", file, line, val);
-}
-
 /* GENERIC_BUG traps */
 
 int is_valid_bugaddr(unsigned long addr)
@@ -994,6 +922,21 @@ static struct break_hook bug_break_hook = {
        .imm = BUG_BRK_IMM,
 };
 
+static int reserved_fault_handler(struct pt_regs *regs, unsigned int esr)
+{
+       pr_err("%s generated an invalid instruction at %pS!\n",
+               in_bpf_jit(regs) ? "BPF JIT" : "Kernel text patching",
+               (void *)instruction_pointer(regs));
+
+       /* We cannot handle this */
+       return DBG_HOOK_ERROR;
+}
+
+static struct break_hook fault_break_hook = {
+       .fn = reserved_fault_handler,
+       .imm = FAULT_BRK_IMM,
+};
+
 #ifdef CONFIG_KASAN_SW_TAGS
 
 #define KASAN_ESR_RECOVER      0x20
@@ -1059,6 +1002,7 @@ int __init early_brk64(unsigned long addr, unsigned int esr,
 void __init trap_init(void)
 {
        register_kernel_break_hook(&bug_break_hook);
+       register_kernel_break_hook(&fault_break_hook);
 #ifdef CONFIG_KASAN_SW_TAGS
        register_kernel_break_hook(&kasan_break_hook);
 #endif
index d4202a3..debb899 100644 (file)
 #include <asm/vdso.h>
 
 extern char vdso_start[], vdso_end[];
-#ifdef CONFIG_COMPAT_VDSO
 extern char vdso32_start[], vdso32_end[];
-#endif /* CONFIG_COMPAT_VDSO */
 
 enum vdso_abi {
        VDSO_ABI_AA64,
-#ifdef CONFIG_COMPAT_VDSO
        VDSO_ABI_AA32,
-#endif /* CONFIG_COMPAT_VDSO */
 };
 
 enum vvar_pages {
@@ -284,21 +280,17 @@ up_fail:
 /*
  * Create and map the vectors page for AArch32 tasks.
  */
-#ifdef CONFIG_COMPAT_VDSO
 static int aarch32_vdso_mremap(const struct vm_special_mapping *sm,
                struct vm_area_struct *new_vma)
 {
        return __vdso_remap(VDSO_ABI_AA32, sm, new_vma);
 }
-#endif /* CONFIG_COMPAT_VDSO */
 
 enum aarch32_map {
        AA32_MAP_VECTORS, /* kuser helpers */
-#ifdef CONFIG_COMPAT_VDSO
+       AA32_MAP_SIGPAGE,
        AA32_MAP_VVAR,
        AA32_MAP_VDSO,
-#endif
-       AA32_MAP_SIGPAGE
 };
 
 static struct page *aarch32_vectors_page __ro_after_init;
@@ -309,7 +301,10 @@ static struct vm_special_mapping aarch32_vdso_maps[] = {
                .name   = "[vectors]", /* ABI */
                .pages  = &aarch32_vectors_page,
        },
-#ifdef CONFIG_COMPAT_VDSO
+       [AA32_MAP_SIGPAGE] = {
+               .name   = "[sigpage]", /* ABI */
+               .pages  = &aarch32_sig_page,
+       },
        [AA32_MAP_VVAR] = {
                .name = "[vvar]",
                .fault = vvar_fault,
@@ -319,11 +314,6 @@ static struct vm_special_mapping aarch32_vdso_maps[] = {
                .name = "[vdso]",
                .mremap = aarch32_vdso_mremap,
        },
-#endif /* CONFIG_COMPAT_VDSO */
-       [AA32_MAP_SIGPAGE] = {
-               .name   = "[sigpage]", /* ABI */
-               .pages  = &aarch32_sig_page,
-       },
 };
 
 static int aarch32_alloc_kuser_vdso_page(void)
@@ -362,25 +352,25 @@ static int aarch32_alloc_sigpage(void)
        return 0;
 }
 
-#ifdef CONFIG_COMPAT_VDSO
 static int __aarch32_alloc_vdso_pages(void)
 {
+
+       if (!IS_ENABLED(CONFIG_COMPAT_VDSO))
+               return 0;
+
        vdso_info[VDSO_ABI_AA32].dm = &aarch32_vdso_maps[AA32_MAP_VVAR];
        vdso_info[VDSO_ABI_AA32].cm = &aarch32_vdso_maps[AA32_MAP_VDSO];
 
        return __vdso_init(VDSO_ABI_AA32);
 }
-#endif /* CONFIG_COMPAT_VDSO */
 
 static int __init aarch32_alloc_vdso_pages(void)
 {
        int ret;
 
-#ifdef CONFIG_COMPAT_VDSO
        ret = __aarch32_alloc_vdso_pages();
        if (ret)
                return ret;
-#endif
 
        ret = aarch32_alloc_sigpage();
        if (ret)
@@ -449,14 +439,12 @@ int aarch32_setup_additional_pages(struct linux_binprm *bprm, int uses_interp)
        if (ret)
                goto out;
 
-#ifdef CONFIG_COMPAT_VDSO
-       ret = __setup_additional_pages(VDSO_ABI_AA32,
-                                      mm,
-                                      bprm,
-                                      uses_interp);
-       if (ret)
-               goto out;
-#endif /* CONFIG_COMPAT_VDSO */
+       if (IS_ENABLED(CONFIG_COMPAT_VDSO)) {
+               ret = __setup_additional_pages(VDSO_ABI_AA32, mm, bprm,
+                                              uses_interp);
+               if (ret)
+                       goto out;
+       }
 
        ret = aarch32_sigreturn_setup(mm);
 out:
@@ -497,8 +485,7 @@ static int __init vdso_init(void)
 }
 arch_initcall(vdso_init);
 
-int arch_setup_additional_pages(struct linux_binprm *bprm,
-                               int uses_interp)
+int arch_setup_additional_pages(struct linux_binprm *bprm, int uses_interp)
 {
        struct mm_struct *mm = current->mm;
        int ret;
@@ -506,11 +493,7 @@ int arch_setup_additional_pages(struct linux_binprm *bprm,
        if (mmap_write_lock_killable(mm))
                return -EINTR;
 
-       ret = __setup_additional_pages(VDSO_ABI_AA64,
-                                      mm,
-                                      bprm,
-                                      uses_interp);
-
+       ret = __setup_additional_pages(VDSO_ABI_AA64, mm, bprm, uses_interp);
        mmap_write_unlock(mm);
 
        return ret;
index 7cba762..5ca957e 100644 (file)
@@ -6,6 +6,7 @@
  */
 
 #define RO_EXCEPTION_TABLE_ALIGN       8
+#define RUNTIME_DISCARD_EXIT
 
 #include <asm-generic/vmlinux.lds.h>
 #include <asm/cache.h>
@@ -96,16 +97,13 @@ SECTIONS
         * matching the same input section name.  There is no documented
         * order of matching.
         */
+       DISCARDS
        /DISCARD/ : {
-               EXIT_CALL
-               *(.discard)
-               *(.discard.*)
                *(.interp .dynamic)
                *(.dynsym .dynstr .hash .gnu.hash)
-               *(.eh_frame)
        }
 
-       . = KIMAGE_VADDR + TEXT_OFFSET;
+       . = KIMAGE_VADDR;
 
        .head.text : {
                _text = .;
@@ -131,6 +129,14 @@ SECTIONS
                *(.got)                 /* Global offset table          */
        }
 
+       /*
+        * Make sure that the .got.plt is either completely empty or it
+        * contains only the lazy dispatch entries.
+        */
+       .got.plt : { *(.got.plt) }
+       ASSERT(SIZEOF(.got.plt) == 0 || SIZEOF(.got.plt) == 0x18,
+              "Unexpected GOT/PLT entries detected!")
+
        . = ALIGN(SEGMENT_ALIGN);
        _etext = .;                     /* End of text section */
 
@@ -249,8 +255,22 @@ SECTIONS
        _end = .;
 
        STABS_DEBUG
+       DWARF_DEBUG
+       ELF_DETAILS
 
        HEAD_SYMBOLS
+
+       /*
+        * Sections that should stay zero sized, which is safer to
+        * explicitly check instead of blindly discarding.
+        */
+       .plt : {
+               *(.plt) *(.plt.*) *(.iplt) *(.igot)
+       }
+       ASSERT(SIZEOF(.plt) == 0, "Unexpected run-time procedure linkages detected!")
+
+       .data.rel.ro : { *(.data.rel.ro) }
+       ASSERT(SIZEOF(.data.rel.ro) == 0, "Unexpected RELRO detected!")
 }
 
 #include "image-vars.h"
@@ -274,4 +294,4 @@ ASSERT((__entry_tramp_text_end - __entry_tramp_text_start) == PAGE_SIZE,
 /*
  * If padding is applied before .head.text, virt<->phys conversions will fail.
  */
-ASSERT(_text == (KIMAGE_VADDR + TEXT_OFFSET), "HEAD is misaligned")
+ASSERT(_text == KIMAGE_VADDR, "HEAD is misaligned")
index 318c8f2..043756d 100644 (file)
@@ -57,9 +57,6 @@ config KVM_ARM_PMU
          Adds support for a virtual Performance Monitoring Unit (PMU) in
          virtual machines.
 
-config KVM_INDIRECT_VECTORS
-       def_bool HARDEN_BRANCH_PREDICTOR || RANDOMIZE_BASE
-
 endif # KVM
 
 endif # VIRTUALIZATION
index b588c3b..acf9a99 100644 (file)
@@ -1259,6 +1259,40 @@ long kvm_arch_vm_ioctl(struct file *filp,
        }
 }
 
+static int kvm_map_vectors(void)
+{
+       /*
+        * SV2  = ARM64_SPECTRE_V2
+        * HEL2 = ARM64_HARDEN_EL2_VECTORS
+        *
+        * !SV2 + !HEL2 -> use direct vectors
+        *  SV2 + !HEL2 -> use hardened vectors in place
+        * !SV2 +  HEL2 -> allocate one vector slot and use exec mapping
+        *  SV2 +  HEL2 -> use hardened vectors and use exec mapping
+        */
+       if (cpus_have_const_cap(ARM64_SPECTRE_V2)) {
+               __kvm_bp_vect_base = kvm_ksym_ref(__bp_harden_hyp_vecs);
+               __kvm_bp_vect_base = kern_hyp_va(__kvm_bp_vect_base);
+       }
+
+       if (cpus_have_const_cap(ARM64_HARDEN_EL2_VECTORS)) {
+               phys_addr_t vect_pa = __pa_symbol(__bp_harden_hyp_vecs);
+               unsigned long size = __BP_HARDEN_HYP_VECS_SZ;
+
+               /*
+                * Always allocate a spare vector slot, as we don't
+                * know yet which CPUs have a BP hardening slot that
+                * we can reuse.
+                */
+               __kvm_harden_el2_vector_slot = atomic_inc_return(&arm64_el2_vector_last_slot);
+               BUG_ON(__kvm_harden_el2_vector_slot >= BP_HARDEN_EL2_SLOTS);
+               return create_hyp_exec_mappings(vect_pa, size,
+                                               &__kvm_bp_vect_base);
+       }
+
+       return 0;
+}
+
 static void cpu_init_hyp_mode(void)
 {
        phys_addr_t pgd_ptr;
@@ -1295,7 +1329,7 @@ static void cpu_init_hyp_mode(void)
         * at EL2.
         */
        if (this_cpu_has_cap(ARM64_SSBS) &&
-           arm64_get_ssbd_state() == ARM64_SSBD_FORCE_DISABLE) {
+           arm64_get_spectre_v4_state() == SPECTRE_VULNERABLE) {
                kvm_call_hyp_nvhe(__kvm_enable_ssbs);
        }
 }
@@ -1552,10 +1586,6 @@ static int init_hyp_mode(void)
                }
        }
 
-       err = hyp_map_aux_data();
-       if (err)
-               kvm_err("Cannot map host auxiliary data: %d\n", err);
-
        return 0;
 
 out_err:
index f54f0e8..d898f0d 100644 (file)
@@ -10,5 +10,4 @@ subdir-ccflags-y := -I$(incdir)                               \
                    -DDISABLE_BRANCH_PROFILING          \
                    $(DISABLE_STACKLEAK_PLUGIN)
 
-obj-$(CONFIG_KVM) += vhe/ nvhe/
-obj-$(CONFIG_KVM_INDIRECT_VECTORS) += smccc_wa.o
+obj-$(CONFIG_KVM) += vhe/ nvhe/ smccc_wa.o
index 46b4dab..7ea277b 100644 (file)
@@ -116,35 +116,6 @@ el1_hvc_guest:
                          ARM_SMCCC_ARCH_WORKAROUND_2)
        cbnz    w1, el1_trap
 
-#ifdef CONFIG_ARM64_SSBD
-alternative_cb arm64_enable_wa2_handling
-       b       wa2_end
-alternative_cb_end
-       get_vcpu_ptr    x2, x0
-       ldr     x0, [x2, #VCPU_WORKAROUND_FLAGS]
-
-       // Sanitize the argument and update the guest flags
-       ldr     x1, [sp, #8]                    // Guest's x1
-       clz     w1, w1                          // Murphy's device:
-       lsr     w1, w1, #5                      // w1 = !!w1 without using
-       eor     w1, w1, #1                      // the flags...
-       bfi     x0, x1, #VCPU_WORKAROUND_2_FLAG_SHIFT, #1
-       str     x0, [x2, #VCPU_WORKAROUND_FLAGS]
-
-       /* Check that we actually need to perform the call */
-       hyp_ldr_this_cpu x0, arm64_ssbd_callback_required, x2
-       cbz     x0, wa2_end
-
-       mov     w0, #ARM_SMCCC_ARCH_WORKAROUND_2
-       smc     #0
-
-       /* Don't leak data from the SMC call */
-       mov     x3, xzr
-wa2_end:
-       mov     x2, xzr
-       mov     x1, xzr
-#endif
-
 wa_epilogue:
        mov     x0, xzr
        add     sp, sp, #16
@@ -288,7 +259,6 @@ SYM_CODE_START(__kvm_hyp_vector)
        valid_vect      el1_error               // Error 32-bit EL1
 SYM_CODE_END(__kvm_hyp_vector)
 
-#ifdef CONFIG_KVM_INDIRECT_VECTORS
 .macro hyp_ventry
        .align 7
 1:     esb
@@ -338,4 +308,3 @@ SYM_CODE_START(__bp_harden_hyp_vecs)
 1:     .org __bp_harden_hyp_vecs + __BP_HARDEN_HYP_VECS_SZ
        .org 1b
 SYM_CODE_END(__bp_harden_hyp_vecs)
-#endif
index 0261308..d0f07e8 100644 (file)
@@ -479,39 +479,6 @@ exit:
        return false;
 }
 
-static inline bool __needs_ssbd_off(struct kvm_vcpu *vcpu)
-{
-       if (!cpus_have_final_cap(ARM64_SSBD))
-               return false;
-
-       return !(vcpu->arch.workaround_flags & VCPU_WORKAROUND_2_FLAG);
-}
-
-static inline void __set_guest_arch_workaround_state(struct kvm_vcpu *vcpu)
-{
-#ifdef CONFIG_ARM64_SSBD
-       /*
-        * The host runs with the workaround always present. If the
-        * guest wants it disabled, so be it...
-        */
-       if (__needs_ssbd_off(vcpu) &&
-           __hyp_this_cpu_read(arm64_ssbd_callback_required))
-               arm_smccc_1_1_smc(ARM_SMCCC_ARCH_WORKAROUND_2, 0, NULL);
-#endif
-}
-
-static inline void __set_host_arch_workaround_state(struct kvm_vcpu *vcpu)
-{
-#ifdef CONFIG_ARM64_SSBD
-       /*
-        * If the guest has disabled the workaround, bring it back on.
-        */
-       if (__needs_ssbd_off(vcpu) &&
-           __hyp_this_cpu_read(arm64_ssbd_callback_required))
-               arm_smccc_1_1_smc(ARM_SMCCC_ARCH_WORKAROUND_2, 1, NULL);
-#endif
-}
-
 static inline void __kvm_unexpected_el2_exception(void)
 {
        unsigned long addr, fixup;
index 0970442..8d3dd4f 100644 (file)
@@ -202,8 +202,6 @@ int __kvm_vcpu_run(struct kvm_vcpu *vcpu)
 
        __debug_switch_to_guest(vcpu);
 
-       __set_guest_arch_workaround_state(vcpu);
-
        do {
                /* Jump in the fire! */
                exit_code = __guest_enter(vcpu, host_ctxt);
@@ -211,8 +209,6 @@ int __kvm_vcpu_run(struct kvm_vcpu *vcpu)
                /* And we're baaack! */
        } while (fixup_guest_exit(vcpu, &exit_code));
 
-       __set_host_arch_workaround_state(vcpu);
-
        __sysreg_save_state_nvhe(guest_ctxt);
        __sysreg32_save_state(vcpu);
        __timer_disable_traps(vcpu);
index c1da4f8..ecf67e6 100644 (file)
@@ -131,8 +131,6 @@ static int __kvm_vcpu_run_vhe(struct kvm_vcpu *vcpu)
        sysreg_restore_guest_state_vhe(guest_ctxt);
        __debug_switch_to_guest(vcpu);
 
-       __set_guest_arch_workaround_state(vcpu);
-
        do {
                /* Jump in the fire! */
                exit_code = __guest_enter(vcpu, host_ctxt);
@@ -140,8 +138,6 @@ static int __kvm_vcpu_run_vhe(struct kvm_vcpu *vcpu)
                /* And we're baaack! */
        } while (fixup_guest_exit(vcpu, &exit_code));
 
-       __set_host_arch_workaround_state(vcpu);
-
        sysreg_save_guest_state_vhe(guest_ctxt);
 
        __deactivate_traps(vcpu);
index 550dfa3..9824025 100644 (file)
@@ -24,27 +24,36 @@ int kvm_hvc_call_handler(struct kvm_vcpu *vcpu)
                feature = smccc_get_arg1(vcpu);
                switch (feature) {
                case ARM_SMCCC_ARCH_WORKAROUND_1:
-                       switch (kvm_arm_harden_branch_predictor()) {
-                       case KVM_BP_HARDEN_UNKNOWN:
+                       switch (arm64_get_spectre_v2_state()) {
+                       case SPECTRE_VULNERABLE:
                                break;
-                       case KVM_BP_HARDEN_WA_NEEDED:
+                       case SPECTRE_MITIGATED:
                                val = SMCCC_RET_SUCCESS;
                                break;
-                       case KVM_BP_HARDEN_NOT_REQUIRED:
+                       case SPECTRE_UNAFFECTED:
                                val = SMCCC_RET_NOT_REQUIRED;
                                break;
                        }
                        break;
                case ARM_SMCCC_ARCH_WORKAROUND_2:
-                       switch (kvm_arm_have_ssbd()) {
-                       case KVM_SSBD_FORCE_DISABLE:
-                       case KVM_SSBD_UNKNOWN:
+                       switch (arm64_get_spectre_v4_state()) {
+                       case SPECTRE_VULNERABLE:
                                break;
-                       case KVM_SSBD_KERNEL:
-                               val = SMCCC_RET_SUCCESS;
-                               break;
-                       case KVM_SSBD_FORCE_ENABLE:
-                       case KVM_SSBD_MITIGATED:
+                       case SPECTRE_MITIGATED:
+                               /*
+                                * SSBS everywhere: Indicate no firmware
+                                * support, as the SSBS support will be
+                                * indicated to the guest and the default is
+                                * safe.
+                                *
+                                * Otherwise, expose a permanent mitigation
+                                * to the guest, and hide SSBS so that the
+                                * guest stays protected.
+                                */
+                               if (cpus_have_final_cap(ARM64_SSBS))
+                                       break;
+                               fallthrough;
+                       case SPECTRE_UNAFFECTED:
                                val = SMCCC_RET_NOT_REQUIRED;
                                break;
                        }
index f0d0312..81916e3 100644 (file)
@@ -269,6 +269,7 @@ void kvm_pmu_vcpu_destroy(struct kvm_vcpu *vcpu)
 
        for (i = 0; i < ARMV8_PMU_MAX_COUNTERS; i++)
                kvm_pmu_release_perf_event(&pmu->pmc[i]);
+       irq_work_sync(&vcpu->arch.pmu.overflow_work);
 }
 
 u64 kvm_pmu_valid_counter_mask(struct kvm_vcpu *vcpu)
@@ -434,6 +435,22 @@ void kvm_pmu_sync_hwstate(struct kvm_vcpu *vcpu)
 }
 
 /**
+ * When perf interrupt is an NMI, we cannot safely notify the vcpu corresponding
+ * to the event.
+ * This is why we need a callback to do it once outside of the NMI context.
+ */
+static void kvm_pmu_perf_overflow_notify_vcpu(struct irq_work *work)
+{
+       struct kvm_vcpu *vcpu;
+       struct kvm_pmu *pmu;
+
+       pmu = container_of(work, struct kvm_pmu, overflow_work);
+       vcpu = kvm_pmc_to_vcpu(pmu->pmc);
+
+       kvm_vcpu_kick(vcpu);
+}
+
+/**
  * When the perf event overflows, set the overflow status and inform the vcpu.
  */
 static void kvm_pmu_perf_overflow(struct perf_event *perf_event,
@@ -465,7 +482,11 @@ static void kvm_pmu_perf_overflow(struct perf_event *perf_event,
 
        if (kvm_pmu_overflow_status(vcpu)) {
                kvm_make_request(KVM_REQ_IRQ_PENDING, vcpu);
-               kvm_vcpu_kick(vcpu);
+
+               if (!in_nmi())
+                       kvm_vcpu_kick(vcpu);
+               else
+                       irq_work_queue(&vcpu->arch.pmu.overflow_work);
        }
 
        cpu_pmu->pmu.start(perf_event, PERF_EF_RELOAD);
@@ -764,6 +785,9 @@ static int kvm_arm_pmu_v3_init(struct kvm_vcpu *vcpu)
                        return ret;
        }
 
+       init_irq_work(&vcpu->arch.pmu.overflow_work,
+                     kvm_pmu_perf_overflow_notify_vcpu);
+
        vcpu->arch.pmu.created = true;
        return 0;
 }
index 83415e9..db4056e 100644 (file)
@@ -425,27 +425,30 @@ static int get_kernel_wa_level(u64 regid)
 {
        switch (regid) {
        case KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_1:
-               switch (kvm_arm_harden_branch_predictor()) {
-               case KVM_BP_HARDEN_UNKNOWN:
+               switch (arm64_get_spectre_v2_state()) {
+               case SPECTRE_VULNERABLE:
                        return KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_1_NOT_AVAIL;
-               case KVM_BP_HARDEN_WA_NEEDED:
+               case SPECTRE_MITIGATED:
                        return KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_1_AVAIL;
-               case KVM_BP_HARDEN_NOT_REQUIRED:
+               case SPECTRE_UNAFFECTED:
                        return KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_1_NOT_REQUIRED;
                }
                return KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_1_NOT_AVAIL;
        case KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2:
-               switch (kvm_arm_have_ssbd()) {
-               case KVM_SSBD_FORCE_DISABLE:
-                       return KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_NOT_AVAIL;
-               case KVM_SSBD_KERNEL:
-                       return KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_AVAIL;
-               case KVM_SSBD_FORCE_ENABLE:
-               case KVM_SSBD_MITIGATED:
+               switch (arm64_get_spectre_v4_state()) {
+               case SPECTRE_MITIGATED:
+                       /*
+                        * As for the hypercall discovery, we pretend we
+                        * don't have any FW mitigation if SSBS is there at
+                        * all times.
+                        */
+                       if (cpus_have_final_cap(ARM64_SSBS))
+                               return KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_NOT_AVAIL;
+                       fallthrough;
+               case SPECTRE_UNAFFECTED:
                        return KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_NOT_REQUIRED;
-               case KVM_SSBD_UNKNOWN:
-               default:
-                       return KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_UNKNOWN;
+               case SPECTRE_VULNERABLE:
+                       return KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_NOT_AVAIL;
                }
        }
 
@@ -462,14 +465,8 @@ int kvm_arm_get_fw_reg(struct kvm_vcpu *vcpu, const struct kvm_one_reg *reg)
                val = kvm_psci_version(vcpu, vcpu->kvm);
                break;
        case KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_1:
-               val = get_kernel_wa_level(reg->id) & KVM_REG_FEATURE_LEVEL_MASK;
-               break;
        case KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2:
                val = get_kernel_wa_level(reg->id) & KVM_REG_FEATURE_LEVEL_MASK;
-
-               if (val == KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_AVAIL &&
-                   kvm_arm_get_vcpu_workaround_2_flag(vcpu))
-                       val |= KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_ENABLED;
                break;
        default:
                return -ENOENT;
@@ -527,34 +524,35 @@ int kvm_arm_set_fw_reg(struct kvm_vcpu *vcpu, const struct kvm_one_reg *reg)
                            KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_ENABLED))
                        return -EINVAL;
 
-               wa_level = val & KVM_REG_FEATURE_LEVEL_MASK;
-
-               if (get_kernel_wa_level(reg->id) < wa_level)
-                       return -EINVAL;
-
                /* The enabled bit must not be set unless the level is AVAIL. */
-               if (wa_level != KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_AVAIL &&
-                   wa_level != val)
+               if ((val & KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_ENABLED) &&
+                   (val & KVM_REG_FEATURE_LEVEL_MASK) != KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_AVAIL)
                        return -EINVAL;
 
-               /* Are we finished or do we need to check the enable bit ? */
-               if (kvm_arm_have_ssbd() != KVM_SSBD_KERNEL)
-                       return 0;
-
                /*
-                * If this kernel supports the workaround to be switched on
-                * or off, make sure it matches the requested setting.
+                * Map all the possible incoming states to the only two we
+                * really want to deal with.
                 */
-               switch (wa_level) {
-               case KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_AVAIL:
-                       kvm_arm_set_vcpu_workaround_2_flag(vcpu,
-                           val & KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_ENABLED);
+               switch (val & KVM_REG_FEATURE_LEVEL_MASK) {
+               case KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_NOT_AVAIL:
+               case KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_UNKNOWN:
+                       wa_level = KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_NOT_AVAIL;
                        break;
+               case KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_AVAIL:
                case KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_NOT_REQUIRED:
-                       kvm_arm_set_vcpu_workaround_2_flag(vcpu, true);
+                       wa_level = KVM_REG_ARM_SMCCC_ARCH_WORKAROUND_2_NOT_REQUIRED;
                        break;
+               default:
+                       return -EINVAL;
                }
 
+               /*
+                * We can deal with NOT_AVAIL on NOT_REQUIRED, but not the
+                * other way around.
+                */
+               if (get_kernel_wa_level(reg->id) < wa_level)
+                       return -EINVAL;
+
                return 0;
        default:
                return -ENOENT;
index ee33875..f6e8b4a 100644 (file)
@@ -319,10 +319,6 @@ int kvm_reset_vcpu(struct kvm_vcpu *vcpu)
                vcpu->arch.reset_state.reset = false;
        }
 
-       /* Default workaround setup is enabled (if supported) */
-       if (kvm_arm_have_ssbd() == KVM_SSBD_KERNEL)
-               vcpu->arch.workaround_flags |= VCPU_WORKAROUND_2_FLAG;
-
        /* Reset timer */
        ret = kvm_timer_vcpu_reset(vcpu);
 out:
index 077293b..9ca2706 100644 (file)
@@ -1131,6 +1131,11 @@ static u64 read_id_reg(const struct kvm_vcpu *vcpu,
                if (!vcpu_has_sve(vcpu))
                        val &= ~(0xfUL << ID_AA64PFR0_SVE_SHIFT);
                val &= ~(0xfUL << ID_AA64PFR0_AMU_SHIFT);
+               if (!(val & (0xfUL << ID_AA64PFR0_CSV2_SHIFT)) &&
+                   arm64_get_spectre_v2_state() == SPECTRE_UNAFFECTED)
+                       val |= (1UL << ID_AA64PFR0_CSV2_SHIFT);
+       } else if (id == SYS_ID_AA64PFR1_EL1) {
+               val &= ~(0xfUL << ID_AA64PFR1_MTE_SHIFT);
        } else if (id == SYS_ID_AA64ISAR1_EL1 && !vcpu_has_ptrauth(vcpu)) {
                val &= ~((0xfUL << ID_AA64ISAR1_APA_SHIFT) |
                         (0xfUL << ID_AA64ISAR1_API_SHIFT) |
@@ -1382,6 +1387,13 @@ static bool access_ccsidr(struct kvm_vcpu *vcpu, struct sys_reg_params *p,
        return true;
 }
 
+static bool access_mte_regs(struct kvm_vcpu *vcpu, struct sys_reg_params *p,
+                           const struct sys_reg_desc *r)
+{
+       kvm_inject_undefined(vcpu);
+       return false;
+}
+
 /* sys_reg_desc initialiser for known cpufeature ID registers */
 #define ID_SANITISED(name) {                   \
        SYS_DESC(SYS_##name),                   \
@@ -1547,6 +1559,10 @@ static const struct sys_reg_desc sys_reg_descs[] = {
        { SYS_DESC(SYS_SCTLR_EL1), access_vm_reg, reset_val, SCTLR_EL1, 0x00C50078 },
        { SYS_DESC(SYS_ACTLR_EL1), access_actlr, reset_actlr, ACTLR_EL1 },
        { SYS_DESC(SYS_CPACR_EL1), NULL, reset_val, CPACR_EL1, 0 },
+
+       { SYS_DESC(SYS_RGSR_EL1), access_mte_regs },
+       { SYS_DESC(SYS_GCR_EL1), access_mte_regs },
+
        { SYS_DESC(SYS_ZCR_EL1), NULL, reset_val, ZCR_EL1, 0, .visibility = sve_visibility },
        { SYS_DESC(SYS_TTBR0_EL1), access_vm_reg, reset_unknown, TTBR0_EL1 },
        { SYS_DESC(SYS_TTBR1_EL1), access_vm_reg, reset_unknown, TTBR1_EL1 },
@@ -1571,6 +1587,9 @@ static const struct sys_reg_desc sys_reg_descs[] = {
        { SYS_DESC(SYS_ERXMISC0_EL1), trap_raz_wi },
        { SYS_DESC(SYS_ERXMISC1_EL1), trap_raz_wi },
 
+       { SYS_DESC(SYS_TFSR_EL1), access_mte_regs },
+       { SYS_DESC(SYS_TFSRE0_EL1), access_mte_regs },
+
        { SYS_DESC(SYS_FAR_EL1), access_vm_reg, reset_unknown, FAR_EL1 },
        { SYS_DESC(SYS_PAR_EL1), NULL, reset_unknown, PAR_EL1 },
 
index 5c786b9..52d6f24 100644 (file)
@@ -1001,8 +1001,8 @@ void vgic_v3_dispatch_sgi(struct kvm_vcpu *vcpu, u64 reg, bool allow_group1)
                raw_spin_lock_irqsave(&irq->irq_lock, flags);
 
                /*
-                * An access targetting Group0 SGIs can only generate
-                * those, while an access targetting Group1 SGIs can
+                * An access targeting Group0 SGIs can only generate
+                * those, while an access targeting Group1 SGIs can
                 * generate interrupts of either group.
                 */
                if (!irq->group || allow_group1) {
index 2fc2534..d31e116 100644 (file)
@@ -16,3 +16,5 @@ lib-$(CONFIG_ARCH_HAS_UACCESS_FLUSHCACHE) += uaccess_flushcache.o
 obj-$(CONFIG_CRC32) += crc32.o
 
 obj-$(CONFIG_FUNCTION_ERROR_INJECTION) += error-inject.o
+
+obj-$(CONFIG_ARM64_MTE) += mte.o
diff --git a/arch/arm64/lib/mte.S b/arch/arm64/lib/mte.S
new file mode 100644 (file)
index 0000000..03ca6d8
--- /dev/null
@@ -0,0 +1,151 @@
+/* SPDX-License-Identifier: GPL-2.0-only */
+/*
+ * Copyright (C) 2020 ARM Ltd.
+ */
+#include <linux/linkage.h>
+
+#include <asm/alternative.h>
+#include <asm/assembler.h>
+#include <asm/mte.h>
+#include <asm/page.h>
+#include <asm/sysreg.h>
+
+       .arch   armv8.5-a+memtag
+
+/*
+ * multitag_transfer_size - set \reg to the block size that is accessed by the
+ * LDGM/STGM instructions.
+ */
+       .macro  multitag_transfer_size, reg, tmp
+       mrs_s   \reg, SYS_GMID_EL1
+       ubfx    \reg, \reg, #SYS_GMID_EL1_BS_SHIFT, #SYS_GMID_EL1_BS_SIZE
+       mov     \tmp, #4
+       lsl     \reg, \tmp, \reg
+       .endm
+
+/*
+ * Clear the tags in a page
+ *   x0 - address of the page to be cleared
+ */
+SYM_FUNC_START(mte_clear_page_tags)
+       multitag_transfer_size x1, x2
+1:     stgm    xzr, [x0]
+       add     x0, x0, x1
+       tst     x0, #(PAGE_SIZE - 1)
+       b.ne    1b
+       ret
+SYM_FUNC_END(mte_clear_page_tags)
+
+/*
+ * Copy the tags from the source page to the destination one
+ *   x0 - address of the destination page
+ *   x1 - address of the source page
+ */
+SYM_FUNC_START(mte_copy_page_tags)
+       mov     x2, x0
+       mov     x3, x1
+       multitag_transfer_size x5, x6
+1:     ldgm    x4, [x3]
+       stgm    x4, [x2]
+       add     x2, x2, x5
+       add     x3, x3, x5
+       tst     x2, #(PAGE_SIZE - 1)
+       b.ne    1b
+       ret
+SYM_FUNC_END(mte_copy_page_tags)
+
+/*
+ * Read tags from a user buffer (one tag per byte) and set the corresponding
+ * tags at the given kernel address. Used by PTRACE_POKEMTETAGS.
+ *   x0 - kernel address (to)
+ *   x1 - user buffer (from)
+ *   x2 - number of tags/bytes (n)
+ * Returns:
+ *   x0 - number of tags read/set
+ */
+SYM_FUNC_START(mte_copy_tags_from_user)
+       mov     x3, x1
+       cbz     x2, 2f
+1:
+       uao_user_alternative 2f, ldrb, ldtrb, w4, x1, 0
+       lsl     x4, x4, #MTE_TAG_SHIFT
+       stg     x4, [x0], #MTE_GRANULE_SIZE
+       add     x1, x1, #1
+       subs    x2, x2, #1
+       b.ne    1b
+
+       // exception handling and function return
+2:     sub     x0, x1, x3              // update the number of tags set
+       ret
+SYM_FUNC_END(mte_copy_tags_from_user)
+
+/*
+ * Get the tags from a kernel address range and write the tag values to the
+ * given user buffer (one tag per byte). Used by PTRACE_PEEKMTETAGS.
+ *   x0 - user buffer (to)
+ *   x1 - kernel address (from)
+ *   x2 - number of tags/bytes (n)
+ * Returns:
+ *   x0 - number of tags read/set
+ */
+SYM_FUNC_START(mte_copy_tags_to_user)
+       mov     x3, x0
+       cbz     x2, 2f
+1:
+       ldg     x4, [x1]
+       ubfx    x4, x4, #MTE_TAG_SHIFT, #MTE_TAG_SIZE
+       uao_user_alternative 2f, strb, sttrb, w4, x0, 0
+       add     x0, x0, #1
+       add     x1, x1, #MTE_GRANULE_SIZE
+       subs    x2, x2, #1
+       b.ne    1b
+
+       // exception handling and function return
+2:     sub     x0, x0, x3              // update the number of tags copied
+       ret
+SYM_FUNC_END(mte_copy_tags_to_user)
+
+/*
+ * Save the tags in a page
+ *   x0 - page address
+ *   x1 - tag storage
+ */
+SYM_FUNC_START(mte_save_page_tags)
+       multitag_transfer_size x7, x5
+1:
+       mov     x2, #0
+2:
+       ldgm    x5, [x0]
+       orr     x2, x2, x5
+       add     x0, x0, x7
+       tst     x0, #0xFF               // 16 tag values fit in a register,
+       b.ne    2b                      // which is 16*16=256 bytes
+
+       str     x2, [x1], #8
+
+       tst     x0, #(PAGE_SIZE - 1)
+       b.ne    1b
+
+       ret
+SYM_FUNC_END(mte_save_page_tags)
+
+/*
+ * Restore the tags in a page
+ *   x0 - page address
+ *   x1 - tag storage
+ */
+SYM_FUNC_START(mte_restore_page_tags)
+       multitag_transfer_size x7, x5
+1:
+       ldr     x2, [x1], #8
+2:
+       stgm    x2, [x0]
+       add     x0, x0, x7
+       tst     x0, #0xFF
+       b.ne    2b
+
+       tst     x0, #(PAGE_SIZE - 1)
+       b.ne    1b
+
+       ret
+SYM_FUNC_END(mte_restore_page_tags)
index d91030f..5ead3c3 100644 (file)
@@ -4,10 +4,11 @@ obj-y                         := dma-mapping.o extable.o fault.o init.o \
                                   ioremap.o mmap.o pgd.o mmu.o \
                                   context.o proc.o pageattr.o
 obj-$(CONFIG_HUGETLB_PAGE)     += hugetlbpage.o
-obj-$(CONFIG_PTDUMP_CORE)      += dump.o
+obj-$(CONFIG_PTDUMP_CORE)      += ptdump.o
 obj-$(CONFIG_PTDUMP_DEBUGFS)   += ptdump_debugfs.o
 obj-$(CONFIG_NUMA)             += numa.o
 obj-$(CONFIG_DEBUG_VIRTUAL)    += physaddr.o
+obj-$(CONFIG_ARM64_MTE)                += mteswap.o
 KASAN_SANITIZE_physaddr.o      += n
 
 obj-$(CONFIG_KASAN)            += kasan_init.o
index 9b11c09..001737a 100644 (file)
@@ -27,6 +27,10 @@ static DEFINE_PER_CPU(atomic64_t, active_asids);
 static DEFINE_PER_CPU(u64, reserved_asids);
 static cpumask_t tlb_flush_pending;
 
+static unsigned long max_pinned_asids;
+static unsigned long nr_pinned_asids;
+static unsigned long *pinned_asid_map;
+
 #define ASID_MASK              (~GENMASK(asid_bits - 1, 0))
 #define ASID_FIRST_VERSION     (1UL << asid_bits)
 
@@ -72,7 +76,7 @@ void verify_cpu_asid_bits(void)
        }
 }
 
-static void set_kpti_asid_bits(void)
+static void set_kpti_asid_bits(unsigned long *map)
 {
        unsigned int len = BITS_TO_LONGS(NUM_USER_ASIDS) * sizeof(unsigned long);
        /*
@@ -81,13 +85,15 @@ static void set_kpti_asid_bits(void)
         * is set, then the ASID will map only userspace. Thus
         * mark even as reserved for kernel.
         */
-       memset(asid_map, 0xaa, len);
+       memset(map, 0xaa, len);
 }
 
 static void set_reserved_asid_bits(void)
 {
-       if (arm64_kernel_unmapped_at_el0())
-               set_kpti_asid_bits();
+       if (pinned_asid_map)
+               bitmap_copy(asid_map, pinned_asid_map, NUM_USER_ASIDS);
+       else if (arm64_kernel_unmapped_at_el0())
+               set_kpti_asid_bits(asid_map);
        else
                bitmap_clear(asid_map, 0, NUM_USER_ASIDS);
 }
@@ -166,6 +172,14 @@ static u64 new_context(struct mm_struct *mm)
                        return newasid;
 
                /*
+                * If it is pinned, we can keep using it. Note that reserved
+                * takes priority, because even if it is also pinned, we need to
+                * update the generation into the reserved_asids.
+                */
+               if (refcount_read(&mm->context.pinned))
+                       return newasid;
+
+               /*
                 * We had a valid ASID in a previous life, so try to re-use
                 * it if possible.
                 */
@@ -256,6 +270,71 @@ switch_mm_fastpath:
                cpu_switch_mm(mm->pgd, mm);
 }
 
+unsigned long arm64_mm_context_get(struct mm_struct *mm)
+{
+       unsigned long flags;
+       u64 asid;
+
+       if (!pinned_asid_map)
+               return 0;
+
+       raw_spin_lock_irqsave(&cpu_asid_lock, flags);
+
+       asid = atomic64_read(&mm->context.id);
+
+       if (refcount_inc_not_zero(&mm->context.pinned))
+               goto out_unlock;
+
+       if (nr_pinned_asids >= max_pinned_asids) {
+               asid = 0;
+               goto out_unlock;
+       }
+
+       if (!asid_gen_match(asid)) {
+               /*
+                * We went through one or more rollover since that ASID was
+                * used. Ensure that it is still valid, or generate a new one.
+                */
+               asid = new_context(mm);
+               atomic64_set(&mm->context.id, asid);
+       }
+
+       nr_pinned_asids++;
+       __set_bit(asid2idx(asid), pinned_asid_map);
+       refcount_set(&mm->context.pinned, 1);
+
+out_unlock:
+       raw_spin_unlock_irqrestore(&cpu_asid_lock, flags);
+
+       asid &= ~ASID_MASK;
+
+       /* Set the equivalent of USER_ASID_BIT */
+       if (asid && arm64_kernel_unmapped_at_el0())
+               asid |= 1;
+
+       return asid;
+}
+EXPORT_SYMBOL_GPL(arm64_mm_context_get);
+
+void arm64_mm_context_put(struct mm_struct *mm)
+{
+       unsigned long flags;
+       u64 asid = atomic64_read(&mm->context.id);
+
+       if (!pinned_asid_map)
+               return;
+
+       raw_spin_lock_irqsave(&cpu_asid_lock, flags);
+
+       if (refcount_dec_and_test(&mm->context.pinned)) {
+               __clear_bit(asid2idx(asid), pinned_asid_map);
+               nr_pinned_asids--;
+       }
+
+       raw_spin_unlock_irqrestore(&cpu_asid_lock, flags);
+}
+EXPORT_SYMBOL_GPL(arm64_mm_context_put);
+
 /* Errata workaround post TTBRx_EL1 update. */
 asmlinkage void post_ttbr_update_workaround(void)
 {
@@ -296,8 +375,11 @@ static int asids_update_limit(void)
 {
        unsigned long num_available_asids = NUM_USER_ASIDS;
 
-       if (arm64_kernel_unmapped_at_el0())
+       if (arm64_kernel_unmapped_at_el0()) {
                num_available_asids /= 2;
+               if (pinned_asid_map)
+                       set_kpti_asid_bits(pinned_asid_map);
+       }
        /*
         * Expect allocation after rollover to fail if we don't have at least
         * one more ASID than CPUs. ASID #0 is reserved for init_mm.
@@ -305,6 +387,13 @@ static int asids_update_limit(void)
        WARN_ON(num_available_asids - 1 <= num_possible_cpus());
        pr_info("ASID allocator initialised with %lu entries\n",
                num_available_asids);
+
+       /*
+        * There must always be an ASID available after rollover. Ensure that,
+        * even if all CPUs have a reserved ASID and the maximum number of ASIDs
+        * are pinned, there still is at least one empty slot in the ASID map.
+        */
+       max_pinned_asids = num_available_asids - num_possible_cpus() - 2;
        return 0;
 }
 arch_initcall(asids_update_limit);
@@ -319,13 +408,17 @@ static int asids_init(void)
                panic("Failed to allocate bitmap for %lu ASIDs\n",
                      NUM_USER_ASIDS);
 
+       pinned_asid_map = kcalloc(BITS_TO_LONGS(NUM_USER_ASIDS),
+                                 sizeof(*pinned_asid_map), GFP_KERNEL);
+       nr_pinned_asids = 0;
+
        /*
         * We cannot call set_reserved_asid_bits() here because CPU
         * caps are not finalized yet, so it is safer to assume KPTI
         * and reserve kernel ASID's from beginning.
         */
        if (IS_ENABLED(CONFIG_UNMAP_KERNEL_AT_EL0))
-               set_kpti_asid_bits();
+               set_kpti_asid_bits(asid_map);
        return 0;
 }
 early_initcall(asids_init);
index 2ee7b73..70a71f3 100644 (file)
@@ -6,21 +6,32 @@
  * Copyright (C) 2012 ARM Ltd.
  */
 
+#include <linux/bitops.h>
 #include <linux/mm.h>
 
 #include <asm/page.h>
 #include <asm/cacheflush.h>
+#include <asm/cpufeature.h>
+#include <asm/mte.h>
 
-void __cpu_copy_user_page(void *kto, const void *kfrom, unsigned long vaddr)
+void copy_highpage(struct page *to, struct page *from)
 {
-       struct page *page = virt_to_page(kto);
+       struct page *kto = page_address(to);
+       struct page *kfrom = page_address(from);
+
        copy_page(kto, kfrom);
-       flush_dcache_page(page);
+
+       if (system_supports_mte() && test_bit(PG_mte_tagged, &from->flags)) {
+               set_bit(PG_mte_tagged, &to->flags);
+               mte_copy_page_tags(kto, kfrom);
+       }
 }
-EXPORT_SYMBOL_GPL(__cpu_copy_user_page);
+EXPORT_SYMBOL(copy_highpage);
 
-void __cpu_clear_user_page(void *kaddr, unsigned long vaddr)
+void copy_user_highpage(struct page *to, struct page *from,
+                       unsigned long vaddr, struct vm_area_struct *vma)
 {
-       clear_page(kaddr);
+       copy_highpage(to, from);
+       flush_dcache_page(to);
 }
-EXPORT_SYMBOL_GPL(__cpu_clear_user_page);
+EXPORT_SYMBOL_GPL(copy_user_highpage);
index eee1732..aa00601 100644 (file)
@@ -14,9 +14,7 @@ int fixup_exception(struct pt_regs *regs)
        if (!fixup)
                return 0;
 
-       if (IS_ENABLED(CONFIG_BPF_JIT) &&
-           regs->pc >= BPF_JIT_REGION_START &&
-           regs->pc < BPF_JIT_REGION_END)
+       if (in_bpf_jit(regs))
                return arm64_bpf_fixup_exception(fixup, regs);
 
        regs->pc = (unsigned long)&fixup->fixup + fixup->fixup;
index f07333e..94c99c1 100644 (file)
@@ -218,7 +218,9 @@ int ptep_set_access_flags(struct vm_area_struct *vma,
                pteval = cmpxchg_relaxed(&pte_val(*ptep), old_pteval, pteval);
        } while (pteval != old_pteval);
 
-       flush_tlb_fix_spurious_fault(vma, address);
+       /* Invalidate a stale read-only entry */
+       if (dirty)
+               flush_tlb_page(vma, address);
        return 1;
 }
 
@@ -641,6 +643,13 @@ static int do_sea(unsigned long addr, unsigned int esr, struct pt_regs *regs)
        return 0;
 }
 
+static int do_tag_check_fault(unsigned long addr, unsigned int esr,
+                             struct pt_regs *regs)
+{
+       do_bad_area(addr, esr, regs);
+       return 0;
+}
+
 static const struct fault_info fault_info[] = {
        { do_bad,               SIGKILL, SI_KERNEL,     "ttbr address size fault"       },
        { do_bad,               SIGKILL, SI_KERNEL,     "level 1 address size fault"    },
@@ -659,7 +668,7 @@ static const struct fault_info fault_info[] = {
        { do_page_fault,        SIGSEGV, SEGV_ACCERR,   "level 2 permission fault"      },
        { do_page_fault,        SIGSEGV, SEGV_ACCERR,   "level 3 permission fault"      },
        { do_sea,               SIGBUS,  BUS_OBJERR,    "synchronous external abort"    },
-       { do_bad,               SIGKILL, SI_KERNEL,     "unknown 17"                    },
+       { do_tag_check_fault,   SIGSEGV, SEGV_MTESERR,  "synchronous tag check fault"   },
        { do_bad,               SIGKILL, SI_KERNEL,     "unknown 18"                    },
        { do_bad,               SIGKILL, SI_KERNEL,     "unknown 19"                    },
        { do_sea,               SIGKILL, SI_KERNEL,     "level 0 (translation table walk)"      },
index 75df62f..087a844 100644 (file)
@@ -43,7 +43,7 @@
 u64 idmap_t0sz = TCR_T0SZ(VA_BITS);
 u64 idmap_ptrs_per_pgd = PTRS_PER_PGD;
 
-u64 __section(".mmuoff.data.write") vabits_actual;
+u64 __section(.mmuoff.data.write) vabits_actual;
 EXPORT_SYMBOL(vabits_actual);
 
 u64 kimage_voffset __ro_after_init;
@@ -122,7 +122,7 @@ static bool pgattr_change_is_safe(u64 old, u64 new)
         * The following mapping attributes may be updated in live
         * kernel mappings without the need for break-before-make.
         */
-       static const pteval_t mask = PTE_PXN | PTE_RDONLY | PTE_WRITE | PTE_NG;
+       pteval_t mask = PTE_PXN | PTE_RDONLY | PTE_WRITE | PTE_NG;
 
        /* creating or taking down mappings is always safe */
        if (old == 0 || new == 0)
@@ -136,6 +136,17 @@ static bool pgattr_change_is_safe(u64 old, u64 new)
        if (old & ~new & PTE_NG)
                return false;
 
+       /*
+        * Changing the memory type between Normal and Normal-Tagged is safe
+        * since Tagged is considered a permission attribute from the
+        * mismatched attribute aliases perspective.
+        */
+       if (((old & PTE_ATTRINDX_MASK) == PTE_ATTRINDX(MT_NORMAL) ||
+            (old & PTE_ATTRINDX_MASK) == PTE_ATTRINDX(MT_NORMAL_TAGGED)) &&
+           ((new & PTE_ATTRINDX_MASK) == PTE_ATTRINDX(MT_NORMAL) ||
+            (new & PTE_ATTRINDX_MASK) == PTE_ATTRINDX(MT_NORMAL_TAGGED)))
+               mask |= PTE_ATTRINDX_MASK;
+
        return ((old ^ new) & ~mask) == 0;
 }
 
@@ -491,7 +502,12 @@ static void __init map_mem(pgd_t *pgdp)
                if (memblock_is_nomap(reg))
                        continue;
 
-               __map_memblock(pgdp, start, end, PAGE_KERNEL, flags);
+               /*
+                * The linear map must allow allocation tags reading/writing
+                * if MTE is present. Otherwise, it has the same attributes as
+                * PAGE_KERNEL.
+                */
+               __map_memblock(pgdp, start, end, PAGE_KERNEL_TAGGED, flags);
        }
 
        /*
diff --git a/arch/arm64/mm/mteswap.c b/arch/arm64/mm/mteswap.c
new file mode 100644 (file)
index 0000000..c52c184
--- /dev/null
@@ -0,0 +1,83 @@
+// SPDX-License-Identifier: GPL-2.0-only
+
+#include <linux/pagemap.h>
+#include <linux/xarray.h>
+#include <linux/slab.h>
+#include <linux/swap.h>
+#include <linux/swapops.h>
+#include <asm/mte.h>
+
+static DEFINE_XARRAY(mte_pages);
+
+void *mte_allocate_tag_storage(void)
+{
+       /* tags granule is 16 bytes, 2 tags stored per byte */
+       return kmalloc(PAGE_SIZE / 16 / 2, GFP_KERNEL);
+}
+
+void mte_free_tag_storage(char *storage)
+{
+       kfree(storage);
+}
+
+int mte_save_tags(struct page *page)
+{
+       void *tag_storage, *ret;
+
+       if (!test_bit(PG_mte_tagged, &page->flags))
+               return 0;
+
+       tag_storage = mte_allocate_tag_storage();
+       if (!tag_storage)
+               return -ENOMEM;
+
+       mte_save_page_tags(page_address(page), tag_storage);
+
+       /* page_private contains the swap entry.val set in do_swap_page */
+       ret = xa_store(&mte_pages, page_private(page), tag_storage, GFP_KERNEL);
+       if (WARN(xa_is_err(ret), "Failed to store MTE tags")) {
+               mte_free_tag_storage(tag_storage);
+               return xa_err(ret);
+       } else if (ret) {
+               /* Entry is being replaced, free the old entry */
+               mte_free_tag_storage(ret);
+       }
+
+       return 0;
+}
+
+bool mte_restore_tags(swp_entry_t entry, struct page *page)
+{
+       void *tags = xa_load(&mte_pages, entry.val);
+
+       if (!tags)
+               return false;
+
+       mte_restore_page_tags(page_address(page), tags);
+
+       return true;
+}
+
+void mte_invalidate_tags(int type, pgoff_t offset)
+{
+       swp_entry_t entry = swp_entry(type, offset);
+       void *tags = xa_erase(&mte_pages, entry.val);
+
+       mte_free_tag_storage(tags);
+}
+
+void mte_invalidate_tags_area(int type)
+{
+       swp_entry_t entry = swp_entry(type, 0);
+       swp_entry_t last_entry = swp_entry(type + 1, 0);
+       void *tags;
+
+       XA_STATE(xa_state, &mte_pages, entry.val);
+
+       xa_lock(&mte_pages);
+       xas_for_each(&xa_state, tags, last_entry.val - 1) {
+               __xa_erase(&mte_pages, xa_state.xa_index);
+               mte_free_tag_storage(tags);
+       }
+       xa_unlock(&mte_pages);
+}
index 73f8b49..676deb2 100644 (file)
@@ -46,7 +46,11 @@ EXPORT_SYMBOL(node_to_cpumask_map);
  */
 const struct cpumask *cpumask_of_node(int node)
 {
-       if (WARN_ON(node >= nr_node_ids))
+
+       if (node == NUMA_NO_NODE)
+               return cpu_all_mask;
+
+       if (WARN_ON(node < 0 || node >= nr_node_ids))
                return cpu_none_mask;
 
        if (WARN_ON(node_to_cpumask_map[node] == NULL))
@@ -448,7 +452,7 @@ static int __init dummy_numa_init(void)
  * arm64_numa_init() - Initialize NUMA
  *
  * Try each configured NUMA initialization method until one succeeds. The
- * last fallback is dummy single node config encomapssing whole memory.
+ * last fallback is dummy single node config encompassing whole memory.
  */
 void __init arm64_numa_init(void)
 {
index 23f648c..1b94f5b 100644 (file)
@@ -8,6 +8,7 @@
 #include <linux/sched.h>
 #include <linux/vmalloc.h>
 
+#include <asm/cacheflush.h>
 #include <asm/set_memory.h>
 #include <asm/tlbflush.h>
 
index 796e47a..23c326a 100644 (file)
@@ -18,6 +18,7 @@
 #include <asm/cpufeature.h>
 #include <asm/alternative.h>
 #include <asm/smp.h>
+#include <asm/sysreg.h>
 
 #ifdef CONFIG_ARM64_64K_PAGES
 #define TCR_TG_FLAGS   TCR_TG0_64K | TCR_TG1_64K
 #define TCR_KASAN_FLAGS 0
 #endif
 
-/* Default MAIR_EL1 */
+/*
+ * Default MAIR_EL1. MT_NORMAL_TAGGED is initially mapped as Normal memory and
+ * changed during __cpu_setup to Normal Tagged if the system supports MTE.
+ */
 #define MAIR_EL1_SET                                                   \
        (MAIR_ATTRIDX(MAIR_ATTR_DEVICE_nGnRnE, MT_DEVICE_nGnRnE) |      \
         MAIR_ATTRIDX(MAIR_ATTR_DEVICE_nGnRE, MT_DEVICE_nGnRE) |        \
         MAIR_ATTRIDX(MAIR_ATTR_DEVICE_GRE, MT_DEVICE_GRE) |            \
         MAIR_ATTRIDX(MAIR_ATTR_NORMAL_NC, MT_NORMAL_NC) |              \
         MAIR_ATTRIDX(MAIR_ATTR_NORMAL, MT_NORMAL) |                    \
-        MAIR_ATTRIDX(MAIR_ATTR_NORMAL_WT, MT_NORMAL_WT))
+        MAIR_ATTRIDX(MAIR_ATTR_NORMAL_WT, MT_NORMAL_WT) |              \
+        MAIR_ATTRIDX(MAIR_ATTR_NORMAL, MT_NORMAL_TAGGED))
 
 #ifdef CONFIG_CPU_PM
 /**
@@ -421,6 +426,29 @@ SYM_FUNC_START(__cpu_setup)
         * Memory region attributes
         */
        mov_q   x5, MAIR_EL1_SET
+#ifdef CONFIG_ARM64_MTE
+       /*
+        * Update MAIR_EL1, GCR_EL1 and TFSR*_EL1 if MTE is supported
+        * (ID_AA64PFR1_EL1[11:8] > 1).
+        */
+       mrs     x10, ID_AA64PFR1_EL1
+       ubfx    x10, x10, #ID_AA64PFR1_MTE_SHIFT, #4
+       cmp     x10, #ID_AA64PFR1_MTE
+       b.lt    1f
+
+       /* Normal Tagged memory type at the corresponding MAIR index */
+       mov     x10, #MAIR_ATTR_NORMAL_TAGGED
+       bfi     x5, x10, #(8 *  MT_NORMAL_TAGGED), #8
+
+       /* initialize GCR_EL1: all non-zero tags excluded by default */
+       mov     x10, #(SYS_GCR_EL1_RRND | SYS_GCR_EL1_EXCL_MASK)
+       msr_s   SYS_GCR_EL1, x10
+
+       /* clear any pending tag check faults in TFSR*_EL1 */
+       msr_s   SYS_TFSR_EL1, xzr
+       msr_s   SYS_TFSRE0_EL1, xzr
+1:
+#endif
        msr     mair_el1, x5
        /*
         * Set/prepare TCR and TTBR. We use 512GB (39-bit) address range for
similarity index 97%
rename from arch/arm64/mm/dump.c
rename to arch/arm64/mm/ptdump.c
index 0b8da1c..807dc63 100644 (file)
@@ -41,6 +41,8 @@ static struct addr_marker address_markers[] = {
        { 0 /* KASAN_SHADOW_START */,   "Kasan shadow start" },
        { KASAN_SHADOW_END,             "Kasan shadow end" },
 #endif
+       { BPF_JIT_REGION_START,         "BPF start" },
+       { BPF_JIT_REGION_END,           "BPF end" },
        { MODULES_VADDR,                "Modules start" },
        { MODULES_END,                  "Modules end" },
        { VMALLOC_START,                "vmalloc() area" },
@@ -169,6 +171,10 @@ static const struct prot_bits pte_bits[] = {
                .mask   = PTE_ATTRINDX_MASK,
                .val    = PTE_ATTRINDX(MT_NORMAL),
                .set    = "MEM/NORMAL",
+       }, {
+               .mask   = PTE_ATTRINDX_MASK,
+               .val    = PTE_ATTRINDX(MT_NORMAL_TAGGED),
+               .set    = "MEM/NORMAL-TAGGED",
        }
 };
 
index 36770b8..934918d 100644 (file)
@@ -26,6 +26,9 @@ csum_tcpudp_nofold(__be32 saddr, __be32 daddr, __u32 len,
 }
 #define csum_tcpudp_nofold csum_tcpudp_nofold
 
+#define _HAVE_ARCH_CSUM_AND_COPY
+extern __wsum csum_partial_copy_nocheck(const void *src, void *dst, int len);
+
 #include <asm-generic/checksum.h>
 
 #endif /* _ASM_C6X_CHECKSUM_H */
index 9c07127..5714886 100644 (file)
@@ -24,7 +24,6 @@
 ENTRY(csum_partial_copy_nocheck)
        MVC     .S2     ILC,B30
 
-       MV      .D1X    B6,A31          ; given csum
        ZERO    .D1     A9              ; csum (a side)
 ||     ZERO    .D2     B9              ; csum (b side)
 ||     SHRU    .S2X    A6,2,B5         ; len / 4
@@ -144,8 +143,7 @@ L91:        SHRU    .S2X    A9,16,B4
        SHRU    .S1     A9,16,A0
    [A0]        BNOP    .S1     L91,5
 
-L10:   ADD     .D1     A31,A9,A9
-       MV      .D1     A9,A4
+L10:   MV      .D1     A9,A4
 
        BNOP    .S2     B3,4
        MVC     .S2     B30,ILC
index f0f733b..589f090 100644 (file)
@@ -404,87 +404,14 @@ int __init arch_populate_kprobe_blacklist(void)
 
 void __kprobes __used *trampoline_probe_handler(struct pt_regs *regs)
 {
-       struct kretprobe_instance *ri = NULL;
-       struct hlist_head *head, empty_rp;
-       struct hlist_node *tmp;
-       unsigned long flags, orig_ret_address = 0;
-       unsigned long trampoline_address =
-               (unsigned long)&kretprobe_trampoline;
-       kprobe_opcode_t *correct_ret_addr = NULL;
-
-       INIT_HLIST_HEAD(&empty_rp);
-       kretprobe_hash_lock(current, &head, &flags);
-
-       /*
-        * It is possible to have multiple instances associated with a given
-        * task either because multiple functions in the call path have
-        * return probes installed on them, and/or more than one
-        * return probe was registered for a target function.
-        *
-        * We can handle this because:
-        *     - instances are always pushed into the head of the list
-        *     - when multiple return probes are registered for the same
-        *       function, the (chronologically) first instance's ret_addr
-        *       will be the real return address, and all the rest will
-        *       point to kretprobe_trampoline.
-        */
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       kretprobe_assert(ri, orig_ret_address, trampoline_address);
-
-       correct_ret_addr = ri->ret_addr;
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-               if (ri->rp && ri->rp->handler) {
-                       __this_cpu_write(current_kprobe, &ri->rp->kp);
-                       get_kprobe_ctlblk()->kprobe_status = KPROBE_HIT_ACTIVE;
-                       ri->ret_addr = correct_ret_addr;
-                       ri->rp->handler(ri, regs);
-                       __this_cpu_write(current_kprobe, NULL);
-               }
-
-               recycle_rp_inst(ri, &empty_rp);
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       kretprobe_hash_unlock(current, &flags);
-
-       hlist_for_each_entry_safe(ri, tmp, &empty_rp, hlist) {
-               hlist_del(&ri->hlist);
-               kfree(ri);
-       }
-       return (void *)orig_ret_address;
+       return (void *)kretprobe_trampoline_handler(regs, &kretprobe_trampoline, NULL);
 }
 
 void __kprobes arch_prepare_kretprobe(struct kretprobe_instance *ri,
                                      struct pt_regs *regs)
 {
        ri->ret_addr = (kprobe_opcode_t *)regs->lr;
+       ri->fp = NULL;
        regs->lr = (unsigned long) &kretprobe_trampoline;
 }
 
index f05b413..f03033e 100644 (file)
@@ -109,6 +109,7 @@ SECTIONS
 
        STABS_DEBUG
        DWARF_DEBUG
+       ELF_DETAILS
 
        DISCARDS
 }
index a5c42f4..4bc6ad9 100644 (file)
 unsigned int do_csum(const void *voidptr, int len);
 
 /*
- * the same as csum_partial, but copies from src while it
- * checksums
- *
- * here even more important to align src and dst on a 32-bit (or even
- * better 64-bit) boundary
- */
-#define csum_partial_copy_nocheck csum_partial_copy_nocheck
-__wsum csum_partial_copy_nocheck(const void *src, void *dst,
-                                       int len, __wsum sum);
-
-/*
  * computes the checksum of the TCP/UDP pseudo-header
  * returns a 16-bit checksum, already complemented
  */
index 0ca2471..35b18e5 100644 (file)
@@ -67,5 +67,6 @@ SECTIONS
 
        STABS_DEBUG
        DWARF_DEBUG
+       ELF_DETAILS
 
 }
index c4a6b72..ba50822 100644 (file)
@@ -176,14 +176,3 @@ unsigned int do_csum(const void *voidptr, int len)
 
        return 0xFFFF & sum0;
 }
-
-/*
- * copy from ds while checksumming, otherwise like csum_partial
- */
-__wsum
-csum_partial_copy_nocheck(const void *src, void *dst, int len, __wsum sum)
-{
-       memcpy(dst, src, len);
-       return csum_partial(dst, len, sum);
-}
-EXPORT_SYMBOL(csum_partial_copy_nocheck);
index 5b4ec80..996c410 100644 (file)
@@ -56,6 +56,7 @@ config IA64
        select NEED_DMA_MAP_STATE
        select NEED_SG_DMA_LENGTH
        select NUMA if !FLATMEM
+       select PCI_MSI_ARCH_FALLBACKS if PCI_MSI
        default y
        help
          The Itanium Processor Family is Intel's 64-bit successor to
@@ -362,15 +363,6 @@ config ARCH_PROC_KCORE_TEXT
 config IA64_MCA_RECOVERY
        tristate "MCA recovery from errors other than TLB."
 
-config PERFMON
-       bool "Performance monitor support"
-       depends on BROKEN
-       help
-         Selects whether support for the IA-64 performance monitor hardware
-         is included in the kernel.  This makes some kernel data-structures a
-         little bigger and slows down execution a bit, but it is generally
-         a good idea to turn this on.  If you're unsure, say Y.
-
 config IA64_PALINFO
        tristate "/proc/pal support"
        help
index f3ba813..cfed5ed 100644 (file)
@@ -11,7 +11,6 @@ CONFIG_SMP=y
 CONFIG_NR_CPUS=2
 CONFIG_PREEMPT=y
 # CONFIG_VIRTUAL_MEM_MAP is not set
-CONFIG_PERFMON=y
 CONFIG_IA64_PALINFO=y
 CONFIG_EFI_VARS=y
 CONFIG_BINFMT_MISC=m
@@ -27,10 +26,9 @@ CONFIG_BLK_DEV_LOOP=m
 CONFIG_BLK_DEV_CRYPTOLOOP=m
 CONFIG_BLK_DEV_NBD=m
 CONFIG_BLK_DEV_RAM=m
-CONFIG_IDE=m
-CONFIG_BLK_DEV_IDECD=m
-CONFIG_BLK_DEV_GENERIC=m
-CONFIG_BLK_DEV_PIIX=m
+CONFIG_ATA=m
+CONFIG_ATA_GENERIC=m
+CONFIG_ATA_PIIX=m
 CONFIG_SCSI=y
 CONFIG_BLK_DEV_SD=y
 CONFIG_SCSI_CONSTANTS=y
index cb267a0..ca0d596 100644 (file)
@@ -18,7 +18,6 @@ CONFIG_IA64_CYCLONE=y
 CONFIG_SMP=y
 CONFIG_HOTPLUG_CPU=y
 CONFIG_IA64_MCA_RECOVERY=y
-CONFIG_PERFMON=y
 CONFIG_IA64_PALINFO=y
 CONFIG_KEXEC=y
 CONFIG_CRASH_DUMP=y
@@ -45,11 +44,10 @@ CONFIG_BLK_DEV_CRYPTOLOOP=m
 CONFIG_BLK_DEV_NBD=m
 CONFIG_BLK_DEV_RAM=y
 CONFIG_SGI_XP=m
-CONFIG_IDE=y
-CONFIG_BLK_DEV_IDECD=y
-CONFIG_BLK_DEV_GENERIC=y
-CONFIG_BLK_DEV_CMD64X=y
-CONFIG_BLK_DEV_PIIX=y
+CONFIG_ATA=y
+CONFIG_ATA_GENERIC=y
+CONFIG_PATA_CMD64X=y
+CONFIG_ATA_PIIX=y
 CONFIG_BLK_DEV_SD=y
 CONFIG_CHR_DEV_ST=m
 CONFIG_BLK_DEV_SR=m
index 7e25f2f..281eb9c 100644 (file)
@@ -17,7 +17,6 @@ CONFIG_NR_CPUS=512
 CONFIG_HOTPLUG_CPU=y
 CONFIG_SPARSEMEM_MANUAL=y
 CONFIG_IA64_MCA_RECOVERY=y
-CONFIG_PERFMON=y
 CONFIG_IA64_PALINFO=y
 CONFIG_EFI_VARS=y
 CONFIG_BINFMT_MISC=m
@@ -36,12 +35,11 @@ CONFIG_BLK_DEV_LOOP=m
 CONFIG_BLK_DEV_CRYPTOLOOP=m
 CONFIG_BLK_DEV_NBD=m
 CONFIG_BLK_DEV_RAM=y
-CONFIG_IDE=y
+CONFIG_ATA=y
 CONFIG_BLK_DEV_IDECD=y
-CONFIG_IDE_GENERIC=y
-CONFIG_BLK_DEV_GENERIC=y
-CONFIG_BLK_DEV_CMD64X=y
-CONFIG_BLK_DEV_PIIX=y
+CONFIG_ATA_GENERIC=y
+CONFIG_PATA_CMD64X=y
+CONFIG_ATA_PIIX=y
 CONFIG_SCSI=y
 CONFIG_BLK_DEV_SD=y
 CONFIG_CHR_DEV_ST=m
index 3f486d5..b4f9819 100644 (file)
@@ -21,7 +21,6 @@ CONFIG_HOTPLUG_CPU=y
 CONFIG_PERMIT_BSP_REMOVE=y
 CONFIG_FORCE_CPEI_RETARGET=y
 CONFIG_IA64_MCA_RECOVERY=y
-CONFIG_PERFMON=y
 CONFIG_IA64_PALINFO=y
 CONFIG_KEXEC=y
 CONFIG_EFI_VARS=y
@@ -41,11 +40,10 @@ CONFIG_BLK_DEV_LOOP=m
 CONFIG_BLK_DEV_CRYPTOLOOP=m
 CONFIG_BLK_DEV_NBD=m
 CONFIG_BLK_DEV_RAM=y
-CONFIG_IDE=y
-CONFIG_BLK_DEV_IDECD=y
-CONFIG_BLK_DEV_GENERIC=y
-CONFIG_BLK_DEV_CMD64X=y
-CONFIG_BLK_DEV_PIIX=y
+CONFIG_ATA=y
+CONFIG_ATA_GENERIC=y
+CONFIG_PATA_CMD64X=y
+CONFIG_ATA_PIIX=y
 CONFIG_SCSI=y
 CONFIG_BLK_DEV_SD=y
 CONFIG_CHR_DEV_ST=m
index 261e98e..629cb9c 100644 (file)
@@ -10,7 +10,6 @@ CONFIG_NR_CPUS=16
 CONFIG_HOTPLUG_CPU=y
 CONFIG_FLATMEM_MANUAL=y
 CONFIG_IA64_MCA_RECOVERY=y
-CONFIG_PERFMON=y
 CONFIG_IA64_PALINFO=y
 CONFIG_CRASH_DUMP=y
 CONFIG_EFI_VARS=y
@@ -26,10 +25,9 @@ CONFIG_IP_MULTICAST=y
 CONFIG_NETFILTER=y
 CONFIG_BLK_DEV_LOOP=y
 CONFIG_BLK_DEV_RAM=y
-CONFIG_IDE=y
-CONFIG_BLK_DEV_IDECD=y
-CONFIG_BLK_DEV_GENERIC=y
-CONFIG_BLK_DEV_CMD64X=y
+CONFIG_ATA=y
+CONFIG_ATA_GENERIC=y
+CONFIG_PATA_CMD64X=y
 CONFIG_SCSI=y
 CONFIG_BLK_DEV_SD=y
 CONFIG_CHR_DEV_ST=y
index 2a1c646..f302621 100644 (file)
@@ -37,9 +37,6 @@ extern __wsum csum_tcpudp_nofold(__be32 saddr, __be32 daddr,
  */
 extern __wsum csum_partial(const void *buff, int len, __wsum sum);
 
-extern __wsum csum_partial_copy_nocheck(const void *src, void *dst,
-                                              int len, __wsum sum);
-
 /*
  * This routine is used for miscellaneous IP-like checksums, mainly in
  * icmp.c
index 95a2ec3..2d8bcdc 100644 (file)
@@ -280,15 +280,6 @@ struct thread_struct {
        __u64 map_base;                 /* base address for get_unmapped_area() */
        __u64 rbs_bot;                  /* the base address for the RBS */
        int last_fph_cpu;               /* CPU that may hold the contents of f32-f127 */
-
-#ifdef CONFIG_PERFMON
-       void *pfm_context;                   /* pointer to detailed PMU context */
-       unsigned long pfm_needs_checking;    /* when >0, pending perfmon work on kernel exit */
-# define INIT_THREAD_PM                .pfm_context =          NULL,     \
-                               .pfm_needs_checking =   0UL,
-#else
-# define INIT_THREAD_PM
-#endif
        unsigned long dbr[IA64_NUM_DBG_REGS];
        unsigned long ibr[IA64_NUM_DBG_REGS];
        struct ia64_fpreg fph[96];      /* saved/loaded on demand */
@@ -301,7 +292,6 @@ struct thread_struct {
        .map_base =     DEFAULT_MAP_BASE,                       \
        .rbs_bot =      STACK_TOP - DEFAULT_USER_STACK_SIZE,    \
        .last_fph_cpu =  -1,                                    \
-       INIT_THREAD_PM                                          \
        .dbr =          {0, },                                  \
        .ibr =          {0, },                                  \
        .fph =          {{{{0}}}, }                             \
index 9011e90..a5a4e09 100644 (file)
@@ -31,16 +31,8 @@ extern struct task_struct *ia64_switch_to (void *next_task);
 extern void ia64_save_extra (struct task_struct *task);
 extern void ia64_load_extra (struct task_struct *task);
 
-#ifdef CONFIG_PERFMON
-  DECLARE_PER_CPU(unsigned long, pfm_syst_info);
-# define PERFMON_IS_SYSWIDE() (__this_cpu_read(pfm_syst_info) & 0x1)
-#else
-# define PERFMON_IS_SYSWIDE() (0)
-#endif
-
 #define IA64_HAS_EXTRA_STATE(t)                                                        \
-       ((t)->thread.flags & (IA64_THREAD_DBG_VALID|IA64_THREAD_PM_VALID)       \
-        || PERFMON_IS_SYSWIDE())
+       ((t)->thread.flags & (IA64_THREAD_DBG_VALID|IA64_THREAD_PM_VALID))
 
 #define __switch_to(prev,next,last) do {                                                        \
        if (IA64_HAS_EXTRA_STATE(prev))                                                          \
index 1a8df66..81901c5 100644 (file)
@@ -10,7 +10,7 @@ endif
 extra-y        := head.o vmlinux.lds
 
 obj-y := entry.o efi.o efi_stub.o gate-data.o fsys.o ia64_ksyms.o irq.o irq_ia64.o     \
-        irq_lsapic.o ivt.o pal.o patch.o process.o perfmon.o ptrace.o sal.o            \
+        irq_lsapic.o ivt.o pal.o patch.o process.o ptrace.o sal.o              \
         salinfo.o setup.o signal.o sys_ia64.o time.o traps.o unaligned.o \
         unwind.o mca.o mca_asm.o topology.o dma-mapping.o iosapic.o acpi.o \
         acpi-ext.o
@@ -21,7 +21,6 @@ obj-$(CONFIG_IA64_PALINFO)    += palinfo.o
 obj-$(CONFIG_MODULES)          += module.o
 obj-$(CONFIG_SMP)              += smp.o smpboot.o
 obj-$(CONFIG_NUMA)             += numa.o
-obj-$(CONFIG_PERFMON)          += perfmon_default_smpl.o
 obj-$(CONFIG_IA64_CYCLONE)     += cyclone.o
 obj-$(CONFIG_IA64_MCA_RECOVERY)        += mca_recovery.o
 obj-$(CONFIG_KPROBES)          += kprobes.o
index 6fff934..46e33c5 100644 (file)
 #include <asm/hw_irq.h>
 #include <asm/tlbflush.h>
 
-#ifdef CONFIG_PERFMON
-# include <asm/perfmon.h>
-#endif
-
 #define IRQ_DEBUG      0
 
 #define IRQ_VECTOR_UNASSIGNED  (0)
@@ -627,9 +623,6 @@ init_IRQ (void)
                                    "irq_move");
        }
 #endif
-#ifdef CONFIG_PERFMON
-       pfm_init_percpu();
-#endif
 }
 
 void
index 7a7df94..fc1ff8a 100644 (file)
@@ -396,83 +396,9 @@ static void kretprobe_trampoline(void)
 {
 }
 
-/*
- * At this point the target function has been tricked into
- * returning into our trampoline.  Lookup the associated instance
- * and then:
- *    - call the handler function
- *    - cleanup by marking the instance as unused
- *    - long jump back to the original return address
- */
 int __kprobes trampoline_probe_handler(struct kprobe *p, struct pt_regs *regs)
 {
-       struct kretprobe_instance *ri = NULL;
-       struct hlist_head *head, empty_rp;
-       struct hlist_node *tmp;
-       unsigned long flags, orig_ret_address = 0;
-       unsigned long trampoline_address =
-               ((struct fnptr *)kretprobe_trampoline)->ip;
-
-       INIT_HLIST_HEAD(&empty_rp);
-       kretprobe_hash_lock(current, &head, &flags);
-
-       /*
-        * It is possible to have multiple instances associated with a given
-        * task either because an multiple functions in the call path
-        * have a return probe installed on them, and/or more than one return
-        * return probe was registered for a target function.
-        *
-        * We can handle this because:
-        *     - instances are always inserted at the head of the list
-        *     - when multiple return probes are registered for the same
-        *       function, the first instance's ret_addr will point to the
-        *       real return address, and all the rest will point to
-        *       kretprobe_trampoline
-        */
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       regs->cr_iip = orig_ret_address;
-
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               if (ri->rp && ri->rp->handler)
-                       ri->rp->handler(ri, regs);
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-               recycle_rp_inst(ri, &empty_rp);
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-       kretprobe_assert(ri, orig_ret_address, trampoline_address);
-
-       kretprobe_hash_unlock(current, &flags);
-
-       hlist_for_each_entry_safe(ri, tmp, &empty_rp, hlist) {
-               hlist_del(&ri->hlist);
-               kfree(ri);
-       }
+       regs->cr_iip = __kretprobe_trampoline_handler(regs, kretprobe_trampoline, NULL);
        /*
         * By returning a non-zero value, we are telling
         * kprobe_handler() that we don't want the post_handler
@@ -485,6 +411,7 @@ void __kprobes arch_prepare_kretprobe(struct kretprobe_instance *ri,
                                      struct pt_regs *regs)
 {
        ri->ret_addr = (kprobe_opcode_t *)regs->b0;
+       ri->fp = NULL;
 
        /* Replace the return addr with trampoline addr */
        regs->b0 = ((struct fnptr *)kretprobe_trampoline)->ip;
diff --git a/arch/ia64/kernel/perfmon.c b/arch/ia64/kernel/perfmon.c
deleted file mode 100644 (file)
index 0dc3611..0000000
+++ /dev/null
@@ -1,6703 +0,0 @@
-// SPDX-License-Identifier: GPL-2.0-only
-/*
- * This file implements the perfmon-2 subsystem which is used
- * to program the IA-64 Performance Monitoring Unit (PMU).
- *
- * The initial version of perfmon.c was written by
- * Ganesh Venkitachalam, IBM Corp.
- *
- * Then it was modified for perfmon-1.x by Stephane Eranian and
- * David Mosberger, Hewlett Packard Co.
- *
- * Version Perfmon-2.x is a rewrite of perfmon-1.x
- * by Stephane Eranian, Hewlett Packard Co.
- *
- * Copyright (C) 1999-2005  Hewlett Packard Co
- *               Stephane Eranian <eranian@hpl.hp.com>
- *               David Mosberger-Tang <davidm@hpl.hp.com>
- *
- * More information about perfmon available at:
- *     http://www.hpl.hp.com/research/linux/perfmon
- */
-
-#include <linux/module.h>
-#include <linux/kernel.h>
-#include <linux/sched.h>
-#include <linux/sched/task.h>
-#include <linux/sched/task_stack.h>
-#include <linux/interrupt.h>
-#include <linux/proc_fs.h>
-#include <linux/seq_file.h>
-#include <linux/init.h>
-#include <linux/vmalloc.h>
-#include <linux/mm.h>
-#include <linux/sysctl.h>
-#include <linux/list.h>
-#include <linux/file.h>
-#include <linux/poll.h>
-#include <linux/vfs.h>
-#include <linux/smp.h>
-#include <linux/pagemap.h>
-#include <linux/mount.h>
-#include <linux/pseudo_fs.h>
-#include <linux/bitops.h>
-#include <linux/capability.h>
-#include <linux/rcupdate.h>
-#include <linux/completion.h>
-#include <linux/tracehook.h>
-#include <linux/slab.h>
-#include <linux/cpu.h>
-
-#include <asm/errno.h>
-#include <asm/intrinsics.h>
-#include <asm/page.h>
-#include <asm/perfmon.h>
-#include <asm/processor.h>
-#include <asm/signal.h>
-#include <linux/uaccess.h>
-#include <asm/delay.h>
-
-#include "irq.h"
-
-#ifdef CONFIG_PERFMON
-/*
- * perfmon context state
- */
-#define PFM_CTX_UNLOADED       1       /* context is not loaded onto any task */
-#define PFM_CTX_LOADED         2       /* context is loaded onto a task */
-#define PFM_CTX_MASKED         3       /* context is loaded but monitoring is masked due to overflow */
-#define PFM_CTX_ZOMBIE         4       /* owner of the context is closing it */
-
-#define PFM_INVALID_ACTIVATION (~0UL)
-
-#define PFM_NUM_PMC_REGS       64      /* PMC save area for ctxsw */
-#define PFM_NUM_PMD_REGS       64      /* PMD save area for ctxsw */
-
-/*
- * depth of message queue
- */
-#define PFM_MAX_MSGS           32
-#define PFM_CTXQ_EMPTY(g)      ((g)->ctx_msgq_head == (g)->ctx_msgq_tail)
-
-/*
- * type of a PMU register (bitmask).
- * bitmask structure:
- *     bit0   : register implemented
- *     bit1   : end marker
- *     bit2-3 : reserved
- *     bit4   : pmc has pmc.pm
- *     bit5   : pmc controls a counter (has pmc.oi), pmd is used as counter
- *     bit6-7 : register type
- *     bit8-31: reserved
- */
-#define PFM_REG_NOTIMPL                0x0 /* not implemented at all */
-#define PFM_REG_IMPL           0x1 /* register implemented */
-#define PFM_REG_END            0x2 /* end marker */
-#define PFM_REG_MONITOR                (0x1<<4|PFM_REG_IMPL) /* a PMC with a pmc.pm field only */
-#define PFM_REG_COUNTING       (0x2<<4|PFM_REG_MONITOR) /* a monitor + pmc.oi+ PMD used as a counter */
-#define PFM_REG_CONTROL                (0x4<<4|PFM_REG_IMPL) /* PMU control register */
-#define        PFM_REG_CONFIG          (0x8<<4|PFM_REG_IMPL) /* configuration register */
-#define PFM_REG_BUFFER         (0xc<<4|PFM_REG_IMPL) /* PMD used as buffer */
-
-#define PMC_IS_LAST(i) (pmu_conf->pmc_desc[i].type & PFM_REG_END)
-#define PMD_IS_LAST(i) (pmu_conf->pmd_desc[i].type & PFM_REG_END)
-
-#define PMC_OVFL_NOTIFY(ctx, i)        ((ctx)->ctx_pmds[i].flags &  PFM_REGFL_OVFL_NOTIFY)
-
-/* i assumed unsigned */
-#define PMC_IS_IMPL(i)   (i< PMU_MAX_PMCS && (pmu_conf->pmc_desc[i].type & PFM_REG_IMPL))
-#define PMD_IS_IMPL(i)   (i< PMU_MAX_PMDS && (pmu_conf->pmd_desc[i].type & PFM_REG_IMPL))
-
-/* XXX: these assume that register i is implemented */
-#define PMD_IS_COUNTING(i) ((pmu_conf->pmd_desc[i].type & PFM_REG_COUNTING) == PFM_REG_COUNTING)
-#define PMC_IS_COUNTING(i) ((pmu_conf->pmc_desc[i].type & PFM_REG_COUNTING) == PFM_REG_COUNTING)
-#define PMC_IS_MONITOR(i)  ((pmu_conf->pmc_desc[i].type & PFM_REG_MONITOR)  == PFM_REG_MONITOR)
-#define PMC_IS_CONTROL(i)  ((pmu_conf->pmc_desc[i].type & PFM_REG_CONTROL)  == PFM_REG_CONTROL)
-
-#define PMC_DFL_VAL(i)     pmu_conf->pmc_desc[i].default_value
-#define PMC_RSVD_MASK(i)   pmu_conf->pmc_desc[i].reserved_mask
-#define PMD_PMD_DEP(i)    pmu_conf->pmd_desc[i].dep_pmd[0]
-#define PMC_PMD_DEP(i)    pmu_conf->pmc_desc[i].dep_pmd[0]
-
-#define PFM_NUM_IBRS     IA64_NUM_DBG_REGS
-#define PFM_NUM_DBRS     IA64_NUM_DBG_REGS
-
-#define CTX_OVFL_NOBLOCK(c)    ((c)->ctx_fl_block == 0)
-#define CTX_HAS_SMPL(c)                ((c)->ctx_fl_is_sampling)
-#define PFM_CTX_TASK(h)                (h)->ctx_task
-
-#define PMU_PMC_OI             5 /* position of pmc.oi bit */
-
-/* XXX: does not support more than 64 PMDs */
-#define CTX_USED_PMD(ctx, mask) (ctx)->ctx_used_pmds[0] |= (mask)
-#define CTX_IS_USED_PMD(ctx, c) (((ctx)->ctx_used_pmds[0] & (1UL << (c))) != 0UL)
-
-#define CTX_USED_MONITOR(ctx, mask) (ctx)->ctx_used_monitors[0] |= (mask)
-
-#define CTX_USED_IBR(ctx,n)    (ctx)->ctx_used_ibrs[(n)>>6] |= 1UL<< ((n) % 64)
-#define CTX_USED_DBR(ctx,n)    (ctx)->ctx_used_dbrs[(n)>>6] |= 1UL<< ((n) % 64)
-#define CTX_USES_DBREGS(ctx)   (((pfm_context_t *)(ctx))->ctx_fl_using_dbreg==1)
-#define PFM_CODE_RR    0       /* requesting code range restriction */
-#define PFM_DATA_RR    1       /* requestion data range restriction */
-
-#define PFM_CPUINFO_CLEAR(v)   pfm_get_cpu_var(pfm_syst_info) &= ~(v)
-#define PFM_CPUINFO_SET(v)     pfm_get_cpu_var(pfm_syst_info) |= (v)
-#define PFM_CPUINFO_GET()      pfm_get_cpu_var(pfm_syst_info)
-
-#define RDEP(x)        (1UL<<(x))
-
-/*
- * context protection macros
- * in SMP:
- *     - we need to protect against CPU concurrency (spin_lock)
- *     - we need to protect against PMU overflow interrupts (local_irq_disable)
- * in UP:
- *     - we need to protect against PMU overflow interrupts (local_irq_disable)
- *
- * spin_lock_irqsave()/spin_unlock_irqrestore():
- *     in SMP: local_irq_disable + spin_lock
- *     in UP : local_irq_disable
- *
- * spin_lock()/spin_lock():
- *     in UP : removed automatically
- *     in SMP: protect against context accesses from other CPU. interrupts
- *             are not masked. This is useful for the PMU interrupt handler
- *             because we know we will not get PMU concurrency in that code.
- */
-#define PROTECT_CTX(c, f) \
-       do {  \
-               DPRINT(("spinlock_irq_save ctx %p by [%d]\n", c, task_pid_nr(current))); \
-               spin_lock_irqsave(&(c)->ctx_lock, f); \
-               DPRINT(("spinlocked ctx %p  by [%d]\n", c, task_pid_nr(current))); \
-       } while(0)
-
-#define UNPROTECT_CTX(c, f) \
-       do { \
-               DPRINT(("spinlock_irq_restore ctx %p by [%d]\n", c, task_pid_nr(current))); \
-               spin_unlock_irqrestore(&(c)->ctx_lock, f); \
-       } while(0)
-
-#define PROTECT_CTX_NOPRINT(c, f) \
-       do {  \
-               spin_lock_irqsave(&(c)->ctx_lock, f); \
-       } while(0)
-
-
-#define UNPROTECT_CTX_NOPRINT(c, f) \
-       do { \
-               spin_unlock_irqrestore(&(c)->ctx_lock, f); \
-       } while(0)
-
-
-#define PROTECT_CTX_NOIRQ(c) \
-       do {  \
-               spin_lock(&(c)->ctx_lock); \
-       } while(0)
-
-#define UNPROTECT_CTX_NOIRQ(c) \
-       do { \
-               spin_unlock(&(c)->ctx_lock); \
-       } while(0)
-
-
-#ifdef CONFIG_SMP
-
-#define GET_ACTIVATION()       pfm_get_cpu_var(pmu_activation_number)
-#define INC_ACTIVATION()       pfm_get_cpu_var(pmu_activation_number)++
-#define SET_ACTIVATION(c)      (c)->ctx_last_activation = GET_ACTIVATION()
-
-#else /* !CONFIG_SMP */
-#define SET_ACTIVATION(t)      do {} while(0)
-#define GET_ACTIVATION(t)      do {} while(0)
-#define INC_ACTIVATION(t)      do {} while(0)
-#endif /* CONFIG_SMP */
-
-#define SET_PMU_OWNER(t, c)    do { pfm_get_cpu_var(pmu_owner) = (t); pfm_get_cpu_var(pmu_ctx) = (c); } while(0)
-#define GET_PMU_OWNER()                pfm_get_cpu_var(pmu_owner)
-#define GET_PMU_CTX()          pfm_get_cpu_var(pmu_ctx)
-
-#define LOCK_PFS(g)            spin_lock_irqsave(&pfm_sessions.pfs_lock, g)
-#define UNLOCK_PFS(g)          spin_unlock_irqrestore(&pfm_sessions.pfs_lock, g)
-
-#define PFM_REG_RETFLAG_SET(flags, val)        do { flags &= ~PFM_REG_RETFL_MASK; flags |= (val); } while(0)
-
-/*
- * cmp0 must be the value of pmc0
- */
-#define PMC0_HAS_OVFL(cmp0)  (cmp0 & ~0x1UL)
-
-#define PFMFS_MAGIC 0xa0b4d889
-
-/*
- * debugging
- */
-#define PFM_DEBUGGING 1
-#ifdef PFM_DEBUGGING
-#define DPRINT(a) \
-       do { \
-               if (unlikely(pfm_sysctl.debug >0)) { printk("%s.%d: CPU%d [%d] ", __func__, __LINE__, smp_processor_id(), task_pid_nr(current)); printk a; } \
-       } while (0)
-
-#define DPRINT_ovfl(a) \
-       do { \
-               if (unlikely(pfm_sysctl.debug > 0 && pfm_sysctl.debug_ovfl >0)) { printk("%s.%d: CPU%d [%d] ", __func__, __LINE__, smp_processor_id(), task_pid_nr(current)); printk a; } \
-       } while (0)
-#endif
-
-/*
- * 64-bit software counter structure
- *
- * the next_reset_type is applied to the next call to pfm_reset_regs()
- */
-typedef struct {
-       unsigned long   val;            /* virtual 64bit counter value */
-       unsigned long   lval;           /* last reset value */
-       unsigned long   long_reset;     /* reset value on sampling overflow */
-       unsigned long   short_reset;    /* reset value on overflow */
-       unsigned long   reset_pmds[4];  /* which other pmds to reset when this counter overflows */
-       unsigned long   smpl_pmds[4];   /* which pmds are accessed when counter overflow */
-       unsigned long   seed;           /* seed for random-number generator */
-       unsigned long   mask;           /* mask for random-number generator */
-       unsigned int    flags;          /* notify/do not notify */
-       unsigned long   eventid;        /* overflow event identifier */
-} pfm_counter_t;
-
-/*
- * context flags
- */
-typedef struct {
-       unsigned int block:1;           /* when 1, task will blocked on user notifications */
-       unsigned int system:1;          /* do system wide monitoring */
-       unsigned int using_dbreg:1;     /* using range restrictions (debug registers) */
-       unsigned int is_sampling:1;     /* true if using a custom format */
-       unsigned int excl_idle:1;       /* exclude idle task in system wide session */
-       unsigned int going_zombie:1;    /* context is zombie (MASKED+blocking) */
-       unsigned int trap_reason:2;     /* reason for going into pfm_handle_work() */
-       unsigned int no_msg:1;          /* no message sent on overflow */
-       unsigned int can_restart:1;     /* allowed to issue a PFM_RESTART */
-       unsigned int reserved:22;
-} pfm_context_flags_t;
-
-#define PFM_TRAP_REASON_NONE           0x0     /* default value */
-#define PFM_TRAP_REASON_BLOCK          0x1     /* we need to block on overflow */
-#define PFM_TRAP_REASON_RESET          0x2     /* we need to reset PMDs */
-
-
-/*
- * perfmon context: encapsulates all the state of a monitoring session
- */
-
-typedef struct pfm_context {
-       spinlock_t              ctx_lock;               /* context protection */
-
-       pfm_context_flags_t     ctx_flags;              /* bitmask of flags  (block reason incl.) */
-       unsigned int            ctx_state;              /* state: active/inactive (no bitfield) */
-
-       struct task_struct      *ctx_task;              /* task to which context is attached */
-
-       unsigned long           ctx_ovfl_regs[4];       /* which registers overflowed (notification) */
-
-       struct completion       ctx_restart_done;       /* use for blocking notification mode */
-
-       unsigned long           ctx_used_pmds[4];       /* bitmask of PMD used            */
-       unsigned long           ctx_all_pmds[4];        /* bitmask of all accessible PMDs */
-       unsigned long           ctx_reload_pmds[4];     /* bitmask of force reload PMD on ctxsw in */
-
-       unsigned long           ctx_all_pmcs[4];        /* bitmask of all accessible PMCs */
-       unsigned long           ctx_reload_pmcs[4];     /* bitmask of force reload PMC on ctxsw in */
-       unsigned long           ctx_used_monitors[4];   /* bitmask of monitor PMC being used */
-
-       unsigned long           ctx_pmcs[PFM_NUM_PMC_REGS];     /*  saved copies of PMC values */
-
-       unsigned int            ctx_used_ibrs[1];               /* bitmask of used IBR (speedup ctxsw in) */
-       unsigned int            ctx_used_dbrs[1];               /* bitmask of used DBR (speedup ctxsw in) */
-       unsigned long           ctx_dbrs[IA64_NUM_DBG_REGS];    /* DBR values (cache) when not loaded */
-       unsigned long           ctx_ibrs[IA64_NUM_DBG_REGS];    /* IBR values (cache) when not loaded */
-
-       pfm_counter_t           ctx_pmds[PFM_NUM_PMD_REGS]; /* software state for PMDS */
-
-       unsigned long           th_pmcs[PFM_NUM_PMC_REGS];      /* PMC thread save state */
-       unsigned long           th_pmds[PFM_NUM_PMD_REGS];      /* PMD thread save state */
-
-       unsigned long           ctx_saved_psr_up;       /* only contains psr.up value */
-
-       unsigned long           ctx_last_activation;    /* context last activation number for last_cpu */
-       unsigned int            ctx_last_cpu;           /* CPU id of current or last CPU used (SMP only) */
-       unsigned int            ctx_cpu;                /* cpu to which perfmon is applied (system wide) */
-
-       int                     ctx_fd;                 /* file descriptor used my this context */
-       pfm_ovfl_arg_t          ctx_ovfl_arg;           /* argument to custom buffer format handler */
-
-       pfm_buffer_fmt_t        *ctx_buf_fmt;           /* buffer format callbacks */
-       void                    *ctx_smpl_hdr;          /* points to sampling buffer header kernel vaddr */
-       unsigned long           ctx_smpl_size;          /* size of sampling buffer */
-       void                    *ctx_smpl_vaddr;        /* user level virtual address of smpl buffer */
-
-       wait_queue_head_t       ctx_msgq_wait;
-       pfm_msg_t               ctx_msgq[PFM_MAX_MSGS];
-       int                     ctx_msgq_head;
-       int                     ctx_msgq_tail;
-       struct fasync_struct    *ctx_async_queue;
-
-       wait_queue_head_t       ctx_zombieq;            /* termination cleanup wait queue */
-} pfm_context_t;
-
-/*
- * magic number used to verify that structure is really
- * a perfmon context
- */
-#define PFM_IS_FILE(f)         ((f)->f_op == &pfm_file_ops)
-
-#define PFM_GET_CTX(t)         ((pfm_context_t *)(t)->thread.pfm_context)
-
-#ifdef CONFIG_SMP
-#define SET_LAST_CPU(ctx, v)   (ctx)->ctx_last_cpu = (v)
-#define GET_LAST_CPU(ctx)      (ctx)->ctx_last_cpu
-#else
-#define SET_LAST_CPU(ctx, v)   do {} while(0)
-#define GET_LAST_CPU(ctx)      do {} while(0)
-#endif
-
-
-#define ctx_fl_block           ctx_flags.block
-#define ctx_fl_system          ctx_flags.system
-#define ctx_fl_using_dbreg     ctx_flags.using_dbreg
-#define ctx_fl_is_sampling     ctx_flags.is_sampling
-#define ctx_fl_excl_idle       ctx_flags.excl_idle
-#define ctx_fl_going_zombie    ctx_flags.going_zombie
-#define ctx_fl_trap_reason     ctx_flags.trap_reason
-#define ctx_fl_no_msg          ctx_flags.no_msg
-#define ctx_fl_can_restart     ctx_flags.can_restart
-
-#define PFM_SET_WORK_PENDING(t, v)     do { (t)->thread.pfm_needs_checking = v; } while(0);
-#define PFM_GET_WORK_PENDING(t)                (t)->thread.pfm_needs_checking
-
-/*
- * global information about all sessions
- * mostly used to synchronize between system wide and per-process
- */
-typedef struct {
-       spinlock_t              pfs_lock;                  /* lock the structure */
-
-       unsigned int            pfs_task_sessions;         /* number of per task sessions */
-       unsigned int            pfs_sys_sessions;          /* number of per system wide sessions */
-       unsigned int            pfs_sys_use_dbregs;        /* incremented when a system wide session uses debug regs */
-       unsigned int            pfs_ptrace_use_dbregs;     /* incremented when a process uses debug regs */
-       struct task_struct      *pfs_sys_session[NR_CPUS]; /* point to task owning a system-wide session */
-} pfm_session_t;
-
-/*
- * information about a PMC or PMD.
- * dep_pmd[]: a bitmask of dependent PMD registers
- * dep_pmc[]: a bitmask of dependent PMC registers
- */
-typedef int (*pfm_reg_check_t)(struct task_struct *task, pfm_context_t *ctx, unsigned int cnum, unsigned long *val, struct pt_regs *regs);
-typedef struct {
-       unsigned int            type;
-       int                     pm_pos;
-       unsigned long           default_value;  /* power-on default value */
-       unsigned long           reserved_mask;  /* bitmask of reserved bits */
-       pfm_reg_check_t         read_check;
-       pfm_reg_check_t         write_check;
-       unsigned long           dep_pmd[4];
-       unsigned long           dep_pmc[4];
-} pfm_reg_desc_t;
-
-/* assume cnum is a valid monitor */
-#define PMC_PM(cnum, val)      (((val) >> (pmu_conf->pmc_desc[cnum].pm_pos)) & 0x1)
-
-/*
- * This structure is initialized at boot time and contains
- * a description of the PMU main characteristics.
- *
- * If the probe function is defined, detection is based
- * on its return value: 
- *     - 0 means recognized PMU
- *     - anything else means not supported
- * When the probe function is not defined, then the pmu_family field
- * is used and it must match the host CPU family such that:
- *     - cpu->family & config->pmu_family != 0
- */
-typedef struct {
-       unsigned long  ovfl_val;        /* overflow value for counters */
-
-       pfm_reg_desc_t *pmc_desc;       /* detailed PMC register dependencies descriptions */
-       pfm_reg_desc_t *pmd_desc;       /* detailed PMD register dependencies descriptions */
-
-       unsigned int   num_pmcs;        /* number of PMCS: computed at init time */
-       unsigned int   num_pmds;        /* number of PMDS: computed at init time */
-       unsigned long  impl_pmcs[4];    /* bitmask of implemented PMCS */
-       unsigned long  impl_pmds[4];    /* bitmask of implemented PMDS */
-
-       char          *pmu_name;        /* PMU family name */
-       unsigned int  pmu_family;       /* cpuid family pattern used to identify pmu */
-       unsigned int  flags;            /* pmu specific flags */
-       unsigned int  num_ibrs;         /* number of IBRS: computed at init time */
-       unsigned int  num_dbrs;         /* number of DBRS: computed at init time */
-       unsigned int  num_counters;     /* PMC/PMD counting pairs : computed at init time */
-       int           (*probe)(void);   /* customized probe routine */
-       unsigned int  use_rr_dbregs:1;  /* set if debug registers used for range restriction */
-} pmu_config_t;
-/*
- * PMU specific flags
- */
-#define PFM_PMU_IRQ_RESEND     1       /* PMU needs explicit IRQ resend */
-
-/*
- * debug register related type definitions
- */
-typedef struct {
-       unsigned long ibr_mask:56;
-       unsigned long ibr_plm:4;
-       unsigned long ibr_ig:3;
-       unsigned long ibr_x:1;
-} ibr_mask_reg_t;
-
-typedef struct {
-       unsigned long dbr_mask:56;
-       unsigned long dbr_plm:4;
-       unsigned long dbr_ig:2;
-       unsigned long dbr_w:1;
-       unsigned long dbr_r:1;
-} dbr_mask_reg_t;
-
-typedef union {
-       unsigned long  val;
-       ibr_mask_reg_t ibr;
-       dbr_mask_reg_t dbr;
-} dbreg_t;
-
-
-/*
- * perfmon command descriptions
- */
-typedef struct {
-       int             (*cmd_func)(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs);
-       char            *cmd_name;
-       int             cmd_flags;
-       unsigned int    cmd_narg;
-       size_t          cmd_argsize;
-       int             (*cmd_getsize)(void *arg, size_t *sz);
-} pfm_cmd_desc_t;
-
-#define PFM_CMD_FD             0x01    /* command requires a file descriptor */
-#define PFM_CMD_ARG_READ       0x02    /* command must read argument(s) */
-#define PFM_CMD_ARG_RW         0x04    /* command must read/write argument(s) */
-#define PFM_CMD_STOP           0x08    /* command does not work on zombie context */
-
-
-#define PFM_CMD_NAME(cmd)      pfm_cmd_tab[(cmd)].cmd_name
-#define PFM_CMD_READ_ARG(cmd)  (pfm_cmd_tab[(cmd)].cmd_flags & PFM_CMD_ARG_READ)
-#define PFM_CMD_RW_ARG(cmd)    (pfm_cmd_tab[(cmd)].cmd_flags & PFM_CMD_ARG_RW)
-#define PFM_CMD_USE_FD(cmd)    (pfm_cmd_tab[(cmd)].cmd_flags & PFM_CMD_FD)
-#define PFM_CMD_STOPPED(cmd)   (pfm_cmd_tab[(cmd)].cmd_flags & PFM_CMD_STOP)
-
-#define PFM_CMD_ARG_MANY       -1 /* cannot be zero */
-
-typedef struct {
-       unsigned long pfm_spurious_ovfl_intr_count;     /* keep track of spurious ovfl interrupts */
-       unsigned long pfm_replay_ovfl_intr_count;       /* keep track of replayed ovfl interrupts */
-       unsigned long pfm_ovfl_intr_count;              /* keep track of ovfl interrupts */
-       unsigned long pfm_ovfl_intr_cycles;             /* cycles spent processing ovfl interrupts */
-       unsigned long pfm_ovfl_intr_cycles_min;         /* min cycles spent processing ovfl interrupts */
-       unsigned long pfm_ovfl_intr_cycles_max;         /* max cycles spent processing ovfl interrupts */
-       unsigned long pfm_smpl_handler_calls;
-       unsigned long pfm_smpl_handler_cycles;
-       char pad[SMP_CACHE_BYTES] ____cacheline_aligned;
-} pfm_stats_t;
-
-/*
- * perfmon internal variables
- */
-static pfm_stats_t             pfm_stats[NR_CPUS];
-static pfm_session_t           pfm_sessions;   /* global sessions information */
-
-static DEFINE_SPINLOCK(pfm_alt_install_check);
-static pfm_intr_handler_desc_t  *pfm_alt_intr_handler;
-
-static struct proc_dir_entry   *perfmon_dir;
-static pfm_uuid_t              pfm_null_uuid = {0,};
-
-static spinlock_t              pfm_buffer_fmt_lock;
-static LIST_HEAD(pfm_buffer_fmt_list);
-
-static pmu_config_t            *pmu_conf;
-
-/* sysctl() controls */
-pfm_sysctl_t pfm_sysctl;
-EXPORT_SYMBOL(pfm_sysctl);
-
-static struct ctl_table pfm_ctl_table[] = {
-       {
-               .procname       = "debug",
-               .data           = &pfm_sysctl.debug,
-               .maxlen         = sizeof(int),
-               .mode           = 0666,
-               .proc_handler   = proc_dointvec,
-       },
-       {
-               .procname       = "debug_ovfl",
-               .data           = &pfm_sysctl.debug_ovfl,
-               .maxlen         = sizeof(int),
-               .mode           = 0666,
-               .proc_handler   = proc_dointvec,
-       },
-       {
-               .procname       = "fastctxsw",
-               .data           = &pfm_sysctl.fastctxsw,
-               .maxlen         = sizeof(int),
-               .mode           = 0600,
-               .proc_handler   = proc_dointvec,
-       },
-       {
-               .procname       = "expert_mode",
-               .data           = &pfm_sysctl.expert_mode,
-               .maxlen         = sizeof(int),
-               .mode           = 0600,
-               .proc_handler   = proc_dointvec,
-       },
-       {}
-};
-static struct ctl_table pfm_sysctl_dir[] = {
-       {
-               .procname       = "perfmon",
-               .mode           = 0555,
-               .child          = pfm_ctl_table,
-       },
-       {}
-};
-static struct ctl_table pfm_sysctl_root[] = {
-       {
-               .procname       = "kernel",
-               .mode           = 0555,
-               .child          = pfm_sysctl_dir,
-       },
-       {}
-};
-static struct ctl_table_header *pfm_sysctl_header;
-
-static int pfm_context_unload(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs);
-
-#define pfm_get_cpu_var(v)             __ia64_per_cpu_var(v)
-#define pfm_get_cpu_data(a,b)          per_cpu(a, b)
-
-static inline void
-pfm_put_task(struct task_struct *task)
-{
-       if (task != current) put_task_struct(task);
-}
-
-static inline unsigned long
-pfm_protect_ctx_ctxsw(pfm_context_t *x)
-{
-       spin_lock(&(x)->ctx_lock);
-       return 0UL;
-}
-
-static inline void
-pfm_unprotect_ctx_ctxsw(pfm_context_t *x, unsigned long f)
-{
-       spin_unlock(&(x)->ctx_lock);
-}
-
-/* forward declaration */
-static const struct dentry_operations pfmfs_dentry_operations;
-
-static int pfmfs_init_fs_context(struct fs_context *fc)
-{
-       struct pseudo_fs_context *ctx = init_pseudo(fc, PFMFS_MAGIC);
-       if (!ctx)
-               return -ENOMEM;
-       ctx->dops = &pfmfs_dentry_operations;
-       return 0;
-}
-
-static struct file_system_type pfm_fs_type = {
-       .name                   = "pfmfs",
-       .init_fs_context        = pfmfs_init_fs_context,
-       .kill_sb                = kill_anon_super,
-};
-MODULE_ALIAS_FS("pfmfs");
-
-DEFINE_PER_CPU(unsigned long, pfm_syst_info);
-DEFINE_PER_CPU(struct task_struct *, pmu_owner);
-DEFINE_PER_CPU(pfm_context_t  *, pmu_ctx);
-DEFINE_PER_CPU(unsigned long, pmu_activation_number);
-EXPORT_PER_CPU_SYMBOL_GPL(pfm_syst_info);
-
-
-/* forward declaration */
-static const struct file_operations pfm_file_ops;
-
-/*
- * forward declarations
- */
-#ifndef CONFIG_SMP
-static void pfm_lazy_save_regs (struct task_struct *ta);
-#endif
-
-void dump_pmu_state(const char *);
-static int pfm_write_ibr_dbr(int mode, pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs);
-
-#include "perfmon_itanium.h"
-#include "perfmon_mckinley.h"
-#include "perfmon_montecito.h"
-#include "perfmon_generic.h"
-
-static pmu_config_t *pmu_confs[]={
-       &pmu_conf_mont,
-       &pmu_conf_mck,
-       &pmu_conf_ita,
-       &pmu_conf_gen, /* must be last */
-       NULL
-};
-
-
-static int pfm_end_notify_user(pfm_context_t *ctx);
-
-static inline void
-pfm_clear_psr_pp(void)
-{
-       ia64_rsm(IA64_PSR_PP);
-       ia64_srlz_i();
-}
-
-static inline void
-pfm_set_psr_pp(void)
-{
-       ia64_ssm(IA64_PSR_PP);
-       ia64_srlz_i();
-}
-
-static inline void
-pfm_clear_psr_up(void)
-{
-       ia64_rsm(IA64_PSR_UP);
-       ia64_srlz_i();
-}
-
-static inline void
-pfm_set_psr_up(void)
-{
-       ia64_ssm(IA64_PSR_UP);
-       ia64_srlz_i();
-}
-
-static inline unsigned long
-pfm_get_psr(void)
-{
-       unsigned long tmp;
-       tmp = ia64_getreg(_IA64_REG_PSR);
-       ia64_srlz_i();
-       return tmp;
-}
-
-static inline void
-pfm_set_psr_l(unsigned long val)
-{
-       ia64_setreg(_IA64_REG_PSR_L, val);
-       ia64_srlz_i();
-}
-
-static inline void
-pfm_freeze_pmu(void)
-{
-       ia64_set_pmc(0,1UL);
-       ia64_srlz_d();
-}
-
-static inline void
-pfm_unfreeze_pmu(void)
-{
-       ia64_set_pmc(0,0UL);
-       ia64_srlz_d();
-}
-
-static inline void
-pfm_restore_ibrs(unsigned long *ibrs, unsigned int nibrs)
-{
-       int i;
-
-       for (i=0; i < nibrs; i++) {
-               ia64_set_ibr(i, ibrs[i]);
-               ia64_dv_serialize_instruction();
-       }
-       ia64_srlz_i();
-}
-
-static inline void
-pfm_restore_dbrs(unsigned long *dbrs, unsigned int ndbrs)
-{
-       int i;
-
-       for (i=0; i < ndbrs; i++) {
-               ia64_set_dbr(i, dbrs[i]);
-               ia64_dv_serialize_data();
-       }
-       ia64_srlz_d();
-}
-
-/*
- * PMD[i] must be a counter. no check is made
- */
-static inline unsigned long
-pfm_read_soft_counter(pfm_context_t *ctx, int i)
-{
-       return ctx->ctx_pmds[i].val + (ia64_get_pmd(i) & pmu_conf->ovfl_val);
-}
-
-/*
- * PMD[i] must be a counter. no check is made
- */
-static inline void
-pfm_write_soft_counter(pfm_context_t *ctx, int i, unsigned long val)
-{
-       unsigned long ovfl_val = pmu_conf->ovfl_val;
-
-       ctx->ctx_pmds[i].val = val  & ~ovfl_val;
-       /*
-        * writing to unimplemented part is ignore, so we do not need to
-        * mask off top part
-        */
-       ia64_set_pmd(i, val & ovfl_val);
-}
-
-static pfm_msg_t *
-pfm_get_new_msg(pfm_context_t *ctx)
-{
-       int idx, next;
-
-       next = (ctx->ctx_msgq_tail+1) % PFM_MAX_MSGS;
-
-       DPRINT(("ctx_fd=%p head=%d tail=%d\n", ctx, ctx->ctx_msgq_head, ctx->ctx_msgq_tail));
-       if (next == ctx->ctx_msgq_head) return NULL;
-
-       idx =   ctx->ctx_msgq_tail;
-       ctx->ctx_msgq_tail = next;
-
-       DPRINT(("ctx=%p head=%d tail=%d msg=%d\n", ctx, ctx->ctx_msgq_head, ctx->ctx_msgq_tail, idx));
-
-       return ctx->ctx_msgq+idx;
-}
-
-static pfm_msg_t *
-pfm_get_next_msg(pfm_context_t *ctx)
-{
-       pfm_msg_t *msg;
-
-       DPRINT(("ctx=%p head=%d tail=%d\n", ctx, ctx->ctx_msgq_head, ctx->ctx_msgq_tail));
-
-       if (PFM_CTXQ_EMPTY(ctx)) return NULL;
-
-       /*
-        * get oldest message
-        */
-       msg = ctx->ctx_msgq+ctx->ctx_msgq_head;
-
-       /*
-        * and move forward
-        */
-       ctx->ctx_msgq_head = (ctx->ctx_msgq_head+1) % PFM_MAX_MSGS;
-
-       DPRINT(("ctx=%p head=%d tail=%d type=%d\n", ctx, ctx->ctx_msgq_head, ctx->ctx_msgq_tail, msg->pfm_gen_msg.msg_type));
-
-       return msg;
-}
-
-static void
-pfm_reset_msgq(pfm_context_t *ctx)
-{
-       ctx->ctx_msgq_head = ctx->ctx_msgq_tail = 0;
-       DPRINT(("ctx=%p msgq reset\n", ctx));
-}
-
-static pfm_context_t *
-pfm_context_alloc(int ctx_flags)
-{
-       pfm_context_t *ctx;
-
-       /* 
-        * allocate context descriptor 
-        * must be able to free with interrupts disabled
-        */
-       ctx = kzalloc(sizeof(pfm_context_t), GFP_KERNEL);
-       if (ctx) {
-               DPRINT(("alloc ctx @%p\n", ctx));
-
-               /*
-                * init context protection lock
-                */
-               spin_lock_init(&ctx->ctx_lock);
-
-               /*
-                * context is unloaded
-                */
-               ctx->ctx_state = PFM_CTX_UNLOADED;
-
-               /*
-                * initialization of context's flags
-                */
-               ctx->ctx_fl_block       = (ctx_flags & PFM_FL_NOTIFY_BLOCK) ? 1 : 0;
-               ctx->ctx_fl_system      = (ctx_flags & PFM_FL_SYSTEM_WIDE) ? 1: 0;
-               ctx->ctx_fl_no_msg      = (ctx_flags & PFM_FL_OVFL_NO_MSG) ? 1: 0;
-               /*
-                * will move to set properties
-                * ctx->ctx_fl_excl_idle   = (ctx_flags & PFM_FL_EXCL_IDLE) ? 1: 0;
-                */
-
-               /*
-                * init restart semaphore to locked
-                */
-               init_completion(&ctx->ctx_restart_done);
-
-               /*
-                * activation is used in SMP only
-                */
-               ctx->ctx_last_activation = PFM_INVALID_ACTIVATION;
-               SET_LAST_CPU(ctx, -1);
-
-               /*
-                * initialize notification message queue
-                */
-               ctx->ctx_msgq_head = ctx->ctx_msgq_tail = 0;
-               init_waitqueue_head(&ctx->ctx_msgq_wait);
-               init_waitqueue_head(&ctx->ctx_zombieq);
-
-       }
-       return ctx;
-}
-
-static void
-pfm_context_free(pfm_context_t *ctx)
-{
-       if (ctx) {
-               DPRINT(("free ctx @%p\n", ctx));
-               kfree(ctx);
-       }
-}
-
-static void
-pfm_mask_monitoring(struct task_struct *task)
-{
-       pfm_context_t *ctx = PFM_GET_CTX(task);
-       unsigned long mask, val, ovfl_mask;
-       int i;
-
-       DPRINT_ovfl(("masking monitoring for [%d]\n", task_pid_nr(task)));
-
-       ovfl_mask = pmu_conf->ovfl_val;
-       /*
-        * monitoring can only be masked as a result of a valid
-        * counter overflow. In UP, it means that the PMU still
-        * has an owner. Note that the owner can be different
-        * from the current task. However the PMU state belongs
-        * to the owner.
-        * In SMP, a valid overflow only happens when task is
-        * current. Therefore if we come here, we know that
-        * the PMU state belongs to the current task, therefore
-        * we can access the live registers.
-        *
-        * So in both cases, the live register contains the owner's
-        * state. We can ONLY touch the PMU registers and NOT the PSR.
-        *
-        * As a consequence to this call, the ctx->th_pmds[] array
-        * contains stale information which must be ignored
-        * when context is reloaded AND monitoring is active (see
-        * pfm_restart).
-        */
-       mask = ctx->ctx_used_pmds[0];
-       for (i = 0; mask; i++, mask>>=1) {
-               /* skip non used pmds */
-               if ((mask & 0x1) == 0) continue;
-               val = ia64_get_pmd(i);
-
-               if (PMD_IS_COUNTING(i)) {
-                       /*
-                        * we rebuild the full 64 bit value of the counter
-                        */
-                       ctx->ctx_pmds[i].val += (val & ovfl_mask);
-               } else {
-                       ctx->ctx_pmds[i].val = val;
-               }
-               DPRINT_ovfl(("pmd[%d]=0x%lx hw_pmd=0x%lx\n",
-                       i,
-                       ctx->ctx_pmds[i].val,
-                       val & ovfl_mask));
-       }
-       /*
-        * mask monitoring by setting the privilege level to 0
-        * we cannot use psr.pp/psr.up for this, it is controlled by
-        * the user
-        *
-        * if task is current, modify actual registers, otherwise modify
-        * thread save state, i.e., what will be restored in pfm_load_regs()
-        */
-       mask = ctx->ctx_used_monitors[0] >> PMU_FIRST_COUNTER;
-       for(i= PMU_FIRST_COUNTER; mask; i++, mask>>=1) {
-               if ((mask & 0x1) == 0UL) continue;
-               ia64_set_pmc(i, ctx->th_pmcs[i] & ~0xfUL);
-               ctx->th_pmcs[i] &= ~0xfUL;
-               DPRINT_ovfl(("pmc[%d]=0x%lx\n", i, ctx->th_pmcs[i]));
-       }
-       /*
-        * make all of this visible
-        */
-       ia64_srlz_d();
-}
-
-/*
- * must always be done with task == current
- *
- * context must be in MASKED state when calling
- */
-static void
-pfm_restore_monitoring(struct task_struct *task)
-{
-       pfm_context_t *ctx = PFM_GET_CTX(task);
-       unsigned long mask, ovfl_mask;
-       unsigned long psr, val;
-       int i, is_system;
-
-       is_system = ctx->ctx_fl_system;
-       ovfl_mask = pmu_conf->ovfl_val;
-
-       if (task != current) {
-               printk(KERN_ERR "perfmon.%d: invalid task[%d] current[%d]\n", __LINE__, task_pid_nr(task), task_pid_nr(current));
-               return;
-       }
-       if (ctx->ctx_state != PFM_CTX_MASKED) {
-               printk(KERN_ERR "perfmon.%d: task[%d] current[%d] invalid state=%d\n", __LINE__,
-                       task_pid_nr(task), task_pid_nr(current), ctx->ctx_state);
-               return;
-       }
-       psr = pfm_get_psr();
-       /*
-        * monitoring is masked via the PMC.
-        * As we restore their value, we do not want each counter to
-        * restart right away. We stop monitoring using the PSR,
-        * restore the PMC (and PMD) and then re-establish the psr
-        * as it was. Note that there can be no pending overflow at
-        * this point, because monitoring was MASKED.
-        *
-        * system-wide session are pinned and self-monitoring
-        */
-       if (is_system && (PFM_CPUINFO_GET() & PFM_CPUINFO_DCR_PP)) {
-               /* disable dcr pp */
-               ia64_setreg(_IA64_REG_CR_DCR, ia64_getreg(_IA64_REG_CR_DCR) & ~IA64_DCR_PP);
-               pfm_clear_psr_pp();
-       } else {
-               pfm_clear_psr_up();
-       }
-       /*
-        * first, we restore the PMD
-        */
-       mask = ctx->ctx_used_pmds[0];
-       for (i = 0; mask; i++, mask>>=1) {
-               /* skip non used pmds */
-               if ((mask & 0x1) == 0) continue;
-
-               if (PMD_IS_COUNTING(i)) {
-                       /*
-                        * we split the 64bit value according to
-                        * counter width
-                        */
-                       val = ctx->ctx_pmds[i].val & ovfl_mask;
-                       ctx->ctx_pmds[i].val &= ~ovfl_mask;
-               } else {
-                       val = ctx->ctx_pmds[i].val;
-               }
-               ia64_set_pmd(i, val);
-
-               DPRINT(("pmd[%d]=0x%lx hw_pmd=0x%lx\n",
-                       i,
-                       ctx->ctx_pmds[i].val,
-                       val));
-       }
-       /*
-        * restore the PMCs
-        */
-       mask = ctx->ctx_used_monitors[0] >> PMU_FIRST_COUNTER;
-       for(i= PMU_FIRST_COUNTER; mask; i++, mask>>=1) {
-               if ((mask & 0x1) == 0UL) continue;
-               ctx->th_pmcs[i] = ctx->ctx_pmcs[i];
-               ia64_set_pmc(i, ctx->th_pmcs[i]);
-               DPRINT(("[%d] pmc[%d]=0x%lx\n",
-                                       task_pid_nr(task), i, ctx->th_pmcs[i]));
-       }
-       ia64_srlz_d();
-
-       /*
-        * must restore DBR/IBR because could be modified while masked
-        * XXX: need to optimize 
-        */
-       if (ctx->ctx_fl_using_dbreg) {
-               pfm_restore_ibrs(ctx->ctx_ibrs, pmu_conf->num_ibrs);
-               pfm_restore_dbrs(ctx->ctx_dbrs, pmu_conf->num_dbrs);
-       }
-
-       /*
-        * now restore PSR
-        */
-       if (is_system && (PFM_CPUINFO_GET() & PFM_CPUINFO_DCR_PP)) {
-               /* enable dcr pp */
-               ia64_setreg(_IA64_REG_CR_DCR, ia64_getreg(_IA64_REG_CR_DCR) | IA64_DCR_PP);
-               ia64_srlz_i();
-       }
-       pfm_set_psr_l(psr);
-}
-
-static inline void
-pfm_save_pmds(unsigned long *pmds, unsigned long mask)
-{
-       int i;
-
-       ia64_srlz_d();
-
-       for (i=0; mask; i++, mask>>=1) {
-               if (mask & 0x1) pmds[i] = ia64_get_pmd(i);
-       }
-}
-
-/*
- * reload from thread state (used for ctxw only)
- */
-static inline void
-pfm_restore_pmds(unsigned long *pmds, unsigned long mask)
-{
-       int i;
-       unsigned long val, ovfl_val = pmu_conf->ovfl_val;
-
-       for (i=0; mask; i++, mask>>=1) {
-               if ((mask & 0x1) == 0) continue;
-               val = PMD_IS_COUNTING(i) ? pmds[i] & ovfl_val : pmds[i];
-               ia64_set_pmd(i, val);
-       }
-       ia64_srlz_d();
-}
-
-/*
- * propagate PMD from context to thread-state
- */
-static inline void
-pfm_copy_pmds(struct task_struct *task, pfm_context_t *ctx)
-{
-       unsigned long ovfl_val = pmu_conf->ovfl_val;
-       unsigned long mask = ctx->ctx_all_pmds[0];
-       unsigned long val;
-       int i;
-
-       DPRINT(("mask=0x%lx\n", mask));
-
-       for (i=0; mask; i++, mask>>=1) {
-
-               val = ctx->ctx_pmds[i].val;
-
-               /*
-                * We break up the 64 bit value into 2 pieces
-                * the lower bits go to the machine state in the
-                * thread (will be reloaded on ctxsw in).
-                * The upper part stays in the soft-counter.
-                */
-               if (PMD_IS_COUNTING(i)) {
-                       ctx->ctx_pmds[i].val = val & ~ovfl_val;
-                        val &= ovfl_val;
-               }
-               ctx->th_pmds[i] = val;
-
-               DPRINT(("pmd[%d]=0x%lx soft_val=0x%lx\n",
-                       i,
-                       ctx->th_pmds[i],
-                       ctx->ctx_pmds[i].val));
-       }
-}
-
-/*
- * propagate PMC from context to thread-state
- */
-static inline void
-pfm_copy_pmcs(struct task_struct *task, pfm_context_t *ctx)
-{
-       unsigned long mask = ctx->ctx_all_pmcs[0];
-       int i;
-
-       DPRINT(("mask=0x%lx\n", mask));
-
-       for (i=0; mask; i++, mask>>=1) {
-               /* masking 0 with ovfl_val yields 0 */
-               ctx->th_pmcs[i] = ctx->ctx_pmcs[i];
-               DPRINT(("pmc[%d]=0x%lx\n", i, ctx->th_pmcs[i]));
-       }
-}
-
-
-
-static inline void
-pfm_restore_pmcs(unsigned long *pmcs, unsigned long mask)
-{
-       int i;
-
-       for (i=0; mask; i++, mask>>=1) {
-               if ((mask & 0x1) == 0) continue;
-               ia64_set_pmc(i, pmcs[i]);
-       }
-       ia64_srlz_d();
-}
-
-static inline int
-pfm_uuid_cmp(pfm_uuid_t a, pfm_uuid_t b)
-{
-       return memcmp(a, b, sizeof(pfm_uuid_t));
-}
-
-static inline int
-pfm_buf_fmt_exit(pfm_buffer_fmt_t *fmt, struct task_struct *task, void *buf, struct pt_regs *regs)
-{
-       int ret = 0;
-       if (fmt->fmt_exit) ret = (*fmt->fmt_exit)(task, buf, regs);
-       return ret;
-}
-
-static inline int
-pfm_buf_fmt_getsize(pfm_buffer_fmt_t *fmt, struct task_struct *task, unsigned int flags, int cpu, void *arg, unsigned long *size)
-{
-       int ret = 0;
-       if (fmt->fmt_getsize) ret = (*fmt->fmt_getsize)(task, flags, cpu, arg, size);
-       return ret;
-}
-
-
-static inline int
-pfm_buf_fmt_validate(pfm_buffer_fmt_t *fmt, struct task_struct *task, unsigned int flags,
-                    int cpu, void *arg)
-{
-       int ret = 0;
-       if (fmt->fmt_validate) ret = (*fmt->fmt_validate)(task, flags, cpu, arg);
-       return ret;
-}
-
-static inline int
-pfm_buf_fmt_init(pfm_buffer_fmt_t *fmt, struct task_struct *task, void *buf, unsigned int flags,
-                    int cpu, void *arg)
-{
-       int ret = 0;
-       if (fmt->fmt_init) ret = (*fmt->fmt_init)(task, buf, flags, cpu, arg);
-       return ret;
-}
-
-static inline int
-pfm_buf_fmt_restart(pfm_buffer_fmt_t *fmt, struct task_struct *task, pfm_ovfl_ctrl_t *ctrl, void *buf, struct pt_regs *regs)
-{
-       int ret = 0;
-       if (fmt->fmt_restart) ret = (*fmt->fmt_restart)(task, ctrl, buf, regs);
-       return ret;
-}
-
-static inline int
-pfm_buf_fmt_restart_active(pfm_buffer_fmt_t *fmt, struct task_struct *task, pfm_ovfl_ctrl_t *ctrl, void *buf, struct pt_regs *regs)
-{
-       int ret = 0;
-       if (fmt->fmt_restart_active) ret = (*fmt->fmt_restart_active)(task, ctrl, buf, regs);
-       return ret;
-}
-
-static pfm_buffer_fmt_t *
-__pfm_find_buffer_fmt(pfm_uuid_t uuid)
-{
-       struct list_head * pos;
-       pfm_buffer_fmt_t * entry;
-
-       list_for_each(pos, &pfm_buffer_fmt_list) {
-               entry = list_entry(pos, pfm_buffer_fmt_t, fmt_list);
-               if (pfm_uuid_cmp(uuid, entry->fmt_uuid) == 0)
-                       return entry;
-       }
-       return NULL;
-}
-/*
- * find a buffer format based on its uuid
- */
-static pfm_buffer_fmt_t *
-pfm_find_buffer_fmt(pfm_uuid_t uuid)
-{
-       pfm_buffer_fmt_t * fmt;
-       spin_lock(&pfm_buffer_fmt_lock);
-       fmt = __pfm_find_buffer_fmt(uuid);
-       spin_unlock(&pfm_buffer_fmt_lock);
-       return fmt;
-}
-int
-pfm_register_buffer_fmt(pfm_buffer_fmt_t *fmt)
-{
-       int ret = 0;
-
-       /* some sanity checks */
-       if (fmt == NULL || fmt->fmt_name == NULL) return -EINVAL;
-
-       /* we need at least a handler */
-       if (fmt->fmt_handler == NULL) return -EINVAL;
-
-       /*
-        * XXX: need check validity of fmt_arg_size
-        */
-
-       spin_lock(&pfm_buffer_fmt_lock);
-
-       if (__pfm_find_buffer_fmt(fmt->fmt_uuid)) {
-               printk(KERN_ERR "perfmon: duplicate sampling format: %s\n", fmt->fmt_name);
-               ret = -EBUSY;
-               goto out;
-       } 
-       list_add(&fmt->fmt_list, &pfm_buffer_fmt_list);
-       printk(KERN_INFO "perfmon: added sampling format %s\n", fmt->fmt_name);
-
-out:
-       spin_unlock(&pfm_buffer_fmt_lock);
-       return ret;
-}
-EXPORT_SYMBOL(pfm_register_buffer_fmt);
-
-int
-pfm_unregister_buffer_fmt(pfm_uuid_t uuid)
-{
-       pfm_buffer_fmt_t *fmt;
-       int ret = 0;
-
-       spin_lock(&pfm_buffer_fmt_lock);
-
-       fmt = __pfm_find_buffer_fmt(uuid);
-       if (!fmt) {
-               printk(KERN_ERR "perfmon: cannot unregister format, not found\n");
-               ret = -EINVAL;
-               goto out;
-       }
-       list_del_init(&fmt->fmt_list);
-       printk(KERN_INFO "perfmon: removed sampling format: %s\n", fmt->fmt_name);
-
-out:
-       spin_unlock(&pfm_buffer_fmt_lock);
-       return ret;
-
-}
-EXPORT_SYMBOL(pfm_unregister_buffer_fmt);
-
-static int
-pfm_reserve_session(struct task_struct *task, int is_syswide, unsigned int cpu)
-{
-       unsigned long flags;
-       /*
-        * validity checks on cpu_mask have been done upstream
-        */
-       LOCK_PFS(flags);
-
-       DPRINT(("in sys_sessions=%u task_sessions=%u dbregs=%u syswide=%d cpu=%u\n",
-               pfm_sessions.pfs_sys_sessions,
-               pfm_sessions.pfs_task_sessions,
-               pfm_sessions.pfs_sys_use_dbregs,
-               is_syswide,
-               cpu));
-
-       if (is_syswide) {
-               /*
-                * cannot mix system wide and per-task sessions
-                */
-               if (pfm_sessions.pfs_task_sessions > 0UL) {
-                       DPRINT(("system wide not possible, %u conflicting task_sessions\n",
-                               pfm_sessions.pfs_task_sessions));
-                       goto abort;
-               }
-
-               if (pfm_sessions.pfs_sys_session[cpu]) goto error_conflict;
-
-               DPRINT(("reserving system wide session on CPU%u currently on CPU%u\n", cpu, smp_processor_id()));
-
-               pfm_sessions.pfs_sys_session[cpu] = task;
-
-               pfm_sessions.pfs_sys_sessions++ ;
-
-       } else {
-               if (pfm_sessions.pfs_sys_sessions) goto abort;
-               pfm_sessions.pfs_task_sessions++;
-       }
-
-       DPRINT(("out sys_sessions=%u task_sessions=%u dbregs=%u syswide=%d cpu=%u\n",
-               pfm_sessions.pfs_sys_sessions,
-               pfm_sessions.pfs_task_sessions,
-               pfm_sessions.pfs_sys_use_dbregs,
-               is_syswide,
-               cpu));
-
-       /*
-        * Force idle() into poll mode
-        */
-       cpu_idle_poll_ctrl(true);
-
-       UNLOCK_PFS(flags);
-
-       return 0;
-
-error_conflict:
-       DPRINT(("system wide not possible, conflicting session [%d] on CPU%d\n",
-               task_pid_nr(pfm_sessions.pfs_sys_session[cpu]),
-               cpu));
-abort:
-       UNLOCK_PFS(flags);
-
-       return -EBUSY;
-
-}
-
-static int
-pfm_unreserve_session(pfm_context_t *ctx, int is_syswide, unsigned int cpu)
-{
-       unsigned long flags;
-       /*
-        * validity checks on cpu_mask have been done upstream
-        */
-       LOCK_PFS(flags);
-
-       DPRINT(("in sys_sessions=%u task_sessions=%u dbregs=%u syswide=%d cpu=%u\n",
-               pfm_sessions.pfs_sys_sessions,
-               pfm_sessions.pfs_task_sessions,
-               pfm_sessions.pfs_sys_use_dbregs,
-               is_syswide,
-               cpu));
-
-
-       if (is_syswide) {
-               pfm_sessions.pfs_sys_session[cpu] = NULL;
-               /*
-                * would not work with perfmon+more than one bit in cpu_mask
-                */
-               if (ctx && ctx->ctx_fl_using_dbreg) {
-                       if (pfm_sessions.pfs_sys_use_dbregs == 0) {
-                               printk(KERN_ERR "perfmon: invalid release for ctx %p sys_use_dbregs=0\n", ctx);
-                       } else {
-                               pfm_sessions.pfs_sys_use_dbregs--;
-                       }
-               }
-               pfm_sessions.pfs_sys_sessions--;
-       } else {
-               pfm_sessions.pfs_task_sessions--;
-       }
-       DPRINT(("out sys_sessions=%u task_sessions=%u dbregs=%u syswide=%d cpu=%u\n",
-               pfm_sessions.pfs_sys_sessions,
-               pfm_sessions.pfs_task_sessions,
-               pfm_sessions.pfs_sys_use_dbregs,
-               is_syswide,
-               cpu));
-
-       /* Undo forced polling. Last session reenables pal_halt */
-       cpu_idle_poll_ctrl(false);
-
-       UNLOCK_PFS(flags);
-
-       return 0;
-}
-
-/*
- * removes virtual mapping of the sampling buffer.
- * IMPORTANT: cannot be called with interrupts disable, e.g. inside
- * a PROTECT_CTX() section.
- */
-static int
-pfm_remove_smpl_mapping(void *vaddr, unsigned long size)
-{
-       struct task_struct *task = current;
-       int r;
-
-       /* sanity checks */
-       if (task->mm == NULL || size == 0UL || vaddr == NULL) {
-               printk(KERN_ERR "perfmon: pfm_remove_smpl_mapping [%d] invalid context mm=%p\n", task_pid_nr(task), task->mm);
-               return -EINVAL;
-       }
-
-       DPRINT(("smpl_vaddr=%p size=%lu\n", vaddr, size));
-
-       /*
-        * does the actual unmapping
-        */
-       r = vm_munmap((unsigned long)vaddr, size);
-
-       if (r !=0) {
-               printk(KERN_ERR "perfmon: [%d] unable to unmap sampling buffer @%p size=%lu\n", task_pid_nr(task), vaddr, size);
-       }
-
-       DPRINT(("do_unmap(%p, %lu)=%d\n", vaddr, size, r));
-
-       return 0;
-}
-
-/*
- * free actual physical storage used by sampling buffer
- */
-#if 0
-static int
-pfm_free_smpl_buffer(pfm_context_t *ctx)
-{
-       pfm_buffer_fmt_t *fmt;
-
-       if (ctx->ctx_smpl_hdr == NULL) goto invalid_free;
-
-       /*
-        * we won't use the buffer format anymore
-        */
-       fmt = ctx->ctx_buf_fmt;
-
-       DPRINT(("sampling buffer @%p size %lu vaddr=%p\n",
-               ctx->ctx_smpl_hdr,
-               ctx->ctx_smpl_size,
-               ctx->ctx_smpl_vaddr));
-
-       pfm_buf_fmt_exit(fmt, current, NULL, NULL);
-
-       /*
-        * free the buffer
-        */
-       vfree(ctx->ctx_smpl_hdr);
-
-       ctx->ctx_smpl_hdr  = NULL;
-       ctx->ctx_smpl_size = 0UL;
-
-       return 0;
-
-invalid_free:
-       printk(KERN_ERR "perfmon: pfm_free_smpl_buffer [%d] no buffer\n", task_pid_nr(current));
-       return -EINVAL;
-}
-#endif
-
-static inline void
-pfm_exit_smpl_buffer(pfm_buffer_fmt_t *fmt)
-{
-       if (fmt == NULL) return;
-
-       pfm_buf_fmt_exit(fmt, current, NULL, NULL);
-
-}
-
-/*
- * pfmfs should _never_ be mounted by userland - too much of security hassle,
- * no real gain from having the whole whorehouse mounted. So we don't need
- * any operations on the root directory. However, we need a non-trivial
- * d_name - pfm: will go nicely and kill the special-casing in procfs.
- */
-static struct vfsmount *pfmfs_mnt __read_mostly;
-
-static int __init
-init_pfm_fs(void)
-{
-       int err = register_filesystem(&pfm_fs_type);
-       if (!err) {
-               pfmfs_mnt = kern_mount(&pfm_fs_type);
-               err = PTR_ERR(pfmfs_mnt);
-               if (IS_ERR(pfmfs_mnt))
-                       unregister_filesystem(&pfm_fs_type);
-               else
-                       err = 0;
-       }
-       return err;
-}
-
-static ssize_t
-pfm_read(struct file *filp, char __user *buf, size_t size, loff_t *ppos)
-{
-       pfm_context_t *ctx;
-       pfm_msg_t *msg;
-       ssize_t ret;
-       unsigned long flags;
-       DECLARE_WAITQUEUE(wait, current);
-       if (PFM_IS_FILE(filp) == 0) {
-               printk(KERN_ERR "perfmon: pfm_poll: bad magic [%d]\n", task_pid_nr(current));
-               return -EINVAL;
-       }
-
-       ctx = filp->private_data;
-       if (ctx == NULL) {
-               printk(KERN_ERR "perfmon: pfm_read: NULL ctx [%d]\n", task_pid_nr(current));
-               return -EINVAL;
-       }
-
-       /*
-        * check even when there is no message
-        */
-       if (size < sizeof(pfm_msg_t)) {
-               DPRINT(("message is too small ctx=%p (>=%ld)\n", ctx, sizeof(pfm_msg_t)));
-               return -EINVAL;
-       }
-
-       PROTECT_CTX(ctx, flags);
-
-       /*
-        * put ourselves on the wait queue
-        */
-       add_wait_queue(&ctx->ctx_msgq_wait, &wait);
-
-
-       for(;;) {
-               /*
-                * check wait queue
-                */
-
-               set_current_state(TASK_INTERRUPTIBLE);
-
-               DPRINT(("head=%d tail=%d\n", ctx->ctx_msgq_head, ctx->ctx_msgq_tail));
-
-               ret = 0;
-               if(PFM_CTXQ_EMPTY(ctx) == 0) break;
-
-               UNPROTECT_CTX(ctx, flags);
-
-               /*
-                * check non-blocking read
-                */
-               ret = -EAGAIN;
-               if(filp->f_flags & O_NONBLOCK) break;
-
-               /*
-                * check pending signals
-                */
-               if(signal_pending(current)) {
-                       ret = -EINTR;
-                       break;
-               }
-               /*
-                * no message, so wait
-                */
-               schedule();
-
-               PROTECT_CTX(ctx, flags);
-       }
-       DPRINT(("[%d] back to running ret=%ld\n", task_pid_nr(current), ret));
-       set_current_state(TASK_RUNNING);
-       remove_wait_queue(&ctx->ctx_msgq_wait, &wait);
-
-       if (ret < 0) goto abort;
-
-       ret = -EINVAL;
-       msg = pfm_get_next_msg(ctx);
-       if (msg == NULL) {
-               printk(KERN_ERR "perfmon: pfm_read no msg for ctx=%p [%d]\n", ctx, task_pid_nr(current));
-               goto abort_locked;
-       }
-
-       DPRINT(("fd=%d type=%d\n", msg->pfm_gen_msg.msg_ctx_fd, msg->pfm_gen_msg.msg_type));
-
-       ret = -EFAULT;
-       if(copy_to_user(buf, msg, sizeof(pfm_msg_t)) == 0) ret = sizeof(pfm_msg_t);
-
-abort_locked:
-       UNPROTECT_CTX(ctx, flags);
-abort:
-       return ret;
-}
-
-static ssize_t
-pfm_write(struct file *file, const char __user *ubuf,
-                         size_t size, loff_t *ppos)
-{
-       DPRINT(("pfm_write called\n"));
-       return -EINVAL;
-}
-
-static __poll_t
-pfm_poll(struct file *filp, poll_table * wait)
-{
-       pfm_context_t *ctx;
-       unsigned long flags;
-       __poll_t mask = 0;
-
-       if (PFM_IS_FILE(filp) == 0) {
-               printk(KERN_ERR "perfmon: pfm_poll: bad magic [%d]\n", task_pid_nr(current));
-               return 0;
-       }
-
-       ctx = filp->private_data;
-       if (ctx == NULL) {
-               printk(KERN_ERR "perfmon: pfm_poll: NULL ctx [%d]\n", task_pid_nr(current));
-               return 0;
-       }
-
-
-       DPRINT(("pfm_poll ctx_fd=%d before poll_wait\n", ctx->ctx_fd));
-
-       poll_wait(filp, &ctx->ctx_msgq_wait, wait);
-
-       PROTECT_CTX(ctx, flags);
-
-       if (PFM_CTXQ_EMPTY(ctx) == 0)
-               mask =  EPOLLIN | EPOLLRDNORM;
-
-       UNPROTECT_CTX(ctx, flags);
-
-       DPRINT(("pfm_poll ctx_fd=%d mask=0x%x\n", ctx->ctx_fd, mask));
-
-       return mask;
-}
-
-static long
-pfm_ioctl(struct file *file, unsigned int cmd, unsigned long arg)
-{
-       DPRINT(("pfm_ioctl called\n"));
-       return -EINVAL;
-}
-
-/*
- * interrupt cannot be masked when coming here
- */
-static inline int
-pfm_do_fasync(int fd, struct file *filp, pfm_context_t *ctx, int on)
-{
-       int ret;
-
-       ret = fasync_helper (fd, filp, on, &ctx->ctx_async_queue);
-
-       DPRINT(("pfm_fasync called by [%d] on ctx_fd=%d on=%d async_queue=%p ret=%d\n",
-               task_pid_nr(current),
-               fd,
-               on,
-               ctx->ctx_async_queue, ret));
-
-       return ret;
-}
-
-static int
-pfm_fasync(int fd, struct file *filp, int on)
-{
-       pfm_context_t *ctx;
-       int ret;
-
-       if (PFM_IS_FILE(filp) == 0) {
-               printk(KERN_ERR "perfmon: pfm_fasync bad magic [%d]\n", task_pid_nr(current));
-               return -EBADF;
-       }
-
-       ctx = filp->private_data;
-       if (ctx == NULL) {
-               printk(KERN_ERR "perfmon: pfm_fasync NULL ctx [%d]\n", task_pid_nr(current));
-               return -EBADF;
-       }
-       /*
-        * we cannot mask interrupts during this call because this may
-        * may go to sleep if memory is not readily avalaible.
-        *
-        * We are protected from the conetxt disappearing by the get_fd()/put_fd()
-        * done in caller. Serialization of this function is ensured by caller.
-        */
-       ret = pfm_do_fasync(fd, filp, ctx, on);
-
-
-       DPRINT(("pfm_fasync called on ctx_fd=%d on=%d async_queue=%p ret=%d\n",
-               fd,
-               on,
-               ctx->ctx_async_queue, ret));
-
-       return ret;
-}
-
-#ifdef CONFIG_SMP
-/*
- * this function is exclusively called from pfm_close().
- * The context is not protected at that time, nor are interrupts
- * on the remote CPU. That's necessary to avoid deadlocks.
- */
-static void
-pfm_syswide_force_stop(void *info)
-{
-       pfm_context_t   *ctx = (pfm_context_t *)info;
-       struct pt_regs *regs = task_pt_regs(current);
-       struct task_struct *owner;
-       unsigned long flags;
-       int ret;
-
-       if (ctx->ctx_cpu != smp_processor_id()) {
-               printk(KERN_ERR "perfmon: pfm_syswide_force_stop for CPU%d  but on CPU%d\n",
-                       ctx->ctx_cpu,
-                       smp_processor_id());
-               return;
-       }
-       owner = GET_PMU_OWNER();
-       if (owner != ctx->ctx_task) {
-               printk(KERN_ERR "perfmon: pfm_syswide_force_stop CPU%d unexpected owner [%d] instead of [%d]\n",
-                       smp_processor_id(),
-                       task_pid_nr(owner), task_pid_nr(ctx->ctx_task));
-               return;
-       }
-       if (GET_PMU_CTX() != ctx) {
-               printk(KERN_ERR "perfmon: pfm_syswide_force_stop CPU%d unexpected ctx %p instead of %p\n",
-                       smp_processor_id(),
-                       GET_PMU_CTX(), ctx);
-               return;
-       }
-
-       DPRINT(("on CPU%d forcing system wide stop for [%d]\n", smp_processor_id(), task_pid_nr(ctx->ctx_task)));
-       /*
-        * the context is already protected in pfm_close(), we simply
-        * need to mask interrupts to avoid a PMU interrupt race on
-        * this CPU
-        */
-       local_irq_save(flags);
-
-       ret = pfm_context_unload(ctx, NULL, 0, regs);
-       if (ret) {
-               DPRINT(("context_unload returned %d\n", ret));
-       }
-
-       /*
-        * unmask interrupts, PMU interrupts are now spurious here
-        */
-       local_irq_restore(flags);
-}
-
-static void
-pfm_syswide_cleanup_other_cpu(pfm_context_t *ctx)
-{
-       int ret;
-
-       DPRINT(("calling CPU%d for cleanup\n", ctx->ctx_cpu));
-       ret = smp_call_function_single(ctx->ctx_cpu, pfm_syswide_force_stop, ctx, 1);
-       DPRINT(("called CPU%d for cleanup ret=%d\n", ctx->ctx_cpu, ret));
-}
-#endif /* CONFIG_SMP */
-
-/*
- * called for each close(). Partially free resources.
- * When caller is self-monitoring, the context is unloaded.
- */
-static int
-pfm_flush(struct file *filp, fl_owner_t id)
-{
-       pfm_context_t *ctx;
-       struct task_struct *task;
-       struct pt_regs *regs;
-       unsigned long flags;
-       unsigned long smpl_buf_size = 0UL;
-       void *smpl_buf_vaddr = NULL;
-       int state, is_system;
-
-       if (PFM_IS_FILE(filp) == 0) {
-               DPRINT(("bad magic for\n"));
-               return -EBADF;
-       }
-
-       ctx = filp->private_data;
-       if (ctx == NULL) {
-               printk(KERN_ERR "perfmon: pfm_flush: NULL ctx [%d]\n", task_pid_nr(current));
-               return -EBADF;
-       }
-
-       /*
-        * remove our file from the async queue, if we use this mode.
-        * This can be done without the context being protected. We come
-        * here when the context has become unreachable by other tasks.
-        *
-        * We may still have active monitoring at this point and we may
-        * end up in pfm_overflow_handler(). However, fasync_helper()
-        * operates with interrupts disabled and it cleans up the
-        * queue. If the PMU handler is called prior to entering
-        * fasync_helper() then it will send a signal. If it is
-        * invoked after, it will find an empty queue and no
-        * signal will be sent. In both case, we are safe
-        */
-       PROTECT_CTX(ctx, flags);
-
-       state     = ctx->ctx_state;
-       is_system = ctx->ctx_fl_system;
-
-       task = PFM_CTX_TASK(ctx);
-       regs = task_pt_regs(task);
-
-       DPRINT(("ctx_state=%d is_current=%d\n",
-               state,
-               task == current ? 1 : 0));
-
-       /*
-        * if state == UNLOADED, then task is NULL
-        */
-
-       /*
-        * we must stop and unload because we are losing access to the context.
-        */
-       if (task == current) {
-#ifdef CONFIG_SMP
-               /*
-                * the task IS the owner but it migrated to another CPU: that's bad
-                * but we must handle this cleanly. Unfortunately, the kernel does
-                * not provide a mechanism to block migration (while the context is loaded).
-                *
-                * We need to release the resource on the ORIGINAL cpu.
-                */
-               if (is_system && ctx->ctx_cpu != smp_processor_id()) {
-
-                       DPRINT(("should be running on CPU%d\n", ctx->ctx_cpu));
-                       /*
-                        * keep context protected but unmask interrupt for IPI
-                        */
-                       local_irq_restore(flags);
-
-                       pfm_syswide_cleanup_other_cpu(ctx);
-
-                       /*
-                        * restore interrupt masking
-                        */
-                       local_irq_save(flags);
-
-                       /*
-                        * context is unloaded at this point
-                        */
-               } else
-#endif /* CONFIG_SMP */
-               {
-
-                       DPRINT(("forcing unload\n"));
-                       /*
-                       * stop and unload, returning with state UNLOADED
-                       * and session unreserved.
-                       */
-                       pfm_context_unload(ctx, NULL, 0, regs);
-
-                       DPRINT(("ctx_state=%d\n", ctx->ctx_state));
-               }
-       }
-
-       /*
-        * remove virtual mapping, if any, for the calling task.
-        * cannot reset ctx field until last user is calling close().
-        *
-        * ctx_smpl_vaddr must never be cleared because it is needed
-        * by every task with access to the context
-        *
-        * When called from do_exit(), the mm context is gone already, therefore
-        * mm is NULL, i.e., the VMA is already gone  and we do not have to
-        * do anything here
-        */
-       if (ctx->ctx_smpl_vaddr && current->mm) {
-               smpl_buf_vaddr = ctx->ctx_smpl_vaddr;
-               smpl_buf_size  = ctx->ctx_smpl_size;
-       }
-
-       UNPROTECT_CTX(ctx, flags);
-
-       /*
-        * if there was a mapping, then we systematically remove it
-        * at this point. Cannot be done inside critical section
-        * because some VM function reenables interrupts.
-        *
-        */
-       if (smpl_buf_vaddr) pfm_remove_smpl_mapping(smpl_buf_vaddr, smpl_buf_size);
-
-       return 0;
-}
-/*
- * called either on explicit close() or from exit_files(). 
- * Only the LAST user of the file gets to this point, i.e., it is
- * called only ONCE.
- *
- * IMPORTANT: we get called ONLY when the refcnt on the file gets to zero 
- * (fput()),i.e, last task to access the file. Nobody else can access the 
- * file at this point.
- *
- * When called from exit_files(), the VMA has been freed because exit_mm()
- * is executed before exit_files().
- *
- * When called from exit_files(), the current task is not yet ZOMBIE but we
- * flush the PMU state to the context. 
- */
-static int
-pfm_close(struct inode *inode, struct file *filp)
-{
-       pfm_context_t *ctx;
-       struct task_struct *task;
-       struct pt_regs *regs;
-       DECLARE_WAITQUEUE(wait, current);
-       unsigned long flags;
-       unsigned long smpl_buf_size = 0UL;
-       void *smpl_buf_addr = NULL;
-       int free_possible = 1;
-       int state, is_system;
-
-       DPRINT(("pfm_close called private=%p\n", filp->private_data));
-
-       if (PFM_IS_FILE(filp) == 0) {
-               DPRINT(("bad magic\n"));
-               return -EBADF;
-       }
-       
-       ctx = filp->private_data;
-       if (ctx == NULL) {
-               printk(KERN_ERR "perfmon: pfm_close: NULL ctx [%d]\n", task_pid_nr(current));
-               return -EBADF;
-       }
-
-       PROTECT_CTX(ctx, flags);
-
-       state     = ctx->ctx_state;
-       is_system = ctx->ctx_fl_system;
-
-       task = PFM_CTX_TASK(ctx);
-       regs = task_pt_regs(task);
-
-       DPRINT(("ctx_state=%d is_current=%d\n", 
-               state,
-               task == current ? 1 : 0));
-
-       /*
-        * if task == current, then pfm_flush() unloaded the context
-        */
-       if (state == PFM_CTX_UNLOADED) goto doit;
-
-       /*
-        * context is loaded/masked and task != current, we need to
-        * either force an unload or go zombie
-        */
-
-       /*
-        * The task is currently blocked or will block after an overflow.
-        * we must force it to wakeup to get out of the
-        * MASKED state and transition to the unloaded state by itself.
-        *
-        * This situation is only possible for per-task mode
-        */
-       if (state == PFM_CTX_MASKED && CTX_OVFL_NOBLOCK(ctx) == 0) {
-
-               /*
-                * set a "partial" zombie state to be checked
-                * upon return from down() in pfm_handle_work().
-                *
-                * We cannot use the ZOMBIE state, because it is checked
-                * by pfm_load_regs() which is called upon wakeup from down().
-                * In such case, it would free the context and then we would
-                * return to pfm_handle_work() which would access the
-                * stale context. Instead, we set a flag invisible to pfm_load_regs()
-                * but visible to pfm_handle_work().
-                *
-                * For some window of time, we have a zombie context with
-                * ctx_state = MASKED  and not ZOMBIE
-                */
-               ctx->ctx_fl_going_zombie = 1;
-
-               /*
-                * force task to wake up from MASKED state
-                */
-               complete(&ctx->ctx_restart_done);
-
-               DPRINT(("waking up ctx_state=%d\n", state));
-
-               /*
-                * put ourself to sleep waiting for the other
-                * task to report completion
-                *
-                * the context is protected by mutex, therefore there
-                * is no risk of being notified of completion before
-                * begin actually on the waitq.
-                */
-               set_current_state(TASK_INTERRUPTIBLE);
-               add_wait_queue(&ctx->ctx_zombieq, &wait);
-
-               UNPROTECT_CTX(ctx, flags);
-
-               /*
-                * XXX: check for signals :
-                *      - ok for explicit close
-                *      - not ok when coming from exit_files()
-                */
-               schedule();
-
-
-               PROTECT_CTX(ctx, flags);
-
-
-               remove_wait_queue(&ctx->ctx_zombieq, &wait);
-               set_current_state(TASK_RUNNING);
-
-               /*
-                * context is unloaded at this point
-                */
-               DPRINT(("after zombie wakeup ctx_state=%d for\n", state));
-       }
-       else if (task != current) {
-#ifdef CONFIG_SMP
-               /*
-                * switch context to zombie state
-                */
-               ctx->ctx_state = PFM_CTX_ZOMBIE;
-
-               DPRINT(("zombie ctx for [%d]\n", task_pid_nr(task)));
-               /*
-                * cannot free the context on the spot. deferred until
-                * the task notices the ZOMBIE state
-                */
-               free_possible = 0;
-#else
-               pfm_context_unload(ctx, NULL, 0, regs);
-#endif
-       }
-
-doit:
-       /* reload state, may have changed during  opening of critical section */
-       state = ctx->ctx_state;
-
-       /*
-        * the context is still attached to a task (possibly current)
-        * we cannot destroy it right now
-        */
-
-       /*
-        * we must free the sampling buffer right here because
-        * we cannot rely on it being cleaned up later by the
-        * monitored task. It is not possible to free vmalloc'ed
-        * memory in pfm_load_regs(). Instead, we remove the buffer
-        * now. should there be subsequent PMU overflow originally
-        * meant for sampling, the will be converted to spurious
-        * and that's fine because the monitoring tools is gone anyway.
-        */
-       if (ctx->ctx_smpl_hdr) {
-               smpl_buf_addr = ctx->ctx_smpl_hdr;
-               smpl_buf_size = ctx->ctx_smpl_size;
-               /* no more sampling */
-               ctx->ctx_smpl_hdr = NULL;
-               ctx->ctx_fl_is_sampling = 0;
-       }
-
-       DPRINT(("ctx_state=%d free_possible=%d addr=%p size=%lu\n",
-               state,
-               free_possible,
-               smpl_buf_addr,
-               smpl_buf_size));
-
-       if (smpl_buf_addr) pfm_exit_smpl_buffer(ctx->ctx_buf_fmt);
-
-       /*
-        * UNLOADED that the session has already been unreserved.
-        */
-       if (state == PFM_CTX_ZOMBIE) {
-               pfm_unreserve_session(ctx, ctx->ctx_fl_system , ctx->ctx_cpu);
-       }
-
-       /*
-        * disconnect file descriptor from context must be done
-        * before we unlock.
-        */
-       filp->private_data = NULL;
-
-       /*
-        * if we free on the spot, the context is now completely unreachable
-        * from the callers side. The monitored task side is also cut, so we
-        * can freely cut.
-        *
-        * If we have a deferred free, only the caller side is disconnected.
-        */
-       UNPROTECT_CTX(ctx, flags);
-
-       /*
-        * All memory free operations (especially for vmalloc'ed memory)
-        * MUST be done with interrupts ENABLED.
-        */
-       vfree(smpl_buf_addr);
-
-       /*
-        * return the memory used by the context
-        */
-       if (free_possible) pfm_context_free(ctx);
-
-       return 0;
-}
-
-static const struct file_operations pfm_file_ops = {
-       .llseek         = no_llseek,
-       .read           = pfm_read,
-       .write          = pfm_write,
-       .poll           = pfm_poll,
-       .unlocked_ioctl = pfm_ioctl,
-       .fasync         = pfm_fasync,
-       .release        = pfm_close,
-       .flush          = pfm_flush
-};
-
-static char *pfmfs_dname(struct dentry *dentry, char *buffer, int buflen)
-{
-       return dynamic_dname(dentry, buffer, buflen, "pfm:[%lu]",
-                            d_inode(dentry)->i_ino);
-}
-
-static const struct dentry_operations pfmfs_dentry_operations = {
-       .d_delete = always_delete_dentry,
-       .d_dname = pfmfs_dname,
-};
-
-
-static struct file *
-pfm_alloc_file(pfm_context_t *ctx)
-{
-       struct file *file;
-       struct inode *inode;
-       struct path path;
-       struct qstr this = { .name = "" };
-
-       /*
-        * allocate a new inode
-        */
-       inode = new_inode(pfmfs_mnt->mnt_sb);
-       if (!inode)
-               return ERR_PTR(-ENOMEM);
-
-       DPRINT(("new inode ino=%ld @%p\n", inode->i_ino, inode));
-
-       inode->i_mode = S_IFCHR|S_IRUGO;
-       inode->i_uid  = current_fsuid();
-       inode->i_gid  = current_fsgid();
-
-       /*
-        * allocate a new dcache entry
-        */
-       path.dentry = d_alloc(pfmfs_mnt->mnt_root, &this);
-       if (!path.dentry) {
-               iput(inode);
-               return ERR_PTR(-ENOMEM);
-       }
-       path.mnt = mntget(pfmfs_mnt);
-
-       d_add(path.dentry, inode);
-
-       file = alloc_file(&path, FMODE_READ, &pfm_file_ops);
-       if (IS_ERR(file)) {
-               path_put(&path);
-               return file;
-       }
-
-       file->f_flags = O_RDONLY;
-       file->private_data = ctx;
-
-       return file;
-}
-
-static int
-pfm_remap_buffer(struct vm_area_struct *vma, unsigned long buf, unsigned long addr, unsigned long size)
-{
-       DPRINT(("CPU%d buf=0x%lx addr=0x%lx size=%ld\n", smp_processor_id(), buf, addr, size));
-
-       while (size > 0) {
-               unsigned long pfn = ia64_tpa(buf) >> PAGE_SHIFT;
-
-
-               if (remap_pfn_range(vma, addr, pfn, PAGE_SIZE, PAGE_READONLY))
-                       return -ENOMEM;
-
-               addr  += PAGE_SIZE;
-               buf   += PAGE_SIZE;
-               size  -= PAGE_SIZE;
-       }
-       return 0;
-}
-
-/*
- * allocate a sampling buffer and remaps it into the user address space of the task
- */
-static int
-pfm_smpl_buffer_alloc(struct task_struct *task, struct file *filp, pfm_context_t *ctx, unsigned long rsize, void **user_vaddr)
-{
-       struct mm_struct *mm = task->mm;
-       struct vm_area_struct *vma = NULL;
-       unsigned long size;
-       void *smpl_buf;
-
-
-       /*
-        * the fixed header + requested size and align to page boundary
-        */
-       size = PAGE_ALIGN(rsize);
-
-       DPRINT(("sampling buffer rsize=%lu size=%lu bytes\n", rsize, size));
-
-       /*
-        * check requested size to avoid Denial-of-service attacks
-        * XXX: may have to refine this test
-        * Check against address space limit.
-        *
-        * if ((mm->total_vm << PAGE_SHIFT) + len> task->rlim[RLIMIT_AS].rlim_cur)
-        *      return -ENOMEM;
-        */
-       if (size > task_rlimit(task, RLIMIT_MEMLOCK))
-               return -ENOMEM;
-
-       /*
-        * We do the easy to undo allocations first.
-        */
-       smpl_buf = vzalloc(size);
-       if (smpl_buf == NULL) {
-               DPRINT(("Can't allocate sampling buffer\n"));
-               return -ENOMEM;
-       }
-
-       DPRINT(("smpl_buf @%p\n", smpl_buf));
-
-       /* allocate vma */
-       vma = vm_area_alloc(mm);
-       if (!vma) {
-               DPRINT(("Cannot allocate vma\n"));
-               goto error_kmem;
-       }
-
-       /*
-        * partially initialize the vma for the sampling buffer
-        */
-       vma->vm_file         = get_file(filp);
-       vma->vm_flags        = VM_READ|VM_MAYREAD|VM_DONTEXPAND|VM_DONTDUMP;
-       vma->vm_page_prot    = PAGE_READONLY; /* XXX may need to change */
-
-       /*
-        * Now we have everything we need and we can initialize
-        * and connect all the data structures
-        */
-
-       ctx->ctx_smpl_hdr   = smpl_buf;
-       ctx->ctx_smpl_size  = size; /* aligned size */
-
-       /*
-        * Let's do the difficult operations next.
-        *
-        * now we atomically find some area in the address space and
-        * remap the buffer in it.
-        */
-       mmap_write_lock(task->mm);
-
-       /* find some free area in address space, must have mmap sem held */
-       vma->vm_start = get_unmapped_area(NULL, 0, size, 0, MAP_PRIVATE|MAP_ANONYMOUS);
-       if (IS_ERR_VALUE(vma->vm_start)) {
-               DPRINT(("Cannot find unmapped area for size %ld\n", size));
-               mmap_write_unlock(task->mm);
-               goto error;
-       }
-       vma->vm_end = vma->vm_start + size;
-       vma->vm_pgoff = vma->vm_start >> PAGE_SHIFT;
-
-       DPRINT(("aligned size=%ld, hdr=%p mapped @0x%lx\n", size, ctx->ctx_smpl_hdr, vma->vm_start));
-
-       /* can only be applied to current task, need to have the mm semaphore held when called */
-       if (pfm_remap_buffer(vma, (unsigned long)smpl_buf, vma->vm_start, size)) {
-               DPRINT(("Can't remap buffer\n"));
-               mmap_write_unlock(task->mm);
-               goto error;
-       }
-
-       /*
-        * now insert the vma in the vm list for the process, must be
-        * done with mmap lock held
-        */
-       insert_vm_struct(mm, vma);
-
-       vm_stat_account(vma->vm_mm, vma->vm_flags, vma_pages(vma));
-       mmap_write_unlock(task->mm);
-
-       /*
-        * keep track of user level virtual address
-        */
-       ctx->ctx_smpl_vaddr = (void *)vma->vm_start;
-       *(unsigned long *)user_vaddr = vma->vm_start;
-
-       return 0;
-
-error:
-       vm_area_free(vma);
-error_kmem:
-       vfree(smpl_buf);
-
-       return -ENOMEM;
-}
-
-/*
- * XXX: do something better here
- */
-static int
-pfm_bad_permissions(struct task_struct *task)
-{
-       const struct cred *tcred;
-       kuid_t uid = current_uid();
-       kgid_t gid = current_gid();
-       int ret;
-
-       rcu_read_lock();
-       tcred = __task_cred(task);
-
-       /* inspired by ptrace_attach() */
-       DPRINT(("cur: uid=%d gid=%d task: euid=%d suid=%d uid=%d egid=%d sgid=%d\n",
-               from_kuid(&init_user_ns, uid),
-               from_kgid(&init_user_ns, gid),
-               from_kuid(&init_user_ns, tcred->euid),
-               from_kuid(&init_user_ns, tcred->suid),
-               from_kuid(&init_user_ns, tcred->uid),
-               from_kgid(&init_user_ns, tcred->egid),
-               from_kgid(&init_user_ns, tcred->sgid)));
-
-       ret = ((!uid_eq(uid, tcred->euid))
-              || (!uid_eq(uid, tcred->suid))
-              || (!uid_eq(uid, tcred->uid))
-              || (!gid_eq(gid, tcred->egid))
-              || (!gid_eq(gid, tcred->sgid))
-              || (!gid_eq(gid, tcred->gid))) && !capable(CAP_SYS_PTRACE);
-
-       rcu_read_unlock();
-       return ret;
-}
-
-static int
-pfarg_is_sane(struct task_struct *task, pfarg_context_t *pfx)
-{
-       int ctx_flags;
-
-       /* valid signal */
-
-       ctx_flags = pfx->ctx_flags;
-
-       if (ctx_flags & PFM_FL_SYSTEM_WIDE) {
-
-               /*
-                * cannot block in this mode
-                */
-               if (ctx_flags & PFM_FL_NOTIFY_BLOCK) {
-                       DPRINT(("cannot use blocking mode when in system wide monitoring\n"));
-                       return -EINVAL;
-               }
-       } else {
-       }
-       /* probably more to add here */
-
-       return 0;
-}
-
-static int
-pfm_setup_buffer_fmt(struct task_struct *task, struct file *filp, pfm_context_t *ctx, unsigned int ctx_flags,
-                    unsigned int cpu, pfarg_context_t *arg)
-{
-       pfm_buffer_fmt_t *fmt = NULL;
-       unsigned long size = 0UL;
-       void *uaddr = NULL;
-       void *fmt_arg = NULL;
-       int ret = 0;
-#define PFM_CTXARG_BUF_ARG(a)  (pfm_buffer_fmt_t *)(a+1)
-
-       /* invoke and lock buffer format, if found */
-       fmt = pfm_find_buffer_fmt(arg->ctx_smpl_buf_id);
-       if (fmt == NULL) {
-               DPRINT(("[%d] cannot find buffer format\n", task_pid_nr(task)));
-               return -EINVAL;
-       }
-
-       /*
-        * buffer argument MUST be contiguous to pfarg_context_t
-        */
-       if (fmt->fmt_arg_size) fmt_arg = PFM_CTXARG_BUF_ARG(arg);
-
-       ret = pfm_buf_fmt_validate(fmt, task, ctx_flags, cpu, fmt_arg);
-
-       DPRINT(("[%d] after validate(0x%x,%d,%p)=%d\n", task_pid_nr(task), ctx_flags, cpu, fmt_arg, ret));
-
-       if (ret) goto error;
-
-       /* link buffer format and context */
-       ctx->ctx_buf_fmt = fmt;
-       ctx->ctx_fl_is_sampling = 1; /* assume record() is defined */
-
-       /*
-        * check if buffer format wants to use perfmon buffer allocation/mapping service
-        */
-       ret = pfm_buf_fmt_getsize(fmt, task, ctx_flags, cpu, fmt_arg, &size);
-       if (ret) goto error;
-
-       if (size) {
-               /*
-                * buffer is always remapped into the caller's address space
-                */
-               ret = pfm_smpl_buffer_alloc(current, filp, ctx, size, &uaddr);
-               if (ret) goto error;
-
-               /* keep track of user address of buffer */
-               arg->ctx_smpl_vaddr = uaddr;
-       }
-       ret = pfm_buf_fmt_init(fmt, task, ctx->ctx_smpl_hdr, ctx_flags, cpu, fmt_arg);
-
-error:
-       return ret;
-}
-
-static void
-pfm_reset_pmu_state(pfm_context_t *ctx)
-{
-       int i;
-
-       /*
-        * install reset values for PMC.
-        */
-       for (i=1; PMC_IS_LAST(i) == 0; i++) {
-               if (PMC_IS_IMPL(i) == 0) continue;
-               ctx->ctx_pmcs[i] = PMC_DFL_VAL(i);
-               DPRINT(("pmc[%d]=0x%lx\n", i, ctx->ctx_pmcs[i]));
-       }
-       /*
-        * PMD registers are set to 0UL when the context in memset()
-        */
-
-       /*
-        * On context switched restore, we must restore ALL pmc and ALL pmd even
-        * when they are not actively used by the task. In UP, the incoming process
-        * may otherwise pick up left over PMC, PMD state from the previous process.
-        * As opposed to PMD, stale PMC can cause harm to the incoming
-        * process because they may change what is being measured.
-        * Therefore, we must systematically reinstall the entire
-        * PMC state. In SMP, the same thing is possible on the
-        * same CPU but also on between 2 CPUs.
-        *
-        * The problem with PMD is information leaking especially
-        * to user level when psr.sp=0
-        *
-        * There is unfortunately no easy way to avoid this problem
-        * on either UP or SMP. This definitively slows down the
-        * pfm_load_regs() function.
-        */
-
-        /*
-         * bitmask of all PMCs accessible to this context
-         *
-         * PMC0 is treated differently.
-         */
-       ctx->ctx_all_pmcs[0] = pmu_conf->impl_pmcs[0] & ~0x1;
-
-       /*
-        * bitmask of all PMDs that are accessible to this context
-        */
-       ctx->ctx_all_pmds[0] = pmu_conf->impl_pmds[0];
-
-       DPRINT(("<%d> all_pmcs=0x%lx all_pmds=0x%lx\n", ctx->ctx_fd, ctx->ctx_all_pmcs[0],ctx->ctx_all_pmds[0]));
-
-       /*
-        * useful in case of re-enable after disable
-        */
-       ctx->ctx_used_ibrs[0] = 0UL;
-       ctx->ctx_used_dbrs[0] = 0UL;
-}
-
-static int
-pfm_ctx_getsize(void *arg, size_t *sz)
-{
-       pfarg_context_t *req = (pfarg_context_t *)arg;
-       pfm_buffer_fmt_t *fmt;
-
-       *sz = 0;
-
-       if (!pfm_uuid_cmp(req->ctx_smpl_buf_id, pfm_null_uuid)) return 0;
-
-       fmt = pfm_find_buffer_fmt(req->ctx_smpl_buf_id);
-       if (fmt == NULL) {
-               DPRINT(("cannot find buffer format\n"));
-               return -EINVAL;
-       }
-       /* get just enough to copy in user parameters */
-       *sz = fmt->fmt_arg_size;
-       DPRINT(("arg_size=%lu\n", *sz));
-
-       return 0;
-}
-
-
-
-/*
- * cannot attach if :
- *     - kernel task
- *     - task not owned by caller
- *     - task incompatible with context mode
- */
-static int
-pfm_task_incompatible(pfm_context_t *ctx, struct task_struct *task)
-{
-       /*
-        * no kernel task or task not owner by caller
-        */
-       if (task->mm == NULL) {
-               DPRINT(("task [%d] has not memory context (kernel thread)\n", task_pid_nr(task)));
-               return -EPERM;
-       }
-       if (pfm_bad_permissions(task)) {
-               DPRINT(("no permission to attach to  [%d]\n", task_pid_nr(task)));
-               return -EPERM;
-       }
-       /*
-        * cannot block in self-monitoring mode
-        */
-       if (CTX_OVFL_NOBLOCK(ctx) == 0 && task == current) {
-               DPRINT(("cannot load a blocking context on self for [%d]\n", task_pid_nr(task)));
-               return -EINVAL;
-       }
-
-       if (task->exit_state == EXIT_ZOMBIE) {
-               DPRINT(("cannot attach to  zombie task [%d]\n", task_pid_nr(task)));
-               return -EBUSY;
-       }
-
-       /*
-        * always ok for self
-        */
-       if (task == current) return 0;
-
-       if (!task_is_stopped_or_traced(task)) {
-               DPRINT(("cannot attach to non-stopped task [%d] state=%ld\n", task_pid_nr(task), task->state));
-               return -EBUSY;
-       }
-       /*
-        * make sure the task is off any CPU
-        */
-       wait_task_inactive(task, 0);
-
-       /* more to come... */
-
-       return 0;
-}
-
-static int
-pfm_get_task(pfm_context_t *ctx, pid_t pid, struct task_struct **task)
-{
-       struct task_struct *p = current;
-       int ret;
-
-       /* XXX: need to add more checks here */
-       if (pid < 2) return -EPERM;
-
-       if (pid != task_pid_vnr(current)) {
-               /* make sure task cannot go away while we operate on it */
-               p = find_get_task_by_vpid(pid);
-               if (!p)
-                       return -ESRCH;
-       }
-
-       ret = pfm_task_incompatible(ctx, p);
-       if (ret == 0) {
-               *task = p;
-       } else if (p != current) {
-               pfm_put_task(p);
-       }
-       return ret;
-}
-
-
-
-static int
-pfm_context_create(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs)
-{
-       pfarg_context_t *req = (pfarg_context_t *)arg;
-       struct file *filp;
-       struct path path;
-       int ctx_flags;
-       int fd;
-       int ret;
-
-       /* let's check the arguments first */
-       ret = pfarg_is_sane(current, req);
-       if (ret < 0)
-               return ret;
-
-       ctx_flags = req->ctx_flags;
-
-       ret = -ENOMEM;
-
-       fd = get_unused_fd_flags(0);
-       if (fd < 0)
-               return fd;
-
-       ctx = pfm_context_alloc(ctx_flags);
-       if (!ctx)
-               goto error;
-
-       filp = pfm_alloc_file(ctx);
-       if (IS_ERR(filp)) {
-               ret = PTR_ERR(filp);
-               goto error_file;
-       }
-
-       req->ctx_fd = ctx->ctx_fd = fd;
-
-       /*
-        * does the user want to sample?
-        */
-       if (pfm_uuid_cmp(req->ctx_smpl_buf_id, pfm_null_uuid)) {
-               ret = pfm_setup_buffer_fmt(current, filp, ctx, ctx_flags, 0, req);
-               if (ret)
-                       goto buffer_error;
-       }
-
-       DPRINT(("ctx=%p flags=0x%x system=%d notify_block=%d excl_idle=%d no_msg=%d ctx_fd=%d\n",
-               ctx,
-               ctx_flags,
-               ctx->ctx_fl_system,
-               ctx->ctx_fl_block,
-               ctx->ctx_fl_excl_idle,
-               ctx->ctx_fl_no_msg,
-               ctx->ctx_fd));
-
-       /*
-        * initialize soft PMU state
-        */
-       pfm_reset_pmu_state(ctx);
-
-       fd_install(fd, filp);
-
-       return 0;
-
-buffer_error:
-       path = filp->f_path;
-       put_filp(filp);
-       path_put(&path);
-
-       if (ctx->ctx_buf_fmt) {
-               pfm_buf_fmt_exit(ctx->ctx_buf_fmt, current, NULL, regs);
-       }
-error_file:
-       pfm_context_free(ctx);
-
-error:
-       put_unused_fd(fd);
-       return ret;
-}
-
-static inline unsigned long
-pfm_new_counter_value (pfm_counter_t *reg, int is_long_reset)
-{
-       unsigned long val = is_long_reset ? reg->long_reset : reg->short_reset;
-       unsigned long new_seed, old_seed = reg->seed, mask = reg->mask;
-       extern unsigned long carta_random32 (unsigned long seed);
-
-       if (reg->flags & PFM_REGFL_RANDOM) {
-               new_seed = carta_random32(old_seed);
-               val -= (old_seed & mask);       /* counter values are negative numbers! */
-               if ((mask >> 32) != 0)
-                       /* construct a full 64-bit random value: */
-                       new_seed |= carta_random32(old_seed >> 32) << 32;
-               reg->seed = new_seed;
-       }
-       reg->lval = val;
-       return val;
-}
-
-static void
-pfm_reset_regs_masked(pfm_context_t *ctx, unsigned long *ovfl_regs, int is_long_reset)
-{
-       unsigned long mask = ovfl_regs[0];
-       unsigned long reset_others = 0UL;
-       unsigned long val;
-       int i;
-
-       /*
-        * now restore reset value on sampling overflowed counters
-        */
-       mask >>= PMU_FIRST_COUNTER;
-       for(i = PMU_FIRST_COUNTER; mask; i++, mask >>= 1) {
-
-               if ((mask & 0x1UL) == 0UL) continue;
-
-               ctx->ctx_pmds[i].val = val = pfm_new_counter_value(ctx->ctx_pmds+ i, is_long_reset);
-               reset_others        |= ctx->ctx_pmds[i].reset_pmds[0];
-
-               DPRINT_ovfl((" %s reset ctx_pmds[%d]=%lx\n", is_long_reset ? "long" : "short", i, val));
-       }
-
-       /*
-        * Now take care of resetting the other registers
-        */
-       for(i = 0; reset_others; i++, reset_others >>= 1) {
-
-               if ((reset_others & 0x1) == 0) continue;
-
-               ctx->ctx_pmds[i].val = val = pfm_new_counter_value(ctx->ctx_pmds + i, is_long_reset);
-
-               DPRINT_ovfl(("%s reset_others pmd[%d]=%lx\n",
-                         is_long_reset ? "long" : "short", i, val));
-       }
-}
-
-static void
-pfm_reset_regs(pfm_context_t *ctx, unsigned long *ovfl_regs, int is_long_reset)
-{
-       unsigned long mask = ovfl_regs[0];
-       unsigned long reset_others = 0UL;
-       unsigned long val;
-       int i;
-
-       DPRINT_ovfl(("ovfl_regs=0x%lx is_long_reset=%d\n", ovfl_regs[0], is_long_reset));
-
-       if (ctx->ctx_state == PFM_CTX_MASKED) {
-               pfm_reset_regs_masked(ctx, ovfl_regs, is_long_reset);
-               return;
-       }
-
-       /*
-        * now restore reset value on sampling overflowed counters
-        */
-       mask >>= PMU_FIRST_COUNTER;
-       for(i = PMU_FIRST_COUNTER; mask; i++, mask >>= 1) {
-
-               if ((mask & 0x1UL) == 0UL) continue;
-
-               val           = pfm_new_counter_value(ctx->ctx_pmds+ i, is_long_reset);
-               reset_others |= ctx->ctx_pmds[i].reset_pmds[0];
-
-               DPRINT_ovfl((" %s reset ctx_pmds[%d]=%lx\n", is_long_reset ? "long" : "short", i, val));
-
-               pfm_write_soft_counter(ctx, i, val);
-       }
-
-       /*
-        * Now take care of resetting the other registers
-        */
-       for(i = 0; reset_others; i++, reset_others >>= 1) {
-
-               if ((reset_others & 0x1) == 0) continue;
-
-               val = pfm_new_counter_value(ctx->ctx_pmds + i, is_long_reset);
-
-               if (PMD_IS_COUNTING(i)) {
-                       pfm_write_soft_counter(ctx, i, val);
-               } else {
-                       ia64_set_pmd(i, val);
-               }
-               DPRINT_ovfl(("%s reset_others pmd[%d]=%lx\n",
-                         is_long_reset ? "long" : "short", i, val));
-       }
-       ia64_srlz_d();
-}
-
-static int
-pfm_write_pmcs(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs)
-{
-       struct task_struct *task;
-       pfarg_reg_t *req = (pfarg_reg_t *)arg;
-       unsigned long value, pmc_pm;
-       unsigned long smpl_pmds, reset_pmds, impl_pmds;
-       unsigned int cnum, reg_flags, flags, pmc_type;
-       int i, can_access_pmu = 0, is_loaded, is_system, expert_mode;
-       int is_monitor, is_counting, state;
-       int ret = -EINVAL;
-       pfm_reg_check_t wr_func;
-#define PFM_CHECK_PMC_PM(x, y, z) ((x)->ctx_fl_system ^ PMC_PM(y, z))
-
-       state     = ctx->ctx_state;
-       is_loaded = state == PFM_CTX_LOADED ? 1 : 0;
-       is_system = ctx->ctx_fl_system;
-       task      = ctx->ctx_task;
-       impl_pmds = pmu_conf->impl_pmds[0];
-
-       if (state == PFM_CTX_ZOMBIE) return -EINVAL;
-
-       if (is_loaded) {
-               /*
-                * In system wide and when the context is loaded, access can only happen
-                * when the caller is running on the CPU being monitored by the session.
-                * It does not have to be the owner (ctx_task) of the context per se.
-                */
-               if (is_system && ctx->ctx_cpu != smp_processor_id()) {
-                       DPRINT(("should be running on CPU%d\n", ctx->ctx_cpu));
-                       return -EBUSY;
-               }
-               can_access_pmu = GET_PMU_OWNER() == task || is_system ? 1 : 0;
-       }
-       expert_mode = pfm_sysctl.expert_mode; 
-
-       for (i = 0; i < count; i++, req++) {
-
-               cnum       = req->reg_num;
-               reg_flags  = req->reg_flags;
-               value      = req->reg_value;
-               smpl_pmds  = req->reg_smpl_pmds[0];
-               reset_pmds = req->reg_reset_pmds[0];
-               flags      = 0;
-
-
-               if (cnum >= PMU_MAX_PMCS) {
-                       DPRINT(("pmc%u is invalid\n", cnum));
-                       goto error;
-               }
-
-               pmc_type   = pmu_conf->pmc_desc[cnum].type;
-               pmc_pm     = (value >> pmu_conf->pmc_desc[cnum].pm_pos) & 0x1;
-               is_counting = (pmc_type & PFM_REG_COUNTING) == PFM_REG_COUNTING ? 1 : 0;
-               is_monitor  = (pmc_type & PFM_REG_MONITOR) == PFM_REG_MONITOR ? 1 : 0;
-
-               /*
-                * we reject all non implemented PMC as well
-                * as attempts to modify PMC[0-3] which are used
-                * as status registers by the PMU
-                */
-               if ((pmc_type & PFM_REG_IMPL) == 0 || (pmc_type & PFM_REG_CONTROL) == PFM_REG_CONTROL) {
-                       DPRINT(("pmc%u is unimplemented or no-access pmc_type=%x\n", cnum, pmc_type));
-                       goto error;
-               }
-               wr_func = pmu_conf->pmc_desc[cnum].write_check;
-               /*
-                * If the PMC is a monitor, then if the value is not the default:
-                *      - system-wide session: PMCx.pm=1 (privileged monitor)
-                *      - per-task           : PMCx.pm=0 (user monitor)
-                */
-               if (is_monitor && value != PMC_DFL_VAL(cnum) && is_system ^ pmc_pm) {
-                       DPRINT(("pmc%u pmc_pm=%lu is_system=%d\n",
-                               cnum,
-                               pmc_pm,
-                               is_system));
-                       goto error;
-               }
-
-               if (is_counting) {
-                       /*
-                        * enforce generation of overflow interrupt. Necessary on all
-                        * CPUs.
-                        */
-                       value |= 1 << PMU_PMC_OI;
-
-                       if (reg_flags & PFM_REGFL_OVFL_NOTIFY) {
-                               flags |= PFM_REGFL_OVFL_NOTIFY;
-                       }
-
-                       if (reg_flags & PFM_REGFL_RANDOM) flags |= PFM_REGFL_RANDOM;
-
-                       /* verify validity of smpl_pmds */
-                       if ((smpl_pmds & impl_pmds) != smpl_pmds) {
-                               DPRINT(("invalid smpl_pmds 0x%lx for pmc%u\n", smpl_pmds, cnum));
-                               goto error;
-                       }
-
-                       /* verify validity of reset_pmds */
-                       if ((reset_pmds & impl_pmds) != reset_pmds) {
-                               DPRINT(("invalid reset_pmds 0x%lx for pmc%u\n", reset_pmds, cnum));
-                               goto error;
-                       }
-               } else {
-                       if (reg_flags & (PFM_REGFL_OVFL_NOTIFY|PFM_REGFL_RANDOM)) {
-                               DPRINT(("cannot set ovfl_notify or random on pmc%u\n", cnum));
-                               goto error;
-                       }
-                       /* eventid on non-counting monitors are ignored */
-               }
-
-               /*
-                * execute write checker, if any
-                */
-               if (likely(expert_mode == 0 && wr_func)) {
-                       ret = (*wr_func)(task, ctx, cnum, &value, regs);
-                       if (ret) goto error;
-                       ret = -EINVAL;
-               }
-
-               /*
-                * no error on this register
-                */
-               PFM_REG_RETFLAG_SET(req->reg_flags, 0);
-
-               /*
-                * Now we commit the changes to the software state
-                */
-
-               /*
-                * update overflow information
-                */
-               if (is_counting) {
-                       /*
-                        * full flag update each time a register is programmed
-                        */
-                       ctx->ctx_pmds[cnum].flags = flags;
-
-                       ctx->ctx_pmds[cnum].reset_pmds[0] = reset_pmds;
-                       ctx->ctx_pmds[cnum].smpl_pmds[0]  = smpl_pmds;
-                       ctx->ctx_pmds[cnum].eventid       = req->reg_smpl_eventid;
-
-                       /*
-                        * Mark all PMDS to be accessed as used.
-                        *
-                        * We do not keep track of PMC because we have to
-                        * systematically restore ALL of them.
-                        *
-                        * We do not update the used_monitors mask, because
-                        * if we have not programmed them, then will be in
-                        * a quiescent state, therefore we will not need to
-                        * mask/restore then when context is MASKED.
-                        */
-                       CTX_USED_PMD(ctx, reset_pmds);
-                       CTX_USED_PMD(ctx, smpl_pmds);
-                       /*
-                        * make sure we do not try to reset on
-                        * restart because we have established new values
-                        */
-                       if (state == PFM_CTX_MASKED) ctx->ctx_ovfl_regs[0] &= ~1UL << cnum;
-               }
-               /*
-                * Needed in case the user does not initialize the equivalent
-                * PMD. Clearing is done indirectly via pfm_reset_pmu_state() so there is no
-                * possible leak here.
-                */
-               CTX_USED_PMD(ctx, pmu_conf->pmc_desc[cnum].dep_pmd[0]);
-
-               /*
-                * keep track of the monitor PMC that we are using.
-                * we save the value of the pmc in ctx_pmcs[] and if
-                * the monitoring is not stopped for the context we also
-                * place it in the saved state area so that it will be
-                * picked up later by the context switch code.
-                *
-                * The value in ctx_pmcs[] can only be changed in pfm_write_pmcs().
-                *
-                * The value in th_pmcs[] may be modified on overflow, i.e.,  when
-                * monitoring needs to be stopped.
-                */
-               if (is_monitor) CTX_USED_MONITOR(ctx, 1UL << cnum);
-
-               /*
-                * update context state
-                */
-               ctx->ctx_pmcs[cnum] = value;
-
-               if (is_loaded) {
-                       /*
-                        * write thread state
-                        */
-                       if (is_system == 0) ctx->th_pmcs[cnum] = value;
-
-                       /*
-                        * write hardware register if we can
-                        */
-                       if (can_access_pmu) {
-                               ia64_set_pmc(cnum, value);
-                       }
-#ifdef CONFIG_SMP
-                       else {
-                               /*
-                                * per-task SMP only here
-                                *
-                                * we are guaranteed that the task is not running on the other CPU,
-                                * we indicate that this PMD will need to be reloaded if the task
-                                * is rescheduled on the CPU it ran last on.
-                                */
-                               ctx->ctx_reload_pmcs[0] |= 1UL << cnum;
-                       }
-#endif
-               }
-
-               DPRINT(("pmc[%u]=0x%lx ld=%d apmu=%d flags=0x%x all_pmcs=0x%lx used_pmds=0x%lx eventid=%ld smpl_pmds=0x%lx reset_pmds=0x%lx reloads_pmcs=0x%lx used_monitors=0x%lx ovfl_regs=0x%lx\n",
-                         cnum,
-                         value,
-                         is_loaded,
-                         can_access_pmu,
-                         flags,
-                         ctx->ctx_all_pmcs[0],
-                         ctx->ctx_used_pmds[0],
-                         ctx->ctx_pmds[cnum].eventid,
-                         smpl_pmds,
-                         reset_pmds,
-                         ctx->ctx_reload_pmcs[0],
-                         ctx->ctx_used_monitors[0],
-                         ctx->ctx_ovfl_regs[0]));
-       }
-
-       /*
-        * make sure the changes are visible
-        */
-       if (can_access_pmu) ia64_srlz_d();
-
-       return 0;
-error:
-       PFM_REG_RETFLAG_SET(req->reg_flags, PFM_REG_RETFL_EINVAL);
-       return ret;
-}
-
-static int
-pfm_write_pmds(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs)
-{
-       struct task_struct *task;
-       pfarg_reg_t *req = (pfarg_reg_t *)arg;
-       unsigned long value, hw_value, ovfl_mask;
-       unsigned int cnum;
-       int i, can_access_pmu = 0, state;
-       int is_counting, is_loaded, is_system, expert_mode;
-       int ret = -EINVAL;
-       pfm_reg_check_t wr_func;
-
-
-       state     = ctx->ctx_state;
-       is_loaded = state == PFM_CTX_LOADED ? 1 : 0;
-       is_system = ctx->ctx_fl_system;
-       ovfl_mask = pmu_conf->ovfl_val;
-       task      = ctx->ctx_task;
-
-       if (unlikely(state == PFM_CTX_ZOMBIE)) return -EINVAL;
-
-       /*
-        * on both UP and SMP, we can only write to the PMC when the task is
-        * the owner of the local PMU.
-        */
-       if (likely(is_loaded)) {
-               /*
-                * In system wide and when the context is loaded, access can only happen
-                * when the caller is running on the CPU being monitored by the session.
-                * It does not have to be the owner (ctx_task) of the context per se.
-                */
-               if (unlikely(is_system && ctx->ctx_cpu != smp_processor_id())) {
-                       DPRINT(("should be running on CPU%d\n", ctx->ctx_cpu));
-                       return -EBUSY;
-               }
-               can_access_pmu = GET_PMU_OWNER() == task || is_system ? 1 : 0;
-       }
-       expert_mode = pfm_sysctl.expert_mode; 
-
-       for (i = 0; i < count; i++, req++) {
-
-               cnum  = req->reg_num;
-               value = req->reg_value;
-
-               if (!PMD_IS_IMPL(cnum)) {
-                       DPRINT(("pmd[%u] is unimplemented or invalid\n", cnum));
-                       goto abort_mission;
-               }
-               is_counting = PMD_IS_COUNTING(cnum);
-               wr_func     = pmu_conf->pmd_desc[cnum].write_check;
-
-               /*
-                * execute write checker, if any
-                */
-               if (unlikely(expert_mode == 0 && wr_func)) {
-                       unsigned long v = value;
-
-                       ret = (*wr_func)(task, ctx, cnum, &v, regs);
-                       if (ret) goto abort_mission;
-
-                       value = v;
-                       ret   = -EINVAL;
-               }
-
-               /*
-                * no error on this register
-                */
-               PFM_REG_RETFLAG_SET(req->reg_flags, 0);
-
-               /*
-                * now commit changes to software state
-                */
-               hw_value = value;
-
-               /*
-                * update virtualized (64bits) counter
-                */
-               if (is_counting) {
-                       /*
-                        * write context state
-                        */
-                       ctx->ctx_pmds[cnum].lval = value;
-
-                       /*
-                        * when context is load we use the split value
-                        */
-                       if (is_loaded) {
-                               hw_value = value &  ovfl_mask;
-                               value    = value & ~ovfl_mask;
-                       }
-               }
-               /*
-                * update reset values (not just for counters)
-                */
-               ctx->ctx_pmds[cnum].long_reset  = req->reg_long_reset;
-               ctx->ctx_pmds[cnum].short_reset = req->reg_short_reset;
-
-               /*
-                * update randomization parameters (not just for counters)
-                */
-               ctx->ctx_pmds[cnum].seed = req->reg_random_seed;
-               ctx->ctx_pmds[cnum].mask = req->reg_random_mask;
-
-               /*
-                * update context value
-                */
-               ctx->ctx_pmds[cnum].val  = value;
-
-               /*
-                * Keep track of what we use
-                *
-                * We do not keep track of PMC because we have to
-                * systematically restore ALL of them.
-                */
-               CTX_USED_PMD(ctx, PMD_PMD_DEP(cnum));
-
-               /*
-                * mark this PMD register used as well
-                */
-               CTX_USED_PMD(ctx, RDEP(cnum));
-
-               /*
-                * make sure we do not try to reset on
-                * restart because we have established new values
-                */
-               if (is_counting && state == PFM_CTX_MASKED) {
-                       ctx->ctx_ovfl_regs[0] &= ~1UL << cnum;
-               }
-
-               if (is_loaded) {
-                       /*
-                        * write thread state
-                        */
-                       if (is_system == 0) ctx->th_pmds[cnum] = hw_value;
-
-                       /*
-                        * write hardware register if we can
-                        */
-                       if (can_access_pmu) {
-                               ia64_set_pmd(cnum, hw_value);
-                       } else {
-#ifdef CONFIG_SMP
-                               /*
-                                * we are guaranteed that the task is not running on the other CPU,
-                                * we indicate that this PMD will need to be reloaded if the task
-                                * is rescheduled on the CPU it ran last on.
-                                */
-                               ctx->ctx_reload_pmds[0] |= 1UL << cnum;
-#endif
-                       }
-               }
-
-               DPRINT(("pmd[%u]=0x%lx ld=%d apmu=%d, hw_value=0x%lx ctx_pmd=0x%lx  short_reset=0x%lx "
-                         "long_reset=0x%lx notify=%c seed=0x%lx mask=0x%lx used_pmds=0x%lx reset_pmds=0x%lx reload_pmds=0x%lx all_pmds=0x%lx ovfl_regs=0x%lx\n",
-                       cnum,
-                       value,
-                       is_loaded,
-                       can_access_pmu,
-                       hw_value,
-                       ctx->ctx_pmds[cnum].val,
-                       ctx->ctx_pmds[cnum].short_reset,
-                       ctx->ctx_pmds[cnum].long_reset,
-                       PMC_OVFL_NOTIFY(ctx, cnum) ? 'Y':'N',
-                       ctx->ctx_pmds[cnum].seed,
-                       ctx->ctx_pmds[cnum].mask,
-                       ctx->ctx_used_pmds[0],
-                       ctx->ctx_pmds[cnum].reset_pmds[0],
-                       ctx->ctx_reload_pmds[0],
-                       ctx->ctx_all_pmds[0],
-                       ctx->ctx_ovfl_regs[0]));
-       }
-
-       /*
-        * make changes visible
-        */
-       if (can_access_pmu) ia64_srlz_d();
-
-       return 0;
-
-abort_mission:
-       /*
-        * for now, we have only one possibility for error
-        */
-       PFM_REG_RETFLAG_SET(req->reg_flags, PFM_REG_RETFL_EINVAL);
-       return ret;
-}
-
-/*
- * By the way of PROTECT_CONTEXT(), interrupts are masked while we are in this function.
- * Therefore we know, we do not have to worry about the PMU overflow interrupt. If an
- * interrupt is delivered during the call, it will be kept pending until we leave, making
- * it appears as if it had been generated at the UNPROTECT_CONTEXT(). At least we are
- * guaranteed to return consistent data to the user, it may simply be old. It is not
- * trivial to treat the overflow while inside the call because you may end up in
- * some module sampling buffer code causing deadlocks.
- */
-static int
-pfm_read_pmds(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs)
-{
-       struct task_struct *task;
-       unsigned long val = 0UL, lval, ovfl_mask, sval;
-       pfarg_reg_t *req = (pfarg_reg_t *)arg;
-       unsigned int cnum, reg_flags = 0;
-       int i, can_access_pmu = 0, state;
-       int is_loaded, is_system, is_counting, expert_mode;
-       int ret = -EINVAL;
-       pfm_reg_check_t rd_func;
-
-       /*
-        * access is possible when loaded only for
-        * self-monitoring tasks or in UP mode
-        */
-
-       state     = ctx->ctx_state;
-       is_loaded = state == PFM_CTX_LOADED ? 1 : 0;
-       is_system = ctx->ctx_fl_system;
-       ovfl_mask = pmu_conf->ovfl_val;
-       task      = ctx->ctx_task;
-
-       if (state == PFM_CTX_ZOMBIE) return -EINVAL;
-
-       if (likely(is_loaded)) {
-               /*
-                * In system wide and when the context is loaded, access can only happen
-                * when the caller is running on the CPU being monitored by the session.
-                * It does not have to be the owner (ctx_task) of the context per se.
-                */
-               if (unlikely(is_system && ctx->ctx_cpu != smp_processor_id())) {
-                       DPRINT(("should be running on CPU%d\n", ctx->ctx_cpu));
-                       return -EBUSY;
-               }
-               /*
-                * this can be true when not self-monitoring only in UP
-                */
-               can_access_pmu = GET_PMU_OWNER() == task || is_system ? 1 : 0;
-
-               if (can_access_pmu) ia64_srlz_d();
-       }
-       expert_mode = pfm_sysctl.expert_mode; 
-
-       DPRINT(("ld=%d apmu=%d ctx_state=%d\n",
-               is_loaded,
-               can_access_pmu,
-               state));
-
-       /*
-        * on both UP and SMP, we can only read the PMD from the hardware register when
-        * the task is the owner of the local PMU.
-        */
-
-       for (i = 0; i < count; i++, req++) {
-
-               cnum        = req->reg_num;
-               reg_flags   = req->reg_flags;
-
-               if (unlikely(!PMD_IS_IMPL(cnum))) goto error;
-               /*
-                * we can only read the register that we use. That includes
-                * the one we explicitly initialize AND the one we want included
-                * in the sampling buffer (smpl_regs).
-                *
-                * Having this restriction allows optimization in the ctxsw routine
-                * without compromising security (leaks)
-                */
-               if (unlikely(!CTX_IS_USED_PMD(ctx, cnum))) goto error;
-
-               sval        = ctx->ctx_pmds[cnum].val;
-               lval        = ctx->ctx_pmds[cnum].lval;
-               is_counting = PMD_IS_COUNTING(cnum);
-
-               /*
-                * If the task is not the current one, then we check if the
-                * PMU state is still in the local live register due to lazy ctxsw.
-                * If true, then we read directly from the registers.
-                */
-               if (can_access_pmu){
-                       val = ia64_get_pmd(cnum);
-               } else {
-                       /*
-                        * context has been saved
-                        * if context is zombie, then task does not exist anymore.
-                        * In this case, we use the full value saved in the context (pfm_flush_regs()).
-                        */
-                       val = is_loaded ? ctx->th_pmds[cnum] : 0UL;
-               }
-               rd_func = pmu_conf->pmd_desc[cnum].read_check;
-
-               if (is_counting) {
-                       /*
-                        * XXX: need to check for overflow when loaded
-                        */
-                       val &= ovfl_mask;
-                       val += sval;
-               }
-
-               /*
-                * execute read checker, if any
-                */
-               if (unlikely(expert_mode == 0 && rd_func)) {
-                       unsigned long v = val;
-                       ret = (*rd_func)(ctx->ctx_task, ctx, cnum, &v, regs);
-                       if (ret) goto error;
-                       val = v;
-                       ret = -EINVAL;
-               }
-
-               PFM_REG_RETFLAG_SET(reg_flags, 0);
-
-               DPRINT(("pmd[%u]=0x%lx\n", cnum, val));
-
-               /*
-                * update register return value, abort all if problem during copy.
-                * we only modify the reg_flags field. no check mode is fine because
-                * access has been verified upfront in sys_perfmonctl().
-                */
-               req->reg_value            = val;
-               req->reg_flags            = reg_flags;
-               req->reg_last_reset_val   = lval;
-       }
-
-       return 0;
-
-error:
-       PFM_REG_RETFLAG_SET(req->reg_flags, PFM_REG_RETFL_EINVAL);
-       return ret;
-}
-
-int
-pfm_mod_write_pmcs(struct task_struct *task, void *req, unsigned int nreq, struct pt_regs *regs)
-{
-       pfm_context_t *ctx;
-
-       if (req == NULL) return -EINVAL;
-
-       ctx = GET_PMU_CTX();
-
-       if (ctx == NULL) return -EINVAL;
-
-       /*
-        * for now limit to current task, which is enough when calling
-        * from overflow handler
-        */
-       if (task != current && ctx->ctx_fl_system == 0) return -EBUSY;
-
-       return pfm_write_pmcs(ctx, req, nreq, regs);
-}
-EXPORT_SYMBOL(pfm_mod_write_pmcs);
-
-int
-pfm_mod_read_pmds(struct task_struct *task, void *req, unsigned int nreq, struct pt_regs *regs)
-{
-       pfm_context_t *ctx;
-
-       if (req == NULL) return -EINVAL;
-
-       ctx = GET_PMU_CTX();
-
-       if (ctx == NULL) return -EINVAL;
-
-       /*
-        * for now limit to current task, which is enough when calling
-        * from overflow handler
-        */
-       if (task != current && ctx->ctx_fl_system == 0) return -EBUSY;
-
-       return pfm_read_pmds(ctx, req, nreq, regs);
-}
-EXPORT_SYMBOL(pfm_mod_read_pmds);
-
-/*
- * Only call this function when a process it trying to
- * write the debug registers (reading is always allowed)
- */
-int
-pfm_use_debug_registers(struct task_struct *task)
-{
-       pfm_context_t *ctx = task->thread.pfm_context;
-       unsigned long flags;
-       int ret = 0;
-
-       if (pmu_conf->use_rr_dbregs == 0) return 0;
-
-       DPRINT(("called for [%d]\n", task_pid_nr(task)));
-
-       /*
-        * do it only once
-        */
-       if (task->thread.flags & IA64_THREAD_DBG_VALID) return 0;
-
-       /*
-        * Even on SMP, we do not need to use an atomic here because
-        * the only way in is via ptrace() and this is possible only when the
-        * process is stopped. Even in the case where the ctxsw out is not totally
-        * completed by the time we come here, there is no way the 'stopped' process
-        * could be in the middle of fiddling with the pfm_write_ibr_dbr() routine.
-        * So this is always safe.
-        */
-       if (ctx && ctx->ctx_fl_using_dbreg == 1) return -1;
-
-       LOCK_PFS(flags);
-
-       /*
-        * We cannot allow setting breakpoints when system wide monitoring
-        * sessions are using the debug registers.
-        */
-       if (pfm_sessions.pfs_sys_use_dbregs> 0)
-               ret = -1;
-       else
-               pfm_sessions.pfs_ptrace_use_dbregs++;
-
-       DPRINT(("ptrace_use_dbregs=%u  sys_use_dbregs=%u by [%d] ret = %d\n",
-                 pfm_sessions.pfs_ptrace_use_dbregs,
-                 pfm_sessions.pfs_sys_use_dbregs,
-                 task_pid_nr(task), ret));
-
-       UNLOCK_PFS(flags);
-
-       return ret;
-}
-
-/*
- * This function is called for every task that exits with the
- * IA64_THREAD_DBG_VALID set. This indicates a task which was
- * able to use the debug registers for debugging purposes via
- * ptrace(). Therefore we know it was not using them for
- * performance monitoring, so we only decrement the number
- * of "ptraced" debug register users to keep the count up to date
- */
-int
-pfm_release_debug_registers(struct task_struct *task)
-{
-       unsigned long flags;
-       int ret;
-
-       if (pmu_conf->use_rr_dbregs == 0) return 0;
-
-       LOCK_PFS(flags);
-       if (pfm_sessions.pfs_ptrace_use_dbregs == 0) {
-               printk(KERN_ERR "perfmon: invalid release for [%d] ptrace_use_dbregs=0\n", task_pid_nr(task));
-               ret = -1;
-       }  else {
-               pfm_sessions.pfs_ptrace_use_dbregs--;
-               ret = 0;
-       }
-       UNLOCK_PFS(flags);
-
-       return ret;
-}
-
-static int
-pfm_restart(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs)
-{
-       struct task_struct *task;
-       pfm_buffer_fmt_t *fmt;
-       pfm_ovfl_ctrl_t rst_ctrl;
-       int state, is_system;
-       int ret = 0;
-
-       state     = ctx->ctx_state;
-       fmt       = ctx->ctx_buf_fmt;
-       is_system = ctx->ctx_fl_system;
-       task      = PFM_CTX_TASK(ctx);
-
-       switch(state) {
-               case PFM_CTX_MASKED:
-                       break;
-               case PFM_CTX_LOADED: 
-                       if (CTX_HAS_SMPL(ctx) && fmt->fmt_restart_active) break;
-                       fallthrough;
-               case PFM_CTX_UNLOADED:
-               case PFM_CTX_ZOMBIE:
-                       DPRINT(("invalid state=%d\n", state));
-                       return -EBUSY;
-               default:
-                       DPRINT(("state=%d, cannot operate (no active_restart handler)\n", state));
-                       return -EINVAL;
-       }
-
-       /*
-        * In system wide and when the context is loaded, access can only happen
-        * when the caller is running on the CPU being monitored by the session.
-        * It does not have to be the owner (ctx_task) of the context per se.
-        */
-       if (is_system && ctx->ctx_cpu != smp_processor_id()) {
-               DPRINT(("should be running on CPU%d\n", ctx->ctx_cpu));
-               return -EBUSY;
-       }
-
-       /* sanity check */
-       if (unlikely(task == NULL)) {
-               printk(KERN_ERR "perfmon: [%d] pfm_restart no task\n", task_pid_nr(current));
-               return -EINVAL;
-       }
-
-       if (task == current || is_system) {
-
-               fmt = ctx->ctx_buf_fmt;
-
-               DPRINT(("restarting self %d ovfl=0x%lx\n",
-                       task_pid_nr(task),
-                       ctx->ctx_ovfl_regs[0]));
-
-               if (CTX_HAS_SMPL(ctx)) {
-
-                       prefetch(ctx->ctx_smpl_hdr);
-
-                       rst_ctrl.bits.mask_monitoring = 0;
-                       rst_ctrl.bits.reset_ovfl_pmds = 0;
-
-                       if (state == PFM_CTX_LOADED)
-                               ret = pfm_buf_fmt_restart_active(fmt, task, &rst_ctrl, ctx->ctx_smpl_hdr, regs);
-                       else
-                               ret = pfm_buf_fmt_restart(fmt, task, &rst_ctrl, ctx->ctx_smpl_hdr, regs);
-               } else {
-                       rst_ctrl.bits.mask_monitoring = 0;
-                       rst_ctrl.bits.reset_ovfl_pmds = 1;
-               }
-
-               if (ret == 0) {
-                       if (rst_ctrl.bits.reset_ovfl_pmds)
-                               pfm_reset_regs(ctx, ctx->ctx_ovfl_regs, PFM_PMD_LONG_RESET);
-
-                       if (rst_ctrl.bits.mask_monitoring == 0) {
-                               DPRINT(("resuming monitoring for [%d]\n", task_pid_nr(task)));
-
-                               if (state == PFM_CTX_MASKED) pfm_restore_monitoring(task);
-                       } else {
-                               DPRINT(("keeping monitoring stopped for [%d]\n", task_pid_nr(task)));
-
-                               // cannot use pfm_stop_monitoring(task, regs);
-                       }
-               }
-               /*
-                * clear overflowed PMD mask to remove any stale information
-                */
-               ctx->ctx_ovfl_regs[0] = 0UL;
-
-               /*
-                * back to LOADED state
-                */
-               ctx->ctx_state = PFM_CTX_LOADED;
-
-               /*
-                * XXX: not really useful for self monitoring
-                */
-               ctx->ctx_fl_can_restart = 0;
-
-               return 0;
-       }
-
-       /* 
-        * restart another task
-        */
-
-       /*
-        * When PFM_CTX_MASKED, we cannot issue a restart before the previous 
-        * one is seen by the task.
-        */
-       if (state == PFM_CTX_MASKED) {
-               if (ctx->ctx_fl_can_restart == 0) return -EINVAL;
-               /*
-                * will prevent subsequent restart before this one is
-                * seen by other task
-                */
-               ctx->ctx_fl_can_restart = 0;
-       }
-
-       /*
-        * if blocking, then post the semaphore is PFM_CTX_MASKED, i.e.
-        * the task is blocked or on its way to block. That's the normal
-        * restart path. If the monitoring is not masked, then the task
-        * can be actively monitoring and we cannot directly intervene.
-        * Therefore we use the trap mechanism to catch the task and
-        * force it to reset the buffer/reset PMDs.
-        *
-        * if non-blocking, then we ensure that the task will go into
-        * pfm_handle_work() before returning to user mode.
-        *
-        * We cannot explicitly reset another task, it MUST always
-        * be done by the task itself. This works for system wide because
-        * the tool that is controlling the session is logically doing 
-        * "self-monitoring".
-        */
-       if (CTX_OVFL_NOBLOCK(ctx) == 0 && state == PFM_CTX_MASKED) {
-               DPRINT(("unblocking [%d]\n", task_pid_nr(task)));
-               complete(&ctx->ctx_restart_done);
-       } else {
-               DPRINT(("[%d] armed exit trap\n", task_pid_nr(task)));
-
-               ctx->ctx_fl_trap_reason = PFM_TRAP_REASON_RESET;
-
-               PFM_SET_WORK_PENDING(task, 1);
-
-               set_notify_resume(task);
-
-               /*
-                * XXX: send reschedule if task runs on another CPU
-                */
-       }
-       return 0;
-}
-
-static int
-pfm_debug(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs)
-{
-       unsigned int m = *(unsigned int *)arg;
-
-       pfm_sysctl.debug = m == 0 ? 0 : 1;
-
-       printk(KERN_INFO "perfmon debugging %s (timing reset)\n", pfm_sysctl.debug ? "on" : "off");
-
-       if (m == 0) {
-               memset(pfm_stats, 0, sizeof(pfm_stats));
-               for(m=0; m < NR_CPUS; m++) pfm_stats[m].pfm_ovfl_intr_cycles_min = ~0UL;
-       }
-       return 0;
-}
-
-/*
- * arg can be NULL and count can be zero for this function
- */
-static int
-pfm_write_ibr_dbr(int mode, pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs)
-{
-       struct thread_struct *thread = NULL;
-       struct task_struct *task;
-       pfarg_dbreg_t *req = (pfarg_dbreg_t *)arg;
-       unsigned long flags;
-       dbreg_t dbreg;
-       unsigned int rnum;
-       int first_time;
-       int ret = 0, state;
-       int i, can_access_pmu = 0;
-       int is_system, is_loaded;
-
-       if (pmu_conf->use_rr_dbregs == 0) return -EINVAL;
-
-       state     = ctx->ctx_state;
-       is_loaded = state == PFM_CTX_LOADED ? 1 : 0;
-       is_system = ctx->ctx_fl_system;
-       task      = ctx->ctx_task;
-
-       if (state == PFM_CTX_ZOMBIE) return -EINVAL;
-
-       /*
-        * on both UP and SMP, we can only write to the PMC when the task is
-        * the owner of the local PMU.
-        */
-       if (is_loaded) {
-               thread = &task->thread;
-               /*
-                * In system wide and when the context is loaded, access can only happen
-                * when the caller is running on the CPU being monitored by the session.
-                * It does not have to be the owner (ctx_task) of the context per se.
-                */
-               if (unlikely(is_system && ctx->ctx_cpu != smp_processor_id())) {
-                       DPRINT(("should be running on CPU%d\n", ctx->ctx_cpu));
-                       return -EBUSY;
-               }
-               can_access_pmu = GET_PMU_OWNER() == task || is_system ? 1 : 0;
-       }
-
-       /*
-        * we do not need to check for ipsr.db because we do clear ibr.x, dbr.r, and dbr.w
-        * ensuring that no real breakpoint can be installed via this call.
-        *
-        * IMPORTANT: regs can be NULL in this function
-        */
-
-       first_time = ctx->ctx_fl_using_dbreg == 0;
-
-       /*
-        * don't bother if we are loaded and task is being debugged
-        */
-       if (is_loaded && (thread->flags & IA64_THREAD_DBG_VALID) != 0) {
-               DPRINT(("debug registers already in use for [%d]\n", task_pid_nr(task)));
-               return -EBUSY;
-       }
-
-       /*
-        * check for debug registers in system wide mode
-        *
-        * If though a check is done in pfm_context_load(),
-        * we must repeat it here, in case the registers are
-        * written after the context is loaded
-        */
-       if (is_loaded) {
-               LOCK_PFS(flags);
-
-               if (first_time && is_system) {
-                       if (pfm_sessions.pfs_ptrace_use_dbregs)
-                               ret = -EBUSY;
-                       else
-                               pfm_sessions.pfs_sys_use_dbregs++;
-               }
-               UNLOCK_PFS(flags);
-       }
-
-       if (ret != 0) return ret;
-
-       /*
-        * mark ourself as user of the debug registers for
-        * perfmon purposes.
-        */
-       ctx->ctx_fl_using_dbreg = 1;
-
-       /*
-        * clear hardware registers to make sure we don't
-        * pick up stale state.
-        *
-        * for a system wide session, we do not use
-        * thread.dbr, thread.ibr because this process
-        * never leaves the current CPU and the state
-        * is shared by all processes running on it
-        */
-       if (first_time && can_access_pmu) {
-               DPRINT(("[%d] clearing ibrs, dbrs\n", task_pid_nr(task)));
-               for (i=0; i < pmu_conf->num_ibrs; i++) {
-                       ia64_set_ibr(i, 0UL);
-                       ia64_dv_serialize_instruction();
-               }
-               ia64_srlz_i();
-               for (i=0; i < pmu_conf->num_dbrs; i++) {
-                       ia64_set_dbr(i, 0UL);
-                       ia64_dv_serialize_data();
-               }
-               ia64_srlz_d();
-       }
-
-       /*
-        * Now install the values into the registers
-        */
-       for (i = 0; i < count; i++, req++) {
-
-               rnum      = req->dbreg_num;
-               dbreg.val = req->dbreg_value;
-
-               ret = -EINVAL;
-
-               if ((mode == PFM_CODE_RR && rnum >= PFM_NUM_IBRS) || ((mode == PFM_DATA_RR) && rnum >= PFM_NUM_DBRS)) {
-                       DPRINT(("invalid register %u val=0x%lx mode=%d i=%d count=%d\n",
-                                 rnum, dbreg.val, mode, i, count));
-
-                       goto abort_mission;
-               }
-
-               /*
-                * make sure we do not install enabled breakpoint
-                */
-               if (rnum & 0x1) {
-                       if (mode == PFM_CODE_RR)
-                               dbreg.ibr.ibr_x = 0;
-                       else
-                               dbreg.dbr.dbr_r = dbreg.dbr.dbr_w = 0;
-               }
-
-               PFM_REG_RETFLAG_SET(req->dbreg_flags, 0);
-
-               /*
-                * Debug registers, just like PMC, can only be modified
-                * by a kernel call. Moreover, perfmon() access to those
-                * registers are centralized in this routine. The hardware
-                * does not modify the value of these registers, therefore,
-                * if we save them as they are written, we can avoid having
-                * to save them on context switch out. This is made possible
-                * by the fact that when perfmon uses debug registers, ptrace()
-                * won't be able to modify them concurrently.
-                */
-               if (mode == PFM_CODE_RR) {
-                       CTX_USED_IBR(ctx, rnum);
-
-                       if (can_access_pmu) {
-                               ia64_set_ibr(rnum, dbreg.val);
-                               ia64_dv_serialize_instruction();
-                       }
-
-                       ctx->ctx_ibrs[rnum] = dbreg.val;
-
-                       DPRINT(("write ibr%u=0x%lx used_ibrs=0x%x ld=%d apmu=%d\n",
-                               rnum, dbreg.val, ctx->ctx_used_ibrs[0], is_loaded, can_access_pmu));
-               } else {
-                       CTX_USED_DBR(ctx, rnum);
-
-                       if (can_access_pmu) {
-                               ia64_set_dbr(rnum, dbreg.val);
-                               ia64_dv_serialize_data();
-                       }
-                       ctx->ctx_dbrs[rnum] = dbreg.val;
-
-                       DPRINT(("write dbr%u=0x%lx used_dbrs=0x%x ld=%d apmu=%d\n",
-                               rnum, dbreg.val, ctx->ctx_used_dbrs[0], is_loaded, can_access_pmu));
-               }
-       }
-
-       return 0;
-
-abort_mission:
-       /*
-        * in case it was our first attempt, we undo the global modifications
-        */
-       if (first_time) {
-               LOCK_PFS(flags);
-               if (ctx->ctx_fl_system) {
-                       pfm_sessions.pfs_sys_use_dbregs--;
-               }
-               UNLOCK_PFS(flags);
-               ctx->ctx_fl_using_dbreg = 0;
-       }
-       /*
-        * install error return flag
-        */
-       PFM_REG_RETFLAG_SET(req->dbreg_flags, PFM_REG_RETFL_EINVAL);
-
-       return ret;
-}
-
-static int
-pfm_write_ibrs(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs)
-{
-       return pfm_write_ibr_dbr(PFM_CODE_RR, ctx, arg, count, regs);
-}
-
-static int
-pfm_write_dbrs(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs)
-{
-       return pfm_write_ibr_dbr(PFM_DATA_RR, ctx, arg, count, regs);
-}
-
-int
-pfm_mod_write_ibrs(struct task_struct *task, void *req, unsigned int nreq, struct pt_regs *regs)
-{
-       pfm_context_t *ctx;
-
-       if (req == NULL) return -EINVAL;
-
-       ctx = GET_PMU_CTX();
-
-       if (ctx == NULL) return -EINVAL;
-
-       /*
-        * for now limit to current task, which is enough when calling
-        * from overflow handler
-        */
-       if (task != current && ctx->ctx_fl_system == 0) return -EBUSY;
-
-       return pfm_write_ibrs(ctx, req, nreq, regs);
-}
-EXPORT_SYMBOL(pfm_mod_write_ibrs);
-
-int
-pfm_mod_write_dbrs(struct task_struct *task, void *req, unsigned int nreq, struct pt_regs *regs)
-{
-       pfm_context_t *ctx;
-
-       if (req == NULL) return -EINVAL;
-
-       ctx = GET_PMU_CTX();
-
-       if (ctx == NULL) return -EINVAL;
-
-       /*
-        * for now limit to current task, which is enough when calling
-        * from overflow handler
-        */
-       if (task != current && ctx->ctx_fl_system == 0) return -EBUSY;
-
-       return pfm_write_dbrs(ctx, req, nreq, regs);
-}
-EXPORT_SYMBOL(pfm_mod_write_dbrs);
-
-
-static int
-pfm_get_features(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs)
-{
-       pfarg_features_t *req = (pfarg_features_t *)arg;
-
-       req->ft_version = PFM_VERSION;
-       return 0;
-}
-
-static int
-pfm_stop(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs)
-{
-       struct pt_regs *tregs;
-       struct task_struct *task = PFM_CTX_TASK(ctx);
-       int state, is_system;
-
-       state     = ctx->ctx_state;
-       is_system = ctx->ctx_fl_system;
-
-       /*
-        * context must be attached to issue the stop command (includes LOADED,MASKED,ZOMBIE)
-        */
-       if (state == PFM_CTX_UNLOADED) return -EINVAL;
-
-       /*
-        * In system wide and when the context is loaded, access can only happen
-        * when the caller is running on the CPU being monitored by the session.
-        * It does not have to be the owner (ctx_task) of the context per se.
-        */
-       if (is_system && ctx->ctx_cpu != smp_processor_id()) {
-               DPRINT(("should be running on CPU%d\n", ctx->ctx_cpu));
-               return -EBUSY;
-       }
-       DPRINT(("task [%d] ctx_state=%d is_system=%d\n",
-               task_pid_nr(PFM_CTX_TASK(ctx)),
-               state,
-               is_system));
-       /*
-        * in system mode, we need to update the PMU directly
-        * and the user level state of the caller, which may not
-        * necessarily be the creator of the context.
-        */
-       if (is_system) {
-               /*
-                * Update local PMU first
-                *
-                * disable dcr pp
-                */
-               ia64_setreg(_IA64_REG_CR_DCR, ia64_getreg(_IA64_REG_CR_DCR) & ~IA64_DCR_PP);
-               ia64_srlz_i();
-
-               /*
-                * update local cpuinfo
-                */
-               PFM_CPUINFO_CLEAR(PFM_CPUINFO_DCR_PP);
-
-               /*
-                * stop monitoring, does srlz.i
-                */
-               pfm_clear_psr_pp();
-
-               /*
-                * stop monitoring in the caller
-                */
-               ia64_psr(regs)->pp = 0;
-
-               return 0;
-       }
-       /*
-        * per-task mode
-        */
-
-       if (task == current) {
-               /* stop monitoring  at kernel level */
-               pfm_clear_psr_up();
-
-               /*
-                * stop monitoring at the user level
-                */
-               ia64_psr(regs)->up = 0;
-       } else {
-               tregs = task_pt_regs(task);
-
-               /*
-                * stop monitoring at the user level
-                */
-               ia64_psr(tregs)->up = 0;
-
-               /*
-                * monitoring disabled in kernel at next reschedule
-                */
-               ctx->ctx_saved_psr_up = 0;
-               DPRINT(("task=[%d]\n", task_pid_nr(task)));
-       }
-       return 0;
-}
-
-
-static int
-pfm_start(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs)
-{
-       struct pt_regs *tregs;
-       int state, is_system;
-
-       state     = ctx->ctx_state;
-       is_system = ctx->ctx_fl_system;
-
-       if (state != PFM_CTX_LOADED) return -EINVAL;
-
-       /*
-        * In system wide and when the context is loaded, access can only happen
-        * when the caller is running on the CPU being monitored by the session.
-        * It does not have to be the owner (ctx_task) of the context per se.
-        */
-       if (is_system && ctx->ctx_cpu != smp_processor_id()) {
-               DPRINT(("should be running on CPU%d\n", ctx->ctx_cpu));
-               return -EBUSY;
-       }
-
-       /*
-        * in system mode, we need to update the PMU directly
-        * and the user level state of the caller, which may not
-        * necessarily be the creator of the context.
-        */
-       if (is_system) {
-
-               /*
-                * set user level psr.pp for the caller
-                */
-               ia64_psr(regs)->pp = 1;
-
-               /*
-                * now update the local PMU and cpuinfo
-                */
-               PFM_CPUINFO_SET(PFM_CPUINFO_DCR_PP);
-
-               /*
-                * start monitoring at kernel level
-                */
-               pfm_set_psr_pp();
-
-               /* enable dcr pp */
-               ia64_setreg(_IA64_REG_CR_DCR, ia64_getreg(_IA64_REG_CR_DCR) | IA64_DCR_PP);
-               ia64_srlz_i();
-
-               return 0;
-       }
-
-       /*
-        * per-process mode
-        */
-
-       if (ctx->ctx_task == current) {
-
-               /* start monitoring at kernel level */
-               pfm_set_psr_up();
-
-               /*
-                * activate monitoring at user level
-                */
-               ia64_psr(regs)->up = 1;
-
-       } else {
-               tregs = task_pt_regs(ctx->ctx_task);
-
-               /*
-                * start monitoring at the kernel level the next
-                * time the task is scheduled
-                */
-               ctx->ctx_saved_psr_up = IA64_PSR_UP;
-
-               /*
-                * activate monitoring at user level
-                */
-               ia64_psr(tregs)->up = 1;
-       }
-       return 0;
-}
-
-static int
-pfm_get_pmc_reset(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs)
-{
-       pfarg_reg_t *req = (pfarg_reg_t *)arg;
-       unsigned int cnum;
-       int i;
-       int ret = -EINVAL;
-
-       for (i = 0; i < count; i++, req++) {
-
-               cnum = req->reg_num;
-
-               if (!PMC_IS_IMPL(cnum)) goto abort_mission;
-
-               req->reg_value = PMC_DFL_VAL(cnum);
-
-               PFM_REG_RETFLAG_SET(req->reg_flags, 0);
-
-               DPRINT(("pmc_reset_val pmc[%u]=0x%lx\n", cnum, req->reg_value));
-       }
-       return 0;
-
-abort_mission:
-       PFM_REG_RETFLAG_SET(req->reg_flags, PFM_REG_RETFL_EINVAL);
-       return ret;
-}
-
-static int
-pfm_check_task_exist(pfm_context_t *ctx)
-{
-       struct task_struct *g, *t;
-       int ret = -ESRCH;
-
-       read_lock(&tasklist_lock);
-
-       do_each_thread (g, t) {
-               if (t->thread.pfm_context == ctx) {
-                       ret = 0;
-                       goto out;
-               }
-       } while_each_thread (g, t);
-out:
-       read_unlock(&tasklist_lock);
-
-       DPRINT(("pfm_check_task_exist: ret=%d ctx=%p\n", ret, ctx));
-
-       return ret;
-}
-
-static int
-pfm_context_load(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs)
-{
-       struct task_struct *task;
-       struct thread_struct *thread;
-       struct pfm_context_t *old;
-       unsigned long flags;
-#ifndef CONFIG_SMP
-       struct task_struct *owner_task = NULL;
-#endif
-       pfarg_load_t *req = (pfarg_load_t *)arg;
-       unsigned long *pmcs_source, *pmds_source;
-       int the_cpu;
-       int ret = 0;
-       int state, is_system, set_dbregs = 0;
-
-       state     = ctx->ctx_state;
-       is_system = ctx->ctx_fl_system;
-       /*
-        * can only load from unloaded or terminated state
-        */
-       if (state != PFM_CTX_UNLOADED) {
-               DPRINT(("cannot load to [%d], invalid ctx_state=%d\n",
-                       req->load_pid,
-                       ctx->ctx_state));
-               return -EBUSY;
-       }
-
-       DPRINT(("load_pid [%d] using_dbreg=%d\n", req->load_pid, ctx->ctx_fl_using_dbreg));
-
-       if (CTX_OVFL_NOBLOCK(ctx) == 0 && req->load_pid == current->pid) {
-               DPRINT(("cannot use blocking mode on self\n"));
-               return -EINVAL;
-       }
-
-       ret = pfm_get_task(ctx, req->load_pid, &task);
-       if (ret) {
-               DPRINT(("load_pid [%d] get_task=%d\n", req->load_pid, ret));
-               return ret;
-       }
-
-       ret = -EINVAL;
-
-       /*
-        * system wide is self monitoring only
-        */
-       if (is_system && task != current) {
-               DPRINT(("system wide is self monitoring only load_pid=%d\n",
-                       req->load_pid));
-               goto error;
-       }
-
-       thread = &task->thread;
-
-       ret = 0;
-       /*
-        * cannot load a context which is using range restrictions,
-        * into a task that is being debugged.
-        */
-       if (ctx->ctx_fl_using_dbreg) {
-               if (thread->flags & IA64_THREAD_DBG_VALID) {
-                       ret = -EBUSY;
-                       DPRINT(("load_pid [%d] task is debugged, cannot load range restrictions\n", req->load_pid));
-                       goto error;
-               }
-               LOCK_PFS(flags);
-
-               if (is_system) {
-                       if (pfm_sessions.pfs_ptrace_use_dbregs) {
-                               DPRINT(("cannot load [%d] dbregs in use\n",
-                                                       task_pid_nr(task)));
-                               ret = -EBUSY;
-                       } else {
-                               pfm_sessions.pfs_sys_use_dbregs++;
-                               DPRINT(("load [%d] increased sys_use_dbreg=%u\n", task_pid_nr(task), pfm_sessions.pfs_sys_use_dbregs));
-                               set_dbregs = 1;
-                       }
-               }
-
-               UNLOCK_PFS(flags);
-
-               if (ret) goto error;
-       }
-
-       /*
-        * SMP system-wide monitoring implies self-monitoring.
-        *
-        * The programming model expects the task to
-        * be pinned on a CPU throughout the session.
-        * Here we take note of the current CPU at the
-        * time the context is loaded. No call from
-        * another CPU will be allowed.
-        *
-        * The pinning via shed_setaffinity()
-        * must be done by the calling task prior
-        * to this call.
-        *
-        * systemwide: keep track of CPU this session is supposed to run on
-        */
-       the_cpu = ctx->ctx_cpu = smp_processor_id();
-
-       ret = -EBUSY;
-       /*
-        * now reserve the session
-        */
-       ret = pfm_reserve_session(current, is_system, the_cpu);
-       if (ret) goto error;
-
-       /*
-        * task is necessarily stopped at this point.
-        *
-        * If the previous context was zombie, then it got removed in
-        * pfm_save_regs(). Therefore we should not see it here.
-        * If we see a context, then this is an active context
-        *
-        * XXX: needs to be atomic
-        */
-       DPRINT(("before cmpxchg() old_ctx=%p new_ctx=%p\n",
-               thread->pfm_context, ctx));
-
-       ret = -EBUSY;
-       old = ia64_cmpxchg(acq, &thread->pfm_context, NULL, ctx, sizeof(pfm_context_t *));
-       if (old != NULL) {
-               DPRINT(("load_pid [%d] already has a context\n", req->load_pid));
-               goto error_unres;
-       }
-
-       pfm_reset_msgq(ctx);
-
-       ctx->ctx_state = PFM_CTX_LOADED;
-
-       /*
-        * link context to task
-        */
-       ctx->ctx_task = task;
-
-       if (is_system) {
-               /*
-                * we load as stopped
-                */
-               PFM_CPUINFO_SET(PFM_CPUINFO_SYST_WIDE);
-               PFM_CPUINFO_CLEAR(PFM_CPUINFO_DCR_PP);
-
-               if (ctx->ctx_fl_excl_idle) PFM_CPUINFO_SET(PFM_CPUINFO_EXCL_IDLE);
-       } else {
-               thread->flags |= IA64_THREAD_PM_VALID;
-       }
-
-       /*
-        * propagate into thread-state
-        */
-       pfm_copy_pmds(task, ctx);
-       pfm_copy_pmcs(task, ctx);
-
-       pmcs_source = ctx->th_pmcs;
-       pmds_source = ctx->th_pmds;
-
-       /*
-        * always the case for system-wide
-        */
-       if (task == current) {
-
-               if (is_system == 0) {
-
-                       /* allow user level control */
-                       ia64_psr(regs)->sp = 0;
-                       DPRINT(("clearing psr.sp for [%d]\n", task_pid_nr(task)));
-
-                       SET_LAST_CPU(ctx, smp_processor_id());
-                       INC_ACTIVATION();
-                       SET_ACTIVATION(ctx);
-#ifndef CONFIG_SMP
-                       /*
-                        * push the other task out, if any
-                        */
-                       owner_task = GET_PMU_OWNER();
-                       if (owner_task) pfm_lazy_save_regs(owner_task);
-#endif
-               }
-               /*
-                * load all PMD from ctx to PMU (as opposed to thread state)
-                * restore all PMC from ctx to PMU
-                */
-               pfm_restore_pmds(pmds_source, ctx->ctx_all_pmds[0]);
-               pfm_restore_pmcs(pmcs_source, ctx->ctx_all_pmcs[0]);
-
-               ctx->ctx_reload_pmcs[0] = 0UL;
-               ctx->ctx_reload_pmds[0] = 0UL;
-
-               /*
-                * guaranteed safe by earlier check against DBG_VALID
-                */
-               if (ctx->ctx_fl_using_dbreg) {
-                       pfm_restore_ibrs(ctx->ctx_ibrs, pmu_conf->num_ibrs);
-                       pfm_restore_dbrs(ctx->ctx_dbrs, pmu_conf->num_dbrs);
-               }
-               /*
-                * set new ownership
-                */
-               SET_PMU_OWNER(task, ctx);
-
-               DPRINT(("context loaded on PMU for [%d]\n", task_pid_nr(task)));
-       } else {
-               /*
-                * when not current, task MUST be stopped, so this is safe
-                */
-               regs = task_pt_regs(task);
-
-               /* force a full reload */
-               ctx->ctx_last_activation = PFM_INVALID_ACTIVATION;
-               SET_LAST_CPU(ctx, -1);
-
-               /* initial saved psr (stopped) */
-               ctx->ctx_saved_psr_up = 0UL;
-               ia64_psr(regs)->up = ia64_psr(regs)->pp = 0;
-       }
-
-       ret = 0;
-
-error_unres:
-       if (ret) pfm_unreserve_session(ctx, ctx->ctx_fl_system, the_cpu);
-error:
-       /*
-        * we must undo the dbregs setting (for system-wide)
-        */
-       if (ret && set_dbregs) {
-               LOCK_PFS(flags);
-               pfm_sessions.pfs_sys_use_dbregs--;
-               UNLOCK_PFS(flags);
-       }
-       /*
-        * release task, there is now a link with the context
-        */
-       if (is_system == 0 && task != current) {
-               pfm_put_task(task);
-
-               if (ret == 0) {
-                       ret = pfm_check_task_exist(ctx);
-                       if (ret) {
-                               ctx->ctx_state = PFM_CTX_UNLOADED;
-                               ctx->ctx_task  = NULL;
-                       }
-               }
-       }
-       return ret;
-}
-
-/*
- * in this function, we do not need to increase the use count
- * for the task via get_task_struct(), because we hold the
- * context lock. If the task were to disappear while having
- * a context attached, it would go through pfm_exit_thread()
- * which also grabs the context lock  and would therefore be blocked
- * until we are here.
- */
-static void pfm_flush_pmds(struct task_struct *, pfm_context_t *ctx);
-
-static int
-pfm_context_unload(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs)
-{
-       struct task_struct *task = PFM_CTX_TASK(ctx);
-       struct pt_regs *tregs;
-       int prev_state, is_system;
-       int ret;
-
-       DPRINT(("ctx_state=%d task [%d]\n", ctx->ctx_state, task ? task_pid_nr(task) : -1));
-
-       prev_state = ctx->ctx_state;
-       is_system  = ctx->ctx_fl_system;
-
-       /*
-        * unload only when necessary
-        */
-       if (prev_state == PFM_CTX_UNLOADED) {
-               DPRINT(("ctx_state=%d, nothing to do\n", prev_state));
-               return 0;
-       }
-
-       /*
-        * clear psr and dcr bits
-        */
-       ret = pfm_stop(ctx, NULL, 0, regs);
-       if (ret) return ret;
-
-       ctx->ctx_state = PFM_CTX_UNLOADED;
-
-       /*
-        * in system mode, we need to update the PMU directly
-        * and the user level state of the caller, which may not
-        * necessarily be the creator of the context.
-        */
-       if (is_system) {
-
-               /*
-                * Update cpuinfo
-                *
-                * local PMU is taken care of in pfm_stop()
-                */
-               PFM_CPUINFO_CLEAR(PFM_CPUINFO_SYST_WIDE);
-               PFM_CPUINFO_CLEAR(PFM_CPUINFO_EXCL_IDLE);
-
-               /*
-                * save PMDs in context
-                * release ownership
-                */
-               pfm_flush_pmds(current, ctx);
-
-               /*
-                * at this point we are done with the PMU
-                * so we can unreserve the resource.
-                */
-               if (prev_state != PFM_CTX_ZOMBIE) 
-                       pfm_unreserve_session(ctx, 1 , ctx->ctx_cpu);
-
-               /*
-                * disconnect context from task
-                */
-               task->thread.pfm_context = NULL;
-               /*
-                * disconnect task from context
-                */
-               ctx->ctx_task = NULL;
-
-               /*
-                * There is nothing more to cleanup here.
-                */
-               return 0;
-       }
-
-       /*
-        * per-task mode
-        */
-       tregs = task == current ? regs : task_pt_regs(task);
-
-       if (task == current) {
-               /*
-                * cancel user level control
-                */
-               ia64_psr(regs)->sp = 1;
-
-               DPRINT(("setting psr.sp for [%d]\n", task_pid_nr(task)));
-       }
-       /*
-        * save PMDs to context
-        * release ownership
-        */
-       pfm_flush_pmds(task, ctx);
-
-       /*
-        * at this point we are done with the PMU
-        * so we can unreserve the resource.
-        *
-        * when state was ZOMBIE, we have already unreserved.
-        */
-       if (prev_state != PFM_CTX_ZOMBIE) 
-               pfm_unreserve_session(ctx, 0 , ctx->ctx_cpu);
-
-       /*
-        * reset activation counter and psr
-        */
-       ctx->ctx_last_activation = PFM_INVALID_ACTIVATION;
-       SET_LAST_CPU(ctx, -1);
-
-       /*
-        * PMU state will not be restored
-        */
-       task->thread.flags &= ~IA64_THREAD_PM_VALID;
-
-       /*
-        * break links between context and task
-        */
-       task->thread.pfm_context  = NULL;
-       ctx->ctx_task             = NULL;
-
-       PFM_SET_WORK_PENDING(task, 0);
-
-       ctx->ctx_fl_trap_reason  = PFM_TRAP_REASON_NONE;
-       ctx->ctx_fl_can_restart  = 0;
-       ctx->ctx_fl_going_zombie = 0;
-
-       DPRINT(("disconnected [%d] from context\n", task_pid_nr(task)));
-
-       return 0;
-}
-
-
-/*
- * called only from exit_thread()
- * we come here only if the task has a context attached (loaded or masked)
- */
-void
-pfm_exit_thread(struct task_struct *task)
-{
-       pfm_context_t *ctx;
-       unsigned long flags;
-       struct pt_regs *regs = task_pt_regs(task);
-       int ret, state;
-       int free_ok = 0;
-
-       ctx = PFM_GET_CTX(task);
-
-       PROTECT_CTX(ctx, flags);
-
-       DPRINT(("state=%d task [%d]\n", ctx->ctx_state, task_pid_nr(task)));
-
-       state = ctx->ctx_state;
-       switch(state) {
-               case PFM_CTX_UNLOADED:
-                       /*
-                        * only comes to this function if pfm_context is not NULL, i.e., cannot
-                        * be in unloaded state
-                        */
-                       printk(KERN_ERR "perfmon: pfm_exit_thread [%d] ctx unloaded\n", task_pid_nr(task));
-                       break;
-               case PFM_CTX_LOADED:
-               case PFM_CTX_MASKED:
-                       ret = pfm_context_unload(ctx, NULL, 0, regs);
-                       if (ret) {
-                               printk(KERN_ERR "perfmon: pfm_exit_thread [%d] state=%d unload failed %d\n", task_pid_nr(task), state, ret);
-                       }
-                       DPRINT(("ctx unloaded for current state was %d\n", state));
-
-                       pfm_end_notify_user(ctx);
-                       break;
-               case PFM_CTX_ZOMBIE:
-                       ret = pfm_context_unload(ctx, NULL, 0, regs);
-                       if (ret) {
-                               printk(KERN_ERR "perfmon: pfm_exit_thread [%d] state=%d unload failed %d\n", task_pid_nr(task), state, ret);
-                       }
-                       free_ok = 1;
-                       break;
-               default:
-                       printk(KERN_ERR "perfmon: pfm_exit_thread [%d] unexpected state=%d\n", task_pid_nr(task), state);
-                       break;
-       }
-       UNPROTECT_CTX(ctx, flags);
-
-       { u64 psr = pfm_get_psr();
-         BUG_ON(psr & (IA64_PSR_UP|IA64_PSR_PP));
-         BUG_ON(GET_PMU_OWNER());
-         BUG_ON(ia64_psr(regs)->up);
-         BUG_ON(ia64_psr(regs)->pp);
-       }
-
-       /*
-        * All memory free operations (especially for vmalloc'ed memory)
-        * MUST be done with interrupts ENABLED.
-        */
-       if (free_ok) pfm_context_free(ctx);
-}
-
-/*
- * functions MUST be listed in the increasing order of their index (see permfon.h)
- */
-#define PFM_CMD(name, flags, arg_count, arg_type, getsz) { name, #name, flags, arg_count, sizeof(arg_type), getsz }
-#define PFM_CMD_S(name, flags) { name, #name, flags, 0, 0, NULL }
-#define PFM_CMD_PCLRWS (PFM_CMD_FD|PFM_CMD_ARG_RW|PFM_CMD_STOP)
-#define PFM_CMD_PCLRW  (PFM_CMD_FD|PFM_CMD_ARG_RW)
-#define PFM_CMD_NONE   { NULL, "no-cmd", 0, 0, 0, NULL}
-
-static pfm_cmd_desc_t pfm_cmd_tab[]={
-/* 0  */PFM_CMD_NONE,
-/* 1  */PFM_CMD(pfm_write_pmcs, PFM_CMD_PCLRWS, PFM_CMD_ARG_MANY, pfarg_reg_t, NULL),
-/* 2  */PFM_CMD(pfm_write_pmds, PFM_CMD_PCLRWS, PFM_CMD_ARG_MANY, pfarg_reg_t, NULL),
-/* 3  */PFM_CMD(pfm_read_pmds, PFM_CMD_PCLRWS, PFM_CMD_ARG_MANY, pfarg_reg_t, NULL),
-/* 4  */PFM_CMD_S(pfm_stop, PFM_CMD_PCLRWS),
-/* 5  */PFM_CMD_S(pfm_start, PFM_CMD_PCLRWS),
-/* 6  */PFM_CMD_NONE,
-/* 7  */PFM_CMD_NONE,
-/* 8  */PFM_CMD(pfm_context_create, PFM_CMD_ARG_RW, 1, pfarg_context_t, pfm_ctx_getsize),
-/* 9  */PFM_CMD_NONE,
-/* 10 */PFM_CMD_S(pfm_restart, PFM_CMD_PCLRW),
-/* 11 */PFM_CMD_NONE,
-/* 12 */PFM_CMD(pfm_get_features, PFM_CMD_ARG_RW, 1, pfarg_features_t, NULL),
-/* 13 */PFM_CMD(pfm_debug, 0, 1, unsigned int, NULL),
-/* 14 */PFM_CMD_NONE,
-/* 15 */PFM_CMD(pfm_get_pmc_reset, PFM_CMD_ARG_RW, PFM_CMD_ARG_MANY, pfarg_reg_t, NULL),
-/* 16 */PFM_CMD(pfm_context_load, PFM_CMD_PCLRWS, 1, pfarg_load_t, NULL),
-/* 17 */PFM_CMD_S(pfm_context_unload, PFM_CMD_PCLRWS),
-/* 18 */PFM_CMD_NONE,
-/* 19 */PFM_CMD_NONE,
-/* 20 */PFM_CMD_NONE,
-/* 21 */PFM_CMD_NONE,
-/* 22 */PFM_CMD_NONE,
-/* 23 */PFM_CMD_NONE,
-/* 24 */PFM_CMD_NONE,
-/* 25 */PFM_CMD_NONE,
-/* 26 */PFM_CMD_NONE,
-/* 27 */PFM_CMD_NONE,
-/* 28 */PFM_CMD_NONE,
-/* 29 */PFM_CMD_NONE,
-/* 30 */PFM_CMD_NONE,
-/* 31 */PFM_CMD_NONE,
-/* 32 */PFM_CMD(pfm_write_ibrs, PFM_CMD_PCLRWS, PFM_CMD_ARG_MANY, pfarg_dbreg_t, NULL),
-/* 33 */PFM_CMD(pfm_write_dbrs, PFM_CMD_PCLRWS, PFM_CMD_ARG_MANY, pfarg_dbreg_t, NULL)
-};
-#define PFM_CMD_COUNT  (sizeof(pfm_cmd_tab)/sizeof(pfm_cmd_desc_t))
-
-static int
-pfm_check_task_state(pfm_context_t *ctx, int cmd, unsigned long flags)
-{
-       struct task_struct *task;
-       int state, old_state;
-
-recheck:
-       state = ctx->ctx_state;
-       task  = ctx->ctx_task;
-
-       if (task == NULL) {
-               DPRINT(("context %d no task, state=%d\n", ctx->ctx_fd, state));
-               return 0;
-       }
-
-       DPRINT(("context %d state=%d [%d] task_state=%ld must_stop=%d\n",
-               ctx->ctx_fd,
-               state,
-               task_pid_nr(task),
-               task->state, PFM_CMD_STOPPED(cmd)));
-
-       /*
-        * self-monitoring always ok.
-        *
-        * for system-wide the caller can either be the creator of the
-        * context (to one to which the context is attached to) OR
-        * a task running on the same CPU as the session.
-        */
-       if (task == current || ctx->ctx_fl_system) return 0;
-
-       /*
-        * we are monitoring another thread
-        */
-       switch(state) {
-               case PFM_CTX_UNLOADED:
-                       /*
-                        * if context is UNLOADED we are safe to go
-                        */
-                       return 0;
-               case PFM_CTX_ZOMBIE:
-                       /*
-                        * no command can operate on a zombie context
-                        */
-                       DPRINT(("cmd %d state zombie cannot operate on context\n", cmd));
-                       return -EINVAL;
-               case PFM_CTX_MASKED:
-                       /*
-                        * PMU state has been saved to software even though
-                        * the thread may still be running.
-                        */
-                       if (cmd != PFM_UNLOAD_CONTEXT) return 0;
-       }
-
-       /*
-        * context is LOADED or MASKED. Some commands may need to have 
-        * the task stopped.
-        *
-        * We could lift this restriction for UP but it would mean that
-        * the user has no guarantee the task would not run between
-        * two successive calls to perfmonctl(). That's probably OK.
-        * If this user wants to ensure the task does not run, then
-        * the task must be stopped.
-        */
-       if (PFM_CMD_STOPPED(cmd)) {
-               if (!task_is_stopped_or_traced(task)) {
-                       DPRINT(("[%d] task not in stopped state\n", task_pid_nr(task)));
-                       return -EBUSY;
-               }
-               /*
-                * task is now stopped, wait for ctxsw out
-                *
-                * This is an interesting point in the code.
-                * We need to unprotect the context because
-                * the pfm_save_regs() routines needs to grab
-                * the same lock. There are danger in doing
-                * this because it leaves a window open for
-                * another task to get access to the context
-                * and possibly change its state. The one thing
-                * that is not possible is for the context to disappear
-                * because we are protected by the VFS layer, i.e.,
-                * get_fd()/put_fd().
-                */
-               old_state = state;
-
-               UNPROTECT_CTX(ctx, flags);
-
-               wait_task_inactive(task, 0);
-
-               PROTECT_CTX(ctx, flags);
-
-               /*
-                * we must recheck to verify if state has changed
-                */
-               if (ctx->ctx_state != old_state) {
-                       DPRINT(("old_state=%d new_state=%d\n", old_state, ctx->ctx_state));
-                       goto recheck;
-               }
-       }
-       return 0;
-}
-
-/*
- * system-call entry point (must return long)
- */
-asmlinkage long
-sys_perfmonctl (int fd, int cmd, void __user *arg, int count)
-{
-       struct fd f = {NULL, 0};
-       pfm_context_t *ctx = NULL;
-       unsigned long flags = 0UL;
-       void *args_k = NULL;
-       long ret; /* will expand int return types */
-       size_t base_sz, sz, xtra_sz = 0;
-       int narg, completed_args = 0, call_made = 0, cmd_flags;
-       int (*func)(pfm_context_t *ctx, void *arg, int count, struct pt_regs *regs);
-       int (*getsize)(void *arg, size_t *sz);
-#define PFM_MAX_ARGSIZE        4096
-
-       /*
-        * reject any call if perfmon was disabled at initialization
-        */
-       if (unlikely(pmu_conf == NULL)) return -ENOSYS;
-
-       if (unlikely(cmd < 0 || cmd >= PFM_CMD_COUNT)) {
-               DPRINT(("invalid cmd=%d\n", cmd));
-               return -EINVAL;
-       }
-
-       func      = pfm_cmd_tab[cmd].cmd_func;
-       narg      = pfm_cmd_tab[cmd].cmd_narg;
-       base_sz   = pfm_cmd_tab[cmd].cmd_argsize;
-       getsize   = pfm_cmd_tab[cmd].cmd_getsize;
-       cmd_flags = pfm_cmd_tab[cmd].cmd_flags;
-
-       if (unlikely(func == NULL)) {
-               DPRINT(("invalid cmd=%d\n", cmd));
-               return -EINVAL;
-       }
-
-       DPRINT(("cmd=%s idx=%d narg=0x%x argsz=%lu count=%d\n",
-               PFM_CMD_NAME(cmd),
-               cmd,
-               narg,
-               base_sz,
-               count));
-
-       /*
-        * check if number of arguments matches what the command expects
-        */
-       if (unlikely((narg == PFM_CMD_ARG_MANY && count <= 0) || (narg > 0 && narg != count)))
-               return -EINVAL;
-
-restart_args:
-       sz = xtra_sz + base_sz*count;
-       /*
-        * limit abuse to min page size
-        */
-       if (unlikely(sz > PFM_MAX_ARGSIZE)) {
-               printk(KERN_ERR "perfmon: [%d] argument too big %lu\n", task_pid_nr(current), sz);
-               return -E2BIG;
-       }
-
-       /*
-        * allocate default-sized argument buffer
-        */
-       if (likely(count && args_k == NULL)) {
-               args_k = kmalloc(PFM_MAX_ARGSIZE, GFP_KERNEL);
-               if (args_k == NULL) return -ENOMEM;
-       }
-
-       ret = -EFAULT;
-
-       /*
-        * copy arguments
-        *
-        * assume sz = 0 for command without parameters
-        */
-       if (sz && copy_from_user(args_k, arg, sz)) {
-               DPRINT(("cannot copy_from_user %lu bytes @%p\n", sz, arg));
-               goto error_args;
-       }
-
-       /*
-        * check if command supports extra parameters
-        */
-       if (completed_args == 0 && getsize) {
-               /*
-                * get extra parameters size (based on main argument)
-                */
-               ret = (*getsize)(args_k, &xtra_sz);
-               if (ret) goto error_args;
-
-               completed_args = 1;
-
-               DPRINT(("restart_args sz=%lu xtra_sz=%lu\n", sz, xtra_sz));
-
-               /* retry if necessary */
-               if (likely(xtra_sz)) goto restart_args;
-       }
-
-       if (unlikely((cmd_flags & PFM_CMD_FD) == 0)) goto skip_fd;
-
-       ret = -EBADF;
-
-       f = fdget(fd);
-       if (unlikely(f.file == NULL)) {
-               DPRINT(("invalid fd %d\n", fd));
-               goto error_args;
-       }
-       if (unlikely(PFM_IS_FILE(f.file) == 0)) {
-               DPRINT(("fd %d not related to perfmon\n", fd));
-               goto error_args;
-       }
-
-       ctx = f.file->private_data;
-       if (unlikely(ctx == NULL)) {
-               DPRINT(("no context for fd %d\n", fd));
-               goto error_args;
-       }
-       prefetch(&ctx->ctx_state);
-
-       PROTECT_CTX(ctx, flags);
-
-       /*
-        * check task is stopped
-        */
-       ret = pfm_check_task_state(ctx, cmd, flags);
-       if (unlikely(ret)) goto abort_locked;
-
-skip_fd:
-       ret = (*func)(ctx, args_k, count, task_pt_regs(current));
-
-       call_made = 1;
-
-abort_locked:
-       if (likely(ctx)) {
-               DPRINT(("context unlocked\n"));
-               UNPROTECT_CTX(ctx, flags);
-       }
-
-       /* copy argument back to user, if needed */
-       if (call_made && PFM_CMD_RW_ARG(cmd) && copy_to_user(arg, args_k, base_sz*count)) ret = -EFAULT;
-
-error_args:
-       if (f.file)
-               fdput(f);
-
-       kfree(args_k);
-
-       DPRINT(("cmd=%s ret=%ld\n", PFM_CMD_NAME(cmd), ret));
-
-       return ret;
-}
-
-static void
-pfm_resume_after_ovfl(pfm_context_t *ctx, unsigned long ovfl_regs, struct pt_regs *regs)
-{
-       pfm_buffer_fmt_t *fmt = ctx->ctx_buf_fmt;
-       pfm_ovfl_ctrl_t rst_ctrl;
-       int state;
-       int ret = 0;
-
-       state = ctx->ctx_state;
-       /*
-        * Unlock sampling buffer and reset index atomically
-        * XXX: not really needed when blocking
-        */
-       if (CTX_HAS_SMPL(ctx)) {
-
-               rst_ctrl.bits.mask_monitoring = 0;
-               rst_ctrl.bits.reset_ovfl_pmds = 0;
-
-               if (state == PFM_CTX_LOADED)
-                       ret = pfm_buf_fmt_restart_active(fmt, current, &rst_ctrl, ctx->ctx_smpl_hdr, regs);
-               else
-                       ret = pfm_buf_fmt_restart(fmt, current, &rst_ctrl, ctx->ctx_smpl_hdr, regs);
-       } else {
-               rst_ctrl.bits.mask_monitoring = 0;
-               rst_ctrl.bits.reset_ovfl_pmds = 1;
-       }
-
-       if (ret == 0) {
-               if (rst_ctrl.bits.reset_ovfl_pmds) {
-                       pfm_reset_regs(ctx, &ovfl_regs, PFM_PMD_LONG_RESET);
-               }
-               if (rst_ctrl.bits.mask_monitoring == 0) {
-                       DPRINT(("resuming monitoring\n"));
-                       if (ctx->ctx_state == PFM_CTX_MASKED) pfm_restore_monitoring(current);
-               } else {
-                       DPRINT(("stopping monitoring\n"));
-                       //pfm_stop_monitoring(current, regs);
-               }
-               ctx->ctx_state = PFM_CTX_LOADED;
-       }
-}
-
-/*
- * context MUST BE LOCKED when calling
- * can only be called for current
- */
-static void
-pfm_context_force_terminate(pfm_context_t *ctx, struct pt_regs *regs)
-{
-       int ret;
-
-       DPRINT(("entering for [%d]\n", task_pid_nr(current)));
-
-       ret = pfm_context_unload(ctx, NULL, 0, regs);
-       if (ret) {
-               printk(KERN_ERR "pfm_context_force_terminate: [%d] unloaded failed with %d\n", task_pid_nr(current), ret);
-       }
-
-       /*
-        * and wakeup controlling task, indicating we are now disconnected
-        */
-       wake_up_interruptible(&ctx->ctx_zombieq);
-
-       /*
-        * given that context is still locked, the controlling
-        * task will only get access when we return from
-        * pfm_handle_work().
-        */
-}
-
-static int pfm_ovfl_notify_user(pfm_context_t *ctx, unsigned long ovfl_pmds);
-
- /*
-  * pfm_handle_work() can be called with interrupts enabled
-  * (TIF_NEED_RESCHED) or disabled. The down_interruptible
-  * call may sleep, therefore we must re-enable interrupts
-  * to avoid deadlocks. It is safe to do so because this function
-  * is called ONLY when returning to user level (pUStk=1), in which case
-  * there is no risk of kernel stack overflow due to deep
-  * interrupt nesting.
-  */
-void
-pfm_handle_work(void)
-{
-       pfm_context_t *ctx;
-       struct pt_regs *regs;
-       unsigned long flags, dummy_flags;
-       unsigned long ovfl_regs;
-       unsigned int reason;
-       int ret;
-
-       ctx = PFM_GET_CTX(current);
-       if (ctx == NULL) {
-               printk(KERN_ERR "perfmon: [%d] has no PFM context\n",
-                       task_pid_nr(current));
-               return;
-       }
-
-       PROTECT_CTX(ctx, flags);
-
-       PFM_SET_WORK_PENDING(current, 0);
-
-       regs = task_pt_regs(current);
-
-       /*
-        * extract reason for being here and clear
-        */
-       reason = ctx->ctx_fl_trap_reason;
-       ctx->ctx_fl_trap_reason = PFM_TRAP_REASON_NONE;
-       ovfl_regs = ctx->ctx_ovfl_regs[0];
-
-       DPRINT(("reason=%d state=%d\n", reason, ctx->ctx_state));
-
-       /*
-        * must be done before we check for simple-reset mode
-        */
-       if (ctx->ctx_fl_going_zombie || ctx->ctx_state == PFM_CTX_ZOMBIE)
-               goto do_zombie;
-
-       //if (CTX_OVFL_NOBLOCK(ctx)) goto skip_blocking;
-       if (reason == PFM_TRAP_REASON_RESET)
-               goto skip_blocking;
-
-       /*
-        * restore interrupt mask to what it was on entry.
-        * Could be enabled/diasbled.
-        */
-       UNPROTECT_CTX(ctx, flags);
-
-       /*
-        * force interrupt enable because of down_interruptible()
-        */
-       local_irq_enable();
-
-       DPRINT(("before block sleeping\n"));
-
-       /*
-        * may go through without blocking on SMP systems
-        * if restart has been received already by the time we call down()
-        */
-       ret = wait_for_completion_interruptible(&ctx->ctx_restart_done);
-
-       DPRINT(("after block sleeping ret=%d\n", ret));
-
-       /*
-        * lock context and mask interrupts again
-        * We save flags into a dummy because we may have
-        * altered interrupts mask compared to entry in this
-        * function.
-        */
-       PROTECT_CTX(ctx, dummy_flags);
-
-       /*
-        * we need to read the ovfl_regs only after wake-up
-        * because we may have had pfm_write_pmds() in between
-        * and that can changed PMD values and therefore 
-        * ovfl_regs is reset for these new PMD values.
-        */
-       ovfl_regs = ctx->ctx_ovfl_regs[0];
-
-       if (ctx->ctx_fl_going_zombie) {
-do_zombie:
-               DPRINT(("context is zombie, bailing out\n"));
-               pfm_context_force_terminate(ctx, regs);
-               goto nothing_to_do;
-       }
-       /*
-        * in case of interruption of down() we don't restart anything
-        */
-       if (ret < 0)
-               goto nothing_to_do;
-
-skip_blocking:
-       pfm_resume_after_ovfl(ctx, ovfl_regs, regs);
-       ctx->ctx_ovfl_regs[0] = 0UL;
-
-nothing_to_do:
-       /*
-        * restore flags as they were upon entry
-        */
-       UNPROTECT_CTX(ctx, flags);
-}
-
-static int
-pfm_notify_user(pfm_context_t *ctx, pfm_msg_t *msg)
-{
-       if (ctx->ctx_state == PFM_CTX_ZOMBIE) {
-               DPRINT(("ignoring overflow notification, owner is zombie\n"));
-               return 0;
-       }
-
-       DPRINT(("waking up somebody\n"));
-
-       if (msg) wake_up_interruptible(&ctx->ctx_msgq_wait);
-
-       /*
-        * safe, we are not in intr handler, nor in ctxsw when
-        * we come here
-        */
-       kill_fasync (&ctx->ctx_async_queue, SIGIO, POLL_IN);
-
-       return 0;
-}
-
-static int
-pfm_ovfl_notify_user(pfm_context_t *ctx, unsigned long ovfl_pmds)
-{
-       pfm_msg_t *msg = NULL;
-
-       if (ctx->ctx_fl_no_msg == 0) {
-               msg = pfm_get_new_msg(ctx);
-               if (msg == NULL) {
-                       printk(KERN_ERR "perfmon: pfm_ovfl_notify_user no more notification msgs\n");
-                       return -1;
-               }
-
-               msg->pfm_ovfl_msg.msg_type         = PFM_MSG_OVFL;
-               msg->pfm_ovfl_msg.msg_ctx_fd       = ctx->ctx_fd;
-               msg->pfm_ovfl_msg.msg_active_set   = 0;
-               msg->pfm_ovfl_msg.msg_ovfl_pmds[0] = ovfl_pmds;
-               msg->pfm_ovfl_msg.msg_ovfl_pmds[1] = 0UL;
-               msg->pfm_ovfl_msg.msg_ovfl_pmds[2] = 0UL;
-               msg->pfm_ovfl_msg.msg_ovfl_pmds[3] = 0UL;
-               msg->pfm_ovfl_msg.msg_tstamp       = 0UL;
-       }
-
-       DPRINT(("ovfl msg: msg=%p no_msg=%d fd=%d ovfl_pmds=0x%lx\n",
-               msg,
-               ctx->ctx_fl_no_msg,
-               ctx->ctx_fd,
-               ovfl_pmds));
-
-       return pfm_notify_user(ctx, msg);
-}
-
-static int
-pfm_end_notify_user(pfm_context_t *ctx)
-{
-       pfm_msg_t *msg;
-
-       msg = pfm_get_new_msg(ctx);
-       if (msg == NULL) {
-               printk(KERN_ERR "perfmon: pfm_end_notify_user no more notification msgs\n");
-               return -1;
-       }
-       /* no leak */
-       memset(msg, 0, sizeof(*msg));
-
-       msg->pfm_end_msg.msg_type    = PFM_MSG_END;
-       msg->pfm_end_msg.msg_ctx_fd  = ctx->ctx_fd;
-       msg->pfm_ovfl_msg.msg_tstamp = 0UL;
-
-       DPRINT(("end msg: msg=%p no_msg=%d ctx_fd=%d\n",
-               msg,
-               ctx->ctx_fl_no_msg,
-               ctx->ctx_fd));
-
-       return pfm_notify_user(ctx, msg);
-}
-
-/*
- * main overflow processing routine.
- * it can be called from the interrupt path or explicitly during the context switch code
- */
-static void pfm_overflow_handler(struct task_struct *task, pfm_context_t *ctx,
-                               unsigned long pmc0, struct pt_regs *regs)
-{
-       pfm_ovfl_arg_t *ovfl_arg;
-       unsigned long mask;
-       unsigned long old_val, ovfl_val, new_val;
-       unsigned long ovfl_notify = 0UL, ovfl_pmds = 0UL, smpl_pmds = 0UL, reset_pmds;
-       unsigned long tstamp;
-       pfm_ovfl_ctrl_t ovfl_ctrl;
-       unsigned int i, has_smpl;
-       int must_notify = 0;
-
-       if (unlikely(ctx->ctx_state == PFM_CTX_ZOMBIE)) goto stop_monitoring;
-
-       /*
-        * sanity test. Should never happen
-        */
-       if (unlikely((pmc0 & 0x1) == 0)) goto sanity_check;
-
-       tstamp   = ia64_get_itc();
-       mask     = pmc0 >> PMU_FIRST_COUNTER;
-       ovfl_val = pmu_conf->ovfl_val;
-       has_smpl = CTX_HAS_SMPL(ctx);
-
-       DPRINT_ovfl(("pmc0=0x%lx pid=%d iip=0x%lx, %s "
-                    "used_pmds=0x%lx\n",
-                       pmc0,
-                       task ? task_pid_nr(task): -1,
-                       (regs ? regs->cr_iip : 0),
-                       CTX_OVFL_NOBLOCK(ctx) ? "nonblocking" : "blocking",
-                       ctx->ctx_used_pmds[0]));
-
-
-       /*
-        * first we update the virtual counters
-        * assume there was a prior ia64_srlz_d() issued
-        */
-       for (i = PMU_FIRST_COUNTER; mask ; i++, mask >>= 1) {
-
-               /* skip pmd which did not overflow */
-               if ((mask & 0x1) == 0) continue;
-
-               /*
-                * Note that the pmd is not necessarily 0 at this point as qualified events
-                * may have happened before the PMU was frozen. The residual count is not
-                * taken into consideration here but will be with any read of the pmd via
-                * pfm_read_pmds().
-                */
-               old_val              = new_val = ctx->ctx_pmds[i].val;
-               new_val             += 1 + ovfl_val;
-               ctx->ctx_pmds[i].val = new_val;
-
-               /*
-                * check for overflow condition
-                */
-               if (likely(old_val > new_val)) {
-                       ovfl_pmds |= 1UL << i;
-                       if (PMC_OVFL_NOTIFY(ctx, i)) ovfl_notify |= 1UL << i;
-               }
-
-               DPRINT_ovfl(("ctx_pmd[%d].val=0x%lx old_val=0x%lx pmd=0x%lx ovfl_pmds=0x%lx ovfl_notify=0x%lx\n",
-                       i,
-                       new_val,
-                       old_val,
-                       ia64_get_pmd(i) & ovfl_val,
-                       ovfl_pmds,
-                       ovfl_notify));
-       }
-
-       /*
-        * there was no 64-bit overflow, nothing else to do
-        */
-       if (ovfl_pmds == 0UL) return;
-
-       /* 
-        * reset all control bits
-        */
-       ovfl_ctrl.val = 0;
-       reset_pmds    = 0UL;
-
-       /*
-        * if a sampling format module exists, then we "cache" the overflow by 
-        * calling the module's handler() routine.
-        */
-       if (has_smpl) {
-               unsigned long start_cycles, end_cycles;
-               unsigned long pmd_mask;
-               int j, k, ret = 0;
-               int this_cpu = smp_processor_id();
-
-               pmd_mask = ovfl_pmds >> PMU_FIRST_COUNTER;
-               ovfl_arg = &ctx->ctx_ovfl_arg;
-
-               prefetch(ctx->ctx_smpl_hdr);
-
-               for(i=PMU_FIRST_COUNTER; pmd_mask && ret == 0; i++, pmd_mask >>=1) {
-
-                       mask = 1UL << i;
-
-                       if ((pmd_mask & 0x1) == 0) continue;
-
-                       ovfl_arg->ovfl_pmd      = (unsigned char )i;
-                       ovfl_arg->ovfl_notify   = ovfl_notify & mask ? 1 : 0;
-                       ovfl_arg->active_set    = 0;
-                       ovfl_arg->ovfl_ctrl.val = 0; /* module must fill in all fields */
-                       ovfl_arg->smpl_pmds[0]  = smpl_pmds = ctx->ctx_pmds[i].smpl_pmds[0];
-
-                       ovfl_arg->pmd_value      = ctx->ctx_pmds[i].val;
-                       ovfl_arg->pmd_last_reset = ctx->ctx_pmds[i].lval;
-                       ovfl_arg->pmd_eventid    = ctx->ctx_pmds[i].eventid;
-
-                       /*
-                        * copy values of pmds of interest. Sampling format may copy them
-                        * into sampling buffer.
-                        */
-                       if (smpl_pmds) {
-                               for(j=0, k=0; smpl_pmds; j++, smpl_pmds >>=1) {
-                                       if ((smpl_pmds & 0x1) == 0) continue;
-                                       ovfl_arg->smpl_pmds_values[k++] = PMD_IS_COUNTING(j) ?  pfm_read_soft_counter(ctx, j) : ia64_get_pmd(j);
-                                       DPRINT_ovfl(("smpl_pmd[%d]=pmd%u=0x%lx\n", k-1, j, ovfl_arg->smpl_pmds_values[k-1]));
-                               }
-                       }
-
-                       pfm_stats[this_cpu].pfm_smpl_handler_calls++;
-
-                       start_cycles = ia64_get_itc();
-
-                       /*
-                        * call custom buffer format record (handler) routine
-                        */
-                       ret = (*ctx->ctx_buf_fmt->fmt_handler)(task, ctx->ctx_smpl_hdr, ovfl_arg, regs, tstamp);
-
-                       end_cycles = ia64_get_itc();
-
-                       /*
-                        * For those controls, we take the union because they have
-                        * an all or nothing behavior.
-                        */
-                       ovfl_ctrl.bits.notify_user     |= ovfl_arg->ovfl_ctrl.bits.notify_user;
-                       ovfl_ctrl.bits.block_task      |= ovfl_arg->ovfl_ctrl.bits.block_task;
-                       ovfl_ctrl.bits.mask_monitoring |= ovfl_arg->ovfl_ctrl.bits.mask_monitoring;
-                       /*
-                        * build the bitmask of pmds to reset now
-                        */
-                       if (ovfl_arg->ovfl_ctrl.bits.reset_ovfl_pmds) reset_pmds |= mask;
-
-                       pfm_stats[this_cpu].pfm_smpl_handler_cycles += end_cycles - start_cycles;
-               }
-               /*
-                * when the module cannot handle the rest of the overflows, we abort right here
-                */
-               if (ret && pmd_mask) {
-                       DPRINT(("handler aborts leftover ovfl_pmds=0x%lx\n",
-                               pmd_mask<<PMU_FIRST_COUNTER));
-               }
-               /*
-                * remove the pmds we reset now from the set of pmds to reset in pfm_restart()
-                */
-               ovfl_pmds &= ~reset_pmds;
-       } else {
-               /*
-                * when no sampling module is used, then the default
-                * is to notify on overflow if requested by user
-                */
-               ovfl_ctrl.bits.notify_user     = ovfl_notify ? 1 : 0;
-               ovfl_ctrl.bits.block_task      = ovfl_notify ? 1 : 0;
-               ovfl_ctrl.bits.mask_monitoring = ovfl_notify ? 1 : 0; /* XXX: change for saturation */
-               ovfl_ctrl.bits.reset_ovfl_pmds = ovfl_notify ? 0 : 1;
-               /*
-                * if needed, we reset all overflowed pmds
-                */
-               if (ovfl_notify == 0) reset_pmds = ovfl_pmds;
-       }
-
-       DPRINT_ovfl(("ovfl_pmds=0x%lx reset_pmds=0x%lx\n", ovfl_pmds, reset_pmds));
-
-       /*
-        * reset the requested PMD registers using the short reset values
-        */
-       if (reset_pmds) {
-               unsigned long bm = reset_pmds;
-               pfm_reset_regs(ctx, &bm, PFM_PMD_SHORT_RESET);
-       }
-
-       if (ovfl_notify && ovfl_ctrl.bits.notify_user) {
-               /*
-                * keep track of what to reset when unblocking
-                */
-               ctx->ctx_ovfl_regs[0] = ovfl_pmds;
-
-               /*
-                * check for blocking context 
-                */
-               if (CTX_OVFL_NOBLOCK(ctx) == 0 && ovfl_ctrl.bits.block_task) {
-
-                       ctx->ctx_fl_trap_reason = PFM_TRAP_REASON_BLOCK;
-
-                       /*
-                        * set the perfmon specific checking pending work for the task
-                        */
-                       PFM_SET_WORK_PENDING(task, 1);
-
-                       /*
-                        * when coming from ctxsw, current still points to the
-                        * previous task, therefore we must work with task and not current.
-                        */
-                       set_notify_resume(task);
-               }
-               /*
-                * defer until state is changed (shorten spin window). the context is locked
-                * anyway, so the signal receiver would come spin for nothing.
-                */
-               must_notify = 1;
-       }
-
-       DPRINT_ovfl(("owner [%d] pending=%ld reason=%u ovfl_pmds=0x%lx ovfl_notify=0x%lx masked=%d\n",
-                       GET_PMU_OWNER() ? task_pid_nr(GET_PMU_OWNER()) : -1,
-                       PFM_GET_WORK_PENDING(task),
-                       ctx->ctx_fl_trap_reason,
-                       ovfl_pmds,
-                       ovfl_notify,
-                       ovfl_ctrl.bits.mask_monitoring ? 1 : 0));
-       /*
-        * in case monitoring must be stopped, we toggle the psr bits
-        */
-       if (ovfl_ctrl.bits.mask_monitoring) {
-               pfm_mask_monitoring(task);
-               ctx->ctx_state = PFM_CTX_MASKED;
-               ctx->ctx_fl_can_restart = 1;
-       }
-
-       /*
-        * send notification now
-        */
-       if (must_notify) pfm_ovfl_notify_user(ctx, ovfl_notify);
-
-       return;
-
-sanity_check:
-       printk(KERN_ERR "perfmon: CPU%d overflow handler [%d] pmc0=0x%lx\n",
-                       smp_processor_id(),
-                       task ? task_pid_nr(task) : -1,
-                       pmc0);
-       return;
-
-stop_monitoring:
-       /*
-        * in SMP, zombie context is never restored but reclaimed in pfm_load_regs().
-        * Moreover, zombies are also reclaimed in pfm_save_regs(). Therefore we can
-        * come here as zombie only if the task is the current task. In which case, we
-        * can access the PMU  hardware directly.
-        *
-        * Note that zombies do have PM_VALID set. So here we do the minimal.
-        *
-        * In case the context was zombified it could not be reclaimed at the time
-        * the monitoring program exited. At this point, the PMU reservation has been
-        * returned, the sampiing buffer has been freed. We must convert this call
-        * into a spurious interrupt. However, we must also avoid infinite overflows
-        * by stopping monitoring for this task. We can only come here for a per-task
-        * context. All we need to do is to stop monitoring using the psr bits which
-        * are always task private. By re-enabling secure montioring, we ensure that
-        * the monitored task will not be able to re-activate monitoring.
-        * The task will eventually be context switched out, at which point the context
-        * will be reclaimed (that includes releasing ownership of the PMU).
-        *
-        * So there might be a window of time where the number of per-task session is zero
-        * yet one PMU might have a owner and get at most one overflow interrupt for a zombie
-        * context. This is safe because if a per-task session comes in, it will push this one
-        * out and by the virtue on pfm_save_regs(), this one will disappear. If a system wide
-        * session is force on that CPU, given that we use task pinning, pfm_save_regs() will
-        * also push our zombie context out.
-        *
-        * Overall pretty hairy stuff....
-        */
-       DPRINT(("ctx is zombie for [%d], converted to spurious\n", task ? task_pid_nr(task): -1));
-       pfm_clear_psr_up();
-       ia64_psr(regs)->up = 0;
-       ia64_psr(regs)->sp = 1;
-       return;
-}
-
-static int
-pfm_do_interrupt_handler(void *arg, struct pt_regs *regs)
-{
-       struct task_struct *task;
-       pfm_context_t *ctx;
-       unsigned long flags;
-       u64 pmc0;
-       int this_cpu = smp_processor_id();
-       int retval = 0;
-
-       pfm_stats[this_cpu].pfm_ovfl_intr_count++;
-
-       /*
-        * srlz.d done before arriving here
-        */
-       pmc0 = ia64_get_pmc(0);
-
-       task = GET_PMU_OWNER();
-       ctx  = GET_PMU_CTX();
-
-       /*
-        * if we have some pending bits set
-        * assumes : if any PMC0.bit[63-1] is set, then PMC0.fr = 1
-        */
-       if (PMC0_HAS_OVFL(pmc0) && task) {
-               /*
-                * we assume that pmc0.fr is always set here
-                */
-
-               /* sanity check */
-               if (!ctx) goto report_spurious1;
-
-               if (ctx->ctx_fl_system == 0 && (task->thread.flags & IA64_THREAD_PM_VALID) == 0) 
-                       goto report_spurious2;
-
-               PROTECT_CTX_NOPRINT(ctx, flags);
-
-               pfm_overflow_handler(task, ctx, pmc0, regs);
-
-               UNPROTECT_CTX_NOPRINT(ctx, flags);
-
-       } else {
-               pfm_stats[this_cpu].pfm_spurious_ovfl_intr_count++;
-               retval = -1;
-       }
-       /*
-        * keep it unfrozen at all times
-        */
-       pfm_unfreeze_pmu();
-
-       return retval;
-
-report_spurious1:
-       printk(KERN_INFO "perfmon: spurious overflow interrupt on CPU%d: process %d has no PFM context\n",
-               this_cpu, task_pid_nr(task));
-       pfm_unfreeze_pmu();
-       return -1;
-report_spurious2:
-       printk(KERN_INFO "perfmon: spurious overflow interrupt on CPU%d: process %d, invalid flag\n", 
-               this_cpu, 
-               task_pid_nr(task));
-       pfm_unfreeze_pmu();
-       return -1;
-}
-
-static irqreturn_t
-pfm_interrupt_handler(int irq, void *arg)
-{
-       unsigned long start_cycles, total_cycles;
-       unsigned long min, max;
-       int this_cpu;
-       int ret;
-       struct pt_regs *regs = get_irq_regs();
-
-       this_cpu = get_cpu();
-       if (likely(!pfm_alt_intr_handler)) {
-               min = pfm_stats[this_cpu].pfm_ovfl_intr_cycles_min;
-               max = pfm_stats[this_cpu].pfm_ovfl_intr_cycles_max;
-
-               start_cycles = ia64_get_itc();
-
-               ret = pfm_do_interrupt_handler(arg, regs);
-
-               total_cycles = ia64_get_itc();
-
-               /*
-                * don't measure spurious interrupts
-                */
-               if (likely(ret == 0)) {
-                       total_cycles -= start_cycles;
-
-                       if (total_cycles < min) pfm_stats[this_cpu].pfm_ovfl_intr_cycles_min = total_cycles;
-                       if (total_cycles > max) pfm_stats[this_cpu].pfm_ovfl_intr_cycles_max = total_cycles;
-
-                       pfm_stats[this_cpu].pfm_ovfl_intr_cycles += total_cycles;
-               }
-       }
-       else {
-               (*pfm_alt_intr_handler->handler)(irq, arg, regs);
-       }
-
-       put_cpu();
-       return IRQ_HANDLED;
-}
-
-/*
- * /proc/perfmon interface, for debug only
- */
-
-#define PFM_PROC_SHOW_HEADER   ((void *)(long)nr_cpu_ids+1)
-
-static void *
-pfm_proc_start(struct seq_file *m, loff_t *pos)
-{
-       if (*pos == 0) {
-               return PFM_PROC_SHOW_HEADER;
-       }
-
-       while (*pos <= nr_cpu_ids) {
-               if (cpu_online(*pos - 1)) {
-                       return (void *)*pos;
-               }
-               ++*pos;
-       }
-       return NULL;
-}
-
-static void *
-pfm_proc_next(struct seq_file *m, void *v, loff_t *pos)
-{
-       ++*pos;
-       return pfm_proc_start(m, pos);
-}
-
-static void
-pfm_proc_stop(struct seq_file *m, void *v)
-{
-}
-
-static void
-pfm_proc_show_header(struct seq_file *m)
-{
-       struct list_head * pos;
-       pfm_buffer_fmt_t * entry;
-       unsigned long flags;
-
-       seq_printf(m,
-               "perfmon version           : %u.%u\n"
-               "model                     : %s\n"
-               "fastctxsw                 : %s\n"
-               "expert mode               : %s\n"
-               "ovfl_mask                 : 0x%lx\n"
-               "PMU flags                 : 0x%x\n",
-               PFM_VERSION_MAJ, PFM_VERSION_MIN,
-               pmu_conf->pmu_name,
-               pfm_sysctl.fastctxsw > 0 ? "Yes": "No",
-               pfm_sysctl.expert_mode > 0 ? "Yes": "No",
-               pmu_conf->ovfl_val,
-               pmu_conf->flags);
-
-       LOCK_PFS(flags);
-
-       seq_printf(m,
-               "proc_sessions             : %u\n"
-               "sys_sessions              : %u\n"
-               "sys_use_dbregs            : %u\n"
-               "ptrace_use_dbregs         : %u\n",
-               pfm_sessions.pfs_task_sessions,
-               pfm_sessions.pfs_sys_sessions,
-               pfm_sessions.pfs_sys_use_dbregs,
-               pfm_sessions.pfs_ptrace_use_dbregs);
-
-       UNLOCK_PFS(flags);
-
-       spin_lock(&pfm_buffer_fmt_lock);
-
-       list_for_each(pos, &pfm_buffer_fmt_list) {
-               entry = list_entry(pos, pfm_buffer_fmt_t, fmt_list);
-               seq_printf(m, "format                    : %16phD %s\n",
-                          entry->fmt_uuid, entry->fmt_name);
-       }
-       spin_unlock(&pfm_buffer_fmt_lock);
-
-}
-
-static int
-pfm_proc_show(struct seq_file *m, void *v)
-{
-       unsigned long psr;
-       unsigned int i;
-       int cpu;
-
-       if (v == PFM_PROC_SHOW_HEADER) {
-               pfm_proc_show_header(m);
-               return 0;
-       }
-
-       /* show info for CPU (v - 1) */
-
-       cpu = (long)v - 1;
-       seq_printf(m,
-               "CPU%-2d overflow intrs      : %lu\n"
-               "CPU%-2d overflow cycles     : %lu\n"
-               "CPU%-2d overflow min        : %lu\n"
-               "CPU%-2d overflow max        : %lu\n"
-               "CPU%-2d smpl handler calls  : %lu\n"
-               "CPU%-2d smpl handler cycles : %lu\n"
-               "CPU%-2d spurious intrs      : %lu\n"
-               "CPU%-2d replay   intrs      : %lu\n"
-               "CPU%-2d syst_wide           : %d\n"
-               "CPU%-2d dcr_pp              : %d\n"
-               "CPU%-2d exclude idle        : %d\n"
-               "CPU%-2d owner               : %d\n"
-               "CPU%-2d context             : %p\n"
-               "CPU%-2d activations         : %lu\n",
-               cpu, pfm_stats[cpu].pfm_ovfl_intr_count,
-               cpu, pfm_stats[cpu].pfm_ovfl_intr_cycles,
-               cpu, pfm_stats[cpu].pfm_ovfl_intr_cycles_min,
-               cpu, pfm_stats[cpu].pfm_ovfl_intr_cycles_max,
-               cpu, pfm_stats[cpu].pfm_smpl_handler_calls,
-               cpu, pfm_stats[cpu].pfm_smpl_handler_cycles,
-               cpu, pfm_stats[cpu].pfm_spurious_ovfl_intr_count,
-               cpu, pfm_stats[cpu].pfm_replay_ovfl_intr_count,
-               cpu, pfm_get_cpu_data(pfm_syst_info, cpu) & PFM_CPUINFO_SYST_WIDE ? 1 : 0,
-               cpu, pfm_get_cpu_data(pfm_syst_info, cpu) & PFM_CPUINFO_DCR_PP ? 1 : 0,
-               cpu, pfm_get_cpu_data(pfm_syst_info, cpu) & PFM_CPUINFO_EXCL_IDLE ? 1 : 0,
-               cpu, pfm_get_cpu_data(pmu_owner, cpu) ? pfm_get_cpu_data(pmu_owner, cpu)->pid: -1,
-               cpu, pfm_get_cpu_data(pmu_ctx, cpu),
-               cpu, pfm_get_cpu_data(pmu_activation_number, cpu));
-
-       if (num_online_cpus() == 1 && pfm_sysctl.debug > 0) {
-
-               psr = pfm_get_psr();
-
-               ia64_srlz_d();
-
-               seq_printf(m, 
-                       "CPU%-2d psr                 : 0x%lx\n"
-                       "CPU%-2d pmc0                : 0x%lx\n", 
-                       cpu, psr,
-                       cpu, ia64_get_pmc(0));
-
-               for (i=0; PMC_IS_LAST(i) == 0;  i++) {
-                       if (PMC_IS_COUNTING(i) == 0) continue;
-                       seq_printf(m, 
-                               "CPU%-2d pmc%u                : 0x%lx\n"
-                               "CPU%-2d pmd%u                : 0x%lx\n", 
-                               cpu, i, ia64_get_pmc(i),
-                               cpu, i, ia64_get_pmd(i));
-               }
-       }
-       return 0;
-}
-
-const struct seq_operations pfm_seq_ops = {
-       .start =        pfm_proc_start,
-       .next =         pfm_proc_next,
-       .stop =         pfm_proc_stop,
-       .show =         pfm_proc_show
-};
-
-/*
- * we come here as soon as local_cpu_data->pfm_syst_wide is set. this happens
- * during pfm_enable() hence before pfm_start(). We cannot assume monitoring
- * is active or inactive based on mode. We must rely on the value in
- * local_cpu_data->pfm_syst_info
- */
-void
-pfm_syst_wide_update_task(struct task_struct *task, unsigned long info, int is_ctxswin)
-{
-       struct pt_regs *regs;
-       unsigned long dcr;
-       unsigned long dcr_pp;
-
-       dcr_pp = info & PFM_CPUINFO_DCR_PP ? 1 : 0;
-
-       /*
-        * pid 0 is guaranteed to be the idle task. There is one such task with pid 0
-        * on every CPU, so we can rely on the pid to identify the idle task.
-        */
-       if ((info & PFM_CPUINFO_EXCL_IDLE) == 0 || task->pid) {
-               regs = task_pt_regs(task);
-               ia64_psr(regs)->pp = is_ctxswin ? dcr_pp : 0;
-               return;
-       }
-       /*
-        * if monitoring has started
-        */
-       if (dcr_pp) {
-               dcr = ia64_getreg(_IA64_REG_CR_DCR);
-               /*
-                * context switching in?
-                */
-               if (is_ctxswin) {
-                       /* mask monitoring for the idle task */
-                       ia64_setreg(_IA64_REG_CR_DCR, dcr & ~IA64_DCR_PP);
-                       pfm_clear_psr_pp();
-                       ia64_srlz_i();
-                       return;
-               }
-               /*
-                * context switching out
-                * restore monitoring for next task
-                *
-                * Due to inlining this odd if-then-else construction generates
-                * better code.
-                */
-               ia64_setreg(_IA64_REG_CR_DCR, dcr |IA64_DCR_PP);
-               pfm_set_psr_pp();
-               ia64_srlz_i();
-       }
-}
-
-#ifdef CONFIG_SMP
-
-static void
-pfm_force_cleanup(pfm_context_t *ctx, struct pt_regs *regs)
-{
-       struct task_struct *task = ctx->ctx_task;
-
-       ia64_psr(regs)->up = 0;
-       ia64_psr(regs)->sp = 1;
-
-       if (GET_PMU_OWNER() == task) {
-               DPRINT(("cleared ownership for [%d]\n",
-                                       task_pid_nr(ctx->ctx_task)));
-               SET_PMU_OWNER(NULL, NULL);
-       }
-
-       /*
-        * disconnect the task from the context and vice-versa
-        */
-       PFM_SET_WORK_PENDING(task, 0);
-
-       task->thread.pfm_context  = NULL;
-       task->thread.flags       &= ~IA64_THREAD_PM_VALID;
-
-       DPRINT(("force cleanup for [%d]\n",  task_pid_nr(task)));
-}
-
-
-/*
- * in 2.6, interrupts are masked when we come here and the runqueue lock is held
- */
-void
-pfm_save_regs(struct task_struct *task)
-{
-       pfm_context_t *ctx;
-       unsigned long flags;
-       u64 psr;
-
-
-       ctx = PFM_GET_CTX(task);
-       if (ctx == NULL) return;
-
-       /*
-        * we always come here with interrupts ALREADY disabled by
-        * the scheduler. So we simply need to protect against concurrent
-        * access, not CPU concurrency.
-        */
-       flags = pfm_protect_ctx_ctxsw(ctx);
-
-       if (ctx->ctx_state == PFM_CTX_ZOMBIE) {
-               struct pt_regs *regs = task_pt_regs(task);
-
-               pfm_clear_psr_up();
-
-               pfm_force_cleanup(ctx, regs);
-
-               BUG_ON(ctx->ctx_smpl_hdr);
-
-               pfm_unprotect_ctx_ctxsw(ctx, flags);
-
-               pfm_context_free(ctx);
-               return;
-       }
-
-       /*
-        * save current PSR: needed because we modify it
-        */
-       ia64_srlz_d();
-       psr = pfm_get_psr();
-
-       BUG_ON(psr & (IA64_PSR_I));
-
-       /*
-        * stop monitoring:
-        * This is the last instruction which may generate an overflow
-        *
-        * We do not need to set psr.sp because, it is irrelevant in kernel.
-        * It will be restored from ipsr when going back to user level
-        */
-       pfm_clear_psr_up();
-
-       /*
-        * keep a copy of psr.up (for reload)
-        */
-       ctx->ctx_saved_psr_up = psr & IA64_PSR_UP;
-
-       /*
-        * release ownership of this PMU.
-        * PM interrupts are masked, so nothing
-        * can happen.
-        */
-       SET_PMU_OWNER(NULL, NULL);
-
-       /*
-        * we systematically save the PMD as we have no
-        * guarantee we will be schedule at that same
-        * CPU again.
-        */
-       pfm_save_pmds(ctx->th_pmds, ctx->ctx_used_pmds[0]);
-
-       /*
-        * save pmc0 ia64_srlz_d() done in pfm_save_pmds()
-        * we will need it on the restore path to check
-        * for pending overflow.
-        */
-       ctx->th_pmcs[0] = ia64_get_pmc(0);
-
-       /*
-        * unfreeze PMU if had pending overflows
-        */
-       if (ctx->th_pmcs[0] & ~0x1UL) pfm_unfreeze_pmu();
-
-       /*
-        * finally, allow context access.
-        * interrupts will still be masked after this call.
-        */
-       pfm_unprotect_ctx_ctxsw(ctx, flags);
-}
-
-#else /* !CONFIG_SMP */
-void
-pfm_save_regs(struct task_struct *task)
-{
-       pfm_context_t *ctx;
-       u64 psr;
-
-       ctx = PFM_GET_CTX(task);
-       if (ctx == NULL) return;
-
-       /*
-        * save current PSR: needed because we modify it
-        */
-       psr = pfm_get_psr();
-
-       BUG_ON(psr & (IA64_PSR_I));
-
-       /*
-        * stop monitoring:
-        * This is the last instruction which may generate an overflow
-        *
-        * We do not need to set psr.sp because, it is irrelevant in kernel.
-        * It will be restored from ipsr when going back to user level
-        */
-       pfm_clear_psr_up();
-
-       /*
-        * keep a copy of psr.up (for reload)
-        */
-       ctx->ctx_saved_psr_up = psr & IA64_PSR_UP;
-}
-
-static void
-pfm_lazy_save_regs (struct task_struct *task)
-{
-       pfm_context_t *ctx;
-       unsigned long flags;
-
-       { u64 psr  = pfm_get_psr();
-         BUG_ON(psr & IA64_PSR_UP);
-       }
-
-       ctx = PFM_GET_CTX(task);
-
-       /*
-        * we need to mask PMU overflow here to
-        * make sure that we maintain pmc0 until
-        * we save it. overflow interrupts are
-        * treated as spurious if there is no
-        * owner.
-        *
-        * XXX: I don't think this is necessary
-        */
-       PROTECT_CTX(ctx,flags);
-
-       /*
-        * release ownership of this PMU.
-        * must be done before we save the registers.
-        *
-        * after this call any PMU interrupt is treated
-        * as spurious.
-        */
-       SET_PMU_OWNER(NULL, NULL);
-
-       /*
-        * save all the pmds we use
-        */
-       pfm_save_pmds(ctx->th_pmds, ctx->ctx_used_pmds[0]);
-
-       /*
-        * save pmc0 ia64_srlz_d() done in pfm_save_pmds()
-        * it is needed to check for pended overflow
-        * on the restore path
-        */
-       ctx->th_pmcs[0] = ia64_get_pmc(0);
-
-       /*
-        * unfreeze PMU if had pending overflows
-        */
-       if (ctx->th_pmcs[0] & ~0x1UL) pfm_unfreeze_pmu();
-
-       /*
-        * now get can unmask PMU interrupts, they will
-        * be treated as purely spurious and we will not
-        * lose any information
-        */
-       UNPROTECT_CTX(ctx,flags);
-}
-#endif /* CONFIG_SMP */
-
-#ifdef CONFIG_SMP
-/*
- * in 2.6, interrupts are masked when we come here and the runqueue lock is held
- */
-void
-pfm_load_regs (struct task_struct *task)
-{
-       pfm_context_t *ctx;
-       unsigned long pmc_mask = 0UL, pmd_mask = 0UL;
-       unsigned long flags;
-       u64 psr, psr_up;
-       int need_irq_resend;
-
-       ctx = PFM_GET_CTX(task);
-       if (unlikely(ctx == NULL)) return;
-
-       BUG_ON(GET_PMU_OWNER());
-
-       /*
-        * possible on unload
-        */
-       if (unlikely((task->thread.flags & IA64_THREAD_PM_VALID) == 0)) return;
-
-       /*
-        * we always come here with interrupts ALREADY disabled by
-        * the scheduler. So we simply need to protect against concurrent
-        * access, not CPU concurrency.
-        */
-       flags = pfm_protect_ctx_ctxsw(ctx);
-       psr   = pfm_get_psr();
-
-       need_irq_resend = pmu_conf->flags & PFM_PMU_IRQ_RESEND;
-
-       BUG_ON(psr & (IA64_PSR_UP|IA64_PSR_PP));
-       BUG_ON(psr & IA64_PSR_I);
-
-       if (unlikely(ctx->ctx_state == PFM_CTX_ZOMBIE)) {
-               struct pt_regs *regs = task_pt_regs(task);
-
-               BUG_ON(ctx->ctx_smpl_hdr);
-
-               pfm_force_cleanup(ctx, regs);
-
-               pfm_unprotect_ctx_ctxsw(ctx, flags);
-
-               /*
-                * this one (kmalloc'ed) is fine with interrupts disabled
-                */
-               pfm_context_free(ctx);
-
-               return;
-       }
-
-       /*
-        * we restore ALL the debug registers to avoid picking up
-        * stale state.
-        */
-       if (ctx->ctx_fl_using_dbreg) {
-               pfm_restore_ibrs(ctx->ctx_ibrs, pmu_conf->num_ibrs);
-               pfm_restore_dbrs(ctx->ctx_dbrs, pmu_conf->num_dbrs);
-       }
-       /*
-        * retrieve saved psr.up
-        */
-       psr_up = ctx->ctx_saved_psr_up;
-
-       /*
-        * if we were the last user of the PMU on that CPU,
-        * then nothing to do except restore psr
-        */
-       if (GET_LAST_CPU(ctx) == smp_processor_id() && ctx->ctx_last_activation == GET_ACTIVATION()) {
-
-               /*
-                * retrieve partial reload masks (due to user modifications)
-                */
-               pmc_mask = ctx->ctx_reload_pmcs[0];
-               pmd_mask = ctx->ctx_reload_pmds[0];
-
-       } else {
-               /*
-                * To avoid leaking information to the user level when psr.sp=0,
-                * we must reload ALL implemented pmds (even the ones we don't use).
-                * In the kernel we only allow PFM_READ_PMDS on registers which
-                * we initialized or requested (sampling) so there is no risk there.
-                */
-               pmd_mask = pfm_sysctl.fastctxsw ?  ctx->ctx_used_pmds[0] : ctx->ctx_all_pmds[0];
-
-               /*
-                * ALL accessible PMCs are systematically reloaded, unused registers
-                * get their default (from pfm_reset_pmu_state()) values to avoid picking
-                * up stale configuration.
-                *
-                * PMC0 is never in the mask. It is always restored separately.
-                */
-               pmc_mask = ctx->ctx_all_pmcs[0];
-       }
-       /*
-        * when context is MASKED, we will restore PMC with plm=0
-        * and PMD with stale information, but that's ok, nothing
-        * will be captured.
-        *
-        * XXX: optimize here
-        */
-       if (pmd_mask) pfm_restore_pmds(ctx->th_pmds, pmd_mask);
-       if (pmc_mask) pfm_restore_pmcs(ctx->th_pmcs, pmc_mask);
-
-       /*
-        * check for pending overflow at the time the state
-        * was saved.
-        */
-       if (unlikely(PMC0_HAS_OVFL(ctx->th_pmcs[0]))) {
-               /*
-                * reload pmc0 with the overflow information
-                * On McKinley PMU, this will trigger a PMU interrupt
-                */
-               ia64_set_pmc(0, ctx->th_pmcs[0]);
-               ia64_srlz_d();
-               ctx->th_pmcs[0] = 0UL;
-
-               /*
-                * will replay the PMU interrupt
-                */
-               if (need_irq_resend) ia64_resend_irq(IA64_PERFMON_VECTOR);
-
-               pfm_stats[smp_processor_id()].pfm_replay_ovfl_intr_count++;
-       }
-
-       /*
-        * we just did a reload, so we reset the partial reload fields
-        */
-       ctx->ctx_reload_pmcs[0] = 0UL;
-       ctx->ctx_reload_pmds[0] = 0UL;
-
-       SET_LAST_CPU(ctx, smp_processor_id());
-
-       /*
-        * dump activation value for this PMU
-        */
-       INC_ACTIVATION();
-       /*
-        * record current activation for this context
-        */
-       SET_ACTIVATION(ctx);
-
-       /*
-        * establish new ownership. 
-        */
-       SET_PMU_OWNER(task, ctx);
-
-       /*
-        * restore the psr.up bit. measurement
-        * is active again.
-        * no PMU interrupt can happen at this point
-        * because we still have interrupts disabled.
-        */
-       if (likely(psr_up)) pfm_set_psr_up();
-
-       /*
-        * allow concurrent access to context
-        */
-       pfm_unprotect_ctx_ctxsw(ctx, flags);
-}
-#else /*  !CONFIG_SMP */
-/*
- * reload PMU state for UP kernels
- * in 2.5 we come here with interrupts disabled
- */
-void
-pfm_load_regs (struct task_struct *task)
-{
-       pfm_context_t *ctx;
-       struct task_struct *owner;
-       unsigned long pmd_mask, pmc_mask;
-       u64 psr, psr_up;
-       int need_irq_resend;
-
-       owner = GET_PMU_OWNER();
-       ctx   = PFM_GET_CTX(task);
-       psr   = pfm_get_psr();
-
-       BUG_ON(psr & (IA64_PSR_UP|IA64_PSR_PP));
-       BUG_ON(psr & IA64_PSR_I);
-
-       /*
-        * we restore ALL the debug registers to avoid picking up
-        * stale state.
-        *
-        * This must be done even when the task is still the owner
-        * as the registers may have been modified via ptrace()
-        * (not perfmon) by the previous task.
-        */
-       if (ctx->ctx_fl_using_dbreg) {
-               pfm_restore_ibrs(ctx->ctx_ibrs, pmu_conf->num_ibrs);
-               pfm_restore_dbrs(ctx->ctx_dbrs, pmu_conf->num_dbrs);
-       }
-
-       /*
-        * retrieved saved psr.up
-        */
-       psr_up = ctx->ctx_saved_psr_up;
-       need_irq_resend = pmu_conf->flags & PFM_PMU_IRQ_RESEND;
-
-       /*
-        * short path, our state is still there, just
-        * need to restore psr and we go
-        *
-        * we do not touch either PMC nor PMD. the psr is not touched
-        * by the overflow_handler. So we are safe w.r.t. to interrupt
-        * concurrency even without interrupt masking.
-        */
-       if (likely(owner == task)) {
-               if (likely(psr_up)) pfm_set_psr_up();
-               return;
-       }
-
-       /*
-        * someone else is still using the PMU, first push it out and
-        * then we'll be able to install our stuff !
-        *
-        * Upon return, there will be no owner for the current PMU
-        */
-       if (owner) pfm_lazy_save_regs(owner);
-
-       /*
-        * To avoid leaking information to the user level when psr.sp=0,
-        * we must reload ALL implemented pmds (even the ones we don't use).
-        * In the kernel we only allow PFM_READ_PMDS on registers which
-        * we initialized or requested (sampling) so there is no risk there.
-        */
-       pmd_mask = pfm_sysctl.fastctxsw ?  ctx->ctx_used_pmds[0] : ctx->ctx_all_pmds[0];
-
-       /*
-        * ALL accessible PMCs are systematically reloaded, unused registers
-        * get their default (from pfm_reset_pmu_state()) values to avoid picking
-        * up stale configuration.
-        *
-        * PMC0 is never in the mask. It is always restored separately
-        */
-       pmc_mask = ctx->ctx_all_pmcs[0];
-
-       pfm_restore_pmds(ctx->th_pmds, pmd_mask);
-       pfm_restore_pmcs(ctx->th_pmcs, pmc_mask);
-
-       /*
-        * check for pending overflow at the time the state
-        * was saved.
-        */
-       if (unlikely(PMC0_HAS_OVFL(ctx->th_pmcs[0]))) {
-               /*
-                * reload pmc0 with the overflow information
-                * On McKinley PMU, this will trigger a PMU interrupt
-                */
-               ia64_set_pmc(0, ctx->th_pmcs[0]);
-               ia64_srlz_d();
-
-               ctx->th_pmcs[0] = 0UL;
-
-               /*
-                * will replay the PMU interrupt
-                */
-               if (need_irq_resend) ia64_resend_irq(IA64_PERFMON_VECTOR);
-
-               pfm_stats[smp_processor_id()].pfm_replay_ovfl_intr_count++;
-       }
-
-       /*
-        * establish new ownership. 
-        */
-       SET_PMU_OWNER(task, ctx);
-
-       /*
-        * restore the psr.up bit. measurement
-        * is active again.
-        * no PMU interrupt can happen at this point
-        * because we still have interrupts disabled.
-        */
-       if (likely(psr_up)) pfm_set_psr_up();
-}
-#endif /* CONFIG_SMP */
-
-/*
- * this function assumes monitoring is stopped
- */
-static void
-pfm_flush_pmds(struct task_struct *task, pfm_context_t *ctx)
-{
-       u64 pmc0;
-       unsigned long mask2, val, pmd_val, ovfl_val;
-       int i, can_access_pmu = 0;
-       int is_self;
-
-       /*
-        * is the caller the task being monitored (or which initiated the
-        * session for system wide measurements)
-        */
-       is_self = ctx->ctx_task == task ? 1 : 0;
-
-       /*
-        * can access PMU is task is the owner of the PMU state on the current CPU
-        * or if we are running on the CPU bound to the context in system-wide mode
-        * (that is not necessarily the task the context is attached to in this mode).
-        * In system-wide we always have can_access_pmu true because a task running on an
-        * invalid processor is flagged earlier in the call stack (see pfm_stop).
-        */
-       can_access_pmu = (GET_PMU_OWNER() == task) || (ctx->ctx_fl_system && ctx->ctx_cpu == smp_processor_id());
-       if (can_access_pmu) {
-               /*
-                * Mark the PMU as not owned
-                * This will cause the interrupt handler to do nothing in case an overflow
-                * interrupt was in-flight
-                * This also guarantees that pmc0 will contain the final state
-                * It virtually gives us full control on overflow processing from that point
-                * on.
-                */
-               SET_PMU_OWNER(NULL, NULL);
-               DPRINT(("releasing ownership\n"));
-
-               /*
-                * read current overflow status:
-                *
-                * we are guaranteed to read the final stable state
-                */
-               ia64_srlz_d();
-               pmc0 = ia64_get_pmc(0); /* slow */
-
-               /*
-                * reset freeze bit, overflow status information destroyed
-                */
-               pfm_unfreeze_pmu();
-       } else {
-               pmc0 = ctx->th_pmcs[0];
-               /*
-                * clear whatever overflow status bits there were
-                */
-               ctx->th_pmcs[0] = 0;
-       }
-       ovfl_val = pmu_conf->ovfl_val;
-       /*
-        * we save all the used pmds
-        * we take care of overflows for counting PMDs
-        *
-        * XXX: sampling situation is not taken into account here
-        */
-       mask2 = ctx->ctx_used_pmds[0];
-
-       DPRINT(("is_self=%d ovfl_val=0x%lx mask2=0x%lx\n", is_self, ovfl_val, mask2));
-
-       for (i = 0; mask2; i++, mask2>>=1) {
-
-               /* skip non used pmds */
-               if ((mask2 & 0x1) == 0) continue;
-
-               /*
-                * can access PMU always true in system wide mode
-                */
-               val = pmd_val = can_access_pmu ? ia64_get_pmd(i) : ctx->th_pmds[i];
-
-               if (PMD_IS_COUNTING(i)) {
-                       DPRINT(("[%d] pmd[%d] ctx_pmd=0x%lx hw_pmd=0x%lx\n",
-                               task_pid_nr(task),
-                               i,
-                               ctx->ctx_pmds[i].val,
-                               val & ovfl_val));
-
-                       /*
-                        * we rebuild the full 64 bit value of the counter
-                        */
-                       val = ctx->ctx_pmds[i].val + (val & ovfl_val);
-
-                       /*
-                        * now everything is in ctx_pmds[] and we need
-                        * to clear the saved context from save_regs() such that
-                        * pfm_read_pmds() gets the correct value
-                        */
-                       pmd_val = 0UL;
-
-                       /*
-                        * take care of overflow inline
-                        */
-                       if (pmc0 & (1UL << i)) {
-                               val += 1 + ovfl_val;
-                               DPRINT(("[%d] pmd[%d] overflowed\n", task_pid_nr(task), i));
-                       }
-               }
-
-               DPRINT(("[%d] ctx_pmd[%d]=0x%lx  pmd_val=0x%lx\n", task_pid_nr(task), i, val, pmd_val));
-
-               if (is_self) ctx->th_pmds[i] = pmd_val;
-
-               ctx->ctx_pmds[i].val = val;
-       }
-}
-
-static void
-pfm_alt_save_pmu_state(void *data)
-{
-       struct pt_regs *regs;
-
-       regs = task_pt_regs(current);
-
-       DPRINT(("called\n"));
-
-       /*
-        * should not be necessary but
-        * let's take not risk
-        */
-       pfm_clear_psr_up();
-       pfm_clear_psr_pp();
-       ia64_psr(regs)->pp = 0;
-
-       /*
-        * This call is required
-        * May cause a spurious interrupt on some processors
-        */
-       pfm_freeze_pmu();
-
-       ia64_srlz_d();
-}
-
-void
-pfm_alt_restore_pmu_state(void *data)
-{
-       struct pt_regs *regs;
-
-       regs = task_pt_regs(current);
-
-       DPRINT(("called\n"));
-
-       /*
-        * put PMU back in state expected
-        * by perfmon
-        */
-       pfm_clear_psr_up();
-       pfm_clear_psr_pp();
-       ia64_psr(regs)->pp = 0;
-
-       /*
-        * perfmon runs with PMU unfrozen at all times
-        */
-       pfm_unfreeze_pmu();
-
-       ia64_srlz_d();
-}
-
-int
-pfm_install_alt_pmu_interrupt(pfm_intr_handler_desc_t *hdl)
-{
-       int ret, i;
-       int reserve_cpu;
-
-       /* some sanity checks */
-       if (hdl == NULL || hdl->handler == NULL) return -EINVAL;
-
-       /* do the easy test first */
-       if (pfm_alt_intr_handler) return -EBUSY;
-
-       /* one at a time in the install or remove, just fail the others */
-       if (!spin_trylock(&pfm_alt_install_check)) {
-               return -EBUSY;
-       }
-
-       /* reserve our session */
-       for_each_online_cpu(reserve_cpu) {
-               ret = pfm_reserve_session(NULL, 1, reserve_cpu);
-               if (ret) goto cleanup_reserve;
-       }
-
-       /* save the current system wide pmu states */
-       on_each_cpu(pfm_alt_save_pmu_state, NULL, 1);
-
-       /* officially change to the alternate interrupt handler */
-       pfm_alt_intr_handler = hdl;
-
-       spin_unlock(&pfm_alt_install_check);
-
-       return 0;
-
-cleanup_reserve:
-       for_each_online_cpu(i) {
-               /* don't unreserve more than we reserved */
-               if (i >= reserve_cpu) break;
-
-               pfm_unreserve_session(NULL, 1, i);
-       }
-
-       spin_unlock(&pfm_alt_install_check);
-
-       return ret;
-}
-EXPORT_SYMBOL_GPL(pfm_install_alt_pmu_interrupt);
-
-int
-pfm_remove_alt_pmu_interrupt(pfm_intr_handler_desc_t *hdl)
-{
-       int i;
-
-       if (hdl == NULL) return -EINVAL;
-
-       /* cannot remove someone else's handler! */
-       if (pfm_alt_intr_handler != hdl) return -EINVAL;
-
-       /* one at a time in the install or remove, just fail the others */
-       if (!spin_trylock(&pfm_alt_install_check)) {
-               return -EBUSY;
-       }
-
-       pfm_alt_intr_handler = NULL;
-
-       on_each_cpu(pfm_alt_restore_pmu_state, NULL, 1);
-
-       for_each_online_cpu(i) {
-               pfm_unreserve_session(NULL, 1, i);
-       }
-
-       spin_unlock(&pfm_alt_install_check);
-
-       return 0;
-}
-EXPORT_SYMBOL_GPL(pfm_remove_alt_pmu_interrupt);
-
-/*
- * perfmon initialization routine, called from the initcall() table
- */
-static int init_pfm_fs(void);
-
-static int __init
-pfm_probe_pmu(void)
-{
-       pmu_config_t **p;
-       int family;
-
-       family = local_cpu_data->family;
-       p      = pmu_confs;
-
-       while(*p) {
-               if ((*p)->probe) {
-                       if ((*p)->probe() == 0) goto found;
-               } else if ((*p)->pmu_family == family || (*p)->pmu_family == 0xff) {
-                       goto found;
-               }
-               p++;
-       }
-       return -1;
-found:
-       pmu_conf = *p;
-       return 0;
-}
-
-int __init
-pfm_init(void)
-{
-       unsigned int n, n_counters, i;
-
-       printk("perfmon: version %u.%u IRQ %u\n",
-               PFM_VERSION_MAJ,
-               PFM_VERSION_MIN,
-               IA64_PERFMON_VECTOR);
-
-       if (pfm_probe_pmu()) {
-               printk(KERN_INFO "perfmon: disabled, there is no support for processor family %d\n", 
-                               local_cpu_data->family);
-               return -ENODEV;
-       }
-
-       /*
-        * compute the number of implemented PMD/PMC from the
-        * description tables
-        */
-       n = 0;
-       for (i=0; PMC_IS_LAST(i) == 0;  i++) {
-               if (PMC_IS_IMPL(i) == 0) continue;
-               pmu_conf->impl_pmcs[i>>6] |= 1UL << (i&63);
-               n++;
-       }
-       pmu_conf->num_pmcs = n;
-
-       n = 0; n_counters = 0;
-       for (i=0; PMD_IS_LAST(i) == 0;  i++) {
-               if (PMD_IS_IMPL(i) == 0) continue;
-               pmu_conf->impl_pmds[i>>6] |= 1UL << (i&63);
-               n++;
-               if (PMD_IS_COUNTING(i)) n_counters++;
-       }
-       pmu_conf->num_pmds      = n;
-       pmu_conf->num_counters  = n_counters;
-
-       /*
-        * sanity checks on the number of debug registers
-        */
-       if (pmu_conf->use_rr_dbregs) {
-               if (pmu_conf->num_ibrs > IA64_NUM_DBG_REGS) {
-                       printk(KERN_INFO "perfmon: unsupported number of code debug registers (%u)\n", pmu_conf->num_ibrs);
-                       pmu_conf = NULL;
-                       return -1;
-               }
-               if (pmu_conf->num_dbrs > IA64_NUM_DBG_REGS) {
-                       printk(KERN_INFO "perfmon: unsupported number of data debug registers (%u)\n", pmu_conf->num_ibrs);
-                       pmu_conf = NULL;
-                       return -1;
-               }
-       }
-
-       printk("perfmon: %s PMU detected, %u PMCs, %u PMDs, %u counters (%lu bits)\n",
-              pmu_conf->pmu_name,
-              pmu_conf->num_pmcs,
-              pmu_conf->num_pmds,
-              pmu_conf->num_counters,
-              ffz(pmu_conf->ovfl_val));
-
-       /* sanity check */
-       if (pmu_conf->num_pmds >= PFM_NUM_PMD_REGS || pmu_conf->num_pmcs >= PFM_NUM_PMC_REGS) {
-               printk(KERN_ERR "perfmon: not enough pmc/pmd, perfmon disabled\n");
-               pmu_conf = NULL;
-               return -1;
-       }
-
-       /*
-        * create /proc/perfmon (mostly for debugging purposes)
-        */
-       perfmon_dir = proc_create_seq("perfmon", S_IRUGO, NULL, &pfm_seq_ops);
-       if (perfmon_dir == NULL) {
-               printk(KERN_ERR "perfmon: cannot create /proc entry, perfmon disabled\n");
-               pmu_conf = NULL;
-               return -1;
-       }
-
-       /*
-        * create /proc/sys/kernel/perfmon (for debugging purposes)
-        */
-       pfm_sysctl_header = register_sysctl_table(pfm_sysctl_root);
-
-       /*
-        * initialize all our spinlocks
-        */
-       spin_lock_init(&pfm_sessions.pfs_lock);
-       spin_lock_init(&pfm_buffer_fmt_lock);
-
-       init_pfm_fs();
-
-       for(i=0; i < NR_CPUS; i++) pfm_stats[i].pfm_ovfl_intr_cycles_min = ~0UL;
-
-       return 0;
-}
-
-__initcall(pfm_init);
-
-/*
- * this function is called before pfm_init()
- */
-void
-pfm_init_percpu (void)
-{
-       static int first_time=1;
-       /*
-        * make sure no measurement is active
-        * (may inherit programmed PMCs from EFI).
-        */
-       pfm_clear_psr_pp();
-       pfm_clear_psr_up();
-
-       /*
-        * we run with the PMU not frozen at all times
-        */
-       pfm_unfreeze_pmu();
-
-       if (first_time) {
-               register_percpu_irq(IA64_PERFMON_VECTOR, pfm_interrupt_handler,
-                                   0, "perfmon");
-               first_time=0;
-       }
-
-       ia64_setreg(_IA64_REG_CR_PMV, IA64_PERFMON_VECTOR);
-       ia64_srlz_d();
-}
-
-/*
- * used for debug purposes only
- */
-void
-dump_pmu_state(const char *from)
-{
-       struct task_struct *task;
-       struct pt_regs *regs;
-       pfm_context_t *ctx;
-       unsigned long psr, dcr, info, flags;
-       int i, this_cpu;
-
-       local_irq_save(flags);
-
-       this_cpu = smp_processor_id();
-       regs     = task_pt_regs(current);
-       info     = PFM_CPUINFO_GET();
-       dcr      = ia64_getreg(_IA64_REG_CR_DCR);
-
-       if (info == 0 && ia64_psr(regs)->pp == 0 && (dcr & IA64_DCR_PP) == 0) {
-               local_irq_restore(flags);
-               return;
-       }
-
-       printk("CPU%d from %s() current [%d] iip=0x%lx %s\n", 
-               this_cpu, 
-               from, 
-               task_pid_nr(current),
-               regs->cr_iip,
-               current->comm);
-
-       task = GET_PMU_OWNER();
-       ctx  = GET_PMU_CTX();
-
-       printk("->CPU%d owner [%d] ctx=%p\n", this_cpu, task ? task_pid_nr(task) : -1, ctx);
-
-       psr = pfm_get_psr();
-
-       printk("->CPU%d pmc0=0x%lx psr.pp=%d psr.up=%d dcr.pp=%d syst_info=0x%lx user_psr.up=%d user_psr.pp=%d\n", 
-               this_cpu,
-               ia64_get_pmc(0),
-               psr & IA64_PSR_PP ? 1 : 0,
-               psr & IA64_PSR_UP ? 1 : 0,
-               dcr & IA64_DCR_PP ? 1 : 0,
-               info,
-               ia64_psr(regs)->up,
-               ia64_psr(regs)->pp);
-
-       ia64_psr(regs)->up = 0;
-       ia64_psr(regs)->pp = 0;
-
-       for (i=1; PMC_IS_LAST(i) == 0; i++) {
-               if (PMC_IS_IMPL(i) == 0) continue;
-               printk("->CPU%d pmc[%d]=0x%lx thread_pmc[%d]=0x%lx\n", this_cpu, i, ia64_get_pmc(i), i, ctx->th_pmcs[i]);
-       }
-
-       for (i=1; PMD_IS_LAST(i) == 0; i++) {
-               if (PMD_IS_IMPL(i) == 0) continue;
-               printk("->CPU%d pmd[%d]=0x%lx thread_pmd[%d]=0x%lx\n", this_cpu, i, ia64_get_pmd(i), i, ctx->th_pmds[i]);
-       }
-
-       if (ctx) {
-               printk("->CPU%d ctx_state=%d vaddr=%p addr=%p fd=%d ctx_task=[%d] saved_psr_up=0x%lx\n",
-                               this_cpu,
-                               ctx->ctx_state,
-                               ctx->ctx_smpl_vaddr,
-                               ctx->ctx_smpl_hdr,
-                               ctx->ctx_msgq_head,
-                               ctx->ctx_msgq_tail,
-                               ctx->ctx_saved_psr_up);
-       }
-       local_irq_restore(flags);
-}
-
-/*
- * called from process.c:copy_thread(). task is new child.
- */
-void
-pfm_inherit(struct task_struct *task, struct pt_regs *regs)
-{
-       struct thread_struct *thread;
-
-       DPRINT(("perfmon: pfm_inherit clearing state for [%d]\n", task_pid_nr(task)));
-
-       thread = &task->thread;
-
-       /*
-        * cut links inherited from parent (current)
-        */
-       thread->pfm_context = NULL;
-
-       PFM_SET_WORK_PENDING(task, 0);
-
-       /*
-        * the psr bits are already set properly in copy_threads()
-        */
-}
-#else  /* !CONFIG_PERFMON */
-asmlinkage long
-sys_perfmonctl (int fd, int cmd, void *arg, int count)
-{
-       return -ENOSYS;
-}
-#endif /* CONFIG_PERFMON */
index f19cb97..e74e10f 100644 (file)
 
 #include "entry.h"
 
-#ifdef CONFIG_PERFMON
-# include <asm/perfmon.h>
-#endif
-
 #include "sigframe.h"
 
 void (*ia64_mark_idle)(int);
@@ -174,15 +170,6 @@ do_notify_resume_user(sigset_t *unused, struct sigscratch *scr, long in_syscall)
                return;
        }
 
-#ifdef CONFIG_PERFMON
-       if (current->thread.pfm_needs_checking)
-               /*
-                * Note: pfm_handle_work() allow us to call it with interrupts
-                * disabled, and may enable interrupts within the function.
-                */
-               pfm_handle_work();
-#endif
-
        /* deal with pending signal delivery */
        if (test_thread_flag(TIF_SIGPENDING)) {
                local_irq_enable();     /* force interrupt enable */
@@ -264,41 +251,15 @@ void arch_cpu_idle(void)
 void
 ia64_save_extra (struct task_struct *task)
 {
-#ifdef CONFIG_PERFMON
-       unsigned long info;
-#endif
-
        if ((task->thread.flags & IA64_THREAD_DBG_VALID) != 0)
                ia64_save_debug_regs(&task->thread.dbr[0]);
-
-#ifdef CONFIG_PERFMON
-       if ((task->thread.flags & IA64_THREAD_PM_VALID) != 0)
-               pfm_save_regs(task);
-
-       info = __this_cpu_read(pfm_syst_info);
-       if (info & PFM_CPUINFO_SYST_WIDE)
-               pfm_syst_wide_update_task(task, info, 0);
-#endif
 }
 
 void
 ia64_load_extra (struct task_struct *task)
 {
-#ifdef CONFIG_PERFMON
-       unsigned long info;
-#endif
-
        if ((task->thread.flags & IA64_THREAD_DBG_VALID) != 0)
                ia64_load_debug_regs(&task->thread.dbr[0]);
-
-#ifdef CONFIG_PERFMON
-       if ((task->thread.flags & IA64_THREAD_PM_VALID) != 0)
-               pfm_load_regs(task);
-
-       info = __this_cpu_read(pfm_syst_info);
-       if (info & PFM_CPUINFO_SYST_WIDE)
-               pfm_syst_wide_update_task(task, info, 1);
-#endif
 }
 
 /*
@@ -432,11 +393,6 @@ copy_thread(unsigned long clone_flags, unsigned long user_stack_base,
         */
        child_ptregs->cr_ipsr = ((child_ptregs->cr_ipsr | IA64_PSR_BITS_TO_SET)
                                 & ~(IA64_PSR_BITS_TO_CLEAR | IA64_PSR_PP | IA64_PSR_UP));
-
-#ifdef CONFIG_PERFMON
-       if (current->thread.pfm_context)
-               pfm_inherit(p, child_ptregs);
-#endif
        return retval;
 }
 
@@ -563,15 +519,6 @@ exit_thread (struct task_struct *tsk)
 {
 
        ia64_drop_fpu(tsk);
-#ifdef CONFIG_PERFMON
-       /* if needed, stop monitoring and flush state to perfmon context */
-       if (tsk->thread.pfm_context)
-               pfm_exit_thread(tsk);
-
-       /* free debug register resources */
-       if (tsk->thread.flags & IA64_THREAD_DBG_VALID)
-               pfm_release_debug_registers(tsk);
-#endif
 }
 
 unsigned long
index 33ca9fa..75c070a 100644 (file)
@@ -30,9 +30,6 @@
 #include <asm/rse.h>
 #include <linux/uaccess.h>
 #include <asm/unwind.h>
-#ifdef CONFIG_PERFMON
-#include <asm/perfmon.h>
-#endif
 
 #include "entry.h"
 
@@ -1951,27 +1948,6 @@ access_uarea(struct task_struct *child, unsigned long addr,
                                "address 0x%lx\n", addr);
                return -1;
        }
-#ifdef CONFIG_PERFMON
-       /*
-        * Check if debug registers are used by perfmon. This
-        * test must be done once we know that we can do the
-        * operation, i.e. the arguments are all valid, but
-        * before we start modifying the state.
-        *
-        * Perfmon needs to keep a count of how many processes
-        * are trying to modify the debug registers for system
-        * wide monitoring sessions.
-        *
-        * We also include read access here, because they may
-        * cause the PMU-installed debug register state
-        * (dbr[], ibr[]) to be reset. The two arrays are also
-        * used by perfmon, but we do not use
-        * IA64_THREAD_DBG_VALID. The registers are restored
-        * by the PMU context switch code.
-        */
-       if (pfm_use_debug_registers(child))
-               return -1;
-#endif
 
        if (!(child->thread.flags & IA64_THREAD_DBG_VALID)) {
                child->thread.flags |= IA64_THREAD_DBG_VALID;
index c29c600..093040f 100644 (file)
@@ -355,10 +355,6 @@ smp_callin (void)
        extern void ia64_init_itm(void);
        extern volatile int time_keeper_id;
 
-#ifdef CONFIG_PERFMON
-       extern void pfm_init_percpu(void);
-#endif
-
        cpuid = smp_processor_id();
        phys_id = hard_smp_processor_id();
        itc_master = time_keeper_id;
@@ -389,10 +385,6 @@ smp_callin (void)
 
        ia64_mca_cmc_vector_setup();    /* Setup vector on AP */
 
-#ifdef CONFIG_PERFMON
-       pfm_init_percpu();
-#endif
-
        local_irq_enable();
 
        if (!(sal_platform_features & IA64_SAL_PLATFORM_FEATURE_ITC_DRIFT)) {
index f52a41f..4799c96 100644 (file)
 148    common  mmap2                           sys_mmap2
 149    common  pciconfig_read                  sys_pciconfig_read
 150    common  pciconfig_write                 sys_pciconfig_write
-151    common  perfmonctl                      sys_perfmonctl
+151    common  perfmonctl                      sys_ni_syscall
 152    common  sigaltstack                     sys_sigaltstack
 153    common  rt_sigaction                    sys_rt_sigaction
 154    common  rt_sigpending                   sys_rt_sigpending
index d259690..9b26578 100644 (file)
@@ -218,6 +218,7 @@ SECTIONS {
 
        STABS_DEBUG
        DWARF_DEBUG
+       ELF_DETAILS
 
        /* Default discards */
        DISCARDS
index 82118b3..081fcba 100644 (file)
@@ -12,7 +12,6 @@ lib-y := io.o __divsi3.o __udivsi3.o __modsi3.o __umodsi3.o           \
 
 lib-$(CONFIG_ITANIUM)  += copy_page.o copy_user.o memcpy.o
 lib-$(CONFIG_MCKINLEY) += copy_page_mck.o memcpy_mck.o
-lib-$(CONFIG_PERFMON)  += carta_random.o
 
 AFLAGS___divdi3.o      =
 AFLAGS___udivdi3.o     = -DUNSIGNED
diff --git a/arch/ia64/lib/carta_random.S b/arch/ia64/lib/carta_random.S
deleted file mode 100644 (file)
index 1a4a639..0000000
+++ /dev/null
@@ -1,55 +0,0 @@
-/* SPDX-License-Identifier: GPL-2.0 */
-/*
- * Fast, simple, yet decent quality random number generator based on
- * a paper by David G. Carta ("Two Fast Implementations of the
- * `Minimal Standard' Random Number Generator," Communications of the
- * ACM, January, 1990).
- *
- * Copyright (C) 2002 Hewlett-Packard Co
- *     David Mosberger-Tang <davidm@hpl.hp.com>
- */
-
-#include <asm/asmmacro.h>
-
-#define a      r2
-#define m      r3
-#define lo     r8
-#define hi     r9
-#define t0     r16
-#define t1     r17
-#define        seed    r32
-
-GLOBAL_ENTRY(carta_random32)
-       movl    a = (16807 << 16) | 16807
-       ;;
-       pmpyshr2.u t0 = a, seed, 0
-       pmpyshr2.u t1 = a, seed, 16
-       ;;
-       unpack2.l t0 = t1, t0
-       dep     m = -1, r0, 0, 31
-       ;;
-       zxt4    lo = t0
-       shr.u   hi = t0, 32
-       ;;
-       dep     t0 = 0, hi, 15, 49      // t0 = (hi & 0x7fff)
-       ;;
-       shl     t0 = t0, 16             // t0 = (hi & 0x7fff) << 16
-       shr     t1 = hi, 15             // t1 = (hi >> 15)
-       ;;
-       add     lo = lo, t0
-       ;;
-       cmp.gtu p6, p0 = lo, m
-       ;;
-(p6)   and     lo = lo, m
-       ;;
-(p6)   add     lo = 1, lo
-       ;;
-       add     lo = lo, t1
-       ;;
-       cmp.gtu p6, p0 = lo, m
-       ;;
-(p6)   and     lo = lo, m
-       ;;
-(p6)   add     lo = 1, lo
-       br.ret.sptk.many rp
-END(carta_random32)
index 6e82e0b..917e313 100644 (file)
@@ -96,18 +96,3 @@ unsigned long do_csum_c(const unsigned char * buff, int len, unsigned int psum)
 out:
        return result;
 }
-
-/*
- * XXX Fixme
- *
- * This is very ugly but temporary. THIS NEEDS SERIOUS ENHANCEMENTS.
- * But it's very tricky to get right even in C.
- */
-__wsum
-csum_partial_copy_nocheck(const void *src, void *dst, int len, __wsum sum)
-{
-       memcpy(dst, src, len);
-       return csum_partial(dst, len, sum);
-}
-
-EXPORT_SYMBOL(csum_partial_copy_nocheck);
index cd134d6..fc7944d 100644 (file)
@@ -8,4 +8,3 @@ DRIVER_OBJS := $(addprefix ../../../drivers/oprofile/, \
                timer_int.o )
 
 oprofile-y := $(DRIVER_OBJS) init.o backtrace.o
-oprofile-$(CONFIG_PERFMON) += perfmon.o
index 31b545c..a692ba1 100644 (file)
@@ -18,21 +18,11 @@ extern void ia64_backtrace(struct pt_regs * const regs, unsigned int depth);
 
 int __init oprofile_arch_init(struct oprofile_operations *ops)
 {
-       int ret = -ENODEV;
-
-#ifdef CONFIG_PERFMON
-       /* perfmon_init() can fail, but we have no way to report it */
-       ret = perfmon_init(ops);
-#endif
        ops->backtrace = ia64_backtrace;
-
-       return ret;
+       return -ENODEV;
 }
 
 
 void oprofile_arch_exit(void)
 {
-#ifdef CONFIG_PERFMON
-       perfmon_exit();
-#endif
 }
diff --git a/arch/ia64/oprofile/perfmon.c b/arch/ia64/oprofile/perfmon.c
deleted file mode 100644 (file)
index 192d3e8..0000000
+++ /dev/null
@@ -1,99 +0,0 @@
-/**
- * @file perfmon.c
- *
- * @remark Copyright 2003 OProfile authors
- * @remark Read the file COPYING
- *
- * @author John Levon <levon@movementarian.org>
- */
-
-#include <linux/kernel.h>
-#include <linux/oprofile.h>
-#include <linux/sched.h>
-#include <asm/perfmon.h>
-#include <asm/ptrace.h>
-#include <asm/errno.h>
-
-static int allow_ints;
-
-static int
-perfmon_handler(struct task_struct *task, void *buf, pfm_ovfl_arg_t *arg,
-                struct pt_regs *regs, unsigned long stamp)
-{
-       int event = arg->pmd_eventid;
-       arg->ovfl_ctrl.bits.reset_ovfl_pmds = 1;
-
-       /* the owner of the oprofile event buffer may have exited
-        * without perfmon being shutdown (e.g. SIGSEGV)
-        */
-       if (allow_ints)
-               oprofile_add_sample(regs, event);
-       return 0;
-}
-
-
-static int perfmon_start(void)
-{
-       allow_ints = 1;
-       return 0;
-}
-
-
-static void perfmon_stop(void)
-{
-       allow_ints = 0;
-}
-
-
-#define OPROFILE_FMT_UUID { \
-       0x77, 0x7a, 0x6e, 0x61, 0x20, 0x65, 0x73, 0x69, 0x74, 0x6e, 0x72, 0x20, 0x61, 0x65, 0x0a, 0x6c }
-
-static pfm_buffer_fmt_t oprofile_fmt = {
-       .fmt_name           = "oprofile_format",
-       .fmt_uuid           = OPROFILE_FMT_UUID,
-       .fmt_handler        = perfmon_handler,
-};
-
-
-static char *get_cpu_type(void)
-{
-       __u8 family = local_cpu_data->family;
-
-       switch (family) {
-               case 0x07:
-                       return "ia64/itanium";
-               case 0x1f:
-                       return "ia64/itanium2";
-               default:
-                       return "ia64/ia64";
-       }
-}
-
-
-/* all the ops are handled via userspace for IA64 perfmon */
-
-static int using_perfmon;
-
-int perfmon_init(struct oprofile_operations *ops)
-{
-       int ret = pfm_register_buffer_fmt(&oprofile_fmt);
-       if (ret)
-               return -ENODEV;
-
-       ops->cpu_type = get_cpu_type();
-       ops->start = perfmon_start;
-       ops->stop = perfmon_stop;
-       using_perfmon = 1;
-       printk(KERN_INFO "oprofile: using perfmon.\n");
-       return 0;
-}
-
-
-void perfmon_exit(void)
-{
-       if (!using_perfmon)
-               return;
-
-       pfm_unregister_buffer_fmt(oprofile_fmt.fmt_uuid);
-}
index 6f2f38d..93bbb74 100644 (file)
@@ -6,32 +6,32 @@ config M68K
        select ARCH_HAS_BINFMT_FLAT
        select ARCH_HAS_DMA_PREP_COHERENT if HAS_DMA && MMU && !COLDFIRE
        select ARCH_HAS_SYNC_DMA_FOR_DEVICE if HAS_DMA
+       select ARCH_HAVE_NMI_SAFE_CMPXCHG if RMW_INSNS
        select ARCH_MIGHT_HAVE_PC_PARPORT if ISA
        select ARCH_NO_PREEMPT if !COLDFIRE
+       select ARCH_WANT_IPC_PARSE_VERSION
        select BINFMT_FLAT_ARGVP_ENVP_ON_STACK
        select DMA_DIRECT_REMAP if HAS_DMA && MMU && !COLDFIRE
-       select HAVE_IDE
-       select HAVE_AOUT if MMU
-       select HAVE_ASM_MODVERSIONS
-       select HAVE_DEBUG_BUGVERBOSE
-       select GENERIC_IRQ_SHOW
        select GENERIC_ATOMIC64
-       select NO_DMA if !MMU && !COLDFIRE
-       select HAVE_UID16
-       select VIRT_TO_BUS
-       select ARCH_HAVE_NMI_SAFE_CMPXCHG if RMW_INSNS
        select GENERIC_CPU_DEVICES
        select GENERIC_IOMAP
+       select GENERIC_IRQ_SHOW
        select GENERIC_STRNCPY_FROM_USER if MMU
        select GENERIC_STRNLEN_USER if MMU
-       select ARCH_WANT_IPC_PARSE_VERSION
+       select HAVE_AOUT if MMU
+       select HAVE_ASM_MODVERSIONS
+       select HAVE_DEBUG_BUGVERBOSE
        select HAVE_FUTEX_CMPXCHG if MMU && FUTEX
+       select HAVE_IDE
        select HAVE_MOD_ARCH_SPECIFIC
+       select HAVE_UID16
+       select MMU_GATHER_NO_RANGE if MMU
        select MODULES_USE_ELF_REL
        select MODULES_USE_ELF_RELA
-       select OLD_SIGSUSPEND3
+       select NO_DMA if !MMU && !COLDFIRE
        select OLD_SIGACTION
-       select MMU_GATHER_NO_RANGE if MMU
+       select OLD_SIGSUSPEND3
+       select VIRT_TO_BUS
 
 config CPU_BIG_ENDIAN
        def_bool y
index 8f23b2f..bee9f24 100644 (file)
@@ -214,7 +214,7 @@ static void __init amiga_identify(void)
 
        switch (amiga_model) {
        case AMI_UNKNOWN:
-               goto Generic;
+               break;
 
        case AMI_600:
        case AMI_1200:
@@ -227,7 +227,7 @@ static void __init amiga_identify(void)
        case AMI_2000:
        case AMI_2500:
                AMIGAHW_SET(A2000_CLK); /* Is this correct for all models? */
-               goto Generic;
+               break;
 
        case AMI_3000:
        case AMI_3000T:
@@ -238,7 +238,7 @@ static void __init amiga_identify(void)
                AMIGAHW_SET(A3000_SCSI);
                AMIGAHW_SET(A3000_CLK);
                AMIGAHW_SET(ZORRO3);
-               goto Generic;
+               break;
 
        case AMI_4000T:
                AMIGAHW_SET(A4000_SCSI);
@@ -247,68 +247,12 @@ static void __init amiga_identify(void)
                AMIGAHW_SET(A4000_IDE);
                AMIGAHW_SET(A3000_CLK);
                AMIGAHW_SET(ZORRO3);
-               goto Generic;
+               break;
 
        case AMI_CDTV:
        case AMI_CD32:
                AMIGAHW_SET(CD_ROM);
                AMIGAHW_SET(A2000_CLK);             /* Is this correct? */
-               goto Generic;
-
-       Generic:
-               AMIGAHW_SET(AMI_VIDEO);
-               AMIGAHW_SET(AMI_BLITTER);
-               AMIGAHW_SET(AMI_AUDIO);
-               AMIGAHW_SET(AMI_FLOPPY);
-               AMIGAHW_SET(AMI_KEYBOARD);
-               AMIGAHW_SET(AMI_MOUSE);
-               AMIGAHW_SET(AMI_SERIAL);
-               AMIGAHW_SET(AMI_PARALLEL);
-               AMIGAHW_SET(CHIP_RAM);
-               AMIGAHW_SET(PAULA);
-
-               switch (amiga_chipset) {
-               case CS_OCS:
-               case CS_ECS:
-               case CS_AGA:
-                       switch (amiga_custom.deniseid & 0xf) {
-                       case 0x0c:
-                               AMIGAHW_SET(DENISE_HR);
-                               break;
-                       case 0x08:
-                               AMIGAHW_SET(LISA);
-                               break;
-                       }
-                       break;
-               default:
-                       AMIGAHW_SET(DENISE);
-                       break;
-               }
-               switch ((amiga_custom.vposr>>8) & 0x7f) {
-               case 0x00:
-                       AMIGAHW_SET(AGNUS_PAL);
-                       break;
-               case 0x10:
-                       AMIGAHW_SET(AGNUS_NTSC);
-                       break;
-               case 0x20:
-               case 0x21:
-                       AMIGAHW_SET(AGNUS_HR_PAL);
-                       break;
-               case 0x30:
-               case 0x31:
-                       AMIGAHW_SET(AGNUS_HR_NTSC);
-                       break;
-               case 0x22:
-               case 0x23:
-                       AMIGAHW_SET(ALICE_PAL);
-                       break;
-               case 0x32:
-               case 0x33:
-                       AMIGAHW_SET(ALICE_NTSC);
-                       break;
-               }
-               AMIGAHW_SET(ZORRO);
                break;
 
        case AMI_DRACO:
@@ -318,6 +262,60 @@ static void __init amiga_identify(void)
                panic("Unknown Amiga Model");
        }
 
+       AMIGAHW_SET(AMI_VIDEO);
+       AMIGAHW_SET(AMI_BLITTER);
+       AMIGAHW_SET(AMI_AUDIO);
+       AMIGAHW_SET(AMI_FLOPPY);
+       AMIGAHW_SET(AMI_KEYBOARD);
+       AMIGAHW_SET(AMI_MOUSE);
+       AMIGAHW_SET(AMI_SERIAL);
+       AMIGAHW_SET(AMI_PARALLEL);
+       AMIGAHW_SET(CHIP_RAM);
+       AMIGAHW_SET(PAULA);
+
+       switch (amiga_chipset) {
+       case CS_OCS:
+       case CS_ECS:
+       case CS_AGA:
+               switch (amiga_custom.deniseid & 0xf) {
+               case 0x0c:
+                       AMIGAHW_SET(DENISE_HR);
+                       break;
+               case 0x08:
+                       AMIGAHW_SET(LISA);
+                       break;
+               default:
+                       AMIGAHW_SET(DENISE);
+                       break;
+               }
+               break;
+       }
+       switch ((amiga_custom.vposr>>8) & 0x7f) {
+       case 0x00:
+               AMIGAHW_SET(AGNUS_PAL);
+               break;
+       case 0x10:
+               AMIGAHW_SET(AGNUS_NTSC);
+               break;
+       case 0x20:
+       case 0x21:
+               AMIGAHW_SET(AGNUS_HR_PAL);
+               break;
+       case 0x30:
+       case 0x31:
+               AMIGAHW_SET(AGNUS_HR_NTSC);
+               break;
+       case 0x22:
+       case 0x23:
+               AMIGAHW_SET(ALICE_PAL);
+               break;
+       case 0x32:
+       case 0x33:
+               AMIGAHW_SET(ALICE_NTSC);
+               break;
+       }
+       AMIGAHW_SET(ZORRO);
+
 #define AMIGAHW_ANNOUNCE(name, str)            \
        if (AMIGAHW_PRESENT(name))              \
                pr_cont(str)
index 522dcf6..3cd76bf 100644 (file)
@@ -317,6 +317,7 @@ CONFIG_DUMMY_IRQ=m
 CONFIG_IDE=y
 CONFIG_IDE_GD_ATAPI=y
 CONFIG_BLK_DEV_IDECD=y
+CONFIG_BLK_DEV_PLATFORM=y
 CONFIG_BLK_DEV_MAC_IDE=y
 CONFIG_RAID_ATTRS=m
 CONFIG_SCSI=y
index 2433409..c3d6faa 100644 (file)
@@ -346,6 +346,7 @@ CONFIG_DUMMY_IRQ=m
 CONFIG_IDE=y
 CONFIG_IDE_GD_ATAPI=y
 CONFIG_BLK_DEV_IDECD=y
+CONFIG_BLK_DEV_PLATFORM=y
 CONFIG_BLK_DEV_GAYLE=y
 CONFIG_BLK_DEV_BUDDHA=y
 CONFIG_BLK_DEV_FALCON_IDE=y
index 3f2c15d..692e7b6 100644 (file)
@@ -31,14 +31,13 @@ __wsum csum_partial(const void *buff, int len, __wsum sum);
  */
 
 #define _HAVE_ARCH_COPY_AND_CSUM_FROM_USER
+#define _HAVE_ARCH_CSUM_AND_COPY
 extern __wsum csum_and_copy_from_user(const void __user *src,
                                                void *dst,
-                                               int len, __wsum sum,
-                                               int *csum_err);
+                                               int len);
 
 extern __wsum csum_partial_copy_nocheck(const void *src,
-                                             void *dst, int len,
-                                             __wsum sum);
+                                             void *dst, int len);
 
 /*
  *     This is a version of ip_fast_csum() optimized for IP headers,
index 015f1ca..3689c67 100644 (file)
@@ -68,4 +68,12 @@ static inline struct thread_info *current_thread_info(void)
 #define TIF_MEMDIE             16      /* is terminating due to OOM killer */
 #define TIF_RESTORE_SIGMASK    18      /* restore signal mask in do_signal */
 
+#define _TIF_NOTIFY_RESUME     (1 << TIF_NOTIFY_RESUME)
+#define _TIF_SIGPENDING                (1 << TIF_SIGPENDING)
+#define _TIF_NEED_RESCHED      (1 << TIF_NEED_RESCHED)
+#define _TIF_DELAYED_TRACE     (1 << TIF_DELAYED_TRACE)
+#define _TIF_SYSCALL_TRACE     (1 << TIF_SYSCALL_TRACE)
+#define _TIF_MEMDIE            (1 << TIF_MEMDIE)
+#define _TIF_RESTORE_SIGMASK   (1 << TIF_RESTORE_SIGMASK)
+
 #endif /* _ASM_M68K_THREAD_INFO_H */
index 29de2b3..493c95d 100644 (file)
@@ -57,7 +57,7 @@
  * Of course, readability is a subjective issue, so it will never be
  * argued that that goal was accomplished.  It was merely a goal.
  * A key way to help make code more readable is to give good
- * documentation.  So, the first thing you will find is exaustive
+ * documentation.  So, the first thing you will find is exhaustive
  * write-ups on the structure of the file, and the features of the
  * functional subroutines.
  *
@@ -1304,7 +1304,7 @@ L(mmu_fixup_done):
  * mmu_engage
  *
  * This chunk of code performs the gruesome task of engaging the MMU.
- * The reason its gruesome is because when the MMU becomes engaged it
+ * The reason it's gruesome is because when the MMU becomes engaged it
  * maps logical addresses to physical addresses.  The Program Counter
  * register is then passed through the MMU before the next instruction
  * is fetched (the instruction following the engage MMU instruction).
@@ -1369,7 +1369,7 @@ L(mmu_fixup_done):
 /*
  * After this point no new memory is allocated and
  * the start of available memory is stored in availmem.
- * (The bootmem allocator requires now the physicall address.)
+ * (The bootmem allocator requires now the physical address.)
  */
 
        movel   L(memory_start),availmem
@@ -1547,7 +1547,7 @@ func_return       get_bi_record
  *     seven bits of the logical address (LA) are used as an
  *     index into the "root table."  Each entry in the root
  *     table has a bit which specifies if it's a valid pointer to a
- *     pointer table.  Each entry defines a 32KMeg range of memory.
+ *     pointer table.  Each entry defines a 32Meg range of memory.
  *     If an entry is invalid then that logical range of 32M is
  *     invalid and references to that range of memory (when the MMU
  *     is enabled) will fault.  If the entry is valid, then it does
@@ -1584,7 +1584,7 @@ func_return       get_bi_record
  *             bits 17..12 - index into the Page Table
  *             bits 11..0  - offset into a particular 4K page
  *
- *     The algorithms which follows do one thing: they abstract
+ *     The algorithms which follow do one thing: they abstract
  *     the MMU hardware.  For example, there are three kinds of
  *     cache settings that are relevant.  Either, memory is
  *     being mapped in which case it is either Kernel Code (or
@@ -2082,7 +2082,7 @@ func_return       mmu_map_tt
  *     mmu_map
  *
  *     This routine will map a range of memory using a pointer
- *     table and allocating the pages on the fly from the kernel.
+ *     table and allocate the pages on the fly from the kernel.
  *     The pointer table does not have to be already linked into
  *     the root table, this routine will do that if necessary.
  *
@@ -2528,7 +2528,7 @@ func_start        mmu_get_root_table_entry,%d0/%a1
 
        /* Find the start of free memory, get_bi_record does this for us,
         * as the bootinfo structure is located directly behind the kernel
-        * and and we simply search for the last entry.
+        * we simply search for the last entry.
         */
        get_bi_record   BI_LAST
        addw    #PAGESIZE-1,%a0
@@ -2654,7 +2654,7 @@ func_start        mmu_get_page_table_entry,%d0/%a1
        jne     2f
 
        /* If the page table entry doesn't exist, we allocate a complete new
-        * page and use it as one continues big page table which can cover
+        * page and use it as one continuous big page table which can cover
         * 4MB of memory, nearly almost all mappings have that alignment.
         */
        get_new_page
index 546e819..9e12614 100644 (file)
@@ -845,7 +845,6 @@ static void show_trace(unsigned long *stack, const char *loglvl)
 void show_registers(struct pt_regs *regs)
 {
        struct frame *fp = (struct frame *)regs;
-       mm_segment_t old_fs = get_fs();
        u16 c, *cp;
        unsigned long addr;
        int i;
@@ -918,10 +917,9 @@ void show_registers(struct pt_regs *regs)
        show_stack(NULL, (unsigned long *)addr, KERN_INFO);
 
        pr_info("Code:");
-       set_fs(KERNEL_DS);
        cp = (u16 *)regs->pc;
        for (i = -8; i < 16; i++) {
-               if (get_user(c, cp + i) && i >= 0) {
+               if (get_kernel_nofault(c, cp + i) && i >= 0) {
                        pr_cont(" Bad PC value.");
                        break;
                }
@@ -930,7 +928,6 @@ void show_registers(struct pt_regs *regs)
                else
                        pr_cont(" <%04x>", c);
        }
-       set_fs(old_fs);
        pr_cont("\n");
 }
 
index 31797be..7e6afea 100644 (file)
@@ -129,8 +129,7 @@ EXPORT_SYMBOL(csum_partial);
  */
 
 __wsum
-csum_and_copy_from_user(const void __user *src, void *dst,
-                           int len, __wsum sum, int *csum_err)
+csum_and_copy_from_user(const void __user *src, void *dst, int len)
 {
        /*
         * GCC doesn't like more than 10 operands for the asm
@@ -138,6 +137,7 @@ csum_and_copy_from_user(const void __user *src, void *dst,
         * code.
         */
        unsigned long tmp1, tmp2;
+       __wsum sum = ~0U;
 
        __asm__("movel %2,%4\n\t"
                "btst #1,%4\n\t"        /* Check alignment */
@@ -236,84 +236,33 @@ csum_and_copy_from_user(const void __user *src, void *dst,
                "clrl %5\n\t"
                "addxl %5,%0\n\t"       /* add X bit */
             "7:\t"
-               "clrl %5\n"             /* no error - clear return value */
-            "8:\n"
                ".section .fixup,\"ax\"\n"
                ".even\n"
-               /* If any exception occurs zero out the rest.
-                  Similarities with the code above are intentional :-) */
+               /* If any exception occurs, return 0 */
             "90:\t"
-               "clrw %3@+\n\t"
-               "movel %1,%4\n\t"
-               "lsrl #5,%1\n\t"
-               "jeq 1f\n\t"
-               "subql #1,%1\n"
-            "91:\t"
-               "clrl %3@+\n"
-            "92:\t"
-               "clrl %3@+\n"
-            "93:\t"
-               "clrl %3@+\n"
-            "94:\t"
-               "clrl %3@+\n"
-            "95:\t"
-               "clrl %3@+\n"
-            "96:\t"
-               "clrl %3@+\n"
-            "97:\t"
-               "clrl %3@+\n"
-            "98:\t"
-               "clrl %3@+\n\t"
-               "dbra %1,91b\n\t"
-               "clrw %1\n\t"
-               "subql #1,%1\n\t"
-               "jcc 91b\n"
-            "1:\t"
-               "movel %4,%1\n\t"
-               "andw #0x1c,%4\n\t"
-               "jeq 1f\n\t"
-               "lsrw #2,%4\n\t"
-               "subqw #1,%4\n"
-            "99:\t"
-               "clrl %3@+\n\t"
-               "dbra %4,99b\n\t"
-            "1:\t"
-               "andw #3,%1\n\t"
-               "jeq 9f\n"
-            "100:\t"
-               "clrw %3@+\n\t"
-               "tstw %1\n\t"
-               "jeq 9f\n"
-            "101:\t"
-               "clrb %3@+\n"
-            "9:\t"
-#define STR(X) STR1(X)
-#define STR1(X) #X
-               "moveq #-" STR(EFAULT) ",%5\n\t"
-               "jra 8b\n"
+               "clrl %0\n"
+               "jra 7b\n"
                ".previous\n"
                ".section __ex_table,\"a\"\n"
                ".long 10b,90b\n"
-               ".long 11b,91b\n"
-               ".long 12b,92b\n"
-               ".long 13b,93b\n"
-               ".long 14b,94b\n"
-               ".long 15b,95b\n"
-               ".long 16b,96b\n"
-               ".long 17b,97b\n"
-               ".long 18b,98b\n"
-               ".long 19b,99b\n"
-               ".long 20b,100b\n"
-               ".long 21b,101b\n"
+               ".long 11b,90b\n"
+               ".long 12b,90b\n"
+               ".long 13b,90b\n"
+               ".long 14b,90b\n"
+               ".long 15b,90b\n"
+               ".long 16b,90b\n"
+               ".long 17b,90b\n"
+               ".long 18b,90b\n"
+               ".long 19b,90b\n"
+               ".long 20b,90b\n"
+               ".long 21b,90b\n"
                ".previous"
                : "=d" (sum), "=d" (len), "=a" (src), "=a" (dst),
                  "=&d" (tmp1), "=d" (tmp2)
                : "0" (sum), "1" (len), "2" (src), "3" (dst)
            );
 
-       *csum_err = tmp2;
-
-       return(sum);
+       return sum;
 }
 
 EXPORT_SYMBOL(csum_and_copy_from_user);
@@ -324,9 +273,10 @@ EXPORT_SYMBOL(csum_and_copy_from_user);
  */
 
 __wsum
-csum_partial_copy_nocheck(const void *src, void *dst, int len, __wsum sum)
+csum_partial_copy_nocheck(const void *src, void *dst, int len)
 {
        unsigned long tmp1, tmp2;
+       __wsum sum = 0;
        __asm__("movel %2,%4\n\t"
                "btst #1,%4\n\t"        /* Check alignment */
                "jeq 2f\n\t"
index a621fcc..0ac53d8 100644 (file)
@@ -24,6 +24,7 @@
 #include <linux/init.h>
 #include <linux/vt_kern.h>
 #include <linux/platform_device.h>
+#include <linux/ata_platform.h>
 #include <linux/adb.h>
 #include <linux/cuda.h>
 #include <linux/pmu.h>
@@ -940,6 +941,26 @@ static const struct resource mac_scsi_ccl_rsrc[] __initconst = {
        },
 };
 
+static const struct resource mac_ide_quadra_rsrc[] __initconst = {
+       DEFINE_RES_MEM(0x50F1A000, 0x104),
+       DEFINE_RES_IRQ(IRQ_NUBUS_F),
+};
+
+static const struct resource mac_ide_pb_rsrc[] __initconst = {
+       DEFINE_RES_MEM(0x50F1A000, 0x104),
+       DEFINE_RES_IRQ(IRQ_NUBUS_C),
+};
+
+static const struct resource mac_pata_baboon_rsrc[] __initconst = {
+       DEFINE_RES_MEM(0x50F1A000, 0x38),
+       DEFINE_RES_MEM(0x50F1A038, 0x04),
+       DEFINE_RES_IRQ(IRQ_BABOON_1),
+};
+
+static const struct pata_platform_info mac_pata_baboon_data __initconst = {
+       .ioport_shift = 2,
+};
+
 int __init mac_platform_init(void)
 {
        phys_addr_t swim_base = 0;
@@ -1049,6 +1070,26 @@ int __init mac_platform_init(void)
        }
 
        /*
+        * IDE device
+        */
+
+       switch (macintosh_config->ide_type) {
+       case MAC_IDE_QUADRA:
+               platform_device_register_simple("mac_ide", -1,
+                       mac_ide_quadra_rsrc, ARRAY_SIZE(mac_ide_quadra_rsrc));
+               break;
+       case MAC_IDE_PB:
+               platform_device_register_simple("mac_ide", -1,
+                       mac_ide_pb_rsrc, ARRAY_SIZE(mac_ide_pb_rsrc));
+               break;
+       case MAC_IDE_BABOON:
+               platform_device_register_resndata(NULL, "pata_platform", -1,
+                       mac_pata_baboon_rsrc, ARRAY_SIZE(mac_pata_baboon_rsrc),
+                       &mac_pata_baboon_data, sizeof(mac_pata_baboon_data));
+               break;
+       }
+
+       /*
         * Ethernet device
         */
 
index 3887807..4de6229 100644 (file)
@@ -116,7 +116,7 @@ static void mac_init_asc( void )
                         *   support 16-bit stereo output, but only mono input."
                         *
                         *   Technical Information Library (TIL) article number 16405. 
-                        *   http://support.apple.com/kb/TA32601 
+                        *   https://support.apple.com/kb/TA32601
                         *
                         * --David Kilzer
                         */
index 2b9cb4a..eac9dde 100644 (file)
@@ -42,7 +42,7 @@ void __init paging_init(void)
        unsigned long max_zone_pfn[MAX_NR_ZONES] = { 0 };
        int i;
 
-       empty_zero_page = (void *) memblock_alloc(PAGE_SIZE, PAGE_SIZE);
+       empty_zero_page = memblock_alloc(PAGE_SIZE, PAGE_SIZE);
        if (!empty_zero_page)
                panic("%s: Failed to allocate %lu bytes align=0x%lx\n",
                      __func__, PAGE_SIZE, PAGE_SIZE);
index 2bb006b..3a653f0 100644 (file)
@@ -226,8 +226,8 @@ static pte_t * __init kernel_page_table(void)
 {
        pte_t *pte_table = last_pte_table;
 
-       if (((unsigned long)last_pte_table & ~PAGE_MASK) == 0) {
-               pte_table = (pte_t *)memblock_alloc_low(PAGE_SIZE, PAGE_SIZE);
+       if (PAGE_ALIGNED(last_pte_table)) {
+               pte_table = memblock_alloc_low(PAGE_SIZE, PAGE_SIZE);
                if (!pte_table) {
                        panic("%s: Failed to allocate %lu bytes align=%lx\n",
                                        __func__, PAGE_SIZE, PAGE_SIZE);
@@ -274,9 +274,8 @@ static pmd_t * __init kernel_ptr_table(void)
        }
 
        last_pmd_table += PTRS_PER_PMD;
-       if (((unsigned long)last_pmd_table & ~PAGE_MASK) == 0) {
-               last_pmd_table = (pmd_t *)memblock_alloc_low(PAGE_SIZE,
-                                                          PAGE_SIZE);
+       if (PAGE_ALIGNED(last_pmd_table)) {
+               last_pmd_table = memblock_alloc_low(PAGE_SIZE, PAGE_SIZE);
                if (!last_pmd_table)
                        panic("%s: Failed to allocate %lu bytes align=%lx\n",
                              __func__, PAGE_SIZE, PAGE_SIZE);
index 2e87a9b..63bce83 100644 (file)
@@ -1,7 +1,6 @@
 # SPDX-License-Identifier: GPL-2.0
 generated-y += syscall_table.h
 generic-y += extable.h
-generic-y += hw_irq.h
 generic-y += kvm_para.h
 generic-y += local64.h
 generic-y += mcs_spinlock.h
index 8f32829..cff1922 100644 (file)
@@ -86,6 +86,7 @@ config MIPS
        select MODULES_USE_ELF_REL if MODULES
        select MODULES_USE_ELF_RELA if MODULES && 64BIT
        select PERF_USE_VMALLOC
+       select PCI_MSI_ARCH_FALLBACKS if PCI_MSI
        select RTC_LIB
        select SYSCTL_EXCEPTION_TRACE
        select VIRT_TO_BUS
index 181f7d1..5f80c28 100644 (file)
  */
 __wsum csum_partial(const void *buff, int len, __wsum sum);
 
-__wsum __csum_partial_copy_kernel(const void *src, void *dst,
-                                 int len, __wsum sum, int *err_ptr);
-
-__wsum __csum_partial_copy_from_user(const void *src, void *dst,
-                                    int len, __wsum sum, int *err_ptr);
-__wsum __csum_partial_copy_to_user(const void *src, void *dst,
-                                  int len, __wsum sum, int *err_ptr);
-/*
- * this is a new version of the above that records errors it finds in *errp,
- * but continues and zeros the rest of the buffer.
- */
-static inline
-__wsum csum_partial_copy_from_user(const void __user *src, void *dst, int len,
-                                  __wsum sum, int *err_ptr)
-{
-       might_fault();
-       if (uaccess_kernel())
-               return __csum_partial_copy_kernel((__force void *)src, dst,
-                                                 len, sum, err_ptr);
-       else
-               return __csum_partial_copy_from_user((__force void *)src, dst,
-                                                    len, sum, err_ptr);
-}
+__wsum __csum_partial_copy_from_user(const void __user *src, void *dst, int len);
+__wsum __csum_partial_copy_to_user(const void *src, void __user *dst, int len);
 
 #define _HAVE_ARCH_COPY_AND_CSUM_FROM_USER
 static inline
-__wsum csum_and_copy_from_user(const void __user *src, void *dst,
-                              int len, __wsum sum, int *err_ptr)
+__wsum csum_and_copy_from_user(const void __user *src, void *dst, int len)
 {
-       if (access_ok(src, len))
-               return csum_partial_copy_from_user(src, dst, len, sum,
-                                                  err_ptr);
-       if (len)
-               *err_ptr = -EFAULT;
-
-       return sum;
+       might_fault();
+       if (!access_ok(src, len))
+               return 0;
+       return __csum_partial_copy_from_user(src, dst, len);
 }
 
 /*
@@ -77,33 +52,24 @@ __wsum csum_and_copy_from_user(const void __user *src, void *dst,
  */
 #define HAVE_CSUM_COPY_USER
 static inline
-__wsum csum_and_copy_to_user(const void *src, void __user *dst, int len,
-                            __wsum sum, int *err_ptr)
+__wsum csum_and_copy_to_user(const void *src, void __user *dst, int len)
 {
        might_fault();
-       if (access_ok(dst, len)) {
-               if (uaccess_kernel())
-                       return __csum_partial_copy_kernel(src,
-                                                         (__force void *)dst,
-                                                         len, sum, err_ptr);
-               else
-                       return __csum_partial_copy_to_user(src,
-                                                          (__force void *)dst,
-                                                          len, sum, err_ptr);
-       }
-       if (len)
-               *err_ptr = -EFAULT;
-
-       return (__force __wsum)-1; /* invalid checksum */
+       if (!access_ok(dst, len))
+               return 0;
+       return __csum_partial_copy_to_user(src, dst, len);
 }
 
 /*
  * the same as csum_partial, but copies from user space (but on MIPS
  * we have just one address space, so this is identical to the above)
  */
-__wsum csum_partial_copy_nocheck(const void *src, void *dst,
-                                      int len, __wsum sum);
-#define csum_partial_copy_nocheck csum_partial_copy_nocheck
+#define _HAVE_ARCH_CSUM_AND_COPY
+__wsum __csum_partial_copy_nocheck(const void *src, void *dst, int len);
+static inline __wsum csum_partial_copy_nocheck(const void *src, void *dst, int len)
+{
+       return __csum_partial_copy_nocheck(src, dst, len);
+}
 
 /*
  *     Fold a partial checksum without adding pseudo headers
index 255afcd..6597571 100644 (file)
@@ -26,8 +26,6 @@ typedef s32           compat_caddr_t;
 typedef struct {
        s32     val[2];
 } compat_fsid_t;
-typedef s64            compat_s64;
-typedef u64            compat_u64;
 
 struct compat_stat {
        compat_dev_t    st_dev;
index d043c2f..54dfba8 100644 (file)
@@ -477,6 +477,7 @@ void __kprobes arch_prepare_kretprobe(struct kretprobe_instance *ri,
                                      struct pt_regs *regs)
 {
        ri->ret_addr = (kprobe_opcode_t *) regs->regs[31];
+       ri->fp = NULL;
 
        /* Replace the return addr with trampoline addr */
        regs->regs[31] = (unsigned long)kretprobe_trampoline;
@@ -488,57 +489,8 @@ void __kprobes arch_prepare_kretprobe(struct kretprobe_instance *ri,
 static int __kprobes trampoline_probe_handler(struct kprobe *p,
                                                struct pt_regs *regs)
 {
-       struct kretprobe_instance *ri = NULL;
-       struct hlist_head *head, empty_rp;
-       struct hlist_node *tmp;
-       unsigned long flags, orig_ret_address = 0;
-       unsigned long trampoline_address = (unsigned long)kretprobe_trampoline;
-
-       INIT_HLIST_HEAD(&empty_rp);
-       kretprobe_hash_lock(current, &head, &flags);
-
-       /*
-        * It is possible to have multiple instances associated with a given
-        * task either because an multiple functions in the call path
-        * have a return probe installed on them, and/or more than one return
-        * return probe was registered for a target function.
-        *
-        * We can handle this because:
-        *     - instances are always inserted at the head of the list
-        *     - when multiple return probes are registered for the same
-        *       function, the first instance's ret_addr will point to the
-        *       real return address, and all the rest will point to
-        *       kretprobe_trampoline
-        */
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               if (ri->rp && ri->rp->handler)
-                       ri->rp->handler(ri, regs);
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-               recycle_rp_inst(ri, &empty_rp);
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       kretprobe_assert(ri, orig_ret_address, trampoline_address);
-       instruction_pointer(regs) = orig_ret_address;
-
-       kretprobe_hash_unlock(current, &flags);
-
-       hlist_for_each_entry_safe(ri, tmp, &empty_rp, hlist) {
-               hlist_del(&ri->hlist);
-               kfree(ri);
-       }
+       instruction_pointer(regs) = __kretprobe_trampoline_handler(regs,
+                                               kretprobe_trampoline, NULL);
        /*
         * By returning a non-zero value, we are telling
         * kprobe_handler() that we don't want the post_handler
index f9df9ed..cf72a02 100644 (file)
@@ -25,8 +25,8 @@
 15     n32     ioctl                           compat_sys_ioctl
 16     n32     pread64                         sys_pread64
 17     n32     pwrite64                        sys_pwrite64
-18     n32     readv                           compat_sys_readv
-19     n32     writev                          compat_sys_writev
+18     n32     readv                           sys_readv
+19     n32     writev                          sys_writev
 20     n32     access                          sys_access
 21     n32     pipe                            sysm_pipe
 22     n32     _newselect                      compat_sys_select
 157    n32     sync                            sys_sync
 158    n32     acct                            sys_acct
 159    n32     settimeofday                    compat_sys_settimeofday
-160    n32     mount                           compat_sys_mount
+160    n32     mount                           sys_mount
 161    n32     umount2                         sys_umount
 162    n32     swapon                          sys_swapon
 163    n32     swapoff                         sys_swapoff
 267    n32     splice                          sys_splice
 268    n32     sync_file_range                 sys_sync_file_range
 269    n32     tee                             sys_tee
-270    n32     vmsplice                        compat_sys_vmsplice
+270    n32     vmsplice                        sys_vmsplice
 271    n32     move_pages                      compat_sys_move_pages
 272    n32     set_robust_list                 compat_sys_set_robust_list
 273    n32     get_robust_list                 compat_sys_get_robust_list
 306    n32     syncfs                          sys_syncfs
 307    n32     sendmmsg                        compat_sys_sendmmsg
 308    n32     setns                           sys_setns
-309    n32     process_vm_readv                compat_sys_process_vm_readv
-310    n32     process_vm_writev               compat_sys_process_vm_writev
+309    n32     process_vm_readv                sys_process_vm_readv
+310    n32     process_vm_writev               sys_process_vm_writev
 311    n32     kcmp                            sys_kcmp
 312    n32     finit_module                    sys_finit_module
 313    n32     sched_setattr                   sys_sched_setattr
index 195b43c..a17aab5 100644 (file)
@@ -29,7 +29,7 @@
 18     o32     unused18                        sys_ni_syscall
 19     o32     lseek                           sys_lseek
 20     o32     getpid                          sys_getpid
-21     o32     mount                           sys_mount                       compat_sys_mount
+21     o32     mount                           sys_mount
 22     o32     umount                          sys_oldumount
 23     o32     setuid                          sys_setuid
 24     o32     getuid                          sys_getuid
 142    o32     _newselect                      sys_select                      compat_sys_select
 143    o32     flock                           sys_flock
 144    o32     msync                           sys_msync
-145    o32     readv                           sys_readv                       compat_sys_readv
-146    o32     writev                          sys_writev                      compat_sys_writev
+145    o32     readv                           sys_readv
+146    o32     writev                          sys_writev
 147    o32     cacheflush                      sys_cacheflush
 148    o32     cachectl                        sys_cachectl
 149    o32     sysmips                         __sys_sysmips
 304    o32     splice                          sys_splice
 305    o32     sync_file_range                 sys_sync_file_range             sys32_sync_file_range
 306    o32     tee                             sys_tee
-307    o32     vmsplice                        sys_vmsplice                    compat_sys_vmsplice
+307    o32     vmsplice                        sys_vmsplice
 308    o32     move_pages                      sys_move_pages                  compat_sys_move_pages
 309    o32     set_robust_list                 sys_set_robust_list             compat_sys_set_robust_list
 310    o32     get_robust_list                 sys_get_robust_list             compat_sys_get_robust_list
 342    o32     syncfs                          sys_syncfs
 343    o32     sendmmsg                        sys_sendmmsg                    compat_sys_sendmmsg
 344    o32     setns                           sys_setns
-345    o32     process_vm_readv                sys_process_vm_readv            compat_sys_process_vm_readv
-346    o32     process_vm_writev               sys_process_vm_writev           compat_sys_process_vm_writev
+345    o32     process_vm_readv                sys_process_vm_readv
+346    o32     process_vm_writev               sys_process_vm_writev
 347    o32     kcmp                            sys_kcmp
 348    o32     finit_module                    sys_finit_module
 349    o32     sched_setattr                   sys_sched_setattr
index f185a85..5e97e9d 100644 (file)
@@ -202,6 +202,7 @@ SECTIONS
 
        STABS_DEBUG
        DWARF_DEBUG
+       ELF_DETAILS
 
        /* These must appear regardless of  .  */
        .gptab.sdata : {
index 87fda07..a46db08 100644 (file)
@@ -308,8 +308,8 @@ EXPORT_SYMBOL(csum_partial)
 /*
  * checksum and copy routines based on memcpy.S
  *
- *     csum_partial_copy_nocheck(src, dst, len, sum)
- *     __csum_partial_copy_kernel(src, dst, len, sum, errp)
+ *     csum_partial_copy_nocheck(src, dst, len)
+ *     __csum_partial_copy_kernel(src, dst, len)
  *
  * See "Spec" in memcpy.S for details. Unlike __copy_user, all
  * function in this file use the standard calling convention.
@@ -318,26 +318,11 @@ EXPORT_SYMBOL(csum_partial)
 #define src a0
 #define dst a1
 #define len a2
-#define psum a3
 #define sum v0
 #define odd t8
-#define errptr t9
 
 /*
- * The exception handler for loads requires that:
- *  1- AT contain the address of the byte just past the end of the source
- *     of the copy,
- *  2- src_entry <= src < AT, and
- *  3- (dst - src) == (dst_entry - src_entry),
- * The _entry suffix denotes values when __copy_user was called.
- *
- * (1) is set up up by __csum_partial_copy_from_user and maintained by
- *     not writing AT in __csum_partial_copy
- * (2) is met by incrementing src by the number of bytes copied
- * (3) is met by not doing loads between a pair of increments of dst and src
- *
- * The exception handlers for stores stores -EFAULT to errptr and return.
- * These handlers do not need to overwrite any data.
+ * All exception handlers simply return 0.
  */
 
 /* Instruction type */
@@ -358,11 +343,11 @@ EXPORT_SYMBOL(csum_partial)
  * addr    : Address
  * handler : Exception handler
  */
-#define EXC(insn, type, reg, addr, handler)    \
+#define EXC(insn, type, reg, addr)             \
        .if \mode == LEGACY_MODE;               \
 9:             insn reg, addr;                 \
                .section __ex_table,"a";        \
-               PTR     9b, handler;            \
+               PTR     9b, .L_exc;             \
                .previous;                      \
        /* This is enabled in EVA mode */       \
        .else;                                  \
@@ -371,7 +356,7 @@ EXPORT_SYMBOL(csum_partial)
                    ((\to == USEROP) && (type == ST_INSN));     \
 9:                     __BUILD_EVA_INSN(insn##e, reg, addr);   \
                        .section __ex_table,"a";                \
-                       PTR     9b, handler;                    \
+                       PTR     9b, .L_exc;                     \
                        .previous;                              \
                .else;                                          \
                        /* EVA without exception */             \
@@ -384,14 +369,14 @@ EXPORT_SYMBOL(csum_partial)
 #ifdef USE_DOUBLE
 
 #define LOADK  ld /* No exception */
-#define LOAD(reg, addr, handler)       EXC(ld, LD_INSN, reg, addr, handler)
-#define LOADBU(reg, addr, handler)     EXC(lbu, LD_INSN, reg, addr, handler)
-#define LOADL(reg, addr, handler)      EXC(ldl, LD_INSN, reg, addr, handler)
-#define LOADR(reg, addr, handler)      EXC(ldr, LD_INSN, reg, addr, handler)
-#define STOREB(reg, addr, handler)     EXC(sb, ST_INSN, reg, addr, handler)
-#define STOREL(reg, addr, handler)     EXC(sdl, ST_INSN, reg, addr, handler)
-#define STORER(reg, addr, handler)     EXC(sdr, ST_INSN, reg, addr, handler)
-#define STORE(reg, addr, handler)      EXC(sd, ST_INSN, reg, addr, handler)
+#define LOAD(reg, addr)                EXC(ld, LD_INSN, reg, addr)
+#define LOADBU(reg, addr)      EXC(lbu, LD_INSN, reg, addr)
+#define LOADL(reg, addr)       EXC(ldl, LD_INSN, reg, addr)
+#define LOADR(reg, addr)       EXC(ldr, LD_INSN, reg, addr)
+#define STOREB(reg, addr)      EXC(sb, ST_INSN, reg, addr)
+#define STOREL(reg, addr)      EXC(sdl, ST_INSN, reg, addr)
+#define STORER(reg, addr)      EXC(sdr, ST_INSN, reg, addr)
+#define STORE(reg, addr)       EXC(sd, ST_INSN, reg, addr)
 #define ADD    daddu
 #define SUB    dsubu
 #define SRL    dsrl
@@ -404,14 +389,14 @@ EXPORT_SYMBOL(csum_partial)
 #else
 
 #define LOADK  lw /* No exception */
-#define LOAD(reg, addr, handler)       EXC(lw, LD_INSN, reg, addr, handler)
-#define LOADBU(reg, addr, handler)     EXC(lbu, LD_INSN, reg, addr, handler)
-#define LOADL(reg, addr, handler)      EXC(lwl, LD_INSN, reg, addr, handler)
-#define LOADR(reg, addr, handler)      EXC(lwr, LD_INSN, reg, addr, handler)
-#define STOREB(reg, addr, handler)     EXC(sb, ST_INSN, reg, addr, handler)
-#define STOREL(reg, addr, handler)     EXC(swl, ST_INSN, reg, addr, handler)
-#define STORER(reg, addr, handler)     EXC(swr, ST_INSN, reg, addr, handler)
-#define STORE(reg, addr, handler)      EXC(sw, ST_INSN, reg, addr, handler)
+#define LOAD(reg, addr)                EXC(lw, LD_INSN, reg, addr)
+#define LOADBU(reg, addr)      EXC(lbu, LD_INSN, reg, addr)
+#define LOADL(reg, addr)       EXC(lwl, LD_INSN, reg, addr)
+#define LOADR(reg, addr)       EXC(lwr, LD_INSN, reg, addr)
+#define STOREB(reg, addr)      EXC(sb, ST_INSN, reg, addr)
+#define STOREL(reg, addr)      EXC(swl, ST_INSN, reg, addr)
+#define STORER(reg, addr)      EXC(swr, ST_INSN, reg, addr)
+#define STORE(reg, addr)       EXC(sw, ST_INSN, reg, addr)
 #define ADD    addu
 #define SUB    subu
 #define SRL    srl
@@ -450,22 +435,9 @@ EXPORT_SYMBOL(csum_partial)
        .set    at=v1
 #endif
 
-       .macro __BUILD_CSUM_PARTIAL_COPY_USER mode, from, to, __nocheck
+       .macro __BUILD_CSUM_PARTIAL_COPY_USER mode, from, to
 
-       PTR_ADDU        AT, src, len    /* See (1) above. */
-       /* initialize __nocheck if this the first time we execute this
-        * macro
-        */
-#ifdef CONFIG_64BIT
-       move    errptr, a4
-#else
-       lw      errptr, 16(sp)
-#endif
-       .if \__nocheck == 1
-       FEXPORT(csum_partial_copy_nocheck)
-       EXPORT_SYMBOL(csum_partial_copy_nocheck)
-       .endif
-       move    sum, zero
+       li      sum, -1
        move    odd, zero
        /*
         * Note: dst & src may be unaligned, len may be 0
@@ -497,31 +469,31 @@ EXPORT_SYMBOL(csum_partial)
        SUB     len, 8*NBYTES           # subtract here for bgez loop
        .align  4
 1:
-       LOAD(t0, UNIT(0)(src), .Ll_exc\@)
-       LOAD(t1, UNIT(1)(src), .Ll_exc_copy\@)
-       LOAD(t2, UNIT(2)(src), .Ll_exc_copy\@)
-       LOAD(t3, UNIT(3)(src), .Ll_exc_copy\@)
-       LOAD(t4, UNIT(4)(src), .Ll_exc_copy\@)
-       LOAD(t5, UNIT(5)(src), .Ll_exc_copy\@)
-       LOAD(t6, UNIT(6)(src), .Ll_exc_copy\@)
-       LOAD(t7, UNIT(7)(src), .Ll_exc_copy\@)
+       LOAD(t0, UNIT(0)(src))
+       LOAD(t1, UNIT(1)(src))
+       LOAD(t2, UNIT(2)(src))
+       LOAD(t3, UNIT(3)(src))
+       LOAD(t4, UNIT(4)(src))
+       LOAD(t5, UNIT(5)(src))
+       LOAD(t6, UNIT(6)(src))
+       LOAD(t7, UNIT(7)(src))
        SUB     len, len, 8*NBYTES
        ADD     src, src, 8*NBYTES
-       STORE(t0, UNIT(0)(dst), .Ls_exc\@)
+       STORE(t0, UNIT(0)(dst))
        ADDC(t0, t1)
-       STORE(t1, UNIT(1)(dst), .Ls_exc\@)
+       STORE(t1, UNIT(1)(dst))
        ADDC(sum, t0)
-       STORE(t2, UNIT(2)(dst), .Ls_exc\@)
+       STORE(t2, UNIT(2)(dst))
        ADDC(t2, t3)
-       STORE(t3, UNIT(3)(dst), .Ls_exc\@)
+       STORE(t3, UNIT(3)(dst))
        ADDC(sum, t2)
-       STORE(t4, UNIT(4)(dst), .Ls_exc\@)
+       STORE(t4, UNIT(4)(dst))
        ADDC(t4, t5)
-       STORE(t5, UNIT(5)(dst), .Ls_exc\@)
+       STORE(t5, UNIT(5)(dst))
        ADDC(sum, t4)
-       STORE(t6, UNIT(6)(dst), .Ls_exc\@)
+       STORE(t6, UNIT(6)(dst))
        ADDC(t6, t7)
-       STORE(t7, UNIT(7)(dst), .Ls_exc\@)
+       STORE(t7, UNIT(7)(dst))
        ADDC(sum, t6)
        .set    reorder                         /* DADDI_WAR */
        ADD     dst, dst, 8*NBYTES
@@ -541,19 +513,19 @@ EXPORT_SYMBOL(csum_partial)
        /*
         * len >= 4*NBYTES
         */
-       LOAD(t0, UNIT(0)(src), .Ll_exc\@)
-       LOAD(t1, UNIT(1)(src), .Ll_exc_copy\@)
-       LOAD(t2, UNIT(2)(src), .Ll_exc_copy\@)
-       LOAD(t3, UNIT(3)(src), .Ll_exc_copy\@)
+       LOAD(t0, UNIT(0)(src))
+       LOAD(t1, UNIT(1)(src))
+       LOAD(t2, UNIT(2)(src))
+       LOAD(t3, UNIT(3)(src))
        SUB     len, len, 4*NBYTES
        ADD     src, src, 4*NBYTES
-       STORE(t0, UNIT(0)(dst), .Ls_exc\@)
+       STORE(t0, UNIT(0)(dst))
        ADDC(t0, t1)
-       STORE(t1, UNIT(1)(dst), .Ls_exc\@)
+       STORE(t1, UNIT(1)(dst))
        ADDC(sum, t0)
-       STORE(t2, UNIT(2)(dst), .Ls_exc\@)
+       STORE(t2, UNIT(2)(dst))
        ADDC(t2, t3)
-       STORE(t3, UNIT(3)(dst), .Ls_exc\@)
+       STORE(t3, UNIT(3)(dst))
        ADDC(sum, t2)
        .set    reorder                         /* DADDI_WAR */
        ADD     dst, dst, 4*NBYTES
@@ -566,10 +538,10 @@ EXPORT_SYMBOL(csum_partial)
        beq     rem, len, .Lcopy_bytes\@
         nop
 1:
-       LOAD(t0, 0(src), .Ll_exc\@)
+       LOAD(t0, 0(src))
        ADD     src, src, NBYTES
        SUB     len, len, NBYTES
-       STORE(t0, 0(dst), .Ls_exc\@)
+       STORE(t0, 0(dst))
        ADDC(sum, t0)
        .set    reorder                         /* DADDI_WAR */
        ADD     dst, dst, NBYTES
@@ -592,10 +564,10 @@ EXPORT_SYMBOL(csum_partial)
         ADD    t1, dst, len    # t1 is just past last byte of dst
        li      bits, 8*NBYTES
        SLL     rem, len, 3     # rem = number of bits to keep
-       LOAD(t0, 0(src), .Ll_exc\@)
+       LOAD(t0, 0(src))
        SUB     bits, bits, rem # bits = number of bits to discard
        SHIFT_DISCARD t0, t0, bits
-       STREST(t0, -1(t1), .Ls_exc\@)
+       STREST(t0, -1(t1))
        SHIFT_DISCARD_REVERT t0, t0, bits
        .set reorder
        ADDC(sum, t0)
@@ -612,12 +584,12 @@ EXPORT_SYMBOL(csum_partial)
         * Set match = (src and dst have same alignment)
         */
 #define match rem
-       LDFIRST(t3, FIRST(0)(src), .Ll_exc\@)
+       LDFIRST(t3, FIRST(0)(src))
        ADD     t2, zero, NBYTES
-       LDREST(t3, REST(0)(src), .Ll_exc_copy\@)
+       LDREST(t3, REST(0)(src))
        SUB     t2, t2, t1      # t2 = number of bytes copied
        xor     match, t0, t1
-       STFIRST(t3, FIRST(0)(dst), .Ls_exc\@)
+       STFIRST(t3, FIRST(0)(dst))
        SLL     t4, t1, 3               # t4 = number of bits to discard
        SHIFT_DISCARD t3, t3, t4
        /* no SHIFT_DISCARD_REVERT to handle odd buffer properly */
@@ -639,26 +611,26 @@ EXPORT_SYMBOL(csum_partial)
  * It's OK to load FIRST(N+1) before REST(N) because the two addresses
  * are to the same unit (unless src is aligned, but it's not).
  */
-       LDFIRST(t0, FIRST(0)(src), .Ll_exc\@)
-       LDFIRST(t1, FIRST(1)(src), .Ll_exc_copy\@)
+       LDFIRST(t0, FIRST(0)(src))
+       LDFIRST(t1, FIRST(1)(src))
        SUB     len, len, 4*NBYTES
-       LDREST(t0, REST(0)(src), .Ll_exc_copy\@)
-       LDREST(t1, REST(1)(src), .Ll_exc_copy\@)
-       LDFIRST(t2, FIRST(2)(src), .Ll_exc_copy\@)
-       LDFIRST(t3, FIRST(3)(src), .Ll_exc_copy\@)
-       LDREST(t2, REST(2)(src), .Ll_exc_copy\@)
-       LDREST(t3, REST(3)(src), .Ll_exc_copy\@)
+       LDREST(t0, REST(0)(src))
+       LDREST(t1, REST(1)(src))
+       LDFIRST(t2, FIRST(2)(src))
+       LDFIRST(t3, FIRST(3)(src))
+       LDREST(t2, REST(2)(src))
+       LDREST(t3, REST(3)(src))
        ADD     src, src, 4*NBYTES
 #ifdef CONFIG_CPU_SB1
        nop                             # improves slotting
 #endif
-       STORE(t0, UNIT(0)(dst), .Ls_exc\@)
+       STORE(t0, UNIT(0)(dst))
        ADDC(t0, t1)
-       STORE(t1, UNIT(1)(dst), .Ls_exc\@)
+       STORE(t1, UNIT(1)(dst))
        ADDC(sum, t0)
-       STORE(t2, UNIT(2)(dst), .Ls_exc\@)
+       STORE(t2, UNIT(2)(dst))
        ADDC(t2, t3)
-       STORE(t3, UNIT(3)(dst), .Ls_exc\@)
+       STORE(t3, UNIT(3)(dst))
        ADDC(sum, t2)
        .set    reorder                         /* DADDI_WAR */
        ADD     dst, dst, 4*NBYTES
@@ -671,11 +643,11 @@ EXPORT_SYMBOL(csum_partial)
        beq     rem, len, .Lcopy_bytes\@
         nop
 1:
-       LDFIRST(t0, FIRST(0)(src), .Ll_exc\@)
-       LDREST(t0, REST(0)(src), .Ll_exc_copy\@)
+       LDFIRST(t0, FIRST(0)(src))
+       LDREST(t0, REST(0)(src))
        ADD     src, src, NBYTES
        SUB     len, len, NBYTES
-       STORE(t0, 0(dst), .Ls_exc\@)
+       STORE(t0, 0(dst))
        ADDC(sum, t0)
        .set    reorder                         /* DADDI_WAR */
        ADD     dst, dst, NBYTES
@@ -696,11 +668,10 @@ EXPORT_SYMBOL(csum_partial)
 #endif
        move    t2, zero        # partial word
        li      t3, SHIFT_START # shift
-/* use .Ll_exc_copy here to return correct sum on fault */
 #define COPY_BYTE(N)                   \
-       LOADBU(t0, N(src), .Ll_exc_copy\@);     \
+       LOADBU(t0, N(src));             \
        SUB     len, len, 1;            \
-       STOREB(t0, N(dst), .Ls_exc\@);  \
+       STOREB(t0, N(dst));             \
        SLLV    t0, t0, t3;             \
        addu    t3, SHIFT_INC;          \
        beqz    len, .Lcopy_bytes_done\@; \
@@ -714,9 +685,9 @@ EXPORT_SYMBOL(csum_partial)
        COPY_BYTE(4)
        COPY_BYTE(5)
 #endif
-       LOADBU(t0, NBYTES-2(src), .Ll_exc_copy\@)
+       LOADBU(t0, NBYTES-2(src))
        SUB     len, len, 1
-       STOREB(t0, NBYTES-2(dst), .Ls_exc\@)
+       STOREB(t0, NBYTES-2(dst))
        SLLV    t0, t0, t3
        or      t2, t0
 .Lcopy_bytes_done\@:
@@ -753,97 +724,31 @@ EXPORT_SYMBOL(csum_partial)
 #endif
        .set    pop
        .set reorder
-       ADDC32(sum, psum)
        jr      ra
        .set noreorder
+       .endm
 
-.Ll_exc_copy\@:
-       /*
-        * Copy bytes from src until faulting load address (or until a
-        * lb faults)
-        *
-        * When reached by a faulting LDFIRST/LDREST, THREAD_BUADDR($28)
-        * may be more than a byte beyond the last address.
-        * Hence, the lb below may get an exception.
-        *
-        * Assumes src < THREAD_BUADDR($28)
-        */
-       LOADK   t0, TI_TASK($28)
-        li     t2, SHIFT_START
-       LOADK   t0, THREAD_BUADDR(t0)
-1:
-       LOADBU(t1, 0(src), .Ll_exc\@)
-       ADD     src, src, 1
-       sb      t1, 0(dst)      # can't fault -- we're copy_from_user
-       SLLV    t1, t1, t2
-       addu    t2, SHIFT_INC
-       ADDC(sum, t1)
-       .set    reorder                         /* DADDI_WAR */
-       ADD     dst, dst, 1
-       bne     src, t0, 1b
-       .set    noreorder
-.Ll_exc\@:
-       LOADK   t0, TI_TASK($28)
-        nop
-       LOADK   t0, THREAD_BUADDR(t0)   # t0 is just past last good address
-        nop
-       SUB     len, AT, t0             # len number of uncopied bytes
-       /*
-        * Here's where we rely on src and dst being incremented in tandem,
-        *   See (3) above.
-        * dst += (fault addr - src) to put dst at first byte to clear
-        */
-       ADD     dst, t0                 # compute start address in a1
-       SUB     dst, src
-       /*
-        * Clear len bytes starting at dst.  Can't call __bzero because it
-        * might modify len.  An inefficient loop for these rare times...
-        */
-       .set    reorder                         /* DADDI_WAR */
-       SUB     src, len, 1
-       beqz    len, .Ldone\@
-       .set    noreorder
-1:     sb      zero, 0(dst)
-       ADD     dst, dst, 1
-       .set    push
-       .set    noat
-#ifndef CONFIG_CPU_DADDI_WORKAROUNDS
-       bnez    src, 1b
-        SUB    src, src, 1
-#else
-       li      v1, 1
-       bnez    src, 1b
-        SUB    src, src, v1
-#endif
-       li      v1, -EFAULT
-       b       .Ldone\@
-        sw     v1, (errptr)
-
-.Ls_exc\@:
-       li      v0, -1 /* invalid checksum */
-       li      v1, -EFAULT
+       .set noreorder
+.L_exc:
        jr      ra
-        sw     v1, (errptr)
-       .set    pop
-       .endm
+        li     v0, 0
 
-LEAF(__csum_partial_copy_kernel)
-EXPORT_SYMBOL(__csum_partial_copy_kernel)
+FEXPORT(__csum_partial_copy_nocheck)
+EXPORT_SYMBOL(__csum_partial_copy_nocheck)
 #ifndef CONFIG_EVA
 FEXPORT(__csum_partial_copy_to_user)
 EXPORT_SYMBOL(__csum_partial_copy_to_user)
 FEXPORT(__csum_partial_copy_from_user)
 EXPORT_SYMBOL(__csum_partial_copy_from_user)
 #endif
-__BUILD_CSUM_PARTIAL_COPY_USER LEGACY_MODE USEROP USEROP 1
-END(__csum_partial_copy_kernel)
+__BUILD_CSUM_PARTIAL_COPY_USER LEGACY_MODE USEROP USEROP
 
 #ifdef CONFIG_EVA
 LEAF(__csum_partial_copy_to_user)
-__BUILD_CSUM_PARTIAL_COPY_USER EVA_MODE KERNELOP USEROP 0
+__BUILD_CSUM_PARTIAL_COPY_USER EVA_MODE KERNELOP USEROP
 END(__csum_partial_copy_to_user)
 
 LEAF(__csum_partial_copy_from_user)
-__BUILD_CSUM_PARTIAL_COPY_USER EVA_MODE USEROP KERNELOP 0
+__BUILD_CSUM_PARTIAL_COPY_USER EVA_MODE USEROP KERNELOP
 END(__csum_partial_copy_from_user)
 #endif
index 7a6c1ce..6a91b96 100644 (file)
@@ -64,6 +64,7 @@ SECTIONS
 
        STABS_DEBUG
        DWARF_DEBUG
+       ELF_DETAILS
 
        DISCARDS
 }
index b4316c3..69004e0 100644 (file)
 
 /* Take these from lib/checksum.c */
 extern __wsum csum_partial(const void *buff, int len, __wsum sum);
-__wsum csum_partial_copy_nocheck(const void *src, void *dst, int len,
-                               __wsum sum);
-#define csum_partial_copy_nocheck csum_partial_copy_nocheck
-
 extern __sum16 ip_fast_csum(const void *iph, unsigned int ihl);
 extern __sum16 ip_compute_csum(const void *buff, int len);
 
index c55a7cf..126e114 100644 (file)
@@ -58,6 +58,7 @@ SECTIONS
 
        STABS_DEBUG
        DWARF_DEBUG
+       ELF_DETAILS
 
        DISCARDS
 }
index 22fbc5f..d5c7bb0 100644 (file)
@@ -103,6 +103,7 @@ SECTIONS
        /* Throw in the debugging sections */
        STABS_DEBUG
        DWARF_DEBUG
+       ELF_DETAILS
 
         /* Sections to be discarded -- must be last */
        DISCARDS
index 2ac3a64..ab7b439 100644 (file)
@@ -84,6 +84,7 @@ SECTIONS
        }
 
        STABS_DEBUG
+       ELF_DETAILS
        .note 0 : { *(.note) }
 
        /* Sections to be discarded */
index fe8c63b..3c43bac 100644 (file)
 extern __wsum csum_partial(const void *, int, __wsum);
 
 /*
- * The same as csum_partial, but copies from src while it checksums.
- *
- * Here even more important to align src and dst on a 32-bit (or even
- * better 64-bit) boundary
- */
-extern __wsum csum_partial_copy_nocheck(const void *, void *, int, __wsum);
-
-/*
  *     Optimized for IP headers, which always checksum on 4 octet boundaries.
  *
  *     Written by Randolph Chung <tausq@debian.org>, and then mucked with by
@@ -181,25 +173,5 @@ static __inline__ __sum16 csum_ipv6_magic(const struct in6_addr *saddr,
        return csum_fold(sum);
 }
 
-/* 
- *     Copy and checksum to user
- */
-#define HAVE_CSUM_COPY_USER
-static __inline__ __wsum csum_and_copy_to_user(const void *src,
-                                                     void __user *dst,
-                                                     int len, __wsum sum,
-                                                     int *err_ptr)
-{
-       /* code stolen from include/asm-mips64 */
-       sum = csum_partial(src, len, sum);
-        
-       if (copy_to_user(dst, src, len)) {
-               *err_ptr = -EFAULT;
-               return (__force __wsum)-1;
-       }
-
-       return sum;
-}
-
 #endif
 
index 2f4f66a..8f33085 100644 (file)
@@ -22,8 +22,6 @@ typedef u32   compat_dev_t;
 typedef u16    compat_nlink_t;
 typedef u16    compat_ipc_pid_t;
 typedef u32    compat_caddr_t;
-typedef s64    compat_s64;
-typedef u64    compat_u64;
 
 struct compat_stat {
        compat_dev_t            st_dev; /* dev_t is 32 bits on parisc */
index 77ec518..6d21a51 100644 (file)
@@ -191,80 +191,11 @@ static struct kprobe trampoline_p = {
 static int __kprobes trampoline_probe_handler(struct kprobe *p,
                                              struct pt_regs *regs)
 {
-       struct kretprobe_instance *ri = NULL;
-       struct hlist_head *head, empty_rp;
-       struct hlist_node *tmp;
-       unsigned long flags, orig_ret_address = 0;
-       unsigned long trampoline_address = (unsigned long)trampoline_p.addr;
-       kprobe_opcode_t *correct_ret_addr = NULL;
-
-       INIT_HLIST_HEAD(&empty_rp);
-       kretprobe_hash_lock(current, &head, &flags);
-
-       /*
-        * It is possible to have multiple instances associated with a given
-        * task either because multiple functions in the call path have
-        * a return probe installed on them, and/or more than one return
-        * probe was registered for a target function.
-        *
-        * We can handle this because:
-        *     - instances are always inserted at the head of the list
-        *     - when multiple return probes are registered for the same
-        *       function, the first instance's ret_addr will point to the
-        *       real return address, and all the rest will point to
-        *       kretprobe_trampoline
-        */
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       kretprobe_assert(ri, orig_ret_address, trampoline_address);
-
-       correct_ret_addr = ri->ret_addr;
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-               if (ri->rp && ri->rp->handler) {
-                       __this_cpu_write(current_kprobe, &ri->rp->kp);
-                       get_kprobe_ctlblk()->kprobe_status = KPROBE_HIT_ACTIVE;
-                       ri->ret_addr = correct_ret_addr;
-                       ri->rp->handler(ri, regs);
-                       __this_cpu_write(current_kprobe, NULL);
-               }
-
-               recycle_rp_inst(ri, &empty_rp);
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
+       unsigned long orig_ret_address;
 
-       kretprobe_hash_unlock(current, &flags);
-
-       hlist_for_each_entry_safe(ri, tmp, &empty_rp, hlist) {
-               hlist_del(&ri->hlist);
-               kfree(ri);
-       }
+       orig_ret_address = __kretprobe_trampoline_handler(regs, trampoline_p.addr, NULL);
        instruction_pointer_set(regs, orig_ret_address);
+
        return 1;
 }
 
@@ -272,6 +203,7 @@ void __kprobes arch_prepare_kretprobe(struct kretprobe_instance *ri,
                                      struct pt_regs *regs)
 {
        ri->ret_addr = (kprobe_opcode_t *)regs->gr[2];
+       ri->fp = NULL;
 
        /* Replace the return addr with trampoline addr. */
        regs->gr[2] = (unsigned long)trampoline_p.addr;
index def64d2..ae3dab3 100644 (file)
@@ -29,7 +29,7 @@
 18     common  stat                    sys_newstat                     compat_sys_newstat
 19     common  lseek                   sys_lseek                       compat_sys_lseek
 20     common  getpid                  sys_getpid
-21     common  mount                   sys_mount                       compat_sys_mount
+21     common  mount                   sys_mount
 22     common  bind                    sys_bind
 23     common  setuid                  sys_setuid
 24     common  getuid                  sys_getuid
 142    common  _newselect              sys_select                      compat_sys_select
 143    common  flock                   sys_flock
 144    common  msync                   sys_msync
-145    common  readv                   sys_readv                       compat_sys_readv
-146    common  writev                  sys_writev                      compat_sys_writev
+145    common  readv                   sys_readv
+146    common  writev                  sys_writev
 147    common  getsid                  sys_getsid
 148    common  fdatasync               sys_fdatasync
 149    common  _sysctl                 sys_ni_syscall
 292    32      sync_file_range         parisc_sync_file_range
 292    64      sync_file_range         sys_sync_file_range
 293    common  tee                     sys_tee
-294    common  vmsplice                sys_vmsplice                    compat_sys_vmsplice
+294    common  vmsplice                sys_vmsplice
 295    common  move_pages              sys_move_pages                  compat_sys_move_pages
 296    common  getcpu                  sys_getcpu
 297    common  epoll_pwait             sys_epoll_pwait                 compat_sys_epoll_pwait
 327    common  syncfs                  sys_syncfs
 328    common  setns                   sys_setns
 329    common  sendmmsg                sys_sendmmsg                    compat_sys_sendmmsg
-330    common  process_vm_readv        sys_process_vm_readv            compat_sys_process_vm_readv
-331    common  process_vm_writev       sys_process_vm_writev           compat_sys_process_vm_writev
+330    common  process_vm_readv        sys_process_vm_readv
+331    common  process_vm_writev       sys_process_vm_writev
 332    common  kcmp                    sys_kcmp
 333    common  finit_module            sys_finit_module
 334    common  sched_setattr           sys_sched_setattr
index 53e29d8..2769eb9 100644 (file)
@@ -164,6 +164,7 @@ SECTIONS
        _end = . ;
 
        STABS_DEBUG
+       ELF_DETAILS
        .note 0 : { *(.note) }
 
        /* Sections to be discarded */
index c6f1615..4818f3d 100644 (file)
@@ -106,20 +106,3 @@ __wsum csum_partial(const void *buff, int len, __wsum sum)
 }
 
 EXPORT_SYMBOL(csum_partial);
-
-/*
- * copy while checksumming, otherwise like csum_partial
- */
-__wsum csum_partial_copy_nocheck(const void *src, void *dst,
-                                      int len, __wsum sum)
-{
-       /*
-        * It's 2:30 am and I don't feel like doing it real ...
-        * This is lots slower than the real thing (tm)
-        */
-       sum = csum_partial(src, len, sum);
-       memcpy(dst, src, len);
-
-       return sum;
-}
-EXPORT_SYMBOL(csum_partial_copy_nocheck);
index 787e829..5920361 100644 (file)
@@ -135,7 +135,7 @@ config PPC
        select ARCH_HAS_STRICT_KERNEL_RWX       if (PPC32 && !HIBERNATION)
        select ARCH_HAS_TICK_BROADCAST          if GENERIC_CLOCKEVENTS_BROADCAST
        select ARCH_HAS_UACCESS_FLUSHCACHE
-       select ARCH_HAS_UACCESS_MCSAFE          if PPC64
+       select ARCH_HAS_COPY_MC                 if PPC64
        select ARCH_HAS_UBSAN_SANITIZE_ALL
        select ARCH_HAVE_NMI_SAFE_CMPXCHG
        select ARCH_KEEP_MEMBLOCK
@@ -245,6 +245,7 @@ config PPC
        select OLD_SIGACTION                    if PPC32
        select OLD_SIGSUSPEND
        select PCI_DOMAINS                      if PCI
+       select PCI_MSI_ARCH_FALLBACKS           if PCI_MSI
        select PCI_SYSCALL                      if PCI
        select PPC_DAWR                         if PPC64
        select RTC_LIB
index dce86e7..c1c1ef9 100644 (file)
@@ -9,6 +9,7 @@
 #include <crypto/internal/hash.h>
 #include <linux/init.h>
 #include <linux/module.h>
+#include <linux/random.h>
 #include <linux/string.h>
 #include <linux/kernel.h>
 #include <linux/cpufeature.h>
@@ -22,10 +23,11 @@ static unsigned long iterations = 10000;
 static int __init crc_test_init(void)
 {
        u16 crc16 = 0, verify16 = 0;
-       u32 crc32 = 0, verify32 = 0;
        __le32 verify32le = 0;
        unsigned char *data;
+       u32 verify32 = 0;
        unsigned long i;
+       __le32 crc32;
        int ret;
 
        struct crypto_shash *crct10dif_tfm;
@@ -98,7 +100,7 @@ static int __init crc_test_init(void)
                        crypto_shash_final(crc32c_shash, (u8 *)(&crc32));
                        verify32 = le32_to_cpu(verify32le);
                        verify32le = ~cpu_to_le32(__crc32c_le(~verify32, data+offset, len));
-                       if (crc32 != (u32)verify32le) {
+                       if (crc32 != verify32le) {
                                pr_err("FAILURE in CRC32: got 0x%08x expected 0x%08x (len %lu)\n",
                                       crc32, verify32, len);
                                break;
index 9cce061..82f099b 100644 (file)
  * Like csum_partial, this must be called with even lengths,
  * except for the last fragment.
  */
-extern __wsum csum_partial_copy_generic(const void *src, void *dst,
-                                             int len, __wsum sum,
-                                             int *src_err, int *dst_err);
+extern __wsum csum_partial_copy_generic(const void *src, void *dst, int len);
 
 #define _HAVE_ARCH_COPY_AND_CSUM_FROM_USER
 extern __wsum csum_and_copy_from_user(const void __user *src, void *dst,
-                                     int len, __wsum sum, int *err_ptr);
+                                     int len);
 #define HAVE_CSUM_COPY_USER
 extern __wsum csum_and_copy_to_user(const void *src, void __user *dst,
-                                   int len, __wsum sum, int *err_ptr);
+                                   int len);
 
-#define csum_partial_copy_nocheck(src, dst, len, sum)   \
-        csum_partial_copy_generic((src), (dst), (len), (sum), NULL, NULL)
+#define _HAVE_ARCH_CSUM_AND_COPY
+#define csum_partial_copy_nocheck(src, dst, len)   \
+        csum_partial_copy_generic((src), (dst), (len))
 
 
 /*
index 3e3cdfa..9191fc2 100644 (file)
@@ -27,8 +27,6 @@ typedef s16           compat_nlink_t;
 typedef u16            compat_ipc_pid_t;
 typedef u32            compat_caddr_t;
 typedef __kernel_fsid_t        compat_fsid_t;
-typedef s64            compat_s64;
-typedef u64            compat_u64;
 
 struct compat_stat {
        compat_dev_t    st_dev;
index 283552c..2aa0e31 100644 (file)
@@ -53,9 +53,7 @@ void *__memmove(void *to, const void *from, __kernel_size_t n);
 #ifndef CONFIG_KASAN
 #define __HAVE_ARCH_MEMSET32
 #define __HAVE_ARCH_MEMSET64
-#define __HAVE_ARCH_MEMCPY_MCSAFE
 
-extern int memcpy_mcsafe(void *dst, const void *src, __kernel_size_t sz);
 extern void *__memset16(uint16_t *, uint16_t v, __kernel_size_t);
 extern void *__memset32(uint32_t *, uint32_t v, __kernel_size_t);
 extern void *__memset64(uint64_t *, uint64_t v, __kernel_size_t);
index 0069990..20a3537 100644 (file)
@@ -435,6 +435,32 @@ do {                                                               \
 extern unsigned long __copy_tofrom_user(void __user *to,
                const void __user *from, unsigned long size);
 
+#ifdef CONFIG_ARCH_HAS_COPY_MC
+unsigned long __must_check
+copy_mc_generic(void *to, const void *from, unsigned long size);
+
+static inline unsigned long __must_check
+copy_mc_to_kernel(void *to, const void *from, unsigned long size)
+{
+       return copy_mc_generic(to, from, size);
+}
+#define copy_mc_to_kernel copy_mc_to_kernel
+
+static inline unsigned long __must_check
+copy_mc_to_user(void __user *to, const void *from, unsigned long n)
+{
+       if (likely(check_copy_size(from, n, true))) {
+               if (access_ok(to, n)) {
+                       allow_write_to_user(to, n);
+                       n = copy_mc_generic((void *)to, from, n);
+                       prevent_write_to_user(to, n);
+               }
+       }
+
+       return n;
+}
+#endif
+
 #ifdef __powerpc64__
 static inline unsigned long
 raw_copy_in_user(void __user *to, const void __user *from, unsigned long n)
@@ -523,20 +549,6 @@ raw_copy_to_user(void __user *to, const void *from, unsigned long n)
        return ret;
 }
 
-static __always_inline unsigned long __must_check
-copy_to_user_mcsafe(void __user *to, const void *from, unsigned long n)
-{
-       if (likely(check_copy_size(from, n, true))) {
-               if (access_ok(to, n)) {
-                       allow_write_to_user(to, n);
-                       n = memcpy_mcsafe((void *)to, from, n);
-                       prevent_write_to_user(to, n);
-               }
-       }
-
-       return n;
-}
-
 unsigned long __arch_clear_user(void __user *addr, unsigned long size);
 
 static inline unsigned long clear_user(void __user *addr, unsigned long size)
index 6ab9b4d..01ab216 100644 (file)
@@ -218,6 +218,7 @@ bool arch_kprobe_on_func_entry(unsigned long offset)
 void arch_prepare_kretprobe(struct kretprobe_instance *ri, struct pt_regs *regs)
 {
        ri->ret_addr = (kprobe_opcode_t *)regs->link;
+       ri->fp = NULL;
 
        /* Replace the return addr with trampoline addr */
        regs->link = (unsigned long)kretprobe_trampoline;
@@ -396,50 +397,9 @@ asm(".global kretprobe_trampoline\n"
  */
 static int trampoline_probe_handler(struct kprobe *p, struct pt_regs *regs)
 {
-       struct kretprobe_instance *ri = NULL;
-       struct hlist_head *head, empty_rp;
-       struct hlist_node *tmp;
-       unsigned long flags, orig_ret_address = 0;
-       unsigned long trampoline_address =(unsigned long)&kretprobe_trampoline;
-
-       INIT_HLIST_HEAD(&empty_rp);
-       kretprobe_hash_lock(current, &head, &flags);
-
-       /*
-        * It is possible to have multiple instances associated with a given
-        * task either because an multiple functions in the call path
-        * have a return probe installed on them, and/or more than one return
-        * return probe was registered for a target function.
-        *
-        * We can handle this because:
-        *     - instances are always inserted at the head of the list
-        *     - when multiple return probes are registered for the same
-        *       function, the first instance's ret_addr will point to the
-        *       real return address, and all the rest will point to
-        *       kretprobe_trampoline
-        */
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               if (ri->rp && ri->rp->handler)
-                       ri->rp->handler(ri, regs);
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-               recycle_rp_inst(ri, &empty_rp);
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       kretprobe_assert(ri, orig_ret_address, trampoline_address);
+       unsigned long orig_ret_address;
 
+       orig_ret_address = __kretprobe_trampoline_handler(regs, &kretprobe_trampoline, NULL);
        /*
         * We get here through one of two paths:
         * 1. by taking a trap -> kprobe_handler() -> here
@@ -458,13 +418,6 @@ static int trampoline_probe_handler(struct kprobe *p, struct pt_regs *regs)
        regs->nip = orig_ret_address - 4;
        regs->link = orig_ret_address;
 
-       kretprobe_hash_unlock(current, &flags);
-
-       hlist_for_each_entry_safe(ri, tmp, &empty_rp, hlist) {
-               hlist_del(&ri->hlist);
-               kfree(ri);
-       }
-
        return 0;
 }
 NOKPROBE_SYMBOL(trampoline_probe_handler);
index c2d737f..9d7fb4c 100644 (file)
@@ -34,7 +34,7 @@
 18     spu     oldstat                         sys_ni_syscall
 19     common  lseek                           sys_lseek                       compat_sys_lseek
 20     common  getpid                          sys_getpid
-21     nospu   mount                           sys_mount                       compat_sys_mount
+21     nospu   mount                           sys_mount
 22     32      umount                          sys_oldumount
 22     64      umount                          sys_ni_syscall
 22     spu     umount                          sys_ni_syscall
 142    common  _newselect                      sys_select                      compat_sys_select
 143    common  flock                           sys_flock
 144    common  msync                           sys_msync
-145    common  readv                           sys_readv                       compat_sys_readv
-146    common  writev                          sys_writev                      compat_sys_writev
+145    common  readv                           sys_readv
+146    common  writev                          sys_writev
 147    common  getsid                          sys_getsid
 148    common  fdatasync                       sys_fdatasync
 149    nospu   _sysctl                         sys_ni_syscall
 282    common  unshare                         sys_unshare
 283    common  splice                          sys_splice
 284    common  tee                             sys_tee
-285    common  vmsplice                        sys_vmsplice                    compat_sys_vmsplice
+285    common  vmsplice                        sys_vmsplice
 286    common  openat                          sys_openat                      compat_sys_openat
 287    common  mkdirat                         sys_mkdirat
 288    common  mknodat                         sys_mknodat
 348    common  syncfs                          sys_syncfs
 349    common  sendmmsg                        sys_sendmmsg                    compat_sys_sendmmsg
 350    common  setns                           sys_setns
-351    nospu   process_vm_readv                sys_process_vm_readv            compat_sys_process_vm_readv
-352    nospu   process_vm_writev               sys_process_vm_writev           compat_sys_process_vm_writev
+351    nospu   process_vm_readv                sys_process_vm_readv
+352    nospu   process_vm_writev               sys_process_vm_writev
 353    nospu   finit_module                    sys_finit_module
 354    nospu   kcmp                            sys_kcmp
 355    common  sched_setattr                   sys_sched_setattr
index 326e113..e0548b4 100644 (file)
@@ -360,8 +360,8 @@ SECTIONS
        PROVIDE32 (end = .);
 
        STABS_DEBUG
-
        DWARF_DEBUG
+       ELF_DETAILS
 
        DISCARDS
        /DISCARD/ : {
index d66a645..69a91b5 100644 (file)
@@ -39,7 +39,7 @@ obj-$(CONFIG_PPC_BOOK3S_64) += copyuser_power7.o copypage_power7.o \
                               memcpy_power7.o
 
 obj64-y        += copypage_64.o copyuser_64.o mem_64.o hweight_64.o \
-          memcpy_64.o memcpy_mcsafe_64.o
+          memcpy_64.o copy_mc_64.o
 
 ifndef CONFIG_PPC_QUEUED_SPINLOCKS
 obj64-$(CONFIG_SMP)    += locks.o
index ecd150d..ec5cd2d 100644 (file)
@@ -78,12 +78,10 @@ EXPORT_SYMBOL(__csum_partial)
 
 /*
  * Computes the checksum of a memory block at src, length len,
- * and adds in "sum" (32-bit), while copying the block to dst.
- * If an access exception occurs on src or dst, it stores -EFAULT
- * to *src_err or *dst_err respectively, and (for an error on
- * src) zeroes the rest of dst.
+ * and adds in 0xffffffff, while copying the block to dst.
+ * If an access exception occurs it returns zero.
  *
- * csum_partial_copy_generic(src, dst, len, sum, src_err, dst_err)
+ * csum_partial_copy_generic(src, dst, len)
  */
 #define CSUM_COPY_16_BYTES_WITHEX(n)   \
 8 ## n ## 0:                   \
@@ -108,14 +106,14 @@ EXPORT_SYMBOL(__csum_partial)
        adde    r12,r12,r10
 
 #define CSUM_COPY_16_BYTES_EXCODE(n)           \
-       EX_TABLE(8 ## n ## 0b, src_error);      \
-       EX_TABLE(8 ## n ## 1b, src_error);      \
-       EX_TABLE(8 ## n ## 2b, src_error);      \
-       EX_TABLE(8 ## n ## 3b, src_error);      \
-       EX_TABLE(8 ## n ## 4b, dst_error);      \
-       EX_TABLE(8 ## n ## 5b, dst_error);      \
-       EX_TABLE(8 ## n ## 6b, dst_error);      \
-       EX_TABLE(8 ## n ## 7b, dst_error);
+       EX_TABLE(8 ## n ## 0b, fault);  \
+       EX_TABLE(8 ## n ## 1b, fault);  \
+       EX_TABLE(8 ## n ## 2b, fault);  \
+       EX_TABLE(8 ## n ## 3b, fault);  \
+       EX_TABLE(8 ## n ## 4b, fault);  \
+       EX_TABLE(8 ## n ## 5b, fault);  \
+       EX_TABLE(8 ## n ## 6b, fault);  \
+       EX_TABLE(8 ## n ## 7b, fault);
 
        .text
        .stabs  "arch/powerpc/lib/",N_SO,0,0,0f
@@ -127,11 +125,8 @@ LG_CACHELINE_BYTES = L1_CACHE_SHIFT
 CACHELINE_MASK = (L1_CACHE_BYTES-1)
 
 _GLOBAL(csum_partial_copy_generic)
-       stwu    r1,-16(r1)
-       stw     r7,12(r1)
-       stw     r8,8(r1)
-
-       addic   r12,r6,0
+       li      r12,-1
+       addic   r0,r0,0                 /* clear carry */
        addi    r6,r4,-4
        neg     r0,r4
        addi    r4,r3,-4
@@ -246,34 +241,19 @@ _GLOBAL(csum_partial_copy_generic)
        rlwinm  r3,r3,8,0,31    /* odd destination address: rotate one byte */
        blr
 
-/* read fault */
-src_error:
-       lwz     r7,12(r1)
-       addi    r1,r1,16
-       cmpwi   cr0,r7,0
-       beqlr
-       li      r0,-EFAULT
-       stw     r0,0(r7)
-       blr
-/* write fault */
-dst_error:
-       lwz     r8,8(r1)
-       addi    r1,r1,16
-       cmpwi   cr0,r8,0
-       beqlr
-       li      r0,-EFAULT
-       stw     r0,0(r8)
+fault:
+       li      r3,0
        blr
 
-       EX_TABLE(70b, src_error);
-       EX_TABLE(71b, dst_error);
-       EX_TABLE(72b, src_error);
-       EX_TABLE(73b, dst_error);
-       EX_TABLE(54b, dst_error);
+       EX_TABLE(70b, fault);
+       EX_TABLE(71b, fault);
+       EX_TABLE(72b, fault);
+       EX_TABLE(73b, fault);
+       EX_TABLE(54b, fault);
 
 /*
  * this stuff handles faults in the cacheline loop and branches to either
- * src_error (if in read part) or dst_error (if in write part)
+ * fault (if in read part) or fault (if in write part)
  */
        CSUM_COPY_16_BYTES_EXCODE(0)
 #if L1_CACHE_BYTES >= 32
@@ -290,12 +270,12 @@ dst_error:
 #endif
 #endif
 
-       EX_TABLE(30b, src_error);
-       EX_TABLE(31b, dst_error);
-       EX_TABLE(40b, src_error);
-       EX_TABLE(41b, dst_error);
-       EX_TABLE(50b, src_error);
-       EX_TABLE(51b, dst_error);
+       EX_TABLE(30b, fault);
+       EX_TABLE(31b, fault);
+       EX_TABLE(40b, fault);
+       EX_TABLE(41b, fault);
+       EX_TABLE(50b, fault);
+       EX_TABLE(51b, fault);
 
 EXPORT_SYMBOL(csum_partial_copy_generic)
 
index 514978f..98ff51b 100644 (file)
@@ -182,34 +182,33 @@ EXPORT_SYMBOL(__csum_partial)
 
        .macro srcnr
 100:
-       EX_TABLE(100b,.Lsrc_error_nr)
+       EX_TABLE(100b,.Lerror_nr)
        .endm
 
        .macro source
 150:
-       EX_TABLE(150b,.Lsrc_error)
+       EX_TABLE(150b,.Lerror)
        .endm
 
        .macro dstnr
 200:
-       EX_TABLE(200b,.Ldest_error_nr)
+       EX_TABLE(200b,.Lerror_nr)
        .endm
 
        .macro dest
 250:
-       EX_TABLE(250b,.Ldest_error)
+       EX_TABLE(250b,.Lerror)
        .endm
 
 /*
  * Computes the checksum of a memory block at src, length len,
- * and adds in "sum" (32-bit), while copying the block to dst.
- * If an access exception occurs on src or dst, it stores -EFAULT
- * to *src_err or *dst_err respectively. The caller must take any action
- * required in this case (zeroing memory, recalculating partial checksum etc).
+ * and adds in 0xffffffff (32-bit), while copying the block to dst.
+ * If an access exception occurs, it returns 0.
  *
- * csum_partial_copy_generic(r3=src, r4=dst, r5=len, r6=sum, r7=src_err, r8=dst_err)
+ * csum_partial_copy_generic(r3=src, r4=dst, r5=len)
  */
 _GLOBAL(csum_partial_copy_generic)
+       li      r6,-1
        addic   r0,r6,0                 /* clear carry */
 
        srdi.   r6,r5,3                 /* less than 8 bytes? */
@@ -401,29 +400,15 @@ dstnr;    stb     r6,0(r4)
        srdi    r3,r3,32
        blr
 
-.Lsrc_error:
+.Lerror:
        ld      r14,STK_REG(R14)(r1)
        ld      r15,STK_REG(R15)(r1)
        ld      r16,STK_REG(R16)(r1)
        addi    r1,r1,STACKFRAMESIZE
-.Lsrc_error_nr:
-       cmpdi   0,r7,0
-       beqlr
-       li      r6,-EFAULT
-       stw     r6,0(r7)
+.Lerror_nr:
+       li      r3,0
        blr
 
-.Ldest_error:
-       ld      r14,STK_REG(R14)(r1)
-       ld      r15,STK_REG(R15)(r1)
-       ld      r16,STK_REG(R16)(r1)
-       addi    r1,r1,STACKFRAMESIZE
-.Ldest_error_nr:
-       cmpdi   0,r8,0
-       beqlr
-       li      r6,-EFAULT
-       stw     r6,0(r8)
-       blr
 EXPORT_SYMBOL(csum_partial_copy_generic)
 
 /*
index fabe4db..b895166 100644 (file)
 #include <linux/uaccess.h>
 
 __wsum csum_and_copy_from_user(const void __user *src, void *dst,
-                              int len, __wsum sum, int *err_ptr)
+                              int len)
 {
-       unsigned int csum;
+       __wsum csum;
 
        might_sleep();
-       allow_read_from_user(src, len);
-
-       *err_ptr = 0;
-
-       if (!len) {
-               csum = 0;
-               goto out;
-       }
 
-       if (unlikely((len < 0) || !access_ok(src, len))) {
-               *err_ptr = -EFAULT;
-               csum = (__force unsigned int)sum;
-               goto out;
-       }
+       if (unlikely(!access_ok(src, len)))
+               return 0;
 
-       csum = csum_partial_copy_generic((void __force *)src, dst,
-                                        len, sum, err_ptr, NULL);
-
-       if (unlikely(*err_ptr)) {
-               int missing = __copy_from_user(dst, src, len);
-
-               if (missing) {
-                       memset(dst + len - missing, 0, missing);
-                       *err_ptr = -EFAULT;
-               } else {
-                       *err_ptr = 0;
-               }
+       allow_read_from_user(src, len);
 
-               csum = csum_partial(dst, len, sum);
-       }
+       csum = csum_partial_copy_generic((void __force *)src, dst, len);
 
-out:
        prevent_read_from_user(src, len);
-       return (__force __wsum)csum;
+       return csum;
 }
 EXPORT_SYMBOL(csum_and_copy_from_user);
 
-__wsum csum_and_copy_to_user(const void *src, void __user *dst, int len,
-                            __wsum sum, int *err_ptr)
+__wsum csum_and_copy_to_user(const void *src, void __user *dst, int len)
 {
-       unsigned int csum;
+       __wsum csum;
 
        might_sleep();
-       allow_write_to_user(dst, len);
-
-       *err_ptr = 0;
-
-       if (!len) {
-               csum = 0;
-               goto out;
-       }
+       if (unlikely(!access_ok(dst, len)))
+               return 0;
 
-       if (unlikely((len < 0) || !access_ok(dst, len))) {
-               *err_ptr = -EFAULT;
-               csum = -1; /* invalid checksum */
-               goto out;
-       }
-
-       csum = csum_partial_copy_generic(src, (void __force *)dst,
-                                        len, sum, NULL, err_ptr);
-
-       if (unlikely(*err_ptr)) {
-               csum = csum_partial(src, len, sum);
+       allow_write_to_user(dst, len);
 
-               if (copy_to_user(dst, src, len)) {
-                       *err_ptr = -EFAULT;
-                       csum = -1; /* invalid checksum */
-               }
-       }
+       csum = csum_partial_copy_generic(src, (void __force *)dst, len);
 
-out:
        prevent_write_to_user(dst, len);
-       return (__force __wsum)csum;
+       return csum;
 }
 EXPORT_SYMBOL(csum_and_copy_to_user);
similarity index 98%
rename from arch/powerpc/lib/memcpy_mcsafe_64.S
rename to arch/powerpc/lib/copy_mc_64.S
index cb882d9..88d46c4 100644 (file)
@@ -50,7 +50,7 @@ err3; stb     r0,0(r3)
        blr
 
 
-_GLOBAL(memcpy_mcsafe)
+_GLOBAL(copy_mc_generic)
        mr      r7,r5
        cmpldi  r5,16
        blt     .Lshort_copy
@@ -239,4 +239,4 @@ err1;       stb     r0,0(r3)
 15:    li      r3,0
        blr
 
-EXPORT_SYMBOL_GPL(memcpy_mcsafe);
+EXPORT_SYMBOL_GPL(copy_mc_generic);
index 78d61f9..e809cb5 100644 (file)
@@ -475,7 +475,6 @@ static int bpf_jit_build_body(struct bpf_prog *fp, u32 *image,
                case BPF_JMP | BPF_JSET | BPF_K:
                case BPF_JMP | BPF_JSET | BPF_X:
                        true_cond = COND_NE;
-                       fallthrough;
                cond_branch:
                        /* same targets, can avoid doing the test :) */
                        if (filter[i].jt == filter[i].jf) {
index f3586e3..67db80e 100644 (file)
@@ -22,13 +22,11 @@ SECTIONS
        /* Beginning of code and text segment */
        . = LOAD_OFFSET;
        _start = .;
-       _stext = .;
        HEAD_TEXT_SECTION
        . = ALIGN(PAGE_SIZE);
 
        __init_begin = .;
        INIT_TEXT_SECTION(PAGE_SIZE)
-       INIT_DATA_SECTION(16)
        . = ALIGN(8);
        __soc_early_init_table : {
                __soc_early_init_table_start = .;
@@ -55,6 +53,7 @@ SECTIONS
        . = ALIGN(SECTION_ALIGN);
        .text : {
                _text = .;
+               _stext = .;
                TEXT_TEXT
                SCHED_TEXT
                CPUIDLE_TEXT
@@ -67,6 +66,8 @@ SECTIONS
                _etext = .;
        }
 
+       INIT_DATA_SECTION(16)
+
        /* Start of data section */
        _sdata = .;
        RO_DATA(SECTION_ALIGN)
@@ -97,6 +98,7 @@ SECTIONS
 
        STABS_DEBUG
        DWARF_DEBUG
+       ELF_DETAILS
 
        DISCARDS
 }
index ca03762..f750e01 100644 (file)
@@ -515,6 +515,7 @@ asmlinkage void __init setup_vm(uintptr_t dtb_pa)
 #else
        dtb_early_va = (void *)dtb_pa;
 #endif
+       dtb_early_pa = dtb_pa;
 }
 
 static inline void setup_vm_final(void)
index b29fcc6..0a38993 100644 (file)
@@ -185,6 +185,7 @@ config S390
        select OLD_SIGSUSPEND3
        select PCI_DOMAINS              if PCI
        select PCI_MSI                  if PCI
+       select PCI_MSI_ARCH_FALLBACKS   if PCI_MSI
        select SPARSE_IRQ
        select SYSCTL_EXCEPTION_TRACE
        select THREAD_INFO_IN_TASK
index 6d01c96..6813bfa 100644 (file)
@@ -39,13 +39,6 @@ csum_partial(const void *buff, int len, __wsum sum)
        return sum;
 }
 
-static inline __wsum
-csum_partial_copy_nocheck (const void *src, void *dst, int len, __wsum sum)
-{
-        memcpy(dst,src,len);
-       return csum_partial(dst, len, sum);
-}
-
 /*
  *      Fold a partial checksum without adding pseudo headers
  */
index 9547cd5..ea5b9c3 100644 (file)
@@ -63,8 +63,6 @@ typedef u16           compat_nlink_t;
 typedef u16            compat_ipc_pid_t;
 typedef u32            compat_caddr_t;
 typedef __kernel_fsid_t        compat_fsid_t;
-typedef s64            compat_s64;
-typedef u64            compat_u64;
 
 typedef struct {
        u32 mask;
index d2a71d8..fc30e79 100644 (file)
@@ -228,6 +228,7 @@ NOKPROBE_SYMBOL(pop_kprobe);
 void arch_prepare_kretprobe(struct kretprobe_instance *ri, struct pt_regs *regs)
 {
        ri->ret_addr = (kprobe_opcode_t *) regs->gprs[14];
+       ri->fp = NULL;
 
        /* Replace the return addr with trampoline addr */
        regs->gprs[14] = (unsigned long) &kretprobe_trampoline;
@@ -331,83 +332,7 @@ static void __used kretprobe_trampoline_holder(void)
  */
 static int trampoline_probe_handler(struct kprobe *p, struct pt_regs *regs)
 {
-       struct kretprobe_instance *ri;
-       struct hlist_head *head, empty_rp;
-       struct hlist_node *tmp;
-       unsigned long flags, orig_ret_address;
-       unsigned long trampoline_address;
-       kprobe_opcode_t *correct_ret_addr;
-
-       INIT_HLIST_HEAD(&empty_rp);
-       kretprobe_hash_lock(current, &head, &flags);
-
-       /*
-        * It is possible to have multiple instances associated with a given
-        * task either because an multiple functions in the call path
-        * have a return probe installed on them, and/or more than one return
-        * return probe was registered for a target function.
-        *
-        * We can handle this because:
-        *     - instances are always inserted at the head of the list
-        *     - when multiple return probes are registered for the same
-        *       function, the first instance's ret_addr will point to the
-        *       real return address, and all the rest will point to
-        *       kretprobe_trampoline
-        */
-       ri = NULL;
-       orig_ret_address = 0;
-       correct_ret_addr = NULL;
-       trampoline_address = (unsigned long) &kretprobe_trampoline;
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               orig_ret_address = (unsigned long) ri->ret_addr;
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       kretprobe_assert(ri, orig_ret_address, trampoline_address);
-
-       correct_ret_addr = ri->ret_addr;
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               orig_ret_address = (unsigned long) ri->ret_addr;
-
-               if (ri->rp && ri->rp->handler) {
-                       ri->ret_addr = correct_ret_addr;
-                       ri->rp->handler(ri, regs);
-               }
-
-               recycle_rp_inst(ri, &empty_rp);
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       regs->psw.addr = orig_ret_address;
-
-       kretprobe_hash_unlock(current, &flags);
-
-       hlist_for_each_entry_safe(ri, tmp, &empty_rp, hlist) {
-               hlist_del(&ri->hlist);
-               kfree(ri);
-       }
+       regs->psw.addr = __kretprobe_trampoline_handler(regs, &kretprobe_trampoline, NULL);
        /*
         * By returning a non-zero value, we are telling
         * kprobe_handler() that we don't want the post_handler
index fc5419a..7f1266c 100644 (file)
@@ -19,7 +19,7 @@ void arch_stack_walk(stack_trace_consume_fn consume_entry, void *cookie,
 
        unwind_for_each_frame(&state, task, regs, 0) {
                addr = unwind_get_return_address(&state);
-               if (!addr || !consume_entry(cookie, addr, false))
+               if (!addr || !consume_entry(cookie, addr))
                        break;
        }
 }
@@ -56,7 +56,7 @@ int arch_stack_walk_reliable(stack_trace_consume_fn consume_entry,
                        return -EINVAL;
 #endif
 
-               if (!consume_entry(cookie, addr, false))
+               if (!consume_entry(cookie, addr))
                        return -EINVAL;
        }
 
index 10456bc..1c3b481 100644 (file)
@@ -26,7 +26,7 @@
 16   32                lchown                  -                               sys_lchown16
 19   common    lseek                   sys_lseek                       compat_sys_lseek
 20   common    getpid                  sys_getpid                      sys_getpid
-21   common    mount                   sys_mount                       compat_sys_mount
+21   common    mount                   sys_mount                       sys_mount
 22   common    umount                  sys_oldumount                   sys_oldumount
 23   32                setuid                  -                               sys_setuid16
 24   32                getuid                  -                               sys_getuid16
 142  64                select                  sys_select                      -
 143  common    flock                   sys_flock                       sys_flock
 144  common    msync                   sys_msync                       sys_msync
-145  common    readv                   sys_readv                       compat_sys_readv
-146  common    writev                  sys_writev                      compat_sys_writev
+145  common    readv                   sys_readv                       sys_readv
+146  common    writev                  sys_writev                      sys_writev
 147  common    getsid                  sys_getsid                      sys_getsid
 148  common    fdatasync               sys_fdatasync                   sys_fdatasync
 149  common    _sysctl                 -                               -
 306  common    splice                  sys_splice                      sys_splice
 307  common    sync_file_range         sys_sync_file_range             compat_sys_s390_sync_file_range
 308  common    tee                     sys_tee                         sys_tee
-309  common    vmsplice                sys_vmsplice                    compat_sys_vmsplice
+309  common    vmsplice                sys_vmsplice                    sys_vmsplice
 310  common    move_pages              sys_move_pages                  compat_sys_move_pages
 311  common    getcpu                  sys_getcpu                      sys_getcpu
 312  common    epoll_pwait             sys_epoll_pwait                 compat_sys_epoll_pwait
 337  common    clock_adjtime           sys_clock_adjtime               sys_clock_adjtime32
 338  common    syncfs                  sys_syncfs                      sys_syncfs
 339  common    setns                   sys_setns                       sys_setns
-340  common    process_vm_readv        sys_process_vm_readv            compat_sys_process_vm_readv
-341  common    process_vm_writev       sys_process_vm_writev           compat_sys_process_vm_writev
+340  common    process_vm_readv        sys_process_vm_readv            sys_process_vm_readv
+341  common    process_vm_writev       sys_process_vm_writev           sys_process_vm_writev
 342  common    s390_runtime_instr      sys_s390_runtime_instr          sys_s390_runtime_instr
 343  common    kcmp                    sys_kcmp                        sys_kcmp
 344  common    finit_module            sys_finit_module                sys_finit_module
index 3769549..177ccfb 100644 (file)
@@ -181,6 +181,7 @@ SECTIONS
        /* Debugging sections.  */
        STABS_DEBUG
        DWARF_DEBUG
+       ELF_DETAILS
 
        /* Sections to be discarded */
        DISCARDS
index 91571a4..1a391e3 100644 (file)
@@ -30,10 +30,9 @@ asmlinkage __wsum csum_partial(const void *buff, int len, __wsum sum);
  * better 64-bit) boundary
  */
 
-asmlinkage __wsum csum_partial_copy_generic(const void *src, void *dst,
-                                           int len, __wsum sum,
-                                           int *src_err_ptr, int *dst_err_ptr);
+asmlinkage __wsum csum_partial_copy_generic(const void *src, void *dst, int len);
 
+#define _HAVE_ARCH_CSUM_AND_COPY
 /*
  *     Note: when you get a NULL pointer exception here this means someone
  *     passed in an incorrect kernel address to one of these functions.
@@ -42,23 +41,18 @@ asmlinkage __wsum csum_partial_copy_generic(const void *src, void *dst,
  *     access_ok().
  */
 static inline
-__wsum csum_partial_copy_nocheck(const void *src, void *dst,
-                                int len, __wsum sum)
+__wsum csum_partial_copy_nocheck(const void *src, void *dst, int len)
 {
-       return csum_partial_copy_generic(src, dst, len, sum, NULL, NULL);
+       return csum_partial_copy_generic(src, dst, len);
 }
 
 #define _HAVE_ARCH_COPY_AND_CSUM_FROM_USER
 static inline
-__wsum csum_and_copy_from_user(const void __user *src, void *dst,
-                                  int len, __wsum sum, int *err_ptr)
+__wsum csum_and_copy_from_user(const void __user *src, void *dst, int len)
 {
-       if (access_ok(src, len))
-               return csum_partial_copy_generic((__force const void *)src, dst,
-                                       len, sum, err_ptr, NULL);
-       if (len)
-               *err_ptr = -EFAULT;
-       return sum;
+       if (!access_ok(src, len))
+               return 0;
+       return csum_partial_copy_generic((__force const void *)src, dst, len);
 }
 
 /*
@@ -199,16 +193,10 @@ static inline __sum16 csum_ipv6_magic(const struct in6_addr *saddr,
 #define HAVE_CSUM_COPY_USER
 static inline __wsum csum_and_copy_to_user(const void *src,
                                           void __user *dst,
-                                          int len, __wsum sum,
-                                          int *err_ptr)
+                                          int len)
 {
-       if (access_ok(dst, len))
-               return csum_partial_copy_generic((__force const void *)src,
-                                               dst, len, sum, NULL, err_ptr);
-
-       if (len)
-               *err_ptr = -EFAULT;
-
-       return (__force __wsum)-1; /* invalid checksum */
+       if (!access_ok(dst, len))
+               return 0;
+       return csum_partial_copy_generic((__force const void *)src, dst, len);
 }
 #endif /* __ASM_SH_CHECKSUM_H */
index 318296f..756100b 100644 (file)
@@ -204,6 +204,7 @@ void __kprobes arch_prepare_kretprobe(struct kretprobe_instance *ri,
                                      struct pt_regs *regs)
 {
        ri->ret_addr = (kprobe_opcode_t *) regs->pr;
+       ri->fp = NULL;
 
        /* Replace the return addr with trampoline addr */
        regs->pr = (unsigned long)kretprobe_trampoline;
@@ -302,62 +303,9 @@ static void __used kretprobe_trampoline_holder(void)
  */
 int __kprobes trampoline_probe_handler(struct kprobe *p, struct pt_regs *regs)
 {
-       struct kretprobe_instance *ri = NULL;
-       struct hlist_head *head, empty_rp;
-       struct hlist_node *tmp;
-       unsigned long flags, orig_ret_address = 0;
-       unsigned long trampoline_address = (unsigned long)&kretprobe_trampoline;
+       regs->pc = __kretprobe_trampoline_handler(regs, &kretprobe_trampoline, NULL);
 
-       INIT_HLIST_HEAD(&empty_rp);
-       kretprobe_hash_lock(current, &head, &flags);
-
-       /*
-        * It is possible to have multiple instances associated with a given
-        * task either because an multiple functions in the call path
-        * have a return probe installed on them, and/or more then one return
-        * return probe was registered for a target function.
-        *
-        * We can handle this because:
-        *     - instances are always inserted at the head of the list
-        *     - when multiple return probes are registered for the same
-        *       function, the first instance's ret_addr will point to the
-        *       real return address, and all the rest will point to
-        *       kretprobe_trampoline
-        */
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               if (ri->rp && ri->rp->handler) {
-                       __this_cpu_write(current_kprobe, &ri->rp->kp);
-                       ri->rp->handler(ri, regs);
-                       __this_cpu_write(current_kprobe, NULL);
-               }
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-               recycle_rp_inst(ri, &empty_rp);
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       kretprobe_assert(ri, orig_ret_address, trampoline_address);
-
-       regs->pc = orig_ret_address;
-       kretprobe_hash_unlock(current, &flags);
-
-       hlist_for_each_entry_safe(ri, tmp, &empty_rp, hlist) {
-               hlist_del(&ri->hlist);
-               kfree(ri);
-       }
-
-       return orig_ret_address;
+       return 1;
 }
 
 static int __kprobes post_kprobe_handler(struct pt_regs *regs)
index bde7a6c..3161b9c 100644 (file)
@@ -76,6 +76,7 @@ SECTIONS
 
        STABS_DEBUG
        DWARF_DEBUG
+       ELF_DETAILS
 
        DISCARDS
 }
index 97b5c2d..3e07074 100644 (file)
@@ -173,47 +173,27 @@ ENTRY(csum_partial)
         mov    r6, r0
 
 /*
-unsigned int csum_partial_copy_generic (const char *src, char *dst, int len, 
-                                       int sum, int *src_err_ptr, int *dst_err_ptr)
+unsigned int csum_partial_copy_generic (const char *src, char *dst, int len)
  */ 
 
 /*
- * Copy from ds while checksumming, otherwise like csum_partial
- *
- * The macros SRC and DST specify the type of access for the instruction.
- * thus we can call a custom exception handler for all access types.
- *
- * FIXME: could someone double-check whether I haven't mixed up some SRC and
- *       DST definitions? It's damn hard to trigger all cases.  I hope I got
- *       them all but there's no guarantee.
+ * Copy from ds while checksumming, otherwise like csum_partial with initial
+ * sum being ~0U
  */
 
-#define SRC(...)                       \
+#define EXC(...)                       \
        9999: __VA_ARGS__ ;             \
        .section __ex_table, "a";       \
        .long 9999b, 6001f      ;       \
        .previous
 
-#define DST(...)                       \
-       9999: __VA_ARGS__ ;             \
-       .section __ex_table, "a";       \
-       .long 9999b, 6002f      ;       \
-       .previous
-
 !
 ! r4:  const char *SRC
 ! r5:  char *DST
 ! r6:  int LEN
-! r7:  int SUM
-!
-! on stack:
-! int *SRC_ERR_PTR
-! int *DST_ERR_PTR
 !
 ENTRY(csum_partial_copy_generic)
-       mov.l   r5,@-r15
-       mov.l   r6,@-r15
-
+       mov     #-1,r7
        mov     #3,r0           ! Check src and dest are equally aligned
        mov     r4,r1
        and     r0,r1
@@ -243,11 +223,11 @@ ENTRY(csum_partial_copy_generic)
        clrt
        .align  2
 5:
-SRC(   mov.b   @r4+,r1         )
-SRC(   mov.b   @r4+,r0         )
+EXC(   mov.b   @r4+,r1         )
+EXC(   mov.b   @r4+,r0         )
        extu.b  r1,r1
-DST(   mov.b   r1,@r5          )
-DST(   mov.b   r0,@(1,r5)      )
+EXC(   mov.b   r1,@r5          )
+EXC(   mov.b   r0,@(1,r5)      )
        extu.b  r0,r0
        add     #2,r5
 
@@ -276,8 +256,8 @@ DST(        mov.b   r0,@(1,r5)      )
        ! Handle first two bytes as a special case
        .align  2
 1:     
-SRC(   mov.w   @r4+,r0         )
-DST(   mov.w   r0,@r5          )
+EXC(   mov.w   @r4+,r0         )
+EXC(   mov.w   r0,@r5          )
        add     #2,r5
        extu.w  r0,r0
        addc    r0,r7
@@ -292,32 +272,32 @@ DST(      mov.w   r0,@r5          )
         clrt
        .align  2
 1:     
-SRC(   mov.l   @r4+,r0         )
-SRC(   mov.l   @r4+,r1         )
+EXC(   mov.l   @r4+,r0         )
+EXC(   mov.l   @r4+,r1         )
        addc    r0,r7
-DST(   mov.l   r0,@r5          )
-DST(   mov.l   r1,@(4,r5)      )
+EXC(   mov.l   r0,@r5          )
+EXC(   mov.l   r1,@(4,r5)      )
        addc    r1,r7
 
-SRC(   mov.l   @r4+,r0         )
-SRC(   mov.l   @r4+,r1         )
+EXC(   mov.l   @r4+,r0         )
+EXC(   mov.l   @r4+,r1         )
        addc    r0,r7
-DST(   mov.l   r0,@(8,r5)      )
-DST(   mov.l   r1,@(12,r5)     )
+EXC(   mov.l   r0,@(8,r5)      )
+EXC(   mov.l   r1,@(12,r5)     )
        addc    r1,r7
 
-SRC(   mov.l   @r4+,r0         )
-SRC(   mov.l   @r4+,r1         )
+EXC(   mov.l   @r4+,r0         )
+EXC(   mov.l   @r4+,r1         )
        addc    r0,r7
-DST(   mov.l   r0,@(16,r5)     )
-DST(   mov.l   r1,@(20,r5)     )
+EXC(   mov.l   r0,@(16,r5)     )
+EXC(   mov.l   r1,@(20,r5)     )
        addc    r1,r7
 
-SRC(   mov.l   @r4+,r0         )
-SRC(   mov.l   @r4+,r1         )
+EXC(   mov.l   @r4+,r0         )
+EXC(   mov.l   @r4+,r1         )
        addc    r0,r7
-DST(   mov.l   r0,@(24,r5)     )
-DST(   mov.l   r1,@(28,r5)     )
+EXC(   mov.l   r0,@(24,r5)     )
+EXC(   mov.l   r1,@(28,r5)     )
        addc    r1,r7
        add     #32,r5
        movt    r0
@@ -335,9 +315,9 @@ DST(        mov.l   r1,@(28,r5)     )
         clrt
        shlr2   r6
 3:     
-SRC(   mov.l   @r4+,r0 )
+EXC(   mov.l   @r4+,r0 )
        addc    r0,r7
-DST(   mov.l   r0,@r5  )
+EXC(   mov.l   r0,@r5  )
        add     #4,r5
        movt    r0
        dt      r6
@@ -353,8 +333,8 @@ DST(        mov.l   r0,@r5  )
        mov     #2,r1
        cmp/hs  r1,r6
        bf      5f
-SRC(   mov.w   @r4+,r0 )
-DST(   mov.w   r0,@r5  )
+EXC(   mov.w   @r4+,r0 )
+EXC(   mov.w   r0,@r5  )
        extu.w  r0,r0
        add     #2,r5
        cmp/eq  r1,r6
@@ -363,8 +343,8 @@ DST(        mov.w   r0,@r5  )
        shll16  r0
        addc    r0,r7
 5:     
-SRC(   mov.b   @r4+,r0 )
-DST(   mov.b   r0,@r5  )
+EXC(   mov.b   @r4+,r0 )
+EXC(   mov.b   r0,@r5  )
        extu.b  r0,r0
 #ifndef        __LITTLE_ENDIAN__
        shll8   r0
@@ -373,42 +353,13 @@ DST(      mov.b   r0,@r5  )
        mov     #0,r0
        addc    r0,r7
 7:
-5000:
 
 # Exception handler:
 .section .fixup, "ax"                                                  
 
 6001:
-       mov.l   @(8,r15),r0                     ! src_err_ptr
-       mov     #-EFAULT,r1
-       mov.l   r1,@r0
-
-       ! zero the complete destination - computing the rest
-       ! is too much work 
-       mov.l   @(4,r15),r5             ! dst
-       mov.l   @r15,r6                 ! len
-       mov     #0,r7
-1:     mov.b   r7,@r5
-       dt      r6
-       bf/s    1b
-        add    #1,r5
-       mov.l   8000f,r0
-       jmp     @r0
-        nop
-       .align  2
-8000:  .long   5000b
-
-6002:
-       mov.l   @(12,r15),r0                    ! dst_err_ptr
-       mov     #-EFAULT,r1
-       mov.l   r1,@r0
-       mov.l   8001f,r0
-       jmp     @r0
-        nop
-       .align  2
-8001:  .long   5000b
-
+       rts
+        mov    #0,r0
 .previous
-       add     #8,r15
        rts
         mov    r7,r0
index efeff2c..91ed110 100644 (file)
@@ -43,6 +43,7 @@ config SPARC
        select GENERIC_STRNLEN_USER
        select MODULES_USE_ELF_RELA
        select PCI_SYSCALL if PCI
+       select PCI_MSI_ARCH_FALLBACKS if PCI_MSI
        select ODD_RT_SIGACTION
        select OLD_SIGSUSPEND
        select CPU_NO_EFFICIENT_FFS
index a6256cb..f2ac133 100644 (file)
@@ -1,7 +1,9 @@
 /* SPDX-License-Identifier: GPL-2.0 */
 #ifndef ___ASM_SPARC_CHECKSUM_H
 #define ___ASM_SPARC_CHECKSUM_H
+#define _HAVE_ARCH_CSUM_AND_COPY
 #define _HAVE_ARCH_COPY_AND_CSUM_FROM_USER
+#define HAVE_CSUM_COPY_USER
 #if defined(__sparc__) && defined(__arch64__)
 #include <asm/checksum_64.h>
 #else
index 479a0b8..ce11e0a 100644 (file)
@@ -42,7 +42,7 @@ __wsum csum_partial(const void *buff, int len, __wsum sum);
 unsigned int __csum_partial_copy_sparc_generic (const unsigned char *, unsigned char *);
 
 static inline __wsum
-csum_partial_copy_nocheck(const void *src, void *dst, int len, __wsum sum)
+csum_partial_copy_nocheck(const void *src, void *dst, int len)
 {
        register unsigned int ret asm("o0") = (unsigned int)src;
        register char *d asm("o1") = dst;
@@ -50,9 +50,9 @@ csum_partial_copy_nocheck(const void *src, void *dst, int len, __wsum sum)
 
        __asm__ __volatile__ (
                "call __csum_partial_copy_sparc_generic\n\t"
-               " mov %6, %%g7\n"
+               " mov -1, %%g7\n"
        : "=&r" (ret), "=&r" (d), "=&r" (l)
-       : "0" (ret), "1" (d), "2" (l), "r" (sum)
+       : "0" (ret), "1" (d), "2" (l)
        : "o2", "o3", "o4", "o5", "o7",
          "g2", "g3", "g4", "g5", "g7",
          "memory", "cc");
@@ -60,65 +60,19 @@ csum_partial_copy_nocheck(const void *src, void *dst, int len, __wsum sum)
 }
 
 static inline __wsum
-csum_and_copy_from_user(const void __user *src, void *dst, int len,
-                           __wsum sum, int *err)
-  {
-       register unsigned long ret asm("o0") = (unsigned long)src;
-       register char *d asm("o1") = dst;
-       register int l asm("g1") = len;
-       register __wsum s asm("g7") = sum;
-
-       if (unlikely(!access_ok(src, len))) {
-               if (len)
-                       *err = -EFAULT;
-               return sum;
-       }
-
-       __asm__ __volatile__ (
-       ".section __ex_table,#alloc\n\t"
-       ".align 4\n\t"
-       ".word 1f,2\n\t"
-       ".previous\n"
-       "1:\n\t"
-       "call __csum_partial_copy_sparc_generic\n\t"
-       " st %8, [%%sp + 64]\n"
-       : "=&r" (ret), "=&r" (d), "=&r" (l), "=&r" (s)
-       : "0" (ret), "1" (d), "2" (l), "3" (s), "r" (err)
-       : "o2", "o3", "o4", "o5", "o7", "g2", "g3", "g4", "g5",
-         "cc", "memory");
-       return (__force __wsum)ret;
+csum_and_copy_from_user(const void __user *src, void *dst, int len)
+{
+       if (unlikely(!access_ok(src, len)))
+               return 0;
+       return csum_partial_copy_nocheck((__force void *)src, dst, len);
 }
 
-#define HAVE_CSUM_COPY_USER
-
 static inline __wsum
-csum_and_copy_to_user(const void *src, void __user *dst, int len,
-                         __wsum sum, int *err)
+csum_and_copy_to_user(const void *src, void __user *dst, int len)
 {
-       if (!access_ok(dst, len)) {
-               *err = -EFAULT;
-               return sum;
-       } else {
-               register unsigned long ret asm("o0") = (unsigned long)src;
-               register char __user *d asm("o1") = dst;
-               register int l asm("g1") = len;
-               register __wsum s asm("g7") = sum;
-
-               __asm__ __volatile__ (
-               ".section __ex_table,#alloc\n\t"
-               ".align 4\n\t"
-               ".word 1f,1\n\t"
-               ".previous\n"
-               "1:\n\t"
-               "call __csum_partial_copy_sparc_generic\n\t"
-               " st %8, [%%sp + 64]\n"
-               : "=&r" (ret), "=&r" (d), "=&r" (l), "=&r" (s)
-               : "0" (ret), "1" (d), "2" (l), "3" (s), "r" (err)
-               : "o2", "o3", "o4", "o5", "o7",
-                 "g2", "g3", "g4", "g5",
-                 "cc", "memory");
-               return (__force __wsum)ret;
-       }
+       if (!access_ok(dst, len))
+               return 0;
+       return csum_partial_copy_nocheck(src, (__force void *)dst, len);
 }
 
 /* ihl is always 5 or greater, almost always is 5, and iph is word aligned
index 0fa4433..d6b5946 100644 (file)
@@ -38,42 +38,9 @@ __wsum csum_partial(const void * buff, int len, __wsum sum);
  * here even more important to align src and dst on a 32-bit (or even
  * better 64-bit) boundary
  */
-__wsum csum_partial_copy_nocheck(const void *src, void *dst,
-                                int len, __wsum sum);
-
-long __csum_partial_copy_from_user(const void __user *src,
-                                  void *dst, int len,
-                                  __wsum sum);
-
-static inline __wsum
-csum_and_copy_from_user(const void __user *src,
-                           void *dst, int len,
-                           __wsum sum, int *err)
-{
-       long ret = __csum_partial_copy_from_user(src, dst, len, sum);
-       if (ret < 0)
-               *err = -EFAULT;
-       return (__force __wsum) ret;
-}
-
-/*
- *     Copy and checksum to user
- */
-#define HAVE_CSUM_COPY_USER
-long __csum_partial_copy_to_user(const void *src,
-                                void __user *dst, int len,
-                                __wsum sum);
-
-static inline __wsum
-csum_and_copy_to_user(const void *src,
-                     void __user *dst, int len,
-                     __wsum sum, int *err)
-{
-       long ret = __csum_partial_copy_to_user(src, dst, len, sum);
-       if (ret < 0)
-               *err = -EFAULT;
-       return (__force __wsum) ret;
-}
+__wsum csum_partial_copy_nocheck(const void *src, void *dst, int len);
+__wsum csum_and_copy_from_user(const void __user *src, void *dst, int len);
+__wsum csum_and_copy_to_user(const void *src, void __user *dst, int len);
 
 /* ihl is always 5 or greater, almost always is 5, and iph is word aligned
  * the majority of the time.
index 40a267b..b85842c 100644 (file)
@@ -21,8 +21,7 @@ typedef s16           compat_nlink_t;
 typedef u16            compat_ipc_pid_t;
 typedef u32            compat_caddr_t;
 typedef __kernel_fsid_t        compat_fsid_t;
-typedef s64            compat_s64;
-typedef u64            compat_u64;
+
 struct compat_stat {
        compat_dev_t    st_dev;
        compat_ino_t    st_ino;
index dfbca24..217c21a 100644 (file)
@@ -453,6 +453,7 @@ void __kprobes arch_prepare_kretprobe(struct kretprobe_instance *ri,
                                      struct pt_regs *regs)
 {
        ri->ret_addr = (kprobe_opcode_t *)(regs->u_regs[UREG_RETPC] + 8);
+       ri->fp = NULL;
 
        /* Replace the return addr with trampoline addr */
        regs->u_regs[UREG_RETPC] =
@@ -465,58 +466,12 @@ void __kprobes arch_prepare_kretprobe(struct kretprobe_instance *ri,
 static int __kprobes trampoline_probe_handler(struct kprobe *p,
                                              struct pt_regs *regs)
 {
-       struct kretprobe_instance *ri = NULL;
-       struct hlist_head *head, empty_rp;
-       struct hlist_node *tmp;
-       unsigned long flags, orig_ret_address = 0;
-       unsigned long trampoline_address =(unsigned long)&kretprobe_trampoline;
+       unsigned long orig_ret_address = 0;
 
-       INIT_HLIST_HEAD(&empty_rp);
-       kretprobe_hash_lock(current, &head, &flags);
-
-       /*
-        * It is possible to have multiple instances associated with a given
-        * task either because an multiple functions in the call path
-        * have a return probe installed on them, and/or more than one return
-        * return probe was registered for a target function.
-        *
-        * We can handle this because:
-        *     - instances are always inserted at the head of the list
-        *     - when multiple return probes are registered for the same
-        *       function, the first instance's ret_addr will point to the
-        *       real return address, and all the rest will point to
-        *       kretprobe_trampoline
-        */
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-
-               if (ri->rp && ri->rp->handler)
-                       ri->rp->handler(ri, regs);
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-               recycle_rp_inst(ri, &empty_rp);
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       kretprobe_assert(ri, orig_ret_address, trampoline_address);
+       orig_ret_address = __kretprobe_trampoline_handler(regs, &kretprobe_trampoline, NULL);
        regs->tpc = orig_ret_address;
        regs->tnpc = orig_ret_address + 4;
 
-       kretprobe_hash_unlock(current, &flags);
-
-       hlist_for_each_entry_safe(ri, tmp, &empty_rp, hlist) {
-               hlist_del(&ri->hlist);
-               kfree(ri);
-       }
        /*
         * By returning a non-zero value, we are telling
         * kprobe_handler() that we don't want the post_handler
index 4af114e..37ec52b 100644 (file)
@@ -38,7 +38,7 @@
 23     64      setuid                  sys_setuid
 24     32      getuid                  sys_getuid16
 24     64      getuid                  sys_getuid
-25     common  vmsplice                sys_vmsplice                    compat_sys_vmsplice
+25     common  vmsplice                sys_vmsplice
 26     common  ptrace                  sys_ptrace                      compat_sys_ptrace
 27     common  alarm                   sys_alarm
 28     common  sigaltstack             sys_sigaltstack                 compat_sys_sigaltstack
 117    common  getrusage               sys_getrusage                   compat_sys_getrusage
 118    common  getsockopt              sys_getsockopt                  sys_getsockopt
 119    common  getcwd                  sys_getcwd
-120    common  readv                   sys_readv                       compat_sys_readv
-121    common  writev                  sys_writev                      compat_sys_writev
+120    common  readv                   sys_readv
+121    common  writev                  sys_writev
 122    common  settimeofday            sys_settimeofday                compat_sys_settimeofday
 123    32      fchown                  sys_fchown16
 123    64      fchown                  sys_fchown
 164    64      utrap_install           sys_utrap_install
 165    common  quotactl                sys_quotactl
 166    common  set_tid_address         sys_set_tid_address
-167    common  mount                   sys_mount                       compat_sys_mount
+167    common  mount                   sys_mount
 168    common  ustat                   sys_ustat                       compat_sys_ustat
 169    common  setxattr                sys_setxattr
 170    common  lsetxattr               sys_lsetxattr
 335    common  syncfs                  sys_syncfs
 336    common  sendmmsg                sys_sendmmsg                    compat_sys_sendmmsg
 337    common  setns                   sys_setns
-338    common  process_vm_readv        sys_process_vm_readv            compat_sys_process_vm_readv
-339    common  process_vm_writev       sys_process_vm_writev           compat_sys_process_vm_writev
+338    common  process_vm_readv        sys_process_vm_readv
+339    common  process_vm_writev       sys_process_vm_writev
 340    32      kern_features           sys_ni_syscall                  sys_kern_features
 340    64      kern_features           sys_kern_features
 341    common  kcmp                    sys_kcmp
index f99e99e..d55ae65 100644 (file)
@@ -187,6 +187,7 @@ SECTIONS
 
        STABS_DEBUG
        DWARF_DEBUG
+       ELF_DETAILS
 
        DISCARDS
 }
index 6a5469c..7488d13 100644 (file)
@@ -144,44 +144,21 @@ cpte:     bne     csum_partial_end_cruft                  ! yep, handle it
 cpout: retl                                            ! get outta here
         mov    %o2, %o0                                ! return computed csum
 
-       .globl __csum_partial_copy_start, __csum_partial_copy_end
-__csum_partial_copy_start:
-
 /* Work around cpp -rob */
 #define ALLOC #alloc
 #define EXECINSTR #execinstr
-#define EX(x,y,a,b)                            \
-98:     x,y;                                    \
-        .section .fixup,ALLOC,EXECINSTR;       \
-        .align  4;                              \
-99:     ba 30f;                                 \
-         a, b, %o3;                             \
-        .section __ex_table,ALLOC;             \
-        .align  4;                              \
-        .word   98b, 99b;                       \
-        .text;                                  \
-        .align  4
-
-#define EX2(x,y)                               \
-98:     x,y;                                    \
-        .section __ex_table,ALLOC;             \
-        .align  4;                              \
-        .word   98b, 30f;                       \
-        .text;                                  \
-        .align  4
-
-#define EX3(x,y)                               \
+#define EX(x,y)                                        \
 98:     x,y;                                    \
         .section __ex_table,ALLOC;             \
         .align  4;                              \
-        .word   98b, 96f;                       \
+        .word   98b, cc_fault;                   \
         .text;                                  \
         .align  4
 
-#define EXT(start,end,handler)                 \
+#define EXT(start,end)                         \
         .section __ex_table,ALLOC;             \
         .align  4;                              \
-        .word   start, 0, end, handler;         \
+        .word   start, 0, end, cc_fault;         \
         .text;                                  \
         .align  4
 
@@ -252,21 +229,21 @@ __csum_partial_copy_start:
 cc_end_cruft:
        be      1f
         andcc  %o3, 4, %g0
-       EX(ldd  [%o0 + 0x00], %g2, and %o3, 0xf)
+       EX(ldd  [%o0 + 0x00], %g2)
        add     %o1, 8, %o1
        addcc   %g2, %g7, %g7
        add     %o0, 8, %o0
        addxcc  %g3, %g7, %g7
-       EX2(st  %g2, [%o1 - 0x08])
+       EX(st   %g2, [%o1 - 0x08])
        addx    %g0, %g7, %g7
        andcc   %o3, 4, %g0
-       EX2(st  %g3, [%o1 - 0x04])
+       EX(st   %g3, [%o1 - 0x04])
 1:     be      1f
         andcc  %o3, 3, %o3
-       EX(ld   [%o0 + 0x00], %g2, add %o3, 4)
+       EX(ld   [%o0 + 0x00], %g2)
        add     %o1, 4, %o1
        addcc   %g2, %g7, %g7
-       EX2(st  %g2, [%o1 - 0x04])
+       EX(st   %g2, [%o1 - 0x04])
        addx    %g0, %g7, %g7
        andcc   %o3, 3, %g0
        add     %o0, 4, %o0
@@ -276,14 +253,14 @@ cc_end_cruft:
         subcc  %o3, 2, %o3
        b       4f
         or     %g0, %g0, %o4
-2:     EX(lduh [%o0 + 0x00], %o4, add %o3, 2)
+2:     EX(lduh [%o0 + 0x00], %o4)
        add     %o0, 2, %o0
-       EX2(sth %o4, [%o1 + 0x00])
+       EX(sth  %o4, [%o1 + 0x00])
        be      6f
         add    %o1, 2, %o1
        sll     %o4, 16, %o4
-4:     EX(ldub [%o0 + 0x00], %o5, add %g0, 1)
-       EX2(stb %o5, [%o1 + 0x00])
+4:     EX(ldub [%o0 + 0x00], %o5)
+       EX(stb  %o5, [%o1 + 0x00])
        sll     %o5, 8, %o5
        or      %o5, %o4, %o4
 6:     addcc   %o4, %g7, %g7
@@ -306,9 +283,9 @@ cc_dword_align:
         andcc  %o0, 0x2, %g0
        be      1f
         andcc  %o0, 0x4, %g0
-       EX(lduh [%o0 + 0x00], %g4, add %g1, 0)
+       EX(lduh [%o0 + 0x00], %g4)
        sub     %g1, 2, %g1
-       EX2(sth %g4, [%o1 + 0x00])
+       EX(sth  %g4, [%o1 + 0x00])
        add     %o0, 2, %o0
        sll     %g4, 16, %g4
        addcc   %g4, %g7, %g7
@@ -322,9 +299,9 @@ cc_dword_align:
        or      %g3, %g7, %g7
 1:     be      3f
         andcc  %g1, 0xffffff80, %g0
-       EX(ld   [%o0 + 0x00], %g4, add %g1, 0)
+       EX(ld   [%o0 + 0x00], %g4)
        sub     %g1, 4, %g1
-       EX2(st  %g4, [%o1 + 0x00])
+       EX(st   %g4, [%o1 + 0x00])
        add     %o0, 4, %o0
        addcc   %g4, %g7, %g7
        add     %o1, 4, %o1
@@ -354,7 +331,7 @@ __csum_partial_copy_sparc_generic:
        CSUMCOPY_BIGCHUNK(%o0,%o1,%g7,0x20,%o4,%o5,%g2,%g3,%g4,%g5,%o2,%o3)
        CSUMCOPY_BIGCHUNK(%o0,%o1,%g7,0x40,%o4,%o5,%g2,%g3,%g4,%g5,%o2,%o3)
        CSUMCOPY_BIGCHUNK(%o0,%o1,%g7,0x60,%o4,%o5,%g2,%g3,%g4,%g5,%o2,%o3)
-10:    EXT(5b, 10b, 20f)               ! note for exception handling
+10:    EXT(5b, 10b)                    ! note for exception handling
        sub     %g1, 128, %g1           ! detract from length
        addx    %g0, %g7, %g7           ! add in last carry bit
        andcc   %g1, 0xffffff80, %g0    ! more to csum?
@@ -379,7 +356,7 @@ cctbl:      CSUMCOPY_LASTCHUNK(%o0,%o1,%g7,0x68,%g2,%g3,%g4,%g5)
        CSUMCOPY_LASTCHUNK(%o0,%o1,%g7,0x28,%g2,%g3,%g4,%g5)
        CSUMCOPY_LASTCHUNK(%o0,%o1,%g7,0x18,%g2,%g3,%g4,%g5)
        CSUMCOPY_LASTCHUNK(%o0,%o1,%g7,0x08,%g2,%g3,%g4,%g5)
-12:    EXT(cctbl, 12b, 22f)            ! note for exception table handling
+12:    EXT(cctbl, 12b)                 ! note for exception table handling
        addx    %g0, %g7, %g7
        andcc   %o3, 0xf, %g0           ! check for low bits set
 ccte:  bne     cc_end_cruft            ! something left, handle it out of band
@@ -390,7 +367,7 @@ ccdbl:      CSUMCOPY_BIGCHUNK_ALIGNED(%o0,%o1,%g7,0x00,%o4,%o5,%g2,%g3,%g4,%g5,%o2,%o
        CSUMCOPY_BIGCHUNK_ALIGNED(%o0,%o1,%g7,0x20,%o4,%o5,%g2,%g3,%g4,%g5,%o2,%o3)
        CSUMCOPY_BIGCHUNK_ALIGNED(%o0,%o1,%g7,0x40,%o4,%o5,%g2,%g3,%g4,%g5,%o2,%o3)
        CSUMCOPY_BIGCHUNK_ALIGNED(%o0,%o1,%g7,0x60,%o4,%o5,%g2,%g3,%g4,%g5,%o2,%o3)
-11:    EXT(ccdbl, 11b, 21f)            ! note for exception table handling
+11:    EXT(ccdbl, 11b)                 ! note for exception table handling
        sub     %g1, 128, %g1           ! detract from length
        addx    %g0, %g7, %g7           ! add in last carry bit
        andcc   %g1, 0xffffff80, %g0    ! more to csum?
@@ -407,9 +384,9 @@ ccslow:     cmp     %g1, 0
        be,a    1f
         srl    %g1, 1, %g4             
        sub     %g1, 1, %g1     
-       EX(ldub [%o0], %g5, add %g1, 1)
+       EX(ldub [%o0], %g5)
        add     %o0, 1, %o0     
-       EX2(stb %g5, [%o1])
+       EX(stb  %g5, [%o1])
        srl     %g1, 1, %g4
        add     %o1, 1, %o1
 1:     cmp     %g4, 0          
@@ -418,34 +395,34 @@ ccslow:   cmp     %g1, 0
        andcc   %o0, 2, %g0     
        be,a    1f
         srl    %g4, 1, %g4
-       EX(lduh [%o0], %o4, add %g1, 0)
+       EX(lduh [%o0], %o4)
        sub     %g1, 2, %g1     
        srl     %o4, 8, %g2
        sub     %g4, 1, %g4     
-       EX2(stb %g2, [%o1])
+       EX(stb  %g2, [%o1])
        add     %o4, %g5, %g5
-       EX2(stb %o4, [%o1 + 1])
+       EX(stb  %o4, [%o1 + 1])
        add     %o0, 2, %o0     
        srl     %g4, 1, %g4
        add     %o1, 2, %o1
 1:     cmp     %g4, 0          
        be,a    2f
         andcc  %g1, 2, %g0
-       EX3(ld  [%o0], %o4)
+       EX(ld   [%o0], %o4)
 5:     srl     %o4, 24, %g2
        srl     %o4, 16, %g3
-       EX2(stb %g2, [%o1])
+       EX(stb  %g2, [%o1])
        srl     %o4, 8, %g2
-       EX2(stb %g3, [%o1 + 1])
+       EX(stb  %g3, [%o1 + 1])
        add     %o0, 4, %o0
-       EX2(stb %g2, [%o1 + 2])
+       EX(stb  %g2, [%o1 + 2])
        addcc   %o4, %g5, %g5
-       EX2(stb %o4, [%o1 + 3])
+       EX(stb  %o4, [%o1 + 3])
        addx    %g5, %g0, %g5   ! I am now to lazy to optimize this (question it
        add     %o1, 4, %o1     ! is worthy). Maybe some day - with the sll/srl
        subcc   %g4, 1, %g4     ! tricks
        bne,a   5b
-        EX3(ld [%o0], %o4)
+        EX(ld  [%o0], %o4)
        sll     %g5, 16, %g2
        srl     %g5, 16, %g5
        srl     %g2, 16, %g2
@@ -453,19 +430,19 @@ ccslow:   cmp     %g1, 0
        add     %g2, %g5, %g5 
 2:     be,a    3f              
         andcc  %g1, 1, %g0
-       EX(lduh [%o0], %o4, and %g1, 3)
+       EX(lduh [%o0], %o4)
        andcc   %g1, 1, %g0
        srl     %o4, 8, %g2
        add     %o0, 2, %o0     
-       EX2(stb %g2, [%o1])
+       EX(stb  %g2, [%o1])
        add     %g5, %o4, %g5
-       EX2(stb %o4, [%o1 + 1])
+       EX(stb  %o4, [%o1 + 1])
        add     %o1, 2, %o1
 3:     be,a    1f              
         sll    %g5, 16, %o4
-       EX(ldub [%o0], %g2, add %g0, 1)
+       EX(ldub [%o0], %g2)
        sll     %g2, 8, %o4     
-       EX2(stb %g2, [%o1])
+       EX(stb  %g2, [%o1])
        add     %g5, %o4, %g5
        sll     %g5, 16, %o4
 1:     addcc   %o4, %g5, %g5
@@ -481,113 +458,10 @@ ccslow:  cmp     %g1, 0
 4:     addcc   %g7, %g5, %g7
        retl    
         addx   %g0, %g7, %o0
-__csum_partial_copy_end:
 
 /* We do these strange calculations for the csum_*_from_user case only, ie.
  * we only bother with faults on loads... */
 
-/* o2 = ((g2%20)&3)*8
- * o3 = g1 - (g2/20)*32 - o2 */
-20:
-       cmp     %g2, 20
-       blu,a   1f
-        and    %g2, 3, %o2
-       sub     %g1, 32, %g1
-       b       20b
-        sub    %g2, 20, %g2
-1:
-       sll     %o2, 3, %o2
-       b       31f
-        sub    %g1, %o2, %o3
-
-/* o2 = (!(g2 & 15) ? 0 : (((g2 & 15) + 1) & ~1)*8)
- * o3 = g1 - (g2/16)*32 - o2 */
-21:
-       andcc   %g2, 15, %o3
-       srl     %g2, 4, %g2
-       be,a    1f
-        clr    %o2
-       add     %o3, 1, %o3
-       and     %o3, 14, %o3
-       sll     %o3, 3, %o2
-1:
-       sll     %g2, 5, %g2
-       sub     %g1, %g2, %o3
-       b       31f
-        sub    %o3, %o2, %o3
-
-/* o0 += (g2/10)*16 - 0x70
- * 01 += (g2/10)*16 - 0x70
- * o2 = (g2 % 10) ? 8 : 0
- * o3 += 0x70 - (g2/10)*16 - o2 */
-22:
-       cmp     %g2, 10
-       blu,a   1f
-        sub    %o0, 0x70, %o0
-       add     %o0, 16, %o0
-       add     %o1, 16, %o1
-       sub     %o3, 16, %o3
-       b       22b
-        sub    %g2, 10, %g2
-1:
-       sub     %o1, 0x70, %o1
-       add     %o3, 0x70, %o3
-       clr     %o2
-       tst     %g2
-       bne,a   1f
-        mov    8, %o2
-1:
-       b       31f
-        sub    %o3, %o2, %o3
-96:
-       and     %g1, 3, %g1
-       sll     %g4, 2, %g4
-       add     %g1, %g4, %o3
-30:
-/* %o1 is dst
- * %o3 is # bytes to zero out
- * %o4 is faulting address
- * %o5 is %pc where fault occurred */
-       clr     %o2
-31:
-/* %o0 is src
- * %o1 is dst
- * %o2 is # of bytes to copy from src to dst
- * %o3 is # bytes to zero out
- * %o4 is faulting address
- * %o5 is %pc where fault occurred */
-       save    %sp, -104, %sp
-        mov     %i5, %o0
-        mov     %i7, %o1
-        mov    %i4, %o2
-        call    lookup_fault
-        mov    %g7, %i4
-       cmp     %o0, 2
-       bne     1f      
-        add    %g0, -EFAULT, %i5
-       tst     %i2
-       be      2f
-        mov    %i0, %o1
-       mov     %i1, %o0
-5:
-       call    memcpy
-        mov    %i2, %o2
-       tst     %o0
-       bne,a   2f
-        add    %i3, %i2, %i3
-       add     %i1, %i2, %i1
-2:
-       mov     %i1, %o0
-6:
-       call    __bzero
-        mov    %i3, %o1
-1:
-       ld      [%sp + 168], %o2                ! struct_ptr of parent
-       st      %i5, [%o2]
+cc_fault:
        ret
-        restore
-
-        .section __ex_table,#alloc
-        .align 4
-        .word 5b,2
-       .word 6b,2
+        clr    %o0
index 26c644b..0c0268e 100644 (file)
        .globl          FUNC_NAME
        .type           FUNC_NAME,#function
        EXPORT_SYMBOL(FUNC_NAME)
-FUNC_NAME:             /* %o0=src, %o1=dst, %o2=len, %o3=sum */
+FUNC_NAME:             /* %o0=src, %o1=dst, %o2=len */
        LOAD(prefetch, %o0 + 0x000, #n_reads)
        xor             %o0, %o1, %g1
+       mov             1, %o3
        clr             %o4
        andcc           %g1, 0x3, %g0
        bne,pn          %icc, 95f
index d20b959..b0ba8d4 100644 (file)
@@ -9,14 +9,14 @@
        .section .fixup, "ax";  \
        .align 4;               \
 99:    retl;                   \
-        mov    -1, %o0;        \
+        mov    0, %o0;         \
        .section __ex_table,"a";\
        .align 4;               \
        .word 98b, 99b;         \
        .text;                  \
        .align 4;
 
-#define FUNC_NAME              __csum_partial_copy_from_user
+#define FUNC_NAME              csum_and_copy_from_user
 #define LOAD(type,addr,dest)   type##a [addr] %asi, dest
 
 #include "csum_copy.S"
index d71c0c8..91ba36d 100644 (file)
@@ -9,14 +9,14 @@
        .section .fixup,"ax";   \
        .align 4;               \
 99:    retl;                   \
-        mov    -1, %o0;        \
+        mov    0, %o0;         \
        .section __ex_table,"a";\
        .align 4;               \
        .word 98b, 99b;         \
        .text;                  \
        .align 4;
 
-#define FUNC_NAME              __csum_partial_copy_to_user
+#define FUNC_NAME              csum_and_copy_to_user
 #define STORE(type,src,addr)   type##a src, [addr] %asi
 
 #include "csum_copy.S"
index 8071bfd..40ce087 100644 (file)
@@ -288,8 +288,6 @@ no_context:
                if (fixup > 10) {
                        extern const unsigned int __memset_start[];
                        extern const unsigned int __memset_end[];
-                       extern const unsigned int __csum_partial_copy_start[];
-                       extern const unsigned int __csum_partial_copy_end[];
 
 #ifdef DEBUG_EXCEPTIONS
                        printk("Exception: PC<%08lx> faddr<%08lx>\n",
@@ -298,9 +296,7 @@ no_context:
                                regs->pc, fixup, g2);
 #endif
                        if ((regs->pc >= (unsigned long)__memset_start &&
-                            regs->pc < (unsigned long)__memset_end) ||
-                           (regs->pc >= (unsigned long)__csum_partial_copy_start &&
-                            regs->pc < (unsigned long)__csum_partial_copy_end)) {
+                            regs->pc < (unsigned long)__memset_end)) {
                                regs->u_regs[UREG_I4] = address;
                                regs->u_regs[UREG_I5] = regs->pc;
                        }
index f500148..dacbfab 100644 (file)
@@ -164,8 +164,8 @@ SECTIONS
   PROVIDE (end = .);
 
   STABS_DEBUG
-
   DWARF_DEBUG
+  ELF_DETAILS
 
   DISCARDS
 }
index 3b6dab3..45d957d 100644 (file)
@@ -108,8 +108,8 @@ SECTIONS
   PROVIDE (end = .);
 
   STABS_DEBUG
-
   DWARF_DEBUG
+  ELF_DETAILS
 
   DISCARDS
 }
index 7101ac6..835d930 100644 (file)
@@ -75,7 +75,7 @@ config X86
        select ARCH_HAS_PTE_DEVMAP              if X86_64
        select ARCH_HAS_PTE_SPECIAL
        select ARCH_HAS_UACCESS_FLUSHCACHE      if X86_64
-       select ARCH_HAS_UACCESS_MCSAFE          if X86_64 && X86_MCE
+       select ARCH_HAS_COPY_MC                 if X86_64
        select ARCH_HAS_SET_MEMORY
        select ARCH_HAS_SET_DIRECT_MAP
        select ARCH_HAS_STRICT_KERNEL_RWX
@@ -215,6 +215,8 @@ config X86
        select HAVE_FUNCTION_ARG_ACCESS_API
        select HAVE_STACKPROTECTOR              if CC_HAS_SANE_STACKPROTECTOR
        select HAVE_STACK_VALIDATION            if X86_64
+       select HAVE_STATIC_CALL
+       select HAVE_STATIC_CALL_INLINE          if HAVE_STACK_VALIDATION
        select HAVE_RSEQ
        select HAVE_SYSCALL_TRACEPOINTS
        select HAVE_UNSTABLE_SCHED_CLOCK
@@ -230,6 +232,7 @@ config X86
        select RTC_MC146818_LIB
        select SPARSE_IRQ
        select SRCU
+       select STACK_VALIDATION                 if HAVE_STACK_VALIDATION && (HAVE_STATIC_CALL_INLINE || RETPOLINE)
        select SYSCTL_EXCEPTION_TRACE
        select THREAD_INFO_IN_TASK
        select USER_STACKTRACE_SUPPORT
@@ -451,7 +454,6 @@ config GOLDFISH
 config RETPOLINE
        bool "Avoid speculative indirect branches in kernel"
        default y
-       select STACK_VALIDATION if HAVE_STACK_VALIDATION
        help
          Compile kernel with the retpoline compiler options to guard against
          kernel-to-user data leaks by avoiding speculative indirect
index ee1d3c5..27b5e2b 100644 (file)
@@ -62,7 +62,7 @@ config EARLY_PRINTK_USB_XDBC
          You should normally say N here, unless you want to debug early
          crashes or need a very simple printk logging facility.
 
-config MCSAFE_TEST
+config COPY_MC_TEST
        def_bool n
 
 config EFI_PGT_DUMP
index 4346ffb..154259f 100644 (file)
@@ -209,6 +209,10 @@ ifdef CONFIG_X86_64
 LDFLAGS_vmlinux += -z max-page-size=0x200000
 endif
 
+# We never want expected sections to be placed heuristically by the
+# linker. All sections should be explicitly named in the linker script.
+LDFLAGS_vmlinux += $(call ld-option, --orphan-handling=warn)
+
 archscripts: scripts_basic
        $(Q)$(MAKE) $(build)=arch/x86/tools relocs
 
index ff7894f..4fb989e 100644 (file)
@@ -29,7 +29,7 @@ targets := vmlinux vmlinux.bin vmlinux.bin.gz vmlinux.bin.bz2 vmlinux.bin.lzma \
        vmlinux.bin.xz vmlinux.bin.lzo vmlinux.bin.lz4 vmlinux.bin.zst
 
 KBUILD_CFLAGS := -m$(BITS) -O2
-KBUILD_CFLAGS += -fno-strict-aliasing $(call cc-option, -fPIE, -fPIC)
+KBUILD_CFLAGS += -fno-strict-aliasing -fPIE
 KBUILD_CFLAGS += -DDISABLE_BRANCH_PROFILING
 cflags-$(CONFIG_X86_32) := -march=i386
 cflags-$(CONFIG_X86_64) := -mcmodel=small
@@ -45,24 +45,19 @@ KBUILD_CFLAGS += -fno-asynchronous-unwind-tables
 KBUILD_CFLAGS += -D__DISABLE_EXPORTS
 # Disable relocation relaxation in case the link is not PIE.
 KBUILD_CFLAGS += $(call as-option,-Wa$(comma)-mrelax-relocations=no)
+KBUILD_CFLAGS += -include $(srctree)/include/linux/hidden.h
 
 KBUILD_AFLAGS  := $(KBUILD_CFLAGS) -D__ASSEMBLY__
 GCOV_PROFILE := n
 UBSAN_SANITIZE :=n
 
 KBUILD_LDFLAGS := -m elf_$(UTS_MACHINE)
+KBUILD_LDFLAGS += $(call ld-option,--no-ld-generated-unwind-info)
 # Compressed kernel should be built as PIE since it may be loaded at any
 # address by the bootloader.
-ifeq ($(CONFIG_X86_32),y)
-KBUILD_LDFLAGS += $(call ld-option, -pie) $(call ld-option, --no-dynamic-linker)
-else
-# To build 64-bit compressed kernel as PIE, we disable relocation
-# overflow check to avoid relocation overflow error with a new linker
-# command-line option, -z noreloc-overflow.
-KBUILD_LDFLAGS += $(shell $(LD) --help 2>&1 | grep -q "\-z noreloc-overflow" \
-       && echo "-z noreloc-overflow -pie --no-dynamic-linker")
-endif
-LDFLAGS_vmlinux := -T
+LDFLAGS_vmlinux := -pie $(call ld-option, --no-dynamic-linker)
+LDFLAGS_vmlinux += $(call ld-option, --orphan-handling=warn)
+LDFLAGS_vmlinux += -T
 
 hostprogs      := mkpiggy
 HOST_EXTRACFLAGS += -I$(srctree)/tools/include
@@ -96,30 +91,8 @@ vmlinux-objs-$(CONFIG_ACPI) += $(obj)/acpi.o
 vmlinux-objs-$(CONFIG_EFI_MIXED) += $(obj)/efi_thunk_$(BITS).o
 efi-obj-$(CONFIG_EFI_STUB) = $(objtree)/drivers/firmware/efi/libstub/lib.a
 
-# The compressed kernel is built with -fPIC/-fPIE so that a boot loader
-# can place it anywhere in memory and it will still run. However, since
-# it is executed as-is without any ELF relocation processing performed
-# (and has already had all relocation sections stripped from the binary),
-# none of the code can use data relocations (e.g. static assignments of
-# pointer values), since they will be meaningless at runtime. This check
-# will refuse to link the vmlinux if any of these relocations are found.
-quiet_cmd_check_data_rel = DATAREL $@
-define cmd_check_data_rel
-       for obj in $(filter %.o,$^); do \
-               $(READELF) -S $$obj | grep -qF .rel.local && { \
-                       echo "error: $$obj has data relocations!" >&2; \
-                       exit 1; \
-               } || true; \
-       done
-endef
-
-# We need to run two commands under "if_changed", so merge them into a
-# single invocation.
-quiet_cmd_check-and-link-vmlinux = LD      $@
-      cmd_check-and-link-vmlinux = $(cmd_check_data_rel); $(cmd_ld)
-
 $(obj)/vmlinux: $(vmlinux-objs-y) $(efi-obj-y) FORCE
-       $(call if_changed,check-and-link-vmlinux)
+       $(call if_changed,ld)
 
 OBJCOPYFLAGS_vmlinux.bin :=  -R .comment -S
 $(obj)/vmlinux.bin: vmlinux FORCE
index 03557f2..659fad5 100644 (file)
 #include <asm/bootparam.h>
 
 /*
- * The 32-bit x86 assembler in binutils 2.26 will generate R_386_GOT32X
- * relocation to get the symbol address in PIC.  When the compressed x86
- * kernel isn't built as PIC, the linker optimizes R_386_GOT32X
- * relocations to their fixed symbol addresses.  However, when the
- * compressed x86 kernel is loaded at a different address, it leads
- * to the following load failure:
- *
- *   Failed to allocate space for phdrs
- *
- * during the decompression stage.
- *
- * If the compressed x86 kernel is relocatable at run-time, it should be
- * compiled with -fPIE, instead of -fPIC, if possible and should be built as
- * Position Independent Executable (PIE) so that linker won't optimize
- * R_386_GOT32X relocation to its fixed symbol address.  Older
- * linkers generate R_386_32 relocations against locally defined symbols,
- * _bss, _ebss, _got, _egot and _end, in PIE.  It isn't wrong, just less
- * optimal than R_386_RELATIVE.  But the x86 kernel fails to properly handle
- * R_386_32 relocations when relocating the kernel.  To generate
- * R_386_RELATIVE relocations, we mark _bss, _ebss, _got, _egot and _end as
- * hidden:
+ * These symbols needed to be marked as .hidden to prevent the BFD linker from
+ * generating R_386_32 (rather than R_386_RELATIVE) relocations for them when
+ * the 32-bit compressed kernel is linked as PIE. This is no longer necessary,
+ * but it doesn't hurt to keep them .hidden.
  */
        .hidden _bss
        .hidden _ebss
-       .hidden _got
-       .hidden _egot
        .hidden _end
 
        __HEAD
@@ -77,10 +58,10 @@ SYM_FUNC_START(startup_32)
        leal    (BP_scratch+4)(%esi), %esp
        call    1f
 1:     popl    %edx
-       subl    $1b, %edx
+       addl    $_GLOBAL_OFFSET_TABLE_+(.-1b), %edx
 
        /* Load new GDT */
-       leal    gdt(%edx), %eax
+       leal    gdt@GOTOFF(%edx), %eax
        movl    %eax, 2(%eax)
        lgdt    (%eax)
 
@@ -93,14 +74,16 @@ SYM_FUNC_START(startup_32)
        movl    %eax, %ss
 
 /*
- * %edx contains the address we are loaded at by the boot loader and %ebx
- * contains the address where we should move the kernel image temporarily
- * for safe in-place decompression. %ebp contains the address that the kernel
- * will be decompressed to.
+ * %edx contains the address we are loaded at by the boot loader (plus the
+ * offset to the GOT).  The below code calculates %ebx to be the address where
+ * we should move the kernel image temporarily for safe in-place decompression
+ * (again, plus the offset to the GOT).
+ *
+ * %ebp is calculated to be the address that the kernel will be decompressed to.
  */
 
 #ifdef CONFIG_RELOCATABLE
-       movl    %edx, %ebx
+       leal    startup_32@GOTOFF(%edx), %ebx
 
 #ifdef CONFIG_EFI_STUB
 /*
@@ -111,7 +94,7 @@ SYM_FUNC_START(startup_32)
  *     image_offset = startup_32 - image_base
  * Otherwise image_offset will be zero and has no effect on the calculations.
  */
-       subl    image_offset(%edx), %ebx
+       subl    image_offset@GOTOFF(%edx), %ebx
 #endif
 
        movl    BP_kernel_alignment(%esi), %eax
@@ -128,10 +111,10 @@ SYM_FUNC_START(startup_32)
        movl    %ebx, %ebp      // Save the output address for later
        /* Target address to relocate to for decompression */
        addl    BP_init_size(%esi), %ebx
-       subl    $_end, %ebx
+       subl    $_end@GOTOFF, %ebx
 
        /* Set up the stack */
-       leal    boot_stack_end(%ebx), %esp
+       leal    boot_stack_end@GOTOFF(%ebx), %esp
 
        /* Zero EFLAGS */
        pushl   $0
@@ -142,8 +125,8 @@ SYM_FUNC_START(startup_32)
  * where decompression in place becomes safe.
  */
        pushl   %esi
-       leal    (_bss-4)(%edx), %esi
-       leal    (_bss-4)(%ebx), %edi
+       leal    (_bss@GOTOFF-4)(%edx), %esi
+       leal    (_bss@GOTOFF-4)(%ebx), %edi
        movl    $(_bss - startup_32), %ecx
        shrl    $2, %ecx
        std
@@ -156,14 +139,14 @@ SYM_FUNC_START(startup_32)
         * during extract_kernel below. To avoid any issues, repoint the GDTR
         * to the new copy of the GDT.
         */
-       leal    gdt(%ebx), %eax
+       leal    gdt@GOTOFF(%ebx), %eax
        movl    %eax, 2(%eax)
        lgdt    (%eax)
 
 /*
  * Jump to the relocated address.
  */
-       leal    .Lrelocated(%ebx), %eax
+       leal    .Lrelocated@GOTOFF(%ebx), %eax
        jmp     *%eax
 SYM_FUNC_END(startup_32)
 
@@ -173,7 +156,7 @@ SYM_FUNC_START_ALIAS(efi_stub_entry)
        add     $0x4, %esp
        movl    8(%esp), %esi   /* save boot_params pointer */
        call    efi_main
-       leal    startup_32(%eax), %eax
+       /* efi_main returns the possibly relocated address of startup_32 */
        jmp     *%eax
 SYM_FUNC_END(efi32_stub_entry)
 SYM_FUNC_END_ALIAS(efi_stub_entry)
@@ -186,40 +169,26 @@ SYM_FUNC_START_LOCAL_NOALIGN(.Lrelocated)
  * Clear BSS (stack is currently empty)
  */
        xorl    %eax, %eax
-       leal    _bss(%ebx), %edi
-       leal    _ebss(%ebx), %ecx
+       leal    _bss@GOTOFF(%ebx), %edi
+       leal    _ebss@GOTOFF(%ebx), %ecx
        subl    %edi, %ecx
        shrl    $2, %ecx
        rep     stosl
 
 /*
- * Adjust our own GOT
- */
-       leal    _got(%ebx), %edx
-       leal    _egot(%ebx), %ecx
-1:
-       cmpl    %ecx, %edx
-       jae     2f
-       addl    %ebx, (%edx)
-       addl    $4, %edx
-       jmp     1b
-2:
-
-/*
  * Do the extraction, and jump to the new kernel..
  */
-                               /* push arguments for extract_kernel: */
-       pushl   $z_output_len   /* decompressed length, end of relocs */
-
-       pushl   %ebp            /* output address */
-
-       pushl   $z_input_len    /* input_len */
-       leal    input_data(%ebx), %eax
-       pushl   %eax            /* input_data */
-       leal    boot_heap(%ebx), %eax
-       pushl   %eax            /* heap area */
-       pushl   %esi            /* real mode pointer */
-       call    extract_kernel  /* returns kernel location in %eax */
+       /* push arguments for extract_kernel: */
+
+       pushl   output_len@GOTOFF(%ebx) /* decompressed length, end of relocs */
+       pushl   %ebp                    /* output address */
+       pushl   input_len@GOTOFF(%ebx)  /* input_len */
+       leal    input_data@GOTOFF(%ebx), %eax
+       pushl   %eax                    /* input_data */
+       leal    boot_heap@GOTOFF(%ebx), %eax
+       pushl   %eax                    /* heap area */
+       pushl   %esi                    /* real mode pointer */
+       call    extract_kernel          /* returns kernel location in %eax */
        addl    $24, %esp
 
 /*
index 97d37f0..9e46729 100644 (file)
  */
        .hidden _bss
        .hidden _ebss
-       .hidden _got
-       .hidden _egot
        .hidden _end
 
        __HEAD
+
+/*
+ * This macro gives the relative virtual address of X, i.e. the offset of X
+ * from startup_32. This is the same as the link-time virtual address of X,
+ * since startup_32 is at 0, but defining it this way tells the
+ * assembler/linker that we do not want the actual run-time address of X. This
+ * prevents the linker from trying to create unwanted run-time relocation
+ * entries for the reference when the compressed kernel is linked as PIE.
+ *
+ * A reference X(%reg) will result in the link-time VA of X being stored with
+ * the instruction, and a run-time R_X86_64_RELATIVE relocation entry that
+ * adds the 64-bit base address where the kernel is loaded.
+ *
+ * Replacing it with (X-startup_32)(%reg) results in the offset being stored,
+ * and no run-time relocation.
+ *
+ * The macro should be used as a displacement with a base register containing
+ * the run-time address of startup_32 [i.e. rva(X)(%reg)], or as an immediate
+ * [$ rva(X)].
+ *
+ * This macro can only be used from within the .head.text section, since the
+ * expression requires startup_32 to be in the same section as the code being
+ * assembled.
+ */
+#define rva(X) ((X) - startup_32)
+
        .code32
 SYM_FUNC_START(startup_32)
        /*
@@ -67,10 +91,10 @@ SYM_FUNC_START(startup_32)
        leal    (BP_scratch+4)(%esi), %esp
        call    1f
 1:     popl    %ebp
-       subl    $1b, %ebp
+       subl    $ rva(1b), %ebp
 
        /* Load new GDT with the 64bit segments using 32bit descriptor */
-       leal    gdt(%ebp), %eax
+       leal    rva(gdt)(%ebp), %eax
        movl    %eax, 2(%eax)
        lgdt    (%eax)
 
@@ -83,7 +107,7 @@ SYM_FUNC_START(startup_32)
        movl    %eax, %ss
 
 /* setup a stack and make sure cpu supports long mode. */
-       leal    boot_stack_end(%ebp), %esp
+       leal    rva(boot_stack_end)(%ebp), %esp
 
        call    verify_cpu
        testl   %eax, %eax
@@ -110,7 +134,7 @@ SYM_FUNC_START(startup_32)
  *     image_offset = startup_32 - image_base
  * Otherwise image_offset will be zero and has no effect on the calculations.
  */
-       subl    image_offset(%ebp), %ebx
+       subl    rva(image_offset)(%ebp), %ebx
 #endif
 
        movl    BP_kernel_alignment(%esi), %eax
@@ -126,7 +150,7 @@ SYM_FUNC_START(startup_32)
 
        /* Target address to relocate to for decompression */
        addl    BP_init_size(%esi), %ebx
-       subl    $_end, %ebx
+       subl    $ rva(_end), %ebx
 
 /*
  * Prepare for entering 64 bit mode
@@ -154,19 +178,19 @@ SYM_FUNC_START(startup_32)
 1:
 
        /* Initialize Page tables to 0 */
-       leal    pgtable(%ebx), %edi
+       leal    rva(pgtable)(%ebx), %edi
        xorl    %eax, %eax
        movl    $(BOOT_INIT_PGT_SIZE/4), %ecx
        rep     stosl
 
        /* Build Level 4 */
-       leal    pgtable + 0(%ebx), %edi
+       leal    rva(pgtable + 0)(%ebx), %edi
        leal    0x1007 (%edi), %eax
        movl    %eax, 0(%edi)
        addl    %edx, 4(%edi)
 
        /* Build Level 3 */
-       leal    pgtable + 0x1000(%ebx), %edi
+       leal    rva(pgtable + 0x1000)(%ebx), %edi
        leal    0x1007(%edi), %eax
        movl    $4, %ecx
 1:     movl    %eax, 0x00(%edi)
@@ -177,7 +201,7 @@ SYM_FUNC_START(startup_32)
        jnz     1b
 
        /* Build Level 2 */
-       leal    pgtable + 0x2000(%ebx), %edi
+       leal    rva(pgtable + 0x2000)(%ebx), %edi
        movl    $0x00000183, %eax
        movl    $2048, %ecx
 1:     movl    %eax, 0(%edi)
@@ -188,7 +212,7 @@ SYM_FUNC_START(startup_32)
        jnz     1b
 
        /* Enable the boot page tables */
-       leal    pgtable(%ebx), %eax
+       leal    rva(pgtable)(%ebx), %eax
        movl    %eax, %cr3
 
        /* Enable Long mode in EFER (Extended Feature Enable Register) */
@@ -213,14 +237,14 @@ SYM_FUNC_START(startup_32)
         * We place all of the values on our mini stack so lret can
         * used to perform that far jump.
         */
-       leal    startup_64(%ebp), %eax
+       leal    rva(startup_64)(%ebp), %eax
 #ifdef CONFIG_EFI_MIXED
-       movl    efi32_boot_args(%ebp), %edi
+       movl    rva(efi32_boot_args)(%ebp), %edi
        cmp     $0, %edi
        jz      1f
-       leal    efi64_stub_entry(%ebp), %eax
-       movl    efi32_boot_args+4(%ebp), %esi
-       movl    efi32_boot_args+8(%ebp), %edx   // saved bootparams pointer
+       leal    rva(efi64_stub_entry)(%ebp), %eax
+       movl    rva(efi32_boot_args+4)(%ebp), %esi
+       movl    rva(efi32_boot_args+8)(%ebp), %edx      // saved bootparams pointer
        cmpl    $0, %edx
        jnz     1f
        /*
@@ -231,7 +255,7 @@ SYM_FUNC_START(startup_32)
         * the correct stack alignment for entry.
         */
        subl    $40, %esp
-       leal    efi_pe_entry(%ebp), %eax
+       leal    rva(efi_pe_entry)(%ebp), %eax
        movl    %edi, %ecx                      // MS calling convention
        movl    %esi, %edx
 1:
@@ -257,18 +281,18 @@ SYM_FUNC_START(efi32_stub_entry)
 
        call    1f
 1:     pop     %ebp
-       subl    $1b, %ebp
+       subl    $ rva(1b), %ebp
 
-       movl    %esi, efi32_boot_args+8(%ebp)
+       movl    %esi, rva(efi32_boot_args+8)(%ebp)
 SYM_INNER_LABEL(efi32_pe_stub_entry, SYM_L_LOCAL)
-       movl    %ecx, efi32_boot_args(%ebp)
-       movl    %edx, efi32_boot_args+4(%ebp)
-       movb    $0, efi_is64(%ebp)
+       movl    %ecx, rva(efi32_boot_args)(%ebp)
+       movl    %edx, rva(efi32_boot_args+4)(%ebp)
+       movb    $0, rva(efi_is64)(%ebp)
 
        /* Save firmware GDTR and code/data selectors */
-       sgdtl   efi32_boot_gdt(%ebp)
-       movw    %cs, efi32_boot_cs(%ebp)
-       movw    %ds, efi32_boot_ds(%ebp)
+       sgdtl   rva(efi32_boot_gdt)(%ebp)
+       movw    %cs, rva(efi32_boot_cs)(%ebp)
+       movw    %ds, rva(efi32_boot_ds)(%ebp)
 
        /* Disable paging */
        movl    %cr0, %eax
@@ -347,30 +371,11 @@ SYM_CODE_START(startup_64)
 
        /* Target address to relocate to for decompression */
        movl    BP_init_size(%rsi), %ebx
-       subl    $_end, %ebx
+       subl    $ rva(_end), %ebx
        addq    %rbp, %rbx
 
        /* Set up the stack */
-       leaq    boot_stack_end(%rbx), %rsp
-
-       /*
-        * paging_prepare() and cleanup_trampoline() below can have GOT
-        * references. Adjust the table with address we are running at.
-        *
-        * Zero RAX for adjust_got: the GOT was not adjusted before;
-        * there's no adjustment to undo.
-        */
-       xorq    %rax, %rax
-
-       /*
-        * Calculate the address the binary is loaded at and use it as
-        * a GOT adjustment.
-        */
-       call    1f
-1:     popq    %rdi
-       subq    $1b, %rdi
-
-       call    .Ladjust_got
+       leaq    rva(boot_stack_end)(%rbx), %rsp
 
        /*
         * At this point we are in long mode with 4-level paging enabled,
@@ -444,7 +449,7 @@ SYM_CODE_START(startup_64)
        lretq
 trampoline_return:
        /* Restore the stack, the 32-bit trampoline uses its own stack */
-       leaq    boot_stack_end(%rbx), %rsp
+       leaq    rva(boot_stack_end)(%rbx), %rsp
 
        /*
         * cleanup_trampoline() would restore trampoline memory.
@@ -456,7 +461,7 @@ trampoline_return:
         * this function call.
         */
        pushq   %rsi
-       leaq    top_pgtable(%rbx), %rdi
+       leaq    rva(top_pgtable)(%rbx), %rdi
        call    cleanup_trampoline
        popq    %rsi
 
@@ -464,30 +469,15 @@ trampoline_return:
        pushq   $0
        popfq
 
-       /*
-        * Previously we've adjusted the GOT with address the binary was
-        * loaded at. Now we need to re-adjust for relocation address.
-        *
-        * Calculate the address the binary is loaded at, so that we can
-        * undo the previous GOT adjustment.
-        */
-       call    1f
-1:     popq    %rax
-       subq    $1b, %rax
-
-       /* The new adjustment is the relocation address */
-       movq    %rbx, %rdi
-       call    .Ladjust_got
-
 /*
  * Copy the compressed kernel to the end of our buffer
  * where decompression in place becomes safe.
  */
        pushq   %rsi
        leaq    (_bss-8)(%rip), %rsi
-       leaq    (_bss-8)(%rbx), %rdi
-       movq    $_bss /* - $startup_32 */, %rcx
-       shrq    $3, %rcx
+       leaq    rva(_bss-8)(%rbx), %rdi
+       movl    $(_bss - startup_32), %ecx
+       shrl    $3, %ecx
        std
        rep     movsq
        cld
@@ -498,15 +488,15 @@ trampoline_return:
         * during extract_kernel below. To avoid any issues, repoint the GDTR
         * to the new copy of the GDT.
         */
-       leaq    gdt64(%rbx), %rax
-       leaq    gdt(%rbx), %rdx
+       leaq    rva(gdt64)(%rbx), %rax
+       leaq    rva(gdt)(%rbx), %rdx
        movq    %rdx, 2(%rax)
        lgdt    (%rax)
 
 /*
  * Jump to the relocated address.
  */
-       leaq    .Lrelocated(%rbx), %rax
+       leaq    rva(.Lrelocated)(%rbx), %rax
        jmp     *%rax
 SYM_CODE_END(startup_64)
 
@@ -518,7 +508,7 @@ SYM_FUNC_START_ALIAS(efi_stub_entry)
        movq    %rdx, %rbx                      /* save boot_params pointer */
        call    efi_main
        movq    %rbx,%rsi
-       leaq    startup_64(%rax), %rax
+       leaq    rva(startup_64)(%rax), %rax
        jmp     *%rax
 SYM_FUNC_END(efi64_stub_entry)
 SYM_FUNC_END_ALIAS(efi_stub_entry)
@@ -544,9 +534,9 @@ SYM_FUNC_START_LOCAL_NOALIGN(.Lrelocated)
        movq    %rsi, %rdi              /* real mode address */
        leaq    boot_heap(%rip), %rsi   /* malloc area for uncompression */
        leaq    input_data(%rip), %rdx  /* input_data */
-       movl    $z_input_len, %ecx      /* input_len */
+       movl    input_len(%rip), %ecx   /* input_len */
        movq    %rbp, %r8               /* output target address */
-       movl    $z_output_len, %r9d     /* decompressed length, end of relocs */
+       movl    output_len(%rip), %r9d  /* decompressed length, end of relocs */
        call    extract_kernel          /* returns kernel location in %rax */
        popq    %rsi
 
@@ -556,27 +546,6 @@ SYM_FUNC_START_LOCAL_NOALIGN(.Lrelocated)
        jmp     *%rax
 SYM_FUNC_END(.Lrelocated)
 
-/*
- * Adjust the global offset table
- *
- * RAX is the previous adjustment of the table to undo (use 0 if it's the
- * first time we touch GOT).
- * RDI is the new adjustment to apply.
- */
-.Ladjust_got:
-       /* Walk through the GOT adding the address to the entries */
-       leaq    _got(%rip), %rdx
-       leaq    _egot(%rip), %rcx
-1:
-       cmpq    %rcx, %rdx
-       jae     2f
-       subq    %rax, (%rdx)    /* Undo previous adjustment */
-       addq    %rdi, (%rdx)    /* Apply the new adjustment */
-       addq    $8, %rdx
-       jmp     1b
-2:
-       ret
-
        .code32
 /*
  * This is the 32-bit trampoline that will be copied over to low memory.
@@ -702,7 +671,7 @@ SYM_DATA(efi_is64, .byte 1)
 #define BS32_handle_protocol   88 // offsetof(efi_boot_services_32_t, handle_protocol)
 #define LI32_image_base                32 // offsetof(efi_loaded_image_32_t, image_base)
 
-       .text
+       __HEAD
        .code32
 SYM_FUNC_START(efi32_pe_entry)
 /*
@@ -724,12 +693,12 @@ SYM_FUNC_START(efi32_pe_entry)
 
        call    1f
 1:     pop     %ebx
-       subl    $1b, %ebx
+       subl    $ rva(1b), %ebx
 
        /* Get the loaded image protocol pointer from the image handle */
        leal    -4(%ebp), %eax
        pushl   %eax                            // &loaded_image
-       leal    loaded_image_proto(%ebx), %eax
+       leal    rva(loaded_image_proto)(%ebx), %eax
        pushl   %eax                            // pass the GUID address
        pushl   8(%ebp)                         // pass the image handle
 
@@ -764,7 +733,7 @@ SYM_FUNC_START(efi32_pe_entry)
         * use it before we get to the 64-bit efi_pe_entry() in C code.
         */
        subl    %esi, %ebx
-       movl    %ebx, image_offset(%ebp)        // save image_offset
+       movl    %ebx, rva(image_offset)(%ebp)   // save image_offset
        jmp     efi32_pe_stub_entry
 
 2:     popl    %edi                            // restore callee-save registers
index dde7cb3..877970d 100644 (file)
 #define STATIC
 #include <linux/decompress/mm.h>
 
+#define _SETUP
+#include <asm/setup.h> /* For COMMAND_LINE_SIZE */
+#undef _SETUP
+
 #ifdef CONFIG_X86_5LEVEL
 unsigned int __pgtable_l5_enabled;
 unsigned int pgdir_shift __ro_after_init = 39;
@@ -87,8 +91,11 @@ static unsigned long get_boot_seed(void)
 static bool memmap_too_large;
 
 
-/* Store memory limit specified by "mem=nn[KMG]" or "memmap=nn[KMG]" */
-static unsigned long long mem_limit = ULLONG_MAX;
+/*
+ * Store memory limit: MAXMEM on 64-bit and KERNEL_IMAGE_SIZE on 32-bit.
+ * It may be reduced by "mem=nn[KMG]" or "memmap=nn[KMG]" command line options.
+ */
+static u64 mem_limit;
 
 /* Number of immovable memory regions */
 static int num_immovable_mem;
@@ -131,8 +138,7 @@ enum parse_mode {
 };
 
 static int
-parse_memmap(char *p, unsigned long long *start, unsigned long long *size,
-               enum parse_mode mode)
+parse_memmap(char *p, u64 *start, u64 *size, enum parse_mode mode)
 {
        char *oldp;
 
@@ -162,7 +168,7 @@ parse_memmap(char *p, unsigned long long *start, unsigned long long *size,
                         */
                        *size = 0;
                } else {
-                       unsigned long long flags;
+                       u64 flags;
 
                        /*
                         * efi_fake_mem=nn@ss:attr the attr specifies
@@ -201,7 +207,7 @@ static void mem_avoid_memmap(enum parse_mode mode, char *str)
 
        while (str && (i < MAX_MEMMAP_REGIONS)) {
                int rc;
-               unsigned long long start, size;
+               u64 start, size;
                char *k = strchr(str, ',');
 
                if (k)
@@ -214,7 +220,7 @@ static void mem_avoid_memmap(enum parse_mode mode, char *str)
 
                if (start == 0) {
                        /* Store the specified memory limit if size > 0 */
-                       if (size > 0)
+                       if (size > 0 && size < mem_limit)
                                mem_limit = size;
 
                        continue;
@@ -261,15 +267,15 @@ static void parse_gb_huge_pages(char *param, char *val)
 static void handle_mem_options(void)
 {
        char *args = (char *)get_cmd_line_ptr();
-       size_t len = strlen((char *)args);
+       size_t len;
        char *tmp_cmdline;
        char *param, *val;
        u64 mem_size;
 
-       if (!strstr(args, "memmap=") && !strstr(args, "mem=") &&
-               !strstr(args, "hugepages"))
+       if (!args)
                return;
 
+       len = strnlen(args, COMMAND_LINE_SIZE-1);
        tmp_cmdline = malloc(len + 1);
        if (!tmp_cmdline)
                error("Failed to allocate space for tmp_cmdline");
@@ -284,14 +290,12 @@ static void handle_mem_options(void)
        while (*args) {
                args = next_arg(args, &param, &val);
                /* Stop at -- */
-               if (!val && strcmp(param, "--") == 0) {
-                       warn("Only '--' specified in cmdline");
-                       goto out;
-               }
+               if (!val && strcmp(param, "--") == 0)
+                       break;
 
                if (!strcmp(param, "memmap")) {
                        mem_avoid_memmap(PARSE_MEMMAP, val);
-               } else if (strstr(param, "hugepages")) {
+               } else if (IS_ENABLED(CONFIG_X86_64) && strstr(param, "hugepages")) {
                        parse_gb_huge_pages(param, val);
                } else if (!strcmp(param, "mem")) {
                        char *p = val;
@@ -300,21 +304,23 @@ static void handle_mem_options(void)
                                continue;
                        mem_size = memparse(p, &p);
                        if (mem_size == 0)
-                               goto out;
+                               break;
 
-                       mem_limit = mem_size;
+                       if (mem_size < mem_limit)
+                               mem_limit = mem_size;
                } else if (!strcmp(param, "efi_fake_mem")) {
                        mem_avoid_memmap(PARSE_EFI, val);
                }
        }
 
-out:
        free(tmp_cmdline);
        return;
 }
 
 /*
- * In theory, KASLR can put the kernel anywhere in the range of [16M, 64T).
+ * In theory, KASLR can put the kernel anywhere in the range of [16M, MAXMEM)
+ * on 64-bit, and [16M, KERNEL_IMAGE_SIZE) on 32-bit.
+ *
  * The mem_avoid array is used to store the ranges that need to be avoided
  * when KASLR searches for an appropriate random address. We must avoid any
  * regions that are unsafe to overlap with during decompression, and other
@@ -392,8 +398,7 @@ static void mem_avoid_init(unsigned long input, unsigned long input_size,
 {
        unsigned long init_size = boot_params->hdr.init_size;
        u64 initrd_start, initrd_size;
-       u64 cmd_line, cmd_line_size;
-       char *ptr;
+       unsigned long cmd_line, cmd_line_size;
 
        /*
         * Avoid the region that is unsafe to overlap during
@@ -414,16 +419,15 @@ static void mem_avoid_init(unsigned long input, unsigned long input_size,
        /* No need to set mapping for initrd, it will be handled in VO. */
 
        /* Avoid kernel command line. */
-       cmd_line  = (u64)boot_params->ext_cmd_line_ptr << 32;
-       cmd_line |= boot_params->hdr.cmd_line_ptr;
+       cmd_line = get_cmd_line_ptr();
        /* Calculate size of cmd_line. */
-       ptr = (char *)(unsigned long)cmd_line;
-       for (cmd_line_size = 0; ptr[cmd_line_size++];)
-               ;
-       mem_avoid[MEM_AVOID_CMDLINE].start = cmd_line;
-       mem_avoid[MEM_AVOID_CMDLINE].size = cmd_line_size;
-       add_identity_map(mem_avoid[MEM_AVOID_CMDLINE].start,
-                        mem_avoid[MEM_AVOID_CMDLINE].size);
+       if (cmd_line) {
+               cmd_line_size = strnlen((char *)cmd_line, COMMAND_LINE_SIZE-1) + 1;
+               mem_avoid[MEM_AVOID_CMDLINE].start = cmd_line;
+               mem_avoid[MEM_AVOID_CMDLINE].size = cmd_line_size;
+               add_identity_map(mem_avoid[MEM_AVOID_CMDLINE].start,
+                                mem_avoid[MEM_AVOID_CMDLINE].size);
+       }
 
        /* Avoid boot parameters. */
        mem_avoid[MEM_AVOID_BOOTPARAMS].start = (unsigned long)boot_params;
@@ -454,7 +458,7 @@ static bool mem_avoid_overlap(struct mem_vector *img,
 {
        int i;
        struct setup_data *ptr;
-       unsigned long earliest = img->start + img->size;
+       u64 earliest = img->start + img->size;
        bool is_overlapping = false;
 
        for (i = 0; i < MEM_AVOID_MAX; i++) {
@@ -499,18 +503,16 @@ static bool mem_avoid_overlap(struct mem_vector *img,
 }
 
 struct slot_area {
-       unsigned long addr;
-       int num;
+       u64 addr;
+       unsigned long num;
 };
 
 #define MAX_SLOT_AREA 100
 
 static struct slot_area slot_areas[MAX_SLOT_AREA];
-
+static unsigned int slot_area_index;
 static unsigned long slot_max;
 
-static unsigned long slot_area_index;
-
 static void store_slot_info(struct mem_vector *region, unsigned long image_size)
 {
        struct slot_area slot_area;
@@ -519,13 +521,10 @@ static void store_slot_info(struct mem_vector *region, unsigned long image_size)
                return;
 
        slot_area.addr = region->start;
-       slot_area.num = (region->size - image_size) /
-                       CONFIG_PHYSICAL_ALIGN + 1;
+       slot_area.num = 1 + (region->size - image_size) / CONFIG_PHYSICAL_ALIGN;
 
-       if (slot_area.num > 0) {
-               slot_areas[slot_area_index++] = slot_area;
-               slot_max += slot_area.num;
-       }
+       slot_areas[slot_area_index++] = slot_area;
+       slot_max += slot_area.num;
 }
 
 /*
@@ -535,57 +534,53 @@ static void store_slot_info(struct mem_vector *region, unsigned long image_size)
 static void
 process_gb_huge_pages(struct mem_vector *region, unsigned long image_size)
 {
-       unsigned long addr, size = 0;
+       u64 pud_start, pud_end;
+       unsigned long gb_huge_pages;
        struct mem_vector tmp;
-       int i = 0;
 
-       if (!max_gb_huge_pages) {
+       if (!IS_ENABLED(CONFIG_X86_64) || !max_gb_huge_pages) {
                store_slot_info(region, image_size);
                return;
        }
 
-       addr = ALIGN(region->start, PUD_SIZE);
-       /* Did we raise the address above the passed in memory entry? */
-       if (addr < region->start + region->size)
-               size = region->size - (addr - region->start);
-
-       /* Check how many 1GB huge pages can be filtered out: */
-       while (size > PUD_SIZE && max_gb_huge_pages) {
-               size -= PUD_SIZE;
-               max_gb_huge_pages--;
-               i++;
-       }
+       /* Are there any 1GB pages in the region? */
+       pud_start = ALIGN(region->start, PUD_SIZE);
+       pud_end = ALIGN_DOWN(region->start + region->size, PUD_SIZE);
 
        /* No good 1GB huge pages found: */
-       if (!i) {
+       if (pud_start >= pud_end) {
                store_slot_info(region, image_size);
                return;
        }
 
-       /*
-        * Skip those 'i'*1GB good huge pages, and continue checking and
-        * processing the remaining head or tail part of the passed region
-        * if available.
-        */
-
-       if (addr >= region->start + image_size) {
+       /* Check if the head part of the region is usable. */
+       if (pud_start >= region->start + image_size) {
                tmp.start = region->start;
-               tmp.size = addr - region->start;
+               tmp.size = pud_start - region->start;
                store_slot_info(&tmp, image_size);
        }
 
-       size  = region->size - (addr - region->start) - i * PUD_SIZE;
-       if (size >= image_size) {
-               tmp.start = addr + i * PUD_SIZE;
-               tmp.size = size;
+       /* Skip the good 1GB pages. */
+       gb_huge_pages = (pud_end - pud_start) >> PUD_SHIFT;
+       if (gb_huge_pages > max_gb_huge_pages) {
+               pud_end = pud_start + (max_gb_huge_pages << PUD_SHIFT);
+               max_gb_huge_pages = 0;
+       } else {
+               max_gb_huge_pages -= gb_huge_pages;
+       }
+
+       /* Check if the tail part of the region is usable. */
+       if (region->start + region->size >= pud_end + image_size) {
+               tmp.start = pud_end;
+               tmp.size = region->start + region->size - pud_end;
                store_slot_info(&tmp, image_size);
        }
 }
 
-static unsigned long slots_fetch_random(void)
+static u64 slots_fetch_random(void)
 {
        unsigned long slot;
-       int i;
+       unsigned int i;
 
        /* Handle case of no slots stored. */
        if (slot_max == 0)
@@ -598,7 +593,7 @@ static unsigned long slots_fetch_random(void)
                        slot -= slot_areas[i].num;
                        continue;
                }
-               return slot_areas[i].addr + slot * CONFIG_PHYSICAL_ALIGN;
+               return slot_areas[i].addr + ((u64)slot * CONFIG_PHYSICAL_ALIGN);
        }
 
        if (i == slot_area_index)
@@ -611,49 +606,23 @@ static void __process_mem_region(struct mem_vector *entry,
                                 unsigned long image_size)
 {
        struct mem_vector region, overlap;
-       unsigned long start_orig, end;
-       struct mem_vector cur_entry;
-
-       /* On 32-bit, ignore entries entirely above our maximum. */
-       if (IS_ENABLED(CONFIG_X86_32) && entry->start >= KERNEL_IMAGE_SIZE)
-               return;
+       u64 region_end;
 
-       /* Ignore entries entirely below our minimum. */
-       if (entry->start + entry->size < minimum)
-               return;
-
-       /* Ignore entries above memory limit */
-       end = min(entry->size + entry->start, mem_limit);
-       if (entry->start >= end)
-               return;
-       cur_entry.start = entry->start;
-       cur_entry.size = end - entry->start;
-
-       region.start = cur_entry.start;
-       region.size = cur_entry.size;
+       /* Enforce minimum and memory limit. */
+       region.start = max_t(u64, entry->start, minimum);
+       region_end = min(entry->start + entry->size, mem_limit);
 
        /* Give up if slot area array is full. */
        while (slot_area_index < MAX_SLOT_AREA) {
-               start_orig = region.start;
-
-               /* Potentially raise address to minimum location. */
-               if (region.start < minimum)
-                       region.start = minimum;
-
                /* Potentially raise address to meet alignment needs. */
                region.start = ALIGN(region.start, CONFIG_PHYSICAL_ALIGN);
 
                /* Did we raise the address above the passed in memory entry? */
-               if (region.start > cur_entry.start + cur_entry.size)
+               if (region.start > region_end)
                        return;
 
                /* Reduce size by any delta from the original address. */
-               region.size -= region.start - start_orig;
-
-               /* On 32-bit, reduce region size to fit within max size. */
-               if (IS_ENABLED(CONFIG_X86_32) &&
-                   region.start + region.size > KERNEL_IMAGE_SIZE)
-                       region.size = KERNEL_IMAGE_SIZE - region.start;
+               region.size = region_end - region.start;
 
                /* Return if region can't contain decompressed kernel */
                if (region.size < image_size)
@@ -666,27 +635,19 @@ static void __process_mem_region(struct mem_vector *entry,
                }
 
                /* Store beginning of region if holds at least image_size. */
-               if (overlap.start > region.start + image_size) {
-                       struct mem_vector beginning;
-
-                       beginning.start = region.start;
-                       beginning.size = overlap.start - region.start;
-                       process_gb_huge_pages(&beginning, image_size);
+               if (overlap.start >= region.start + image_size) {
+                       region.size = overlap.start - region.start;
+                       process_gb_huge_pages(&region, image_size);
                }
 
-               /* Return if overlap extends to or past end of region. */
-               if (overlap.start + overlap.size >= region.start + region.size)
-                       return;
-
                /* Clip off the overlapping region and start over. */
-               region.size -= overlap.start - region.start + overlap.size;
                region.start = overlap.start + overlap.size;
        }
 }
 
 static bool process_mem_region(struct mem_vector *region,
-                              unsigned long long minimum,
-                              unsigned long long image_size)
+                              unsigned long minimum,
+                              unsigned long image_size)
 {
        int i;
        /*
@@ -709,7 +670,7 @@ static bool process_mem_region(struct mem_vector *region,
         * immovable memory and @region.
         */
        for (i = 0; i < num_immovable_mem; i++) {
-               unsigned long long start, end, entry_end, region_end;
+               u64 start, end, entry_end, region_end;
                struct mem_vector entry;
 
                if (!mem_overlaps(region, &immovable_mem[i]))
@@ -736,8 +697,8 @@ static bool process_mem_region(struct mem_vector *region,
 
 #ifdef CONFIG_EFI
 /*
- * Returns true if mirror region found (and must have been processed
- * for slots adding)
+ * Returns true if we processed the EFI memmap, which we prefer over the E820
+ * table if it is available.
  */
 static bool
 process_efi_entries(unsigned long minimum, unsigned long image_size)
@@ -839,20 +800,30 @@ static void process_e820_entries(unsigned long minimum,
 static unsigned long find_random_phys_addr(unsigned long minimum,
                                           unsigned long image_size)
 {
+       u64 phys_addr;
+
+       /* Bail out early if it's impossible to succeed. */
+       if (minimum + image_size > mem_limit)
+               return 0;
+
        /* Check if we had too many memmaps. */
        if (memmap_too_large) {
                debug_putstr("Aborted memory entries scan (more than 4 memmap= args)!\n");
                return 0;
        }
 
-       /* Make sure minimum is aligned. */
-       minimum = ALIGN(minimum, CONFIG_PHYSICAL_ALIGN);
+       if (!process_efi_entries(minimum, image_size))
+               process_e820_entries(minimum, image_size);
 
-       if (process_efi_entries(minimum, image_size))
-               return slots_fetch_random();
+       phys_addr = slots_fetch_random();
 
-       process_e820_entries(minimum, image_size);
-       return slots_fetch_random();
+       /* Perform a final check to make sure the address is in range. */
+       if (phys_addr < minimum || phys_addr + image_size > mem_limit) {
+               warn("Invalid physical address chosen!\n");
+               return 0;
+       }
+
+       return (unsigned long)phys_addr;
 }
 
 static unsigned long find_random_virt_addr(unsigned long minimum,
@@ -860,18 +831,12 @@ static unsigned long find_random_virt_addr(unsigned long minimum,
 {
        unsigned long slots, random_addr;
 
-       /* Make sure minimum is aligned. */
-       minimum = ALIGN(minimum, CONFIG_PHYSICAL_ALIGN);
-       /* Align image_size for easy slot calculations. */
-       image_size = ALIGN(image_size, CONFIG_PHYSICAL_ALIGN);
-
        /*
         * There are how many CONFIG_PHYSICAL_ALIGN-sized slots
         * that can hold image_size within the range of minimum to
         * KERNEL_IMAGE_SIZE?
         */
-       slots = (KERNEL_IMAGE_SIZE - minimum - image_size) /
-                CONFIG_PHYSICAL_ALIGN + 1;
+       slots = 1 + (KERNEL_IMAGE_SIZE - minimum - image_size) / CONFIG_PHYSICAL_ALIGN;
 
        random_addr = kaslr_get_random_long("Virtual") % slots;
 
@@ -908,6 +873,11 @@ void choose_random_location(unsigned long input,
        /* Prepare to add new identity pagetables on demand. */
        initialize_identity_maps();
 
+       if (IS_ENABLED(CONFIG_X86_32))
+               mem_limit = KERNEL_IMAGE_SIZE;
+       else
+               mem_limit = MAXMEM;
+
        /* Record the various known unsafe memory ranges. */
        mem_avoid_init(input, input_size, *output);
 
@@ -917,6 +887,8 @@ void choose_random_location(unsigned long input,
         * location:
         */
        min_addr = min(*output, 512UL << 20);
+       /* Make sure minimum is aligned. */
+       min_addr = ALIGN(min_addr, CONFIG_PHYSICAL_ALIGN);
 
        /* Walk available memory entries to find a random address. */
        random_addr = find_random_phys_addr(min_addr, output_size);
index 726e264..3efce27 100644 (file)
@@ -70,8 +70,8 @@ int cmdline_find_option(const char *option, char *buffer, int bufsize);
 int cmdline_find_option_bool(const char *option);
 
 struct mem_vector {
-       unsigned long long start;
-       unsigned long long size;
+       u64 start;
+       u64 size;
 };
 
 #if CONFIG_RANDOMIZE_BASE
index 7e01248..52aa56c 100644 (file)
@@ -60,6 +60,12 @@ int main(int argc, char *argv[])
        printf(".incbin \"%s\"\n", argv[1]);
        printf("input_data_end:\n");
 
+       printf(".section \".rodata\",\"a\",@progbits\n");
+       printf(".globl input_len\n");
+       printf("input_len:\n\t.long %lu\n", ilen);
+       printf(".globl output_len\n");
+       printf("output_len:\n\t.long %lu\n", (unsigned long)olen);
+
        retval = 0;
 bail:
        if (f)
index 8f1025d..112b237 100644 (file)
@@ -42,12 +42,6 @@ SECTIONS
                *(.rodata.*)
                _erodata = . ;
        }
-       .got : {
-               _got = .;
-               KEEP(*(.got.plt))
-               KEEP(*(.got))
-               _egot = .;
-       }
        .data : {
                _data = . ;
                *(.data)
@@ -75,5 +69,49 @@ SECTIONS
        . = ALIGN(PAGE_SIZE);   /* keep ZO size page aligned */
        _end = .;
 
+       STABS_DEBUG
+       DWARF_DEBUG
+       ELF_DETAILS
+
        DISCARDS
+       /DISCARD/ : {
+               *(.dynamic) *(.dynsym) *(.dynstr) *(.dynbss)
+               *(.hash) *(.gnu.hash)
+               *(.note.*)
+       }
+
+       .got.plt (INFO) : {
+               *(.got.plt)
+       }
+       ASSERT(SIZEOF(.got.plt) == 0 ||
+#ifdef CONFIG_X86_64
+              SIZEOF(.got.plt) == 0x18,
+#else
+              SIZEOF(.got.plt) == 0xc,
+#endif
+              "Unexpected GOT/PLT entries detected!")
+
+       /*
+        * Sections that should stay zero sized, which is safer to
+        * explicitly check instead of blindly discarding.
+        */
+       .got : {
+               *(.got)
+       }
+       ASSERT(SIZEOF(.got) == 0, "Unexpected GOT entries detected!")
+
+       .plt : {
+               *(.plt) *(.plt.*)
+       }
+       ASSERT(SIZEOF(.plt) == 0, "Unexpected run-time procedure linkages detected!")
+
+       .rel.dyn : {
+               *(.rel.*) *(.rel_*)
+       }
+       ASSERT(SIZEOF(.rel.dyn) == 0, "Unexpected run-time relocations (.rel) detected!")
+
+       .rela.dyn : {
+               *(.rela.*) *(.rela_*)
+       }
+       ASSERT(SIZEOF(.rela.dyn) == 0, "Unexpected run-time relocations (.rela) detected!")
 }
index 24c9552..49546c2 100644 (file)
@@ -20,7 +20,7 @@ SECTIONS
        .initdata       : { *(.initdata) }
        __end_init = .;
 
-       .text           : { *(.text) }
+       .text           : { *(.text .text.*) }
        .text32         : { *(.text32) }
 
        . = ALIGN(16);
index c8b8c1a..a3725ad 100644 (file)
@@ -416,8 +416,6 @@ int main(int argc, char ** argv)
        /* Set the default root device */
        put_unaligned_le16(DEFAULT_ROOT_DEV, &buf[508]);
 
-       printf("Setup is %d bytes (padded to %d bytes).\n", c, i);
-
        /* Open and stat the kernel file */
        fd = open(argv[2], O_RDONLY);
        if (fd < 0)
@@ -425,7 +423,6 @@ int main(int argc, char ** argv)
        if (fstat(fd, &sb))
                die("Unable to stat `%s': %m", argv[2]);
        sz = sb.st_size;
-       printf("System is %d kB\n", (sz+1023)/1024);
        kernel = mmap(NULL, sz, PROT_READ, MAP_SHARED, fd, 0);
        if (kernel == MAP_FAILED)
                die("Unable to mmap '%s': %m", argv[2]);
@@ -488,7 +485,6 @@ int main(int argc, char ** argv)
        }
 
        /* Write the CRC */
-       printf("CRC %x\n", crc);
        put_unaligned_le32(crc, buf);
        if (fwrite(buf, 1, 4, dest) != 4)
                die("Writing CRC failed");
index 6737bce..c025a01 100644 (file)
@@ -11,6 +11,7 @@
 #include <linux/jump_label.h>
 #include <linux/kernel.h>
 #include <linux/module.h>
+#include <linux/sizes.h>
 
 #include <asm/cpufeature.h>
 #include <asm/fpu/api.h>
index e67a591..7b3a1cf 100644 (file)
@@ -12,6 +12,7 @@
 #include <crypto/internal/skcipher.h>
 #include <linux/kernel.h>
 #include <linux/module.h>
+#include <linux/sizes.h>
 #include <asm/simd.h>
 
 asmlinkage void chacha_block_xor_ssse3(u32 *state, u8 *dst, const u8 *src,
index d2d069b..feccb52 100644 (file)
@@ -28,9 +28,9 @@
 #define SCALE_F        sizeof(unsigned long)
 
 #ifdef CONFIG_X86_64
-#define REX_PRE "0x48, "
+#define CRC32_INST "crc32q %1, %q0"
 #else
-#define REX_PRE
+#define CRC32_INST "crc32l %1, %0"
 #endif
 
 #ifdef CONFIG_X86_64
@@ -48,11 +48,8 @@ asmlinkage unsigned int crc_pcl(const u8 *buffer, int len,
 static u32 crc32c_intel_le_hw_byte(u32 crc, unsigned char const *data, size_t length)
 {
        while (length--) {
-               __asm__ __volatile__(
-                       ".byte 0xf2, 0xf, 0x38, 0xf0, 0xf1"
-                       :"=S"(crc)
-                       :"0"(crc), "c"(*data)
-               );
+               asm("crc32b %1, %0"
+                   : "+r" (crc) : "rm" (*data));
                data++;
        }
 
@@ -66,11 +63,8 @@ static u32 __pure crc32c_intel_le_hw(u32 crc, unsigned char const *p, size_t len
        unsigned long *ptmp = (unsigned long *)p;
 
        while (iquotient--) {
-               __asm__ __volatile__(
-                       ".byte 0xf2, " REX_PRE "0xf, 0x38, 0xf1, 0xf1;"
-                       :"=S"(crc)
-                       :"0"(crc), "c"(*ptmp)
-               );
+               asm(CRC32_INST
+                   : "+r" (crc) : "rm" (*ptmp));
                ptmp++;
        }
 
index 8acbb65..5af8021 100644 (file)
@@ -11,6 +11,7 @@
 #include <linux/jump_label.h>
 #include <linux/kernel.h>
 #include <linux/module.h>
+#include <linux/scatterlist.h>
 
 #include <asm/cpufeature.h>
 #include <asm/processor.h>
@@ -45,11 +46,11 @@ static inline u64 add_scalar(u64 *out, const u64 *f1, u64 f2)
 
        asm volatile(
                /* Clear registers to propagate the carry bit */
-               "  xor %%r8, %%r8;"
-               "  xor %%r9, %%r9;"
-               "  xor %%r10, %%r10;"
-               "  xor %%r11, %%r11;"
-               "  xor %1, %1;"
+               "  xor %%r8d, %%r8d;"
+               "  xor %%r9d, %%r9d;"
+               "  xor %%r10d, %%r10d;"
+               "  xor %%r11d, %%r11d;"
+               "  xor %k1, %k1;"
 
                /* Begin addition chain */
                "  addq 0(%3), %0;"
@@ -93,7 +94,7 @@ static inline void fadd(u64 *out, const u64 *f1, const u64 *f2)
                "  cmovc %0, %%rax;"
 
                /* Step 2: Add carry*38 to the original sum */
-               "  xor %%rcx, %%rcx;"
+               "  xor %%ecx, %%ecx;"
                "  add %%rax, %%r8;"
                "  adcx %%rcx, %%r9;"
                "  movq %%r9, 8(%1);"
@@ -165,28 +166,28 @@ static inline void fmul(u64 *out, const u64 *f1, const u64 *f2, u64 *tmp)
 
                /* Compute src1[0] * src2 */
                "  movq 0(%1), %%rdx;"
-               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10, %%r10;"     "  movq %%r8, 0(%0);"
+               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10d, %%r10d;"   "  movq %%r8, 0(%0);"
                "  mulxq 8(%3), %%r10, %%r11;"     "  adox %%r9, %%r10;"     "  movq %%r10, 8(%0);"
                "  mulxq 16(%3), %%rbx, %%r13;"    "  adox %%r11, %%rbx;"
                "  mulxq 24(%3), %%r14, %%rdx;"    "  adox %%r13, %%r14;"    "  mov $0, %%rax;"
                                                   "  adox %%rdx, %%rax;"
                /* Compute src1[1] * src2 */
                "  movq 8(%1), %%rdx;"
-               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10, %%r10;"     "  adcxq 8(%0), %%r8;"    "  movq %%r8, 8(%0);"
+               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10d, %%r10d;"   "  adcxq 8(%0), %%r8;"    "  movq %%r8, 8(%0);"
                "  mulxq 8(%3), %%r10, %%r11;"     "  adox %%r9, %%r10;"     "  adcx %%rbx, %%r10;"    "  movq %%r10, 16(%0);"
                "  mulxq 16(%3), %%rbx, %%r13;"    "  adox %%r11, %%rbx;"    "  adcx %%r14, %%rbx;"    "  mov $0, %%r8;"
                "  mulxq 24(%3), %%r14, %%rdx;"    "  adox %%r13, %%r14;"    "  adcx %%rax, %%r14;"    "  mov $0, %%rax;"
                                                   "  adox %%rdx, %%rax;"    "  adcx %%r8, %%rax;"
                /* Compute src1[2] * src2 */
                "  movq 16(%1), %%rdx;"
-               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10, %%r10;"    "  adcxq 16(%0), %%r8;"    "  movq %%r8, 16(%0);"
+               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10d, %%r10d;"   "  adcxq 16(%0), %%r8;"   "  movq %%r8, 16(%0);"
                "  mulxq 8(%3), %%r10, %%r11;"     "  adox %%r9, %%r10;"     "  adcx %%rbx, %%r10;"    "  movq %%r10, 24(%0);"
                "  mulxq 16(%3), %%rbx, %%r13;"    "  adox %%r11, %%rbx;"    "  adcx %%r14, %%rbx;"    "  mov $0, %%r8;"
                "  mulxq 24(%3), %%r14, %%rdx;"    "  adox %%r13, %%r14;"    "  adcx %%rax, %%r14;"    "  mov $0, %%rax;"
                                                   "  adox %%rdx, %%rax;"    "  adcx %%r8, %%rax;"
                /* Compute src1[3] * src2 */
                "  movq 24(%1), %%rdx;"
-               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10, %%r10;"    "  adcxq 24(%0), %%r8;"    "  movq %%r8, 24(%0);"
+               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10d, %%r10d;"   "  adcxq 24(%0), %%r8;"   "  movq %%r8, 24(%0);"
                "  mulxq 8(%3), %%r10, %%r11;"     "  adox %%r9, %%r10;"     "  adcx %%rbx, %%r10;"    "  movq %%r10, 32(%0);"
                "  mulxq 16(%3), %%rbx, %%r13;"    "  adox %%r11, %%rbx;"    "  adcx %%r14, %%rbx;"    "  movq %%rbx, 40(%0);"    "  mov $0, %%r8;"
                "  mulxq 24(%3), %%r14, %%rdx;"    "  adox %%r13, %%r14;"    "  adcx %%rax, %%r14;"    "  movq %%r14, 48(%0);"    "  mov $0, %%rax;"
@@ -200,7 +201,7 @@ static inline void fmul(u64 *out, const u64 *f1, const u64 *f2, u64 *tmp)
                /* Step 1: Compute dst + carry == tmp_hi * 38 + tmp_lo */
                "  mov $38, %%rdx;"
                "  mulxq 32(%1), %%r8, %%r13;"
-               "  xor %3, %3;"
+               "  xor %k3, %k3;"
                "  adoxq 0(%1), %%r8;"
                "  mulxq 40(%1), %%r9, %%rbx;"
                "  adcx %%r13, %%r9;"
@@ -246,28 +247,28 @@ static inline void fmul2(u64 *out, const u64 *f1, const u64 *f2, u64 *tmp)
 
                /* Compute src1[0] * src2 */
                "  movq 0(%1), %%rdx;"
-               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10, %%r10;"     "  movq %%r8, 0(%0);"
+               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10d, %%r10d;"   "  movq %%r8, 0(%0);"
                "  mulxq 8(%3), %%r10, %%r11;"     "  adox %%r9, %%r10;"     "  movq %%r10, 8(%0);"
                "  mulxq 16(%3), %%rbx, %%r13;"    "  adox %%r11, %%rbx;"
                "  mulxq 24(%3), %%r14, %%rdx;"    "  adox %%r13, %%r14;"    "  mov $0, %%rax;"
                                                   "  adox %%rdx, %%rax;"
                /* Compute src1[1] * src2 */
                "  movq 8(%1), %%rdx;"
-               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10, %%r10;"     "  adcxq 8(%0), %%r8;"    "  movq %%r8, 8(%0);"
+               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10d, %%r10d;"   "  adcxq 8(%0), %%r8;"    "  movq %%r8, 8(%0);"
                "  mulxq 8(%3), %%r10, %%r11;"     "  adox %%r9, %%r10;"     "  adcx %%rbx, %%r10;"    "  movq %%r10, 16(%0);"
                "  mulxq 16(%3), %%rbx, %%r13;"    "  adox %%r11, %%rbx;"    "  adcx %%r14, %%rbx;"    "  mov $0, %%r8;"
                "  mulxq 24(%3), %%r14, %%rdx;"    "  adox %%r13, %%r14;"    "  adcx %%rax, %%r14;"    "  mov $0, %%rax;"
                                                   "  adox %%rdx, %%rax;"    "  adcx %%r8, %%rax;"
                /* Compute src1[2] * src2 */
                "  movq 16(%1), %%rdx;"
-               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10, %%r10;"    "  adcxq 16(%0), %%r8;"    "  movq %%r8, 16(%0);"
+               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10d, %%r10d;"   "  adcxq 16(%0), %%r8;"   "  movq %%r8, 16(%0);"
                "  mulxq 8(%3), %%r10, %%r11;"     "  adox %%r9, %%r10;"     "  adcx %%rbx, %%r10;"    "  movq %%r10, 24(%0);"
                "  mulxq 16(%3), %%rbx, %%r13;"    "  adox %%r11, %%rbx;"    "  adcx %%r14, %%rbx;"    "  mov $0, %%r8;"
                "  mulxq 24(%3), %%r14, %%rdx;"    "  adox %%r13, %%r14;"    "  adcx %%rax, %%r14;"    "  mov $0, %%rax;"
                                                   "  adox %%rdx, %%rax;"    "  adcx %%r8, %%rax;"
                /* Compute src1[3] * src2 */
                "  movq 24(%1), %%rdx;"
-               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10, %%r10;"    "  adcxq 24(%0), %%r8;"    "  movq %%r8, 24(%0);"
+               "  mulxq 0(%3), %%r8, %%r9;"       "  xor %%r10d, %%r10d;"   "  adcxq 24(%0), %%r8;"   "  movq %%r8, 24(%0);"
                "  mulxq 8(%3), %%r10, %%r11;"     "  adox %%r9, %%r10;"     "  adcx %%rbx, %%r10;"    "  movq %%r10, 32(%0);"
                "  mulxq 16(%3), %%rbx, %%r13;"    "  adox %%r11, %%rbx;"    "  adcx %%r14, %%rbx;"    "  movq %%rbx, 40(%0);"    "  mov $0, %%r8;"
                "  mulxq 24(%3), %%r14, %%rdx;"    "  adox %%r13, %%r14;"    "  adcx %%rax, %%r14;"    "  movq %%r14, 48(%0);"    "  mov $0, %%rax;"
@@ -277,29 +278,29 @@ static inline void fmul2(u64 *out, const u64 *f1, const u64 *f2, u64 *tmp)
 
                /* Compute src1[0] * src2 */
                "  movq 32(%1), %%rdx;"
-               "  mulxq 32(%3), %%r8, %%r9;"       "  xor %%r10, %%r10;"     "  movq %%r8, 64(%0);"
-               "  mulxq 40(%3), %%r10, %%r11;"     "  adox %%r9, %%r10;"     "  movq %%r10, 72(%0);"
+               "  mulxq 32(%3), %%r8, %%r9;"      "  xor %%r10d, %%r10d;"   "  movq %%r8, 64(%0);"
+               "  mulxq 40(%3), %%r10, %%r11;"    "  adox %%r9, %%r10;"     "  movq %%r10, 72(%0);"
                "  mulxq 48(%3), %%rbx, %%r13;"    "  adox %%r11, %%rbx;"
                "  mulxq 56(%3), %%r14, %%rdx;"    "  adox %%r13, %%r14;"    "  mov $0, %%rax;"
                                                   "  adox %%rdx, %%rax;"
                /* Compute src1[1] * src2 */
                "  movq 40(%1), %%rdx;"
-               "  mulxq 32(%3), %%r8, %%r9;"       "  xor %%r10, %%r10;"     "  adcxq 72(%0), %%r8;"    "  movq %%r8, 72(%0);"
-               "  mulxq 40(%3), %%r10, %%r11;"     "  adox %%r9, %%r10;"     "  adcx %%rbx, %%r10;"    "  movq %%r10, 80(%0);"
+               "  mulxq 32(%3), %%r8, %%r9;"      "  xor %%r10d, %%r10d;"   "  adcxq 72(%0), %%r8;"   "  movq %%r8, 72(%0);"
+               "  mulxq 40(%3), %%r10, %%r11;"    "  adox %%r9, %%r10;"     "  adcx %%rbx, %%r10;"    "  movq %%r10, 80(%0);"
                "  mulxq 48(%3), %%rbx, %%r13;"    "  adox %%r11, %%rbx;"    "  adcx %%r14, %%rbx;"    "  mov $0, %%r8;"
                "  mulxq 56(%3), %%r14, %%rdx;"    "  adox %%r13, %%r14;"    "  adcx %%rax, %%r14;"    "  mov $0, %%rax;"
                                                   "  adox %%rdx, %%rax;"    "  adcx %%r8, %%rax;"
                /* Compute src1[2] * src2 */
                "  movq 48(%1), %%rdx;"
-               "  mulxq 32(%3), %%r8, %%r9;"       "  xor %%r10, %%r10;"    "  adcxq 80(%0), %%r8;"    "  movq %%r8, 80(%0);"
-               "  mulxq 40(%3), %%r10, %%r11;"     "  adox %%r9, %%r10;"     "  adcx %%rbx, %%r10;"    "  movq %%r10, 88(%0);"
+               "  mulxq 32(%3), %%r8, %%r9;"      "  xor %%r10d, %%r10d;"   "  adcxq 80(%0), %%r8;"   "  movq %%r8, 80(%0);"
+               "  mulxq 40(%3), %%r10, %%r11;"    "  adox %%r9, %%r10;"     "  adcx %%rbx, %%r10;"    "  movq %%r10, 88(%0);"
                "  mulxq 48(%3), %%rbx, %%r13;"    "  adox %%r11, %%rbx;"    "  adcx %%r14, %%rbx;"    "  mov $0, %%r8;"
                "  mulxq 56(%3), %%r14, %%rdx;"    "  adox %%r13, %%r14;"    "  adcx %%rax, %%r14;"    "  mov $0, %%rax;"
                                                   "  adox %%rdx, %%rax;"    "  adcx %%r8, %%rax;"
                /* Compute src1[3] * src2 */
                "  movq 56(%1), %%rdx;"
-               "  mulxq 32(%3), %%r8, %%r9;"       "  xor %%r10, %%r10;"    "  adcxq 88(%0), %%r8;"    "  movq %%r8, 88(%0);"
-               "  mulxq 40(%3), %%r10, %%r11;"     "  adox %%r9, %%r10;"     "  adcx %%rbx, %%r10;"    "  movq %%r10, 96(%0);"
+               "  mulxq 32(%3), %%r8, %%r9;"      "  xor %%r10d, %%r10d;"   "  adcxq 88(%0), %%r8;"   "  movq %%r8, 88(%0);"
+               "  mulxq 40(%3), %%r10, %%r11;"    "  adox %%r9, %%r10;"     "  adcx %%rbx, %%r10;"    "  movq %%r10, 96(%0);"
                "  mulxq 48(%3), %%rbx, %%r13;"    "  adox %%r11, %%rbx;"    "  adcx %%r14, %%rbx;"    "  movq %%rbx, 104(%0);"    "  mov $0, %%r8;"
                "  mulxq 56(%3), %%r14, %%rdx;"    "  adox %%r13, %%r14;"    "  adcx %%rax, %%r14;"    "  movq %%r14, 112(%0);"    "  mov $0, %%rax;"
                                                   "  adox %%rdx, %%rax;"    "  adcx %%r8, %%rax;"     "  movq %%rax, 120(%0);"
@@ -312,7 +313,7 @@ static inline void fmul2(u64 *out, const u64 *f1, const u64 *f2, u64 *tmp)
                /* Step 1: Compute dst + carry == tmp_hi * 38 + tmp_lo */
                "  mov $38, %%rdx;"
                "  mulxq 32(%1), %%r8, %%r13;"
-               "  xor %3, %3;"
+               "  xor %k3, %k3;"
                "  adoxq 0(%1), %%r8;"
                "  mulxq 40(%1), %%r9, %%rbx;"
                "  adcx %%r13, %%r9;"
@@ -345,7 +346,7 @@ static inline void fmul2(u64 *out, const u64 *f1, const u64 *f2, u64 *tmp)
                /* Step 1: Compute dst + carry == tmp_hi * 38 + tmp_lo */
                "  mov $38, %%rdx;"
                "  mulxq 96(%1), %%r8, %%r13;"
-               "  xor %3, %3;"
+               "  xor %k3, %k3;"
                "  adoxq 64(%1), %%r8;"
                "  mulxq 104(%1), %%r9, %%rbx;"
                "  adcx %%r13, %%r9;"
@@ -516,7 +517,7 @@ static inline void fsqr(u64 *out, const u64 *f, u64 *tmp)
 
                /* Step 1: Compute all partial products */
                "  movq 0(%1), %%rdx;"                                       /* f[0] */
-               "  mulxq 8(%1), %%r8, %%r14;"      "  xor %%r15, %%r15;"     /* f[1]*f[0] */
+               "  mulxq 8(%1), %%r8, %%r14;"      "  xor %%r15d, %%r15d;"   /* f[1]*f[0] */
                "  mulxq 16(%1), %%r9, %%r10;"     "  adcx %%r14, %%r9;"     /* f[2]*f[0] */
                "  mulxq 24(%1), %%rax, %%rcx;"    "  adcx %%rax, %%r10;"    /* f[3]*f[0] */
                "  movq 24(%1), %%rdx;"                                      /* f[3] */
@@ -526,7 +527,7 @@ static inline void fsqr(u64 *out, const u64 *f, u64 *tmp)
                "  mulxq 16(%1), %%rax, %%rcx;"    "  mov $0, %%r14;"        /* f[2]*f[1] */
 
                /* Step 2: Compute two parallel carry chains */
-               "  xor %%r15, %%r15;"
+               "  xor %%r15d, %%r15d;"
                "  adox %%rax, %%r10;"
                "  adcx %%r8, %%r8;"
                "  adox %%rcx, %%r11;"
@@ -563,7 +564,7 @@ static inline void fsqr(u64 *out, const u64 *f, u64 *tmp)
                /* Step 1: Compute dst + carry == tmp_hi * 38 + tmp_lo */
                "  mov $38, %%rdx;"
                "  mulxq 32(%1), %%r8, %%r13;"
-               "  xor %%rcx, %%rcx;"
+               "  xor %%ecx, %%ecx;"
                "  adoxq 0(%1), %%r8;"
                "  mulxq 40(%1), %%r9, %%rbx;"
                "  adcx %%r13, %%r9;"
@@ -607,7 +608,7 @@ static inline void fsqr2(u64 *out, const u64 *f, u64 *tmp)
        asm volatile(
                /* Step 1: Compute all partial products */
                "  movq 0(%1), %%rdx;"                                       /* f[0] */
-               "  mulxq 8(%1), %%r8, %%r14;"      "  xor %%r15, %%r15;"     /* f[1]*f[0] */
+               "  mulxq 8(%1), %%r8, %%r14;"      "  xor %%r15d, %%r15d;"   /* f[1]*f[0] */
                "  mulxq 16(%1), %%r9, %%r10;"     "  adcx %%r14, %%r9;"     /* f[2]*f[0] */
                "  mulxq 24(%1), %%rax, %%rcx;"    "  adcx %%rax, %%r10;"    /* f[3]*f[0] */
                "  movq 24(%1), %%rdx;"                                      /* f[3] */
@@ -617,7 +618,7 @@ static inline void fsqr2(u64 *out, const u64 *f, u64 *tmp)
                "  mulxq 16(%1), %%rax, %%rcx;"    "  mov $0, %%r14;"        /* f[2]*f[1] */
 
                /* Step 2: Compute two parallel carry chains */
-               "  xor %%r15, %%r15;"
+               "  xor %%r15d, %%r15d;"
                "  adox %%rax, %%r10;"
                "  adcx %%r8, %%r8;"
                "  adox %%rcx, %%r11;"
@@ -647,7 +648,7 @@ static inline void fsqr2(u64 *out, const u64 *f, u64 *tmp)
 
                /* Step 1: Compute all partial products */
                "  movq 32(%1), %%rdx;"                                       /* f[0] */
-               "  mulxq 40(%1), %%r8, %%r14;"      "  xor %%r15, %%r15;"     /* f[1]*f[0] */
+               "  mulxq 40(%1), %%r8, %%r14;"     "  xor %%r15d, %%r15d;"   /* f[1]*f[0] */
                "  mulxq 48(%1), %%r9, %%r10;"     "  adcx %%r14, %%r9;"     /* f[2]*f[0] */
                "  mulxq 56(%1), %%rax, %%rcx;"    "  adcx %%rax, %%r10;"    /* f[3]*f[0] */
                "  movq 56(%1), %%rdx;"                                      /* f[3] */
@@ -657,7 +658,7 @@ static inline void fsqr2(u64 *out, const u64 *f, u64 *tmp)
                "  mulxq 48(%1), %%rax, %%rcx;"    "  mov $0, %%r14;"        /* f[2]*f[1] */
 
                /* Step 2: Compute two parallel carry chains */
-               "  xor %%r15, %%r15;"
+               "  xor %%r15d, %%r15d;"
                "  adox %%rax, %%r10;"
                "  adcx %%r8, %%r8;"
                "  adox %%rcx, %%r11;"
@@ -692,7 +693,7 @@ static inline void fsqr2(u64 *out, const u64 *f, u64 *tmp)
                /* Step 1: Compute dst + carry == tmp_hi * 38 + tmp_lo */
                "  mov $38, %%rdx;"
                "  mulxq 32(%1), %%r8, %%r13;"
-               "  xor %%rcx, %%rcx;"
+               "  xor %%ecx, %%ecx;"
                "  adoxq 0(%1), %%r8;"
                "  mulxq 40(%1), %%r9, %%rbx;"
                "  adcx %%r13, %%r9;"
@@ -725,7 +726,7 @@ static inline void fsqr2(u64 *out, const u64 *f, u64 *tmp)
                /* Step 1: Compute dst + carry == tmp_hi * 38 + tmp_lo */
                "  mov $38, %%rdx;"
                "  mulxq 96(%1), %%r8, %%r13;"
-               "  xor %%rcx, %%rcx;"
+               "  xor %%ecx, %%ecx;"
                "  adoxq 64(%1), %%r8;"
                "  mulxq 104(%1), %%r9, %%rbx;"
                "  adcx %%r13, %%r9;"
index 80fcb85..8ea5ab0 100644 (file)
@@ -10,6 +10,7 @@
 #include <crypto/internal/simd.h>
 #include <crypto/nhpoly1305.h>
 #include <linux/module.h>
+#include <linux/sizes.h>
 #include <asm/simd.h>
 
 asmlinkage void nh_avx2(const u32 *key, const u8 *message, size_t message_len,
index cc6b7c1..2b353d4 100644 (file)
@@ -10,6 +10,7 @@
 #include <crypto/internal/simd.h>
 #include <crypto/nhpoly1305.h>
 #include <linux/module.h>
+#include <linux/sizes.h>
 #include <asm/simd.h>
 
 asmlinkage void nh_sse2(const u32 *key, const u8 *message, size_t message_len,
index 137edcf..7d56801 100644 (file)
@@ -246,7 +246,7 @@ $code.=<<___ if (!$kernel);
 ___
 &declare_function("poly1305_init_x86_64", 32, 3);
 $code.=<<___;
-       xor     %rax,%rax
+       xor     %eax,%eax
        mov     %rax,0($ctx)            # initialize hash value
        mov     %rax,8($ctx)
        mov     %rax,16($ctx)
@@ -2853,7 +2853,7 @@ $code.=<<___;
 .type  poly1305_init_base2_44,\@function,3
 .align 32
 poly1305_init_base2_44:
-       xor     %rax,%rax
+       xor     %eax,%eax
        mov     %rax,0($ctx)            # initialize hash value
        mov     %rax,8($ctx)
        mov     %rax,16($ctx)
@@ -3947,7 +3947,7 @@ xor128_decrypt_n_pad:
        mov     \$16,$len
        sub     %r10,$len
        xor     %eax,%eax
-       xor     %r11,%r11
+       xor     %r11d,%r11d
 .Loop_dec_byte:
        mov     ($inp,$otp),%r11b
        mov     ($otp),%al
@@ -4085,7 +4085,7 @@ avx_handler:
        .long   0xa548f3fc              # cld; rep movsq
 
        mov     $disp,%rsi
-       xor     %rcx,%rcx               # arg1, UNW_FLAG_NHANDLER
+       xor     %ecx,%ecx               # arg1, UNW_FLAG_NHANDLER
        mov     8(%rsi),%rdx            # arg2, disp->ImageBase
        mov     0(%rsi),%r8             # arg3, disp->ControlPc
        mov     16(%rsi),%r9            # arg4, disp->FunctionEntry
index dfe921e..e508dbd 100644 (file)
@@ -11,6 +11,7 @@
 #include <linux/jump_label.h>
 #include <linux/kernel.h>
 #include <linux/module.h>
+#include <linux/sizes.h>
 #include <asm/intel-family.h>
 #include <asm/simd.h>
 
@@ -157,9 +158,6 @@ static unsigned int crypto_poly1305_setdctxkey(struct poly1305_desc_ctx *dctx,
                        dctx->s[1] = get_unaligned_le32(&inp[4]);
                        dctx->s[2] = get_unaligned_le32(&inp[8]);
                        dctx->s[3] = get_unaligned_le32(&inp[12]);
-                       inp += POLY1305_BLOCK_SIZE;
-                       len -= POLY1305_BLOCK_SIZE;
-                       acc += POLY1305_BLOCK_SIZE;
                        dctx->sset = true;
                }
        }
index ae9b0d4..07a9331 100644 (file)
@@ -6,7 +6,6 @@
 #include <asm/percpu.h>
 #include <asm/asm-offsets.h>
 #include <asm/processor-flags.h>
-#include <asm/inst.h>
 
 /*
 
index d977079..826e734 100644 (file)
 .code64
 .section .entry.text, "ax"
 
-#ifdef CONFIG_PARAVIRT
+#ifdef CONFIG_PARAVIRT_XXL
 SYM_CODE_START(native_usergs_sysret64)
        UNWIND_HINT_EMPTY
        swapgs
        sysretq
 SYM_CODE_END(native_usergs_sysret64)
-#endif /* CONFIG_PARAVIRT */
+#endif /* CONFIG_PARAVIRT_XXL */
 
 /*
  * 64-bit SYSCALL instruction entry. Up to 6 arguments in registers.
@@ -842,8 +842,9 @@ SYM_CODE_START_LOCAL(paranoid_entry)
         * retrieve and set the current CPUs kernel GSBASE. The stored value
         * has to be restored in paranoid_exit unconditionally.
         *
-        * The MSR write ensures that no subsequent load is based on a
-        * mispredicted GSBASE. No extra FENCE required.
+        * The unconditional write to GS base below ensures that no subsequent
+        * loads based on a mispredicted GS base can happen, therefore no LFENCE
+        * is needed here.
         */
        SAVE_AND_SET_GSBASE scratch_reg=%rax save_reg=%rbx
        ret
index 1583831..f2fe0a3 100644 (file)
  * Reuse the 64-bit entry points for the x32 versions that occupy different
  * slots in the syscall table.
  */
+#define __x32_sys_readv                __x64_sys_readv
+#define __x32_sys_writev       __x64_sys_writev
 #define __x32_sys_getsockopt   __x64_sys_getsockopt
 #define __x32_sys_setsockopt   __x64_sys_setsockopt
+#define __x32_sys_vmsplice     __x64_sys_vmsplice
+#define __x32_sys_process_vm_readv     __x64_sys_process_vm_readv
+#define __x32_sys_process_vm_writev    __x64_sys_process_vm_writev
 
 #define __SYSCALL_64(nr, sym)
 
index 9d11028..9b6931f 100644 (file)
@@ -32,7 +32,7 @@
 18     i386    oldstat                 sys_stat
 19     i386    lseek                   sys_lseek                       compat_sys_lseek
 20     i386    getpid                  sys_getpid
-21     i386    mount                   sys_mount                       compat_sys_mount
+21     i386    mount                   sys_mount
 22     i386    umount                  sys_oldumount
 23     i386    setuid                  sys_setuid16
 24     i386    getuid                  sys_getuid16
 128    i386    init_module             sys_init_module
 129    i386    delete_module           sys_delete_module
 130    i386    get_kernel_syms
-131    i386    quotactl                sys_quotactl                    compat_sys_quotactl32
+131    i386    quotactl                sys_quotactl
 132    i386    getpgid                 sys_getpgid
 133    i386    fchdir                  sys_fchdir
 134    i386    bdflush                 sys_bdflush
 142    i386    _newselect              sys_select                      compat_sys_select
 143    i386    flock                   sys_flock
 144    i386    msync                   sys_msync
-145    i386    readv                   sys_readv                       compat_sys_readv
-146    i386    writev                  sys_writev                      compat_sys_writev
+145    i386    readv                   sys_readv
+146    i386    writev                  sys_writev
 147    i386    getsid                  sys_getsid
 148    i386    fdatasync               sys_fdatasync
 149    i386    _sysctl                 sys_ni_syscall
 313    i386    splice                  sys_splice
 314    i386    sync_file_range         sys_ia32_sync_file_range
 315    i386    tee                     sys_tee
-316    i386    vmsplice                sys_vmsplice                    compat_sys_vmsplice
+316    i386    vmsplice                sys_vmsplice
 317    i386    move_pages              sys_move_pages                  compat_sys_move_pages
 318    i386    getcpu                  sys_getcpu
 319    i386    epoll_pwait             sys_epoll_pwait
 344    i386    syncfs                  sys_syncfs
 345    i386    sendmmsg                sys_sendmmsg                    compat_sys_sendmmsg
 346    i386    setns                   sys_setns
-347    i386    process_vm_readv        sys_process_vm_readv            compat_sys_process_vm_readv
-348    i386    process_vm_writev       sys_process_vm_writev           compat_sys_process_vm_writev
+347    i386    process_vm_readv        sys_process_vm_readv
+348    i386    process_vm_writev       sys_process_vm_writev
 349    i386    kcmp                    sys_kcmp
 350    i386    finit_module            sys_finit_module
 351    i386    sched_setattr           sys_sched_setattr
index f30d6ae..3478096 100644 (file)
 512    x32     rt_sigaction            compat_sys_rt_sigaction
 513    x32     rt_sigreturn            compat_sys_x32_rt_sigreturn
 514    x32     ioctl                   compat_sys_ioctl
-515    x32     readv                   compat_sys_readv
-516    x32     writev                  compat_sys_writev
+515    x32     readv                   sys_readv
+516    x32     writev                  sys_writev
 517    x32     recvfrom                compat_sys_recvfrom
 518    x32     sendmsg                 compat_sys_sendmsg
 519    x32     recvmsg                 compat_sys_recvmsg
 529    x32     waitid                  compat_sys_waitid
 530    x32     set_robust_list         compat_sys_set_robust_list
 531    x32     get_robust_list         compat_sys_get_robust_list
-532    x32     vmsplice                compat_sys_vmsplice
+532    x32     vmsplice                sys_vmsplice
 533    x32     move_pages              compat_sys_move_pages
 534    x32     preadv                  compat_sys_preadv64
 535    x32     pwritev                 compat_sys_pwritev64
 536    x32     rt_tgsigqueueinfo       compat_sys_rt_tgsigqueueinfo
 537    x32     recvmmsg                compat_sys_recvmmsg_time64
 538    x32     sendmmsg                compat_sys_sendmmsg
-539    x32     process_vm_readv        compat_sys_process_vm_readv
-540    x32     process_vm_writev       compat_sys_process_vm_writev
+539    x32     process_vm_readv        sys_process_vm_readv
+540    x32     process_vm_writev       sys_process_vm_writev
 541    x32     setsockopt              sys_setsockopt
 542    x32     getsockopt              sys_getsockopt
 543    x32     io_setup                compat_sys_io_setup
index 84a4a73..283ed9d 100644 (file)
@@ -14,6 +14,7 @@
 #undef CONFIG_ILLEGAL_POINTER_VALUE
 #undef CONFIG_SPARSEMEM_VMEMMAP
 #undef CONFIG_NR_CPUS
+#undef CONFIG_PARAVIRT_XXL
 
 #define CONFIG_X86_32 1
 #define CONFIG_PGTABLE_LEVELS 2
index 26c3635..40669ea 100644 (file)
@@ -89,6 +89,7 @@ struct perf_ibs {
        u64                             max_period;
        unsigned long                   offset_mask[1];
        int                             offset_max;
+       unsigned int                    fetch_count_reset_broken : 1;
        struct cpu_perf_ibs __percpu    *pcpu;
 
        struct attribute                **format_attrs;
@@ -334,11 +335,18 @@ static u64 get_ibs_op_count(u64 config)
 {
        u64 count = 0;
 
-       if (config & IBS_OP_VAL)
-               count += (config & IBS_OP_MAX_CNT) << 4; /* cnt rolled over */
-
-       if (ibs_caps & IBS_CAPS_RDWROPCNT)
-               count += (config & IBS_OP_CUR_CNT) >> 32;
+       /*
+        * If the internal 27-bit counter rolled over, the count is MaxCnt
+        * and the lower 7 bits of CurCnt are randomized.
+        * Otherwise CurCnt has the full 27-bit current counter value.
+        */
+       if (config & IBS_OP_VAL) {
+               count = (config & IBS_OP_MAX_CNT) << 4;
+               if (ibs_caps & IBS_CAPS_OPCNTEXT)
+                       count += config & IBS_OP_MAX_CNT_EXT_MASK;
+       } else if (ibs_caps & IBS_CAPS_RDWROPCNT) {
+               count = (config & IBS_OP_CUR_CNT) >> 32;
+       }
 
        return count;
 }
@@ -363,7 +371,12 @@ perf_ibs_event_update(struct perf_ibs *perf_ibs, struct perf_event *event,
 static inline void perf_ibs_enable_event(struct perf_ibs *perf_ibs,
                                         struct hw_perf_event *hwc, u64 config)
 {
-       wrmsrl(hwc->config_base, hwc->config | config | perf_ibs->enable_mask);
+       u64 tmp = hwc->config | config;
+
+       if (perf_ibs->fetch_count_reset_broken)
+               wrmsrl(hwc->config_base, tmp & ~perf_ibs->enable_mask);
+
+       wrmsrl(hwc->config_base, tmp | perf_ibs->enable_mask);
 }
 
 /*
@@ -394,7 +407,7 @@ static void perf_ibs_start(struct perf_event *event, int flags)
        struct hw_perf_event *hwc = &event->hw;
        struct perf_ibs *perf_ibs = container_of(event->pmu, struct perf_ibs, pmu);
        struct cpu_perf_ibs *pcpu = this_cpu_ptr(perf_ibs->pcpu);
-       u64 period;
+       u64 period, config = 0;
 
        if (WARN_ON_ONCE(!(hwc->state & PERF_HES_STOPPED)))
                return;
@@ -403,13 +416,19 @@ static void perf_ibs_start(struct perf_event *event, int flags)
        hwc->state = 0;
 
        perf_ibs_set_period(perf_ibs, hwc, &period);
+       if (perf_ibs == &perf_ibs_op && (ibs_caps & IBS_CAPS_OPCNTEXT)) {
+               config |= period & IBS_OP_MAX_CNT_EXT_MASK;
+               period &= ~IBS_OP_MAX_CNT_EXT_MASK;
+       }
+       config |= period >> 4;
+
        /*
         * Set STARTED before enabling the hardware, such that a subsequent NMI
         * must observe it.
         */
        set_bit(IBS_STARTED,    pcpu->state);
        clear_bit(IBS_STOPPING, pcpu->state);
-       perf_ibs_enable_event(perf_ibs, hwc, period >> 4);
+       perf_ibs_enable_event(perf_ibs, hwc, config);
 
        perf_event_update_userpage(event);
 }
@@ -577,7 +596,7 @@ static int perf_ibs_handle_irq(struct perf_ibs *perf_ibs, struct pt_regs *iregs)
        struct perf_ibs_data ibs_data;
        int offset, size, check_rip, offset_max, throttle = 0;
        unsigned int msr;
-       u64 *buf, *config, period;
+       u64 *buf, *config, period, new_config = 0;
 
        if (!test_bit(IBS_STARTED, pcpu->state)) {
 fail:
@@ -626,18 +645,24 @@ fail:
                                       perf_ibs->offset_max,
                                       offset + 1);
        } while (offset < offset_max);
+       /*
+        * Read IbsBrTarget, IbsOpData4, and IbsExtdCtl separately
+        * depending on their availability.
+        * Can't add to offset_max as they are staggered
+        */
        if (event->attr.sample_type & PERF_SAMPLE_RAW) {
-               /*
-                * Read IbsBrTarget and IbsOpData4 separately
-                * depending on their availability.
-                * Can't add to offset_max as they are staggered
-                */
-               if (ibs_caps & IBS_CAPS_BRNTRGT) {
-                       rdmsrl(MSR_AMD64_IBSBRTARGET, *buf++);
-                       size++;
+               if (perf_ibs == &perf_ibs_op) {
+                       if (ibs_caps & IBS_CAPS_BRNTRGT) {
+                               rdmsrl(MSR_AMD64_IBSBRTARGET, *buf++);
+                               size++;
+                       }
+                       if (ibs_caps & IBS_CAPS_OPDATA4) {
+                               rdmsrl(MSR_AMD64_IBSOPDATA4, *buf++);
+                               size++;
+                       }
                }
-               if (ibs_caps & IBS_CAPS_OPDATA4) {
-                       rdmsrl(MSR_AMD64_IBSOPDATA4, *buf++);
+               if (perf_ibs == &perf_ibs_fetch && (ibs_caps & IBS_CAPS_FETCHCTLEXTD)) {
+                       rdmsrl(MSR_AMD64_ICIBSEXTDCTL, *buf++);
                        size++;
                }
        }
@@ -666,13 +691,17 @@ out:
        if (throttle) {
                perf_ibs_stop(event, 0);
        } else {
-               period >>= 4;
-
-               if ((ibs_caps & IBS_CAPS_RDWROPCNT) &&
-                   (*config & IBS_OP_CNT_CTL))
-                       period |= *config & IBS_OP_CUR_CNT_RAND;
+               if (perf_ibs == &perf_ibs_op) {
+                       if (ibs_caps & IBS_CAPS_OPCNTEXT) {
+                               new_config = period & IBS_OP_MAX_CNT_EXT_MASK;
+                               period &= ~IBS_OP_MAX_CNT_EXT_MASK;
+                       }
+                       if ((ibs_caps & IBS_CAPS_RDWROPCNT) && (*config & IBS_OP_CNT_CTL))
+                               new_config |= *config & IBS_OP_CUR_CNT_RAND;
+               }
+               new_config |= period >> 4;
 
-               perf_ibs_enable_event(perf_ibs, hwc, period);
+               perf_ibs_enable_event(perf_ibs, hwc, new_config);
        }
 
        perf_event_update_userpage(event);
@@ -733,12 +762,26 @@ static __init void perf_event_ibs_init(void)
 {
        struct attribute **attr = ibs_op_format_attrs;
 
+       /*
+        * Some chips fail to reset the fetch count when it is written; instead
+        * they need a 0-1 transition of IbsFetchEn.
+        */
+       if (boot_cpu_data.x86 >= 0x16 && boot_cpu_data.x86 <= 0x18)
+               perf_ibs_fetch.fetch_count_reset_broken = 1;
+
        perf_ibs_pmu_init(&perf_ibs_fetch, "ibs_fetch");
 
        if (ibs_caps & IBS_CAPS_OPCNT) {
                perf_ibs_op.config_mask |= IBS_OP_CNT_CTL;
                *attr++ = &format_attr_cnt_ctl.attr;
        }
+
+       if (ibs_caps & IBS_CAPS_OPCNTEXT) {
+               perf_ibs_op.max_period  |= IBS_OP_MAX_CNT_EXT_MASK;
+               perf_ibs_op.config_mask |= IBS_OP_MAX_CNT_EXT_MASK;
+               perf_ibs_op.cnt_mask    |= IBS_OP_MAX_CNT_EXT_MASK;
+       }
+
        perf_ibs_pmu_init(&perf_ibs_op, "ibs_op");
 
        register_nmi_handler(NMI_LOCAL, perf_ibs_nmi_handler, 0, "perf_ibs");
index fb61620..be50ef8 100644 (file)
@@ -379,7 +379,7 @@ static __init int _init_events_attrs(void)
        while (amd_iommu_v2_event_descs[i].attr.attr.name)
                i++;
 
-       attrs = kcalloc(i + 1, sizeof(struct attribute **), GFP_KERNEL);
+       attrs = kcalloc(i + 1, sizeof(*attrs), GFP_KERNEL);
        if (!attrs)
                return -ENOMEM;
 
index 76400c0..7f014d4 100644 (file)
@@ -181,28 +181,28 @@ static void amd_uncore_del(struct perf_event *event, int flags)
 }
 
 /*
- * Convert logical CPU number to L3 PMC Config ThreadMask format
+ * Return a full thread and slice mask unless user
+ * has provided them
  */
-static u64 l3_thread_slice_mask(int cpu)
+static u64 l3_thread_slice_mask(u64 config)
 {
-       u64 thread_mask, core = topology_core_id(cpu);
-       unsigned int shift, thread = 0;
+       if (boot_cpu_data.x86 <= 0x18)
+               return ((config & AMD64_L3_SLICE_MASK) ? : AMD64_L3_SLICE_MASK) |
+                      ((config & AMD64_L3_THREAD_MASK) ? : AMD64_L3_THREAD_MASK);
 
-       if (topology_smt_supported() && !topology_is_primary_thread(cpu))
-               thread = 1;
-
-       if (boot_cpu_data.x86 <= 0x18) {
-               shift = AMD64_L3_THREAD_SHIFT + 2 * (core % 4) + thread;
-               thread_mask = BIT_ULL(shift);
-
-               return AMD64_L3_SLICE_MASK | thread_mask;
-       }
-
-       core = (core << AMD64_L3_COREID_SHIFT) & AMD64_L3_COREID_MASK;
-       shift = AMD64_L3_THREAD_SHIFT + thread;
-       thread_mask = BIT_ULL(shift);
+       /*
+        * If the user doesn't specify a threadmask, they're not trying to
+        * count core 0, so we enable all cores & threads.
+        * We'll also assume that they want to count slice 0 if they specify
+        * a threadmask and leave sliceid and enallslices unpopulated.
+        */
+       if (!(config & AMD64_L3_F19H_THREAD_MASK))
+               return AMD64_L3_F19H_THREAD_MASK | AMD64_L3_EN_ALL_SLICES |
+                      AMD64_L3_EN_ALL_CORES;
 
-       return AMD64_L3_EN_ALL_SLICES | core | thread_mask;
+       return config & (AMD64_L3_F19H_THREAD_MASK | AMD64_L3_SLICEID_MASK |
+                        AMD64_L3_EN_ALL_CORES | AMD64_L3_EN_ALL_SLICES |
+                        AMD64_L3_COREID_MASK);
 }
 
 static int amd_uncore_event_init(struct perf_event *event)
@@ -232,7 +232,7 @@ static int amd_uncore_event_init(struct perf_event *event)
         * For other events, the two fields do not affect the count.
         */
        if (l3_mask && is_llc_event(event))
-               hwc->config |= l3_thread_slice_mask(event->cpu);
+               hwc->config |= l3_thread_slice_mask(event->attr.config);
 
        uncore = event_to_amd_uncore(event);
        if (!uncore)
@@ -274,47 +274,72 @@ static struct attribute_group amd_uncore_attr_group = {
        .attrs = amd_uncore_attrs,
 };
 
-/*
- * Similar to PMU_FORMAT_ATTR but allowing for format_attr to be assigned based
- * on family
- */
-#define AMD_FORMAT_ATTR(_dev, _name, _format)                               \
-static ssize_t                                                              \
-_dev##_show##_name(struct device *dev,                                      \
-               struct device_attribute *attr,                               \
-               char *page)                                                  \
-{                                                                           \
-       BUILD_BUG_ON(sizeof(_format) >= PAGE_SIZE);                          \
-       return sprintf(page, _format "\n");                                  \
-}                                                                           \
-static struct device_attribute format_attr_##_dev##_name = __ATTR_RO(_dev);
-
-/* Used for each uncore counter type */
-#define AMD_ATTRIBUTE(_name)                                                \
-static struct attribute *amd_uncore_format_attr_##_name[] = {               \
-       &format_attr_event_##_name.attr,                                     \
-       &format_attr_umask.attr,                                             \
-       NULL,                                                                \
-};                                                                          \
-static struct attribute_group amd_uncore_format_group_##_name = {           \
-       .name = "format",                                                    \
-       .attrs = amd_uncore_format_attr_##_name,                             \
-};                                                                          \
-static const struct attribute_group *amd_uncore_attr_groups_##_name[] = {    \
-       &amd_uncore_attr_group,                                              \
-       &amd_uncore_format_group_##_name,                                    \
-       NULL,                                                                \
+#define DEFINE_UNCORE_FORMAT_ATTR(_var, _name, _format)                        \
+static ssize_t __uncore_##_var##_show(struct kobject *kobj,            \
+                               struct kobj_attribute *attr,            \
+                               char *page)                             \
+{                                                                      \
+       BUILD_BUG_ON(sizeof(_format) >= PAGE_SIZE);                     \
+       return sprintf(page, _format "\n");                             \
+}                                                                      \
+static struct kobj_attribute format_attr_##_var =                      \
+       __ATTR(_name, 0444, __uncore_##_var##_show, NULL)
+
+DEFINE_UNCORE_FORMAT_ATTR(event12,     event,          "config:0-7,32-35");
+DEFINE_UNCORE_FORMAT_ATTR(event14,     event,          "config:0-7,32-35,59-60"); /* F17h+ DF */
+DEFINE_UNCORE_FORMAT_ATTR(event8,      event,          "config:0-7");             /* F17h+ L3 */
+DEFINE_UNCORE_FORMAT_ATTR(umask,       umask,          "config:8-15");
+DEFINE_UNCORE_FORMAT_ATTR(coreid,      coreid,         "config:42-44");           /* F19h L3 */
+DEFINE_UNCORE_FORMAT_ATTR(slicemask,   slicemask,      "config:48-51");           /* F17h L3 */
+DEFINE_UNCORE_FORMAT_ATTR(threadmask8, threadmask,     "config:56-63");           /* F17h L3 */
+DEFINE_UNCORE_FORMAT_ATTR(threadmask2, threadmask,     "config:56-57");           /* F19h L3 */
+DEFINE_UNCORE_FORMAT_ATTR(enallslices, enallslices,    "config:46");              /* F19h L3 */
+DEFINE_UNCORE_FORMAT_ATTR(enallcores,  enallcores,     "config:47");              /* F19h L3 */
+DEFINE_UNCORE_FORMAT_ATTR(sliceid,     sliceid,        "config:48-50");           /* F19h L3 */
+
+static struct attribute *amd_uncore_df_format_attr[] = {
+       &format_attr_event12.attr, /* event14 if F17h+ */
+       &format_attr_umask.attr,
+       NULL,
+};
+
+static struct attribute *amd_uncore_l3_format_attr[] = {
+       &format_attr_event12.attr, /* event8 if F17h+ */
+       &format_attr_umask.attr,
+       NULL, /* slicemask if F17h,     coreid if F19h */
+       NULL, /* threadmask8 if F17h,   enallslices if F19h */
+       NULL, /*                        enallcores if F19h */
+       NULL, /*                        sliceid if F19h */
+       NULL, /*                        threadmask2 if F19h */
+       NULL,
+};
+
+static struct attribute_group amd_uncore_df_format_group = {
+       .name = "format",
+       .attrs = amd_uncore_df_format_attr,
 };
 
-AMD_FORMAT_ATTR(event, , "config:0-7,32-35");
-AMD_FORMAT_ATTR(umask, , "config:8-15");
-AMD_FORMAT_ATTR(event, _df, "config:0-7,32-35,59-60");
-AMD_FORMAT_ATTR(event, _l3, "config:0-7");
-AMD_ATTRIBUTE(df);
-AMD_ATTRIBUTE(l3);
+static struct attribute_group amd_uncore_l3_format_group = {
+       .name = "format",
+       .attrs = amd_uncore_l3_format_attr,
+};
+
+static const struct attribute_group *amd_uncore_df_attr_groups[] = {
+       &amd_uncore_attr_group,
+       &amd_uncore_df_format_group,
+       NULL,
+};
+
+static const struct attribute_group *amd_uncore_l3_attr_groups[] = {
+       &amd_uncore_attr_group,
+       &amd_uncore_l3_format_group,
+       NULL,
+};
 
 static struct pmu amd_nb_pmu = {
        .task_ctx_nr    = perf_invalid_context,
+       .attr_groups    = amd_uncore_df_attr_groups,
+       .name           = "amd_nb",
        .event_init     = amd_uncore_event_init,
        .add            = amd_uncore_add,
        .del            = amd_uncore_del,
@@ -326,6 +351,8 @@ static struct pmu amd_nb_pmu = {
 
 static struct pmu amd_llc_pmu = {
        .task_ctx_nr    = perf_invalid_context,
+       .attr_groups    = amd_uncore_l3_attr_groups,
+       .name           = "amd_l2",
        .event_init     = amd_uncore_event_init,
        .add            = amd_uncore_add,
        .del            = amd_uncore_del,
@@ -529,6 +556,8 @@ static int amd_uncore_cpu_dead(unsigned int cpu)
 
 static int __init amd_uncore_init(void)
 {
+       struct attribute **df_attr = amd_uncore_df_format_attr;
+       struct attribute **l3_attr = amd_uncore_l3_format_attr;
        int ret = -ENODEV;
 
        if (boot_cpu_data.x86_vendor != X86_VENDOR_AMD &&
@@ -538,6 +567,8 @@ static int __init amd_uncore_init(void)
        if (!boot_cpu_has(X86_FEATURE_TOPOEXT))
                return -ENODEV;
 
+       num_counters_nb = NUM_COUNTERS_NB;
+       num_counters_llc = NUM_COUNTERS_L2;
        if (boot_cpu_data.x86 >= 0x17) {
                /*
                 * For F17h and above, the Northbridge counters are
@@ -545,27 +576,16 @@ static int __init amd_uncore_init(void)
                 * counters are supported too. The PMUs are exported
                 * based on family as either L2 or L3 and NB or DF.
                 */
-               num_counters_nb           = NUM_COUNTERS_NB;
                num_counters_llc          = NUM_COUNTERS_L3;
                amd_nb_pmu.name           = "amd_df";
                amd_llc_pmu.name          = "amd_l3";
-               format_attr_event_df.show = &event_show_df;
-               format_attr_event_l3.show = &event_show_l3;
                l3_mask                   = true;
-       } else {
-               num_counters_nb           = NUM_COUNTERS_NB;
-               num_counters_llc          = NUM_COUNTERS_L2;
-               amd_nb_pmu.name           = "amd_nb";
-               amd_llc_pmu.name          = "amd_l2";
-               format_attr_event_df      = format_attr_event;
-               format_attr_event_l3      = format_attr_event;
-               l3_mask                   = false;
        }
 
-       amd_nb_pmu.attr_groups  = amd_uncore_attr_groups_df;
-       amd_llc_pmu.attr_groups = amd_uncore_attr_groups_l3;
-
        if (boot_cpu_has(X86_FEATURE_PERFCTR_NB)) {
+               if (boot_cpu_data.x86 >= 0x17)
+                       *df_attr = &format_attr_event14.attr;
+
                amd_uncore_nb = alloc_percpu(struct amd_uncore *);
                if (!amd_uncore_nb) {
                        ret = -ENOMEM;
@@ -575,13 +595,29 @@ static int __init amd_uncore_init(void)
                if (ret)
                        goto fail_nb;
 
-               pr_info("%s NB counters detected\n",
-                       boot_cpu_data.x86_vendor == X86_VENDOR_HYGON ?
-                               "HYGON" : "AMD");
+               pr_info("%d %s %s counters detected\n", num_counters_nb,
+                       boot_cpu_data.x86_vendor == X86_VENDOR_HYGON ?  "HYGON" : "",
+                       amd_nb_pmu.name);
+
                ret = 0;
        }
 
        if (boot_cpu_has(X86_FEATURE_PERFCTR_LLC)) {
+               if (boot_cpu_data.x86 >= 0x19) {
+                       *l3_attr++ = &format_attr_event8.attr;
+                       *l3_attr++ = &format_attr_umask.attr;
+                       *l3_attr++ = &format_attr_coreid.attr;
+                       *l3_attr++ = &format_attr_enallslices.attr;
+                       *l3_attr++ = &format_attr_enallcores.attr;
+                       *l3_attr++ = &format_attr_sliceid.attr;
+                       *l3_attr++ = &format_attr_threadmask2.attr;
+               } else if (boot_cpu_data.x86 >= 0x17) {
+                       *l3_attr++ = &format_attr_event8.attr;
+                       *l3_attr++ = &format_attr_umask.attr;
+                       *l3_attr++ = &format_attr_slicemask.attr;
+                       *l3_attr++ = &format_attr_threadmask8.attr;
+               }
+
                amd_uncore_llc = alloc_percpu(struct amd_uncore *);
                if (!amd_uncore_llc) {
                        ret = -ENOMEM;
@@ -591,9 +627,9 @@ static int __init amd_uncore_init(void)
                if (ret)
                        goto fail_llc;
 
-               pr_info("%s LLC counters detected\n",
-                       boot_cpu_data.x86_vendor == X86_VENDOR_HYGON ?
-                               "HYGON" : "AMD");
+               pr_info("%d %s %s counters detected\n", num_counters_llc,
+                       boot_cpu_data.x86_vendor == X86_VENDOR_HYGON ?  "HYGON" : "",
+                       amd_llc_pmu.name);
                ret = 0;
        }
 
index 1cbf57d..a88c94d 100644 (file)
@@ -28,6 +28,7 @@
 #include <linux/bitops.h>
 #include <linux/device.h>
 #include <linux/nospec.h>
+#include <linux/static_call.h>
 
 #include <asm/apic.h>
 #include <asm/stacktrace.h>
@@ -52,6 +53,34 @@ DEFINE_PER_CPU(struct cpu_hw_events, cpu_hw_events) = {
 DEFINE_STATIC_KEY_FALSE(rdpmc_never_available_key);
 DEFINE_STATIC_KEY_FALSE(rdpmc_always_available_key);
 
+/*
+ * This here uses DEFINE_STATIC_CALL_NULL() to get a static_call defined
+ * from just a typename, as opposed to an actual function.
+ */
+DEFINE_STATIC_CALL_NULL(x86_pmu_handle_irq,  *x86_pmu.handle_irq);
+DEFINE_STATIC_CALL_NULL(x86_pmu_disable_all, *x86_pmu.disable_all);
+DEFINE_STATIC_CALL_NULL(x86_pmu_enable_all,  *x86_pmu.enable_all);
+DEFINE_STATIC_CALL_NULL(x86_pmu_enable,             *x86_pmu.enable);
+DEFINE_STATIC_CALL_NULL(x86_pmu_disable,     *x86_pmu.disable);
+
+DEFINE_STATIC_CALL_NULL(x86_pmu_add,  *x86_pmu.add);
+DEFINE_STATIC_CALL_NULL(x86_pmu_del,  *x86_pmu.del);
+DEFINE_STATIC_CALL_NULL(x86_pmu_read, *x86_pmu.read);
+
+DEFINE_STATIC_CALL_NULL(x86_pmu_schedule_events,       *x86_pmu.schedule_events);
+DEFINE_STATIC_CALL_NULL(x86_pmu_get_event_constraints, *x86_pmu.get_event_constraints);
+DEFINE_STATIC_CALL_NULL(x86_pmu_put_event_constraints, *x86_pmu.put_event_constraints);
+
+DEFINE_STATIC_CALL_NULL(x86_pmu_start_scheduling,  *x86_pmu.start_scheduling);
+DEFINE_STATIC_CALL_NULL(x86_pmu_commit_scheduling, *x86_pmu.commit_scheduling);
+DEFINE_STATIC_CALL_NULL(x86_pmu_stop_scheduling,   *x86_pmu.stop_scheduling);
+
+DEFINE_STATIC_CALL_NULL(x86_pmu_sched_task,    *x86_pmu.sched_task);
+DEFINE_STATIC_CALL_NULL(x86_pmu_swap_task_ctx, *x86_pmu.swap_task_ctx);
+
+DEFINE_STATIC_CALL_NULL(x86_pmu_drain_pebs,   *x86_pmu.drain_pebs);
+DEFINE_STATIC_CALL_NULL(x86_pmu_pebs_aliases, *x86_pmu.pebs_aliases);
+
 u64 __read_mostly hw_cache_event_ids
                                [PERF_COUNT_HW_CACHE_MAX]
                                [PERF_COUNT_HW_CACHE_OP_MAX]
@@ -76,6 +105,9 @@ u64 x86_perf_event_update(struct perf_event *event)
        if (unlikely(!hwc->event_base))
                return 0;
 
+       if (unlikely(is_topdown_count(event)) && x86_pmu.update_topdown_event)
+               return x86_pmu.update_topdown_event(event);
+
        /*
         * Careful: an NMI might modify the previous event value.
         *
@@ -660,7 +692,7 @@ static void x86_pmu_disable(struct pmu *pmu)
        cpuc->enabled = 0;
        barrier();
 
-       x86_pmu.disable_all();
+       static_call(x86_pmu_disable_all)();
 }
 
 void x86_pmu_enable_all(int added)
@@ -907,8 +939,7 @@ int x86_schedule_events(struct cpu_hw_events *cpuc, int n, int *assign)
        if (cpuc->txn_flags & PERF_PMU_TXN_ADD)
                n0 -= cpuc->n_txn;
 
-       if (x86_pmu.start_scheduling)
-               x86_pmu.start_scheduling(cpuc);
+       static_call_cond(x86_pmu_start_scheduling)(cpuc);
 
        for (i = 0, wmin = X86_PMC_IDX_MAX, wmax = 0; i < n; i++) {
                c = cpuc->event_constraint[i];
@@ -925,7 +956,7 @@ int x86_schedule_events(struct cpu_hw_events *cpuc, int n, int *assign)
                 * change due to external factors (sibling state, allow_tfa).
                 */
                if (!c || (c->flags & PERF_X86_EVENT_DYNAMIC)) {
-                       c = x86_pmu.get_event_constraints(cpuc, i, cpuc->event_list[i]);
+                       c = static_call(x86_pmu_get_event_constraints)(cpuc, i, cpuc->event_list[i]);
                        cpuc->event_constraint[i] = c;
                }
 
@@ -1008,8 +1039,7 @@ int x86_schedule_events(struct cpu_hw_events *cpuc, int n, int *assign)
        if (!unsched && assign) {
                for (i = 0; i < n; i++) {
                        e = cpuc->event_list[i];
-                       if (x86_pmu.commit_scheduling)
-                               x86_pmu.commit_scheduling(cpuc, i, assign[i]);
+                       static_call_cond(x86_pmu_commit_scheduling)(cpuc, i, assign[i]);
                }
        } else {
                for (i = n0; i < n; i++) {
@@ -1018,19 +1048,56 @@ int x86_schedule_events(struct cpu_hw_events *cpuc, int n, int *assign)
                        /*
                         * release events that failed scheduling
                         */
-                       if (x86_pmu.put_event_constraints)
-                               x86_pmu.put_event_constraints(cpuc, e);
+                       static_call_cond(x86_pmu_put_event_constraints)(cpuc, e);
 
                        cpuc->event_constraint[i] = NULL;
                }
        }
 
-       if (x86_pmu.stop_scheduling)
-               x86_pmu.stop_scheduling(cpuc);
+       static_call_cond(x86_pmu_stop_scheduling)(cpuc);
 
        return unsched ? -EINVAL : 0;
 }
 
+static int add_nr_metric_event(struct cpu_hw_events *cpuc,
+                              struct perf_event *event)
+{
+       if (is_metric_event(event)) {
+               if (cpuc->n_metric == INTEL_TD_METRIC_NUM)
+                       return -EINVAL;
+               cpuc->n_metric++;
+               cpuc->n_txn_metric++;
+       }
+
+       return 0;
+}
+
+static void del_nr_metric_event(struct cpu_hw_events *cpuc,
+                               struct perf_event *event)
+{
+       if (is_metric_event(event))
+               cpuc->n_metric--;
+}
+
+static int collect_event(struct cpu_hw_events *cpuc, struct perf_event *event,
+                        int max_count, int n)
+{
+
+       if (x86_pmu.intel_cap.perf_metrics && add_nr_metric_event(cpuc, event))
+               return -EINVAL;
+
+       if (n >= max_count + cpuc->n_metric)
+               return -EINVAL;
+
+       cpuc->event_list[n] = event;
+       if (is_counter_pair(&event->hw)) {
+               cpuc->n_pair++;
+               cpuc->n_txn_pair++;
+       }
+
+       return 0;
+}
+
 /*
  * dogrp: true if must collect siblings events (group)
  * returns total number of events and error code
@@ -1067,28 +1134,22 @@ static int collect_events(struct cpu_hw_events *cpuc, struct perf_event *leader,
        }
 
        if (is_x86_event(leader)) {
-               if (n >= max_count)
+               if (collect_event(cpuc, leader, max_count, n))
                        return -EINVAL;
-               cpuc->event_list[n] = leader;
                n++;
-               if (is_counter_pair(&leader->hw))
-                       cpuc->n_pair++;
        }
+
        if (!dogrp)
                return n;
 
        for_each_sibling_event(event, leader) {
-               if (!is_x86_event(event) ||
-                   event->state <= PERF_EVENT_STATE_OFF)
+               if (!is_x86_event(event) || event->state <= PERF_EVENT_STATE_OFF)
                        continue;
 
-               if (n >= max_count)
+               if (collect_event(cpuc, event, max_count, n))
                        return -EINVAL;
 
-               cpuc->event_list[n] = event;
                n++;
-               if (is_counter_pair(&event->hw))
-                       cpuc->n_pair++;
        }
        return n;
 }
@@ -1110,11 +1171,16 @@ static inline void x86_assign_hw_event(struct perf_event *event,
                hwc->event_base = 0;
                break;
 
+       case INTEL_PMC_IDX_METRIC_BASE ... INTEL_PMC_IDX_METRIC_END:
+               /* All the metric events are mapped onto the fixed counter 3. */
+               idx = INTEL_PMC_IDX_FIXED_SLOTS;
+               /* fall through */
        case INTEL_PMC_IDX_FIXED ... INTEL_PMC_IDX_FIXED_BTS-1:
                hwc->config_base = MSR_ARCH_PERFMON_FIXED_CTR_CTRL;
                hwc->event_base = MSR_ARCH_PERFMON_FIXED_CTR0 +
                                (idx - INTEL_PMC_IDX_FIXED);
-               hwc->event_base_rdpmc = (idx - INTEL_PMC_IDX_FIXED) | 1<<30;
+               hwc->event_base_rdpmc = (idx - INTEL_PMC_IDX_FIXED) |
+                                       INTEL_PMC_FIXED_RDPMC_BASE;
                break;
 
        default:
@@ -1226,7 +1292,7 @@ static void x86_pmu_enable(struct pmu *pmu)
        cpuc->enabled = 1;
        barrier();
 
-       x86_pmu.enable_all(added);
+       static_call(x86_pmu_enable_all)(added);
 }
 
 static DEFINE_PER_CPU(u64 [X86_PMC_IDX_MAX], pmc_prev_left);
@@ -1245,6 +1311,10 @@ int x86_perf_event_set_period(struct perf_event *event)
        if (unlikely(!hwc->event_base))
                return 0;
 
+       if (unlikely(is_topdown_count(event)) &&
+           x86_pmu.set_topdown_event_period)
+               return x86_pmu.set_topdown_event_period(event);
+
        /*
         * If we are way outside a reasonable range then just skip forward:
         */
@@ -1284,11 +1354,11 @@ int x86_perf_event_set_period(struct perf_event *event)
        wrmsrl(hwc->event_base, (u64)(-left) & x86_pmu.cntval_mask);
 
        /*
-        * Clear the Merge event counter's upper 16 bits since
+        * Sign extend the Merge event counter's upper 16 bits since
         * we currently declare a 48-bit counter width
         */
        if (is_counter_pair(hwc))
-               wrmsrl(x86_pmu_event_addr(idx + 1), 0);
+               wrmsrl(x86_pmu_event_addr(idx + 1), 0xffff);
 
        /*
         * Due to erratum on certan cpu we need
@@ -1347,7 +1417,7 @@ static int x86_pmu_add(struct perf_event *event, int flags)
        if (cpuc->txn_flags & PERF_PMU_TXN_ADD)
                goto done_collect;
 
-       ret = x86_pmu.schedule_events(cpuc, n, assign);
+       ret = static_call(x86_pmu_schedule_events)(cpuc, n, assign);
        if (ret)
                goto out;
        /*
@@ -1365,13 +1435,11 @@ done_collect:
        cpuc->n_added += n - n0;
        cpuc->n_txn += n - n0;
 
-       if (x86_pmu.add) {
-               /*
-                * This is before x86_pmu_enable() will call x86_pmu_start(),
-                * so we enable LBRs before an event needs them etc..
-                */
-               x86_pmu.add(event);
-       }
+       /*
+        * This is before x86_pmu_enable() will call x86_pmu_start(),
+        * so we enable LBRs before an event needs them etc..
+        */
+       static_call_cond(x86_pmu_add)(event);
 
        ret = 0;
 out:
@@ -1399,7 +1467,7 @@ static void x86_pmu_start(struct perf_event *event, int flags)
        cpuc->events[idx] = event;
        __set_bit(idx, cpuc->active_mask);
        __set_bit(idx, cpuc->running);
-       x86_pmu.enable(event);
+       static_call(x86_pmu_enable)(event);
        perf_event_update_userpage(event);
 }
 
@@ -1469,7 +1537,7 @@ void x86_pmu_stop(struct perf_event *event, int flags)
        struct hw_perf_event *hwc = &event->hw;
 
        if (test_bit(hwc->idx, cpuc->active_mask)) {
-               x86_pmu.disable(event);
+               static_call(x86_pmu_disable)(event);
                __clear_bit(hwc->idx, cpuc->active_mask);
                cpuc->events[hwc->idx] = NULL;
                WARN_ON_ONCE(hwc->state & PERF_HES_STOPPED);
@@ -1519,8 +1587,7 @@ static void x86_pmu_del(struct perf_event *event, int flags)
        if (i >= cpuc->n_events - cpuc->n_added)
                --cpuc->n_added;
 
-       if (x86_pmu.put_event_constraints)
-               x86_pmu.put_event_constraints(cpuc, event);
+       static_call_cond(x86_pmu_put_event_constraints)(cpuc, event);
 
        /* Delete the array entry. */
        while (++i < cpuc->n_events) {
@@ -1529,17 +1596,18 @@ static void x86_pmu_del(struct perf_event *event, int flags)
        }
        cpuc->event_constraint[i-1] = NULL;
        --cpuc->n_events;
+       if (x86_pmu.intel_cap.perf_metrics)
+               del_nr_metric_event(cpuc, event);
 
        perf_event_update_userpage(event);
 
 do_del:
-       if (x86_pmu.del) {
-               /*
-                * This is after x86_pmu_stop(); so we disable LBRs after any
-                * event can need them etc..
-                */
-               x86_pmu.del(event);
-       }
+
+       /*
+        * This is after x86_pmu_stop(); so we disable LBRs after any
+        * event can need them etc..
+        */
+       static_call_cond(x86_pmu_del)(event);
 }
 
 int x86_pmu_handle_irq(struct pt_regs *regs)
@@ -1617,7 +1685,7 @@ perf_event_nmi_handler(unsigned int cmd, struct pt_regs *regs)
                return NMI_DONE;
 
        start_clock = sched_clock();
-       ret = x86_pmu.handle_irq(regs);
+       ret = static_call(x86_pmu_handle_irq)(regs);
        finish_clock = sched_clock();
 
        perf_sample_event_took(finish_clock - start_clock);
@@ -1830,6 +1898,38 @@ ssize_t x86_event_sysfs_show(char *page, u64 config, u64 event)
 static struct attribute_group x86_pmu_attr_group;
 static struct attribute_group x86_pmu_caps_group;
 
+static void x86_pmu_static_call_update(void)
+{
+       static_call_update(x86_pmu_handle_irq, x86_pmu.handle_irq);
+       static_call_update(x86_pmu_disable_all, x86_pmu.disable_all);
+       static_call_update(x86_pmu_enable_all, x86_pmu.enable_all);
+       static_call_update(x86_pmu_enable, x86_pmu.enable);
+       static_call_update(x86_pmu_disable, x86_pmu.disable);
+
+       static_call_update(x86_pmu_add, x86_pmu.add);
+       static_call_update(x86_pmu_del, x86_pmu.del);
+       static_call_update(x86_pmu_read, x86_pmu.read);
+
+       static_call_update(x86_pmu_schedule_events, x86_pmu.schedule_events);
+       static_call_update(x86_pmu_get_event_constraints, x86_pmu.get_event_constraints);
+       static_call_update(x86_pmu_put_event_constraints, x86_pmu.put_event_constraints);
+
+       static_call_update(x86_pmu_start_scheduling, x86_pmu.start_scheduling);
+       static_call_update(x86_pmu_commit_scheduling, x86_pmu.commit_scheduling);
+       static_call_update(x86_pmu_stop_scheduling, x86_pmu.stop_scheduling);
+
+       static_call_update(x86_pmu_sched_task, x86_pmu.sched_task);
+       static_call_update(x86_pmu_swap_task_ctx, x86_pmu.swap_task_ctx);
+
+       static_call_update(x86_pmu_drain_pebs, x86_pmu.drain_pebs);
+       static_call_update(x86_pmu_pebs_aliases, x86_pmu.pebs_aliases);
+}
+
+static void _x86_pmu_read(struct perf_event *event)
+{
+       x86_perf_event_update(event);
+}
+
 static int __init init_hw_perf_events(void)
 {
        struct x86_pmu_quirk *quirk;
@@ -1898,6 +1998,11 @@ static int __init init_hw_perf_events(void)
        pr_info("... fixed-purpose events:   %d\n",     x86_pmu.num_counters_fixed);
        pr_info("... event mask:             %016Lx\n", x86_pmu.intel_ctrl);
 
+       if (!x86_pmu.read)
+               x86_pmu.read = _x86_pmu_read;
+
+       x86_pmu_static_call_update();
+
        /*
         * Install callbacks. Core will call them for each online
         * cpu.
@@ -1934,11 +2039,9 @@ out:
 }
 early_initcall(init_hw_perf_events);
 
-static inline void x86_pmu_read(struct perf_event *event)
+static void x86_pmu_read(struct perf_event *event)
 {
-       if (x86_pmu.read)
-               return x86_pmu.read(event);
-       x86_perf_event_update(event);
+       static_call(x86_pmu_read)(event);
 }
 
 /*
@@ -1962,6 +2065,8 @@ static void x86_pmu_start_txn(struct pmu *pmu, unsigned int txn_flags)
 
        perf_pmu_disable(pmu);
        __this_cpu_write(cpu_hw_events.n_txn, 0);
+       __this_cpu_write(cpu_hw_events.n_txn_pair, 0);
+       __this_cpu_write(cpu_hw_events.n_txn_metric, 0);
 }
 
 /*
@@ -1987,6 +2092,8 @@ static void x86_pmu_cancel_txn(struct pmu *pmu)
         */
        __this_cpu_sub(cpu_hw_events.n_added, __this_cpu_read(cpu_hw_events.n_txn));
        __this_cpu_sub(cpu_hw_events.n_events, __this_cpu_read(cpu_hw_events.n_txn));
+       __this_cpu_sub(cpu_hw_events.n_pair, __this_cpu_read(cpu_hw_events.n_txn_pair));
+       __this_cpu_sub(cpu_hw_events.n_metric, __this_cpu_read(cpu_hw_events.n_txn_metric));
        perf_pmu_enable(pmu);
 }
 
@@ -2015,7 +2122,7 @@ static int x86_pmu_commit_txn(struct pmu *pmu)
        if (!x86_pmu_initialized())
                return -EAGAIN;
 
-       ret = x86_pmu.schedule_events(cpuc, n, assign);
+       ret = static_call(x86_pmu_schedule_events)(cpuc, n, assign);
        if (ret)
                return ret;
 
@@ -2208,17 +2315,15 @@ static void x86_pmu_event_unmapped(struct perf_event *event, struct mm_struct *m
 
 static int x86_pmu_event_idx(struct perf_event *event)
 {
-       int idx = event->hw.idx;
+       struct hw_perf_event *hwc = &event->hw;
 
-       if (!(event->hw.flags & PERF_X86_EVENT_RDPMC_ALLOWED))
+       if (!(hwc->flags & PERF_X86_EVENT_RDPMC_ALLOWED))
                return 0;
 
-       if (x86_pmu.num_counters_fixed && idx >= INTEL_PMC_IDX_FIXED) {
-               idx -= INTEL_PMC_IDX_FIXED;
-               idx |= 1 << 30;
-       }
-
-       return idx + 1;
+       if (is_metric_idx(hwc->idx))
+               return INTEL_PMC_FIXED_RDPMC_METRICS + 1;
+       else
+               return hwc->event_base_rdpmc + 1;
 }
 
 static ssize_t get_attr_rdpmc(struct device *cdev,
@@ -2308,15 +2413,13 @@ static const struct attribute_group *x86_pmu_attr_groups[] = {
 
 static void x86_pmu_sched_task(struct perf_event_context *ctx, bool sched_in)
 {
-       if (x86_pmu.sched_task)
-               x86_pmu.sched_task(ctx, sched_in);
+       static_call_cond(x86_pmu_sched_task)(ctx, sched_in);
 }
 
 static void x86_pmu_swap_task_ctx(struct perf_event_context *prev,
                                  struct perf_event_context *next)
 {
-       if (x86_pmu.swap_task_ctx)
-               x86_pmu.swap_task_ctx(prev, next);
+       static_call_cond(x86_pmu_swap_task_ctx)(prev, next);
 }
 
 void perf_check_microcode(void)
index 31e6887..f1926e9 100644 (file)
@@ -243,10 +243,14 @@ static struct extra_reg intel_skl_extra_regs[] __read_mostly = {
 
 static struct event_constraint intel_icl_event_constraints[] = {
        FIXED_EVENT_CONSTRAINT(0x00c0, 0),      /* INST_RETIRED.ANY */
-       INTEL_UEVENT_CONSTRAINT(0x1c0, 0),      /* INST_RETIRED.PREC_DIST */
+       FIXED_EVENT_CONSTRAINT(0x01c0, 0),      /* INST_RETIRED.PREC_DIST */
        FIXED_EVENT_CONSTRAINT(0x003c, 1),      /* CPU_CLK_UNHALTED.CORE */
        FIXED_EVENT_CONSTRAINT(0x0300, 2),      /* CPU_CLK_UNHALTED.REF */
        FIXED_EVENT_CONSTRAINT(0x0400, 3),      /* SLOTS */
+       METRIC_EVENT_CONSTRAINT(INTEL_TD_METRIC_RETIRING, 0),
+       METRIC_EVENT_CONSTRAINT(INTEL_TD_METRIC_BAD_SPEC, 1),
+       METRIC_EVENT_CONSTRAINT(INTEL_TD_METRIC_FE_BOUND, 2),
+       METRIC_EVENT_CONSTRAINT(INTEL_TD_METRIC_BE_BOUND, 3),
        INTEL_EVENT_CONSTRAINT_RANGE(0x03, 0x0a, 0xf),
        INTEL_EVENT_CONSTRAINT_RANGE(0x1f, 0x28, 0xf),
        INTEL_EVENT_CONSTRAINT(0x32, 0xf),      /* SW_PREFETCH_ACCESS.* */
@@ -309,6 +313,12 @@ EVENT_ATTR_STR_HT(topdown-recovery-bubbles, td_recovery_bubbles,
 EVENT_ATTR_STR_HT(topdown-recovery-bubbles.scale, td_recovery_bubbles_scale,
        "4", "2");
 
+EVENT_ATTR_STR(slots,                  slots,          "event=0x00,umask=0x4");
+EVENT_ATTR_STR(topdown-retiring,       td_retiring,    "event=0x00,umask=0x80");
+EVENT_ATTR_STR(topdown-bad-spec,       td_bad_spec,    "event=0x00,umask=0x81");
+EVENT_ATTR_STR(topdown-fe-bound,       td_fe_bound,    "event=0x00,umask=0x82");
+EVENT_ATTR_STR(topdown-be-bound,       td_be_bound,    "event=0x00,umask=0x83");
+
 static struct attribute *snb_events_attrs[] = {
        EVENT_PTR(td_slots_issued),
        EVENT_PTR(td_slots_retired),
@@ -2165,11 +2175,24 @@ static inline void intel_clear_masks(struct perf_event *event, int idx)
 static void intel_pmu_disable_fixed(struct perf_event *event)
 {
        struct hw_perf_event *hwc = &event->hw;
-       int idx = hwc->idx - INTEL_PMC_IDX_FIXED;
        u64 ctrl_val, mask;
+       int idx = hwc->idx;
 
-       mask = 0xfULL << (idx * 4);
+       if (is_topdown_idx(idx)) {
+               struct cpu_hw_events *cpuc = this_cpu_ptr(&cpu_hw_events);
+
+               /*
+                * When there are other active TopDown events,
+                * don't disable the fixed counter 3.
+                */
+               if (*(u64 *)cpuc->active_mask & INTEL_PMC_OTHER_TOPDOWN_BITS(idx))
+                       return;
+               idx = INTEL_PMC_IDX_FIXED_SLOTS;
+       }
 
+       intel_clear_masks(event, idx);
+
+       mask = 0xfULL << ((idx - INTEL_PMC_IDX_FIXED) * 4);
        rdmsrl(hwc->config_base, ctrl_val);
        ctrl_val &= ~mask;
        wrmsrl(hwc->config_base, ctrl_val);
@@ -2180,17 +2203,28 @@ static void intel_pmu_disable_event(struct perf_event *event)
        struct hw_perf_event *hwc = &event->hw;
        int idx = hwc->idx;
 
-       if (idx < INTEL_PMC_IDX_FIXED) {
+       switch (idx) {
+       case 0 ... INTEL_PMC_IDX_FIXED - 1:
                intel_clear_masks(event, idx);
                x86_pmu_disable_event(event);
-       } else if (idx < INTEL_PMC_IDX_FIXED_BTS) {
-               intel_clear_masks(event, idx);
+               break;
+       case INTEL_PMC_IDX_FIXED ... INTEL_PMC_IDX_FIXED_BTS - 1:
+       case INTEL_PMC_IDX_METRIC_BASE ... INTEL_PMC_IDX_METRIC_END:
                intel_pmu_disable_fixed(event);
-       } else if (idx == INTEL_PMC_IDX_FIXED_BTS) {
+               break;
+       case INTEL_PMC_IDX_FIXED_BTS:
                intel_pmu_disable_bts();
                intel_pmu_drain_bts_buffer();
-       } else if (idx == INTEL_PMC_IDX_FIXED_VLBR)
+               return;
+       case INTEL_PMC_IDX_FIXED_VLBR:
                intel_clear_masks(event, idx);
+               break;
+       default:
+               intel_clear_masks(event, idx);
+               pr_warn("Failed to disable the event with invalid index %d\n",
+                       idx);
+               return;
+       }
 
        /*
         * Needs to be called after x86_pmu_disable_event,
@@ -2208,10 +2242,189 @@ static void intel_pmu_del_event(struct perf_event *event)
                intel_pmu_pebs_del(event);
 }
 
+static int icl_set_topdown_event_period(struct perf_event *event)
+{
+       struct hw_perf_event *hwc = &event->hw;
+       s64 left = local64_read(&hwc->period_left);
+
+       /*
+        * The values in PERF_METRICS MSR are derived from fixed counter 3.
+        * Software should start both registers, PERF_METRICS and fixed
+        * counter 3, from zero.
+        * Clear PERF_METRICS and Fixed counter 3 in initialization.
+        * After that, both MSRs will be cleared for each read.
+        * Don't need to clear them again.
+        */
+       if (left == x86_pmu.max_period) {
+               wrmsrl(MSR_CORE_PERF_FIXED_CTR3, 0);
+               wrmsrl(MSR_PERF_METRICS, 0);
+               hwc->saved_slots = 0;
+               hwc->saved_metric = 0;
+       }
+
+       if ((hwc->saved_slots) && is_slots_event(event)) {
+               wrmsrl(MSR_CORE_PERF_FIXED_CTR3, hwc->saved_slots);
+               wrmsrl(MSR_PERF_METRICS, hwc->saved_metric);
+       }
+
+       perf_event_update_userpage(event);
+
+       return 0;
+}
+
+static inline u64 icl_get_metrics_event_value(u64 metric, u64 slots, int idx)
+{
+       u32 val;
+
+       /*
+        * The metric is reported as an 8bit integer fraction
+        * suming up to 0xff.
+        * slots-in-metric = (Metric / 0xff) * slots
+        */
+       val = (metric >> ((idx - INTEL_PMC_IDX_METRIC_BASE) * 8)) & 0xff;
+       return  mul_u64_u32_div(slots, val, 0xff);
+}
+
+static u64 icl_get_topdown_value(struct perf_event *event,
+                                      u64 slots, u64 metrics)
+{
+       int idx = event->hw.idx;
+       u64 delta;
+
+       if (is_metric_idx(idx))
+               delta = icl_get_metrics_event_value(metrics, slots, idx);
+       else
+               delta = slots;
+
+       return delta;
+}
+
+static void __icl_update_topdown_event(struct perf_event *event,
+                                      u64 slots, u64 metrics,
+                                      u64 last_slots, u64 last_metrics)
+{
+       u64 delta, last = 0;
+
+       delta = icl_get_topdown_value(event, slots, metrics);
+       if (last_slots)
+               last = icl_get_topdown_value(event, last_slots, last_metrics);
+
+       /*
+        * The 8bit integer fraction of metric may be not accurate,
+        * especially when the changes is very small.
+        * For example, if only a few bad_spec happens, the fraction
+        * may be reduced from 1 to 0. If so, the bad_spec event value
+        * will be 0 which is definitely less than the last value.
+        * Avoid update event->count for this case.
+        */
+       if (delta > last) {
+               delta -= last;
+               local64_add(delta, &event->count);
+       }
+}
+
+static void update_saved_topdown_regs(struct perf_event *event,
+                                     u64 slots, u64 metrics)
+{
+       struct cpu_hw_events *cpuc = this_cpu_ptr(&cpu_hw_events);
+       struct perf_event *other;
+       int idx;
+
+       event->hw.saved_slots = slots;
+       event->hw.saved_metric = metrics;
+
+       for_each_set_bit(idx, cpuc->active_mask, INTEL_PMC_IDX_TD_BE_BOUND + 1) {
+               if (!is_topdown_idx(idx))
+                       continue;
+               other = cpuc->events[idx];
+               other->hw.saved_slots = slots;
+               other->hw.saved_metric = metrics;
+       }
+}
+
+/*
+ * Update all active Topdown events.
+ *
+ * The PERF_METRICS and Fixed counter 3 are read separately. The values may be
+ * modify by a NMI. PMU has to be disabled before calling this function.
+ */
+static u64 icl_update_topdown_event(struct perf_event *event)
+{
+       struct cpu_hw_events *cpuc = this_cpu_ptr(&cpu_hw_events);
+       struct perf_event *other;
+       u64 slots, metrics;
+       bool reset = true;
+       int idx;
+
+       /* read Fixed counter 3 */
+       rdpmcl((3 | INTEL_PMC_FIXED_RDPMC_BASE), slots);
+       if (!slots)
+               return 0;
+
+       /* read PERF_METRICS */
+       rdpmcl(INTEL_PMC_FIXED_RDPMC_METRICS, metrics);
+
+       for_each_set_bit(idx, cpuc->active_mask, INTEL_PMC_IDX_TD_BE_BOUND + 1) {
+               if (!is_topdown_idx(idx))
+                       continue;
+               other = cpuc->events[idx];
+               __icl_update_topdown_event(other, slots, metrics,
+                                          event ? event->hw.saved_slots : 0,
+                                          event ? event->hw.saved_metric : 0);
+       }
+
+       /*
+        * Check and update this event, which may have been cleared
+        * in active_mask e.g. x86_pmu_stop()
+        */
+       if (event && !test_bit(event->hw.idx, cpuc->active_mask)) {
+               __icl_update_topdown_event(event, slots, metrics,
+                                          event->hw.saved_slots,
+                                          event->hw.saved_metric);
+
+               /*
+                * In x86_pmu_stop(), the event is cleared in active_mask first,
+                * then drain the delta, which indicates context switch for
+                * counting.
+                * Save metric and slots for context switch.
+                * Don't need to reset the PERF_METRICS and Fixed counter 3.
+                * Because the values will be restored in next schedule in.
+                */
+               update_saved_topdown_regs(event, slots, metrics);
+               reset = false;
+       }
+
+       if (reset) {
+               /* The fixed counter 3 has to be written before the PERF_METRICS. */
+               wrmsrl(MSR_CORE_PERF_FIXED_CTR3, 0);
+               wrmsrl(MSR_PERF_METRICS, 0);
+               if (event)
+                       update_saved_topdown_regs(event, 0, 0);
+       }
+
+       return slots;
+}
+
+static void intel_pmu_read_topdown_event(struct perf_event *event)
+{
+       struct cpu_hw_events *cpuc = this_cpu_ptr(&cpu_hw_events);
+
+       /* Only need to call update_topdown_event() once for group read. */
+       if ((cpuc->txn_flags & PERF_PMU_TXN_READ) &&
+           !is_slots_event(event))
+               return;
+
+       perf_pmu_disable(event->pmu);
+       x86_pmu.update_topdown_event(event);
+       perf_pmu_enable(event->pmu);
+}
+
 static void intel_pmu_read_event(struct perf_event *event)
 {
        if (event->hw.flags & PERF_X86_EVENT_AUTO_RELOAD)
                intel_pmu_auto_reload_read(event);
+       else if (is_topdown_count(event) && x86_pmu.update_topdown_event)
+               intel_pmu_read_topdown_event(event);
        else
                x86_perf_event_update(event);
 }
@@ -2219,8 +2432,22 @@ static void intel_pmu_read_event(struct perf_event *event)
 static void intel_pmu_enable_fixed(struct perf_event *event)
 {
        struct hw_perf_event *hwc = &event->hw;
-       int idx = hwc->idx - INTEL_PMC_IDX_FIXED;
        u64 ctrl_val, mask, bits = 0;
+       int idx = hwc->idx;
+
+       if (is_topdown_idx(idx)) {
+               struct cpu_hw_events *cpuc = this_cpu_ptr(&cpu_hw_events);
+               /*
+                * When there are other active TopDown events,
+                * don't enable the fixed counter 3 again.
+                */
+               if (*(u64 *)cpuc->active_mask & INTEL_PMC_OTHER_TOPDOWN_BITS(idx))
+                       return;
+
+               idx = INTEL_PMC_IDX_FIXED_SLOTS;
+       }
+
+       intel_set_masks(event, idx);
 
        /*
         * Enable IRQ generation (0x8), if not PEBS,
@@ -2240,6 +2467,7 @@ static void intel_pmu_enable_fixed(struct perf_event *event)
        if (x86_pmu.version > 2 && hwc->config & ARCH_PERFMON_EVENTSEL_ANY)
                bits |= 0x4;
 
+       idx -= INTEL_PMC_IDX_FIXED;
        bits <<= (idx * 4);
        mask = 0xfULL << (idx * 4);
 
@@ -2262,18 +2490,27 @@ static void intel_pmu_enable_event(struct perf_event *event)
        if (unlikely(event->attr.precise_ip))
                intel_pmu_pebs_enable(event);
 
-       if (idx < INTEL_PMC_IDX_FIXED) {
+       switch (idx) {
+       case 0 ... INTEL_PMC_IDX_FIXED - 1:
                intel_set_masks(event, idx);
                __x86_pmu_enable_event(hwc, ARCH_PERFMON_EVENTSEL_ENABLE);
-       } else if (idx < INTEL_PMC_IDX_FIXED_BTS) {
-               intel_set_masks(event, idx);
+               break;
+       case INTEL_PMC_IDX_FIXED ... INTEL_PMC_IDX_FIXED_BTS - 1:
+       case INTEL_PMC_IDX_METRIC_BASE ... INTEL_PMC_IDX_METRIC_END:
                intel_pmu_enable_fixed(event);
-       } else if (idx == INTEL_PMC_IDX_FIXED_BTS) {
+               break;
+       case INTEL_PMC_IDX_FIXED_BTS:
                if (!__this_cpu_read(cpu_hw_events.enabled))
                        return;
                intel_pmu_enable_bts(hwc->config);
-       } else if (idx == INTEL_PMC_IDX_FIXED_VLBR)
+               break;
+       case INTEL_PMC_IDX_FIXED_VLBR:
                intel_set_masks(event, idx);
+               break;
+       default:
+               pr_warn("Failed to enable the event with invalid index %d\n",
+                       idx);
+       }
 }
 
 static void intel_pmu_add_event(struct perf_event *event)
@@ -2389,7 +2626,7 @@ static int handle_pmi_common(struct pt_regs *regs, u64 status)
        /*
         * PEBS overflow sets bit 62 in the global status register
         */
-       if (__test_and_clear_bit(62, (unsigned long *)&status)) {
+       if (__test_and_clear_bit(GLOBAL_STATUS_BUFFER_OVF_BIT, (unsigned long *)&status)) {
                u64 pebs_enabled = cpuc->pebs_enabled;
 
                handled++;
@@ -2410,7 +2647,7 @@ static int handle_pmi_common(struct pt_regs *regs, u64 status)
        /*
         * Intel PT
         */
-       if (__test_and_clear_bit(55, (unsigned long *)&status)) {
+       if (__test_and_clear_bit(GLOBAL_STATUS_TRACE_TOPAPMI_BIT, (unsigned long *)&status)) {
                handled++;
                if (unlikely(perf_guest_cbs && perf_guest_cbs->is_in_guest() &&
                        perf_guest_cbs->handle_intel_pt_intr))
@@ -2420,6 +2657,15 @@ static int handle_pmi_common(struct pt_regs *regs, u64 status)
        }
 
        /*
+        * Intel Perf mertrics
+        */
+       if (__test_and_clear_bit(GLOBAL_STATUS_PERF_METRICS_OVF_BIT, (unsigned long *)&status)) {
+               handled++;
+               if (x86_pmu.update_topdown_event)
+                       x86_pmu.update_topdown_event(NULL);
+       }
+
+       /*
         * Checkpointed counters can lead to 'spurious' PMIs because the
         * rollback caused by the PMI will have cleared the overflow status
         * bit. Therefore always force probe these counters.
@@ -3355,6 +3601,56 @@ static int intel_pmu_hw_config(struct perf_event *event)
        if (event->attr.type != PERF_TYPE_RAW)
                return 0;
 
+       /*
+        * Config Topdown slots and metric events
+        *
+        * The slots event on Fixed Counter 3 can support sampling,
+        * which will be handled normally in x86_perf_event_update().
+        *
+        * Metric events don't support sampling and require being paired
+        * with a slots event as group leader. When the slots event
+        * is used in a metrics group, it too cannot support sampling.
+        */
+       if (x86_pmu.intel_cap.perf_metrics && is_topdown_event(event)) {
+               if (event->attr.config1 || event->attr.config2)
+                       return -EINVAL;
+
+               /*
+                * The TopDown metrics events and slots event don't
+                * support any filters.
+                */
+               if (event->attr.config & X86_ALL_EVENT_FLAGS)
+                       return -EINVAL;
+
+               if (is_metric_event(event)) {
+                       struct perf_event *leader = event->group_leader;
+
+                       /* The metric events don't support sampling. */
+                       if (is_sampling_event(event))
+                               return -EINVAL;
+
+                       /* The metric events require a slots group leader. */
+                       if (!is_slots_event(leader))
+                               return -EINVAL;
+
+                       /*
+                        * The leader/SLOTS must not be a sampling event for
+                        * metric use; hardware requires it starts at 0 when used
+                        * in conjunction with MSR_PERF_METRICS.
+                        */
+                       if (is_sampling_event(leader))
+                               return -EINVAL;
+
+                       event->event_caps |= PERF_EV_CAP_SIBLING;
+                       /*
+                        * Only once we have a METRICs sibling do we
+                        * need TopDown magic.
+                        */
+                       leader->hw.flags |= PERF_X86_EVENT_TOPDOWN;
+                       event->hw.flags  |= PERF_X86_EVENT_TOPDOWN;
+               }
+       }
+
        if (!(event->attr.config & ARCH_PERFMON_EVENTSEL_ANY))
                return 0;
 
@@ -3787,6 +4083,17 @@ static void intel_pmu_cpu_starting(int cpu)
        if (x86_pmu.counter_freezing)
                enable_counter_freeze();
 
+       /* Disable perf metrics if any added CPU doesn't support it. */
+       if (x86_pmu.intel_cap.perf_metrics) {
+               union perf_capabilities perf_cap;
+
+               rdmsrl(MSR_IA32_PERF_CAPABILITIES, perf_cap.capabilities);
+               if (!perf_cap.perf_metrics) {
+                       x86_pmu.intel_cap.perf_metrics = 0;
+                       x86_pmu.intel_ctrl &= ~(1ULL << GLOBAL_CTRL_EN_PERF_METRICS);
+               }
+       }
+
        if (!cpuc->shared_regs)
                return;
 
@@ -4355,6 +4662,15 @@ static struct attribute *icl_events_attrs[] = {
        NULL,
 };
 
+static struct attribute *icl_td_events_attrs[] = {
+       EVENT_PTR(slots),
+       EVENT_PTR(td_retiring),
+       EVENT_PTR(td_bad_spec),
+       EVENT_PTR(td_fe_bound),
+       EVENT_PTR(td_be_bound),
+       NULL,
+};
+
 static struct attribute *icl_tsx_events_attrs[] = {
        EVENT_PTR(tx_start),
        EVENT_PTR(tx_abort),
@@ -4830,6 +5146,7 @@ __init int intel_pmu_init(void)
 
        case INTEL_FAM6_ATOM_TREMONT_D:
        case INTEL_FAM6_ATOM_TREMONT:
+       case INTEL_FAM6_ATOM_TREMONT_L:
                x86_pmu.late_ack = true;
                memcpy(hw_cache_event_ids, glp_hw_cache_event_ids,
                       sizeof(hw_cache_event_ids));
@@ -5139,10 +5456,13 @@ __init int intel_pmu_init(void)
                        hsw_format_attr : nhm_format_attr;
                extra_skl_attr = skl_format_attr;
                mem_attr = icl_events_attrs;
+               td_attr = icl_td_events_attrs;
                tsx_attr = icl_tsx_events_attrs;
                x86_pmu.rtm_abort_event = X86_CONFIG(.event=0xca, .umask=0x02);
                x86_pmu.lbr_pt_coexist = true;
                intel_pmu_pebs_data_source_skl(pmem);
+               x86_pmu.update_topdown_event = icl_update_topdown_event;
+               x86_pmu.set_topdown_event_period = icl_set_topdown_event_period;
                pr_cont("Icelake events, ");
                name = "icelake";
                break;
@@ -5198,6 +5518,15 @@ __init int intel_pmu_init(void)
                 * counter, so do not extend mask to generic counters
                 */
                for_each_event_constraint(c, x86_pmu.event_constraints) {
+                       /*
+                        * Don't extend the topdown slots and metrics
+                        * events to the generic counters.
+                        */
+                       if (c->idxmsk64 & INTEL_PMC_MSK_TOPDOWN) {
+                               c->weight = hweight64(c->idxmsk64);
+                               continue;
+                       }
+
                        if (c->cmask == FIXED_EVENT_FLAGS
                            && c->idxmsk64 != INTEL_PMC_MSK_FIXED_REF_CYCLES) {
                                c->idxmsk64 |= (1ULL << x86_pmu.num_counters) - 1;
@@ -5253,6 +5582,9 @@ __init int intel_pmu_init(void)
        if (x86_pmu.counter_freezing)
                x86_pmu.handle_irq = intel_pmu_handle_irq_v4;
 
+       if (x86_pmu.intel_cap.perf_metrics)
+               x86_pmu.intel_ctrl |= 1ULL << GLOBAL_CTRL_EN_PERF_METRICS;
+
        return 0;
 }
 
index 86848c5..404315d 100644 (file)
@@ -670,9 +670,7 @@ unlock:
 
 static inline void intel_pmu_drain_pebs_buffer(void)
 {
-       struct pt_regs regs;
-
-       x86_pmu.drain_pebs(&regs);
+       x86_pmu.drain_pebs(NULL);
 }
 
 /*
@@ -1737,6 +1735,7 @@ static void __intel_pmu_pebs_event(struct perf_event *event,
        struct x86_perf_regs perf_regs;
        struct pt_regs *regs = &perf_regs.regs;
        void *at = get_next_pebs_record_by_bit(base, top, bit);
+       struct pt_regs dummy_iregs;
 
        if (hwc->flags & PERF_X86_EVENT_AUTO_RELOAD) {
                /*
@@ -1749,6 +1748,9 @@ static void __intel_pmu_pebs_event(struct perf_event *event,
        } else if (!intel_pmu_save_and_restart(event))
                return;
 
+       if (!iregs)
+               iregs = &dummy_iregs;
+
        while (count > 1) {
                setup_sample(event, iregs, at, &data, regs);
                perf_event_output(event, &data, regs);
@@ -1758,16 +1760,22 @@ static void __intel_pmu_pebs_event(struct perf_event *event,
        }
 
        setup_sample(event, iregs, at, &data, regs);
-
-       /*
-        * All but the last records are processed.
-        * The last one is left to be able to call the overflow handler.
-        */
-       if (perf_event_overflow(event, &data, regs)) {
-               x86_pmu_stop(event, 0);
-               return;
+       if (iregs == &dummy_iregs) {
+               /*
+                * The PEBS records may be drained in the non-overflow context,
+                * e.g., large PEBS + context switch. Perf should treat the
+                * last record the same as other PEBS records, and doesn't
+                * invoke the generic overflow handler.
+                */
+               perf_event_output(event, &data, regs);
+       } else {
+               /*
+                * All but the last records are processed.
+                * The last one is left to be able to call the overflow handler.
+                */
+               if (perf_event_overflow(event, &data, regs))
+                       x86_pmu_stop(event, 0);
        }
-
 }
 
 static void intel_pmu_drain_pebs_core(struct pt_regs *iregs)
index d5c6d3b..86d012b 100644 (file)
@@ -12,6 +12,8 @@ struct intel_uncore_type **uncore_mmio_uncores = empty_uncore;
 
 static bool pcidrv_registered;
 struct pci_driver *uncore_pci_driver;
+/* The PCI driver for the device which the uncore doesn't own. */
+struct pci_driver *uncore_pci_sub_driver;
 /* pci bus to socket mapping */
 DEFINE_RAW_SPINLOCK(pci2phy_map_lock);
 struct list_head pci2phy_map_head = LIST_HEAD_INIT(pci2phy_map_head);
@@ -989,65 +991,71 @@ uncore_types_init(struct intel_uncore_type **types, bool setid)
 }
 
 /*
- * add a pci uncore device
+ * Get the die information of a PCI device.
+ * @pdev: The PCI device.
+ * @phys_id: The physical socket id which the device maps to.
+ * @die: The die id which the device maps to.
  */
-static int uncore_pci_probe(struct pci_dev *pdev, const struct pci_device_id *id)
+static int uncore_pci_get_dev_die_info(struct pci_dev *pdev,
+                                      int *phys_id, int *die)
 {
-       struct intel_uncore_type *type;
-       struct intel_uncore_pmu *pmu = NULL;
-       struct intel_uncore_box *box;
-       int phys_id, die, ret;
-
-       phys_id = uncore_pcibus_to_physid(pdev->bus);
-       if (phys_id < 0)
+       *phys_id = uncore_pcibus_to_physid(pdev->bus);
+       if (*phys_id < 0)
                return -ENODEV;
 
-       die = (topology_max_die_per_package() > 1) ? phys_id :
-                                       topology_phys_to_logical_pkg(phys_id);
-       if (die < 0)
+       *die = (topology_max_die_per_package() > 1) ? *phys_id :
+                               topology_phys_to_logical_pkg(*phys_id);
+       if (*die < 0)
                return -EINVAL;
 
-       if (UNCORE_PCI_DEV_TYPE(id->driver_data) == UNCORE_EXTRA_PCI_DEV) {
-               int idx = UNCORE_PCI_DEV_IDX(id->driver_data);
-
-               uncore_extra_pci_dev[die].dev[idx] = pdev;
-               pci_set_drvdata(pdev, NULL);
-               return 0;
-       }
-
-       type = uncore_pci_uncores[UNCORE_PCI_DEV_TYPE(id->driver_data)];
+       return 0;
+}
 
-       /*
-        * Some platforms, e.g.  Knights Landing, use a common PCI device ID
-        * for multiple instances of an uncore PMU device type. We should check
-        * PCI slot and func to indicate the uncore box.
-        */
-       if (id->driver_data & ~0xffff) {
-               struct pci_driver *pci_drv = pdev->driver;
-               const struct pci_device_id *ids = pci_drv->id_table;
-               unsigned int devfn;
-
-               while (ids && ids->vendor) {
-                       if ((ids->vendor == pdev->vendor) &&
-                           (ids->device == pdev->device)) {
-                               devfn = PCI_DEVFN(UNCORE_PCI_DEV_DEV(ids->driver_data),
-                                                 UNCORE_PCI_DEV_FUNC(ids->driver_data));
-                               if (devfn == pdev->devfn) {
-                                       pmu = &type->pmus[UNCORE_PCI_DEV_IDX(ids->driver_data)];
-                                       break;
-                               }
+/*
+ * Find the PMU of a PCI device.
+ * @pdev: The PCI device.
+ * @ids: The ID table of the available PCI devices with a PMU.
+ */
+static struct intel_uncore_pmu *
+uncore_pci_find_dev_pmu(struct pci_dev *pdev, const struct pci_device_id *ids)
+{
+       struct intel_uncore_pmu *pmu = NULL;
+       struct intel_uncore_type *type;
+       kernel_ulong_t data;
+       unsigned int devfn;
+
+       while (ids && ids->vendor) {
+               if ((ids->vendor == pdev->vendor) &&
+                   (ids->device == pdev->device)) {
+                       data = ids->driver_data;
+                       devfn = PCI_DEVFN(UNCORE_PCI_DEV_DEV(data),
+                                         UNCORE_PCI_DEV_FUNC(data));
+                       if (devfn == pdev->devfn) {
+                               type = uncore_pci_uncores[UNCORE_PCI_DEV_TYPE(data)];
+                               pmu = &type->pmus[UNCORE_PCI_DEV_IDX(data)];
+                               break;
                        }
-                       ids++;
                }
-               if (pmu == NULL)
-                       return -ENODEV;
-       } else {
-               /*
-                * for performance monitoring unit with multiple boxes,
-                * each box has a different function id.
-                */
-               pmu = &type->pmus[UNCORE_PCI_DEV_IDX(id->driver_data)];
+               ids++;
        }
+       return pmu;
+}
+
+/*
+ * Register the PMU for a PCI device
+ * @pdev: The PCI device.
+ * @type: The corresponding PMU type of the device.
+ * @pmu: The corresponding PMU of the device.
+ * @phys_id: The physical socket id which the device maps to.
+ * @die: The die id which the device maps to.
+ */
+static int uncore_pci_pmu_register(struct pci_dev *pdev,
+                                  struct intel_uncore_type *type,
+                                  struct intel_uncore_pmu *pmu,
+                                  int phys_id, int die)
+{
+       struct intel_uncore_box *box;
+       int ret;
 
        if (WARN_ON_ONCE(pmu->boxes[die] != NULL))
                return -EINVAL;
@@ -1067,7 +1075,6 @@ static int uncore_pci_probe(struct pci_dev *pdev, const struct pci_device_id *id
        box->pci_dev = pdev;
        box->pmu = pmu;
        uncore_box_init(box);
-       pci_set_drvdata(pdev, box);
 
        pmu->boxes[die] = box;
        if (atomic_inc_return(&pmu->activeboxes) > 1)
@@ -1076,7 +1083,6 @@ static int uncore_pci_probe(struct pci_dev *pdev, const struct pci_device_id *id
        /* First active box registers the pmu */
        ret = uncore_pmu_register(pmu);
        if (ret) {
-               pci_set_drvdata(pdev, NULL);
                pmu->boxes[die] = NULL;
                uncore_box_exit(box);
                kfree(box);
@@ -1084,18 +1090,87 @@ static int uncore_pci_probe(struct pci_dev *pdev, const struct pci_device_id *id
        return ret;
 }
 
+/*
+ * add a pci uncore device
+ */
+static int uncore_pci_probe(struct pci_dev *pdev, const struct pci_device_id *id)
+{
+       struct intel_uncore_type *type;
+       struct intel_uncore_pmu *pmu = NULL;
+       int phys_id, die, ret;
+
+       ret = uncore_pci_get_dev_die_info(pdev, &phys_id, &die);
+       if (ret)
+               return ret;
+
+       if (UNCORE_PCI_DEV_TYPE(id->driver_data) == UNCORE_EXTRA_PCI_DEV) {
+               int idx = UNCORE_PCI_DEV_IDX(id->driver_data);
+
+               uncore_extra_pci_dev[die].dev[idx] = pdev;
+               pci_set_drvdata(pdev, NULL);
+               return 0;
+       }
+
+       type = uncore_pci_uncores[UNCORE_PCI_DEV_TYPE(id->driver_data)];
+
+       /*
+        * Some platforms, e.g.  Knights Landing, use a common PCI device ID
+        * for multiple instances of an uncore PMU device type. We should check
+        * PCI slot and func to indicate the uncore box.
+        */
+       if (id->driver_data & ~0xffff) {
+               struct pci_driver *pci_drv = pdev->driver;
+
+               pmu = uncore_pci_find_dev_pmu(pdev, pci_drv->id_table);
+               if (pmu == NULL)
+                       return -ENODEV;
+       } else {
+               /*
+                * for performance monitoring unit with multiple boxes,
+                * each box has a different function id.
+                */
+               pmu = &type->pmus[UNCORE_PCI_DEV_IDX(id->driver_data)];
+       }
+
+       ret = uncore_pci_pmu_register(pdev, type, pmu, phys_id, die);
+
+       pci_set_drvdata(pdev, pmu->boxes[die]);
+
+       return ret;
+}
+
+/*
+ * Unregister the PMU of a PCI device
+ * @pmu: The corresponding PMU is unregistered.
+ * @phys_id: The physical socket id which the device maps to.
+ * @die: The die id which the device maps to.
+ */
+static void uncore_pci_pmu_unregister(struct intel_uncore_pmu *pmu,
+                                     int phys_id, int die)
+{
+       struct intel_uncore_box *box = pmu->boxes[die];
+
+       if (WARN_ON_ONCE(phys_id != box->pci_phys_id))
+               return;
+
+       pmu->boxes[die] = NULL;
+       if (atomic_dec_return(&pmu->activeboxes) == 0)
+               uncore_pmu_unregister(pmu);
+       uncore_box_exit(box);
+       kfree(box);
+}
+
 static void uncore_pci_remove(struct pci_dev *pdev)
 {
        struct intel_uncore_box *box;
        struct intel_uncore_pmu *pmu;
        int i, phys_id, die;
 
-       phys_id = uncore_pcibus_to_physid(pdev->bus);
+       if (uncore_pci_get_dev_die_info(pdev, &phys_id, &die))
+               return;
 
        box = pci_get_drvdata(pdev);
        if (!box) {
-               die = (topology_max_die_per_package() > 1) ? phys_id :
-                                       topology_phys_to_logical_pkg(phys_id);
                for (i = 0; i < UNCORE_EXTRA_PCI_DEV_MAX; i++) {
                        if (uncore_extra_pci_dev[die].dev[i] == pdev) {
                                uncore_extra_pci_dev[die].dev[i] = NULL;
@@ -1107,15 +1182,84 @@ static void uncore_pci_remove(struct pci_dev *pdev)
        }
 
        pmu = box->pmu;
-       if (WARN_ON_ONCE(phys_id != box->pci_phys_id))
-               return;
 
        pci_set_drvdata(pdev, NULL);
-       pmu->boxes[box->dieid] = NULL;
-       if (atomic_dec_return(&pmu->activeboxes) == 0)
-               uncore_pmu_unregister(pmu);
-       uncore_box_exit(box);
-       kfree(box);
+
+       uncore_pci_pmu_unregister(pmu, phys_id, die);
+}
+
+static int uncore_bus_notify(struct notifier_block *nb,
+                            unsigned long action, void *data)
+{
+       struct device *dev = data;
+       struct pci_dev *pdev = to_pci_dev(dev);
+       struct intel_uncore_pmu *pmu;
+       int phys_id, die;
+
+       /* Unregister the PMU when the device is going to be deleted. */
+       if (action != BUS_NOTIFY_DEL_DEVICE)
+               return NOTIFY_DONE;
+
+       pmu = uncore_pci_find_dev_pmu(pdev, uncore_pci_sub_driver->id_table);
+       if (!pmu)
+               return NOTIFY_DONE;
+
+       if (uncore_pci_get_dev_die_info(pdev, &phys_id, &die))
+               return NOTIFY_DONE;
+
+       uncore_pci_pmu_unregister(pmu, phys_id, die);
+
+       return NOTIFY_OK;
+}
+
+static struct notifier_block uncore_notifier = {
+       .notifier_call = uncore_bus_notify,
+};
+
+static void uncore_pci_sub_driver_init(void)
+{
+       const struct pci_device_id *ids = uncore_pci_sub_driver->id_table;
+       struct intel_uncore_type *type;
+       struct intel_uncore_pmu *pmu;
+       struct pci_dev *pci_sub_dev;
+       bool notify = false;
+       unsigned int devfn;
+       int phys_id, die;
+
+       while (ids && ids->vendor) {
+               pci_sub_dev = NULL;
+               type = uncore_pci_uncores[UNCORE_PCI_DEV_TYPE(ids->driver_data)];
+               /*
+                * Search the available device, and register the
+                * corresponding PMU.
+                */
+               while ((pci_sub_dev = pci_get_device(PCI_VENDOR_ID_INTEL,
+                                                    ids->device, pci_sub_dev))) {
+                       devfn = PCI_DEVFN(UNCORE_PCI_DEV_DEV(ids->driver_data),
+                                         UNCORE_PCI_DEV_FUNC(ids->driver_data));
+                       if (devfn != pci_sub_dev->devfn)
+                               continue;
+
+                       pmu = &type->pmus[UNCORE_PCI_DEV_IDX(ids->driver_data)];
+                       if (!pmu)
+                               continue;
+
+                       if (uncore_pci_get_dev_die_info(pci_sub_dev,
+                                                       &phys_id, &die))
+                               continue;
+
+                       if (!uncore_pci_pmu_register(pci_sub_dev, type, pmu,
+                                                    phys_id, die))
+                               notify = true;
+               }
+               ids++;
+       }
+
+       if (notify && bus_register_notifier(&pci_bus_type, &uncore_notifier))
+               notify = false;
+
+       if (!notify)
+               uncore_pci_sub_driver = NULL;
 }
 
 static int __init uncore_pci_init(void)
@@ -1141,6 +1285,9 @@ static int __init uncore_pci_init(void)
        if (ret)
                goto errtype;
 
+       if (uncore_pci_sub_driver)
+               uncore_pci_sub_driver_init();
+
        pcidrv_registered = true;
        return 0;
 
@@ -1158,6 +1305,8 @@ static void uncore_pci_exit(void)
 {
        if (pcidrv_registered) {
                pcidrv_registered = false;
+               if (uncore_pci_sub_driver)
+                       bus_unregister_notifier(&pci_bus_type, &uncore_notifier);
                pci_unregister_driver(uncore_pci_driver);
                uncore_types_exit(uncore_pci_uncores);
                kfree(uncore_extra_pci_dev);
@@ -1478,12 +1627,12 @@ static const struct intel_uncore_init_fun icl_uncore_init __initconst = {
 };
 
 static const struct intel_uncore_init_fun tgl_uncore_init __initconst = {
-       .cpu_init = icl_uncore_cpu_init,
+       .cpu_init = tgl_uncore_cpu_init,
        .mmio_init = tgl_uncore_mmio_init,
 };
 
 static const struct intel_uncore_init_fun tgl_l_uncore_init __initconst = {
-       .cpu_init = icl_uncore_cpu_init,
+       .cpu_init = tgl_uncore_cpu_init,
        .mmio_init = tgl_l_uncore_mmio_init,
 };
 
index 105fdc6..83d2a7d 100644 (file)
@@ -552,6 +552,7 @@ extern struct intel_uncore_type **uncore_msr_uncores;
 extern struct intel_uncore_type **uncore_pci_uncores;
 extern struct intel_uncore_type **uncore_mmio_uncores;
 extern struct pci_driver *uncore_pci_driver;
+extern struct pci_driver *uncore_pci_sub_driver;
 extern raw_spinlock_t pci2phy_map_lock;
 extern struct list_head pci2phy_map_head;
 extern struct pci_extra_dev *uncore_extra_pci_dev;
@@ -567,6 +568,7 @@ void snb_uncore_cpu_init(void);
 void nhm_uncore_cpu_init(void);
 void skl_uncore_cpu_init(void);
 void icl_uncore_cpu_init(void);
+void tgl_uncore_cpu_init(void);
 void tgl_uncore_mmio_init(void);
 void tgl_l_uncore_mmio_init(void);
 int snb_pci2phy_map_init(int devid);
index 6a4ca27..39e632e 100644 (file)
 #define ICL_UNC_CBO_0_PER_CTR0                 0x702
 #define ICL_UNC_CBO_MSR_OFFSET                 0x8
 
+/* ICL ARB register */
+#define ICL_UNC_ARB_PER_CTR                    0x3b1
+#define ICL_UNC_ARB_PERFEVTSEL                 0x3b3
+
 DEFINE_UNCORE_FORMAT_ATTR(event, event, "config:0-7");
 DEFINE_UNCORE_FORMAT_ATTR(umask, umask, "config:8-15");
 DEFINE_UNCORE_FORMAT_ATTR(edge, edge, "config:18");
@@ -313,15 +317,21 @@ void skl_uncore_cpu_init(void)
        snb_uncore_arb.ops = &skl_uncore_msr_ops;
 }
 
+static struct intel_uncore_ops icl_uncore_msr_ops = {
+       .disable_event  = snb_uncore_msr_disable_event,
+       .enable_event   = snb_uncore_msr_enable_event,
+       .read_counter   = uncore_msr_read_counter,
+};
+
 static struct intel_uncore_type icl_uncore_cbox = {
        .name           = "cbox",
-       .num_counters   = 4,
+       .num_counters   = 2,
        .perf_ctr_bits  = 44,
        .perf_ctr       = ICL_UNC_CBO_0_PER_CTR0,
        .event_ctl      = SNB_UNC_CBO_0_PERFEVTSEL0,
        .event_mask     = SNB_UNC_RAW_EVENT_MASK,
        .msr_offset     = ICL_UNC_CBO_MSR_OFFSET,
-       .ops            = &skl_uncore_msr_ops,
+       .ops            = &icl_uncore_msr_ops,
        .format_group   = &snb_uncore_format_group,
 };
 
@@ -350,13 +360,25 @@ static struct intel_uncore_type icl_uncore_clockbox = {
        .single_fixed   = 1,
        .event_mask     = SNB_UNC_CTL_EV_SEL_MASK,
        .format_group   = &icl_uncore_clock_format_group,
-       .ops            = &skl_uncore_msr_ops,
+       .ops            = &icl_uncore_msr_ops,
        .event_descs    = icl_uncore_events,
 };
 
+static struct intel_uncore_type icl_uncore_arb = {
+       .name           = "arb",
+       .num_counters   = 1,
+       .num_boxes      = 1,
+       .perf_ctr_bits  = 44,
+       .perf_ctr       = ICL_UNC_ARB_PER_CTR,
+       .event_ctl      = ICL_UNC_ARB_PERFEVTSEL,
+       .event_mask     = SNB_UNC_RAW_EVENT_MASK,
+       .ops            = &icl_uncore_msr_ops,
+       .format_group   = &snb_uncore_format_group,
+};
+
 static struct intel_uncore_type *icl_msr_uncores[] = {
        &icl_uncore_cbox,
-       &snb_uncore_arb,
+       &icl_uncore_arb,
        &icl_uncore_clockbox,
        NULL,
 };
@@ -374,6 +396,21 @@ void icl_uncore_cpu_init(void)
 {
        uncore_msr_uncores = icl_msr_uncores;
        icl_uncore_cbox.num_boxes = icl_get_cbox_num();
+}
+
+static struct intel_uncore_type *tgl_msr_uncores[] = {
+       &icl_uncore_cbox,
+       &snb_uncore_arb,
+       &icl_uncore_clockbox,
+       NULL,
+};
+
+void tgl_uncore_cpu_init(void)
+{
+       uncore_msr_uncores = tgl_msr_uncores;
+       icl_uncore_cbox.num_boxes = icl_get_cbox_num();
+       icl_uncore_cbox.ops = &skl_uncore_msr_ops;
+       icl_uncore_clockbox.ops = &skl_uncore_msr_ops;
        snb_uncore_arb.ops = &skl_uncore_msr_ops;
 }
 
index 62e88ad..7bdb182 100644 (file)
 #define SNR_M2M_PCI_PMON_BOX_CTL               0x438
 #define SNR_M2M_PCI_PMON_UMASK_EXT             0xff
 
+/* SNR PCIE3 */
+#define SNR_PCIE3_PCI_PMON_CTL0                        0x508
+#define SNR_PCIE3_PCI_PMON_CTR0                        0x4e8
+#define SNR_PCIE3_PCI_PMON_BOX_CTL             0x4e0
+
 /* SNR IMC */
 #define SNR_IMC_MMIO_PMON_FIXED_CTL            0x54
 #define SNR_IMC_MMIO_PMON_FIXED_CTR            0x38
@@ -3749,7 +3754,9 @@ static int skx_iio_set_mapping(struct intel_uncore_type *type)
 
        ret = skx_iio_get_topology(type);
        if (ret)
-               return ret;
+               goto clear_attr_update;
+
+       ret = -ENOMEM;
 
        /* One more for NULL. */
        attrs = kcalloc((uncore_max_dies() + 1), sizeof(*attrs), GFP_KERNEL);
@@ -3781,8 +3788,9 @@ err:
        kfree(eas);
        kfree(attrs);
        kfree(type->topology);
+clear_attr_update:
        type->attr_update = NULL;
-       return -ENOMEM;
+       return ret;
 }
 
 static void skx_iio_cleanup_mapping(struct intel_uncore_type *type)
@@ -4551,12 +4559,46 @@ static struct intel_uncore_type snr_uncore_m2m = {
        .format_group   = &snr_m2m_uncore_format_group,
 };
 
+static void snr_uncore_pci_enable_event(struct intel_uncore_box *box, struct perf_event *event)
+{
+       struct pci_dev *pdev = box->pci_dev;
+       struct hw_perf_event *hwc = &event->hw;
+
+       pci_write_config_dword(pdev, hwc->config_base, (u32)(hwc->config | SNBEP_PMON_CTL_EN));
+       pci_write_config_dword(pdev, hwc->config_base + 4, (u32)(hwc->config >> 32));
+}
+
+static struct intel_uncore_ops snr_pcie3_uncore_pci_ops = {
+       .init_box       = snr_m2m_uncore_pci_init_box,
+       .disable_box    = snbep_uncore_pci_disable_box,
+       .enable_box     = snbep_uncore_pci_enable_box,
+       .disable_event  = snbep_uncore_pci_disable_event,
+       .enable_event   = snr_uncore_pci_enable_event,
+       .read_counter   = snbep_uncore_pci_read_counter,
+};
+
+static struct intel_uncore_type snr_uncore_pcie3 = {
+       .name           = "pcie3",
+       .num_counters   = 4,
+       .num_boxes      = 1,
+       .perf_ctr_bits  = 48,
+       .perf_ctr       = SNR_PCIE3_PCI_PMON_CTR0,
+       .event_ctl      = SNR_PCIE3_PCI_PMON_CTL0,
+       .event_mask     = SKX_IIO_PMON_RAW_EVENT_MASK,
+       .event_mask_ext = SKX_IIO_PMON_RAW_EVENT_MASK_EXT,
+       .box_ctl        = SNR_PCIE3_PCI_PMON_BOX_CTL,
+       .ops            = &snr_pcie3_uncore_pci_ops,
+       .format_group   = &skx_uncore_iio_format_group,
+};
+
 enum {
        SNR_PCI_UNCORE_M2M,
+       SNR_PCI_UNCORE_PCIE3,
 };
 
 static struct intel_uncore_type *snr_pci_uncores[] = {
        [SNR_PCI_UNCORE_M2M]            = &snr_uncore_m2m,
+       [SNR_PCI_UNCORE_PCIE3]          = &snr_uncore_pcie3,
        NULL,
 };
 
@@ -4573,6 +4615,19 @@ static struct pci_driver snr_uncore_pci_driver = {
        .id_table       = snr_uncore_pci_ids,
 };
 
+static const struct pci_device_id snr_uncore_pci_sub_ids[] = {
+       { /* PCIe3 RP */
+               PCI_DEVICE(PCI_VENDOR_ID_INTEL, 0x334a),
+               .driver_data = UNCORE_PCI_DEV_FULL_DATA(4, 0, SNR_PCI_UNCORE_PCIE3, 0),
+       },
+       { /* end: all zeroes */ }
+};
+
+static struct pci_driver snr_uncore_pci_sub_driver = {
+       .name           = "snr_uncore_sub",
+       .id_table       = snr_uncore_pci_sub_ids,
+};
+
 int snr_uncore_pci_init(void)
 {
        /* SNR UBOX DID */
@@ -4584,6 +4639,7 @@ int snr_uncore_pci_init(void)
 
        uncore_pci_uncores = snr_pci_uncores;
        uncore_pci_driver = &snr_uncore_pci_driver;
+       uncore_pci_sub_driver = &snr_uncore_pci_sub_driver;
        return 0;
 }
 
@@ -4751,10 +4807,10 @@ static struct uncore_event_desc snr_uncore_imc_freerunning_events[] = {
        INTEL_UNCORE_EVENT_DESC(dclk,           "event=0xff,umask=0x10"),
 
        INTEL_UNCORE_EVENT_DESC(read,           "event=0xff,umask=0x20"),
-       INTEL_UNCORE_EVENT_DESC(read.scale,     "3.814697266e-6"),
+       INTEL_UNCORE_EVENT_DESC(read.scale,     "6.103515625e-5"),
        INTEL_UNCORE_EVENT_DESC(read.unit,      "MiB"),
        INTEL_UNCORE_EVENT_DESC(write,          "event=0xff,umask=0x21"),
-       INTEL_UNCORE_EVENT_DESC(write.scale,    "3.814697266e-6"),
+       INTEL_UNCORE_EVENT_DESC(write.scale,    "6.103515625e-5"),
        INTEL_UNCORE_EVENT_DESC(write.unit,     "MiB"),
        { /* end: all zeroes */ },
 };
@@ -5212,17 +5268,17 @@ static struct uncore_event_desc icx_uncore_imc_freerunning_events[] = {
        INTEL_UNCORE_EVENT_DESC(dclk,                   "event=0xff,umask=0x10"),
 
        INTEL_UNCORE_EVENT_DESC(read,                   "event=0xff,umask=0x20"),
-       INTEL_UNCORE_EVENT_DESC(read.scale,             "3.814697266e-6"),
+       INTEL_UNCORE_EVENT_DESC(read.scale,             "6.103515625e-5"),
        INTEL_UNCORE_EVENT_DESC(read.unit,              "MiB"),
        INTEL_UNCORE_EVENT_DESC(write,                  "event=0xff,umask=0x21"),
-       INTEL_UNCORE_EVENT_DESC(write.scale,            "3.814697266e-6"),
+       INTEL_UNCORE_EVENT_DESC(write.scale,            "6.103515625e-5"),
        INTEL_UNCORE_EVENT_DESC(write.unit,             "MiB"),
 
        INTEL_UNCORE_EVENT_DESC(ddrt_read,              "event=0xff,umask=0x30"),
-       INTEL_UNCORE_EVENT_DESC(ddrt_read.scale,        "3.814697266e-6"),
+       INTEL_UNCORE_EVENT_DESC(ddrt_read.scale,        "6.103515625e-5"),
        INTEL_UNCORE_EVENT_DESC(ddrt_read.unit,         "MiB"),
        INTEL_UNCORE_EVENT_DESC(ddrt_write,             "event=0xff,umask=0x31"),
-       INTEL_UNCORE_EVENT_DESC(ddrt_write.scale,       "3.814697266e-6"),
+       INTEL_UNCORE_EVENT_DESC(ddrt_write.scale,       "6.103515625e-5"),
        INTEL_UNCORE_EVENT_DESC(ddrt_write.unit,        "MiB"),
        { /* end: all zeroes */ },
 };
index a949f6f..4be8f9c 100644 (file)
@@ -78,6 +78,7 @@ static bool test_intel(int idx, void *data)
        case INTEL_FAM6_ATOM_GOLDMONT_PLUS:
        case INTEL_FAM6_ATOM_TREMONT_D:
        case INTEL_FAM6_ATOM_TREMONT:
+       case INTEL_FAM6_ATOM_TREMONT_L:
 
        case INTEL_FAM6_XEON_PHI_KNL:
        case INTEL_FAM6_XEON_PHI_KNM:
index 7b68ab5..ee2b9b9 100644 (file)
@@ -79,6 +79,31 @@ static inline bool constraint_match(struct event_constraint *c, u64 ecode)
 #define PERF_X86_EVENT_PEBS_VIA_PT     0x0800 /* use PT buffer for PEBS */
 #define PERF_X86_EVENT_PAIR            0x1000 /* Large Increment per Cycle */
 #define PERF_X86_EVENT_LBR_SELECT      0x2000 /* Save/Restore MSR_LBR_SELECT */
+#define PERF_X86_EVENT_TOPDOWN         0x4000 /* Count Topdown slots/metrics events */
+
+static inline bool is_topdown_count(struct perf_event *event)
+{
+       return event->hw.flags & PERF_X86_EVENT_TOPDOWN;
+}
+
+static inline bool is_metric_event(struct perf_event *event)
+{
+       u64 config = event->attr.config;
+
+       return ((config & ARCH_PERFMON_EVENTSEL_EVENT) == 0) &&
+               ((config & INTEL_ARCH_EVENT_MASK) >= INTEL_TD_METRIC_RETIRING)  &&
+               ((config & INTEL_ARCH_EVENT_MASK) <= INTEL_TD_METRIC_MAX);
+}
+
+static inline bool is_slots_event(struct perf_event *event)
+{
+       return (event->attr.config & INTEL_ARCH_EVENT_MASK) == INTEL_TD_SLOTS;
+}
+
+static inline bool is_topdown_event(struct perf_event *event)
+{
+       return is_metric_event(event) || is_slots_event(event);
+}
 
 struct amd_nb {
        int nb_id;  /* NorthBridge id */
@@ -210,6 +235,8 @@ struct cpu_hw_events {
                                             they've never been enabled yet */
        int                     n_txn;    /* the # last events in the below arrays;
                                             added in the current transaction */
+       int                     n_txn_pair;
+       int                     n_txn_metric;
        int                     assign[X86_PMC_IDX_MAX]; /* event to counter assignment */
        u64                     tags[X86_PMC_IDX_MAX];
 
@@ -285,6 +312,12 @@ struct cpu_hw_events {
        u64                             tfa_shadow;
 
        /*
+        * Perf Metrics
+        */
+       /* number of accepted metrics events */
+       int                             n_metric;
+
+       /*
         * AMD specific bits
         */
        struct amd_nb                   *amd_nb;
@@ -376,6 +409,19 @@ struct cpu_hw_events {
        EVENT_CONSTRAINT(c, (1ULL << (32+n)), FIXED_EVENT_FLAGS)
 
 /*
+ * The special metric counters do not actually exist. They are calculated from
+ * the combination of the FxCtr3 + MSR_PERF_METRICS.
+ *
+ * The special metric counters are mapped to a dummy offset for the scheduler.
+ * The sharing between multiple users of the same metric without multiplexing
+ * is not allowed, even though the hardware supports that in principle.
+ */
+
+#define METRIC_EVENT_CONSTRAINT(c, n)                                  \
+       EVENT_CONSTRAINT(c, (1ULL << (INTEL_PMC_IDX_METRIC_BASE + n)),  \
+                        INTEL_ARCH_EVENT_MASK)
+
+/*
  * Constraint on the Event code + UMask
  */
 #define INTEL_UEVENT_CONSTRAINT(c, n)  \
@@ -537,7 +583,7 @@ union perf_capabilities {
                 */
                u64     full_width_write:1;
                u64     pebs_baseline:1;
-               u64     pebs_metrics_available:1;
+               u64     perf_metrics:1;
                u64     pebs_output_pt_available:1;
        };
        u64     capabilities;
@@ -727,6 +773,12 @@ struct x86_pmu {
        atomic_t        lbr_exclusive[x86_lbr_exclusive_max];
 
        /*
+        * Intel perf metrics
+        */
+       u64             (*update_topdown_event)(struct perf_event *event);
+       int             (*set_topdown_event_period)(struct perf_event *event);
+
+       /*
         * perf task context (i.e. struct perf_event_context::task_ctx_data)
         * switch helper to bridge calls from perf/core to perf/x86.
         * See struct pmu::swap_task_ctx() usage for examples;
index 67b411f..7c0120e 100644 (file)
@@ -815,6 +815,7 @@ static const struct x86_cpu_id rapl_model_match[] __initconst = {
        X86_MATCH_INTEL_FAM6_MODEL(SAPPHIRERAPIDS_X,    &model_spr),
        X86_MATCH_VENDOR_FAM(AMD,       0x17,           &model_amd_fam17h),
        X86_MATCH_VENDOR_FAM(HYGON,     0x18,           &model_amd_fam17h),
+       X86_MATCH_VENDOR_FAM(AMD,       0x19,           &model_amd_fam17h),
        {},
 };
 MODULE_DEVICE_TABLE(x86cpu, rapl_model_match);
index 6035df1..e04d90a 100644 (file)
@@ -148,9 +148,9 @@ static inline bool hv_reenlightenment_available(void)
         * Check for required features and priviliges to make TSC frequency
         * change notifications work.
         */
-       return ms_hyperv.features & HV_X64_ACCESS_FREQUENCY_MSRS &&
+       return ms_hyperv.features & HV_ACCESS_FREQUENCY_MSRS &&
                ms_hyperv.misc_features & HV_FEATURE_FREQUENCY_MSRS_AVAILABLE &&
-               ms_hyperv.features & HV_X64_ACCESS_REENLIGHTENMENT;
+               ms_hyperv.features & HV_ACCESS_REENLIGHTENMENT;
 }
 
 DEFINE_IDTENTRY_SYSVEC(sysvec_hyperv_reenlightenment)
@@ -330,8 +330,8 @@ void __init hyperv_init(void)
                return;
 
        /* Absolutely required MSRs */
-       required_msrs = HV_X64_MSR_HYPERCALL_AVAILABLE |
-               HV_X64_MSR_VP_INDEX_AVAILABLE;
+       required_msrs = HV_MSR_HYPERCALL_AVAILABLE |
+               HV_MSR_VP_INDEX_AVAILABLE;
 
        if ((ms_hyperv.features & required_msrs) != required_msrs)
                return;
index 07f21a0..f3270c1 100644 (file)
@@ -66,7 +66,7 @@ void __init hv_init_spinlocks(void)
 {
        if (!hv_pvspin || !apic ||
            !(ms_hyperv.hints & HV_X64_CLUSTER_IPI_RECOMMENDED) ||
-           !(ms_hyperv.features & HV_X64_MSR_GUEST_IDLE_AVAILABLE)) {
+           !(ms_hyperv.features & HV_MSR_GUEST_IDLE_AVAILABLE)) {
                pr_info("PV spinlocks disabled\n");
                return;
        }
index 2cc44e9..1c129ab 100644 (file)
@@ -519,6 +519,14 @@ static inline bool apic_id_is_primary_thread(unsigned int id) { return false; }
 static inline void apic_smt_update(void) { }
 #endif
 
+struct msi_msg;
+
+#ifdef CONFIG_PCI_MSI
+void x86_vector_msi_compose_msg(struct irq_data *data, struct msi_msg *msg);
+#else
+# define x86_vector_msi_compose_msg NULL
+#endif
+
 extern void ioapic_zap_locks(void);
 
 #endif /* _ASM_X86_APIC_H */
index 5a42f92..51e2bf2 100644 (file)
@@ -5,6 +5,7 @@
 #include <asm/string.h>
 #include <asm/page.h>
 #include <asm/checksum.h>
+#include <asm/mce.h>
 
 #include <asm-generic/asm-prototypes.h>
 
index 5c15f95..0603c74 100644 (file)
 # define _ASM_EXTABLE_UA(from, to)                             \
        _ASM_EXTABLE_HANDLE(from, to, ex_handler_uaccess)
 
+# define _ASM_EXTABLE_CPY(from, to)                            \
+       _ASM_EXTABLE_HANDLE(from, to, ex_handler_copy)
+
 # define _ASM_EXTABLE_FAULT(from, to)                          \
        _ASM_EXTABLE_HANDLE(from, to, ex_handler_fault)
 
-# define _ASM_NOKPROBE(entry)                                  \
+# ifdef CONFIG_KPROBES
+#  define _ASM_NOKPROBE(entry)                                 \
        .pushsection "_kprobe_blacklist","aw" ;                 \
        _ASM_ALIGN ;                                            \
        _ASM_PTR (entry);                                       \
        .popsection
+# else
+#  define _ASM_NOKPROBE(entry)
+# endif
 
 #else /* ! __ASSEMBLY__ */
 # define _EXPAND_EXTABLE_HANDLE(x) #x
 # define _ASM_EXTABLE_UA(from, to)                             \
        _ASM_EXTABLE_HANDLE(from, to, ex_handler_uaccess)
 
+# define _ASM_EXTABLE_CPY(from, to)                            \
+       _ASM_EXTABLE_HANDLE(from, to, ex_handler_copy)
+
 # define _ASM_EXTABLE_FAULT(from, to)                          \
        _ASM_EXTABLE_HANDLE(from, to, ex_handler_fault)
 
index 0ada98d..bca625a 100644 (file)
@@ -1,6 +1,7 @@
 /* SPDX-License-Identifier: GPL-2.0 */
 #define  _HAVE_ARCH_COPY_AND_CSUM_FROM_USER 1
 #define HAVE_CSUM_COPY_USER
+#define _HAVE_ARCH_CSUM_AND_COPY
 #ifdef CONFIG_X86_32
 # include <asm/checksum_32.h>
 #else
index 11624c8..17da953 100644 (file)
@@ -27,9 +27,7 @@ asmlinkage __wsum csum_partial(const void *buff, int len, __wsum sum);
  * better 64-bit) boundary
  */
 
-asmlinkage __wsum csum_partial_copy_generic(const void *src, void *dst,
-                                           int len, __wsum sum,
-                                           int *src_err_ptr, int *dst_err_ptr);
+asmlinkage __wsum csum_partial_copy_generic(const void *src, void *dst, int len);
 
 /*
  *     Note: when you get a NULL pointer exception here this means someone
@@ -38,26 +36,20 @@ asmlinkage __wsum csum_partial_copy_generic(const void *src, void *dst,
  *     If you use these functions directly please don't forget the
  *     access_ok().
  */
-static inline __wsum csum_partial_copy_nocheck(const void *src, void *dst,
-                                              int len, __wsum sum)
+static inline __wsum csum_partial_copy_nocheck(const void *src, void *dst, int len)
 {
-       return csum_partial_copy_generic(src, dst, len, sum, NULL, NULL);
+       return csum_partial_copy_generic(src, dst, len);
 }
 
 static inline __wsum csum_and_copy_from_user(const void __user *src,
-                                            void *dst, int len,
-                                            __wsum sum, int *err_ptr)
+                                            void *dst, int len)
 {
        __wsum ret;
 
        might_sleep();
-       if (!user_access_begin(src, len)) {
-               if (len)
-                       *err_ptr = -EFAULT;
-               return sum;
-       }
-       ret = csum_partial_copy_generic((__force void *)src, dst,
-                                       len, sum, err_ptr, NULL);
+       if (!user_access_begin(src, len))
+               return 0;
+       ret = csum_partial_copy_generic((__force void *)src, dst, len);
        user_access_end();
 
        return ret;
@@ -178,23 +170,17 @@ static inline __sum16 csum_ipv6_magic(const struct in6_addr *saddr,
  */
 static inline __wsum csum_and_copy_to_user(const void *src,
                                           void __user *dst,
-                                          int len, __wsum sum,
-                                          int *err_ptr)
+                                          int len)
 {
        __wsum ret;
 
        might_sleep();
-       if (user_access_begin(dst, len)) {
-               ret = csum_partial_copy_generic(src, (__force void *)dst,
-                                               len, sum, NULL, err_ptr);
-               user_access_end();
-               return ret;
-       }
+       if (!user_access_begin(dst, len))
+               return 0;
 
-       if (len)
-               *err_ptr = -EFAULT;
-
-       return (__force __wsum)-1; /* invalid checksum */
+       ret = csum_partial_copy_generic(src, (__force void *)dst, len);
+       user_access_end();
+       return ret;
 }
 
 #endif /* _ASM_X86_CHECKSUM_32_H */
index 0a289b8..407beeb 100644 (file)
@@ -130,17 +130,11 @@ static inline __sum16 csum_tcpudp_magic(__be32 saddr, __be32 daddr,
 extern __wsum csum_partial(const void *buff, int len, __wsum sum);
 
 /* Do not call this directly. Use the wrappers below */
-extern __visible __wsum csum_partial_copy_generic(const void *src, const void *dst,
-                                       int len, __wsum sum,
-                                       int *src_err_ptr, int *dst_err_ptr);
+extern __visible __wsum csum_partial_copy_generic(const void *src, void *dst, int len);
 
-
-extern __wsum csum_and_copy_from_user(const void __user *src, void *dst,
-                                         int len, __wsum isum, int *errp);
-extern __wsum csum_and_copy_to_user(const void *src, void __user *dst,
-                                       int len, __wsum isum, int *errp);
-extern __wsum csum_partial_copy_nocheck(const void *src, void *dst,
-                                       int len, __wsum sum);
+extern __wsum csum_and_copy_from_user(const void __user *src, void *dst, int len);
+extern __wsum csum_and_copy_to_user(const void *src, void __user *dst, int len);
+extern __wsum csum_partial_copy_nocheck(const void *src, void *dst, int len);
 
 /**
  * ip_compute_csum - Compute an 16bit IP checksum.
index d4edf28..0e327a0 100644 (file)
@@ -27,8 +27,6 @@ typedef u16           compat_nlink_t;
 typedef u16            compat_ipc_pid_t;
 typedef u32            compat_caddr_t;
 typedef __kernel_fsid_t        compat_fsid_t;
-typedef s64 __attribute__((aligned(4))) compat_s64;
-typedef u64 __attribute__((aligned(4))) compat_u64;
 
 struct compat_stat {
        compat_dev_t    st_dev;
@@ -211,6 +209,7 @@ static inline bool in_compat_syscall(void)
        return in_32bit_syscall();
 }
 #define in_compat_syscall in_compat_syscall    /* override the generic impl */
+#define compat_need_64bit_alignment_fixup in_ia32_syscall
 #endif
 
 struct compat_siginfo;
diff --git a/arch/x86/include/asm/copy_mc_test.h b/arch/x86/include/asm/copy_mc_test.h
new file mode 100644 (file)
index 0000000..e4991ba
--- /dev/null
@@ -0,0 +1,75 @@
+/* SPDX-License-Identifier: GPL-2.0 */
+#ifndef _COPY_MC_TEST_H_
+#define _COPY_MC_TEST_H_
+
+#ifndef __ASSEMBLY__
+#ifdef CONFIG_COPY_MC_TEST
+extern unsigned long copy_mc_test_src;
+extern unsigned long copy_mc_test_dst;
+
+static inline void copy_mc_inject_src(void *addr)
+{
+       if (addr)
+               copy_mc_test_src = (unsigned long) addr;
+       else
+               copy_mc_test_src = ~0UL;
+}
+
+static inline void copy_mc_inject_dst(void *addr)
+{
+       if (addr)
+               copy_mc_test_dst = (unsigned long) addr;
+       else
+               copy_mc_test_dst = ~0UL;
+}
+#else /* CONFIG_COPY_MC_TEST */
+static inline void copy_mc_inject_src(void *addr)
+{
+}
+
+static inline void copy_mc_inject_dst(void *addr)
+{
+}
+#endif /* CONFIG_COPY_MC_TEST */
+
+#else /* __ASSEMBLY__ */
+#include <asm/export.h>
+
+#ifdef CONFIG_COPY_MC_TEST
+.macro COPY_MC_TEST_CTL
+       .pushsection .data
+       .align 8
+       .globl copy_mc_test_src
+       copy_mc_test_src:
+               .quad 0
+       EXPORT_SYMBOL_GPL(copy_mc_test_src)
+       .globl copy_mc_test_dst
+       copy_mc_test_dst:
+               .quad 0
+       EXPORT_SYMBOL_GPL(copy_mc_test_dst)
+       .popsection
+.endm
+
+.macro COPY_MC_TEST_SRC reg count target
+       leaq \count(\reg), %r9
+       cmp copy_mc_test_src, %r9
+       ja \target
+.endm
+
+.macro COPY_MC_TEST_DST reg count target
+       leaq \count(\reg), %r9
+       cmp copy_mc_test_dst, %r9
+       ja \target
+.endm
+#else
+.macro COPY_MC_TEST_CTL
+.endm
+
+.macro COPY_MC_TEST_SRC reg count target
+.endm
+
+.macro COPY_MC_TEST_DST reg count target
+.endm
+#endif /* CONFIG_COPY_MC_TEST */
+#endif /* __ASSEMBLY__ */
+#endif /* _COPY_MC_TEST_H_ */
index 2901d5d..7b0afd5 100644 (file)
@@ -96,7 +96,7 @@
 #define X86_FEATURE_SYSCALL32          ( 3*32+14) /* "" syscall in IA32 userspace */
 #define X86_FEATURE_SYSENTER32         ( 3*32+15) /* "" sysenter in IA32 userspace */
 #define X86_FEATURE_REP_GOOD           ( 3*32+16) /* REP microcode works well */
-/* free                                        ( 3*32+17) */
+#define X86_FEATURE_SME_COHERENT       ( 3*32+17) /* "" AMD hardware-enforced cache coherency */
 #define X86_FEATURE_LFENCE_RDTSC       ( 3*32+18) /* "" LFENCE synchronizes RDTSC */
 #define X86_FEATURE_ACC_POWER          ( 3*32+19) /* AMD Accumulated Power Mechanism */
 #define X86_FEATURE_NOPL               ( 3*32+20) /* The NOPL (0F 1F) instructions */
 #define X86_FEATURE_FENCE_SWAPGS_USER  (11*32+ 4) /* "" LFENCE in user entry SWAPGS path */
 #define X86_FEATURE_FENCE_SWAPGS_KERNEL        (11*32+ 5) /* "" LFENCE in kernel entry SWAPGS path */
 #define X86_FEATURE_SPLIT_LOCK_DETECT  (11*32+ 6) /* #AC for split lock */
+#define X86_FEATURE_PER_THREAD_MBA     (11*32+ 7) /* "" Per-thread Memory Bandwidth Allocation */
 
 /* Intel-defined CPU features, CPUID level 0x00000007:1 (EAX), word 12 */
 #define X86_FEATURE_AVX512_BF16                (12*32+ 5) /* AVX512 BFLOAT16 instructions */
 #define X86_FEATURE_CLDEMOTE           (16*32+25) /* CLDEMOTE instruction */
 #define X86_FEATURE_MOVDIRI            (16*32+27) /* MOVDIRI instruction */
 #define X86_FEATURE_MOVDIR64B          (16*32+28) /* MOVDIR64B instruction */
+#define X86_FEATURE_ENQCMD             (16*32+29) /* ENQCMD and ENQCMDS instructions */
 
 /* AMD-defined CPU features, CPUID level 0x80000007 (EBX), word 17 */
 #define X86_FEATURE_OVERFLOW_RECOV     (17*32+ 0) /* MCA overflow recovery support */
 #define X86_FEATURE_MD_CLEAR           (18*32+10) /* VERW clears CPU buffers */
 #define X86_FEATURE_TSX_FORCE_ABORT    (18*32+13) /* "" TSX_FORCE_ABORT */
 #define X86_FEATURE_SERIALIZE          (18*32+14) /* SERIALIZE instruction */
+#define X86_FEATURE_TSXLDTRK           (18*32+16) /* TSX Suspend Load Address Tracking */
 #define X86_FEATURE_PCONFIG            (18*32+18) /* Intel PCONFIG */
 #define X86_FEATURE_ARCH_LBR           (18*32+19) /* Intel ARCH LBR */
 #define X86_FEATURE_SPEC_CTRL          (18*32+26) /* "" Speculation Control (IBRS + IBPB) */
index e89558a..cfdf307 100644 (file)
@@ -90,8 +90,6 @@ static __always_inline bool hw_breakpoint_active(void)
        return __this_cpu_read(cpu_dr7) & DR_GLOBAL_ENABLE_MASK;
 }
 
-extern void aout_dump_debugregs(struct user *dump);
-
 extern void hw_breakpoint_restore(void);
 
 static __always_inline unsigned long local_db_save(void)
index 4ea8584..5861d34 100644 (file)
 # define DISABLE_PTI           (1 << (X86_FEATURE_PTI & 31))
 #endif
 
+#ifdef CONFIG_IOMMU_SUPPORT
+# define DISABLE_ENQCMD        0
+#else
+# define DISABLE_ENQCMD (1 << (X86_FEATURE_ENQCMD & 31))
+#endif
+
 /*
  * Make sure to add features to the correct mask
  */
@@ -75,7 +81,8 @@
 #define DISABLED_MASK13        0
 #define DISABLED_MASK14        0
 #define DISABLED_MASK15        0
-#define DISABLED_MASK16        (DISABLE_PKU|DISABLE_OSPKE|DISABLE_LA57|DISABLE_UMIP)
+#define DISABLED_MASK16        (DISABLE_PKU|DISABLE_OSPKE|DISABLE_LA57|DISABLE_UMIP| \
+                        DISABLE_ENQCMD)
 #define DISABLED_MASK17        0
 #define DISABLED_MASK18        0
 #define DISABLED_MASK_CHECK BUILD_BUG_ON_ZERO(NCAPINTS != 19)
index d8c2198..1f0cbc5 100644 (file)
@@ -29,10 +29,17 @@ struct pt_regs;
                (b)->handler = (tmp).handler - (delta);         \
        } while (0)
 
+enum handler_type {
+       EX_HANDLER_NONE,
+       EX_HANDLER_FAULT,
+       EX_HANDLER_UACCESS,
+       EX_HANDLER_OTHER
+};
+
 extern int fixup_exception(struct pt_regs *regs, int trapnr,
                           unsigned long error_code, unsigned long fault_addr);
 extern int fixup_bug(struct pt_regs *regs, int trapnr);
-extern bool ex_has_fault_handler(unsigned long ip);
+extern enum handler_type ex_get_fault_handler_type(unsigned long ip);
 extern void early_fixup_exception(struct pt_regs *regs, int trapnr);
 
 #endif
index 0f0dd64..77217bd 100644 (file)
@@ -99,7 +99,7 @@ enum fixed_addresses {
        FIX_PCIE_MCFG,
 #endif
 #endif
-#ifdef CONFIG_PARAVIRT
+#ifdef CONFIG_PARAVIRT_XXL
        FIX_PARAVIRT_BOOTMAP,
 #endif
 #ifdef CONFIG_X86_INTEL_MID
index b774c52..dcd9503 100644 (file)
@@ -62,4 +62,16 @@ extern void switch_fpu_return(void);
  */
 extern int cpu_has_xfeatures(u64 xfeatures_mask, const char **feature_name);
 
+/*
+ * Tasks that are not using SVA have mm->pasid set to zero to note that they
+ * will not have the valid bit set in MSR_IA32_PASID while they are running.
+ */
+#define PASID_DISABLED 0
+
+#ifdef CONFIG_IOMMU_SUPPORT
+/* Update current's PASID MSR/state by mm's PASID. */
+void update_pasid(void);
+#else
+static inline void update_pasid(void) { }
+#endif
 #endif /* _ASM_X86_FPU_API_H */
index 0a460f2..eb1ed3b 100644 (file)
@@ -583,6 +583,13 @@ static inline void switch_fpu_finish(struct fpu *new_fpu)
                        pkru_val = pk->pkru;
        }
        __write_pkru(pkru_val);
+
+       /*
+        * Expensive PASID MSR write will be avoided in update_pasid() because
+        * TIF_NEED_FPU_LOAD was set. And the PASID state won't be updated
+        * unless it's different from mm->pasid to reduce overhead.
+        */
+       update_pasid();
 }
 
 /*
@@ -602,9 +609,7 @@ static inline u64 xgetbv(u32 index)
 {
        u32 eax, edx;
 
-       asm volatile(".byte 0x0f,0x01,0xd0" /* xgetbv */
-                    : "=a" (eax), "=d" (edx)
-                    : "c" (index));
+       asm volatile("xgetbv" : "=a" (eax), "=d" (edx) : "c" (index));
        return eax + ((u64)edx << 32);
 }
 
@@ -613,8 +618,7 @@ static inline void xsetbv(u32 index, u64 value)
        u32 eax = value;
        u32 edx = value >> 32;
 
-       asm volatile(".byte 0x0f,0x01,0xd1" /* xsetbv */
-                    : : "a" (eax), "d" (edx), "c" (index));
+       asm volatile("xsetbv" :: "a" (eax), "d" (edx), "c" (index));
 }
 
 #endif /* _ASM_X86_FPU_INTERNAL_H */
index c87364e..f5a38a5 100644 (file)
@@ -114,7 +114,7 @@ enum xfeature {
        XFEATURE_Hi16_ZMM,
        XFEATURE_PT_UNIMPLEMENTED_SO_FAR,
        XFEATURE_PKRU,
-       XFEATURE_RSRVD_COMP_10,
+       XFEATURE_PASID,
        XFEATURE_RSRVD_COMP_11,
        XFEATURE_RSRVD_COMP_12,
        XFEATURE_RSRVD_COMP_13,
@@ -134,6 +134,7 @@ enum xfeature {
 #define XFEATURE_MASK_Hi16_ZMM         (1 << XFEATURE_Hi16_ZMM)
 #define XFEATURE_MASK_PT               (1 << XFEATURE_PT_UNIMPLEMENTED_SO_FAR)
 #define XFEATURE_MASK_PKRU             (1 << XFEATURE_PKRU)
+#define XFEATURE_MASK_PASID            (1 << XFEATURE_PASID)
 #define XFEATURE_MASK_LBR              (1 << XFEATURE_LBR)
 
 #define XFEATURE_MASK_FPSSE            (XFEATURE_MASK_FP | XFEATURE_MASK_SSE)
@@ -256,6 +257,14 @@ struct arch_lbr_state {
        struct lbr_entry                entries[];
 } __packed;
 
+/*
+ * State component 10 is supervisor state used for context-switching the
+ * PASID state.
+ */
+struct ia32_pasid_state {
+       u64 pasid;
+} __packed;
+
 struct xstate_header {
        u64                             xfeatures;
        u64                             xcomp_bv;
index 14ab815..47a9223 100644 (file)
@@ -35,7 +35,7 @@
                                      XFEATURE_MASK_BNDCSR)
 
 /* All currently supported supervisor features */
-#define XFEATURE_MASK_SUPERVISOR_SUPPORTED (0)
+#define XFEATURE_MASK_SUPERVISOR_SUPPORTED (XFEATURE_MASK_PASID)
 
 /*
  * A supervisor state component may not always contain valuable information,
index d552646..35cff5f 100644 (file)
@@ -57,7 +57,7 @@ static inline unsigned long x86_fsbase_read_cpu(void)
 {
        unsigned long fsbase;
 
-       if (static_cpu_has(X86_FEATURE_FSGSBASE))
+       if (boot_cpu_has(X86_FEATURE_FSGSBASE))
                fsbase = rdfsbase();
        else
                rdmsrl(MSR_FS_BASE, fsbase);
@@ -67,7 +67,7 @@ static inline unsigned long x86_fsbase_read_cpu(void)
 
 static inline void x86_fsbase_write_cpu(unsigned long fsbase)
 {
-       if (static_cpu_has(X86_FEATURE_FSGSBASE))
+       if (boot_cpu_has(X86_FEATURE_FSGSBASE))
                wrfsbase(fsbase);
        else
                wrmsrl(MSR_FS_BASE, fsbase);
index 74c1243..a4aeeaa 100644 (file)
@@ -36,61 +36,56 @@ struct msi_desc;
 enum irq_alloc_type {
        X86_IRQ_ALLOC_TYPE_IOAPIC = 1,
        X86_IRQ_ALLOC_TYPE_HPET,
-       X86_IRQ_ALLOC_TYPE_MSI,
-       X86_IRQ_ALLOC_TYPE_MSIX,
+       X86_IRQ_ALLOC_TYPE_PCI_MSI,
+       X86_IRQ_ALLOC_TYPE_PCI_MSIX,
        X86_IRQ_ALLOC_TYPE_DMAR,
        X86_IRQ_ALLOC_TYPE_UV,
+       X86_IRQ_ALLOC_TYPE_IOAPIC_GET_PARENT,
+       X86_IRQ_ALLOC_TYPE_HPET_GET_PARENT,
 };
 
+struct ioapic_alloc_info {
+       int                             pin;
+       int                             node;
+       u32                             trigger : 1;
+       u32                             polarity : 1;
+       u32                             valid : 1;
+       struct IO_APIC_route_entry      *entry;
+};
+
+struct uv_alloc_info {
+       int             limit;
+       int             blade;
+       unsigned long   offset;
+       char            *name;
+
+};
+
+/**
+ * irq_alloc_info - X86 specific interrupt allocation info
+ * @type:      X86 specific allocation type
+ * @flags:     Flags for allocation tweaks
+ * @devid:     Device ID for allocations
+ * @hwirq:     Associated hw interrupt number in the domain
+ * @mask:      CPU mask for vector allocation
+ * @desc:      Pointer to msi descriptor
+ * @data:      Allocation specific data
+ *
+ * @ioapic:    IOAPIC specific allocation data
+ * @uv:                UV specific allocation data
+*/
 struct irq_alloc_info {
        enum irq_alloc_type     type;
        u32                     flags;
-       const struct cpumask    *mask;  /* CPU mask for vector allocation */
+       u32                     devid;
+       irq_hw_number_t         hwirq;
+       const struct cpumask    *mask;
+       struct msi_desc         *desc;
+       void                    *data;
+
        union {
-               int             unused;
-#ifdef CONFIG_HPET_TIMER
-               struct {
-                       int             hpet_id;
-                       int             hpet_index;
-                       void            *hpet_data;
-               };
-#endif
-#ifdef CONFIG_PCI_MSI
-               struct {
-                       struct pci_dev  *msi_dev;
-                       irq_hw_number_t msi_hwirq;
-               };
-#endif
-#ifdef CONFIG_X86_IO_APIC
-               struct {
-                       int             ioapic_id;
-                       int             ioapic_pin;
-                       int             ioapic_node;
-                       u32             ioapic_trigger : 1;
-                       u32             ioapic_polarity : 1;
-                       u32             ioapic_valid : 1;
-                       struct IO_APIC_route_entry *ioapic_entry;
-               };
-#endif
-#ifdef CONFIG_DMAR_TABLE
-               struct {
-                       int             dmar_id;
-                       void            *dmar_data;
-               };
-#endif
-#ifdef CONFIG_X86_UV
-               struct {
-                       int             uv_limit;
-                       int             uv_blade;
-                       unsigned long   uv_offset;
-                       char            *uv_name;
-               };
-#endif
-#if IS_ENABLED(CONFIG_VMD)
-               struct {
-                       struct msi_desc *desc;
-               };
-#endif
+               struct ioapic_alloc_info        ioapic;
+               struct uv_alloc_info            uv;
        };
 };
 
index 7a4d206..0ed20e8 100644 (file)
 #define HYPERV_CPUID_MAX                       0x4000ffff
 
 /*
- * Aliases for Group A features that have X64 in the name.
- * On x86/x64 these are HYPERV_CPUID_FEATURES.EAX bits.
- */
-
-#define HV_X64_MSR_VP_RUNTIME_AVAILABLE                \
-               HV_MSR_VP_RUNTIME_AVAILABLE
-#define HV_X64_MSR_SYNIC_AVAILABLE             \
-               HV_MSR_SYNIC_AVAILABLE
-#define HV_X64_MSR_APIC_ACCESS_AVAILABLE       \
-               HV_MSR_APIC_ACCESS_AVAILABLE
-#define HV_X64_MSR_HYPERCALL_AVAILABLE         \
-               HV_MSR_HYPERCALL_AVAILABLE
-#define HV_X64_MSR_VP_INDEX_AVAILABLE          \
-               HV_MSR_VP_INDEX_AVAILABLE
-#define HV_X64_MSR_RESET_AVAILABLE             \
-               HV_MSR_RESET_AVAILABLE
-#define HV_X64_MSR_GUEST_IDLE_AVAILABLE                \
-               HV_MSR_GUEST_IDLE_AVAILABLE
-#define HV_X64_ACCESS_FREQUENCY_MSRS           \
-               HV_ACCESS_FREQUENCY_MSRS
-#define HV_X64_ACCESS_REENLIGHTENMENT          \
-               HV_ACCESS_REENLIGHTENMENT
-#define HV_X64_ACCESS_TSC_INVARIANT            \
-               HV_ACCESS_TSC_INVARIANT
-
-/*
- * Aliases for Group B features that have X64 in the name.
- * On x86/x64 these are HYPERV_CPUID_FEATURES.EBX bits.
- */
-#define HV_X64_POST_MESSAGES           HV_POST_MESSAGES
-#define HV_X64_SIGNAL_EVENTS           HV_SIGNAL_EVENTS
-
-/*
  * Group D Features.  The bit assignments are custom to each architecture.
  * On x86/x64 these are HYPERV_CPUID_FEATURES.EDX bits.
  */
index a063864..cdd41d0 100644 (file)
@@ -547,7 +547,7 @@ DECLARE_IDTENTRY_RAW(X86_TRAP_MC,   exc_machine_check);
 
 /* NMI */
 DECLARE_IDTENTRY_NMI(X86_TRAP_NMI,     exc_nmi);
-#if defined(CONFIG_XEN_PV) && defined(CONFIG_X86_64)
+#ifdef CONFIG_XEN_PV
 DECLARE_IDTENTRY_RAW(X86_TRAP_NMI,     xenpv_exc_nmi);
 #endif
 
@@ -557,7 +557,7 @@ DECLARE_IDTENTRY_DEBUG(X86_TRAP_DB, exc_debug);
 #else
 DECLARE_IDTENTRY_RAW(X86_TRAP_DB,      exc_debug);
 #endif
-#if defined(CONFIG_XEN_PV) && defined(CONFIG_X86_64)
+#ifdef CONFIG_XEN_PV
 DECLARE_IDTENTRY_RAW(X86_TRAP_DB,      xenpv_exc_debug);
 #endif
 
@@ -591,10 +591,6 @@ DECLARE_IDTENTRY_SYSVEC(CALL_FUNCTION_VECTOR,              sysvec_call_function);
 #endif
 
 #ifdef CONFIG_X86_LOCAL_APIC
-# ifdef CONFIG_X86_UV
-DECLARE_IDTENTRY_SYSVEC(UV_BAU_MESSAGE,                        sysvec_uv_bau_message);
-# endif
-
 # ifdef CONFIG_X86_MCE_THRESHOLD
 DECLARE_IDTENTRY_SYSVEC(THRESHOLD_APIC_VECTOR,         sysvec_threshold);
 # endif
index e1aa17a..d726459 100644 (file)
@@ -401,7 +401,7 @@ extern bool phys_mem_access_encrypted(unsigned long phys_addr,
 
 /**
  * iosubmit_cmds512 - copy data to single MMIO location, in 512-bit units
- * @__dst: destination, in MMIO space (must be 512-bit aligned)
+ * @dst: destination, in MMIO space (must be 512-bit aligned)
  * @src: source
  * @count: number of 512 bits quantities to submit
  *
@@ -412,25 +412,14 @@ extern bool phys_mem_access_encrypted(unsigned long phys_addr,
  * Warning: Do not use this helper unless your driver has checked that the CPU
  * instruction is supported on the platform.
  */
-static inline void iosubmit_cmds512(void __iomem *__dst, const void *src,
+static inline void iosubmit_cmds512(void __iomem *dst, const void *src,
                                    size_t count)
 {
-       /*
-        * Note that this isn't an "on-stack copy", just definition of "dst"
-        * as a pointer to 64-bytes of stuff that is going to be overwritten.
-        * In the MOVDIR64B case that may be needed as you can use the
-        * MOVDIR64B instruction to copy arbitrary memory around. This trick
-        * lets the compiler know how much gets clobbered.
-        */
-       volatile struct { char _[64]; } *dst = __dst;
        const u8 *from = src;
        const u8 *end = from + count * 64;
 
        while (from < end) {
-               /* MOVDIR64B [rdx], rax */
-               asm volatile(".byte 0x66, 0x0f, 0x38, 0xf8, 0x02"
-                            : "=m" (dst)
-                            : "d" (from), "a" (dst));
+               movdir64b(dst, from);
                from += 64;
        }
 }
index 4bc985f..af4a151 100644 (file)
@@ -45,8 +45,6 @@ extern int irq_remap_enable_fault_handling(void);
 extern void panic_if_irq_remap(const char *msg);
 
 extern struct irq_domain *
-irq_remapping_get_ir_irq_domain(struct irq_alloc_info *info);
-extern struct irq_domain *
 irq_remapping_get_irq_domain(struct irq_alloc_info *info);
 
 /* Create PCI MSI/MSIx irqdomain, use @parent as the parent irqdomain. */
@@ -74,12 +72,6 @@ static inline void panic_if_irq_remap(const char *msg)
 }
 
 static inline struct irq_domain *
-irq_remapping_get_ir_irq_domain(struct irq_alloc_info *info)
-{
-       return NULL;
-}
-
-static inline struct irq_domain *
 irq_remapping_get_irq_domain(struct irq_alloc_info *info)
 {
        return NULL;
index c066ffa..cd684d4 100644 (file)
@@ -51,9 +51,13 @@ extern int mp_irqdomain_ioapic_idx(struct irq_domain *domain);
 #endif /* CONFIG_X86_IO_APIC */
 
 #ifdef CONFIG_PCI_MSI
-extern void arch_init_msi_domain(struct irq_domain *domain);
+void x86_create_pci_msi_domain(void);
+struct irq_domain *native_create_pci_msi_domain(void);
+extern struct irq_domain *x86_pci_msi_default_domain;
 #else
-static inline void arch_init_msi_domain(struct irq_domain *domain) { }
+static inline void x86_create_pci_msi_domain(void) { }
+#define native_create_pci_msi_domain   NULL
+#define x86_pci_msi_default_domain     NULL
 #endif
 
 #endif
index 143bc9a..991a7ad 100644 (file)
@@ -106,5 +106,9 @@ extern int kprobe_exceptions_notify(struct notifier_block *self,
 extern int kprobe_int3_handler(struct pt_regs *regs);
 extern int kprobe_debug_handler(struct pt_regs *regs);
 
+#else
+
+static inline int kprobe_debug_handler(struct pt_regs *regs) { return 0; }
+
 #endif /* CONFIG_KPROBES */
 #endif /* _ASM_X86_KPROBES_H */
index cf50382..a0f1478 100644 (file)
 #define        MCE_HANDLED_NFIT        BIT_ULL(3)
 #define        MCE_HANDLED_EDAC        BIT_ULL(4)
 #define        MCE_HANDLED_MCELOG      BIT_ULL(5)
+
+/*
+ * Indicates an MCE which has happened in kernel space but from
+ * which the kernel can recover simply by executing fixup_exception()
+ * so that an error is returned to the caller of the function that
+ * hit the machine check.
+ */
 #define MCE_IN_KERNEL_RECOV    BIT_ULL(6)
 
 /*
+ * Indicates an MCE that happened in kernel space while copying data
+ * from user. In this case fixup_exception() gets the kernel to the
+ * error exit for the copy function. Machine check handler can then
+ * treat it like a fault taken in user mode.
+ */
+#define MCE_IN_KERNEL_COPYIN   BIT_ULL(7)
+
+/*
  * This structure contains all data related to the MCE log.  Also
  * carries a signature to make it easier to find from external
  * debugging tools.  Each entry is only valid when its finished flag
@@ -174,6 +189,15 @@ extern void mce_unregister_decode_chain(struct notifier_block *nb);
 
 extern int mce_p5_enabled;
 
+#ifdef CONFIG_ARCH_HAS_COPY_MC
+extern void enable_copy_mc_fragile(void);
+unsigned long __must_check copy_mc_fragile(void *dst, const void *src, unsigned cnt);
+#else
+static inline void enable_copy_mc_fragile(void)
+{
+}
+#endif
+
 #ifdef CONFIG_X86_MCE
 int mcheck_init(void);
 void mcheck_cpu_init(struct cpuinfo_x86 *c);
@@ -200,12 +224,8 @@ void mce_setup(struct mce *m);
 void mce_log(struct mce *m);
 DECLARE_PER_CPU(struct device *, mce_device);
 
-/*
- * Maximum banks number.
- * This is the limit of the current register layout on
- * Intel CPUs.
- */
-#define MAX_NR_BANKS 32
+/* Maximum number of MCA banks per CPU. */
+#define MAX_NR_BANKS 64
 
 #ifdef CONFIG_X86_MCE_INTEL
 void mce_intel_feature_init(struct cpuinfo_x86 *c);
@@ -328,7 +348,6 @@ enum smca_bank_types {
 struct smca_hwid {
        unsigned int bank_type; /* Use with smca_bank_types for easy indexing. */
        u32 hwid_mcatype;       /* (hwid,mcatype) tuple */
-       u32 xec_bitmap;         /* Bitmap of valid ExtErrorCodes; current max is 21. */
        u8 count;               /* Number of instances. */
 };
 
diff --git a/arch/x86/include/asm/mcsafe_test.h b/arch/x86/include/asm/mcsafe_test.h
deleted file mode 100644 (file)
index eb59804..0000000
+++ /dev/null
@@ -1,75 +0,0 @@
-/* SPDX-License-Identifier: GPL-2.0 */
-#ifndef _MCSAFE_TEST_H_
-#define _MCSAFE_TEST_H_
-
-#ifndef __ASSEMBLY__
-#ifdef CONFIG_MCSAFE_TEST
-extern unsigned long mcsafe_test_src;
-extern unsigned long mcsafe_test_dst;
-
-static inline void mcsafe_inject_src(void *addr)
-{
-       if (addr)
-               mcsafe_test_src = (unsigned long) addr;
-       else
-               mcsafe_test_src = ~0UL;
-}
-
-static inline void mcsafe_inject_dst(void *addr)
-{
-       if (addr)
-               mcsafe_test_dst = (unsigned long) addr;
-       else
-               mcsafe_test_dst = ~0UL;
-}
-#else /* CONFIG_MCSAFE_TEST */
-static inline void mcsafe_inject_src(void *addr)
-{
-}
-
-static inline void mcsafe_inject_dst(void *addr)
-{
-}
-#endif /* CONFIG_MCSAFE_TEST */
-
-#else /* __ASSEMBLY__ */
-#include <asm/export.h>
-
-#ifdef CONFIG_MCSAFE_TEST
-.macro MCSAFE_TEST_CTL
-       .pushsection .data
-       .align 8
-       .globl mcsafe_test_src
-       mcsafe_test_src:
-               .quad 0
-       EXPORT_SYMBOL_GPL(mcsafe_test_src)
-       .globl mcsafe_test_dst
-       mcsafe_test_dst:
-               .quad 0
-       EXPORT_SYMBOL_GPL(mcsafe_test_dst)
-       .popsection
-.endm
-
-.macro MCSAFE_TEST_SRC reg count target
-       leaq \count(\reg), %r9
-       cmp mcsafe_test_src, %r9
-       ja \target
-.endm
-
-.macro MCSAFE_TEST_DST reg count target
-       leaq \count(\reg), %r9
-       cmp mcsafe_test_dst, %r9
-       ja \target
-.endm
-#else
-.macro MCSAFE_TEST_CTL
-.endm
-
-.macro MCSAFE_TEST_SRC reg count target
-.endm
-
-.macro MCSAFE_TEST_DST reg count target
-.endm
-#endif /* CONFIG_MCSAFE_TEST */
-#endif /* __ASSEMBLY__ */
-#endif /* _MCSAFE_TEST_H_ */
index 606cbae..e90ac7e 100644 (file)
@@ -67,21 +67,11 @@ static inline void find_smp_config(void)
 #ifdef CONFIG_X86_MPPARSE
 extern void e820__memblock_alloc_reserved_mpc_new(void);
 extern int enable_update_mptable;
-extern int default_mpc_apic_id(struct mpc_cpu *m);
-extern void default_smp_read_mpc_oem(struct mpc_table *mpc);
-# ifdef CONFIG_X86_IO_APIC
-extern void default_mpc_oem_bus_info(struct mpc_bus *m, char *str);
-# else
-#  define default_mpc_oem_bus_info NULL
-# endif
 extern void default_find_smp_config(void);
 extern void default_get_smp_config(unsigned int early);
 #else
 static inline void e820__memblock_alloc_reserved_mpc_new(void) { }
 #define enable_update_mptable 0
-#define default_mpc_apic_id NULL
-#define default_smp_read_mpc_oem NULL
-#define default_mpc_oem_bus_info NULL
 #define default_find_smp_config x86_init_noop
 #define default_get_smp_config x86_init_uint_noop
 #endif
index 25ddd09..cd30013 100644 (file)
@@ -9,6 +9,4 @@ typedef struct irq_alloc_info msi_alloc_info_t;
 int pci_msi_prepare(struct irq_domain *domain, struct device *dev, int nvec,
                    msi_alloc_info_t *arg);
 
-void pci_msi_set_desc(msi_alloc_info_t *arg, struct msi_desc *desc);
-
 #endif /* _ASM_X86_MSI_H */
index 2859ee4..c07a70c 100644 (file)
 #define MSR_IA32_LASTINTFROMIP         0x000001dd
 #define MSR_IA32_LASTINTTOIP           0x000001de
 
+#define MSR_IA32_PASID                 0x00000d93
+#define MSR_IA32_PASID_VALID           BIT_ULL(31)
+
 /* DEBUGCTLMSR bits (others vary by model): */
 #define DEBUGCTLMSR_LBR                        (1UL <<  0) /* last branch recording */
 #define DEBUGCTLMSR_BTF_SHIFT          1
 #define MSR_AMD64_IBSOP_REG_MASK       ((1UL<<MSR_AMD64_IBSOP_REG_COUNT)-1)
 #define MSR_AMD64_IBSCTL               0xc001103a
 #define MSR_AMD64_IBSBRTARGET          0xc001103b
+#define MSR_AMD64_ICIBSEXTDCTL         0xc001103c
 #define MSR_AMD64_IBSOPDATA4           0xc001103d
 #define MSR_AMD64_IBS_REG_COUNT_MAX    8 /* includes MSR_AMD64_IBSBRTARGET */
 #define MSR_AMD64_SEV                  0xc0010131
 #define MSR_CORE_PERF_FIXED_CTR0       0x00000309
 #define MSR_CORE_PERF_FIXED_CTR1       0x0000030a
 #define MSR_CORE_PERF_FIXED_CTR2       0x0000030b
+#define MSR_CORE_PERF_FIXED_CTR3       0x0000030c
 #define MSR_CORE_PERF_FIXED_CTR_CTRL   0x0000038d
 #define MSR_CORE_PERF_GLOBAL_STATUS    0x0000038e
 #define MSR_CORE_PERF_GLOBAL_CTRL      0x0000038f
 #define MSR_CORE_PERF_GLOBAL_OVF_CTRL  0x00000390
 
+#define MSR_PERF_METRICS               0x00000329
+
 /* PERF_GLOBAL_OVF_CTL bits */
 #define MSR_CORE_PERF_GLOBAL_OVF_CTRL_TRACE_TOPA_PMI_BIT       55
 #define MSR_CORE_PERF_GLOBAL_OVF_CTRL_TRACE_TOPA_PMI           (1ULL << MSR_CORE_PERF_GLOBAL_OVF_CTRL_TRACE_TOPA_PMI_BIT)
index 3d2afec..d25cc68 100644 (file)
@@ -160,8 +160,6 @@ static inline void wbinvd(void)
        PVOP_VCALL0(cpu.wbinvd);
 }
 
-#define get_kernel_rpl()  (pv_info.kernel_rpl)
-
 static inline u64 paravirt_read_msr(unsigned msr)
 {
        return PVOP_CALL1(u64, cpu.read_msr, msr);
@@ -277,12 +275,10 @@ static inline void load_TLS(struct thread_struct *t, unsigned cpu)
        PVOP_VCALL2(cpu.load_tls, t, cpu);
 }
 
-#ifdef CONFIG_X86_64
 static inline void load_gs_index(unsigned int gs)
 {
        PVOP_VCALL1(cpu.load_gs_index, gs);
 }
-#endif
 
 static inline void write_ldt_entry(struct desc_struct *dt, int entry,
                                   const void *desc)
@@ -375,52 +371,22 @@ static inline void paravirt_release_p4d(unsigned long pfn)
 
 static inline pte_t __pte(pteval_t val)
 {
-       pteval_t ret;
-
-       if (sizeof(pteval_t) > sizeof(long))
-               ret = PVOP_CALLEE2(pteval_t, mmu.make_pte, val, (u64)val >> 32);
-       else
-               ret = PVOP_CALLEE1(pteval_t, mmu.make_pte, val);
-
-       return (pte_t) { .pte = ret };
+       return (pte_t) { PVOP_CALLEE1(pteval_t, mmu.make_pte, val) };
 }
 
 static inline pteval_t pte_val(pte_t pte)
 {
-       pteval_t ret;
-
-       if (sizeof(pteval_t) > sizeof(long))
-               ret = PVOP_CALLEE2(pteval_t, mmu.pte_val,
-                                  pte.pte, (u64)pte.pte >> 32);
-       else
-               ret = PVOP_CALLEE1(pteval_t, mmu.pte_val, pte.pte);
-
-       return ret;
+       return PVOP_CALLEE1(pteval_t, mmu.pte_val, pte.pte);
 }
 
 static inline pgd_t __pgd(pgdval_t val)
 {
-       pgdval_t ret;
-
-       if (sizeof(pgdval_t) > sizeof(long))
-               ret = PVOP_CALLEE2(pgdval_t, mmu.make_pgd, val, (u64)val >> 32);
-       else
-               ret = PVOP_CALLEE1(pgdval_t, mmu.make_pgd, val);
-
-       return (pgd_t) { ret };
+       return (pgd_t) { PVOP_CALLEE1(pgdval_t, mmu.make_pgd, val) };
 }
 
 static inline pgdval_t pgd_val(pgd_t pgd)
 {
-       pgdval_t ret;
-
-       if (sizeof(pgdval_t) > sizeof(long))
-               ret =  PVOP_CALLEE2(pgdval_t, mmu.pgd_val,
-                                   pgd.pgd, (u64)pgd.pgd >> 32);
-       else
-               ret =  PVOP_CALLEE1(pgdval_t, mmu.pgd_val, pgd.pgd);
-
-       return ret;
+       return PVOP_CALLEE1(pgdval_t, mmu.pgd_val, pgd.pgd);
 }
 
 #define  __HAVE_ARCH_PTEP_MODIFY_PROT_TRANSACTION
@@ -438,78 +404,34 @@ static inline void ptep_modify_prot_commit(struct vm_area_struct *vma, unsigned
                                           pte_t *ptep, pte_t old_pte, pte_t pte)
 {
 
-       if (sizeof(pteval_t) > sizeof(long))
-               /* 5 arg words */
-               pv_ops.mmu.ptep_modify_prot_commit(vma, addr, ptep, pte);
-       else
-               PVOP_VCALL4(mmu.ptep_modify_prot_commit,
-                           vma, addr, ptep, pte.pte);
+       PVOP_VCALL4(mmu.ptep_modify_prot_commit, vma, addr, ptep, pte.pte);
 }
 
 static inline void set_pte(pte_t *ptep, pte_t pte)
 {
-       if (sizeof(pteval_t) > sizeof(long))
-               PVOP_VCALL3(mmu.set_pte, ptep, pte.pte, (u64)pte.pte >> 32);
-       else
-               PVOP_VCALL2(mmu.set_pte, ptep, pte.pte);
-}
-
-static inline void set_pte_at(struct mm_struct *mm, unsigned long addr,
-                             pte_t *ptep, pte_t pte)
-{
-       if (sizeof(pteval_t) > sizeof(long))
-               /* 5 arg words */
-               pv_ops.mmu.set_pte_at(mm, addr, ptep, pte);
-       else
-               PVOP_VCALL4(mmu.set_pte_at, mm, addr, ptep, pte.pte);
+       PVOP_VCALL2(mmu.set_pte, ptep, pte.pte);
 }
 
 static inline void set_pmd(pmd_t *pmdp, pmd_t pmd)
 {
-       pmdval_t val = native_pmd_val(pmd);
-
-       if (sizeof(pmdval_t) > sizeof(long))
-               PVOP_VCALL3(mmu.set_pmd, pmdp, val, (u64)val >> 32);
-       else
-               PVOP_VCALL2(mmu.set_pmd, pmdp, val);
+       PVOP_VCALL2(mmu.set_pmd, pmdp, native_pmd_val(pmd));
 }
 
-#if CONFIG_PGTABLE_LEVELS >= 3
 static inline pmd_t __pmd(pmdval_t val)
 {
-       pmdval_t ret;
-
-       if (sizeof(pmdval_t) > sizeof(long))
-               ret = PVOP_CALLEE2(pmdval_t, mmu.make_pmd, val, (u64)val >> 32);
-       else
-               ret = PVOP_CALLEE1(pmdval_t, mmu.make_pmd, val);
-
-       return (pmd_t) { ret };
+       return (pmd_t) { PVOP_CALLEE1(pmdval_t, mmu.make_pmd, val) };
 }
 
 static inline pmdval_t pmd_val(pmd_t pmd)
 {
-       pmdval_t ret;
-
-       if (sizeof(pmdval_t) > sizeof(long))
-               ret =  PVOP_CALLEE2(pmdval_t, mmu.pmd_val,
-                                   pmd.pmd, (u64)pmd.pmd >> 32);
-       else
-               ret =  PVOP_CALLEE1(pmdval_t, mmu.pmd_val, pmd.pmd);
-
-       return ret;
+       return PVOP_CALLEE1(pmdval_t, mmu.pmd_val, pmd.pmd);
 }
 
 static inline void set_pud(pud_t *pudp, pud_t pud)
 {
-       pudval_t val = native_pud_val(pud);
-
-       if (sizeof(pudval_t) > sizeof(long))
-               PVOP_VCALL3(mmu.set_pud, pudp, val, (u64)val >> 32);
-       else
-               PVOP_VCALL2(mmu.set_pud, pudp, val);
+       PVOP_VCALL2(mmu.set_pud, pudp, native_pud_val(pud));
 }
-#if CONFIG_PGTABLE_LEVELS >= 4
+
 static inline pud_t __pud(pudval_t val)
 {
        pudval_t ret;
@@ -526,7 +448,7 @@ static inline pudval_t pud_val(pud_t pud)
 
 static inline void pud_clear(pud_t *pudp)
 {
-       set_pud(pudp, __pud(0));
+       set_pud(pudp, native_make_pud(0));
 }
 
 static inline void set_p4d(p4d_t *p4dp, p4d_t p4d)
@@ -563,40 +485,17 @@ static inline void __set_pgd(pgd_t *pgdp, pgd_t pgd)
 } while (0)
 
 #define pgd_clear(pgdp) do {                                           \
-       if (pgtable_l5_enabled())                                               \
-               set_pgd(pgdp, __pgd(0));                                \
+       if (pgtable_l5_enabled())                                       \
+               set_pgd(pgdp, native_make_pgd(0));                      \
 } while (0)
 
 #endif  /* CONFIG_PGTABLE_LEVELS == 5 */
 
 static inline void p4d_clear(p4d_t *p4dp)
 {
-       set_p4d(p4dp, __p4d(0));
+       set_p4d(p4dp, native_make_p4d(0));
 }
 
-#endif /* CONFIG_PGTABLE_LEVELS == 4 */
-
-#endif /* CONFIG_PGTABLE_LEVELS >= 3 */
-
-#ifdef CONFIG_X86_PAE
-/* Special-case pte-setting operations for PAE, which can't update a
-   64-bit pte atomically */
-static inline void set_pte_atomic(pte_t *ptep, pte_t pte)
-{
-       PVOP_VCALL3(mmu.set_pte_atomic, ptep, pte.pte, pte.pte >> 32);
-}
-
-static inline void pte_clear(struct mm_struct *mm, unsigned long addr,
-                            pte_t *ptep)
-{
-       PVOP_VCALL3(mmu.pte_clear, mm, addr, ptep);
-}
-
-static inline void pmd_clear(pmd_t *pmdp)
-{
-       PVOP_VCALL1(mmu.pmd_clear, pmdp);
-}
-#else  /* !CONFIG_X86_PAE */
 static inline void set_pte_atomic(pte_t *ptep, pte_t pte)
 {
        set_pte(ptep, pte);
@@ -605,14 +504,13 @@ static inline void set_pte_atomic(pte_t *ptep, pte_t pte)
 static inline void pte_clear(struct mm_struct *mm, unsigned long addr,
                             pte_t *ptep)
 {
-       set_pte_at(mm, addr, ptep, __pte(0));
+       set_pte(ptep, native_make_pte(0));
 }
 
 static inline void pmd_clear(pmd_t *pmdp)
 {
-       set_pmd(pmdp, __pmd(0));
+       set_pmd(pmdp, native_make_pmd(0));
 }
-#endif /* CONFIG_X86_PAE */
 
 #define  __HAVE_ARCH_START_CONTEXT_SWITCH
 static inline void arch_start_context_switch(struct task_struct *prev)
@@ -682,16 +580,9 @@ bool __raw_callee_save___native_vcpu_is_preempted(long cpu);
 #endif /* SMP && PARAVIRT_SPINLOCKS */
 
 #ifdef CONFIG_X86_32
-#define PV_SAVE_REGS "pushl %ecx; pushl %edx;"
-#define PV_RESTORE_REGS "popl %edx; popl %ecx;"
-
 /* save and restore all caller-save registers, except return value */
 #define PV_SAVE_ALL_CALLER_REGS                "pushl %ecx;"
 #define PV_RESTORE_ALL_CALLER_REGS     "popl  %ecx;"
-
-#define PV_FLAGS_ARG "0"
-#define PV_EXTRA_CLOBBERS
-#define PV_VEXTRA_CLOBBERS
 #else
 /* save and restore all caller-save registers, except return value */
 #define PV_SAVE_ALL_CALLER_REGS                                                \
@@ -712,14 +603,6 @@ bool __raw_callee_save___native_vcpu_is_preempted(long cpu);
        "pop %rsi;"                                                     \
        "pop %rdx;"                                                     \
        "pop %rcx;"
-
-/* We save some registers, but all of them, that's too much. We clobber all
- * caller saved registers but the argument parameter */
-#define PV_SAVE_REGS "pushq %%rdi;"
-#define PV_RESTORE_REGS "popq %%rdi;"
-#define PV_EXTRA_CLOBBERS EXTRA_CLOBBERS, "rcx" , "rdx", "rsi"
-#define PV_VEXTRA_CLOBBERS EXTRA_CLOBBERS, "rdi", "rcx" , "rdx", "rsi"
-#define PV_FLAGS_ARG "D"
 #endif
 
 /*
index 8dfcb25..0fad9f6 100644 (file)
@@ -68,13 +68,8 @@ struct paravirt_callee_save {
 /* general info */
 struct pv_info {
 #ifdef CONFIG_PARAVIRT_XXL
-       unsigned int kernel_rpl;
-       int shared_kernel_pmd;
-
-#ifdef CONFIG_X86_64
        u16 extra_user_64bit_cs;  /* __USER_CS if none */
 #endif
-#endif
 
        const char *name;
 };
@@ -126,9 +121,7 @@ struct pv_cpu_ops {
        void (*set_ldt)(const void *desc, unsigned entries);
        unsigned long (*store_tr)(void);
        void (*load_tls)(struct thread_struct *t, unsigned int cpu);
-#ifdef CONFIG_X86_64
        void (*load_gs_index)(unsigned int idx);
-#endif
        void (*write_ldt_entry)(struct desc_struct *ldt, int entrynum,
                                const void *desc);
        void (*write_gdt_entry)(struct desc_struct *,
@@ -249,8 +242,6 @@ struct pv_mmu_ops {
 
        /* Pagetable manipulation functions */
        void (*set_pte)(pte_t *ptep, pte_t pteval);
-       void (*set_pte_at)(struct mm_struct *mm, unsigned long addr,
-                          pte_t *ptep, pte_t pteval);
        void (*set_pmd)(pmd_t *pmdp, pmd_t pmdval);
 
        pte_t (*ptep_modify_prot_start)(struct vm_area_struct *vma, unsigned long addr,
@@ -264,21 +255,11 @@ struct pv_mmu_ops {
        struct paravirt_callee_save pgd_val;
        struct paravirt_callee_save make_pgd;
 
-#if CONFIG_PGTABLE_LEVELS >= 3
-#ifdef CONFIG_X86_PAE
-       void (*set_pte_atomic)(pte_t *ptep, pte_t pteval);
-       void (*pte_clear)(struct mm_struct *mm, unsigned long addr,
-                         pte_t *ptep);
-       void (*pmd_clear)(pmd_t *pmdp);
-
-#endif /* CONFIG_X86_PAE */
-
        void (*set_pud)(pud_t *pudp, pud_t pudval);
 
        struct paravirt_callee_save pmd_val;
        struct paravirt_callee_save make_pmd;
 
-#if CONFIG_PGTABLE_LEVELS >= 4
        struct paravirt_callee_save pud_val;
        struct paravirt_callee_save make_pud;
 
@@ -291,10 +272,6 @@ struct pv_mmu_ops {
        void (*set_pgd)(pgd_t *pgdp, pgd_t pgdval);
 #endif /* CONFIG_PGTABLE_LEVELS >= 5 */
 
-#endif /* CONFIG_PGTABLE_LEVELS >= 4 */
-
-#endif /* CONFIG_PGTABLE_LEVELS >= 3 */
-
        struct pv_lazy_ops lazy_mode;
 
        /* dom0 ops */
index 7ccb338..d2c76c8 100644 (file)
@@ -105,17 +105,6 @@ static inline void early_quirks(void) { }
 
 extern void pci_iommu_alloc(void);
 
-#ifdef CONFIG_PCI_MSI
-/* implemented in arch/x86/kernel/apic/io_apic. */
-struct msi_desc;
-int native_setup_msi_irqs(struct pci_dev *dev, int nvec, int type);
-void native_teardown_msi_irq(unsigned int irq);
-void native_restore_msi_irqs(struct pci_dev *dev);
-#else
-#define native_setup_msi_irqs          NULL
-#define native_teardown_msi_irq                NULL
-#endif
-
 /* generic pci stuff */
 #include <asm-generic/pci.h>
 
index 73bb404..490411d 100644 (file)
@@ -114,9 +114,20 @@ extern const struct pci_raw_ops pci_direct_conf1;
 extern bool port_cf9_safe;
 
 /* arch_initcall level */
+#ifdef CONFIG_PCI_DIRECT
 extern int pci_direct_probe(void);
 extern void pci_direct_init(int type);
+#else
+static inline int pci_direct_probe(void) { return -1; }
+static inline  void pci_direct_init(int type) { }
+#endif
+
+#ifdef CONFIG_PCI_BIOS
 extern void pci_pcbios_init(void);
+#else
+static inline void pci_pcbios_init(void) { }
+#endif
+
 extern void __init dmi_check_pciprobe(void);
 extern void __init dmi_check_skip_isa_align(void);
 
index 0c1b137..6960cd6 100644 (file)
@@ -196,13 +196,29 @@ struct x86_pmu_capability {
  * Fixed-purpose performance events:
  */
 
+/* RDPMC offset for Fixed PMCs */
+#define INTEL_PMC_FIXED_RDPMC_BASE             (1 << 30)
+#define INTEL_PMC_FIXED_RDPMC_METRICS          (1 << 29)
+
 /*
- * All 3 fixed-mode PMCs are configured via this single MSR:
+ * All the fixed-mode PMCs are configured via this single MSR:
  */
 #define MSR_ARCH_PERFMON_FIXED_CTR_CTRL        0x38d
 
 /*
- * The counts are available in three separate MSRs:
+ * There is no event-code assigned to the fixed-mode PMCs.
+ *
+ * For a fixed-mode PMC, which has an equivalent event on a general-purpose
+ * PMC, the event-code of the equivalent event is used for the fixed-mode PMC,
+ * e.g., Instr_Retired.Any and CPU_CLK_Unhalted.Core.
+ *
+ * For a fixed-mode PMC, which doesn't have an equivalent event, a
+ * pseudo-encoding is used, e.g., CPU_CLK_Unhalted.Ref and TOPDOWN.SLOTS.
+ * The pseudo event-code for a fixed-mode PMC must be 0x00.
+ * The pseudo umask-code is 0xX. The X equals the index of the fixed
+ * counter + 1, e.g., the fixed counter 2 has the pseudo-encoding 0x0300.
+ *
+ * The counts are available in separate MSRs:
  */
 
 /* Instr_Retired.Any: */
@@ -213,29 +229,84 @@ struct x86_pmu_capability {
 #define MSR_ARCH_PERFMON_FIXED_CTR1    0x30a
 #define INTEL_PMC_IDX_FIXED_CPU_CYCLES (INTEL_PMC_IDX_FIXED + 1)
 
-/* CPU_CLK_Unhalted.Ref: */
+/* CPU_CLK_Unhalted.Ref: event=0x00,umask=0x3 (pseudo-encoding) */
 #define MSR_ARCH_PERFMON_FIXED_CTR2    0x30b
 #define INTEL_PMC_IDX_FIXED_REF_CYCLES (INTEL_PMC_IDX_FIXED + 2)
 #define INTEL_PMC_MSK_FIXED_REF_CYCLES (1ULL << INTEL_PMC_IDX_FIXED_REF_CYCLES)
 
+/* TOPDOWN.SLOTS: event=0x00,umask=0x4 (pseudo-encoding) */
+#define MSR_ARCH_PERFMON_FIXED_CTR3    0x30c
+#define INTEL_PMC_IDX_FIXED_SLOTS      (INTEL_PMC_IDX_FIXED + 3)
+#define INTEL_PMC_MSK_FIXED_SLOTS      (1ULL << INTEL_PMC_IDX_FIXED_SLOTS)
+
 /*
  * We model BTS tracing as another fixed-mode PMC.
  *
- * We choose a value in the middle of the fixed event range, since lower
+ * We choose the value 47 for the fixed index of BTS, since lower
  * values are used by actual fixed events and higher values are used
  * to indicate other overflow conditions in the PERF_GLOBAL_STATUS msr.
  */
-#define INTEL_PMC_IDX_FIXED_BTS                                (INTEL_PMC_IDX_FIXED + 16)
+#define INTEL_PMC_IDX_FIXED_BTS                        (INTEL_PMC_IDX_FIXED + 15)
+
+/*
+ * The PERF_METRICS MSR is modeled as several magic fixed-mode PMCs, one for
+ * each TopDown metric event.
+ *
+ * Internally the TopDown metric events are mapped to the FxCtr 3 (SLOTS).
+ */
+#define INTEL_PMC_IDX_METRIC_BASE              (INTEL_PMC_IDX_FIXED + 16)
+#define INTEL_PMC_IDX_TD_RETIRING              (INTEL_PMC_IDX_METRIC_BASE + 0)
+#define INTEL_PMC_IDX_TD_BAD_SPEC              (INTEL_PMC_IDX_METRIC_BASE + 1)
+#define INTEL_PMC_IDX_TD_FE_BOUND              (INTEL_PMC_IDX_METRIC_BASE + 2)
+#define INTEL_PMC_IDX_TD_BE_BOUND              (INTEL_PMC_IDX_METRIC_BASE + 3)
+#define INTEL_PMC_IDX_METRIC_END               INTEL_PMC_IDX_TD_BE_BOUND
+#define INTEL_PMC_MSK_TOPDOWN                  ((0xfull << INTEL_PMC_IDX_METRIC_BASE) | \
+                                               INTEL_PMC_MSK_FIXED_SLOTS)
 
-#define GLOBAL_STATUS_COND_CHG                         BIT_ULL(63)
-#define GLOBAL_STATUS_BUFFER_OVF                       BIT_ULL(62)
-#define GLOBAL_STATUS_UNC_OVF                          BIT_ULL(61)
-#define GLOBAL_STATUS_ASIF                             BIT_ULL(60)
-#define GLOBAL_STATUS_COUNTERS_FROZEN                  BIT_ULL(59)
-#define GLOBAL_STATUS_LBRS_FROZEN_BIT                  58
-#define GLOBAL_STATUS_LBRS_FROZEN                      BIT_ULL(GLOBAL_STATUS_LBRS_FROZEN_BIT)
-#define GLOBAL_STATUS_TRACE_TOPAPMI                    BIT_ULL(55)
+/*
+ * There is no event-code assigned to the TopDown events.
+ *
+ * For the slots event, use the pseudo code of the fixed counter 3.
+ *
+ * For the metric events, the pseudo event-code is 0x00.
+ * The pseudo umask-code starts from the middle of the pseudo event
+ * space, 0x80.
+ */
+#define INTEL_TD_SLOTS                         0x0400  /* TOPDOWN.SLOTS */
+/* Level 1 metrics */
+#define INTEL_TD_METRIC_RETIRING               0x8000  /* Retiring metric */
+#define INTEL_TD_METRIC_BAD_SPEC               0x8100  /* Bad speculation metric */
+#define INTEL_TD_METRIC_FE_BOUND               0x8200  /* FE bound metric */
+#define INTEL_TD_METRIC_BE_BOUND               0x8300  /* BE bound metric */
+#define INTEL_TD_METRIC_MAX                    INTEL_TD_METRIC_BE_BOUND
+#define INTEL_TD_METRIC_NUM                    4
+
+static inline bool is_metric_idx(int idx)
+{
+       return (unsigned)(idx - INTEL_PMC_IDX_METRIC_BASE) < INTEL_TD_METRIC_NUM;
+}
+
+static inline bool is_topdown_idx(int idx)
+{
+       return is_metric_idx(idx) || idx == INTEL_PMC_IDX_FIXED_SLOTS;
+}
 
+#define INTEL_PMC_OTHER_TOPDOWN_BITS(bit)      \
+                       (~(0x1ull << bit) & INTEL_PMC_MSK_TOPDOWN)
+
+#define GLOBAL_STATUS_COND_CHG                 BIT_ULL(63)
+#define GLOBAL_STATUS_BUFFER_OVF_BIT           62
+#define GLOBAL_STATUS_BUFFER_OVF               BIT_ULL(GLOBAL_STATUS_BUFFER_OVF_BIT)
+#define GLOBAL_STATUS_UNC_OVF                  BIT_ULL(61)
+#define GLOBAL_STATUS_ASIF                     BIT_ULL(60)
+#define GLOBAL_STATUS_COUNTERS_FROZEN          BIT_ULL(59)
+#define GLOBAL_STATUS_LBRS_FROZEN_BIT          58
+#define GLOBAL_STATUS_LBRS_FROZEN              BIT_ULL(GLOBAL_STATUS_LBRS_FROZEN_BIT)
+#define GLOBAL_STATUS_TRACE_TOPAPMI_BIT                55
+#define GLOBAL_STATUS_TRACE_TOPAPMI            BIT_ULL(GLOBAL_STATUS_TRACE_TOPAPMI_BIT)
+#define GLOBAL_STATUS_PERF_METRICS_OVF_BIT     48
+
+#define GLOBAL_CTRL_EN_PERF_METRICS            48
 /*
  * We model guest LBR event tracing as another fixed-mode PMC like BTS.
  *
@@ -334,6 +405,7 @@ struct pebs_xmm {
 #define IBS_OP_ENABLE          (1ULL<<17)
 #define IBS_OP_MAX_CNT         0x0000FFFFULL
 #define IBS_OP_MAX_CNT_EXT     0x007FFFFFULL   /* not a register bit mask */
+#define IBS_OP_MAX_CNT_EXT_MASK        (0x7FULL<<20)   /* separate upper 7 bits */
 #define IBS_RIP_INVALID                (1ULL<<38)
 
 #ifdef CONFIG_X86_LOCAL_APIC
index 80fbb4a..56baf43 100644 (file)
@@ -20,12 +20,7 @@ typedef union {
 } pte_t;
 #endif /* !__ASSEMBLY__ */
 
-#ifdef CONFIG_PARAVIRT_XXL
-#define SHARED_KERNEL_PMD      ((!static_cpu_has(X86_FEATURE_PTI) &&   \
-                                (pv_info.shared_kernel_pmd)))
-#else
 #define SHARED_KERNEL_PMD      (!static_cpu_has(X86_FEATURE_PTI))
-#endif
 
 #define ARCH_PAGE_TABLE_SYNC_MASK      (SHARED_KERNEL_PMD ? 0 : PGTBL_PMD_MODIFIED)
 
index b836138..5e0dcc2 100644 (file)
@@ -63,7 +63,6 @@ extern pmdval_t early_pmd_flags;
 #include <asm/paravirt.h>
 #else  /* !CONFIG_PARAVIRT_XXL */
 #define set_pte(ptep, pte)             native_set_pte(ptep, pte)
-#define set_pte_at(mm, addr, ptep, pte)        native_set_pte_at(mm, addr, ptep, pte)
 
 #define set_pte_atomic(ptep, pte)                                      \
        native_set_pte_atomic(ptep, pte)
@@ -1033,10 +1032,10 @@ static inline pud_t native_local_pudp_get_and_clear(pud_t *pudp)
        return res;
 }
 
-static inline void native_set_pte_at(struct mm_struct *mm, unsigned long addr,
-                                    pte_t *ptep , pte_t pte)
+static inline void set_pte_at(struct mm_struct *mm, unsigned long addr,
+                             pte_t *ptep, pte_t pte)
 {
-       native_set_pte(ptep, pte);
+       set_pte(ptep, pte);
 }
 
 static inline void set_pmd_at(struct mm_struct *mm, unsigned long addr,
index 8f63efb..52e5f5f 100644 (file)
@@ -159,6 +159,4 @@ extern unsigned int ptrs_per_p4d;
 
 #define PGD_KERNEL_START       ((PAGE_SIZE / 2) / sizeof(pgd_t))
 
-#define ARCH_PAGE_TABLE_SYNC_MASK      (pgtable_l5_enabled() ? PGTBL_PGD_MODIFIED : PGTBL_P4D_MODIFIED)
-
 #endif /* _ASM_X86_PGTABLE_64_DEFS_H */
index 97143d8..d8a82e6 100644 (file)
@@ -517,7 +517,7 @@ struct thread_struct {
        /* Save middle states of ptrace breakpoints */
        struct perf_event       *ptrace_bps[HBP_NUM];
        /* Debug status used for traps, single steps, etc... */
-       unsigned long           debugreg6;
+       unsigned long           virtual_dr6;
        /* Keep track of the exact dr7 value set by the user */
        unsigned long           ptrace_dr7;
        /* Fault info: */
index 6847d85..3ff0d48 100644 (file)
@@ -54,7 +54,7 @@
 #endif
 
 #ifdef CONFIG_X86_64
-#ifdef CONFIG_PARAVIRT
+#ifdef CONFIG_PARAVIRT_XXL
 /* Paravirtualized systems may not have PSE or PGE available */
 #define NEED_PSE       0
 #define NEED_PGE       0
index 9646c30..5179209 100644 (file)
 
 #endif
 
-#ifndef CONFIG_PARAVIRT_XXL
-# define get_kernel_rpl()              0
-#endif
-
 #define IDT_ENTRIES                    256
 #define NUM_EXCEPTION_VECTORS          32
 
index 59a3e13..94624fb 100644 (file)
@@ -234,6 +234,76 @@ static inline void clwb(volatile void *__p)
 
 #define nop() asm volatile ("nop")
 
+static inline void serialize(void)
+{
+       /* Instruction opcode for SERIALIZE; supported in binutils >= 2.35. */
+       asm volatile(".byte 0xf, 0x1, 0xe8" ::: "memory");
+}
+
+/* The dst parameter must be 64-bytes aligned */
+static inline void movdir64b(void *dst, const void *src)
+{
+       const struct { char _[64]; } *__src = src;
+       struct { char _[64]; } *__dst = dst;
+
+       /*
+        * MOVDIR64B %(rdx), rax.
+        *
+        * Both __src and __dst must be memory constraints in order to tell the
+        * compiler that no other memory accesses should be reordered around
+        * this one.
+        *
+        * Also, both must be supplied as lvalues because this tells
+        * the compiler what the object is (its size) the instruction accesses.
+        * I.e., not the pointers but what they point to, thus the deref'ing '*'.
+        */
+       asm volatile(".byte 0x66, 0x0f, 0x38, 0xf8, 0x02"
+                    : "+m" (*__dst)
+                    :  "m" (*__src), "a" (__dst), "d" (__src));
+}
+
+/**
+ * enqcmds - Enqueue a command in supervisor (CPL0) mode
+ * @dst: destination, in MMIO space (must be 512-bit aligned)
+ * @src: 512 bits memory operand
+ *
+ * The ENQCMDS instruction allows software to write a 512-bit command to
+ * a 512-bit-aligned special MMIO region that supports the instruction.
+ * A return status is loaded into the ZF flag in the RFLAGS register.
+ * ZF = 0 equates to success, and ZF = 1 indicates retry or error.
+ *
+ * This function issues the ENQCMDS instruction to submit data from
+ * kernel space to MMIO space, in a unit of 512 bits. Order of data access
+ * is not guaranteed, nor is a memory barrier performed afterwards. It
+ * returns 0 on success and -EAGAIN on failure.
+ *
+ * Warning: Do not use this helper unless your driver has checked that the
+ * ENQCMDS instruction is supported on the platform and the device accepts
+ * ENQCMDS.
+ */
+static inline int enqcmds(void __iomem *dst, const void *src)
+{
+       const struct { char _[64]; } *__src = src;
+       struct { char _[64]; } *__dst = dst;
+       int zf;
+
+       /*
+        * ENQCMDS %(rdx), rax
+        *
+        * See movdir64b()'s comment on operand specification.
+        */
+       asm volatile(".byte 0xf3, 0x0f, 0x38, 0xf8, 0x02, 0x66, 0x90"
+                    CC_SET(z)
+                    : CC_OUT(z) (zf), "+m" (*__dst)
+                    : "m" (*__src), "a" (__dst), "d" (__src));
+
+       /* Submission failure is indicated via EFLAGS.ZF=1 */
+       if (zf)
+               return -EAGAIN;
+
+       return 0;
+}
+
 #endif /* __KERNEL__ */
 
 #endif /* _ASM_X86_SPECIAL_INSNS_H */
diff --git a/arch/x86/include/asm/static_call.h b/arch/x86/include/asm/static_call.h
new file mode 100644 (file)
index 0000000..c37f119
--- /dev/null
@@ -0,0 +1,40 @@
+/* SPDX-License-Identifier: GPL-2.0 */
+#ifndef _ASM_STATIC_CALL_H
+#define _ASM_STATIC_CALL_H
+
+#include <asm/text-patching.h>
+
+/*
+ * For CONFIG_HAVE_STATIC_CALL_INLINE, this is a temporary trampoline which
+ * uses the current value of the key->func pointer to do an indirect jump to
+ * the function.  This trampoline is only used during boot, before the call
+ * sites get patched by static_call_update().  The name of this trampoline has
+ * a magical aspect: objtool uses it to find static call sites so it can create
+ * the .static_call_sites section.
+ *
+ * For CONFIG_HAVE_STATIC_CALL, this is a permanent trampoline which
+ * does a direct jump to the function.  The direct jump gets patched by
+ * static_call_update().
+ *
+ * Having the trampoline in a special section forces GCC to emit a JMP.d32 when
+ * it does tail-call optimization on the call; since you cannot compute the
+ * relative displacement across sections.
+ */
+
+#define __ARCH_DEFINE_STATIC_CALL_TRAMP(name, insns)                   \
+       asm(".pushsection .static_call.text, \"ax\"             \n"     \
+           ".align 4                                           \n"     \
+           ".globl " STATIC_CALL_TRAMP_STR(name) "             \n"     \
+           STATIC_CALL_TRAMP_STR(name) ":                      \n"     \
+           insns "                                             \n"     \
+           ".type " STATIC_CALL_TRAMP_STR(name) ", @function   \n"     \
+           ".size " STATIC_CALL_TRAMP_STR(name) ", . - " STATIC_CALL_TRAMP_STR(name) " \n" \
+           ".popsection                                        \n")
+
+#define ARCH_DEFINE_STATIC_CALL_TRAMP(name, func)                      \
+       __ARCH_DEFINE_STATIC_CALL_TRAMP(name, ".byte 0xe9; .long " #func " - (. + 4)")
+
+#define ARCH_DEFINE_STATIC_CALL_NULL_TRAMP(name)                       \
+       __ARCH_DEFINE_STATIC_CALL_TRAMP(name, "ret; nop; nop; nop; nop")
+
+#endif /* _ASM_STATIC_CALL_H */
index 75314c3..6e45082 100644 (file)
@@ -82,38 +82,6 @@ int strcmp(const char *cs, const char *ct);
 
 #endif
 
-#define __HAVE_ARCH_MEMCPY_MCSAFE 1
-__must_check unsigned long __memcpy_mcsafe(void *dst, const void *src,
-               size_t cnt);
-DECLARE_STATIC_KEY_FALSE(mcsafe_key);
-
-/**
- * memcpy_mcsafe - copy memory with indication if a machine check happened
- *
- * @dst:       destination address
- * @src:       source address
- * @cnt:       number of bytes to copy
- *
- * Low level memory copy function that catches machine checks
- * We only call into the "safe" function on systems that can
- * actually do machine check recovery. Everyone else can just
- * use memcpy().
- *
- * Return 0 for success, or number of bytes not copied if there was an
- * exception.
- */
-static __always_inline __must_check unsigned long
-memcpy_mcsafe(void *dst, const void *src, size_t cnt)
-{
-#ifdef CONFIG_X86_MCE
-       if (static_branch_unlikely(&mcsafe_key))
-               return __memcpy_mcsafe(dst, src, cnt);
-       else
-#endif
-               memcpy(dst, src, cnt);
-       return 0;
-}
-
 #ifdef CONFIG_ARCH_HAS_UACCESS_FLUSHCACHE
 #define __HAVE_ARCH_MEMCPY_FLUSHCACHE 1
 void __memcpy_flushcache(void *dst, const void *src, size_t cnt);
index fdb5b35..0fd4a9d 100644 (file)
@@ -5,6 +5,7 @@
 #include <linux/preempt.h>
 #include <asm/processor.h>
 #include <asm/cpufeature.h>
+#include <asm/special_insns.h>
 
 #ifdef CONFIG_X86_32
 static inline void iret_to_self(void)
@@ -46,22 +47,34 @@ static inline void iret_to_self(void)
  *
  *  b) Text was modified on a different CPU, may subsequently be
  *     executed on this CPU, and you want to make sure the new version
- *     gets executed.  This generally means you're calling this in a IPI.
+ *     gets executed.  This generally means you're calling this in an IPI.
  *
  * If you're calling this for a different reason, you're probably doing
  * it wrong.
+ *
+ * Like all of Linux's memory ordering operations, this is a
+ * compiler barrier as well.
  */
 static inline void sync_core(void)
 {
        /*
-        * There are quite a few ways to do this.  IRET-to-self is nice
-        * because it works on every CPU, at any CPL (so it's compatible
-        * with paravirtualization), and it never exits to a hypervisor.
-        * The only down sides are that it's a bit slow (it seems to be
-        * a bit more than 2x slower than the fastest options) and that
-        * it unmasks NMIs.  The "push %cs" is needed because, in
-        * paravirtual environments, __KERNEL_CS may not be a valid CS
-        * value when we do IRET directly.
+        * The SERIALIZE instruction is the most straightforward way to
+        * do this, but it is not universally available.
+        */
+       if (static_cpu_has(X86_FEATURE_SERIALIZE)) {
+               serialize();
+               return;
+       }
+
+       /*
+        * For all other processors, there are quite a few ways to do this.
+        * IRET-to-self is nice because it works on every CPU, at any CPL
+        * (so it's compatible with paravirtualization), and it never exits
+        * to a hypervisor.  The only downsides are that it's a bit slow
+        * (it seems to be a bit more than 2x slower than the fastest
+        * options) and that it unmasks NMIs.  The "push %cs" is needed,
+        * because in paravirtual environments __KERNEL_CS may not be a
+        * valid CS value when we do IRET directly.
         *
         * In case NMI unmasking or performance ever becomes a problem,
         * the next best option appears to be MOV-to-CR2 and an
@@ -71,9 +84,6 @@ static inline void sync_core(void)
         * CPUID is the conventional way, but it's nasty: it doesn't
         * exist on some 486-like CPUs, and it usually exits to a
         * hypervisor.
-        *
-        * Like all of Linux's memory ordering operations, this is a
-        * compiler barrier as well.
         */
        iret_to_self();
 }
index 6593b42..b742178 100644 (file)
@@ -53,6 +53,9 @@ extern void text_poke_finish(void);
 #define INT3_INSN_SIZE         1
 #define INT3_INSN_OPCODE       0xCC
 
+#define RET_INSN_SIZE          1
+#define RET_INSN_OPCODE                0xC3
+
 #define CALL_INSN_SIZE         5
 #define CALL_INSN_OPCODE       0xE8
 
@@ -73,6 +76,7 @@ static __always_inline int text_opcode_size(u8 opcode)
 
        switch(opcode) {
        __CASE(INT3);
+       __CASE(RET);
        __CASE(CALL);
        __CASE(JMP32);
        __CASE(JMP8);
@@ -141,11 +145,26 @@ void int3_emulate_push(struct pt_regs *regs, unsigned long val)
 }
 
 static __always_inline
+unsigned long int3_emulate_pop(struct pt_regs *regs)
+{
+       unsigned long val = *(unsigned long *)regs->sp;
+       regs->sp += sizeof(unsigned long);
+       return val;
+}
+
+static __always_inline
 void int3_emulate_call(struct pt_regs *regs, unsigned long func)
 {
        int3_emulate_push(regs, regs->ip - INT3_INSN_SIZE + CALL_INSN_SIZE);
        int3_emulate_jmp(regs, func);
 }
+
+static __always_inline
+void int3_emulate_ret(struct pt_regs *regs)
+{
+       unsigned long ip = int3_emulate_pop(regs);
+       int3_emulate_jmp(regs, ip);
+}
 #endif /* !CONFIG_UML_X86 */
 
 #endif /* _ASM_X86_TEXT_PATCHING_H */
index 714b1a3..df0b7bf 100644 (file)
@@ -35,6 +35,8 @@ extern int panic_on_unrecovered_nmi;
 
 void math_emulate(struct math_emu_info *);
 
+bool fault_in_kernel_space(unsigned long address);
+
 #ifdef CONFIG_VMAP_STACK
 void __noreturn handle_stack_overflow(const char *message,
                                      struct pt_regs *regs,
index ecefaff..aa60c23 100644 (file)
@@ -96,25 +96,14 @@ static inline bool pagefault_disabled(void);
        likely(!__range_not_ok(addr, size, user_addr_max()));           \
 })
 
-/*
- * These are the main single-value transfer routines.  They automatically
- * use the right size if we just have the right pointer type.
- *
- * This gets kind of ugly. We want to return _two_ values in "get_user()"
- * and yet we don't want to do any pointers, because that is too much
- * of a performance impact. Thus we have a few rather ugly macros here,
- * and hide all the ugliness from the user.
- *
- * The "__xxx" versions of the user access functions are versions that
- * do not verify the address space, that must have been done previously
- * with a separate "access_ok()" call (this is used when we do multiple
- * accesses to the same area of user memory).
- */
-
 extern int __get_user_1(void);
 extern int __get_user_2(void);
 extern int __get_user_4(void);
 extern int __get_user_8(void);
+extern int __get_user_nocheck_1(void);
+extern int __get_user_nocheck_2(void);
+extern int __get_user_nocheck_4(void);
+extern int __get_user_nocheck_8(void);
 extern int __get_user_bad(void);
 
 #define __uaccess_begin() stac()
@@ -138,25 +127,12 @@ extern int __get_user_bad(void);
 #define __typefits(x,type,not) \
        __builtin_choose_expr(sizeof(x)<=sizeof(type),(unsigned type)0,not)
 
-/**
- * get_user - Get a simple variable from user space.
- * @x:   Variable to store result.
- * @ptr: Source address, in user space.
- *
- * Context: User context only. This function may sleep if pagefaults are
- *          enabled.
- *
- * This macro copies a single simple variable from user space to kernel
- * space.  It supports simple types like char and int, but not larger
- * data types like structures or arrays.
- *
- * @ptr must have pointer-to-simple-variable type, and the result of
- * dereferencing @ptr must be assignable to @x without a cast.
- *
- * Return: zero on success, or -EFAULT on error.
- * On error, the variable @x is set to zero.
- */
 /*
+ * This is used for both get_user() and __get_user() to expand to
+ * the proper special function call that has odd calling conventions
+ * due to returning both a value and an error, and that depends on
+ * the size of the pointer passed in.
+ *
  * Careful: we have to cast the result to the type of the pointer
  * for sign reasons.
  *
@@ -169,13 +145,12 @@ extern int __get_user_bad(void);
  * Clang/LLVM cares about the size of the register, but still wants
  * the base register for something that ends up being a pair.
  */
-#define get_user(x, ptr)                                               \
+#define do_get_user_call(fn,x,ptr)                                     \
 ({                                                                     \
        int __ret_gu;                                                   \
        register __inttype(*(ptr)) __val_gu asm("%"_ASM_DX);            \
        __chk_user_ptr(ptr);                                            \
-       might_fault();                                                  \
-       asm volatile("call __get_user_%P4"                              \
+       asm volatile("call __" #fn "_%P4"                               \
                     : "=a" (__ret_gu), "=r" (__val_gu),                \
                        ASM_CALL_CONSTRAINT                             \
                     : "0" (ptr), "i" (sizeof(*(ptr))));                \
@@ -183,10 +158,48 @@ extern int __get_user_bad(void);
        __builtin_expect(__ret_gu, 0);                                  \
 })
 
-#define __put_user_x(size, x, ptr, __ret_pu)                   \
-       asm volatile("call __put_user_" #size : "=a" (__ret_pu) \
-                    : "0" ((typeof(*(ptr)))(x)), "c" (ptr) : "ebx")
+/**
+ * get_user - Get a simple variable from user space.
+ * @x:   Variable to store result.
+ * @ptr: Source address, in user space.
+ *
+ * Context: User context only. This function may sleep if pagefaults are
+ *          enabled.
+ *
+ * This macro copies a single simple variable from user space to kernel
+ * space.  It supports simple types like char and int, but not larger
+ * data types like structures or arrays.
+ *
+ * @ptr must have pointer-to-simple-variable type, and the result of
+ * dereferencing @ptr must be assignable to @x without a cast.
+ *
+ * Return: zero on success, or -EFAULT on error.
+ * On error, the variable @x is set to zero.
+ */
+#define get_user(x,ptr) ({ might_fault(); do_get_user_call(get_user,x,ptr); })
 
+/**
+ * __get_user - Get a simple variable from user space, with less checking.
+ * @x:   Variable to store result.
+ * @ptr: Source address, in user space.
+ *
+ * Context: User context only. This function may sleep if pagefaults are
+ *          enabled.
+ *
+ * This macro copies a single simple variable from user space to kernel
+ * space.  It supports simple types like char and int, but not larger
+ * data types like structures or arrays.
+ *
+ * @ptr must have pointer-to-simple-variable type, and the result of
+ * dereferencing @ptr must be assignable to @x without a cast.
+ *
+ * Caller must check the pointer with access_ok() before calling this
+ * function.
+ *
+ * Return: zero on success, or -EFAULT on error.
+ * On error, the variable @x is set to zero.
+ */
+#define __get_user(x,ptr) do_get_user_call(get_user_nocheck,x,ptr)
 
 
 #ifdef CONFIG_X86_32
@@ -199,25 +212,41 @@ extern int __get_user_bad(void);
                     : : "A" (x), "r" (addr)                    \
                     : : label)
 
-#define __put_user_x8(x, ptr, __ret_pu)                                \
-       asm volatile("call __put_user_8" : "=a" (__ret_pu)      \
-                    : "A" ((typeof(*(ptr)))(x)), "c" (ptr) : "ebx")
 #else
 #define __put_user_goto_u64(x, ptr, label) \
        __put_user_goto(x, ptr, "q", "er", label)
-#define __put_user_x8(x, ptr, __ret_pu) __put_user_x(8, x, ptr, __ret_pu)
 #endif
 
 extern void __put_user_bad(void);
 
 /*
  * Strange magic calling convention: pointer in %ecx,
- * value in %eax(:%edx), return value in %eax. clobbers %rbx
+ * value in %eax(:%edx), return value in %ecx. clobbers %rbx
  */
 extern void __put_user_1(void);
 extern void __put_user_2(void);
 extern void __put_user_4(void);
 extern void __put_user_8(void);
+extern void __put_user_nocheck_1(void);
+extern void __put_user_nocheck_2(void);
+extern void __put_user_nocheck_4(void);
+extern void __put_user_nocheck_8(void);
+
+#define do_put_user_call(fn,x,ptr)                                     \
+({                                                                     \
+       int __ret_pu;                                                   \
+       register __typeof__(*(ptr)) __val_pu asm("%"_ASM_AX);           \
+       __chk_user_ptr(ptr);                                            \
+       __val_pu = (x);                                                 \
+       asm volatile("call __" #fn "_%P[size]"                          \
+                    : "=c" (__ret_pu),                                 \
+                       ASM_CALL_CONSTRAINT                             \
+                    : "0" (ptr),                                       \
+                      "r" (__val_pu),                                  \
+                      [size] "i" (sizeof(*(ptr)))                      \
+                    :"ebx");                                           \
+       __builtin_expect(__ret_pu, 0);                                  \
+})
 
 /**
  * put_user - Write a simple value into user space.
@@ -236,32 +265,29 @@ extern void __put_user_8(void);
  *
  * Return: zero on success, or -EFAULT on error.
  */
-#define put_user(x, ptr)                                       \
-({                                                             \
-       int __ret_pu;                                           \
-       __typeof__(*(ptr)) __pu_val;                            \
-       __chk_user_ptr(ptr);                                    \
-       might_fault();                                          \
-       __pu_val = x;                                           \
-       switch (sizeof(*(ptr))) {                               \
-       case 1:                                                 \
-               __put_user_x(1, __pu_val, ptr, __ret_pu);       \
-               break;                                          \
-       case 2:                                                 \
-               __put_user_x(2, __pu_val, ptr, __ret_pu);       \
-               break;                                          \
-       case 4:                                                 \
-               __put_user_x(4, __pu_val, ptr, __ret_pu);       \
-               break;                                          \
-       case 8:                                                 \
-               __put_user_x8(__pu_val, ptr, __ret_pu);         \
-               break;                                          \
-       default:                                                \
-               __put_user_x(X, __pu_val, ptr, __ret_pu);       \
-               break;                                          \
-       }                                                       \
-       __builtin_expect(__ret_pu, 0);                          \
-})
+#define put_user(x, ptr) ({ might_fault(); do_put_user_call(put_user,x,ptr); })
+
+/**
+ * __put_user - Write a simple value into user space, with less checking.
+ * @x:   Value to copy to user space.
+ * @ptr: Destination address, in user space.
+ *
+ * Context: User context only. This function may sleep if pagefaults are
+ *          enabled.
+ *
+ * This macro copies a single simple value from kernel space to user
+ * space.  It supports simple types like char and int, but not larger
+ * data types like structures or arrays.
+ *
+ * @ptr must have pointer-to-simple-variable type, and @x must be assignable
+ * to the result of dereferencing @ptr.
+ *
+ * Caller must check the pointer with access_ok() before calling this
+ * function.
+ *
+ * Return: zero on success, or -EFAULT on error.
+ */
+#define __put_user(x, ptr) do_put_user_call(put_user_nocheck,x,ptr)
 
 #define __put_user_size(x, ptr, size, label)                           \
 do {                                                                   \
@@ -284,6 +310,55 @@ do {                                                                       \
        }                                                               \
 } while (0)
 
+#ifdef CONFIG_CC_HAS_ASM_GOTO_OUTPUT
+
+#ifdef CONFIG_X86_32
+#define __get_user_asm_u64(x, ptr, label) do {                         \
+       unsigned int __gu_low, __gu_high;                               \
+       const unsigned int __user *__gu_ptr;                            \
+       __gu_ptr = (const void __user *)(ptr);                          \
+       __get_user_asm(__gu_low, ptr, "l", "=r", label);                \
+       __get_user_asm(__gu_high, ptr+1, "l", "=r", label);             \
+       (x) = ((unsigned long long)__gu_high << 32) | __gu_low;         \
+} while (0)
+#else
+#define __get_user_asm_u64(x, ptr, label)                              \
+       __get_user_asm(x, ptr, "q", "=r", label)
+#endif
+
+#define __get_user_size(x, ptr, size, label)                           \
+do {                                                                   \
+       __chk_user_ptr(ptr);                                            \
+       switch (size) {                                                 \
+       unsigned char x_u8__;                                           \
+       case 1:                                                         \
+               __get_user_asm(x_u8__, ptr, "b", "=q", label);          \
+               (x) = x_u8__;                                           \
+               break;                                                  \
+       case 2:                                                         \
+               __get_user_asm(x, ptr, "w", "=r", label);               \
+               break;                                                  \
+       case 4:                                                         \
+               __get_user_asm(x, ptr, "l", "=r", label);               \
+               break;                                                  \
+       case 8:                                                         \
+               __get_user_asm_u64(x, ptr, label);                      \
+               break;                                                  \
+       default:                                                        \
+               (x) = __get_user_bad();                                 \
+       }                                                               \
+} while (0)
+
+#define __get_user_asm(x, addr, itype, ltype, label)                   \
+       asm_volatile_goto("\n"                                          \
+                    "1:        mov"itype" %[umem],%[output]\n"         \
+                    _ASM_EXTABLE_UA(1b, %l2)                           \
+                    : [output] ltype(x)                                \
+                    : [umem] "m" (__m(addr))                           \
+                    : : label)
+
+#else // !CONFIG_CC_HAS_ASM_GOTO_OUTPUT
+
 #ifdef CONFIG_X86_32
 #define __get_user_asm_u64(x, ptr, retval)                             \
 ({                                                                     \
@@ -352,33 +427,7 @@ do {                                                                       \
                     : [umem] "m" (__m(addr)),                          \
                       [efault] "i" (-EFAULT), "0" (err))
 
-#define __put_user_nocheck(x, ptr, size)                       \
-({                                                             \
-       __label__ __pu_label;                                   \
-       int __pu_err = -EFAULT;                                 \
-       __typeof__(*(ptr)) __pu_val = (x);                      \
-       __typeof__(ptr) __pu_ptr = (ptr);                       \
-       __typeof__(size) __pu_size = (size);                    \
-       __uaccess_begin();                                      \
-       __put_user_size(__pu_val, __pu_ptr, __pu_size, __pu_label);     \
-       __pu_err = 0;                                           \
-__pu_label:                                                    \
-       __uaccess_end();                                        \
-       __builtin_expect(__pu_err, 0);                          \
-})
-
-#define __get_user_nocheck(x, ptr, size)                               \
-({                                                                     \
-       int __gu_err;                                                   \
-       __inttype(*(ptr)) __gu_val;                                     \
-       __typeof__(ptr) __gu_ptr = (ptr);                               \
-       __typeof__(size) __gu_size = (size);                            \
-       __uaccess_begin_nospec();                                       \
-       __get_user_size(__gu_val, __gu_ptr, __gu_size, __gu_err);       \
-       __uaccess_end();                                                \
-       (x) = (__force __typeof__(*(ptr)))__gu_val;                     \
-       __builtin_expect(__gu_err, 0);                                  \
-})
+#endif // CONFIG_CC_ASM_GOTO_OUTPUT
 
 /* FIXME: this hack is definitely wrong -AK */
 struct __large_struct { unsigned long buf[100]; };
@@ -396,55 +445,6 @@ struct __large_struct { unsigned long buf[100]; };
                : : ltype(x), "m" (__m(addr))                           \
                : : label)
 
-/**
- * __get_user - Get a simple variable from user space, with less checking.
- * @x:   Variable to store result.
- * @ptr: Source address, in user space.
- *
- * Context: User context only. This function may sleep if pagefaults are
- *          enabled.
- *
- * This macro copies a single simple variable from user space to kernel
- * space.  It supports simple types like char and int, but not larger
- * data types like structures or arrays.
- *
- * @ptr must have pointer-to-simple-variable type, and the result of
- * dereferencing @ptr must be assignable to @x without a cast.
- *
- * Caller must check the pointer with access_ok() before calling this
- * function.
- *
- * Return: zero on success, or -EFAULT on error.
- * On error, the variable @x is set to zero.
- */
-
-#define __get_user(x, ptr)                                             \
-       __get_user_nocheck((x), (ptr), sizeof(*(ptr)))
-
-/**
- * __put_user - Write a simple value into user space, with less checking.
- * @x:   Value to copy to user space.
- * @ptr: Destination address, in user space.
- *
- * Context: User context only. This function may sleep if pagefaults are
- *          enabled.
- *
- * This macro copies a single simple value from kernel space to user
- * space.  It supports simple types like char and int, but not larger
- * data types like structures or arrays.
- *
- * @ptr must have pointer-to-simple-variable type, and @x must be assignable
- * to the result of dereferencing @ptr.
- *
- * Caller must check the pointer with access_ok() before calling this
- * function.
- *
- * Return: zero on success, or -EFAULT on error.
- */
-
-#define __put_user(x, ptr)                                             \
-       __put_user_nocheck((__typeof__(*(ptr)))(x), (ptr), sizeof(*(ptr)))
-
 extern unsigned long
 copy_from_user_nmi(void *to, const void __user *from, unsigned long n);
 extern __must_check long
@@ -455,6 +455,15 @@ extern __must_check long strnlen_user(const char __user *str, long n);
 unsigned long __must_check clear_user(void __user *mem, unsigned long len);
 unsigned long __must_check __clear_user(void __user *mem, unsigned long len);
 
+#ifdef CONFIG_ARCH_HAS_COPY_MC
+unsigned long __must_check
+copy_mc_to_kernel(void *to, const void *from, unsigned len);
+#define copy_mc_to_kernel copy_mc_to_kernel
+
+unsigned long __must_check
+copy_mc_to_user(void *to, const void *from, unsigned len);
+#endif
+
 /*
  * movsl can be slow when source and dest are not both 8-byte aligned
  */
@@ -494,6 +503,14 @@ static __must_check __always_inline bool user_access_begin(const void __user *pt
 #define unsafe_put_user(x, ptr, label) \
        __put_user_size((__typeof__(*(ptr)))(x), (ptr), sizeof(*(ptr)), label)
 
+#ifdef CONFIG_CC_HAS_ASM_GOTO_OUTPUT
+#define unsafe_get_user(x, ptr, err_label)                                     \
+do {                                                                           \
+       __inttype(*(ptr)) __gu_val;                                             \
+       __get_user_size(__gu_val, (ptr), sizeof(*(ptr)), err_label);            \
+       (x) = (__force __typeof__(*(ptr)))__gu_val;                             \
+} while (0)
+#else // !CONFIG_CC_HAS_ASM_GOTO_OUTPUT
 #define unsafe_get_user(x, ptr, err_label)                                     \
 do {                                                                           \
        int __gu_err;                                                           \
@@ -502,6 +519,7 @@ do {                                                                                \
        (x) = (__force __typeof__(*(ptr)))__gu_val;                             \
        if (unlikely(__gu_err)) goto err_label;                                 \
 } while (0)
+#endif // CONFIG_CC_HAS_ASM_GOTO_OUTPUT
 
 /*
  * We want the unsafe accessors to always be inlined and use
@@ -528,6 +546,11 @@ do {                                                                       \
 
 #define HAVE_GET_KERNEL_NOFAULT
 
+#ifdef CONFIG_CC_HAS_ASM_GOTO_OUTPUT
+#define __get_kernel_nofault(dst, src, type, err_label)                        \
+       __get_user_size(*((type *)(dst)), (__force type __user *)(src), \
+                       sizeof(type), err_label)
+#else // !CONFIG_CC_HAS_ASM_GOTO_OUTPUT
 #define __get_kernel_nofault(dst, src, type, err_label)                        \
 do {                                                                   \
        int __kr_err;                                                   \
@@ -537,6 +560,7 @@ do {                                                                        \
        if (unlikely(__kr_err))                                         \
                goto err_label;                                         \
 } while (0)
+#endif // CONFIG_CC_HAS_ASM_GOTO_OUTPUT
 
 #define __put_kernel_nofault(dst, src, type, err_label)                        \
        __put_user_size(*((type *)(src)), (__force type __user *)(dst), \
index bc10e3d..e7265a5 100644 (file)
@@ -47,22 +47,6 @@ copy_user_generic(void *to, const void *from, unsigned len)
 }
 
 static __always_inline __must_check unsigned long
-copy_to_user_mcsafe(void *to, const void *from, unsigned len)
-{
-       unsigned long ret;
-
-       __uaccess_begin();
-       /*
-        * Note, __memcpy_mcsafe() is explicitly used since it can
-        * handle exceptions / faults.  memcpy_mcsafe() may fall back to
-        * memcpy() which lacks this handling.
-        */
-       ret = __memcpy_mcsafe(to, from, len);
-       __uaccess_end();
-       return ret;
-}
-
-static __always_inline __must_check unsigned long
 raw_copy_from_user(void *dst, const void __user *src, unsigned long size)
 {
        return copy_user_generic(dst, (__force void *)src, size);
@@ -102,8 +86,4 @@ __copy_from_user_flushcache(void *dst, const void __user *src, unsigned size)
        kasan_check_write(dst, size);
        return __copy_user_flushcache(dst, src, size);
 }
-
-unsigned long
-mcsafe_handle_tail(char *to, char *from, unsigned len);
-
 #endif /* _ASM_X86_UACCESS_64_H */
index 70050d0..08b3d81 100644 (file)
@@ -5,8 +5,9 @@
 /*
  * UV BIOS layer definitions.
  *
- *  Copyright (c) 2008-2009 Silicon Graphics, Inc.  All Rights Reserved.
- *  Copyright (c) Russ Anderson <rja@sgi.com>
+ * (C) Copyright 2020 Hewlett Packard Enterprise Development LP
+ * Copyright (C) 2007-2017 Silicon Graphics, Inc. All rights reserved.
+ * Copyright (c) Russ Anderson <rja@sgi.com>
  */
 
 #include <linux/rtc.h>
@@ -71,6 +72,11 @@ struct uv_gam_range_entry {
        u32     limit;          /* PA bits 56:26 (UV_GAM_RANGE_SHFT) */
 };
 
+#define        UV_AT_SIZE      8       /* 7 character arch type + NULL char */
+struct uv_arch_type_entry {
+       char    archtype[UV_AT_SIZE];
+};
+
 #define        UV_SYSTAB_SIG                   "UVST"
 #define        UV_SYSTAB_VERSION_1             1       /* UV2/3 BIOS version */
 #define        UV_SYSTAB_VERSION_UV4           0x400   /* UV4 BIOS base version */
@@ -79,10 +85,14 @@ struct uv_gam_range_entry {
 #define        UV_SYSTAB_VERSION_UV4_3         0x403   /* - GAM Range PXM Value */
 #define        UV_SYSTAB_VERSION_UV4_LATEST    UV_SYSTAB_VERSION_UV4_3
 
+#define        UV_SYSTAB_VERSION_UV5           0x500   /* UV5 GAM base version */
+#define        UV_SYSTAB_VERSION_UV5_LATEST    UV_SYSTAB_VERSION_UV5
+
 #define        UV_SYSTAB_TYPE_UNUSED           0       /* End of table (offset == 0) */
 #define        UV_SYSTAB_TYPE_GAM_PARAMS       1       /* GAM PARAM conversions */
 #define        UV_SYSTAB_TYPE_GAM_RNG_TBL      2       /* GAM entry table */
-#define        UV_SYSTAB_TYPE_MAX              3
+#define        UV_SYSTAB_TYPE_ARCH_TYPE        3       /* UV arch type */
+#define        UV_SYSTAB_TYPE_MAX              4
 
 /*
  * The UV system table describes specific firmware
@@ -133,6 +143,7 @@ extern s64 uv_bios_reserved_page_pa(u64, u64 *, u64 *, u64 *);
 extern int uv_bios_set_legacy_vga_target(bool decode, int domain, int bus);
 
 extern int uv_bios_init(void);
+extern unsigned long get_uv_systab_phys(bool msg);
 
 extern unsigned long sn_rtc_cycles_per_second;
 extern int uv_type;
index e48aea9..172d3e4 100644 (file)
@@ -35,10 +35,8 @@ extern int is_uv_hubbed(int uvtype);
 extern void uv_cpu_init(void);
 extern void uv_nmi_init(void);
 extern void uv_system_init(void);
-extern const struct cpumask *uv_flush_tlb_others(const struct cpumask *cpumask,
-                                                const struct flush_tlb_info *info);
 
-#else  /* X86_UV */
+#else  /* !X86_UV */
 
 static inline enum uv_system_type get_uv_system_type(void) { return UV_NONE; }
 static inline bool is_early_uv_system(void)    { return 0; }
diff --git a/arch/x86/include/asm/uv/uv_bau.h b/arch/x86/include/asm/uv/uv_bau.h
deleted file mode 100644 (file)
index cd24804..0000000
+++ /dev/null
@@ -1,755 +0,0 @@
-/*
- * This file is subject to the terms and conditions of the GNU General Public
- * License.  See the file "COPYING" in the main directory of this archive
- * for more details.
- *
- * SGI UV Broadcast Assist Unit definitions
- *
- * Copyright (C) 2008-2011 Silicon Graphics, Inc. All rights reserved.
- */
-
-#ifndef _ASM_X86_UV_UV_BAU_H
-#define _ASM_X86_UV_UV_BAU_H
-
-#include <linux/bitmap.h>
-#include <asm/idtentry.h>
-
-#define BITSPERBYTE 8
-
-/*
- * Broadcast Assist Unit messaging structures
- *
- * Selective Broadcast activations are induced by software action
- * specifying a particular 8-descriptor "set" via a 6-bit index written
- * to an MMR.
- * Thus there are 64 unique 512-byte sets of SB descriptors - one set for
- * each 6-bit index value. These descriptor sets are mapped in sequence
- * starting with set 0 located at the address specified in the
- * BAU_SB_DESCRIPTOR_BASE register, set 1 is located at BASE + 512,
- * set 2 is at BASE + 2*512, set 3 at BASE + 3*512, and so on.
- *
- * We will use one set for sending BAU messages from each of the
- * cpu's on the uvhub.
- *
- * TLB shootdown will use the first of the 8 descriptors of each set.
- * Each of the descriptors is 64 bytes in size (8*64 = 512 bytes in a set).
- */
-
-#define MAX_CPUS_PER_UVHUB             128
-#define MAX_CPUS_PER_SOCKET            64
-#define ADP_SZ                         64 /* hardware-provided max. */
-#define UV_CPUS_PER_AS                 32 /* hardware-provided max. */
-#define ITEMS_PER_DESC                 8
-/* the 'throttle' to prevent the hardware stay-busy bug */
-#define MAX_BAU_CONCURRENT             3
-#define UV_ACT_STATUS_MASK             0x3
-#define UV_ACT_STATUS_SIZE             2
-#define UV_DISTRIBUTION_SIZE           256
-#define UV_SW_ACK_NPENDING             8
-#define UV_NET_ENDPOINT_INTD           0x28
-#define UV_PAYLOADQ_GNODE_SHIFT                49
-#define UV_PTC_BASENAME                        "sgi_uv/ptc_statistics"
-#define UV_BAU_BASENAME                        "sgi_uv/bau_tunables"
-#define UV_BAU_TUNABLES_DIR            "sgi_uv"
-#define UV_BAU_TUNABLES_FILE           "bau_tunables"
-#define WHITESPACE                     " \t\n"
-#define cpubit_isset(cpu, bau_local_cpumask) \
-       test_bit((cpu), (bau_local_cpumask).bits)
-
-/* [19:16] SOFT_ACK timeout period  19: 1 is urgency 7  17:16 1 is multiplier */
-/*
- * UV2: Bit 19 selects between
- *  (0): 10 microsecond timebase and
- *  (1): 80 microseconds
- *  we're using 560us
- */
-#define UV_INTD_SOFT_ACK_TIMEOUT_PERIOD        (15UL)
-/* assuming UV3 is the same */
-
-#define BAU_MISC_CONTROL_MULT_MASK     3
-
-#define UVH_AGING_PRESCALE_SEL         0x000000b000UL
-/* [30:28] URGENCY_7  an index into a table of times */
-#define BAU_URGENCY_7_SHIFT            28
-#define BAU_URGENCY_7_MASK             7
-
-#define UVH_TRANSACTION_TIMEOUT                0x000000b200UL
-/* [45:40] BAU - BAU transaction timeout select - a multiplier */
-#define BAU_TRANS_SHIFT                        40
-#define BAU_TRANS_MASK                 0x3f
-
-/*
- * shorten some awkward names
- */
-#define AS_PUSH_SHIFT UVH_LB_BAU_SB_ACTIVATION_CONTROL_PUSH_SHFT
-#define SOFTACK_MSHIFT UVH_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_SHFT
-#define SOFTACK_PSHIFT UVH_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_SHFT
-#define SOFTACK_TIMEOUT_PERIOD UV_INTD_SOFT_ACK_TIMEOUT_PERIOD
-#define PREFETCH_HINT_SHFT UV3H_LB_BAU_MISC_CONTROL_ENABLE_INTD_PREFETCH_HINT_SHFT
-#define SB_STATUS_SHFT UV3H_LB_BAU_MISC_CONTROL_ENABLE_EXTENDED_SB_STATUS_SHFT
-#define write_gmmr     uv_write_global_mmr64
-#define write_lmmr     uv_write_local_mmr
-#define read_lmmr      uv_read_local_mmr
-#define read_gmmr      uv_read_global_mmr64
-
-/*
- * bits in UVH_LB_BAU_SB_ACTIVATION_STATUS_0/1
- */
-#define DS_IDLE                                0
-#define DS_ACTIVE                      1
-#define DS_DESTINATION_TIMEOUT         2
-#define DS_SOURCE_TIMEOUT              3
-/*
- * bits put together from HRP_LB_BAU_SB_ACTIVATION_STATUS_0/1/2
- * values 1 and 3 will not occur
- *        Decoded meaning              ERROR  BUSY    AUX ERR
- * -------------------------------     ----   -----   -------
- * IDLE                                 0       0        0
- * BUSY (active)                        0       1        0
- * SW Ack Timeout (destination)         1       0        0
- * SW Ack INTD rejected (strong NACK)   1       0        1
- * Source Side Time Out Detected        1       1        0
- * Destination Side PUT Failed          1       1        1
- */
-#define UV2H_DESC_IDLE                 0
-#define UV2H_DESC_BUSY                 2
-#define UV2H_DESC_DEST_TIMEOUT         4
-#define UV2H_DESC_DEST_STRONG_NACK     5
-#define UV2H_DESC_SOURCE_TIMEOUT       6
-#define UV2H_DESC_DEST_PUT_ERR         7
-
-/*
- * delay for 'plugged' timeout retries, in microseconds
- */
-#define PLUGGED_DELAY                  10
-
-/*
- * threshholds at which to use IPI to free resources
- */
-/* after this # consecutive 'plugged' timeouts, use IPI to release resources */
-#define PLUGSB4RESET                   100
-/* after this many consecutive timeouts, use IPI to release resources */
-#define TIMEOUTSB4RESET                        1
-/* at this number uses of IPI to release resources, giveup the request */
-#define IPI_RESET_LIMIT                        1
-/* after this # consecutive successes, bump up the throttle if it was lowered */
-#define COMPLETE_THRESHOLD             5
-/* after this # of giveups (fall back to kernel IPI's) disable the use of
-   the BAU for a period of time */
-#define GIVEUP_LIMIT                   100
-
-#define UV_LB_SUBNODEID                        0x10
-
-#define UV_SA_SHFT UVH_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_SHFT
-#define UV_SA_MASK UVH_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_MASK
-/* 4 bits of software ack period */
-#define UV2_ACK_MASK                   0x7UL
-#define UV2_ACK_UNITS_SHFT             3
-#define UV2_EXT_SHFT UV2H_LB_BAU_MISC_CONTROL_ENABLE_EXTENDED_SB_STATUS_SHFT
-
-/*
- * number of entries in the destination side payload queue
- */
-#define DEST_Q_SIZE                    20
-/*
- * number of destination side software ack resources
- */
-#define DEST_NUM_RESOURCES             8
-/*
- * completion statuses for sending a TLB flush message
- */
-#define FLUSH_RETRY_PLUGGED            1
-#define FLUSH_RETRY_TIMEOUT            2
-#define FLUSH_GIVEUP                   3
-#define FLUSH_COMPLETE                 4
-
-/*
- * tuning the action when the numalink network is extremely delayed
- */
-#define CONGESTED_RESPONSE_US          1000    /* 'long' response time, in
-                                                  microseconds */
-#define CONGESTED_REPS                 10      /* long delays averaged over
-                                                  this many broadcasts */
-#define DISABLED_PERIOD                        10      /* time for the bau to be
-                                                  disabled, in seconds */
-/* see msg_type: */
-#define MSG_NOOP                       0
-#define MSG_REGULAR                    1
-#define MSG_RETRY                      2
-
-#define BAU_DESC_QUALIFIER             0x534749
-
-enum uv_bau_version {
-       UV_BAU_V2 = 2,
-       UV_BAU_V3,
-       UV_BAU_V4,
-};
-
-/*
- * Distribution: 32 bytes (256 bits) (bytes 0-0x1f of descriptor)
- * If the 'multilevel' flag in the header portion of the descriptor
- * has been set to 0, then endpoint multi-unicast mode is selected.
- * The distribution specification (32 bytes) is interpreted as a 256-bit
- * distribution vector. Adjacent bits correspond to consecutive even numbered
- * nodeIDs. The result of adding the index of a given bit to the 15-bit
- * 'base_dest_nasid' field of the header corresponds to the
- * destination nodeID associated with that specified bit.
- */
-struct pnmask {
-       unsigned long           bits[BITS_TO_LONGS(UV_DISTRIBUTION_SIZE)];
-};
-
-/*
- * mask of cpu's on a uvhub
- * (during initialization we need to check that unsigned long has
- *  enough bits for max. cpu's per uvhub)
- */
-struct bau_local_cpumask {
-       unsigned long           bits;
-};
-
-/*
- * Payload: 16 bytes (128 bits) (bytes 0x20-0x2f of descriptor)
- * only 12 bytes (96 bits) of the payload area are usable.
- * An additional 3 bytes (bits 27:4) of the header address are carried
- * to the next bytes of the destination payload queue.
- * And an additional 2 bytes of the header Suppl_A field are also
- * carried to the destination payload queue.
- * But the first byte of the Suppl_A becomes bits 127:120 (the 16th byte)
- * of the destination payload queue, which is written by the hardware
- * with the s/w ack resource bit vector.
- * [ effective message contents (16 bytes (128 bits) maximum), not counting
- *   the s/w ack bit vector  ]
- */
-
-/**
- * struct uv2_3_bau_msg_payload - defines payload for INTD transactions
- * @address:           Signifies a page or all TLB's of the cpu
- * @sending_cpu:       CPU from which the message originates
- * @acknowledge_count: CPUs on the destination Hub that received the interrupt
- */
-struct uv2_3_bau_msg_payload {
-       u64 address;
-       u16 sending_cpu;
-       u16 acknowledge_count;
-};
-
-/**
- * struct uv4_bau_msg_payload - defines payload for INTD transactions
- * @address:           Signifies a page or all TLB's of the cpu
- * @sending_cpu:       CPU from which the message originates
- * @acknowledge_count: CPUs on the destination Hub that received the interrupt
- * @qualifier:         Set by source to verify origin of INTD broadcast
- */
-struct uv4_bau_msg_payload {
-       u64 address;
-       u16 sending_cpu;
-       u16 acknowledge_count;
-       u32 reserved:8;
-       u32 qualifier:24;
-};
-
-/*
- * UV2 Message header:  16 bytes (128 bits) (bytes 0x30-0x3f of descriptor)
- * see figure 9-2 of harp_sys.pdf
- * assuming UV3 is the same
- */
-struct uv2_3_bau_msg_header {
-       unsigned int    base_dest_nasid:15;     /* nasid of the first bit */
-       /* bits 14:0 */                         /* in uvhub map */
-       unsigned int    dest_subnodeid:5;       /* must be 0x10, for the LB */
-       /* bits 19:15 */
-       unsigned int    rsvd_1:1;               /* must be zero */
-       /* bit 20 */
-       /* Address bits 59:21 */
-       /* bits 25:2 of address (44:21) are payload */
-       /* these next 24 bits become bytes 12-14 of msg */
-       /* bits 28:21 land in byte 12 */
-       unsigned int    replied_to:1;           /* sent as 0 by the source to
-                                                  byte 12 */
-       /* bit 21 */
-       unsigned int    msg_type:3;             /* software type of the
-                                                  message */
-       /* bits 24:22 */
-       unsigned int    canceled:1;             /* message canceled, resource
-                                                  is to be freed*/
-       /* bit 25 */
-       unsigned int    payload_1:3;            /* not currently used */
-       /* bits 28:26 */
-
-       /* bits 36:29 land in byte 13 */
-       unsigned int    payload_2a:3;           /* not currently used */
-       unsigned int    payload_2b:5;           /* not currently used */
-       /* bits 36:29 */
-
-       /* bits 44:37 land in byte 14 */
-       unsigned int    payload_3:8;            /* not currently used */
-       /* bits 44:37 */
-
-       unsigned int    rsvd_2:7;               /* reserved */
-       /* bits 51:45 */
-       unsigned int    swack_flag:1;           /* software acknowledge flag */
-       /* bit 52 */
-       unsigned int    rsvd_3a:3;              /* must be zero */
-       unsigned int    rsvd_3b:8;              /* must be zero */
-       unsigned int    rsvd_3c:8;              /* must be zero */
-       unsigned int    rsvd_3d:3;              /* must be zero */
-       /* bits 74:53 */
-       unsigned int    fairness:3;             /* usually zero */
-       /* bits 77:75 */
-
-       unsigned int    sequence:16;            /* message sequence number */
-       /* bits 93:78  Suppl_A  */
-       unsigned int    chaining:1;             /* next descriptor is part of
-                                                  this activation*/
-       /* bit 94 */
-       unsigned int    multilevel:1;           /* multi-level multicast
-                                                  format */
-       /* bit 95 */
-       unsigned int    rsvd_4:24;              /* ordered / source node /
-                                                  source subnode / aging
-                                                  must be zero */
-       /* bits 119:96 */
-       unsigned int    command:8;              /* message type */
-       /* bits 127:120 */
-};
-
-/*
- * The activation descriptor:
- * The format of the message to send, plus all accompanying control
- * Should be 64 bytes
- */
-struct bau_desc {
-       struct pnmask                           distribution;
-       /*
-        * message template, consisting of header and payload:
-        */
-       union bau_msg_header {
-               struct uv2_3_bau_msg_header     uv2_3_hdr;
-       } header;
-
-       union bau_payload_header {
-               struct uv2_3_bau_msg_payload    uv2_3;
-               struct uv4_bau_msg_payload      uv4;
-       } payload;
-};
-/* UV2:
- *   -payload--    ---------header------
- *   bytes 0-11    bits 70-78  bits 21-44
- *       A           B  (2)      C (3)
- *
- *            A/B/C are moved to:
- *       A            C          B
- *   bytes 0-11  bytes 12-14  bytes 16-17  (byte 15 filled in by hw as vector)
- *   ------------payload queue-----------
- */
-
-/*
- * The payload queue on the destination side is an array of these.
- * With BAU_MISC_CONTROL set for software acknowledge mode, the messages
- * are 32 bytes (2 micropackets) (256 bits) in length, but contain only 17
- * bytes of usable data, including the sw ack vector in byte 15 (bits 127:120)
- * (12 bytes come from bau_msg_payload, 3 from payload_1, 2 from
- *  swack_vec and payload_2)
- * "Enabling Software Acknowledgment mode (see Section 4.3.3 Software
- *  Acknowledge Processing) also selects 32 byte (17 bytes usable) payload
- *  operation."
- */
-struct bau_pq_entry {
-       unsigned long   address;        /* signifies a page or all TLB's
-                                          of the cpu */
-       /* 64 bits, bytes 0-7 */
-       unsigned short  sending_cpu;    /* cpu that sent the message */
-       /* 16 bits, bytes 8-9 */
-       unsigned short  acknowledge_count; /* filled in by destination */
-       /* 16 bits, bytes 10-11 */
-       /* these next 3 bytes come from bits 58-81 of the message header */
-       unsigned short  replied_to:1;   /* sent as 0 by the source */
-       unsigned short  msg_type:3;     /* software message type */
-       unsigned short  canceled:1;     /* sent as 0 by the source */
-       unsigned short  unused1:3;      /* not currently using */
-       /* byte 12 */
-       unsigned char   unused2a;       /* not currently using */
-       /* byte 13 */
-       unsigned char   unused2;        /* not currently using */
-       /* byte 14 */
-       unsigned char   swack_vec;      /* filled in by the hardware */
-       /* byte 15 (bits 127:120) */
-       unsigned short  sequence;       /* message sequence number */
-       /* bytes 16-17 */
-       unsigned char   unused4[2];     /* not currently using bytes 18-19 */
-       /* bytes 18-19 */
-       int             number_of_cpus; /* filled in at destination */
-       /* 32 bits, bytes 20-23 (aligned) */
-       unsigned char   unused5[8];     /* not using */
-       /* bytes 24-31 */
-};
-
-struct msg_desc {
-       struct bau_pq_entry     *msg;
-       int                     msg_slot;
-       struct bau_pq_entry     *queue_first;
-       struct bau_pq_entry     *queue_last;
-};
-
-struct reset_args {
-       int                     sender;
-};
-
-/*
- * This structure is allocated per_cpu for UV TLB shootdown statistics.
- */
-struct ptc_stats {
-       /* sender statistics */
-       unsigned long   s_giveup;               /* number of fall backs to
-                                                  IPI-style flushes */
-       unsigned long   s_requestor;            /* number of shootdown
-                                                  requests */
-       unsigned long   s_stimeout;             /* source side timeouts */
-       unsigned long   s_dtimeout;             /* destination side timeouts */
-       unsigned long   s_strongnacks;          /* number of strong nack's */
-       unsigned long   s_time;                 /* time spent in sending side */
-       unsigned long   s_retriesok;            /* successful retries */
-       unsigned long   s_ntargcpu;             /* total number of cpu's
-                                                  targeted */
-       unsigned long   s_ntargself;            /* times the sending cpu was
-                                                  targeted */
-       unsigned long   s_ntarglocals;          /* targets of cpus on the local
-                                                  blade */
-       unsigned long   s_ntargremotes;         /* targets of cpus on remote
-                                                  blades */
-       unsigned long   s_ntarglocaluvhub;      /* targets of the local hub */
-       unsigned long   s_ntargremoteuvhub;     /* remotes hubs targeted */
-       unsigned long   s_ntarguvhub;           /* total number of uvhubs
-                                                  targeted */
-       unsigned long   s_ntarguvhub16;         /* number of times target
-                                                  hubs >= 16*/
-       unsigned long   s_ntarguvhub8;          /* number of times target
-                                                  hubs >= 8 */
-       unsigned long   s_ntarguvhub4;          /* number of times target
-                                                  hubs >= 4 */
-       unsigned long   s_ntarguvhub2;          /* number of times target
-                                                  hubs >= 2 */
-       unsigned long   s_ntarguvhub1;          /* number of times target
-                                                  hubs == 1 */
-       unsigned long   s_resets_plug;          /* ipi-style resets from plug
-                                                  state */
-       unsigned long   s_resets_timeout;       /* ipi-style resets from
-                                                  timeouts */
-       unsigned long   s_busy;                 /* status stayed busy past
-                                                  s/w timer */
-       unsigned long   s_throttles;            /* waits in throttle */
-       unsigned long   s_retry_messages;       /* retry broadcasts */
-       unsigned long   s_bau_reenabled;        /* for bau enable/disable */
-       unsigned long   s_bau_disabled;         /* for bau enable/disable */
-       unsigned long   s_uv2_wars;             /* uv2 workaround, perm. busy */
-       unsigned long   s_uv2_wars_hw;          /* uv2 workaround, hiwater */
-       unsigned long   s_uv2_war_waits;        /* uv2 workaround, long waits */
-       unsigned long   s_overipilimit;         /* over the ipi reset limit */
-       unsigned long   s_giveuplimit;          /* disables, over giveup limit*/
-       unsigned long   s_enters;               /* entries to the driver */
-       unsigned long   s_ipifordisabled;       /* fall back to IPI; disabled */
-       unsigned long   s_plugged;              /* plugged by h/w bug*/
-       unsigned long   s_congested;            /* giveup on long wait */
-       /* destination statistics */
-       unsigned long   d_alltlb;               /* times all tlb's on this
-                                                  cpu were flushed */
-       unsigned long   d_onetlb;               /* times just one tlb on this
-                                                  cpu was flushed */
-       unsigned long   d_multmsg;              /* interrupts with multiple
-                                                  messages */
-       unsigned long   d_nomsg;                /* interrupts with no message */
-       unsigned long   d_time;                 /* time spent on destination
-                                                  side */
-       unsigned long   d_requestee;            /* number of messages
-                                                  processed */
-       unsigned long   d_retries;              /* number of retry messages
-                                                  processed */
-       unsigned long   d_canceled;             /* number of messages canceled
-                                                  by retries */
-       unsigned long   d_nocanceled;           /* retries that found nothing
-                                                  to cancel */
-       unsigned long   d_resets;               /* number of ipi-style requests
-                                                  processed */
-       unsigned long   d_rcanceled;            /* number of messages canceled
-                                                  by resets */
-};
-
-struct tunables {
-       int                     *tunp;
-       int                     deflt;
-};
-
-struct hub_and_pnode {
-       short                   uvhub;
-       short                   pnode;
-};
-
-struct socket_desc {
-       short                   num_cpus;
-       short                   cpu_number[MAX_CPUS_PER_SOCKET];
-};
-
-struct uvhub_desc {
-       unsigned short          socket_mask;
-       short                   num_cpus;
-       short                   uvhub;
-       short                   pnode;
-       struct socket_desc      socket[2];
-};
-
-/**
- * struct bau_control
- * @status_mmr: location of status mmr, determined by uvhub_cpu
- * @status_index: index of ERR|BUSY bits in status mmr, determined by uvhub_cpu
- *
- * Per-cpu control struct containing CPU topology information and BAU tuneables.
- */
-struct bau_control {
-       struct bau_desc         *descriptor_base;
-       struct bau_pq_entry     *queue_first;
-       struct bau_pq_entry     *queue_last;
-       struct bau_pq_entry     *bau_msg_head;
-       struct bau_control      *uvhub_master;
-       struct bau_control      *socket_master;
-       struct ptc_stats        *statp;
-       cpumask_t               *cpumask;
-       unsigned long           timeout_interval;
-       unsigned long           set_bau_on_time;
-       atomic_t                active_descriptor_count;
-       int                     plugged_tries;
-       int                     timeout_tries;
-       int                     ipi_attempts;
-       int                     conseccompletes;
-       u64                     status_mmr;
-       int                     status_index;
-       bool                    nobau;
-       short                   baudisabled;
-       short                   cpu;
-       short                   osnode;
-       short                   uvhub_cpu;
-       short                   uvhub;
-       short                   uvhub_version;
-       short                   cpus_in_socket;
-       short                   cpus_in_uvhub;
-       short                   partition_base_pnode;
-       short                   busy;       /* all were busy (war) */
-       unsigned short          message_number;
-       unsigned short          uvhub_quiesce;
-       short                   socket_acknowledge_count[DEST_Q_SIZE];
-       cycles_t                send_message;
-       cycles_t                period_end;
-       cycles_t                period_time;
-       spinlock_t              uvhub_lock;
-       spinlock_t              queue_lock;
-       spinlock_t              disable_lock;
-       /* tunables */
-       int                     max_concurr;
-       int                     max_concurr_const;
-       int                     plugged_delay;
-       int                     plugsb4reset;
-       int                     timeoutsb4reset;
-       int                     ipi_reset_limit;
-       int                     complete_threshold;
-       int                     cong_response_us;
-       int                     cong_reps;
-       cycles_t                disabled_period;
-       int                     period_giveups;
-       int                     giveup_limit;
-       long                    period_requests;
-       struct hub_and_pnode    *thp;
-};
-
-/* Abstracted BAU functions */
-struct bau_operations {
-       unsigned long   (*read_l_sw_ack)(void);
-       unsigned long   (*read_g_sw_ack)(int pnode);
-       unsigned long   (*bau_gpa_to_offset)(unsigned long vaddr);
-       void            (*write_l_sw_ack)(unsigned long mmr);
-       void            (*write_g_sw_ack)(int pnode, unsigned long mmr);
-       void            (*write_payload_first)(int pnode, unsigned long mmr);
-       void            (*write_payload_last)(int pnode, unsigned long mmr);
-       int             (*wait_completion)(struct bau_desc*,
-                               struct bau_control*, long try);
-};
-
-static inline void write_mmr_data_broadcast(int pnode, unsigned long mmr_image)
-{
-       write_gmmr(pnode, UVH_BAU_DATA_BROADCAST, mmr_image);
-}
-
-static inline void write_mmr_descriptor_base(int pnode, unsigned long mmr_image)
-{
-       write_gmmr(pnode, UVH_LB_BAU_SB_DESCRIPTOR_BASE, mmr_image);
-}
-
-static inline void write_mmr_activation(unsigned long index)
-{
-       write_lmmr(UVH_LB_BAU_SB_ACTIVATION_CONTROL, index);
-}
-
-static inline void write_gmmr_activation(int pnode, unsigned long mmr_image)
-{
-       write_gmmr(pnode, UVH_LB_BAU_SB_ACTIVATION_CONTROL, mmr_image);
-}
-
-static inline void write_mmr_proc_payload_first(int pnode, unsigned long mmr_image)
-{
-       write_gmmr(pnode, UV4H_LB_PROC_INTD_QUEUE_FIRST, mmr_image);
-}
-
-static inline void write_mmr_proc_payload_last(int pnode, unsigned long mmr_image)
-{
-       write_gmmr(pnode, UV4H_LB_PROC_INTD_QUEUE_LAST, mmr_image);
-}
-
-static inline void write_mmr_payload_first(int pnode, unsigned long mmr_image)
-{
-       write_gmmr(pnode, UVH_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST, mmr_image);
-}
-
-static inline void write_mmr_payload_tail(int pnode, unsigned long mmr_image)
-{
-       write_gmmr(pnode, UVH_LB_BAU_INTD_PAYLOAD_QUEUE_TAIL, mmr_image);
-}
-
-static inline void write_mmr_payload_last(int pnode, unsigned long mmr_image)
-{
-       write_gmmr(pnode, UVH_LB_BAU_INTD_PAYLOAD_QUEUE_LAST, mmr_image);
-}
-
-static inline void write_mmr_misc_control(int pnode, unsigned long mmr_image)
-{
-       write_gmmr(pnode, UVH_LB_BAU_MISC_CONTROL, mmr_image);
-}
-
-static inline unsigned long read_mmr_misc_control(int pnode)
-{
-       return read_gmmr(pnode, UVH_LB_BAU_MISC_CONTROL);
-}
-
-static inline void write_mmr_sw_ack(unsigned long mr)
-{
-       uv_write_local_mmr(UVH_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_ALIAS, mr);
-}
-
-static inline void write_gmmr_sw_ack(int pnode, unsigned long mr)
-{
-       write_gmmr(pnode, UVH_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_ALIAS, mr);
-}
-
-static inline unsigned long read_mmr_sw_ack(void)
-{
-       return read_lmmr(UVH_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE);
-}
-
-static inline unsigned long read_gmmr_sw_ack(int pnode)
-{
-       return read_gmmr(pnode, UVH_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE);
-}
-
-static inline void write_mmr_proc_sw_ack(unsigned long mr)
-{
-       uv_write_local_mmr(UV4H_LB_PROC_INTD_SOFT_ACK_CLEAR, mr);
-}
-
-static inline void write_gmmr_proc_sw_ack(int pnode, unsigned long mr)
-{
-       write_gmmr(pnode, UV4H_LB_PROC_INTD_SOFT_ACK_CLEAR, mr);
-}
-
-static inline unsigned long read_mmr_proc_sw_ack(void)
-{
-       return read_lmmr(UV4H_LB_PROC_INTD_SOFT_ACK_PENDING);
-}
-
-static inline unsigned long read_gmmr_proc_sw_ack(int pnode)
-{
-       return read_gmmr(pnode, UV4H_LB_PROC_INTD_SOFT_ACK_PENDING);
-}
-
-static inline void write_mmr_data_config(int pnode, unsigned long mr)
-{
-       uv_write_global_mmr64(pnode, UVH_BAU_DATA_CONFIG, mr);
-}
-
-static inline int bau_uvhub_isset(int uvhub, struct pnmask *dstp)
-{
-       return constant_test_bit(uvhub, &dstp->bits[0]);
-}
-static inline void bau_uvhub_set(int pnode, struct pnmask *dstp)
-{
-       __set_bit(pnode, &dstp->bits[0]);
-}
-static inline void bau_uvhubs_clear(struct pnmask *dstp,
-                                   int nbits)
-{
-       bitmap_zero(&dstp->bits[0], nbits);
-}
-static inline int bau_uvhub_weight(struct pnmask *dstp)
-{
-       return bitmap_weight((unsigned long *)&dstp->bits[0],
-                               UV_DISTRIBUTION_SIZE);
-}
-
-static inline void bau_cpubits_clear(struct bau_local_cpumask *dstp, int nbits)
-{
-       bitmap_zero(&dstp->bits, nbits);
-}
-
-struct atomic_short {
-       short counter;
-};
-
-/*
- * atomic_read_short - read a short atomic variable
- * @v: pointer of type atomic_short
- *
- * Atomically reads the value of @v.
- */
-static inline int atomic_read_short(const struct atomic_short *v)
-{
-       return v->counter;
-}
-
-/*
- * atom_asr - add and return a short int
- * @i: short value to add
- * @v: pointer of type atomic_short
- *
- * Atomically adds @i to @v and returns @i + @v
- */
-static inline int atom_asr(short i, struct atomic_short *v)
-{
-       short __i = i;
-       asm volatile(LOCK_PREFIX "xaddw %0, %1"
-                       : "+r" (i), "+m" (v->counter)
-                       : : "memory");
-       return i + __i;
-}
-
-/*
- * conditionally add 1 to *v, unless *v is >= u
- * return 0 if we cannot add 1 to *v because it is >= u
- * return 1 if we can add 1 to *v because it is < u
- * the add is atomic
- *
- * This is close to atomic_add_unless(), but this allows the 'u' value
- * to be lowered below the current 'v'.  atomic_add_unless can only stop
- * on equal.
- */
-static inline int atomic_inc_unless_ge(spinlock_t *lock, atomic_t *v, int u)
-{
-       spin_lock(lock);
-       if (atomic_read(v) >= u) {
-               spin_unlock(lock);
-               return 0;
-       }
-       atomic_inc(v);
-       spin_unlock(lock);
-       return 1;
-}
-
-void uv_bau_message_interrupt(struct pt_regs *regs);
-
-#endif /* _ASM_X86_UV_UV_BAU_H */
index 100d668..5002f52 100644 (file)
@@ -5,6 +5,7 @@
  *
  * SGI UV architectural definitions
  *
+ * (C) Copyright 2020 Hewlett Packard Enterprise Development LP
  * Copyright (C) 2007-2014 Silicon Graphics, Inc. All rights reserved.
  */
 
  */
 #define UV_MAX_NASID_VALUE     (UV_MAX_NUMALINK_BLADES * 2)
 
-/* System Controller Interface Reg info */
-struct uv_scir_s {
-       struct timer_list timer;
-       unsigned long   offset;
-       unsigned long   last;
-       unsigned long   idle_on;
-       unsigned long   idle_off;
-       unsigned char   state;
-       unsigned char   enabled;
-};
-
 /* GAM (globally addressed memory) range table */
 struct uv_gam_range_s {
        u32     limit;          /* PA bits 56:26 (GAM_RANGE_SHFT) */
@@ -155,6 +145,8 @@ struct uv_gam_range_s {
  * available in the L3 cache on the cpu socket for the node.
  */
 struct uv_hub_info_s {
+       unsigned int            hub_type;
+       unsigned char           hub_revision;
        unsigned long           global_mmr_base;
        unsigned long           global_mmr_shift;
        unsigned long           gpa_mask;
@@ -167,9 +159,9 @@ struct uv_hub_info_s {
        unsigned char           m_val;
        unsigned char           n_val;
        unsigned char           gr_table_len;
-       unsigned char           hub_revision;
        unsigned char           apic_pnode_shift;
        unsigned char           gpa_shift;
+       unsigned char           nasid_shift;
        unsigned char           m_shift;
        unsigned char           n_lshift;
        unsigned int            gnode_extra;
@@ -191,16 +183,13 @@ struct uv_hub_info_s {
 struct uv_cpu_info_s {
        void                    *p_uv_hub_info;
        unsigned char           blade_cpu_id;
-       struct uv_scir_s        scir;
+       void                    *reserved;
 };
 DECLARE_PER_CPU(struct uv_cpu_info_s, __uv_cpu_info);
 
 #define uv_cpu_info            this_cpu_ptr(&__uv_cpu_info)
 #define uv_cpu_info_per(cpu)   (&per_cpu(__uv_cpu_info, cpu))
 
-#define        uv_scir_info            (&uv_cpu_info->scir)
-#define        uv_cpu_scir_info(cpu)   (&uv_cpu_info_per(cpu)->scir)
-
 /* Node specific hub common info struct */
 extern void **__uv_hub_info_list;
 static inline struct uv_hub_info_s *uv_hub_info_list(int node)
@@ -219,6 +208,17 @@ static inline struct uv_hub_info_s *uv_cpu_hub_info(int cpu)
        return (struct uv_hub_info_s *)uv_cpu_info_per(cpu)->p_uv_hub_info;
 }
 
+static inline int uv_hub_type(void)
+{
+       return uv_hub_info->hub_type;
+}
+
+static inline __init void uv_hub_type_set(int uvmask)
+{
+       uv_hub_info->hub_type = uvmask;
+}
+
+
 /*
  * HUB revision ranges for each UV HUB architecture.
  * This is a software convention - NOT the hardware revision numbers in
@@ -228,39 +228,31 @@ static inline struct uv_hub_info_s *uv_cpu_hub_info(int cpu)
 #define UV3_HUB_REVISION_BASE          5
 #define UV4_HUB_REVISION_BASE          7
 #define UV4A_HUB_REVISION_BASE         8       /* UV4 (fixed) rev 2 */
+#define UV5_HUB_REVISION_BASE          9
 
-static inline int is_uv2_hub(void)
-{
-       return is_uv_hubbed(uv(2));
-}
-
-static inline int is_uv3_hub(void)
-{
-       return is_uv_hubbed(uv(3));
-}
+static inline int is_uv(int uvmask) { return uv_hub_type() & uvmask; }
+static inline int is_uv1_hub(void) { return 0; }
+static inline int is_uv2_hub(void) { return is_uv(UV2); }
+static inline int is_uv3_hub(void) { return is_uv(UV3); }
+static inline int is_uv4a_hub(void) { return is_uv(UV4A); }
+static inline int is_uv4_hub(void) { return is_uv(UV4); }
+static inline int is_uv5_hub(void) { return is_uv(UV5); }
 
-/* First test "is UV4A", then "is UV4" */
-static inline int is_uv4a_hub(void)
-{
-       if (is_uv_hubbed(uv(4)))
-               return (uv_hub_info->hub_revision == UV4A_HUB_REVISION_BASE);
-       return 0;
-}
+/*
+ * UV4A is a revision of UV4.  So on UV4A, both is_uv4_hub() and
+ * is_uv4a_hub() return true, While on UV4, only is_uv4_hub()
+ * returns true.  So to get true results, first test if is UV4A,
+ * then test if is UV4.
+ */
 
-static inline int is_uv4_hub(void)
-{
-       return is_uv_hubbed(uv(4));
-}
+/* UVX class: UV2,3,4 */
+static inline int is_uvx_hub(void) { return is_uv(UVX); }
 
-static inline int is_uvx_hub(void)
-{
-       return (is_uv_hubbed(-2) >= uv(2));
-}
+/* UVY class: UV5,..? */
+static inline int is_uvy_hub(void) { return is_uv(UVY); }
 
-static inline int is_uv_hub(void)
-{
-       return is_uvx_hub();
-}
+/* Any UV Hubbed System */
+static inline int is_uv_hub(void) { return is_uv(UV_ANY); }
 
 union uvh_apicid {
     unsigned long       v;
@@ -282,9 +274,11 @@ union uvh_apicid {
  *             g -  GNODE (full 15-bit global nasid, right shifted 1)
  *             p -  PNODE (local part of nsids, right shifted 1)
  */
-#define UV_NASID_TO_PNODE(n)           (((n) >> 1) & uv_hub_info->pnode_mask)
+#define UV_NASID_TO_PNODE(n)           \
+               (((n) >> uv_hub_info->nasid_shift) & uv_hub_info->pnode_mask)
 #define UV_PNODE_TO_GNODE(p)           ((p) |uv_hub_info->gnode_extra)
-#define UV_PNODE_TO_NASID(p)           (UV_PNODE_TO_GNODE(p) << 1)
+#define UV_PNODE_TO_NASID(p)           \
+               (UV_PNODE_TO_GNODE(p) << uv_hub_info->nasid_shift)
 
 #define UV2_LOCAL_MMR_BASE             0xfa000000UL
 #define UV2_GLOBAL_MMR32_BASE          0xfc000000UL
@@ -297,29 +291,42 @@ union uvh_apicid {
 #define UV3_GLOBAL_MMR32_SIZE          (32UL * 1024 * 1024)
 
 #define UV4_LOCAL_MMR_BASE             0xfa000000UL
-#define UV4_GLOBAL_MMR32_BASE          0xfc000000UL
+#define UV4_GLOBAL_MMR32_BASE          0
 #define UV4_LOCAL_MMR_SIZE             (32UL * 1024 * 1024)
-#define UV4_GLOBAL_MMR32_SIZE          (16UL * 1024 * 1024)
+#define UV4_GLOBAL_MMR32_SIZE          0
+
+#define UV5_LOCAL_MMR_BASE             0xfa000000UL
+#define UV5_GLOBAL_MMR32_BASE          0
+#define UV5_LOCAL_MMR_SIZE             (32UL * 1024 * 1024)
+#define UV5_GLOBAL_MMR32_SIZE          0
 
 #define UV_LOCAL_MMR_BASE              (                               \
-                                       is_uv2_hub() ? UV2_LOCAL_MMR_BASE : \
-                                       is_uv3_hub() ? UV3_LOCAL_MMR_BASE : \
-                                       /*is_uv4_hub*/ UV4_LOCAL_MMR_BASE)
+                                       is_uv(UV2) ? UV2_LOCAL_MMR_BASE : \
+                                       is_uv(UV3) ? UV3_LOCAL_MMR_BASE : \
+                                       is_uv(UV4) ? UV4_LOCAL_MMR_BASE : \
+                                       is_uv(UV5) ? UV5_LOCAL_MMR_BASE : \
+                                       0)
 
 #define UV_GLOBAL_MMR32_BASE           (                               \
-                                       is_uv2_hub() ? UV2_GLOBAL_MMR32_BASE : \
-                                       is_uv3_hub() ? UV3_GLOBAL_MMR32_BASE : \
-                                       /*is_uv4_hub*/ UV4_GLOBAL_MMR32_BASE)
+                                       is_uv(UV2) ? UV2_GLOBAL_MMR32_BASE : \
+                                       is_uv(UV3) ? UV3_GLOBAL_MMR32_BASE : \
+                                       is_uv(UV4) ? UV4_GLOBAL_MMR32_BASE : \
+                                       is_uv(UV5) ? UV5_GLOBAL_MMR32_BASE : \
+                                       0)
 
 #define UV_LOCAL_MMR_SIZE              (                               \
-                                       is_uv2_hub() ? UV2_LOCAL_MMR_SIZE : \
-                                       is_uv3_hub() ? UV3_LOCAL_MMR_SIZE : \
-                                       /*is_uv4_hub*/ UV4_LOCAL_MMR_SIZE)
+                                       is_uv(UV2) ? UV2_LOCAL_MMR_SIZE : \
+                                       is_uv(UV3) ? UV3_LOCAL_MMR_SIZE : \
+                                       is_uv(UV4) ? UV4_LOCAL_MMR_SIZE : \
+                                       is_uv(UV5) ? UV5_LOCAL_MMR_SIZE : \
+                                       0)
 
 #define UV_GLOBAL_MMR32_SIZE           (                               \
-                                       is_uv2_hub() ? UV2_GLOBAL_MMR32_SIZE : \
-                                       is_uv3_hub() ? UV3_GLOBAL_MMR32_SIZE : \
-                                       /*is_uv4_hub*/ UV4_GLOBAL_MMR32_SIZE)
+                                       is_uv(UV2) ? UV2_GLOBAL_MMR32_SIZE : \
+                                       is_uv(UV3) ? UV3_GLOBAL_MMR32_SIZE : \
+                                       is_uv(UV4) ? UV4_GLOBAL_MMR32_SIZE : \
+                                       is_uv(UV5) ? UV5_GLOBAL_MMR32_SIZE : \
+                                       0)
 
 #define UV_GLOBAL_MMR64_BASE           (uv_hub_info->global_mmr_base)
 
@@ -720,7 +727,7 @@ extern void uv_nmi_setup_hubless(void);
 #define UVH_TSC_SYNC_SHIFT_UV2K        16      /* UV2/3k have different bits */
 #define UVH_TSC_SYNC_MASK      3       /* 0011 */
 #define UVH_TSC_SYNC_VALID     3       /* 0011 */
-#define UVH_TSC_SYNC_INVALID   2       /* 0010 */
+#define UVH_TSC_SYNC_UNKNOWN   0       /* 0000 */
 
 /* BMC sets a bit this MMR non-zero before sending an NMI */
 #define UVH_NMI_MMR            UVH_BIOS_KERNEL_MMR
@@ -728,19 +735,6 @@ extern void uv_nmi_setup_hubless(void);
 #define UVH_NMI_MMR_SHIFT      63
 #define UVH_NMI_MMR_TYPE       "SCRATCH5"
 
-/* Newer SMM NMI handler, not present in all systems */
-#define UVH_NMI_MMRX           UVH_EVENT_OCCURRED0
-#define UVH_NMI_MMRX_CLEAR     UVH_EVENT_OCCURRED0_ALIAS
-#define UVH_NMI_MMRX_SHIFT     UVH_EVENT_OCCURRED0_EXTIO_INT0_SHFT
-#define UVH_NMI_MMRX_TYPE      "EXTIO_INT0"
-
-/* Non-zero indicates newer SMM NMI handler present */
-#define UVH_NMI_MMRX_SUPPORTED UVH_EXTIO_INT0_BROADCAST
-
-/* Indicates to BIOS that we want to use the newer SMM NMI handler */
-#define UVH_NMI_MMRX_REQ       UVH_BIOS_KERNEL_MMR_ALIAS_2
-#define UVH_NMI_MMRX_REQ_SHIFT 62
-
 struct uv_hub_nmi_s {
        raw_spinlock_t  nmi_lock;
        atomic_t        in_nmi;         /* flag this node in UV NMI IRQ */
@@ -772,29 +766,6 @@ DECLARE_PER_CPU(struct uv_cpu_nmi_s, uv_cpu_nmi);
 #define        UV_NMI_STATE_DUMP               2
 #define        UV_NMI_STATE_DUMP_DONE          3
 
-/* Update SCIR state */
-static inline void uv_set_scir_bits(unsigned char value)
-{
-       if (uv_scir_info->state != value) {
-               uv_scir_info->state = value;
-               uv_write_local_mmr8(uv_scir_info->offset, value);
-       }
-}
-
-static inline unsigned long uv_scir_offset(int apicid)
-{
-       return SCIR_LOCAL_MMR_BASE | (apicid & 0x3f);
-}
-
-static inline void uv_set_cpu_scir_bits(int cpu, unsigned char value)
-{
-       if (uv_cpu_scir_info(cpu)->state != value) {
-               uv_write_global_mmr8(uv_cpu_to_pnode(cpu),
-                               uv_cpu_scir_info(cpu)->offset, value);
-               uv_cpu_scir_info(cpu)->state = value;
-       }
-}
-
 /*
  * Get the minimum revision number of the hub chips within the partition.
  * (See UVx_HUB_REVISION_BASE above for specific values.)
index 775bf14..57fa673 100644 (file)
@@ -3,8 +3,9 @@
  * License.  See the file "COPYING" in the main directory of this archive
  * for more details.
  *
- * SGI UV MMR definitions
+ * HPE UV MMR definitions
  *
+ * (C) Copyright 2020 Hewlett Packard Enterprise Development LP
  * Copyright (C) 2007-2016 Silicon Graphics, Inc. All rights reserved.
  */
 
  * grouped by architecture types.
  *
  * UVH  - definitions common to all UV hub types.
- * UVXH - definitions common to all UV eXtended hub types (currently 2, 3, 4).
- * UV2H - definitions specific to UV type 2 hub.
- * UV3H - definitions specific to UV type 3 hub.
+ * UVXH - definitions common to UVX class (2, 3, 4).
+ * UVYH - definitions common to UVY class (5).
+ * UV5H - definitions specific to UV type 5 hub.
+ * UV4AH - definitions specific to UV type 4A hub.
  * UV4H - definitions specific to UV type 4 hub.
- *
- * So in general, MMR addresses and structures are identical on all hubs types.
- * These MMRs are identified as:
- *     #define UVH_xxx         <address>
- *     union uvh_xxx {
- *             unsigned long       v;
- *             struct uvh_int_cmpd_s {
- *             } s;
- *     };
+ * UV3H - definitions specific to UV type 3 hub.
+ * UV2H - definitions specific to UV type 2 hub.
  *
  * If the MMR exists on all hub types but have different addresses,
- * use a conditional operator to define the value at runtime.
- *     #define UV2Hxxx b
- *     #define UV3Hxxx c
- *     #define UV4Hxxx d
- *     #define UV4AHxxx e
- *     #define UVHxxx  (is_uv2_hub() ? UV2Hxxx :
- *                     (is_uv3_hub() ? UV3Hxxx :
- *                     (is_uv4a_hub() ? UV4AHxxx :
- *                                     UV4Hxxx))
+ * use a conditional operator to define the value at runtime.  Any
+ * that are not defined are blank.
+ *     (UV4A variations only generated if different from uv4)
+ *     #define UVHxxx (
+ *             is_uv(UV5) ? UV5Hxxx value :
+ *             is_uv(UV4A) ? UV4AHxxx value :
+ *             is_uv(UV4) ? UV4Hxxx value :
+ *             is_uv(UV3) ? UV3Hxxx value :
+ *             is_uv(UV2) ? UV2Hxxx value :
+ *             <ucv> or <undef value>)
+ *
+ * Class UVX has UVs (2|3|4|4A).
+ * Class UVY has UVs (5).
  *
  *     union uvh_xxx {
  *             unsigned long       v;
  *             struct uvh_xxx_s {       # Common fields only
  *             } s;
- *             struct uv2h_xxx_s {      # Full UV2 definition (*)
- *             } s2;
- *             struct uv3h_xxx_s {      # Full UV3 definition (*)
- *             } s3;
- *             (NOTE: No struct uv4ah_xxx_s members exist)
+ *             struct uv5h_xxx_s {      # Full UV5 definition (*)
+ *             } s5;
+ *             struct uv4ah_xxx_s {     # Full UV4A definition (*)
+ *             } s4a;
  *             struct uv4h_xxx_s {      # Full UV4 definition (*)
  *             } s4;
+ *             struct uv3h_xxx_s {      # Full UV3 definition (*)
+ *             } s3;
+ *             struct uv2h_xxx_s {      # Full UV2 definition (*)
+ *             } s2;
  *     };
  *             (* - if present and different than the common struct)
  *
  * if the contents is the same for all hubs, only the "s" structure is
  * generated.
  *
- * If the MMR exists on ONLY 1 type of hub, no generic definition is
- * generated:
- *     #define UVnH_xxx        <uvn address>
- *     union uvnh_xxx {
- *             unsigned long       v;
- *             struct uvh_int_cmpd_s {
- *             } sn;
- *     };
- *
- * (GEN Flags: mflags_opt= undefs=function UV234=UVXH)
+ * (GEN Flags: undefs=function)
  */
 
+ /* UV bit masks */
+#define        UV2     (1 << 0)
+#define        UV3     (1 << 1)
+#define        UV4     (1 << 2)
+#define        UV4A    (1 << 3)
+#define        UV5     (1 << 4)
+#define        UVX     (UV2|UV3|UV4)
+#define        UVY     (UV5)
+#define        UV_ANY  (~0)
+
+
+
+
 #define UV_MMR_ENABLE          (1UL << 63)
 
+#define UV1_HUB_PART_NUMBER    0x88a5
 #define UV2_HUB_PART_NUMBER    0x8eb8
 #define UV2_HUB_PART_NUMBER_X  0x1111
 #define UV3_HUB_PART_NUMBER    0x9578
 #define UV3_HUB_PART_NUMBER_X  0x4321
 #define UV4_HUB_PART_NUMBER    0x99a1
+#define UV5_HUB_PART_NUMBER    0xa171
 
 /* Error function to catch undefined references */
 extern unsigned long uv_undefined(char *str);
 
 /* ========================================================================= */
-/*                          UVH_BAU_DATA_BROADCAST                           */
-/* ========================================================================= */
-#define UVH_BAU_DATA_BROADCAST 0x61688UL
-
-#define UV2H_BAU_DATA_BROADCAST_32 0x440
-#define UV3H_BAU_DATA_BROADCAST_32 0x440
-#define UV4H_BAU_DATA_BROADCAST_32 0x360
-#define UVH_BAU_DATA_BROADCAST_32 (                                    \
-       is_uv2_hub() ? UV2H_BAU_DATA_BROADCAST_32 :                     \
-       is_uv3_hub() ? UV3H_BAU_DATA_BROADCAST_32 :                     \
-       /*is_uv4_hub*/ UV4H_BAU_DATA_BROADCAST_32)
-
-#define UVH_BAU_DATA_BROADCAST_ENABLE_SHFT             0
-#define UVH_BAU_DATA_BROADCAST_ENABLE_MASK             0x0000000000000001UL
-
-
-union uvh_bau_data_broadcast_u {
-       unsigned long   v;
-       struct uvh_bau_data_broadcast_s {
-               unsigned long   enable:1;                       /* RW */
-               unsigned long   rsvd_1_63:63;
-       } s;
-};
-
-/* ========================================================================= */
-/*                           UVH_BAU_DATA_CONFIG                             */
-/* ========================================================================= */
-#define UVH_BAU_DATA_CONFIG 0x61680UL
-
-#define UV2H_BAU_DATA_CONFIG_32 0x438
-#define UV3H_BAU_DATA_CONFIG_32 0x438
-#define UV4H_BAU_DATA_CONFIG_32 0x358
-#define UVH_BAU_DATA_CONFIG_32 (                                       \
-       is_uv2_hub() ? UV2H_BAU_DATA_CONFIG_32 :                        \
-       is_uv3_hub() ? UV3H_BAU_DATA_CONFIG_32 :                        \
-       /*is_uv4_hub*/ UV4H_BAU_DATA_CONFIG_32)
-
-#define UVH_BAU_DATA_CONFIG_VECTOR_SHFT                        0
-#define UVH_BAU_DATA_CONFIG_DM_SHFT                    8
-#define UVH_BAU_DATA_CONFIG_DESTMODE_SHFT              11
-#define UVH_BAU_DATA_CONFIG_STATUS_SHFT                        12
-#define UVH_BAU_DATA_CONFIG_P_SHFT                     13
-#define UVH_BAU_DATA_CONFIG_T_SHFT                     15
-#define UVH_BAU_DATA_CONFIG_M_SHFT                     16
-#define UVH_BAU_DATA_CONFIG_APIC_ID_SHFT               32
-#define UVH_BAU_DATA_CONFIG_VECTOR_MASK                        0x00000000000000ffUL
-#define UVH_BAU_DATA_CONFIG_DM_MASK                    0x0000000000000700UL
-#define UVH_BAU_DATA_CONFIG_DESTMODE_MASK              0x0000000000000800UL
-#define UVH_BAU_DATA_CONFIG_STATUS_MASK                        0x0000000000001000UL
-#define UVH_BAU_DATA_CONFIG_P_MASK                     0x0000000000002000UL
-#define UVH_BAU_DATA_CONFIG_T_MASK                     0x0000000000008000UL
-#define UVH_BAU_DATA_CONFIG_M_MASK                     0x0000000000010000UL
-#define UVH_BAU_DATA_CONFIG_APIC_ID_MASK               0xffffffff00000000UL
-
-
-union uvh_bau_data_config_u {
-       unsigned long   v;
-       struct uvh_bau_data_config_s {
-               unsigned long   vector_:8;                      /* RW */
-               unsigned long   dm:3;                           /* RW */
-               unsigned long   destmode:1;                     /* RW */
-               unsigned long   status:1;                       /* RO */
-               unsigned long   p:1;                            /* RO */
-               unsigned long   rsvd_14:1;
-               unsigned long   t:1;                            /* RO */
-               unsigned long   m:1;                            /* RW */
-               unsigned long   rsvd_17_31:15;
-               unsigned long   apic_id:32;                     /* RW */
-       } s;
-};
-
-/* ========================================================================= */
 /*                           UVH_EVENT_OCCURRED0                             */
 /* ========================================================================= */
 #define UVH_EVENT_OCCURRED0 0x70000UL
-#define UVH_EVENT_OCCURRED0_32 0x5e8
 
+/* UVH common defines*/
 #define UVH_EVENT_OCCURRED0_LB_HCERR_SHFT              0
-#define UVH_EVENT_OCCURRED0_RH_AOERR0_SHFT             11
 #define UVH_EVENT_OCCURRED0_LB_HCERR_MASK              0x0000000000000001UL
-#define UVH_EVENT_OCCURRED0_RH_AOERR0_MASK             0x0000000000000800UL
 
+/* UVXH common defines */
 #define UVXH_EVENT_OCCURRED0_RH_HCERR_SHFT             2
-#define UVXH_EVENT_OCCURRED0_LH0_HCERR_SHFT            3
-#define UVXH_EVENT_OCCURRED0_LH1_HCERR_SHFT            4
-#define UVXH_EVENT_OCCURRED0_GR0_HCERR_SHFT            5
-#define UVXH_EVENT_OCCURRED0_GR1_HCERR_SHFT            6
-#define UVXH_EVENT_OCCURRED0_NI0_HCERR_SHFT            7
-#define UVXH_EVENT_OCCURRED0_NI1_HCERR_SHFT            8
-#define UVXH_EVENT_OCCURRED0_LB_AOERR0_SHFT            9
-#define UVXH_EVENT_OCCURRED0_LH0_AOERR0_SHFT           12
-#define UVXH_EVENT_OCCURRED0_LH1_AOERR0_SHFT           13
-#define UVXH_EVENT_OCCURRED0_GR0_AOERR0_SHFT           14
-#define UVXH_EVENT_OCCURRED0_GR1_AOERR0_SHFT           15
-#define UVXH_EVENT_OCCURRED0_XB_AOERR0_SHFT            16
 #define UVXH_EVENT_OCCURRED0_RH_HCERR_MASK             0x0000000000000004UL
+#define UVXH_EVENT_OCCURRED0_LH0_HCERR_SHFT            3
 #define UVXH_EVENT_OCCURRED0_LH0_HCERR_MASK            0x0000000000000008UL
+#define UVXH_EVENT_OCCURRED0_LH1_HCERR_SHFT            4
 #define UVXH_EVENT_OCCURRED0_LH1_HCERR_MASK            0x0000000000000010UL
+#define UVXH_EVENT_OCCURRED0_GR0_HCERR_SHFT            5
 #define UVXH_EVENT_OCCURRED0_GR0_HCERR_MASK            0x0000000000000020UL
+#define UVXH_EVENT_OCCURRED0_GR1_HCERR_SHFT            6
 #define UVXH_EVENT_OCCURRED0_GR1_HCERR_MASK            0x0000000000000040UL
+#define UVXH_EVENT_OCCURRED0_NI0_HCERR_SHFT            7
 #define UVXH_EVENT_OCCURRED0_NI0_HCERR_MASK            0x0000000000000080UL
+#define UVXH_EVENT_OCCURRED0_NI1_HCERR_SHFT            8
 #define UVXH_EVENT_OCCURRED0_NI1_HCERR_MASK            0x0000000000000100UL
+#define UVXH_EVENT_OCCURRED0_LB_AOERR0_SHFT            9
 #define UVXH_EVENT_OCCURRED0_LB_AOERR0_MASK            0x0000000000000200UL
+#define UVXH_EVENT_OCCURRED0_RH_AOERR0_SHFT            11
+#define UVXH_EVENT_OCCURRED0_RH_AOERR0_MASK            0x0000000000000800UL
+#define UVXH_EVENT_OCCURRED0_LH0_AOERR0_SHFT           12
 #define UVXH_EVENT_OCCURRED0_LH0_AOERR0_MASK           0x0000000000001000UL
+#define UVXH_EVENT_OCCURRED0_LH1_AOERR0_SHFT           13
 #define UVXH_EVENT_OCCURRED0_LH1_AOERR0_MASK           0x0000000000002000UL
+#define UVXH_EVENT_OCCURRED0_GR0_AOERR0_SHFT           14
 #define UVXH_EVENT_OCCURRED0_GR0_AOERR0_MASK           0x0000000000004000UL
+#define UVXH_EVENT_OCCURRED0_GR1_AOERR0_SHFT           15
 #define UVXH_EVENT_OCCURRED0_GR1_AOERR0_MASK           0x0000000000008000UL
+#define UVXH_EVENT_OCCURRED0_XB_AOERR0_SHFT            16
 #define UVXH_EVENT_OCCURRED0_XB_AOERR0_MASK            0x0000000000010000UL
 
-#define UV2H_EVENT_OCCURRED0_QP_HCERR_SHFT             1
-#define UV2H_EVENT_OCCURRED0_QP_AOERR0_SHFT            10
-#define UV2H_EVENT_OCCURRED0_RT_AOERR0_SHFT            17
-#define UV2H_EVENT_OCCURRED0_NI0_AOERR0_SHFT           18
-#define UV2H_EVENT_OCCURRED0_NI1_AOERR0_SHFT           19
-#define UV2H_EVENT_OCCURRED0_LB_AOERR1_SHFT            20
-#define UV2H_EVENT_OCCURRED0_QP_AOERR1_SHFT            21
-#define UV2H_EVENT_OCCURRED0_RH_AOERR1_SHFT            22
-#define UV2H_EVENT_OCCURRED0_LH0_AOERR1_SHFT           23
-#define UV2H_EVENT_OCCURRED0_LH1_AOERR1_SHFT           24
-#define UV2H_EVENT_OCCURRED0_GR0_AOERR1_SHFT           25
-#define UV2H_EVENT_OCCURRED0_GR1_AOERR1_SHFT           26
-#define UV2H_EVENT_OCCURRED0_XB_AOERR1_SHFT            27
-#define UV2H_EVENT_OCCURRED0_RT_AOERR1_SHFT            28
-#define UV2H_EVENT_OCCURRED0_NI0_AOERR1_SHFT           29
-#define UV2H_EVENT_OCCURRED0_NI1_AOERR1_SHFT           30
-#define UV2H_EVENT_OCCURRED0_SYSTEM_SHUTDOWN_INT_SHFT  31
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_0_SHFT         32
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_1_SHFT         33
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_2_SHFT         34
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_3_SHFT         35
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_4_SHFT         36
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_5_SHFT         37
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_6_SHFT         38
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_7_SHFT         39
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_8_SHFT         40
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_9_SHFT         41
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_10_SHFT                42
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_11_SHFT                43
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_12_SHFT                44
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_13_SHFT                45
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_14_SHFT                46
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_15_SHFT                47
-#define UV2H_EVENT_OCCURRED0_L1_NMI_INT_SHFT           48
-#define UV2H_EVENT_OCCURRED0_STOP_CLOCK_SHFT           49
-#define UV2H_EVENT_OCCURRED0_ASIC_TO_L1_SHFT           50
-#define UV2H_EVENT_OCCURRED0_L1_TO_ASIC_SHFT           51
-#define UV2H_EVENT_OCCURRED0_LA_SEQ_TRIGGER_SHFT       52
-#define UV2H_EVENT_OCCURRED0_IPI_INT_SHFT              53
-#define UV2H_EVENT_OCCURRED0_EXTIO_INT0_SHFT           54
-#define UV2H_EVENT_OCCURRED0_EXTIO_INT1_SHFT           55
-#define UV2H_EVENT_OCCURRED0_EXTIO_INT2_SHFT           56
-#define UV2H_EVENT_OCCURRED0_EXTIO_INT3_SHFT           57
-#define UV2H_EVENT_OCCURRED0_PROFILE_INT_SHFT          58
-#define UV2H_EVENT_OCCURRED0_QP_HCERR_MASK             0x0000000000000002UL
-#define UV2H_EVENT_OCCURRED0_QP_AOERR0_MASK            0x0000000000000400UL
-#define UV2H_EVENT_OCCURRED0_RT_AOERR0_MASK            0x0000000000020000UL
-#define UV2H_EVENT_OCCURRED0_NI0_AOERR0_MASK           0x0000000000040000UL
-#define UV2H_EVENT_OCCURRED0_NI1_AOERR0_MASK           0x0000000000080000UL
-#define UV2H_EVENT_OCCURRED0_LB_AOERR1_MASK            0x0000000000100000UL
-#define UV2H_EVENT_OCCURRED0_QP_AOERR1_MASK            0x0000000000200000UL
-#define UV2H_EVENT_OCCURRED0_RH_AOERR1_MASK            0x0000000000400000UL
-#define UV2H_EVENT_OCCURRED0_LH0_AOERR1_MASK           0x0000000000800000UL
-#define UV2H_EVENT_OCCURRED0_LH1_AOERR1_MASK           0x0000000001000000UL
-#define UV2H_EVENT_OCCURRED0_GR0_AOERR1_MASK           0x0000000002000000UL
-#define UV2H_EVENT_OCCURRED0_GR1_AOERR1_MASK           0x0000000004000000UL
-#define UV2H_EVENT_OCCURRED0_XB_AOERR1_MASK            0x0000000008000000UL
-#define UV2H_EVENT_OCCURRED0_RT_AOERR1_MASK            0x0000000010000000UL
-#define UV2H_EVENT_OCCURRED0_NI0_AOERR1_MASK           0x0000000020000000UL
-#define UV2H_EVENT_OCCURRED0_NI1_AOERR1_MASK           0x0000000040000000UL
-#define UV2H_EVENT_OCCURRED0_SYSTEM_SHUTDOWN_INT_MASK  0x0000000080000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_0_MASK         0x0000000100000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_1_MASK         0x0000000200000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_2_MASK         0x0000000400000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_3_MASK         0x0000000800000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_4_MASK         0x0000001000000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_5_MASK         0x0000002000000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_6_MASK         0x0000004000000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_7_MASK         0x0000008000000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_8_MASK         0x0000010000000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_9_MASK         0x0000020000000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_10_MASK                0x0000040000000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_11_MASK                0x0000080000000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_12_MASK                0x0000100000000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_13_MASK                0x0000200000000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_14_MASK                0x0000400000000000UL
-#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_15_MASK                0x0000800000000000UL
-#define UV2H_EVENT_OCCURRED0_L1_NMI_INT_MASK           0x0001000000000000UL
-#define UV2H_EVENT_OCCURRED0_STOP_CLOCK_MASK           0x0002000000000000UL
-#define UV2H_EVENT_OCCURRED0_ASIC_TO_L1_MASK           0x0004000000000000UL
-#define UV2H_EVENT_OCCURRED0_L1_TO_ASIC_MASK           0x0008000000000000UL
-#define UV2H_EVENT_OCCURRED0_LA_SEQ_TRIGGER_MASK       0x0010000000000000UL
-#define UV2H_EVENT_OCCURRED0_IPI_INT_MASK              0x0020000000000000UL
-#define UV2H_EVENT_OCCURRED0_EXTIO_INT0_MASK           0x0040000000000000UL
-#define UV2H_EVENT_OCCURRED0_EXTIO_INT1_MASK           0x0080000000000000UL
-#define UV2H_EVENT_OCCURRED0_EXTIO_INT2_MASK           0x0100000000000000UL
-#define UV2H_EVENT_OCCURRED0_EXTIO_INT3_MASK           0x0200000000000000UL
-#define UV2H_EVENT_OCCURRED0_PROFILE_INT_MASK          0x0400000000000000UL
-
-#define UV3H_EVENT_OCCURRED0_QP_HCERR_SHFT             1
-#define UV3H_EVENT_OCCURRED0_QP_AOERR0_SHFT            10
-#define UV3H_EVENT_OCCURRED0_RT_AOERR0_SHFT            17
-#define UV3H_EVENT_OCCURRED0_NI0_AOERR0_SHFT           18
-#define UV3H_EVENT_OCCURRED0_NI1_AOERR0_SHFT           19
-#define UV3H_EVENT_OCCURRED0_LB_AOERR1_SHFT            20
-#define UV3H_EVENT_OCCURRED0_QP_AOERR1_SHFT            21
-#define UV3H_EVENT_OCCURRED0_RH_AOERR1_SHFT            22
-#define UV3H_EVENT_OCCURRED0_LH0_AOERR1_SHFT           23
-#define UV3H_EVENT_OCCURRED0_LH1_AOERR1_SHFT           24
-#define UV3H_EVENT_OCCURRED0_GR0_AOERR1_SHFT           25
-#define UV3H_EVENT_OCCURRED0_GR1_AOERR1_SHFT           26
-#define UV3H_EVENT_OCCURRED0_XB_AOERR1_SHFT            27
-#define UV3H_EVENT_OCCURRED0_RT_AOERR1_SHFT            28
-#define UV3H_EVENT_OCCURRED0_NI0_AOERR1_SHFT           29
-#define UV3H_EVENT_OCCURRED0_NI1_AOERR1_SHFT           30
-#define UV3H_EVENT_OCCURRED0_SYSTEM_SHUTDOWN_INT_SHFT  31
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_0_SHFT         32
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_1_SHFT         33
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_2_SHFT         34
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_3_SHFT         35
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_4_SHFT         36
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_5_SHFT         37
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_6_SHFT         38
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_7_SHFT         39
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_8_SHFT         40
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_9_SHFT         41
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_10_SHFT                42
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_11_SHFT                43
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_12_SHFT                44
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_13_SHFT                45
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_14_SHFT                46
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_15_SHFT                47
-#define UV3H_EVENT_OCCURRED0_L1_NMI_INT_SHFT           48
-#define UV3H_EVENT_OCCURRED0_STOP_CLOCK_SHFT           49
-#define UV3H_EVENT_OCCURRED0_ASIC_TO_L1_SHFT           50
-#define UV3H_EVENT_OCCURRED0_L1_TO_ASIC_SHFT           51
-#define UV3H_EVENT_OCCURRED0_LA_SEQ_TRIGGER_SHFT       52
-#define UV3H_EVENT_OCCURRED0_IPI_INT_SHFT              53
-#define UV3H_EVENT_OCCURRED0_EXTIO_INT0_SHFT           54
-#define UV3H_EVENT_OCCURRED0_EXTIO_INT1_SHFT           55
-#define UV3H_EVENT_OCCURRED0_EXTIO_INT2_SHFT           56
-#define UV3H_EVENT_OCCURRED0_EXTIO_INT3_SHFT           57
-#define UV3H_EVENT_OCCURRED0_PROFILE_INT_SHFT          58
-#define UV3H_EVENT_OCCURRED0_QP_HCERR_MASK             0x0000000000000002UL
-#define UV3H_EVENT_OCCURRED0_QP_AOERR0_MASK            0x0000000000000400UL
-#define UV3H_EVENT_OCCURRED0_RT_AOERR0_MASK            0x0000000000020000UL
-#define UV3H_EVENT_OCCURRED0_NI0_AOERR0_MASK           0x0000000000040000UL
-#define UV3H_EVENT_OCCURRED0_NI1_AOERR0_MASK           0x0000000000080000UL
-#define UV3H_EVENT_OCCURRED0_LB_AOERR1_MASK            0x0000000000100000UL
-#define UV3H_EVENT_OCCURRED0_QP_AOERR1_MASK            0x0000000000200000UL
-#define UV3H_EVENT_OCCURRED0_RH_AOERR1_MASK            0x0000000000400000UL
-#define UV3H_EVENT_OCCURRED0_LH0_AOERR1_MASK           0x0000000000800000UL
-#define UV3H_EVENT_OCCURRED0_LH1_AOERR1_MASK           0x0000000001000000UL
-#define UV3H_EVENT_OCCURRED0_GR0_AOERR1_MASK           0x0000000002000000UL
-#define UV3H_EVENT_OCCURRED0_GR1_AOERR1_MASK           0x0000000004000000UL
-#define UV3H_EVENT_OCCURRED0_XB_AOERR1_MASK            0x0000000008000000UL
-#define UV3H_EVENT_OCCURRED0_RT_AOERR1_MASK            0x0000000010000000UL
-#define UV3H_EVENT_OCCURRED0_NI0_AOERR1_MASK           0x0000000020000000UL
-#define UV3H_EVENT_OCCURRED0_NI1_AOERR1_MASK           0x0000000040000000UL
-#define UV3H_EVENT_OCCURRED0_SYSTEM_SHUTDOWN_INT_MASK  0x0000000080000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_0_MASK         0x0000000100000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_1_MASK         0x0000000200000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_2_MASK         0x0000000400000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_3_MASK         0x0000000800000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_4_MASK         0x0000001000000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_5_MASK         0x0000002000000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_6_MASK         0x0000004000000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_7_MASK         0x0000008000000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_8_MASK         0x0000010000000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_9_MASK         0x0000020000000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_10_MASK                0x0000040000000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_11_MASK                0x0000080000000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_12_MASK                0x0000100000000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_13_MASK                0x0000200000000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_14_MASK                0x0000400000000000UL
-#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_15_MASK                0x0000800000000000UL
-#define UV3H_EVENT_OCCURRED0_L1_NMI_INT_MASK           0x0001000000000000UL
-#define UV3H_EVENT_OCCURRED0_STOP_CLOCK_MASK           0x0002000000000000UL
-#define UV3H_EVENT_OCCURRED0_ASIC_TO_L1_MASK           0x0004000000000000UL
-#define UV3H_EVENT_OCCURRED0_L1_TO_ASIC_MASK           0x0008000000000000UL
-#define UV3H_EVENT_OCCURRED0_LA_SEQ_TRIGGER_MASK       0x0010000000000000UL
-#define UV3H_EVENT_OCCURRED0_IPI_INT_MASK              0x0020000000000000UL
-#define UV3H_EVENT_OCCURRED0_EXTIO_INT0_MASK           0x0040000000000000UL
-#define UV3H_EVENT_OCCURRED0_EXTIO_INT1_MASK           0x0080000000000000UL
-#define UV3H_EVENT_OCCURRED0_EXTIO_INT2_MASK           0x0100000000000000UL
-#define UV3H_EVENT_OCCURRED0_EXTIO_INT3_MASK           0x0200000000000000UL
-#define UV3H_EVENT_OCCURRED0_PROFILE_INT_MASK          0x0400000000000000UL
-
+/* UVYH common defines */
+#define UVYH_EVENT_OCCURRED0_KT_HCERR_SHFT             1
+#define UVYH_EVENT_OCCURRED0_KT_HCERR_MASK             0x0000000000000002UL
+#define UVYH_EVENT_OCCURRED0_RH0_HCERR_SHFT            2
+#define UVYH_EVENT_OCCURRED0_RH0_HCERR_MASK            0x0000000000000004UL
+#define UVYH_EVENT_OCCURRED0_RH1_HCERR_SHFT            3
+#define UVYH_EVENT_OCCURRED0_RH1_HCERR_MASK            0x0000000000000008UL
+#define UVYH_EVENT_OCCURRED0_LH0_HCERR_SHFT            4
+#define UVYH_EVENT_OCCURRED0_LH0_HCERR_MASK            0x0000000000000010UL
+#define UVYH_EVENT_OCCURRED0_LH1_HCERR_SHFT            5
+#define UVYH_EVENT_OCCURRED0_LH1_HCERR_MASK            0x0000000000000020UL
+#define UVYH_EVENT_OCCURRED0_LH2_HCERR_SHFT            6
+#define UVYH_EVENT_OCCURRED0_LH2_HCERR_MASK            0x0000000000000040UL
+#define UVYH_EVENT_OCCURRED0_LH3_HCERR_SHFT            7
+#define UVYH_EVENT_OCCURRED0_LH3_HCERR_MASK            0x0000000000000080UL
+#define UVYH_EVENT_OCCURRED0_XB_HCERR_SHFT             8
+#define UVYH_EVENT_OCCURRED0_XB_HCERR_MASK             0x0000000000000100UL
+#define UVYH_EVENT_OCCURRED0_RDM_HCERR_SHFT            9
+#define UVYH_EVENT_OCCURRED0_RDM_HCERR_MASK            0x0000000000000200UL
+#define UVYH_EVENT_OCCURRED0_NI0_HCERR_SHFT            10
+#define UVYH_EVENT_OCCURRED0_NI0_HCERR_MASK            0x0000000000000400UL
+#define UVYH_EVENT_OCCURRED0_NI1_HCERR_SHFT            11
+#define UVYH_EVENT_OCCURRED0_NI1_HCERR_MASK            0x0000000000000800UL
+#define UVYH_EVENT_OCCURRED0_LB_AOERR0_SHFT            12
+#define UVYH_EVENT_OCCURRED0_LB_AOERR0_MASK            0x0000000000001000UL
+#define UVYH_EVENT_OCCURRED0_KT_AOERR0_SHFT            13
+#define UVYH_EVENT_OCCURRED0_KT_AOERR0_MASK            0x0000000000002000UL
+#define UVYH_EVENT_OCCURRED0_RH0_AOERR0_SHFT           14
+#define UVYH_EVENT_OCCURRED0_RH0_AOERR0_MASK           0x0000000000004000UL
+#define UVYH_EVENT_OCCURRED0_RH1_AOERR0_SHFT           15
+#define UVYH_EVENT_OCCURRED0_RH1_AOERR0_MASK           0x0000000000008000UL
+#define UVYH_EVENT_OCCURRED0_LH0_AOERR0_SHFT           16
+#define UVYH_EVENT_OCCURRED0_LH0_AOERR0_MASK           0x0000000000010000UL
+#define UVYH_EVENT_OCCURRED0_LH1_AOERR0_SHFT           17
+#define UVYH_EVENT_OCCURRED0_LH1_AOERR0_MASK           0x0000000000020000UL
+#define UVYH_EVENT_OCCURRED0_LH2_AOERR0_SHFT           18
+#define UVYH_EVENT_OCCURRED0_LH2_AOERR0_MASK           0x0000000000040000UL
+#define UVYH_EVENT_OCCURRED0_LH3_AOERR0_SHFT           19
+#define UVYH_EVENT_OCCURRED0_LH3_AOERR0_MASK           0x0000000000080000UL
+#define UVYH_EVENT_OCCURRED0_XB_AOERR0_SHFT            20
+#define UVYH_EVENT_OCCURRED0_XB_AOERR0_MASK            0x0000000000100000UL
+#define UVYH_EVENT_OCCURRED0_RDM_AOERR0_SHFT           21
+#define UVYH_EVENT_OCCURRED0_RDM_AOERR0_MASK           0x0000000000200000UL
+#define UVYH_EVENT_OCCURRED0_RT0_AOERR0_SHFT           22
+#define UVYH_EVENT_OCCURRED0_RT0_AOERR0_MASK           0x0000000000400000UL
+#define UVYH_EVENT_OCCURRED0_RT1_AOERR0_SHFT           23
+#define UVYH_EVENT_OCCURRED0_RT1_AOERR0_MASK           0x0000000000800000UL
+#define UVYH_EVENT_OCCURRED0_NI0_AOERR0_SHFT           24
+#define UVYH_EVENT_OCCURRED0_NI0_AOERR0_MASK           0x0000000001000000UL
+#define UVYH_EVENT_OCCURRED0_NI1_AOERR0_SHFT           25
+#define UVYH_EVENT_OCCURRED0_NI1_AOERR0_MASK           0x0000000002000000UL
+#define UVYH_EVENT_OCCURRED0_LB_AOERR1_SHFT            26
+#define UVYH_EVENT_OCCURRED0_LB_AOERR1_MASK            0x0000000004000000UL
+#define UVYH_EVENT_OCCURRED0_KT_AOERR1_SHFT            27
+#define UVYH_EVENT_OCCURRED0_KT_AOERR1_MASK            0x0000000008000000UL
+#define UVYH_EVENT_OCCURRED0_RH0_AOERR1_SHFT           28
+#define UVYH_EVENT_OCCURRED0_RH0_AOERR1_MASK           0x0000000010000000UL
+#define UVYH_EVENT_OCCURRED0_RH1_AOERR1_SHFT           29
+#define UVYH_EVENT_OCCURRED0_RH1_AOERR1_MASK           0x0000000020000000UL
+#define UVYH_EVENT_OCCURRED0_LH0_AOERR1_SHFT           30
+#define UVYH_EVENT_OCCURRED0_LH0_AOERR1_MASK           0x0000000040000000UL
+#define UVYH_EVENT_OCCURRED0_LH1_AOERR1_SHFT           31
+#define UVYH_EVENT_OCCURRED0_LH1_AOERR1_MASK           0x0000000080000000UL
+#define UVYH_EVENT_OCCURRED0_LH2_AOERR1_SHFT           32
+#define UVYH_EVENT_OCCURRED0_LH2_AOERR1_MASK           0x0000000100000000UL
+#define UVYH_EVENT_OCCURRED0_LH3_AOERR1_SHFT           33
+#define UVYH_EVENT_OCCURRED0_LH3_AOERR1_MASK           0x0000000200000000UL
+#define UVYH_EVENT_OCCURRED0_XB_AOERR1_SHFT            34
+#define UVYH_EVENT_OCCURRED0_XB_AOERR1_MASK            0x0000000400000000UL
+#define UVYH_EVENT_OCCURRED0_RDM_AOERR1_SHFT           35
+#define UVYH_EVENT_OCCURRED0_RDM_AOERR1_MASK           0x0000000800000000UL
+#define UVYH_EVENT_OCCURRED0_RT0_AOERR1_SHFT           36
+#define UVYH_EVENT_OCCURRED0_RT0_AOERR1_MASK           0x0000001000000000UL
+#define UVYH_EVENT_OCCURRED0_RT1_AOERR1_SHFT           37
+#define UVYH_EVENT_OCCURRED0_RT1_AOERR1_MASK           0x0000002000000000UL
+#define UVYH_EVENT_OCCURRED0_NI0_AOERR1_SHFT           38
+#define UVYH_EVENT_OCCURRED0_NI0_AOERR1_MASK           0x0000004000000000UL
+#define UVYH_EVENT_OCCURRED0_NI1_AOERR1_SHFT           39
+#define UVYH_EVENT_OCCURRED0_NI1_AOERR1_MASK           0x0000008000000000UL
+#define UVYH_EVENT_OCCURRED0_SYSTEM_SHUTDOWN_INT_SHFT  40
+#define UVYH_EVENT_OCCURRED0_SYSTEM_SHUTDOWN_INT_MASK  0x0000010000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_0_SHFT         41
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_0_MASK         0x0000020000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_1_SHFT         42
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_1_MASK         0x0000040000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_2_SHFT         43
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_2_MASK         0x0000080000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_3_SHFT         44
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_3_MASK         0x0000100000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_4_SHFT         45
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_4_MASK         0x0000200000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_5_SHFT         46
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_5_MASK         0x0000400000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_6_SHFT         47
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_6_MASK         0x0000800000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_7_SHFT         48
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_7_MASK         0x0001000000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_8_SHFT         49
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_8_MASK         0x0002000000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_9_SHFT         50
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_9_MASK         0x0004000000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_10_SHFT                51
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_10_MASK                0x0008000000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_11_SHFT                52
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_11_MASK                0x0010000000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_12_SHFT                53
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_12_MASK                0x0020000000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_13_SHFT                54
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_13_MASK                0x0040000000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_14_SHFT                55
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_14_MASK                0x0080000000000000UL
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_15_SHFT                56
+#define UVYH_EVENT_OCCURRED0_LB_IRQ_INT_15_MASK                0x0100000000000000UL
+#define UVYH_EVENT_OCCURRED0_L1_NMI_INT_SHFT           57
+#define UVYH_EVENT_OCCURRED0_L1_NMI_INT_MASK           0x0200000000000000UL
+#define UVYH_EVENT_OCCURRED0_STOP_CLOCK_SHFT           58
+#define UVYH_EVENT_OCCURRED0_STOP_CLOCK_MASK           0x0400000000000000UL
+#define UVYH_EVENT_OCCURRED0_ASIC_TO_L1_SHFT           59
+#define UVYH_EVENT_OCCURRED0_ASIC_TO_L1_MASK           0x0800000000000000UL
+#define UVYH_EVENT_OCCURRED0_L1_TO_ASIC_SHFT           60
+#define UVYH_EVENT_OCCURRED0_L1_TO_ASIC_MASK           0x1000000000000000UL
+#define UVYH_EVENT_OCCURRED0_LA_SEQ_TRIGGER_SHFT       61
+#define UVYH_EVENT_OCCURRED0_LA_SEQ_TRIGGER_MASK       0x2000000000000000UL
+
+/* UV4 unique defines */
 #define UV4H_EVENT_OCCURRED0_KT_HCERR_SHFT             1
+#define UV4H_EVENT_OCCURRED0_KT_HCERR_MASK             0x0000000000000002UL
 #define UV4H_EVENT_OCCURRED0_KT_AOERR0_SHFT            10
-#define UV4H_EVENT_OCCURRED0_RTQ0_AOERR0_SHFT          17
-#define UV4H_EVENT_OCCURRED0_RTQ1_AOERR0_SHFT          18
-#define UV4H_EVENT_OCCURRED0_RTQ2_AOERR0_SHFT          19
-#define UV4H_EVENT_OCCURRED0_RTQ3_AOERR0_SHFT          20
-#define UV4H_EVENT_OCCURRED0_NI0_AOERR0_SHFT           21
-#define UV4H_EVENT_OCCURRED0_NI1_AOERR0_SHFT           22
-#define UV4H_EVENT_OCCURRED0_LB_AOERR1_SHFT            23
-#define UV4H_EVENT_OCCURRED0_KT_AOERR1_SHFT            24
-#define UV4H_EVENT_OCCURRED0_RH_AOERR1_SHFT            25
-#define UV4H_EVENT_OCCURRED0_LH0_AOERR1_SHFT           26
-#define UV4H_EVENT_OCCURRED0_LH1_AOERR1_SHFT           27
-#define UV4H_EVENT_OCCURRED0_GR0_AOERR1_SHFT           28
-#define UV4H_EVENT_OCCURRED0_GR1_AOERR1_SHFT           29
-#define UV4H_EVENT_OCCURRED0_XB_AOERR1_SHFT            30
-#define UV4H_EVENT_OCCURRED0_RTQ0_AOERR1_SHFT          31
-#define UV4H_EVENT_OCCURRED0_RTQ1_AOERR1_SHFT          32
-#define UV4H_EVENT_OCCURRED0_RTQ2_AOERR1_SHFT          33
-#define UV4H_EVENT_OCCURRED0_RTQ3_AOERR1_SHFT          34
-#define UV4H_EVENT_OCCURRED0_NI0_AOERR1_SHFT           35
-#define UV4H_EVENT_OCCURRED0_NI1_AOERR1_SHFT           36
-#define UV4H_EVENT_OCCURRED0_SYSTEM_SHUTDOWN_INT_SHFT  37
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_0_SHFT         38
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_1_SHFT         39
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_2_SHFT         40
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_3_SHFT         41
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_4_SHFT         42
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_5_SHFT         43
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_6_SHFT         44
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_7_SHFT         45
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_8_SHFT         46
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_9_SHFT         47
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_10_SHFT                48
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_11_SHFT                49
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_12_SHFT                50
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_13_SHFT                51
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_14_SHFT                52
-#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_15_SHFT                53
-#define UV4H_EVENT_OCCURRED0_L1_NMI_INT_SHFT           54
-#define UV4H_EVENT_OCCURRED0_STOP_CLOCK_SHFT           55
-#define UV4H_EVENT_OCCURRED0_ASIC_TO_L1_SHFT           56
-#define UV4H_EVENT_OCCURRED0_L1_TO_ASIC_SHFT           57
-#define UV4H_EVENT_OCCURRED0_LA_SEQ_TRIGGER_SHFT       58
-#define UV4H_EVENT_OCCURRED0_IPI_INT_SHFT              59
-#define UV4H_EVENT_OCCURRED0_EXTIO_INT0_SHFT           60
-#define UV4H_EVENT_OCCURRED0_EXTIO_INT1_SHFT           61
-#define UV4H_EVENT_OCCURRED0_EXTIO_INT2_SHFT           62
-#define UV4H_EVENT_OCCURRED0_EXTIO_INT3_SHFT           63
-#define UV4H_EVENT_OCCURRED0_KT_HCERR_MASK             0x0000000000000002UL
 #define UV4H_EVENT_OCCURRED0_KT_AOERR0_MASK            0x0000000000000400UL
+#define UV4H_EVENT_OCCURRED0_RTQ0_AOERR0_SHFT          17
 #define UV4H_EVENT_OCCURRED0_RTQ0_AOERR0_MASK          0x0000000000020000UL
+#define UV4H_EVENT_OCCURRED0_RTQ1_AOERR0_SHFT          18
 #define UV4H_EVENT_OCCURRED0_RTQ1_AOERR0_MASK          0x0000000000040000UL
+#define UV4H_EVENT_OCCURRED0_RTQ2_AOERR0_SHFT          19
 #define UV4H_EVENT_OCCURRED0_RTQ2_AOERR0_MASK          0x0000000000080000UL
+#define UV4H_EVENT_OCCURRED0_RTQ3_AOERR0_SHFT          20
 #define UV4H_EVENT_OCCURRED0_RTQ3_AOERR0_MASK          0x0000000000100000UL
+#define UV4H_EVENT_OCCURRED0_NI0_AOERR0_SHFT           21
 #define UV4H_EVENT_OCCURRED0_NI0_AOERR0_MASK           0x0000000000200000UL
+#define UV4H_EVENT_OCCURRED0_NI1_AOERR0_SHFT           22
 #define UV4H_EVENT_OCCURRED0_NI1_AOERR0_MASK           0x0000000000400000UL
+#define UV4H_EVENT_OCCURRED0_LB_AOERR1_SHFT            23
 #define UV4H_EVENT_OCCURRED0_LB_AOERR1_MASK            0x0000000000800000UL
+#define UV4H_EVENT_OCCURRED0_KT_AOERR1_SHFT            24
 #define UV4H_EVENT_OCCURRED0_KT_AOERR1_MASK            0x0000000001000000UL
+#define UV4H_EVENT_OCCURRED0_RH_AOERR1_SHFT            25
 #define UV4H_EVENT_OCCURRED0_RH_AOERR1_MASK            0x0000000002000000UL
+#define UV4H_EVENT_OCCURRED0_LH0_AOERR1_SHFT           26
 #define UV4H_EVENT_OCCURRED0_LH0_AOERR1_MASK           0x0000000004000000UL
+#define UV4H_EVENT_OCCURRED0_LH1_AOERR1_SHFT           27
 #define UV4H_EVENT_OCCURRED0_LH1_AOERR1_MASK           0x0000000008000000UL
+#define UV4H_EVENT_OCCURRED0_GR0_AOERR1_SHFT           28
 #define UV4H_EVENT_OCCURRED0_GR0_AOERR1_MASK           0x0000000010000000UL
+#define UV4H_EVENT_OCCURRED0_GR1_AOERR1_SHFT           29
 #define UV4H_EVENT_OCCURRED0_GR1_AOERR1_MASK           0x0000000020000000UL
+#define UV4H_EVENT_OCCURRED0_XB_AOERR1_SHFT            30
 #define UV4H_EVENT_OCCURRED0_XB_AOERR1_MASK            0x0000000040000000UL
+#define UV4H_EVENT_OCCURRED0_RTQ0_AOERR1_SHFT          31
 #define UV4H_EVENT_OCCURRED0_RTQ0_AOERR1_MASK          0x0000000080000000UL
+#define UV4H_EVENT_OCCURRED0_RTQ1_AOERR1_SHFT          32
 #define UV4H_EVENT_OCCURRED0_RTQ1_AOERR1_MASK          0x0000000100000000UL
+#define UV4H_EVENT_OCCURRED0_RTQ2_AOERR1_SHFT          33
 #define UV4H_EVENT_OCCURRED0_RTQ2_AOERR1_MASK          0x0000000200000000UL
+#define UV4H_EVENT_OCCURRED0_RTQ3_AOERR1_SHFT          34
 #define UV4H_EVENT_OCCURRED0_RTQ3_AOERR1_MASK          0x0000000400000000UL
+#define UV4H_EVENT_OCCURRED0_NI0_AOERR1_SHFT           35
 #define UV4H_EVENT_OCCURRED0_NI0_AOERR1_MASK           0x0000000800000000UL
+#define UV4H_EVENT_OCCURRED0_NI1_AOERR1_SHFT           36
 #define UV4H_EVENT_OCCURRED0_NI1_AOERR1_MASK           0x0000001000000000UL
+#define UV4H_EVENT_OCCURRED0_SYSTEM_SHUTDOWN_INT_SHFT  37
 #define UV4H_EVENT_OCCURRED0_SYSTEM_SHUTDOWN_INT_MASK  0x0000002000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_0_SHFT         38
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_0_MASK         0x0000004000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_1_SHFT         39
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_1_MASK         0x0000008000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_2_SHFT         40
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_2_MASK         0x0000010000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_3_SHFT         41
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_3_MASK         0x0000020000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_4_SHFT         42
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_4_MASK         0x0000040000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_5_SHFT         43
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_5_MASK         0x0000080000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_6_SHFT         44
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_6_MASK         0x0000100000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_7_SHFT         45
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_7_MASK         0x0000200000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_8_SHFT         46
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_8_MASK         0x0000400000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_9_SHFT         47
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_9_MASK         0x0000800000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_10_SHFT                48
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_10_MASK                0x0001000000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_11_SHFT                49
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_11_MASK                0x0002000000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_12_SHFT                50
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_12_MASK                0x0004000000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_13_SHFT                51
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_13_MASK                0x0008000000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_14_SHFT                52
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_14_MASK                0x0010000000000000UL
+#define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_15_SHFT                53
 #define UV4H_EVENT_OCCURRED0_LB_IRQ_INT_15_MASK                0x0020000000000000UL
+#define UV4H_EVENT_OCCURRED0_L1_NMI_INT_SHFT           54
 #define UV4H_EVENT_OCCURRED0_L1_NMI_INT_MASK           0x0040000000000000UL
+#define UV4H_EVENT_OCCURRED0_STOP_CLOCK_SHFT           55
 #define UV4H_EVENT_OCCURRED0_STOP_CLOCK_MASK           0x0080000000000000UL
+#define UV4H_EVENT_OCCURRED0_ASIC_TO_L1_SHFT           56
 #define UV4H_EVENT_OCCURRED0_ASIC_TO_L1_MASK           0x0100000000000000UL
+#define UV4H_EVENT_OCCURRED0_L1_TO_ASIC_SHFT           57
 #define UV4H_EVENT_OCCURRED0_L1_TO_ASIC_MASK           0x0200000000000000UL
+#define UV4H_EVENT_OCCURRED0_LA_SEQ_TRIGGER_SHFT       58
 #define UV4H_EVENT_OCCURRED0_LA_SEQ_TRIGGER_MASK       0x0400000000000000UL
+#define UV4H_EVENT_OCCURRED0_IPI_INT_SHFT              59
 #define UV4H_EVENT_OCCURRED0_IPI_INT_MASK              0x0800000000000000UL
+#define UV4H_EVENT_OCCURRED0_EXTIO_INT0_SHFT           60
 #define UV4H_EVENT_OCCURRED0_EXTIO_INT0_MASK           0x1000000000000000UL
+#define UV4H_EVENT_OCCURRED0_EXTIO_INT1_SHFT           61
 #define UV4H_EVENT_OCCURRED0_EXTIO_INT1_MASK           0x2000000000000000UL
+#define UV4H_EVENT_OCCURRED0_EXTIO_INT2_SHFT           62
 #define UV4H_EVENT_OCCURRED0_EXTIO_INT2_MASK           0x4000000000000000UL
+#define UV4H_EVENT_OCCURRED0_EXTIO_INT3_SHFT           63
 #define UV4H_EVENT_OCCURRED0_EXTIO_INT3_MASK           0x8000000000000000UL
 
-#define UVH_EVENT_OCCURRED0_EXTIO_INT0_SHFT (                          \
-       is_uv2_hub() ? UV2H_EVENT_OCCURRED0_EXTIO_INT0_SHFT :           \
-       is_uv3_hub() ? UV3H_EVENT_OCCURRED0_EXTIO_INT0_SHFT :           \
-       /*is_uv4_hub*/ UV4H_EVENT_OCCURRED0_EXTIO_INT0_SHFT)
+/* UV3 unique defines */
+#define UV3H_EVENT_OCCURRED0_QP_HCERR_SHFT             1
+#define UV3H_EVENT_OCCURRED0_QP_HCERR_MASK             0x0000000000000002UL
+#define UV3H_EVENT_OCCURRED0_QP_AOERR0_SHFT            10
+#define UV3H_EVENT_OCCURRED0_QP_AOERR0_MASK            0x0000000000000400UL
+#define UV3H_EVENT_OCCURRED0_RT_AOERR0_SHFT            17
+#define UV3H_EVENT_OCCURRED0_RT_AOERR0_MASK            0x0000000000020000UL
+#define UV3H_EVENT_OCCURRED0_NI0_AOERR0_SHFT           18
+#define UV3H_EVENT_OCCURRED0_NI0_AOERR0_MASK           0x0000000000040000UL
+#define UV3H_EVENT_OCCURRED0_NI1_AOERR0_SHFT           19
+#define UV3H_EVENT_OCCURRED0_NI1_AOERR0_MASK           0x0000000000080000UL
+#define UV3H_EVENT_OCCURRED0_LB_AOERR1_SHFT            20
+#define UV3H_EVENT_OCCURRED0_LB_AOERR1_MASK            0x0000000000100000UL
+#define UV3H_EVENT_OCCURRED0_QP_AOERR1_SHFT            21
+#define UV3H_EVENT_OCCURRED0_QP_AOERR1_MASK            0x0000000000200000UL
+#define UV3H_EVENT_OCCURRED0_RH_AOERR1_SHFT            22
+#define UV3H_EVENT_OCCURRED0_RH_AOERR1_MASK            0x0000000000400000UL
+#define UV3H_EVENT_OCCURRED0_LH0_AOERR1_SHFT           23
+#define UV3H_EVENT_OCCURRED0_LH0_AOERR1_MASK           0x0000000000800000UL
+#define UV3H_EVENT_OCCURRED0_LH1_AOERR1_SHFT           24
+#define UV3H_EVENT_OCCURRED0_LH1_AOERR1_MASK           0x0000000001000000UL
+#define UV3H_EVENT_OCCURRED0_GR0_AOERR1_SHFT           25
+#define UV3H_EVENT_OCCURRED0_GR0_AOERR1_MASK           0x0000000002000000UL
+#define UV3H_EVENT_OCCURRED0_GR1_AOERR1_SHFT           26
+#define UV3H_EVENT_OCCURRED0_GR1_AOERR1_MASK           0x0000000004000000UL
+#define UV3H_EVENT_OCCURRED0_XB_AOERR1_SHFT            27
+#define UV3H_EVENT_OCCURRED0_XB_AOERR1_MASK            0x0000000008000000UL
+#define UV3H_EVENT_OCCURRED0_RT_AOERR1_SHFT            28
+#define UV3H_EVENT_OCCURRED0_RT_AOERR1_MASK            0x0000000010000000UL
+#define UV3H_EVENT_OCCURRED0_NI0_AOERR1_SHFT           29
+#define UV3H_EVENT_OCCURRED0_NI0_AOERR1_MASK           0x0000000020000000UL
+#define UV3H_EVENT_OCCURRED0_NI1_AOERR1_SHFT           30
+#define UV3H_EVENT_OCCURRED0_NI1_AOERR1_MASK           0x0000000040000000UL
+#define UV3H_EVENT_OCCURRED0_SYSTEM_SHUTDOWN_INT_SHFT  31
+#define UV3H_EVENT_OCCURRED0_SYSTEM_SHUTDOWN_INT_MASK  0x0000000080000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_0_SHFT         32
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_0_MASK         0x0000000100000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_1_SHFT         33
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_1_MASK         0x0000000200000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_2_SHFT         34
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_2_MASK         0x0000000400000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_3_SHFT         35
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_3_MASK         0x0000000800000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_4_SHFT         36
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_4_MASK         0x0000001000000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_5_SHFT         37
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_5_MASK         0x0000002000000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_6_SHFT         38
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_6_MASK         0x0000004000000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_7_SHFT         39
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_7_MASK         0x0000008000000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_8_SHFT         40
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_8_MASK         0x0000010000000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_9_SHFT         41
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_9_MASK         0x0000020000000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_10_SHFT                42
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_10_MASK                0x0000040000000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_11_SHFT                43
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_11_MASK                0x0000080000000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_12_SHFT                44
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_12_MASK                0x0000100000000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_13_SHFT                45
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_13_MASK                0x0000200000000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_14_SHFT                46
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_14_MASK                0x0000400000000000UL
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_15_SHFT                47
+#define UV3H_EVENT_OCCURRED0_LB_IRQ_INT_15_MASK                0x0000800000000000UL
+#define UV3H_EVENT_OCCURRED0_L1_NMI_INT_SHFT           48
+#define UV3H_EVENT_OCCURRED0_L1_NMI_INT_MASK           0x0001000000000000UL
+#define UV3H_EVENT_OCCURRED0_STOP_CLOCK_SHFT           49
+#define UV3H_EVENT_OCCURRED0_STOP_CLOCK_MASK           0x0002000000000000UL
+#define UV3H_EVENT_OCCURRED0_ASIC_TO_L1_SHFT           50
+#define UV3H_EVENT_OCCURRED0_ASIC_TO_L1_MASK           0x0004000000000000UL
+#define UV3H_EVENT_OCCURRED0_L1_TO_ASIC_SHFT           51
+#define UV3H_EVENT_OCCURRED0_L1_TO_ASIC_MASK           0x0008000000000000UL
+#define UV3H_EVENT_OCCURRED0_LA_SEQ_TRIGGER_SHFT       52
+#define UV3H_EVENT_OCCURRED0_LA_SEQ_TRIGGER_MASK       0x0010000000000000UL
+#define UV3H_EVENT_OCCURRED0_IPI_INT_SHFT              53
+#define UV3H_EVENT_OCCURRED0_IPI_INT_MASK              0x0020000000000000UL
+#define UV3H_EVENT_OCCURRED0_EXTIO_INT0_SHFT           54
+#define UV3H_EVENT_OCCURRED0_EXTIO_INT0_MASK           0x0040000000000000UL
+#define UV3H_EVENT_OCCURRED0_EXTIO_INT1_SHFT           55
+#define UV3H_EVENT_OCCURRED0_EXTIO_INT1_MASK           0x0080000000000000UL
+#define UV3H_EVENT_OCCURRED0_EXTIO_INT2_SHFT           56
+#define UV3H_EVENT_OCCURRED0_EXTIO_INT2_MASK           0x0100000000000000UL
+#define UV3H_EVENT_OCCURRED0_EXTIO_INT3_SHFT           57
+#define UV3H_EVENT_OCCURRED0_EXTIO_INT3_MASK           0x0200000000000000UL
+#define UV3H_EVENT_OCCURRED0_PROFILE_INT_SHFT          58
+#define UV3H_EVENT_OCCURRED0_PROFILE_INT_MASK          0x0400000000000000UL
 
-union uvh_event_occurred0_u {
-       unsigned long   v;
-       struct uvh_event_occurred0_s {
-               unsigned long   lb_hcerr:1;                     /* RW, W1C */
-               unsigned long   rsvd_1_10:10;
-               unsigned long   rh_aoerr0:1;                    /* RW, W1C */
-               unsigned long   rsvd_12_63:52;
-       } s;
-       struct uvxh_event_occurred0_s {
-               unsigned long   lb_hcerr:1;                     /* RW */
-               unsigned long   rsvd_1:1;
-               unsigned long   rh_hcerr:1;                     /* RW */
-               unsigned long   lh0_hcerr:1;                    /* RW */
-               unsigned long   lh1_hcerr:1;                    /* RW */
-               unsigned long   gr0_hcerr:1;                    /* RW */
-               unsigned long   gr1_hcerr:1;                    /* RW */
-               unsigned long   ni0_hcerr:1;                    /* RW */
-               unsigned long   ni1_hcerr:1;                    /* RW */
-               unsigned long   lb_aoerr0:1;                    /* RW */
-               unsigned long   rsvd_10:1;
-               unsigned long   rh_aoerr0:1;                    /* RW */
-               unsigned long   lh0_aoerr0:1;                   /* RW */
-               unsigned long   lh1_aoerr0:1;                   /* RW */
-               unsigned long   gr0_aoerr0:1;                   /* RW */
-               unsigned long   gr1_aoerr0:1;                   /* RW */
-               unsigned long   xb_aoerr0:1;                    /* RW */
-               unsigned long   rsvd_17_63:47;
-       } sx;
-       struct uv4h_event_occurred0_s {
-               unsigned long   lb_hcerr:1;                     /* RW */
-               unsigned long   kt_hcerr:1;                     /* RW */
-               unsigned long   rh_hcerr:1;                     /* RW */
-               unsigned long   lh0_hcerr:1;                    /* RW */
-               unsigned long   lh1_hcerr:1;                    /* RW */
-               unsigned long   gr0_hcerr:1;                    /* RW */
-               unsigned long   gr1_hcerr:1;                    /* RW */
-               unsigned long   ni0_hcerr:1;                    /* RW */
-               unsigned long   ni1_hcerr:1;                    /* RW */
-               unsigned long   lb_aoerr0:1;                    /* RW */
-               unsigned long   kt_aoerr0:1;                    /* RW */
-               unsigned long   rh_aoerr0:1;                    /* RW */
-               unsigned long   lh0_aoerr0:1;                   /* RW */
-               unsigned long   lh1_aoerr0:1;                   /* RW */
-               unsigned long   gr0_aoerr0:1;                   /* RW */
-               unsigned long   gr1_aoerr0:1;                   /* RW */
-               unsigned long   xb_aoerr0:1;                    /* RW */
-               unsigned long   rtq0_aoerr0:1;                  /* RW */
-               unsigned long   rtq1_aoerr0:1;                  /* RW */
-               unsigned long   rtq2_aoerr0:1;                  /* RW */
-               unsigned long   rtq3_aoerr0:1;                  /* RW */
-               unsigned long   ni0_aoerr0:1;                   /* RW */
-               unsigned long   ni1_aoerr0:1;                   /* RW */
-               unsigned long   lb_aoerr1:1;                    /* RW */
-               unsigned long   kt_aoerr1:1;                    /* RW */
-               unsigned long   rh_aoerr1:1;                    /* RW */
-               unsigned long   lh0_aoerr1:1;                   /* RW */
-               unsigned long   lh1_aoerr1:1;                   /* RW */
-               unsigned long   gr0_aoerr1:1;                   /* RW */
-               unsigned long   gr1_aoerr1:1;                   /* RW */
-               unsigned long   xb_aoerr1:1;                    /* RW */
-               unsigned long   rtq0_aoerr1:1;                  /* RW */
-               unsigned long   rtq1_aoerr1:1;                  /* RW */
-               unsigned long   rtq2_aoerr1:1;                  /* RW */
-               unsigned long   rtq3_aoerr1:1;                  /* RW */
-               unsigned long   ni0_aoerr1:1;                   /* RW */
-               unsigned long   ni1_aoerr1:1;                   /* RW */
-               unsigned long   system_shutdown_int:1;          /* RW */
-               unsigned long   lb_irq_int_0:1;                 /* RW */
-               unsigned long   lb_irq_int_1:1;                 /* RW */
-               unsigned long   lb_irq_int_2:1;                 /* RW */
-               unsigned long   lb_irq_int_3:1;                 /* RW */
-               unsigned long   lb_irq_int_4:1;                 /* RW */
-               unsigned long   lb_irq_int_5:1;                 /* RW */
-               unsigned long   lb_irq_int_6:1;                 /* RW */
-               unsigned long   lb_irq_int_7:1;                 /* RW */
+/* UV2 unique defines */
+#define UV2H_EVENT_OCCURRED0_QP_HCERR_SHFT             1
+#define UV2H_EVENT_OCCURRED0_QP_HCERR_MASK             0x0000000000000002UL
+#define UV2H_EVENT_OCCURRED0_QP_AOERR0_SHFT            10
+#define UV2H_EVENT_OCCURRED0_QP_AOERR0_MASK            0x0000000000000400UL
+#define UV2H_EVENT_OCCURRED0_RT_AOERR0_SHFT            17
+#define UV2H_EVENT_OCCURRED0_RT_AOERR0_MASK            0x0000000000020000UL
+#define UV2H_EVENT_OCCURRED0_NI0_AOERR0_SHFT           18
+#define UV2H_EVENT_OCCURRED0_NI0_AOERR0_MASK           0x0000000000040000UL
+#define UV2H_EVENT_OCCURRED0_NI1_AOERR0_SHFT           19
+#define UV2H_EVENT_OCCURRED0_NI1_AOERR0_MASK           0x0000000000080000UL
+#define UV2H_EVENT_OCCURRED0_LB_AOERR1_SHFT            20
+#define UV2H_EVENT_OCCURRED0_LB_AOERR1_MASK            0x0000000000100000UL
+#define UV2H_EVENT_OCCURRED0_QP_AOERR1_SHFT            21
+#define UV2H_EVENT_OCCURRED0_QP_AOERR1_MASK            0x0000000000200000UL
+#define UV2H_EVENT_OCCURRED0_RH_AOERR1_SHFT            22
+#define UV2H_EVENT_OCCURRED0_RH_AOERR1_MASK            0x0000000000400000UL
+#define UV2H_EVENT_OCCURRED0_LH0_AOERR1_SHFT           23
+#define UV2H_EVENT_OCCURRED0_LH0_AOERR1_MASK           0x0000000000800000UL
+#define UV2H_EVENT_OCCURRED0_LH1_AOERR1_SHFT           24
+#define UV2H_EVENT_OCCURRED0_LH1_AOERR1_MASK           0x0000000001000000UL
+#define UV2H_EVENT_OCCURRED0_GR0_AOERR1_SHFT           25
+#define UV2H_EVENT_OCCURRED0_GR0_AOERR1_MASK           0x0000000002000000UL
+#define UV2H_EVENT_OCCURRED0_GR1_AOERR1_SHFT           26
+#define UV2H_EVENT_OCCURRED0_GR1_AOERR1_MASK           0x0000000004000000UL
+#define UV2H_EVENT_OCCURRED0_XB_AOERR1_SHFT            27
+#define UV2H_EVENT_OCCURRED0_XB_AOERR1_MASK            0x0000000008000000UL
+#define UV2H_EVENT_OCCURRED0_RT_AOERR1_SHFT            28
+#define UV2H_EVENT_OCCURRED0_RT_AOERR1_MASK            0x0000000010000000UL
+#define UV2H_EVENT_OCCURRED0_NI0_AOERR1_SHFT           29
+#define UV2H_EVENT_OCCURRED0_NI0_AOERR1_MASK           0x0000000020000000UL
+#define UV2H_EVENT_OCCURRED0_NI1_AOERR1_SHFT           30
+#define UV2H_EVENT_OCCURRED0_NI1_AOERR1_MASK           0x0000000040000000UL
+#define UV2H_EVENT_OCCURRED0_SYSTEM_SHUTDOWN_INT_SHFT  31
+#define UV2H_EVENT_OCCURRED0_SYSTEM_SHUTDOWN_INT_MASK  0x0000000080000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_0_SHFT         32
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_0_MASK         0x0000000100000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_1_SHFT         33
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_1_MASK         0x0000000200000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_2_SHFT         34
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_2_MASK         0x0000000400000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_3_SHFT         35
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_3_MASK         0x0000000800000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_4_SHFT         36
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_4_MASK         0x0000001000000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_5_SHFT         37
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_5_MASK         0x0000002000000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_6_SHFT         38
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_6_MASK         0x0000004000000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_7_SHFT         39
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_7_MASK         0x0000008000000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_8_SHFT         40
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_8_MASK         0x0000010000000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_9_SHFT         41
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_9_MASK         0x0000020000000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_10_SHFT                42
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_10_MASK                0x0000040000000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_11_SHFT                43
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_11_MASK                0x0000080000000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_12_SHFT                44
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_12_MASK                0x0000100000000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_13_SHFT                45
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_13_MASK                0x0000200000000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_14_SHFT                46
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_14_MASK                0x0000400000000000UL
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_15_SHFT                47
+#define UV2H_EVENT_OCCURRED0_LB_IRQ_INT_15_MASK                0x0000800000000000UL
+#define UV2H_EVENT_OCCURRED0_L1_NMI_INT_SHFT           48
+#define UV2H_EVENT_OCCURRED0_L1_NMI_INT_MASK           0x0001000000000000UL
+#define UV2H_EVENT_OCCURRED0_STOP_CLOCK_SHFT           49
+#define UV2H_EVENT_OCCURRED0_STOP_CLOCK_MASK           0x0002000000000000UL
+#define UV2H_EVENT_OCCURRED0_ASIC_TO_L1_SHFT           50
+#define UV2H_EVENT_OCCURRED0_ASIC_TO_L1_MASK           0x0004000000000000UL
+#define UV2H_EVENT_OCCURRED0_L1_TO_ASIC_SHFT           51
+#define UV2H_EVENT_OCCURRED0_L1_TO_ASIC_MASK           0x0008000000000000UL
+#define UV2H_EVENT_OCCURRED0_LA_SEQ_TRIGGER_SHFT       52
+#define UV2H_EVENT_OCCURRED0_LA_SEQ_TRIGGER_MASK       0x0010000000000000UL
+#define UV2H_EVENT_OCCURRED0_IPI_INT_SHFT              53
+#define UV2H_EVENT_OCCURRED0_IPI_INT_MASK              0x0020000000000000UL
+#define UV2H_EVENT_OCCURRED0_EXTIO_INT0_SHFT           54
+#define UV2H_EVENT_OCCURRED0_EXTIO_INT0_MASK           0x0040000000000000UL
+#define UV2H_EVENT_OCCURRED0_EXTIO_INT1_SHFT           55
+#define UV2H_EVENT_OCCURRED0_EXTIO_INT1_MASK           0x0080000000000000UL
+#define UV2H_EVENT_OCCURRED0_EXTIO_INT2_SHFT           56
+#define UV2H_EVENT_OCCURRED0_EXTIO_INT2_MASK           0x0100000000000000UL
+#define UV2H_EVENT_OCCURRED0_EXTIO_INT3_SHFT           57
+#define UV2H_EVENT_OCCURRED0_EXTIO_INT3_MASK           0x0200000000000000UL
+#define UV2H_EVENT_OCCURRED0_PROFILE_INT_SHFT          58
+#define UV2H_EVENT_OCCURRED0_PROFILE_INT_MASK          0x0400000000000000UL
+
+#define UVH_EVENT_OCCURRED0_EXTIO_INT0_MASK (                          \
+       is_uv(UV4) ? 0x1000000000000000UL :                             \
+       is_uv(UV3) ? 0x0040000000000000UL :                             \
+       is_uv(UV2) ? 0x0040000000000000UL :                             \
+       0)
+#define UVH_EVENT_OCCURRED0_EXTIO_INT0_SHFT (                          \
+       is_uv(UV4) ? 60 :                                               \
+       is_uv(UV3) ? 54 :                                               \
+       is_uv(UV2) ? 54 :                                               \
+       -1)
+
+union uvh_event_occurred0_u {
+       unsigned long   v;
+
+       /* UVH common struct */
+       struct uvh_event_occurred0_s {
+               unsigned long   lb_hcerr:1;                     /* RW */
+               unsigned long   rsvd_1_63:63;
+       } s;
+
+       /* UVXH common struct */
+       struct uvxh_event_occurred0_s {
+               unsigned long   lb_hcerr:1;                     /* RW */
+               unsigned long   rsvd_1:1;
+               unsigned long   rh_hcerr:1;                     /* RW */
+               unsigned long   lh0_hcerr:1;                    /* RW */
+               unsigned long   lh1_hcerr:1;                    /* RW */
+               unsigned long   gr0_hcerr:1;                    /* RW */
+               unsigned long   gr1_hcerr:1;                    /* RW */
+               unsigned long   ni0_hcerr:1;                    /* RW */
+               unsigned long   ni1_hcerr:1;                    /* RW */
+               unsigned long   lb_aoerr0:1;                    /* RW */
+               unsigned long   rsvd_10:1;
+               unsigned long   rh_aoerr0:1;                    /* RW */
+               unsigned long   lh0_aoerr0:1;                   /* RW */
+               unsigned long   lh1_aoerr0:1;                   /* RW */
+               unsigned long   gr0_aoerr0:1;                   /* RW */
+               unsigned long   gr1_aoerr0:1;                   /* RW */
+               unsigned long   xb_aoerr0:1;                    /* RW */
+               unsigned long   rsvd_17_63:47;
+       } sx;
+
+       /* UVYH common struct */
+       struct uvyh_event_occurred0_s {
+               unsigned long   lb_hcerr:1;                     /* RW */
+               unsigned long   kt_hcerr:1;                     /* RW */
+               unsigned long   rh0_hcerr:1;                    /* RW */
+               unsigned long   rh1_hcerr:1;                    /* RW */
+               unsigned long   lh0_hcerr:1;                    /* RW */
+               unsigned long   lh1_hcerr:1;                    /* RW */
+               unsigned long   lh2_hcerr:1;                    /* RW */
+               unsigned long   lh3_hcerr:1;                    /* RW */
+               unsigned long   xb_hcerr:1;                     /* RW */
+               unsigned long   rdm_hcerr:1;                    /* RW */
+               unsigned long   ni0_hcerr:1;                    /* RW */
+               unsigned long   ni1_hcerr:1;                    /* RW */
+               unsigned long   lb_aoerr0:1;                    /* RW */
+               unsigned long   kt_aoerr0:1;                    /* RW */
+               unsigned long   rh0_aoerr0:1;                   /* RW */
+               unsigned long   rh1_aoerr0:1;                   /* RW */
+               unsigned long   lh0_aoerr0:1;                   /* RW */
+               unsigned long   lh1_aoerr0:1;                   /* RW */
+               unsigned long   lh2_aoerr0:1;                   /* RW */
+               unsigned long   lh3_aoerr0:1;                   /* RW */
+               unsigned long   xb_aoerr0:1;                    /* RW */
+               unsigned long   rdm_aoerr0:1;                   /* RW */
+               unsigned long   rt0_aoerr0:1;                   /* RW */
+               unsigned long   rt1_aoerr0:1;                   /* RW */
+               unsigned long   ni0_aoerr0:1;                   /* RW */
+               unsigned long   ni1_aoerr0:1;                   /* RW */
+               unsigned long   lb_aoerr1:1;                    /* RW */
+               unsigned long   kt_aoerr1:1;                    /* RW */
+               unsigned long   rh0_aoerr1:1;                   /* RW */
+               unsigned long   rh1_aoerr1:1;                   /* RW */
+               unsigned long   lh0_aoerr1:1;                   /* RW */
+               unsigned long   lh1_aoerr1:1;                   /* RW */
+               unsigned long   lh2_aoerr1:1;                   /* RW */
+               unsigned long   lh3_aoerr1:1;                   /* RW */
+               unsigned long   xb_aoerr1:1;                    /* RW */
+               unsigned long   rdm_aoerr1:1;                   /* RW */
+               unsigned long   rt0_aoerr1:1;                   /* RW */
+               unsigned long   rt1_aoerr1:1;                   /* RW */
+               unsigned long   ni0_aoerr1:1;                   /* RW */
+               unsigned long   ni1_aoerr1:1;                   /* RW */
+               unsigned long   system_shutdown_int:1;          /* RW */
+               unsigned long   lb_irq_int_0:1;                 /* RW */
+               unsigned long   lb_irq_int_1:1;                 /* RW */
+               unsigned long   lb_irq_int_2:1;                 /* RW */
+               unsigned long   lb_irq_int_3:1;                 /* RW */
+               unsigned long   lb_irq_int_4:1;                 /* RW */
+               unsigned long   lb_irq_int_5:1;                 /* RW */
+               unsigned long   lb_irq_int_6:1;                 /* RW */
+               unsigned long   lb_irq_int_7:1;                 /* RW */
+               unsigned long   lb_irq_int_8:1;                 /* RW */
+               unsigned long   lb_irq_int_9:1;                 /* RW */
+               unsigned long   lb_irq_int_10:1;                /* RW */
+               unsigned long   lb_irq_int_11:1;                /* RW */
+               unsigned long   lb_irq_int_12:1;                /* RW */
+               unsigned long   lb_irq_int_13:1;                /* RW */
+               unsigned long   lb_irq_int_14:1;                /* RW */
+               unsigned long   lb_irq_int_15:1;                /* RW */
+               unsigned long   l1_nmi_int:1;                   /* RW */
+               unsigned long   stop_clock:1;                   /* RW */
+               unsigned long   asic_to_l1:1;                   /* RW */
+               unsigned long   l1_to_asic:1;                   /* RW */
+               unsigned long   la_seq_trigger:1;               /* RW */
+               unsigned long   rsvd_62_63:2;
+       } sy;
+
+       /* UV5 unique struct */
+       struct uv5h_event_occurred0_s {
+               unsigned long   lb_hcerr:1;                     /* RW */
+               unsigned long   kt_hcerr:1;                     /* RW */
+               unsigned long   rh0_hcerr:1;                    /* RW */
+               unsigned long   rh1_hcerr:1;                    /* RW */
+               unsigned long   lh0_hcerr:1;                    /* RW */
+               unsigned long   lh1_hcerr:1;                    /* RW */
+               unsigned long   lh2_hcerr:1;                    /* RW */
+               unsigned long   lh3_hcerr:1;                    /* RW */
+               unsigned long   xb_hcerr:1;                     /* RW */
+               unsigned long   rdm_hcerr:1;                    /* RW */
+               unsigned long   ni0_hcerr:1;                    /* RW */
+               unsigned long   ni1_hcerr:1;                    /* RW */
+               unsigned long   lb_aoerr0:1;                    /* RW */
+               unsigned long   kt_aoerr0:1;                    /* RW */
+               unsigned long   rh0_aoerr0:1;                   /* RW */
+               unsigned long   rh1_aoerr0:1;                   /* RW */
+               unsigned long   lh0_aoerr0:1;                   /* RW */
+               unsigned long   lh1_aoerr0:1;                   /* RW */
+               unsigned long   lh2_aoerr0:1;                   /* RW */
+               unsigned long   lh3_aoerr0:1;                   /* RW */
+               unsigned long   xb_aoerr0:1;                    /* RW */
+               unsigned long   rdm_aoerr0:1;                   /* RW */
+               unsigned long   rt0_aoerr0:1;                   /* RW */
+               unsigned long   rt1_aoerr0:1;                   /* RW */
+               unsigned long   ni0_aoerr0:1;                   /* RW */
+               unsigned long   ni1_aoerr0:1;                   /* RW */
+               unsigned long   lb_aoerr1:1;                    /* RW */
+               unsigned long   kt_aoerr1:1;                    /* RW */
+               unsigned long   rh0_aoerr1:1;                   /* RW */
+               unsigned long   rh1_aoerr1:1;                   /* RW */
+               unsigned long   lh0_aoerr1:1;                   /* RW */
+               unsigned long   lh1_aoerr1:1;                   /* RW */
+               unsigned long   lh2_aoerr1:1;                   /* RW */
+               unsigned long   lh3_aoerr1:1;                   /* RW */
+               unsigned long   xb_aoerr1:1;                    /* RW */
+               unsigned long   rdm_aoerr1:1;                   /* RW */
+               unsigned long   rt0_aoerr1:1;                   /* RW */
+               unsigned long   rt1_aoerr1:1;                   /* RW */
+               unsigned long   ni0_aoerr1:1;                   /* RW */
+               unsigned long   ni1_aoerr1:1;                   /* RW */
+               unsigned long   system_shutdown_int:1;          /* RW */
+               unsigned long   lb_irq_int_0:1;                 /* RW */
+               unsigned long   lb_irq_int_1:1;                 /* RW */
+               unsigned long   lb_irq_int_2:1;                 /* RW */
+               unsigned long   lb_irq_int_3:1;                 /* RW */
+               unsigned long   lb_irq_int_4:1;                 /* RW */
+               unsigned long   lb_irq_int_5:1;                 /* RW */
+               unsigned long   lb_irq_int_6:1;                 /* RW */
+               unsigned long   lb_irq_int_7:1;                 /* RW */
+               unsigned long   lb_irq_int_8:1;                 /* RW */
+               unsigned long   lb_irq_int_9:1;                 /* RW */
+               unsigned long   lb_irq_int_10:1;                /* RW */
+               unsigned long   lb_irq_int_11:1;                /* RW */
+               unsigned long   lb_irq_int_12:1;                /* RW */
+               unsigned long   lb_irq_int_13:1;                /* RW */
+               unsigned long   lb_irq_int_14:1;                /* RW */
+               unsigned long   lb_irq_int_15:1;                /* RW */
+               unsigned long   l1_nmi_int:1;                   /* RW */
+               unsigned long   stop_clock:1;                   /* RW */
+               unsigned long   asic_to_l1:1;                   /* RW */
+               unsigned long   l1_to_asic:1;                   /* RW */
+               unsigned long   la_seq_trigger:1;               /* RW */
+               unsigned long   rsvd_62_63:2;
+       } s5;
+
+       /* UV4 unique struct */
+       struct uv4h_event_occurred0_s {
+               unsigned long   lb_hcerr:1;                     /* RW */
+               unsigned long   kt_hcerr:1;                     /* RW */
+               unsigned long   rh_hcerr:1;                     /* RW */
+               unsigned long   lh0_hcerr:1;                    /* RW */
+               unsigned long   lh1_hcerr:1;                    /* RW */
+               unsigned long   gr0_hcerr:1;                    /* RW */
+               unsigned long   gr1_hcerr:1;                    /* RW */
+               unsigned long   ni0_hcerr:1;                    /* RW */
+               unsigned long   ni1_hcerr:1;                    /* RW */
+               unsigned long   lb_aoerr0:1;                    /* RW */
+               unsigned long   kt_aoerr0:1;                    /* RW */
+               unsigned long   rh_aoerr0:1;                    /* RW */
+               unsigned long   lh0_aoerr0:1;                   /* RW */
+               unsigned long   lh1_aoerr0:1;                   /* RW */
+               unsigned long   gr0_aoerr0:1;                   /* RW */
+               unsigned long   gr1_aoerr0:1;                   /* RW */
+               unsigned long   xb_aoerr0:1;                    /* RW */
+               unsigned long   rtq0_aoerr0:1;                  /* RW */
+               unsigned long   rtq1_aoerr0:1;                  /* RW */
+               unsigned long   rtq2_aoerr0:1;                  /* RW */
+               unsigned long   rtq3_aoerr0:1;                  /* RW */
+               unsigned long   ni0_aoerr0:1;                   /* RW */
+               unsigned long   ni1_aoerr0:1;                   /* RW */
+               unsigned long   lb_aoerr1:1;                    /* RW */
+               unsigned long   kt_aoerr1:1;                    /* RW */
+               unsigned long   rh_aoerr1:1;                    /* RW */
+               unsigned long   lh0_aoerr1:1;                   /* RW */
+               unsigned long   lh1_aoerr1:1;                   /* RW */
+               unsigned long   gr0_aoerr1:1;                   /* RW */
+               unsigned long   gr1_aoerr1:1;                   /* RW */
+               unsigned long   xb_aoerr1:1;                    /* RW */
+               unsigned long   rtq0_aoerr1:1;                  /* RW */
+               unsigned long   rtq1_aoerr1:1;                  /* RW */
+               unsigned long   rtq2_aoerr1:1;                  /* RW */
+               unsigned long   rtq3_aoerr1:1;                  /* RW */
+               unsigned long   ni0_aoerr1:1;                   /* RW */
+               unsigned long   ni1_aoerr1:1;                   /* RW */
+               unsigned long   system_shutdown_int:1;          /* RW */
+               unsigned long   lb_irq_int_0:1;                 /* RW */
+               unsigned long   lb_irq_int_1:1;                 /* RW */
+               unsigned long   lb_irq_int_2:1;                 /* RW */
+               unsigned long   lb_irq_int_3:1;                 /* RW */
+               unsigned long   lb_irq_int_4:1;                 /* RW */
+               unsigned long   lb_irq_int_5:1;                 /* RW */
+               unsigned long   lb_irq_int_6:1;                 /* RW */
+               unsigned long   lb_irq_int_7:1;                 /* RW */
                unsigned long   lb_irq_int_8:1;                 /* RW */
                unsigned long   lb_irq_int_9:1;                 /* RW */
                unsigned long   lb_irq_int_10:1;                /* RW */
@@ -571,538 +779,1650 @@ union uvh_event_occurred0_u {
                unsigned long   extio_int2:1;                   /* RW */
                unsigned long   extio_int3:1;                   /* RW */
        } s4;
-};
-
-/* ========================================================================= */
-/*                        UVH_EVENT_OCCURRED0_ALIAS                          */
-/* ========================================================================= */
-#define UVH_EVENT_OCCURRED0_ALIAS 0x70008UL
-#define UVH_EVENT_OCCURRED0_ALIAS_32 0x5f0
-
-
-/* ========================================================================= */
-/*                         UVH_EXTIO_INT0_BROADCAST                          */
-/* ========================================================================= */
-#define UVH_EXTIO_INT0_BROADCAST 0x61448UL
-
-#define UV2H_EXTIO_INT0_BROADCAST_32 0x3f0
-#define UV3H_EXTIO_INT0_BROADCAST_32 0x3f0
-#define UV4H_EXTIO_INT0_BROADCAST_32 0x310
-#define UVH_EXTIO_INT0_BROADCAST_32 (                                  \
-       is_uv2_hub() ? UV2H_EXTIO_INT0_BROADCAST_32 :                   \
-       is_uv3_hub() ? UV3H_EXTIO_INT0_BROADCAST_32 :                   \
-       /*is_uv4_hub*/ UV4H_EXTIO_INT0_BROADCAST_32)
-
-#define UVH_EXTIO_INT0_BROADCAST_ENABLE_SHFT           0
-#define UVH_EXTIO_INT0_BROADCAST_ENABLE_MASK           0x0000000000000001UL
 
+       /* UV3 unique struct */
+       struct uv3h_event_occurred0_s {
+               unsigned long   lb_hcerr:1;                     /* RW */
+               unsigned long   qp_hcerr:1;                     /* RW */
+               unsigned long   rh_hcerr:1;                     /* RW */
+               unsigned long   lh0_hcerr:1;                    /* RW */
+               unsigned long   lh1_hcerr:1;                    /* RW */
+               unsigned long   gr0_hcerr:1;                    /* RW */
+               unsigned long   gr1_hcerr:1;                    /* RW */
+               unsigned long   ni0_hcerr:1;                    /* RW */
+               unsigned long   ni1_hcerr:1;                    /* RW */
+               unsigned long   lb_aoerr0:1;                    /* RW */
+               unsigned long   qp_aoerr0:1;                    /* RW */
+               unsigned long   rh_aoerr0:1;                    /* RW */
+               unsigned long   lh0_aoerr0:1;                   /* RW */
+               unsigned long   lh1_aoerr0:1;                   /* RW */
+               unsigned long   gr0_aoerr0:1;                   /* RW */
+               unsigned long   gr1_aoerr0:1;                   /* RW */
+               unsigned long   xb_aoerr0:1;                    /* RW */
+               unsigned long   rt_aoerr0:1;                    /* RW */
+               unsigned long   ni0_aoerr0:1;                   /* RW */
+               unsigned long   ni1_aoerr0:1;                   /* RW */
+               unsigned long   lb_aoerr1:1;                    /* RW */
+               unsigned long   qp_aoerr1:1;                    /* RW */
+               unsigned long   rh_aoerr1:1;                    /* RW */
+               unsigned long   lh0_aoerr1:1;                   /* RW */
+               unsigned long   lh1_aoerr1:1;                   /* RW */
+               unsigned long   gr0_aoerr1:1;                   /* RW */
+               unsigned long   gr1_aoerr1:1;                   /* RW */
+               unsigned long   xb_aoerr1:1;                    /* RW */
+               unsigned long   rt_aoerr1:1;                    /* RW */
+               unsigned long   ni0_aoerr1:1;                   /* RW */
+               unsigned long   ni1_aoerr1:1;                   /* RW */
+               unsigned long   system_shutdown_int:1;          /* RW */
+               unsigned long   lb_irq_int_0:1;                 /* RW */
+               unsigned long   lb_irq_int_1:1;                 /* RW */
+               unsigned long   lb_irq_int_2:1;                 /* RW */
+               unsigned long   lb_irq_int_3:1;                 /* RW */
+               unsigned long   lb_irq_int_4:1;                 /* RW */
+               unsigned long   lb_irq_int_5:1;                 /* RW */
+               unsigned long   lb_irq_int_6:1;                 /* RW */
+               unsigned long   lb_irq_int_7:1;                 /* RW */
+               unsigned long   lb_irq_int_8:1;                 /* RW */
+               unsigned long   lb_irq_int_9:1;                 /* RW */
+               unsigned long   lb_irq_int_10:1;                /* RW */
+               unsigned long   lb_irq_int_11:1;                /* RW */
+               unsigned long   lb_irq_int_12:1;                /* RW */
+               unsigned long   lb_irq_int_13:1;                /* RW */
+               unsigned long   lb_irq_int_14:1;                /* RW */
+               unsigned long   lb_irq_int_15:1;                /* RW */
+               unsigned long   l1_nmi_int:1;                   /* RW */
+               unsigned long   stop_clock:1;                   /* RW */
+               unsigned long   asic_to_l1:1;                   /* RW */
+               unsigned long   l1_to_asic:1;                   /* RW */
+               unsigned long   la_seq_trigger:1;               /* RW */
+               unsigned long   ipi_int:1;                      /* RW */
+               unsigned long   extio_int0:1;                   /* RW */
+               unsigned long   extio_int1:1;                   /* RW */
+               unsigned long   extio_int2:1;                   /* RW */
+               unsigned long   extio_int3:1;                   /* RW */
+               unsigned long   profile_int:1;                  /* RW */
+               unsigned long   rsvd_59_63:5;
+       } s3;
 
-union uvh_extio_int0_broadcast_u {
-       unsigned long   v;
-       struct uvh_extio_int0_broadcast_s {
-               unsigned long   enable:1;                       /* RW */
-               unsigned long   rsvd_1_63:63;
-       } s;
+       /* UV2 unique struct */
+       struct uv2h_event_occurred0_s {
+               unsigned long   lb_hcerr:1;                     /* RW */
+               unsigned long   qp_hcerr:1;                     /* RW */
+               unsigned long   rh_hcerr:1;                     /* RW */
+               unsigned long   lh0_hcerr:1;                    /* RW */
+               unsigned long   lh1_hcerr:1;                    /* RW */
+               unsigned long   gr0_hcerr:1;                    /* RW */
+               unsigned long   gr1_hcerr:1;                    /* RW */
+               unsigned long   ni0_hcerr:1;                    /* RW */
+               unsigned long   ni1_hcerr:1;                    /* RW */
+               unsigned long   lb_aoerr0:1;                    /* RW */
+               unsigned long   qp_aoerr0:1;                    /* RW */
+               unsigned long   rh_aoerr0:1;                    /* RW */
+               unsigned long   lh0_aoerr0:1;                   /* RW */
+               unsigned long   lh1_aoerr0:1;                   /* RW */
+               unsigned long   gr0_aoerr0:1;                   /* RW */
+               unsigned long   gr1_aoerr0:1;                   /* RW */
+               unsigned long   xb_aoerr0:1;                    /* RW */
+               unsigned long   rt_aoerr0:1;                    /* RW */
+               unsigned long   ni0_aoerr0:1;                   /* RW */
+               unsigned long   ni1_aoerr0:1;                   /* RW */
+               unsigned long   lb_aoerr1:1;                    /* RW */
+               unsigned long   qp_aoerr1:1;                    /* RW */
+               unsigned long   rh_aoerr1:1;                    /* RW */
+               unsigned long   lh0_aoerr1:1;                   /* RW */
+               unsigned long   lh1_aoerr1:1;                   /* RW */
+               unsigned long   gr0_aoerr1:1;                   /* RW */
+               unsigned long   gr1_aoerr1:1;                   /* RW */
+               unsigned long   xb_aoerr1:1;                    /* RW */
+               unsigned long   rt_aoerr1:1;                    /* RW */
+               unsigned long   ni0_aoerr1:1;                   /* RW */
+               unsigned long   ni1_aoerr1:1;                   /* RW */
+               unsigned long   system_shutdown_int:1;          /* RW */
+               unsigned long   lb_irq_int_0:1;                 /* RW */
+               unsigned long   lb_irq_int_1:1;                 /* RW */
+               unsigned long   lb_irq_int_2:1;                 /* RW */
+               unsigned long   lb_irq_int_3:1;                 /* RW */
+               unsigned long   lb_irq_int_4:1;                 /* RW */
+               unsigned long   lb_irq_int_5:1;                 /* RW */
+               unsigned long   lb_irq_int_6:1;                 /* RW */
+               unsigned long   lb_irq_int_7:1;                 /* RW */
+               unsigned long   lb_irq_int_8:1;                 /* RW */
+               unsigned long   lb_irq_int_9:1;                 /* RW */
+               unsigned long   lb_irq_int_10:1;                /* RW */
+               unsigned long   lb_irq_int_11:1;                /* RW */
+               unsigned long   lb_irq_int_12:1;                /* RW */
+               unsigned long   lb_irq_int_13:1;                /* RW */
+               unsigned long   lb_irq_int_14:1;                /* RW */
+               unsigned long   lb_irq_int_15:1;                /* RW */
+               unsigned long   l1_nmi_int:1;                   /* RW */
+               unsigned long   stop_clock:1;                   /* RW */
+               unsigned long   asic_to_l1:1;                   /* RW */
+               unsigned long   l1_to_asic:1;                   /* RW */
+               unsigned long   la_seq_trigger:1;               /* RW */
+               unsigned long   ipi_int:1;                      /* RW */
+               unsigned long   extio_int0:1;                   /* RW */
+               unsigned long   extio_int1:1;                   /* RW */
+               unsigned long   extio_int2:1;                   /* RW */
+               unsigned long   extio_int3:1;                   /* RW */
+               unsigned long   profile_int:1;                  /* RW */
+               unsigned long   rsvd_59_63:5;
+       } s2;
 };
 
 /* ========================================================================= */
-/*                         UVH_GR0_TLB_INT0_CONFIG                           */
+/*                        UVH_EVENT_OCCURRED0_ALIAS                          */
 /* ========================================================================= */
-#define UVH_GR0_TLB_INT0_CONFIG 0x61b00UL
-
-#define UVH_GR0_TLB_INT0_CONFIG_VECTOR_SHFT            0
-#define UVH_GR0_TLB_INT0_CONFIG_DM_SHFT                        8
-#define UVH_GR0_TLB_INT0_CONFIG_DESTMODE_SHFT          11
-#define UVH_GR0_TLB_INT0_CONFIG_STATUS_SHFT            12
-#define UVH_GR0_TLB_INT0_CONFIG_P_SHFT                 13
-#define UVH_GR0_TLB_INT0_CONFIG_T_SHFT                 15
-#define UVH_GR0_TLB_INT0_CONFIG_M_SHFT                 16
-#define UVH_GR0_TLB_INT0_CONFIG_APIC_ID_SHFT           32
-#define UVH_GR0_TLB_INT0_CONFIG_VECTOR_MASK            0x00000000000000ffUL
-#define UVH_GR0_TLB_INT0_CONFIG_DM_MASK                        0x0000000000000700UL
-#define UVH_GR0_TLB_INT0_CONFIG_DESTMODE_MASK          0x0000000000000800UL
-#define UVH_GR0_TLB_INT0_CONFIG_STATUS_MASK            0x0000000000001000UL
-#define UVH_GR0_TLB_INT0_CONFIG_P_MASK                 0x0000000000002000UL
-#define UVH_GR0_TLB_INT0_CONFIG_T_MASK                 0x0000000000008000UL
-#define UVH_GR0_TLB_INT0_CONFIG_M_MASK                 0x0000000000010000UL
-#define UVH_GR0_TLB_INT0_CONFIG_APIC_ID_MASK           0xffffffff00000000UL
-
+#define UVH_EVENT_OCCURRED0_ALIAS 0x70008UL
 
-union uvh_gr0_tlb_int0_config_u {
-       unsigned long   v;
-       struct uvh_gr0_tlb_int0_config_s {
-               unsigned long   vector_:8;                      /* RW */
-               unsigned long   dm:3;                           /* RW */
-               unsigned long   destmode:1;                     /* RW */
-               unsigned long   status:1;                       /* RO */
-               unsigned long   p:1;                            /* RO */
-               unsigned long   rsvd_14:1;
-               unsigned long   t:1;                            /* RO */
-               unsigned long   m:1;                            /* RW */
-               unsigned long   rsvd_17_31:15;
-               unsigned long   apic_id:32;                     /* RW */
-       } s;
-};
 
 /* ========================================================================= */
-/*                         UVH_GR0_TLB_INT1_CONFIG                           */
+/*                           UVH_EVENT_OCCURRED1                             */
 /* ========================================================================= */
-#define UVH_GR0_TLB_INT1_CONFIG 0x61b40UL
-
-#define UVH_GR0_TLB_INT1_CONFIG_VECTOR_SHFT            0
-#define UVH_GR0_TLB_INT1_CONFIG_DM_SHFT                        8
-#define UVH_GR0_TLB_INT1_CONFIG_DESTMODE_SHFT          11
-#define UVH_GR0_TLB_INT1_CONFIG_STATUS_SHFT            12
-#define UVH_GR0_TLB_INT1_CONFIG_P_SHFT                 13
-#define UVH_GR0_TLB_INT1_CONFIG_T_SHFT                 15
-#define UVH_GR0_TLB_INT1_CONFIG_M_SHFT                 16
-#define UVH_GR0_TLB_INT1_CONFIG_APIC_ID_SHFT           32
-#define UVH_GR0_TLB_INT1_CONFIG_VECTOR_MASK            0x00000000000000ffUL
-#define UVH_GR0_TLB_INT1_CONFIG_DM_MASK                        0x0000000000000700UL
-#define UVH_GR0_TLB_INT1_CONFIG_DESTMODE_MASK          0x0000000000000800UL
-#define UVH_GR0_TLB_INT1_CONFIG_STATUS_MASK            0x0000000000001000UL
-#define UVH_GR0_TLB_INT1_CONFIG_P_MASK                 0x0000000000002000UL
-#define UVH_GR0_TLB_INT1_CONFIG_T_MASK                 0x0000000000008000UL
-#define UVH_GR0_TLB_INT1_CONFIG_M_MASK                 0x0000000000010000UL
-#define UVH_GR0_TLB_INT1_CONFIG_APIC_ID_MASK           0xffffffff00000000UL
-
-
-union uvh_gr0_tlb_int1_config_u {
+#define UVH_EVENT_OCCURRED1 0x70080UL
+
+
+
+/* UVYH common defines */
+#define UVYH_EVENT_OCCURRED1_IPI_INT_SHFT              0
+#define UVYH_EVENT_OCCURRED1_IPI_INT_MASK              0x0000000000000001UL
+#define UVYH_EVENT_OCCURRED1_EXTIO_INT0_SHFT           1
+#define UVYH_EVENT_OCCURRED1_EXTIO_INT0_MASK           0x0000000000000002UL
+#define UVYH_EVENT_OCCURRED1_EXTIO_INT1_SHFT           2
+#define UVYH_EVENT_OCCURRED1_EXTIO_INT1_MASK           0x0000000000000004UL
+#define UVYH_EVENT_OCCURRED1_EXTIO_INT2_SHFT           3
+#define UVYH_EVENT_OCCURRED1_EXTIO_INT2_MASK           0x0000000000000008UL
+#define UVYH_EVENT_OCCURRED1_EXTIO_INT3_SHFT           4
+#define UVYH_EVENT_OCCURRED1_EXTIO_INT3_MASK           0x0000000000000010UL
+#define UVYH_EVENT_OCCURRED1_PROFILE_INT_SHFT          5
+#define UVYH_EVENT_OCCURRED1_PROFILE_INT_MASK          0x0000000000000020UL
+#define UVYH_EVENT_OCCURRED1_BAU_DATA_SHFT             6
+#define UVYH_EVENT_OCCURRED1_BAU_DATA_MASK             0x0000000000000040UL
+#define UVYH_EVENT_OCCURRED1_PROC_GENERAL_SHFT         7
+#define UVYH_EVENT_OCCURRED1_PROC_GENERAL_MASK         0x0000000000000080UL
+#define UVYH_EVENT_OCCURRED1_XH_TLB_INT0_SHFT          8
+#define UVYH_EVENT_OCCURRED1_XH_TLB_INT0_MASK          0x0000000000000100UL
+#define UVYH_EVENT_OCCURRED1_XH_TLB_INT1_SHFT          9
+#define UVYH_EVENT_OCCURRED1_XH_TLB_INT1_MASK          0x0000000000000200UL
+#define UVYH_EVENT_OCCURRED1_XH_TLB_INT2_SHFT          10
+#define UVYH_EVENT_OCCURRED1_XH_TLB_INT2_MASK          0x0000000000000400UL
+#define UVYH_EVENT_OCCURRED1_XH_TLB_INT3_SHFT          11
+#define UVYH_EVENT_OCCURRED1_XH_TLB_INT3_MASK          0x0000000000000800UL
+#define UVYH_EVENT_OCCURRED1_XH_TLB_INT4_SHFT          12
+#define UVYH_EVENT_OCCURRED1_XH_TLB_INT4_MASK          0x0000000000001000UL
+#define UVYH_EVENT_OCCURRED1_XH_TLB_INT5_SHFT          13
+#define UVYH_EVENT_OCCURRED1_XH_TLB_INT5_MASK          0x0000000000002000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT0_SHFT         14
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT0_MASK         0x0000000000004000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT1_SHFT         15
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT1_MASK         0x0000000000008000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT2_SHFT         16
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT2_MASK         0x0000000000010000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT3_SHFT         17
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT3_MASK         0x0000000000020000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT4_SHFT         18
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT4_MASK         0x0000000000040000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT5_SHFT         19
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT5_MASK         0x0000000000080000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT6_SHFT         20
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT6_MASK         0x0000000000100000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT7_SHFT         21
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT7_MASK         0x0000000000200000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT8_SHFT         22
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT8_MASK         0x0000000000400000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT9_SHFT         23
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT9_MASK         0x0000000000800000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT10_SHFT                24
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT10_MASK                0x0000000001000000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT11_SHFT                25
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT11_MASK                0x0000000002000000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT12_SHFT                26
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT12_MASK                0x0000000004000000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT13_SHFT                27
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT13_MASK                0x0000000008000000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT14_SHFT                28
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT14_MASK                0x0000000010000000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT15_SHFT                29
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT15_MASK                0x0000000020000000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT16_SHFT                30
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT16_MASK                0x0000000040000000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT17_SHFT                31
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT17_MASK                0x0000000080000000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT18_SHFT                32
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT18_MASK                0x0000000100000000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT19_SHFT                33
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT19_MASK                0x0000000200000000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT20_SHFT                34
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT20_MASK                0x0000000400000000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT21_SHFT                35
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT21_MASK                0x0000000800000000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT22_SHFT                36
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT22_MASK                0x0000001000000000UL
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT23_SHFT                37
+#define UVYH_EVENT_OCCURRED1_RDM_TLB_INT23_MASK                0x0000002000000000UL
+
+/* UV4 unique defines */
+#define UV4H_EVENT_OCCURRED1_PROFILE_INT_SHFT          0
+#define UV4H_EVENT_OCCURRED1_PROFILE_INT_MASK          0x0000000000000001UL
+#define UV4H_EVENT_OCCURRED1_BAU_DATA_SHFT             1
+#define UV4H_EVENT_OCCURRED1_BAU_DATA_MASK             0x0000000000000002UL
+#define UV4H_EVENT_OCCURRED1_PROC_GENERAL_SHFT         2
+#define UV4H_EVENT_OCCURRED1_PROC_GENERAL_MASK         0x0000000000000004UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT0_SHFT         3
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT0_MASK         0x0000000000000008UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT1_SHFT         4
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT1_MASK         0x0000000000000010UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT2_SHFT         5
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT2_MASK         0x0000000000000020UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT3_SHFT         6
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT3_MASK         0x0000000000000040UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT4_SHFT         7
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT4_MASK         0x0000000000000080UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT5_SHFT         8
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT5_MASK         0x0000000000000100UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT6_SHFT         9
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT6_MASK         0x0000000000000200UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT7_SHFT         10
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT7_MASK         0x0000000000000400UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT8_SHFT         11
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT8_MASK         0x0000000000000800UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT9_SHFT         12
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT9_MASK         0x0000000000001000UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT10_SHFT                13
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT10_MASK                0x0000000000002000UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT11_SHFT                14
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT11_MASK                0x0000000000004000UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT12_SHFT                15
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT12_MASK                0x0000000000008000UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT13_SHFT                16
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT13_MASK                0x0000000000010000UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT14_SHFT                17
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT14_MASK                0x0000000000020000UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT15_SHFT                18
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT15_MASK                0x0000000000040000UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT16_SHFT                19
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT16_MASK                0x0000000000080000UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT17_SHFT                20
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT17_MASK                0x0000000000100000UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT18_SHFT                21
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT18_MASK                0x0000000000200000UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT19_SHFT                22
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT19_MASK                0x0000000000400000UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT20_SHFT                23
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT20_MASK                0x0000000000800000UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT21_SHFT                24
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT21_MASK                0x0000000001000000UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT22_SHFT                25
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT22_MASK                0x0000000002000000UL
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT23_SHFT                26
+#define UV4H_EVENT_OCCURRED1_GR0_TLB_INT23_MASK                0x0000000004000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT0_SHFT         27
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT0_MASK         0x0000000008000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT1_SHFT         28
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT1_MASK         0x0000000010000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT2_SHFT         29
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT2_MASK         0x0000000020000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT3_SHFT         30
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT3_MASK         0x0000000040000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT4_SHFT         31
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT4_MASK         0x0000000080000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT5_SHFT         32
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT5_MASK         0x0000000100000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT6_SHFT         33
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT6_MASK         0x0000000200000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT7_SHFT         34
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT7_MASK         0x0000000400000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT8_SHFT         35
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT8_MASK         0x0000000800000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT9_SHFT         36
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT9_MASK         0x0000001000000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT10_SHFT                37
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT10_MASK                0x0000002000000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT11_SHFT                38
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT11_MASK                0x0000004000000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT12_SHFT                39
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT12_MASK                0x0000008000000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT13_SHFT                40
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT13_MASK                0x0000010000000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT14_SHFT                41
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT14_MASK                0x0000020000000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT15_SHFT                42
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT15_MASK                0x0000040000000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT16_SHFT                43
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT16_MASK                0x0000080000000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT17_SHFT                44
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT17_MASK                0x0000100000000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT18_SHFT                45
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT18_MASK                0x0000200000000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT19_SHFT                46
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT19_MASK                0x0000400000000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT20_SHFT                47
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT20_MASK                0x0000800000000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT21_SHFT                48
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT21_MASK                0x0001000000000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT22_SHFT                49
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT22_MASK                0x0002000000000000UL
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT23_SHFT                50
+#define UV4H_EVENT_OCCURRED1_GR1_TLB_INT23_MASK                0x0004000000000000UL
+
+/* UV3 unique defines */
+#define UV3H_EVENT_OCCURRED1_BAU_DATA_SHFT             0
+#define UV3H_EVENT_OCCURRED1_BAU_DATA_MASK             0x0000000000000001UL
+#define UV3H_EVENT_OCCURRED1_POWER_MANAGEMENT_REQ_SHFT 1
+#define UV3H_EVENT_OCCURRED1_POWER_MANAGEMENT_REQ_MASK 0x0000000000000002UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT0_SHFT 2
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT0_MASK 0x0000000000000004UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT1_SHFT 3
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT1_MASK 0x0000000000000008UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT2_SHFT 4
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT2_MASK 0x0000000000000010UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT3_SHFT 5
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT3_MASK 0x0000000000000020UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT4_SHFT 6
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT4_MASK 0x0000000000000040UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT5_SHFT 7
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT5_MASK 0x0000000000000080UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT6_SHFT 8
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT6_MASK 0x0000000000000100UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT7_SHFT 9
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT7_MASK 0x0000000000000200UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT8_SHFT 10
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT8_MASK 0x0000000000000400UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT9_SHFT 11
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT9_MASK 0x0000000000000800UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT10_SHFT 12
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT10_MASK 0x0000000000001000UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT11_SHFT 13
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT11_MASK 0x0000000000002000UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT12_SHFT 14
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT12_MASK 0x0000000000004000UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT13_SHFT 15
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT13_MASK 0x0000000000008000UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT14_SHFT 16
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT14_MASK 0x0000000000010000UL
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT15_SHFT 17
+#define UV3H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT15_MASK 0x0000000000020000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT0_SHFT         18
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT0_MASK         0x0000000000040000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT1_SHFT         19
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT1_MASK         0x0000000000080000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT2_SHFT         20
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT2_MASK         0x0000000000100000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT3_SHFT         21
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT3_MASK         0x0000000000200000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT4_SHFT         22
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT4_MASK         0x0000000000400000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT5_SHFT         23
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT5_MASK         0x0000000000800000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT6_SHFT         24
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT6_MASK         0x0000000001000000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT7_SHFT         25
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT7_MASK         0x0000000002000000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT8_SHFT         26
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT8_MASK         0x0000000004000000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT9_SHFT         27
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT9_MASK         0x0000000008000000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT10_SHFT                28
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT10_MASK                0x0000000010000000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT11_SHFT                29
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT11_MASK                0x0000000020000000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT12_SHFT                30
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT12_MASK                0x0000000040000000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT13_SHFT                31
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT13_MASK                0x0000000080000000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT14_SHFT                32
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT14_MASK                0x0000000100000000UL
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT15_SHFT                33
+#define UV3H_EVENT_OCCURRED1_GR0_TLB_INT15_MASK                0x0000000200000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT0_SHFT         34
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT0_MASK         0x0000000400000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT1_SHFT         35
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT1_MASK         0x0000000800000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT2_SHFT         36
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT2_MASK         0x0000001000000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT3_SHFT         37
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT3_MASK         0x0000002000000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT4_SHFT         38
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT4_MASK         0x0000004000000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT5_SHFT         39
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT5_MASK         0x0000008000000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT6_SHFT         40
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT6_MASK         0x0000010000000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT7_SHFT         41
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT7_MASK         0x0000020000000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT8_SHFT         42
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT8_MASK         0x0000040000000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT9_SHFT         43
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT9_MASK         0x0000080000000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT10_SHFT                44
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT10_MASK                0x0000100000000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT11_SHFT                45
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT11_MASK                0x0000200000000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT12_SHFT                46
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT12_MASK                0x0000400000000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT13_SHFT                47
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT13_MASK                0x0000800000000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT14_SHFT                48
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT14_MASK                0x0001000000000000UL
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT15_SHFT                49
+#define UV3H_EVENT_OCCURRED1_GR1_TLB_INT15_MASK                0x0002000000000000UL
+#define UV3H_EVENT_OCCURRED1_RTC_INTERVAL_INT_SHFT     50
+#define UV3H_EVENT_OCCURRED1_RTC_INTERVAL_INT_MASK     0x0004000000000000UL
+#define UV3H_EVENT_OCCURRED1_BAU_DASHBOARD_INT_SHFT    51
+#define UV3H_EVENT_OCCURRED1_BAU_DASHBOARD_INT_MASK    0x0008000000000000UL
+
+/* UV2 unique defines */
+#define UV2H_EVENT_OCCURRED1_BAU_DATA_SHFT             0
+#define UV2H_EVENT_OCCURRED1_BAU_DATA_MASK             0x0000000000000001UL
+#define UV2H_EVENT_OCCURRED1_POWER_MANAGEMENT_REQ_SHFT 1
+#define UV2H_EVENT_OCCURRED1_POWER_MANAGEMENT_REQ_MASK 0x0000000000000002UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT0_SHFT 2
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT0_MASK 0x0000000000000004UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT1_SHFT 3
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT1_MASK 0x0000000000000008UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT2_SHFT 4
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT2_MASK 0x0000000000000010UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT3_SHFT 5
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT3_MASK 0x0000000000000020UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT4_SHFT 6
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT4_MASK 0x0000000000000040UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT5_SHFT 7
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT5_MASK 0x0000000000000080UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT6_SHFT 8
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT6_MASK 0x0000000000000100UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT7_SHFT 9
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT7_MASK 0x0000000000000200UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT8_SHFT 10
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT8_MASK 0x0000000000000400UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT9_SHFT 11
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT9_MASK 0x0000000000000800UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT10_SHFT 12
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT10_MASK 0x0000000000001000UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT11_SHFT 13
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT11_MASK 0x0000000000002000UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT12_SHFT 14
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT12_MASK 0x0000000000004000UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT13_SHFT 15
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT13_MASK 0x0000000000008000UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT14_SHFT 16
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT14_MASK 0x0000000000010000UL
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT15_SHFT 17
+#define UV2H_EVENT_OCCURRED1_MESSAGE_ACCELERATOR_INT15_MASK 0x0000000000020000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT0_SHFT         18
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT0_MASK         0x0000000000040000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT1_SHFT         19
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT1_MASK         0x0000000000080000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT2_SHFT         20
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT2_MASK         0x0000000000100000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT3_SHFT         21
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT3_MASK         0x0000000000200000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT4_SHFT         22
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT4_MASK         0x0000000000400000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT5_SHFT         23
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT5_MASK         0x0000000000800000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT6_SHFT         24
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT6_MASK         0x0000000001000000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT7_SHFT         25
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT7_MASK         0x0000000002000000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT8_SHFT         26
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT8_MASK         0x0000000004000000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT9_SHFT         27
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT9_MASK         0x0000000008000000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT10_SHFT                28
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT10_MASK                0x0000000010000000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT11_SHFT                29
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT11_MASK                0x0000000020000000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT12_SHFT                30
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT12_MASK                0x0000000040000000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT13_SHFT                31
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT13_MASK                0x0000000080000000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT14_SHFT                32
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT14_MASK                0x0000000100000000UL
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT15_SHFT                33
+#define UV2H_EVENT_OCCURRED1_GR0_TLB_INT15_MASK                0x0000000200000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT0_SHFT         34
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT0_MASK         0x0000000400000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT1_SHFT         35
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT1_MASK         0x0000000800000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT2_SHFT         36
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT2_MASK         0x0000001000000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT3_SHFT         37
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT3_MASK         0x0000002000000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT4_SHFT         38
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT4_MASK         0x0000004000000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT5_SHFT         39
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT5_MASK         0x0000008000000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT6_SHFT         40
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT6_MASK         0x0000010000000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT7_SHFT         41
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT7_MASK         0x0000020000000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT8_SHFT         42
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT8_MASK         0x0000040000000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT9_SHFT         43
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT9_MASK         0x0000080000000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT10_SHFT                44
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT10_MASK                0x0000100000000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT11_SHFT                45
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT11_MASK                0x0000200000000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT12_SHFT                46
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT12_MASK                0x0000400000000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT13_SHFT                47
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT13_MASK                0x0000800000000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT14_SHFT                48
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT14_MASK                0x0001000000000000UL
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT15_SHFT                49
+#define UV2H_EVENT_OCCURRED1_GR1_TLB_INT15_MASK                0x0002000000000000UL
+#define UV2H_EVENT_OCCURRED1_RTC_INTERVAL_INT_SHFT     50
+#define UV2H_EVENT_OCCURRED1_RTC_INTERVAL_INT_MASK     0x0004000000000000UL
+#define UV2H_EVENT_OCCURRED1_BAU_DASHBOARD_INT_SHFT    51
+#define UV2H_EVENT_OCCURRED1_BAU_DASHBOARD_INT_MASK    0x0008000000000000UL
+
+#define UVH_EVENT_OCCURRED1_EXTIO_INT0_MASK (                          \
+       is_uv(UV5) ? 0x0000000000000002UL :                             \
+       0)
+#define UVH_EVENT_OCCURRED1_EXTIO_INT0_SHFT (                          \
+       is_uv(UV5) ? 1 :                                                \
+       -1)
+
+union uvyh_event_occurred1_u {
        unsigned long   v;
-       struct uvh_gr0_tlb_int1_config_s {
-               unsigned long   vector_:8;                      /* RW */
-               unsigned long   dm:3;                           /* RW */
-               unsigned long   destmode:1;                     /* RW */
-               unsigned long   status:1;                       /* RO */
-               unsigned long   p:1;                            /* RO */
-               unsigned long   rsvd_14:1;
-               unsigned long   t:1;                            /* RO */
-               unsigned long   m:1;                            /* RW */
-               unsigned long   rsvd_17_31:15;
-               unsigned long   apic_id:32;                     /* RW */
-       } s;
-};
 
-/* ========================================================================= */
-/*                         UVH_GR0_TLB_MMR_CONTROL                           */
-/* ========================================================================= */
-#define UV2H_GR0_TLB_MMR_CONTROL 0xc01080UL
-#define UV3H_GR0_TLB_MMR_CONTROL 0xc01080UL
-#define UV4H_GR0_TLB_MMR_CONTROL 0x601080UL
-#define UVH_GR0_TLB_MMR_CONTROL (                                      \
-       is_uv2_hub() ? UV2H_GR0_TLB_MMR_CONTROL :                       \
-       is_uv3_hub() ? UV3H_GR0_TLB_MMR_CONTROL :                       \
-       /*is_uv4_hub*/ UV4H_GR0_TLB_MMR_CONTROL)
-
-#define UVH_GR0_TLB_MMR_CONTROL_INDEX_SHFT             0
-#define UVH_GR0_TLB_MMR_CONTROL_AUTO_VALID_EN_SHFT     16
-#define UVH_GR0_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_SHFT 20
-#define UVH_GR0_TLB_MMR_CONTROL_MMR_WRITE_SHFT         30
-#define UVH_GR0_TLB_MMR_CONTROL_MMR_READ_SHFT          31
-#define UVH_GR0_TLB_MMR_CONTROL_AUTO_VALID_EN_MASK     0x0000000000010000UL
-#define UVH_GR0_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_MASK 0x0000000000100000UL
-#define UVH_GR0_TLB_MMR_CONTROL_MMR_WRITE_MASK         0x0000000040000000UL
-#define UVH_GR0_TLB_MMR_CONTROL_MMR_READ_MASK          0x0000000080000000UL
-
-#define UVXH_GR0_TLB_MMR_CONTROL_INDEX_SHFT            0
-#define UVXH_GR0_TLB_MMR_CONTROL_AUTO_VALID_EN_SHFT    16
-#define UVXH_GR0_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_SHFT        20
-#define UVXH_GR0_TLB_MMR_CONTROL_MMR_WRITE_SHFT                30
-#define UVXH_GR0_TLB_MMR_CONTROL_MMR_READ_SHFT         31
-#define UVXH_GR0_TLB_MMR_CONTROL_MMR_OP_DONE_SHFT      32
-#define UVXH_GR0_TLB_MMR_CONTROL_AUTO_VALID_EN_MASK    0x0000000000010000UL
-#define UVXH_GR0_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_MASK        0x0000000000100000UL
-#define UVXH_GR0_TLB_MMR_CONTROL_MMR_WRITE_MASK                0x0000000040000000UL
-#define UVXH_GR0_TLB_MMR_CONTROL_MMR_READ_MASK         0x0000000080000000UL
-#define UVXH_GR0_TLB_MMR_CONTROL_MMR_OP_DONE_MASK      0x0000000100000000UL
-
-#define UV2H_GR0_TLB_MMR_CONTROL_INDEX_SHFT            0
-#define UV2H_GR0_TLB_MMR_CONTROL_MEM_SEL_SHFT          12
-#define UV2H_GR0_TLB_MMR_CONTROL_AUTO_VALID_EN_SHFT    16
-#define UV2H_GR0_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_SHFT        20
-#define UV2H_GR0_TLB_MMR_CONTROL_MMR_WRITE_SHFT                30
-#define UV2H_GR0_TLB_MMR_CONTROL_MMR_READ_SHFT         31
-#define UV2H_GR0_TLB_MMR_CONTROL_MMR_OP_DONE_SHFT      32
-#define UV2H_GR0_TLB_MMR_CONTROL_MMR_INJ_CON_SHFT      48
-#define UV2H_GR0_TLB_MMR_CONTROL_MMR_INJ_TLBRAM_SHFT   52
-#define UV2H_GR0_TLB_MMR_CONTROL_INDEX_MASK            0x0000000000000fffUL
-#define UV2H_GR0_TLB_MMR_CONTROL_MEM_SEL_MASK          0x0000000000003000UL
-#define UV2H_GR0_TLB_MMR_CONTROL_AUTO_VALID_EN_MASK    0x0000000000010000UL
-#define UV2H_GR0_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_MASK        0x0000000000100000UL
-#define UV2H_GR0_TLB_MMR_CONTROL_MMR_WRITE_MASK                0x0000000040000000UL
-#define UV2H_GR0_TLB_MMR_CONTROL_MMR_READ_MASK         0x0000000080000000UL
-#define UV2H_GR0_TLB_MMR_CONTROL_MMR_OP_DONE_MASK      0x0000000100000000UL
-#define UV2H_GR0_TLB_MMR_CONTROL_MMR_INJ_CON_MASK      0x0001000000000000UL
-#define UV2H_GR0_TLB_MMR_CONTROL_MMR_INJ_TLBRAM_MASK   0x0010000000000000UL
-
-#define UV3H_GR0_TLB_MMR_CONTROL_INDEX_SHFT            0
-#define UV3H_GR0_TLB_MMR_CONTROL_MEM_SEL_SHFT          12
-#define UV3H_GR0_TLB_MMR_CONTROL_AUTO_VALID_EN_SHFT    16
-#define UV3H_GR0_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_SHFT        20
-#define UV3H_GR0_TLB_MMR_CONTROL_ECC_SEL_SHFT          21
-#define UV3H_GR0_TLB_MMR_CONTROL_MMR_WRITE_SHFT                30
-#define UV3H_GR0_TLB_MMR_CONTROL_MMR_READ_SHFT         31
-#define UV3H_GR0_TLB_MMR_CONTROL_MMR_OP_DONE_SHFT      32
-#define UV3H_GR0_TLB_MMR_CONTROL_INDEX_MASK            0x0000000000000fffUL
-#define UV3H_GR0_TLB_MMR_CONTROL_MEM_SEL_MASK          0x0000000000003000UL
-#define UV3H_GR0_TLB_MMR_CONTROL_AUTO_VALID_EN_MASK    0x0000000000010000UL
-#define UV3H_GR0_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_MASK        0x0000000000100000UL
-#define UV3H_GR0_TLB_MMR_CONTROL_ECC_SEL_MASK          0x0000000000200000UL
-#define UV3H_GR0_TLB_MMR_CONTROL_MMR_WRITE_MASK                0x0000000040000000UL
-#define UV3H_GR0_TLB_MMR_CONTROL_MMR_READ_MASK         0x0000000080000000UL
-#define UV3H_GR0_TLB_MMR_CONTROL_MMR_OP_DONE_MASK      0x0000000100000000UL
-
-#define UV4H_GR0_TLB_MMR_CONTROL_INDEX_SHFT            0
-#define UV4H_GR0_TLB_MMR_CONTROL_MEM_SEL_SHFT          13
-#define UV4H_GR0_TLB_MMR_CONTROL_AUTO_VALID_EN_SHFT    16
-#define UV4H_GR0_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_SHFT        20
-#define UV4H_GR0_TLB_MMR_CONTROL_ECC_SEL_SHFT          21
-#define UV4H_GR0_TLB_MMR_CONTROL_MMR_WRITE_SHFT                30
-#define UV4H_GR0_TLB_MMR_CONTROL_MMR_READ_SHFT         31
-#define UV4H_GR0_TLB_MMR_CONTROL_MMR_OP_DONE_SHFT      32
-#define UV4H_GR0_TLB_MMR_CONTROL_PAGE_SIZE_SHFT                59
-#define UV4H_GR0_TLB_MMR_CONTROL_INDEX_MASK            0x0000000000001fffUL
-#define UV4H_GR0_TLB_MMR_CONTROL_MEM_SEL_MASK          0x0000000000006000UL
-#define UV4H_GR0_TLB_MMR_CONTROL_AUTO_VALID_EN_MASK    0x0000000000010000UL
-#define UV4H_GR0_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_MASK        0x0000000000100000UL
-#define UV4H_GR0_TLB_MMR_CONTROL_ECC_SEL_MASK          0x0000000000200000UL
-#define UV4H_GR0_TLB_MMR_CONTROL_MMR_WRITE_MASK                0x0000000040000000UL
-#define UV4H_GR0_TLB_MMR_CONTROL_MMR_READ_MASK         0x0000000080000000UL
-#define UV4H_GR0_TLB_MMR_CONTROL_MMR_OP_DONE_MASK      0x0000000100000000UL
-#define UV4H_GR0_TLB_MMR_CONTROL_PAGE_SIZE_MASK                0xf800000000000000UL
-
-#define UVH_GR0_TLB_MMR_CONTROL_INDEX_MASK (                           \
-       is_uv2_hub() ? UV2H_GR0_TLB_MMR_CONTROL_INDEX_MASK :            \
-       is_uv3_hub() ? UV3H_GR0_TLB_MMR_CONTROL_INDEX_MASK :            \
-       /*is_uv4_hub*/ UV4H_GR0_TLB_MMR_CONTROL_INDEX_MASK)
-#define UVH_GR0_TLB_MMR_CONTROL_MEM_SEL_MASK (                         \
-       is_uv2_hub() ? UV2H_GR0_TLB_MMR_CONTROL_MEM_SEL_MASK :          \
-       is_uv3_hub() ? UV3H_GR0_TLB_MMR_CONTROL_MEM_SEL_MASK :          \
-       /*is_uv4_hub*/ UV4H_GR0_TLB_MMR_CONTROL_MEM_SEL_MASK)
-#define UVH_GR0_TLB_MMR_CONTROL_MEM_SEL_SHFT (                         \
-       is_uv2_hub() ? UV2H_GR0_TLB_MMR_CONTROL_MEM_SEL_SHFT :          \
-       is_uv3_hub() ? UV3H_GR0_TLB_MMR_CONTROL_MEM_SEL_SHFT :          \
-       /*is_uv4_hub*/ UV4H_GR0_TLB_MMR_CONTROL_MEM_SEL_SHFT)
-
-union uvh_gr0_tlb_mmr_control_u {
-       unsigned long   v;
-       struct uvh_gr0_tlb_mmr_control_s {
-               unsigned long   rsvd_0_15:16;
-               unsigned long   auto_valid_en:1;                /* RW */
-               unsigned long   rsvd_17_19:3;
-               unsigned long   mmr_hash_index_en:1;            /* RW */
-               unsigned long   rsvd_21_29:9;
-               unsigned long   mmr_write:1;                    /* WP */
-               unsigned long   mmr_read:1;                     /* WP */
-               unsigned long   rsvd_32_48:17;
-               unsigned long   rsvd_49_51:3;
-               unsigned long   rsvd_52_63:12;
-       } s;
-       struct uvxh_gr0_tlb_mmr_control_s {
-               unsigned long   rsvd_0_15:16;
-               unsigned long   auto_valid_en:1;                /* RW */
-               unsigned long   rsvd_17_19:3;
-               unsigned long   mmr_hash_index_en:1;            /* RW */
-               unsigned long   rsvd_21_29:9;
-               unsigned long   mmr_write:1;                    /* WP */
-               unsigned long   mmr_read:1;                     /* WP */
-               unsigned long   mmr_op_done:1;                  /* RW */
-               unsigned long   rsvd_33_47:15;
-               unsigned long   rsvd_48:1;
-               unsigned long   rsvd_49_51:3;
-               unsigned long   rsvd_52_63:12;
-       } sx;
-       struct uv2h_gr0_tlb_mmr_control_s {
-               unsigned long   index:12;                       /* RW */
-               unsigned long   mem_sel:2;                      /* RW */
-               unsigned long   rsvd_14_15:2;
-               unsigned long   auto_valid_en:1;                /* RW */
-               unsigned long   rsvd_17_19:3;
-               unsigned long   mmr_hash_index_en:1;            /* RW */
-               unsigned long   rsvd_21_29:9;
-               unsigned long   mmr_write:1;                    /* WP */
-               unsigned long   mmr_read:1;                     /* WP */
-               unsigned long   mmr_op_done:1;                  /* RW */
-               unsigned long   rsvd_33_47:15;
-               unsigned long   mmr_inj_con:1;                  /* RW */
-               unsigned long   rsvd_49_51:3;
-               unsigned long   mmr_inj_tlbram:1;               /* RW */
-               unsigned long   rsvd_53_63:11;
-       } s2;
-       struct uv3h_gr0_tlb_mmr_control_s {
-               unsigned long   index:12;                       /* RW */
-               unsigned long   mem_sel:2;                      /* RW */
-               unsigned long   rsvd_14_15:2;
-               unsigned long   auto_valid_en:1;                /* RW */
-               unsigned long   rsvd_17_19:3;
-               unsigned long   mmr_hash_index_en:1;            /* RW */
-               unsigned long   ecc_sel:1;                      /* RW */
-               unsigned long   rsvd_22_29:8;
-               unsigned long   mmr_write:1;                    /* WP */
-               unsigned long   mmr_read:1;                     /* WP */
-               unsigned long   mmr_op_done:1;                  /* RW */
-               unsigned long   rsvd_33_47:15;
-               unsigned long   undef_48:1;                     /* Undefined */
-               unsigned long   rsvd_49_51:3;
-               unsigned long   undef_52:1;                     /* Undefined */
-               unsigned long   rsvd_53_63:11;
-       } s3;
-       struct uv4h_gr0_tlb_mmr_control_s {
-               unsigned long   index:13;                       /* RW */
-               unsigned long   mem_sel:2;                      /* RW */
-               unsigned long   rsvd_15:1;
-               unsigned long   auto_valid_en:1;                /* RW */
-               unsigned long   rsvd_17_19:3;
-               unsigned long   mmr_hash_index_en:1;            /* RW */
-               unsigned long   ecc_sel:1;                      /* RW */
-               unsigned long   rsvd_22_29:8;
-               unsigned long   mmr_write:1;                    /* WP */
-               unsigned long   mmr_read:1;                     /* WP */
-               unsigned long   mmr_op_done:1;                  /* RW */
-               unsigned long   rsvd_33_47:15;
-               unsigned long   undef_48:1;                     /* Undefined */
-               unsigned long   rsvd_49_51:3;
-               unsigned long   rsvd_52_58:7;
-               unsigned long   page_size:5;                    /* RW */
+       /* UVYH common struct */
+       struct uvyh_event_occurred1_s {
+               unsigned long   ipi_int:1;                      /* RW */
+               unsigned long   extio_int0:1;                   /* RW */
+               unsigned long   extio_int1:1;                   /* RW */
+               unsigned long   extio_int2:1;                   /* RW */
+               unsigned long   extio_int3:1;                   /* RW */
+               unsigned long   profile_int:1;                  /* RW */
+               unsigned long   bau_data:1;                     /* RW */
+               unsigned long   proc_general:1;                 /* RW */
+               unsigned long   xh_tlb_int0:1;                  /* RW */
+               unsigned long   xh_tlb_int1:1;                  /* RW */
+               unsigned long   xh_tlb_int2:1;                  /* RW */
+               unsigned long   xh_tlb_int3:1;                  /* RW */
+               unsigned long   xh_tlb_int4:1;                  /* RW */
+               unsigned long   xh_tlb_int5:1;                  /* RW */
+               unsigned long   rdm_tlb_int0:1;                 /* RW */
+               unsigned long   rdm_tlb_int1:1;                 /* RW */
+               unsigned long   rdm_tlb_int2:1;                 /* RW */
+               unsigned long   rdm_tlb_int3:1;                 /* RW */
+               unsigned long   rdm_tlb_int4:1;                 /* RW */
+               unsigned long   rdm_tlb_int5:1;                 /* RW */
+               unsigned long   rdm_tlb_int6:1;                 /* RW */
+               unsigned long   rdm_tlb_int7:1;                 /* RW */
+               unsigned long   rdm_tlb_int8:1;                 /* RW */
+               unsigned long   rdm_tlb_int9:1;                 /* RW */
+               unsigned long   rdm_tlb_int10:1;                /* RW */
+               unsigned long   rdm_tlb_int11:1;                /* RW */
+               unsigned long   rdm_tlb_int12:1;                /* RW */
+               unsigned long   rdm_tlb_int13:1;                /* RW */
+               unsigned long   rdm_tlb_int14:1;                /* RW */
+               unsigned long   rdm_tlb_int15:1;                /* RW */
+               unsigned long   rdm_tlb_int16:1;                /* RW */
+               unsigned long   rdm_tlb_int17:1;                /* RW */
+               unsigned long   rdm_tlb_int18:1;                /* RW */
+               unsigned long   rdm_tlb_int19:1;                /* RW */
+               unsigned long   rdm_tlb_int20:1;                /* RW */
+               unsigned long   rdm_tlb_int21:1;                /* RW */
+               unsigned long   rdm_tlb_int22:1;                /* RW */
+               unsigned long   rdm_tlb_int23:1;                /* RW */
+               unsigned long   rsvd_38_63:26;
+       } sy;
+
+       /* UV5 unique struct */
+       struct uv5h_event_occurred1_s {
+               unsigned long   ipi_int:1;                      /* RW */
+               unsigned long   extio_int0:1;                   /* RW */
+               unsigned long   extio_int1:1;                   /* RW */
+               unsigned long   extio_int2:1;                   /* RW */
+               unsigned long   extio_int3:1;                   /* RW */
+               unsigned long   profile_int:1;                  /* RW */
+               unsigned long   bau_data:1;                     /* RW */
+               unsigned long   proc_general:1;                 /* RW */
+               unsigned long   xh_tlb_int0:1;                  /* RW */
+               unsigned long   xh_tlb_int1:1;                  /* RW */
+               unsigned long   xh_tlb_int2:1;                  /* RW */
+               unsigned long   xh_tlb_int3:1;                  /* RW */
+               unsigned long   xh_tlb_int4:1;                  /* RW */
+               unsigned long   xh_tlb_int5:1;                  /* RW */
+               unsigned long   rdm_tlb_int0:1;                 /* RW */
+               unsigned long   rdm_tlb_int1:1;                 /* RW */
+               unsigned long   rdm_tlb_int2:1;                 /* RW */
+               unsigned long   rdm_tlb_int3:1;                 /* RW */
+               unsigned long   rdm_tlb_int4:1;                 /* RW */
+               unsigned long   rdm_tlb_int5:1;                 /* RW */
+               unsigned long   rdm_tlb_int6:1;                 /* RW */
+               unsigned long   rdm_tlb_int7:1;                 /* RW */
+               unsigned long   rdm_tlb_int8:1;                 /* RW */
+               unsigned long   rdm_tlb_int9:1;                 /* RW */
+               unsigned long   rdm_tlb_int10:1;                /* RW */
+               unsigned long   rdm_tlb_int11:1;                /* RW */
+               unsigned long   rdm_tlb_int12:1;                /* RW */
+               unsigned long   rdm_tlb_int13:1;                /* RW */
+               unsigned long   rdm_tlb_int14:1;                /* RW */
+               unsigned long   rdm_tlb_int15:1;                /* RW */
+               unsigned long   rdm_tlb_int16:1;                /* RW */
+               unsigned long   rdm_tlb_int17:1;                /* RW */
+               unsigned long   rdm_tlb_int18:1;                /* RW */
+               unsigned long   rdm_tlb_int19:1;                /* RW */
+               unsigned long   rdm_tlb_int20:1;                /* RW */
+               unsigned long   rdm_tlb_int21:1;                /* RW */
+               unsigned long   rdm_tlb_int22:1;                /* RW */
+               unsigned long   rdm_tlb_int23:1;                /* RW */
+               unsigned long   rsvd_38_63:26;
+       } s5;
+
+       /* UV4 unique struct */
+       struct uv4h_event_occurred1_s {
+               unsigned long   profile_int:1;                  /* RW */
+               unsigned long   bau_data:1;                     /* RW */
+               unsigned long   proc_general:1;                 /* RW */
+               unsigned long   gr0_tlb_int0:1;                 /* RW */
+               unsigned long   gr0_tlb_int1:1;                 /* RW */
+               unsigned long   gr0_tlb_int2:1;                 /* RW */
+               unsigned long   gr0_tlb_int3:1;                 /* RW */
+               unsigned long   gr0_tlb_int4:1;                 /* RW */
+               unsigned long   gr0_tlb_int5:1;                 /* RW */
+               unsigned long   gr0_tlb_int6:1;                 /* RW */
+               unsigned long   gr0_tlb_int7:1;                 /* RW */
+               unsigned long   gr0_tlb_int8:1;                 /* RW */
+               unsigned long   gr0_tlb_int9:1;                 /* RW */
+               unsigned long   gr0_tlb_int10:1;                /* RW */
+               unsigned long   gr0_tlb_int11:1;                /* RW */
+               unsigned long   gr0_tlb_int12:1;                /* RW */
+               unsigned long   gr0_tlb_int13:1;                /* RW */
+               unsigned long   gr0_tlb_int14:1;                /* RW */
+               unsigned long   gr0_tlb_int15:1;                /* RW */
+               unsigned long   gr0_tlb_int16:1;                /* RW */
+               unsigned long   gr0_tlb_int17:1;                /* RW */
+               unsigned long   gr0_tlb_int18:1;                /* RW */
+               unsigned long   gr0_tlb_int19:1;                /* RW */
+               unsigned long   gr0_tlb_int20:1;                /* RW */
+               unsigned long   gr0_tlb_int21:1;                /* RW */
+               unsigned long   gr0_tlb_int22:1;                /* RW */
+               unsigned long   gr0_tlb_int23:1;                /* RW */
+               unsigned long   gr1_tlb_int0:1;                 /* RW */
+               unsigned long   gr1_tlb_int1:1;                 /* RW */
+               unsigned long   gr1_tlb_int2:1;                 /* RW */
+               unsigned long   gr1_tlb_int3:1;                 /* RW */
+               unsigned long   gr1_tlb_int4:1;                 /* RW */
+               unsigned long   gr1_tlb_int5:1;                 /* RW */
+               unsigned long   gr1_tlb_int6:1;                 /* RW */
+               unsigned long   gr1_tlb_int7:1;                 /* RW */
+               unsigned long   gr1_tlb_int8:1;                 /* RW */
+               unsigned long   gr1_tlb_int9:1;                 /* RW */
+               unsigned long   gr1_tlb_int10:1;                /* RW */
+               unsigned long   gr1_tlb_int11:1;                /* RW */
+               unsigned long   gr1_tlb_int12:1;                /* RW */
+               unsigned long   gr1_tlb_int13:1;                /* RW */
+               unsigned long   gr1_tlb_int14:1;                /* RW */
+               unsigned long   gr1_tlb_int15:1;                /* RW */
+               unsigned long   gr1_tlb_int16:1;                /* RW */
+               unsigned long   gr1_tlb_int17:1;                /* RW */
+               unsigned long   gr1_tlb_int18:1;                /* RW */
+               unsigned long   gr1_tlb_int19:1;                /* RW */
+               unsigned long   gr1_tlb_int20:1;                /* RW */
+               unsigned long   gr1_tlb_int21:1;                /* RW */
+               unsigned long   gr1_tlb_int22:1;                /* RW */
+               unsigned long   gr1_tlb_int23:1;                /* RW */
+               unsigned long   rsvd_51_63:13;
        } s4;
-};
 
-/* ========================================================================= */
-/*                       UVH_GR0_TLB_MMR_READ_DATA_HI                        */
-/* ========================================================================= */
-#define UV2H_GR0_TLB_MMR_READ_DATA_HI 0xc010a0UL
-#define UV3H_GR0_TLB_MMR_READ_DATA_HI 0xc010a0UL
-#define UV4H_GR0_TLB_MMR_READ_DATA_HI 0x6010a0UL
-#define UVH_GR0_TLB_MMR_READ_DATA_HI (                                 \
-       is_uv2_hub() ? UV2H_GR0_TLB_MMR_READ_DATA_HI :                  \
-       is_uv3_hub() ? UV3H_GR0_TLB_MMR_READ_DATA_HI :                  \
-       /*is_uv4_hub*/ UV4H_GR0_TLB_MMR_READ_DATA_HI)
-
-#define UVH_GR0_TLB_MMR_READ_DATA_HI_PFN_SHFT          0
-
-#define UVXH_GR0_TLB_MMR_READ_DATA_HI_PFN_SHFT         0
-
-#define UV2H_GR0_TLB_MMR_READ_DATA_HI_PFN_SHFT         0
-#define UV2H_GR0_TLB_MMR_READ_DATA_HI_GAA_SHFT         41
-#define UV2H_GR0_TLB_MMR_READ_DATA_HI_DIRTY_SHFT       43
-#define UV2H_GR0_TLB_MMR_READ_DATA_HI_LARGER_SHFT      44
-#define UV2H_GR0_TLB_MMR_READ_DATA_HI_PFN_MASK         0x000001ffffffffffUL
-#define UV2H_GR0_TLB_MMR_READ_DATA_HI_GAA_MASK         0x0000060000000000UL
-#define UV2H_GR0_TLB_MMR_READ_DATA_HI_DIRTY_MASK       0x0000080000000000UL
-#define UV2H_GR0_TLB_MMR_READ_DATA_HI_LARGER_MASK      0x0000100000000000UL
-
-#define UV3H_GR0_TLB_MMR_READ_DATA_HI_PFN_SHFT         0
-#define UV3H_GR0_TLB_MMR_READ_DATA_HI_GAA_SHFT         41
-#define UV3H_GR0_TLB_MMR_READ_DATA_HI_DIRTY_SHFT       43
-#define UV3H_GR0_TLB_MMR_READ_DATA_HI_LARGER_SHFT      44
-#define UV3H_GR0_TLB_MMR_READ_DATA_HI_AA_EXT_SHFT      45
-#define UV3H_GR0_TLB_MMR_READ_DATA_HI_WAY_ECC_SHFT     55
-#define UV3H_GR0_TLB_MMR_READ_DATA_HI_PFN_MASK         0x000001ffffffffffUL
-#define UV3H_GR0_TLB_MMR_READ_DATA_HI_GAA_MASK         0x0000060000000000UL
-#define UV3H_GR0_TLB_MMR_READ_DATA_HI_DIRTY_MASK       0x0000080000000000UL
-#define UV3H_GR0_TLB_MMR_READ_DATA_HI_LARGER_MASK      0x0000100000000000UL
-#define UV3H_GR0_TLB_MMR_READ_DATA_HI_AA_EXT_MASK      0x0000200000000000UL
-#define UV3H_GR0_TLB_MMR_READ_DATA_HI_WAY_ECC_MASK     0xff80000000000000UL
-
-#define UV4H_GR0_TLB_MMR_READ_DATA_HI_PFN_SHFT         0
-#define UV4H_GR0_TLB_MMR_READ_DATA_HI_PNID_SHFT                34
-#define UV4H_GR0_TLB_MMR_READ_DATA_HI_GAA_SHFT         49
-#define UV4H_GR0_TLB_MMR_READ_DATA_HI_DIRTY_SHFT       51
-#define UV4H_GR0_TLB_MMR_READ_DATA_HI_LARGER_SHFT      52
-#define UV4H_GR0_TLB_MMR_READ_DATA_HI_AA_EXT_SHFT      53
-#define UV4H_GR0_TLB_MMR_READ_DATA_HI_WAY_ECC_SHFT     55
-#define UV4H_GR0_TLB_MMR_READ_DATA_HI_PFN_MASK         0x00000003ffffffffUL
-#define UV4H_GR0_TLB_MMR_READ_DATA_HI_PNID_MASK                0x0001fffc00000000UL
-#define UV4H_GR0_TLB_MMR_READ_DATA_HI_GAA_MASK         0x0006000000000000UL
-#define UV4H_GR0_TLB_MMR_READ_DATA_HI_DIRTY_MASK       0x0008000000000000UL
-#define UV4H_GR0_TLB_MMR_READ_DATA_HI_LARGER_MASK      0x0010000000000000UL
-#define UV4H_GR0_TLB_MMR_READ_DATA_HI_AA_EXT_MASK      0x0020000000000000UL
-#define UV4H_GR0_TLB_MMR_READ_DATA_HI_WAY_ECC_MASK     0xff80000000000000UL
-
-
-union uvh_gr0_tlb_mmr_read_data_hi_u {
-       unsigned long   v;
-       struct uv2h_gr0_tlb_mmr_read_data_hi_s {
-               unsigned long   pfn:41;                         /* RO */
-               unsigned long   gaa:2;                          /* RO */
-               unsigned long   dirty:1;                        /* RO */
-               unsigned long   larger:1;                       /* RO */
-               unsigned long   rsvd_45_63:19;
-       } s2;
-       struct uv3h_gr0_tlb_mmr_read_data_hi_s {
-               unsigned long   pfn:41;                         /* RO */
-               unsigned long   gaa:2;                          /* RO */
-               unsigned long   dirty:1;                        /* RO */
-               unsigned long   larger:1;                       /* RO */
-               unsigned long   aa_ext:1;                       /* RO */
-               unsigned long   undef_46_54:9;                  /* Undefined */
-               unsigned long   way_ecc:9;                      /* RO */
+       /* UV3 unique struct */
+       struct uv3h_event_occurred1_s {
+               unsigned long   bau_data:1;                     /* RW */
+               unsigned long   power_management_req:1;         /* RW */
+               unsigned long   message_accelerator_int0:1;     /* RW */
+               unsigned long   message_accelerator_int1:1;     /* RW */
+               unsigned long   message_accelerator_int2:1;     /* RW */
+               unsigned long   message_accelerator_int3:1;     /* RW */
+               unsigned long   message_accelerator_int4:1;     /* RW */
+               unsigned long   message_accelerator_int5:1;     /* RW */
+               unsigned long   message_accelerator_int6:1;     /* RW */
+               unsigned long   message_accelerator_int7:1;     /* RW */
+               unsigned long   message_accelerator_int8:1;     /* RW */
+               unsigned long   message_accelerator_int9:1;     /* RW */
+               unsigned long   message_accelerator_int10:1;    /* RW */
+               unsigned long   message_accelerator_int11:1;    /* RW */
+               unsigned long   message_accelerator_int12:1;    /* RW */
+               unsigned long   message_accelerator_int13:1;    /* RW */
+               unsigned long   message_accelerator_int14:1;    /* RW */
+               unsigned long   message_accelerator_int15:1;    /* RW */
+               unsigned long   gr0_tlb_int0:1;                 /* RW */
+               unsigned long   gr0_tlb_int1:1;                 /* RW */
+               unsigned long   gr0_tlb_int2:1;                 /* RW */
+               unsigned long   gr0_tlb_int3:1;                 /* RW */
+               unsigned long   gr0_tlb_int4:1;                 /* RW */
+               unsigned long   gr0_tlb_int5:1;                 /* RW */
+               unsigned long   gr0_tlb_int6:1;                 /* RW */
+               unsigned long   gr0_tlb_int7:1;                 /* RW */
+               unsigned long   gr0_tlb_int8:1;                 /* RW */
+               unsigned long   gr0_tlb_int9:1;                 /* RW */
+               unsigned long   gr0_tlb_int10:1;                /* RW */
+               unsigned long   gr0_tlb_int11:1;                /* RW */
+               unsigned long   gr0_tlb_int12:1;                /* RW */
+               unsigned long   gr0_tlb_int13:1;                /* RW */
+               unsigned long   gr0_tlb_int14:1;                /* RW */
+               unsigned long   gr0_tlb_int15:1;                /* RW */
+               unsigned long   gr1_tlb_int0:1;                 /* RW */
+               unsigned long   gr1_tlb_int1:1;                 /* RW */
+               unsigned long   gr1_tlb_int2:1;                 /* RW */
+               unsigned long   gr1_tlb_int3:1;                 /* RW */
+               unsigned long   gr1_tlb_int4:1;                 /* RW */
+               unsigned long   gr1_tlb_int5:1;                 /* RW */
+               unsigned long   gr1_tlb_int6:1;                 /* RW */
+               unsigned long   gr1_tlb_int7:1;                 /* RW */
+               unsigned long   gr1_tlb_int8:1;                 /* RW */
+               unsigned long   gr1_tlb_int9:1;                 /* RW */
+               unsigned long   gr1_tlb_int10:1;                /* RW */
+               unsigned long   gr1_tlb_int11:1;                /* RW */
+               unsigned long   gr1_tlb_int12:1;                /* RW */
+               unsigned long   gr1_tlb_int13:1;                /* RW */
+               unsigned long   gr1_tlb_int14:1;                /* RW */
+               unsigned long   gr1_tlb_int15:1;                /* RW */
+               unsigned long   rtc_interval_int:1;             /* RW */
+               unsigned long   bau_dashboard_int:1;            /* RW */
+               unsigned long   rsvd_52_63:12;
        } s3;
-       struct uv4h_gr0_tlb_mmr_read_data_hi_s {
-               unsigned long   pfn:34;                         /* RO */
-               unsigned long   pnid:15;                        /* RO */
-               unsigned long   gaa:2;                          /* RO */
-               unsigned long   dirty:1;                        /* RO */
-               unsigned long   larger:1;                       /* RO */
-               unsigned long   aa_ext:1;                       /* RO */
-               unsigned long   undef_54:1;                     /* Undefined */
-               unsigned long   way_ecc:9;                      /* RO */
-       } s4;
-};
 
-/* ========================================================================= */
-/*                       UVH_GR0_TLB_MMR_READ_DATA_LO                        */
-/* ========================================================================= */
-#define UV2H_GR0_TLB_MMR_READ_DATA_LO 0xc010a8UL
-#define UV3H_GR0_TLB_MMR_READ_DATA_LO 0xc010a8UL
-#define UV4H_GR0_TLB_MMR_READ_DATA_LO 0x6010a8UL
-#define UVH_GR0_TLB_MMR_READ_DATA_LO (                                 \
-       is_uv2_hub() ? UV2H_GR0_TLB_MMR_READ_DATA_LO :                  \
-       is_uv3_hub() ? UV3H_GR0_TLB_MMR_READ_DATA_LO :                  \
-       /*is_uv4_hub*/ UV4H_GR0_TLB_MMR_READ_DATA_LO)
-
-#define UVH_GR0_TLB_MMR_READ_DATA_LO_VPN_SHFT          0
-#define UVH_GR0_TLB_MMR_READ_DATA_LO_ASID_SHFT         39
-#define UVH_GR0_TLB_MMR_READ_DATA_LO_VALID_SHFT                63
-#define UVH_GR0_TLB_MMR_READ_DATA_LO_VPN_MASK          0x0000007fffffffffUL
-#define UVH_GR0_TLB_MMR_READ_DATA_LO_ASID_MASK         0x7fffff8000000000UL
-#define UVH_GR0_TLB_MMR_READ_DATA_LO_VALID_MASK                0x8000000000000000UL
-
-#define UVXH_GR0_TLB_MMR_READ_DATA_LO_VPN_SHFT         0
-#define UVXH_GR0_TLB_MMR_READ_DATA_LO_ASID_SHFT                39
-#define UVXH_GR0_TLB_MMR_READ_DATA_LO_VALID_SHFT       63
-#define UVXH_GR0_TLB_MMR_READ_DATA_LO_VPN_MASK         0x0000007fffffffffUL
-#define UVXH_GR0_TLB_MMR_READ_DATA_LO_ASID_MASK                0x7fffff8000000000UL
-#define UVXH_GR0_TLB_MMR_READ_DATA_LO_VALID_MASK       0x8000000000000000UL
-
-#define UV2H_GR0_TLB_MMR_READ_DATA_LO_VPN_SHFT         0
-#define UV2H_GR0_TLB_MMR_READ_DATA_LO_ASID_SHFT                39
-#define UV2H_GR0_TLB_MMR_READ_DATA_LO_VALID_SHFT       63
-#define UV2H_GR0_TLB_MMR_READ_DATA_LO_VPN_MASK         0x0000007fffffffffUL
-#define UV2H_GR0_TLB_MMR_READ_DATA_LO_ASID_MASK                0x7fffff8000000000UL
-#define UV2H_GR0_TLB_MMR_READ_DATA_LO_VALID_MASK       0x8000000000000000UL
-
-#define UV3H_GR0_TLB_MMR_READ_DATA_LO_VPN_SHFT         0
-#define UV3H_GR0_TLB_MMR_READ_DATA_LO_ASID_SHFT                39
-#define UV3H_GR0_TLB_MMR_READ_DATA_LO_VALID_SHFT       63
-#define UV3H_GR0_TLB_MMR_READ_DATA_LO_VPN_MASK         0x0000007fffffffffUL
-#define UV3H_GR0_TLB_MMR_READ_DATA_LO_ASID_MASK                0x7fffff8000000000UL
-#define UV3H_GR0_TLB_MMR_READ_DATA_LO_VALID_MASK       0x8000000000000000UL
-
-#define UV4H_GR0_TLB_MMR_READ_DATA_LO_VPN_SHFT         0
-#define UV4H_GR0_TLB_MMR_READ_DATA_LO_ASID_SHFT                39
-#define UV4H_GR0_TLB_MMR_READ_DATA_LO_VALID_SHFT       63
-#define UV4H_GR0_TLB_MMR_READ_DATA_LO_VPN_MASK         0x0000007fffffffffUL
-#define UV4H_GR0_TLB_MMR_READ_DATA_LO_ASID_MASK                0x7fffff8000000000UL
-#define UV4H_GR0_TLB_MMR_READ_DATA_LO_VALID_MASK       0x8000000000000000UL
-
-
-union uvh_gr0_tlb_mmr_read_data_lo_u {
-       unsigned long   v;
-       struct uvh_gr0_tlb_mmr_read_data_lo_s {
-               unsigned long   vpn:39;                         /* RO */
-               unsigned long   asid:24;                        /* RO */
-               unsigned long   valid:1;                        /* RO */
-       } s;
-       struct uvxh_gr0_tlb_mmr_read_data_lo_s {
-               unsigned long   vpn:39;                         /* RO */
-               unsigned long   asid:24;                        /* RO */
-               unsigned long   valid:1;                        /* RO */
-       } sx;
-       struct uv2h_gr0_tlb_mmr_read_data_lo_s {
-               unsigned long   vpn:39;                         /* RO */
-               unsigned long   asid:24;                        /* RO */
-               unsigned long   valid:1;                        /* RO */
+       /* UV2 unique struct */
+       struct uv2h_event_occurred1_s {
+               unsigned long   bau_data:1;                     /* RW */
+               unsigned long   power_management_req:1;         /* RW */
+               unsigned long   message_accelerator_int0:1;     /* RW */
+               unsigned long   message_accelerator_int1:1;     /* RW */
+               unsigned long   message_accelerator_int2:1;     /* RW */
+               unsigned long   message_accelerator_int3:1;     /* RW */
+               unsigned long   message_accelerator_int4:1;     /* RW */
+               unsigned long   message_accelerator_int5:1;     /* RW */
+               unsigned long   message_accelerator_int6:1;     /* RW */
+               unsigned long   message_accelerator_int7:1;     /* RW */
+               unsigned long   message_accelerator_int8:1;     /* RW */
+               unsigned long   message_accelerator_int9:1;     /* RW */
+               unsigned long   message_accelerator_int10:1;    /* RW */
+               unsigned long   message_accelerator_int11:1;    /* RW */
+               unsigned long   message_accelerator_int12:1;    /* RW */
+               unsigned long   message_accelerator_int13:1;    /* RW */
+               unsigned long   message_accelerator_int14:1;    /* RW */
+               unsigned long   message_accelerator_int15:1;    /* RW */
+               unsigned long   gr0_tlb_int0:1;                 /* RW */
+               unsigned long   gr0_tlb_int1:1;                 /* RW */
+               unsigned long   gr0_tlb_int2:1;                 /* RW */
+               unsigned long   gr0_tlb_int3:1;                 /* RW */
+               unsigned long   gr0_tlb_int4:1;                 /* RW */
+               unsigned long   gr0_tlb_int5:1;                 /* RW */
+               unsigned long   gr0_tlb_int6:1;                 /* RW */
+               unsigned long   gr0_tlb_int7:1;                 /* RW */
+               unsigned long   gr0_tlb_int8:1;                 /* RW */
+               unsigned long   gr0_tlb_int9:1;                 /* RW */
+               unsigned long   gr0_tlb_int10:1;                /* RW */
+               unsigned long   gr0_tlb_int11:1;                /* RW */
+               unsigned long   gr0_tlb_int12:1;                /* RW */
+               unsigned long   gr0_tlb_int13:1;                /* RW */
+               unsigned long   gr0_tlb_int14:1;                /* RW */
+               unsigned long   gr0_tlb_int15:1;                /* RW */
+               unsigned long   gr1_tlb_int0:1;                 /* RW */
+               unsigned long   gr1_tlb_int1:1;                 /* RW */
+               unsigned long   gr1_tlb_int2:1;                 /* RW */
+               unsigned long   gr1_tlb_int3:1;                 /* RW */
+               unsigned long   gr1_tlb_int4:1;                 /* RW */
+               unsigned long   gr1_tlb_int5:1;                 /* RW */
+               unsigned long   gr1_tlb_int6:1;                 /* RW */
+               unsigned long   gr1_tlb_int7:1;                 /* RW */
+               unsigned long   gr1_tlb_int8:1;                 /* RW */
+               unsigned long   gr1_tlb_int9:1;                 /* RW */
+               unsigned long   gr1_tlb_int10:1;                /* RW */
+               unsigned long   gr1_tlb_int11:1;                /* RW */
+               unsigned long   gr1_tlb_int12:1;                /* RW */
+               unsigned long   gr1_tlb_int13:1;                /* RW */
+               unsigned long   gr1_tlb_int14:1;                /* RW */
+               unsigned long   gr1_tlb_int15:1;                /* RW */
+               unsigned long   rtc_interval_int:1;             /* RW */
+               unsigned long   bau_dashboard_int:1;            /* RW */
+               unsigned long   rsvd_52_63:12;
        } s2;
-       struct uv3h_gr0_tlb_mmr_read_data_lo_s {
-               unsigned long   vpn:39;                         /* RO */
-               unsigned long   asid:24;                        /* RO */
-               unsigned long   valid:1;                        /* RO */
-       } s3;
-       struct uv4h_gr0_tlb_mmr_read_data_lo_s {
-               unsigned long   vpn:39;                         /* RO */
-               unsigned long   asid:24;                        /* RO */
-               unsigned long   valid:1;                        /* RO */
-       } s4;
 };
 
 /* ========================================================================= */
-/*                         UVH_GR1_TLB_INT0_CONFIG                           */
+/*                        UVH_EVENT_OCCURRED1_ALIAS                          */
 /* ========================================================================= */
-#define UV2H_GR1_TLB_INT0_CONFIG 0x61f00UL
-#define UV3H_GR1_TLB_INT0_CONFIG 0x61f00UL
-#define UV4H_GR1_TLB_INT0_CONFIG 0x62100UL
-#define UVH_GR1_TLB_INT0_CONFIG (                                      \
-       is_uv2_hub() ? UV2H_GR1_TLB_INT0_CONFIG :                       \
-       is_uv3_hub() ? UV3H_GR1_TLB_INT0_CONFIG :                       \
-       /*is_uv4_hub*/ UV4H_GR1_TLB_INT0_CONFIG)
-
-#define UVH_GR1_TLB_INT0_CONFIG_VECTOR_SHFT            0
-#define UVH_GR1_TLB_INT0_CONFIG_DM_SHFT                        8
-#define UVH_GR1_TLB_INT0_CONFIG_DESTMODE_SHFT          11
-#define UVH_GR1_TLB_INT0_CONFIG_STATUS_SHFT            12
-#define UVH_GR1_TLB_INT0_CONFIG_P_SHFT                 13
-#define UVH_GR1_TLB_INT0_CONFIG_T_SHFT                 15
-#define UVH_GR1_TLB_INT0_CONFIG_M_SHFT                 16
-#define UVH_GR1_TLB_INT0_CONFIG_APIC_ID_SHFT           32
-#define UVH_GR1_TLB_INT0_CONFIG_VECTOR_MASK            0x00000000000000ffUL
-#define UVH_GR1_TLB_INT0_CONFIG_DM_MASK                        0x0000000000000700UL
-#define UVH_GR1_TLB_INT0_CONFIG_DESTMODE_MASK          0x0000000000000800UL
-#define UVH_GR1_TLB_INT0_CONFIG_STATUS_MASK            0x0000000000001000UL
-#define UVH_GR1_TLB_INT0_CONFIG_P_MASK                 0x0000000000002000UL
-#define UVH_GR1_TLB_INT0_CONFIG_T_MASK                 0x0000000000008000UL
-#define UVH_GR1_TLB_INT0_CONFIG_M_MASK                 0x0000000000010000UL
-#define UVH_GR1_TLB_INT0_CONFIG_APIC_ID_MASK           0xffffffff00000000UL
+#define UVH_EVENT_OCCURRED1_ALIAS 0x70088UL
 
 
-union uvh_gr1_tlb_int0_config_u {
-       unsigned long   v;
-       struct uvh_gr1_tlb_int0_config_s {
-               unsigned long   vector_:8;                      /* RW */
-               unsigned long   dm:3;                           /* RW */
-               unsigned long   destmode:1;                     /* RW */
-               unsigned long   status:1;                       /* RO */
-               unsigned long   p:1;                            /* RO */
-               unsigned long   rsvd_14:1;
-               unsigned long   t:1;                            /* RO */
-               unsigned long   m:1;                            /* RW */
-               unsigned long   rsvd_17_31:15;
-               unsigned long   apic_id:32;                     /* RW */
-       } s;
-};
-
 /* ========================================================================= */
-/*                         UVH_GR1_TLB_INT1_CONFIG                           */
+/*                           UVH_EVENT_OCCURRED2                             */
 /* ========================================================================= */
-#define UV2H_GR1_TLB_INT1_CONFIG 0x61f40UL
-#define UV3H_GR1_TLB_INT1_CONFIG 0x61f40UL
-#define UV4H_GR1_TLB_INT1_CONFIG 0x62140UL
-#define UVH_GR1_TLB_INT1_CONFIG (                                      \
-       is_uv2_hub() ? UV2H_GR1_TLB_INT1_CONFIG :                       \
-       is_uv3_hub() ? UV3H_GR1_TLB_INT1_CONFIG :                       \
-       /*is_uv4_hub*/ UV4H_GR1_TLB_INT1_CONFIG)
-
-#define UVH_GR1_TLB_INT1_CONFIG_VECTOR_SHFT            0
-#define UVH_GR1_TLB_INT1_CONFIG_DM_SHFT                        8
-#define UVH_GR1_TLB_INT1_CONFIG_DESTMODE_SHFT          11
-#define UVH_GR1_TLB_INT1_CONFIG_STATUS_SHFT            12
-#define UVH_GR1_TLB_INT1_CONFIG_P_SHFT                 13
-#define UVH_GR1_TLB_INT1_CONFIG_T_SHFT                 15
-#define UVH_GR1_TLB_INT1_CONFIG_M_SHFT                 16
-#define UVH_GR1_TLB_INT1_CONFIG_APIC_ID_SHFT           32
-#define UVH_GR1_TLB_INT1_CONFIG_VECTOR_MASK            0x00000000000000ffUL
-#define UVH_GR1_TLB_INT1_CONFIG_DM_MASK                        0x0000000000000700UL
-#define UVH_GR1_TLB_INT1_CONFIG_DESTMODE_MASK          0x0000000000000800UL
-#define UVH_GR1_TLB_INT1_CONFIG_STATUS_MASK            0x0000000000001000UL
-#define UVH_GR1_TLB_INT1_CONFIG_P_MASK                 0x0000000000002000UL
-#define UVH_GR1_TLB_INT1_CONFIG_T_MASK                 0x0000000000008000UL
-#define UVH_GR1_TLB_INT1_CONFIG_M_MASK                 0x0000000000010000UL
-#define UVH_GR1_TLB_INT1_CONFIG_APIC_ID_MASK           0xffffffff00000000UL
+#define UVH_EVENT_OCCURRED2 0x70100UL
+
+
+
+/* UVYH common defines */
+#define UVYH_EVENT_OCCURRED2_RTC_INTERVAL_INT_SHFT     0
+#define UVYH_EVENT_OCCURRED2_RTC_INTERVAL_INT_MASK     0x0000000000000001UL
+#define UVYH_EVENT_OCCURRED2_BAU_DASHBOARD_INT_SHFT    1
+#define UVYH_EVENT_OCCURRED2_BAU_DASHBOARD_INT_MASK    0x0000000000000002UL
+#define UVYH_EVENT_OCCURRED2_RTC_0_SHFT                        2
+#define UVYH_EVENT_OCCURRED2_RTC_0_MASK                        0x0000000000000004UL
+#define UVYH_EVENT_OCCURRED2_RTC_1_SHFT                        3
+#define UVYH_EVENT_OCCURRED2_RTC_1_MASK                        0x0000000000000008UL
+#define UVYH_EVENT_OCCURRED2_RTC_2_SHFT                        4
+#define UVYH_EVENT_OCCURRED2_RTC_2_MASK                        0x0000000000000010UL
+#define UVYH_EVENT_OCCURRED2_RTC_3_SHFT                        5
+#define UVYH_EVENT_OCCURRED2_RTC_3_MASK                        0x0000000000000020UL
+#define UVYH_EVENT_OCCURRED2_RTC_4_SHFT                        6
+#define UVYH_EVENT_OCCURRED2_RTC_4_MASK                        0x0000000000000040UL
+#define UVYH_EVENT_OCCURRED2_RTC_5_SHFT                        7
+#define UVYH_EVENT_OCCURRED2_RTC_5_MASK                        0x0000000000000080UL
+#define UVYH_EVENT_OCCURRED2_RTC_6_SHFT                        8
+#define UVYH_EVENT_OCCURRED2_RTC_6_MASK                        0x0000000000000100UL
+#define UVYH_EVENT_OCCURRED2_RTC_7_SHFT                        9
+#define UVYH_EVENT_OCCURRED2_RTC_7_MASK                        0x0000000000000200UL
+#define UVYH_EVENT_OCCURRED2_RTC_8_SHFT                        10
+#define UVYH_EVENT_OCCURRED2_RTC_8_MASK                        0x0000000000000400UL
+#define UVYH_EVENT_OCCURRED2_RTC_9_SHFT                        11
+#define UVYH_EVENT_OCCURRED2_RTC_9_MASK                        0x0000000000000800UL
+#define UVYH_EVENT_OCCURRED2_RTC_10_SHFT               12
+#define UVYH_EVENT_OCCURRED2_RTC_10_MASK               0x0000000000001000UL
+#define UVYH_EVENT_OCCURRED2_RTC_11_SHFT               13
+#define UVYH_EVENT_OCCURRED2_RTC_11_MASK               0x0000000000002000UL
+#define UVYH_EVENT_OCCURRED2_RTC_12_SHFT               14
+#define UVYH_EVENT_OCCURRED2_RTC_12_MASK               0x0000000000004000UL
+#define UVYH_EVENT_OCCURRED2_RTC_13_SHFT               15
+#define UVYH_EVENT_OCCURRED2_RTC_13_MASK               0x0000000000008000UL
+#define UVYH_EVENT_OCCURRED2_RTC_14_SHFT               16
+#define UVYH_EVENT_OCCURRED2_RTC_14_MASK               0x0000000000010000UL
+#define UVYH_EVENT_OCCURRED2_RTC_15_SHFT               17
+#define UVYH_EVENT_OCCURRED2_RTC_15_MASK               0x0000000000020000UL
+#define UVYH_EVENT_OCCURRED2_RTC_16_SHFT               18
+#define UVYH_EVENT_OCCURRED2_RTC_16_MASK               0x0000000000040000UL
+#define UVYH_EVENT_OCCURRED2_RTC_17_SHFT               19
+#define UVYH_EVENT_OCCURRED2_RTC_17_MASK               0x0000000000080000UL
+#define UVYH_EVENT_OCCURRED2_RTC_18_SHFT               20
+#define UVYH_EVENT_OCCURRED2_RTC_18_MASK               0x0000000000100000UL
+#define UVYH_EVENT_OCCURRED2_RTC_19_SHFT               21
+#define UVYH_EVENT_OCCURRED2_RTC_19_MASK               0x0000000000200000UL
+#define UVYH_EVENT_OCCURRED2_RTC_20_SHFT               22
+#define UVYH_EVENT_OCCURRED2_RTC_20_MASK               0x0000000000400000UL
+#define UVYH_EVENT_OCCURRED2_RTC_21_SHFT               23
+#define UVYH_EVENT_OCCURRED2_RTC_21_MASK               0x0000000000800000UL
+#define UVYH_EVENT_OCCURRED2_RTC_22_SHFT               24
+#define UVYH_EVENT_OCCURRED2_RTC_22_MASK               0x0000000001000000UL
+#define UVYH_EVENT_OCCURRED2_RTC_23_SHFT               25
+#define UVYH_EVENT_OCCURRED2_RTC_23_MASK               0x0000000002000000UL
+#define UVYH_EVENT_OCCURRED2_RTC_24_SHFT               26
+#define UVYH_EVENT_OCCURRED2_RTC_24_MASK               0x0000000004000000UL
+#define UVYH_EVENT_OCCURRED2_RTC_25_SHFT               27
+#define UVYH_EVENT_OCCURRED2_RTC_25_MASK               0x0000000008000000UL
+#define UVYH_EVENT_OCCURRED2_RTC_26_SHFT               28
+#define UVYH_EVENT_OCCURRED2_RTC_26_MASK               0x0000000010000000UL
+#define UVYH_EVENT_OCCURRED2_RTC_27_SHFT               29
+#define UVYH_EVENT_OCCURRED2_RTC_27_MASK               0x0000000020000000UL
+#define UVYH_EVENT_OCCURRED2_RTC_28_SHFT               30
+#define UVYH_EVENT_OCCURRED2_RTC_28_MASK               0x0000000040000000UL
+#define UVYH_EVENT_OCCURRED2_RTC_29_SHFT               31
+#define UVYH_EVENT_OCCURRED2_RTC_29_MASK               0x0000000080000000UL
+#define UVYH_EVENT_OCCURRED2_RTC_30_SHFT               32
+#define UVYH_EVENT_OCCURRED2_RTC_30_MASK               0x0000000100000000UL
+#define UVYH_EVENT_OCCURRED2_RTC_31_SHFT               33
+#define UVYH_EVENT_OCCURRED2_RTC_31_MASK               0x0000000200000000UL
+
+/* UV4 unique defines */
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT0_SHFT 0
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT0_MASK 0x0000000000000001UL
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT1_SHFT 1
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT1_MASK 0x0000000000000002UL
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT2_SHFT 2
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT2_MASK 0x0000000000000004UL
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT3_SHFT 3
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT3_MASK 0x0000000000000008UL
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT4_SHFT 4
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT4_MASK 0x0000000000000010UL
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT5_SHFT 5
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT5_MASK 0x0000000000000020UL
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT6_SHFT 6
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT6_MASK 0x0000000000000040UL
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT7_SHFT 7
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT7_MASK 0x0000000000000080UL
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT8_SHFT 8
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT8_MASK 0x0000000000000100UL
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT9_SHFT 9
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT9_MASK 0x0000000000000200UL
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT10_SHFT 10
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT10_MASK 0x0000000000000400UL
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT11_SHFT 11
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT11_MASK 0x0000000000000800UL
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT12_SHFT 12
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT12_MASK 0x0000000000001000UL
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT13_SHFT 13
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT13_MASK 0x0000000000002000UL
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT14_SHFT 14
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT14_MASK 0x0000000000004000UL
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT15_SHFT 15
+#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT15_MASK 0x0000000000008000UL
+#define UV4H_EVENT_OCCURRED2_RTC_INTERVAL_INT_SHFT     16
+#define UV4H_EVENT_OCCURRED2_RTC_INTERVAL_INT_MASK     0x0000000000010000UL
+#define UV4H_EVENT_OCCURRED2_BAU_DASHBOARD_INT_SHFT    17
+#define UV4H_EVENT_OCCURRED2_BAU_DASHBOARD_INT_MASK    0x0000000000020000UL
+#define UV4H_EVENT_OCCURRED2_RTC_0_SHFT                        18
+#define UV4H_EVENT_OCCURRED2_RTC_0_MASK                        0x0000000000040000UL
+#define UV4H_EVENT_OCCURRED2_RTC_1_SHFT                        19
+#define UV4H_EVENT_OCCURRED2_RTC_1_MASK                        0x0000000000080000UL
+#define UV4H_EVENT_OCCURRED2_RTC_2_SHFT                        20
+#define UV4H_EVENT_OCCURRED2_RTC_2_MASK                        0x0000000000100000UL
+#define UV4H_EVENT_OCCURRED2_RTC_3_SHFT                        21
+#define UV4H_EVENT_OCCURRED2_RTC_3_MASK                        0x0000000000200000UL
+#define UV4H_EVENT_OCCURRED2_RTC_4_SHFT                        22
+#define UV4H_EVENT_OCCURRED2_RTC_4_MASK                        0x0000000000400000UL
+#define UV4H_EVENT_OCCURRED2_RTC_5_SHFT                        23
+#define UV4H_EVENT_OCCURRED2_RTC_5_MASK                        0x0000000000800000UL
+#define UV4H_EVENT_OCCURRED2_RTC_6_SHFT                        24
+#define UV4H_EVENT_OCCURRED2_RTC_6_MASK                        0x0000000001000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_7_SHFT                        25
+#define UV4H_EVENT_OCCURRED2_RTC_7_MASK                        0x0000000002000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_8_SHFT                        26
+#define UV4H_EVENT_OCCURRED2_RTC_8_MASK                        0x0000000004000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_9_SHFT                        27
+#define UV4H_EVENT_OCCURRED2_RTC_9_MASK                        0x0000000008000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_10_SHFT               28
+#define UV4H_EVENT_OCCURRED2_RTC_10_MASK               0x0000000010000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_11_SHFT               29
+#define UV4H_EVENT_OCCURRED2_RTC_11_MASK               0x0000000020000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_12_SHFT               30
+#define UV4H_EVENT_OCCURRED2_RTC_12_MASK               0x0000000040000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_13_SHFT               31
+#define UV4H_EVENT_OCCURRED2_RTC_13_MASK               0x0000000080000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_14_SHFT               32
+#define UV4H_EVENT_OCCURRED2_RTC_14_MASK               0x0000000100000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_15_SHFT               33
+#define UV4H_EVENT_OCCURRED2_RTC_15_MASK               0x0000000200000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_16_SHFT               34
+#define UV4H_EVENT_OCCURRED2_RTC_16_MASK               0x0000000400000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_17_SHFT               35
+#define UV4H_EVENT_OCCURRED2_RTC_17_MASK               0x0000000800000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_18_SHFT               36
+#define UV4H_EVENT_OCCURRED2_RTC_18_MASK               0x0000001000000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_19_SHFT               37
+#define UV4H_EVENT_OCCURRED2_RTC_19_MASK               0x0000002000000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_20_SHFT               38
+#define UV4H_EVENT_OCCURRED2_RTC_20_MASK               0x0000004000000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_21_SHFT               39
+#define UV4H_EVENT_OCCURRED2_RTC_21_MASK               0x0000008000000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_22_SHFT               40
+#define UV4H_EVENT_OCCURRED2_RTC_22_MASK               0x0000010000000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_23_SHFT               41
+#define UV4H_EVENT_OCCURRED2_RTC_23_MASK               0x0000020000000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_24_SHFT               42
+#define UV4H_EVENT_OCCURRED2_RTC_24_MASK               0x0000040000000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_25_SHFT               43
+#define UV4H_EVENT_OCCURRED2_RTC_25_MASK               0x0000080000000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_26_SHFT               44
+#define UV4H_EVENT_OCCURRED2_RTC_26_MASK               0x0000100000000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_27_SHFT               45
+#define UV4H_EVENT_OCCURRED2_RTC_27_MASK               0x0000200000000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_28_SHFT               46
+#define UV4H_EVENT_OCCURRED2_RTC_28_MASK               0x0000400000000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_29_SHFT               47
+#define UV4H_EVENT_OCCURRED2_RTC_29_MASK               0x0000800000000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_30_SHFT               48
+#define UV4H_EVENT_OCCURRED2_RTC_30_MASK               0x0001000000000000UL
+#define UV4H_EVENT_OCCURRED2_RTC_31_SHFT               49
+#define UV4H_EVENT_OCCURRED2_RTC_31_MASK               0x0002000000000000UL
+
+/* UV3 unique defines */
+#define UV3H_EVENT_OCCURRED2_RTC_0_SHFT                        0
+#define UV3H_EVENT_OCCURRED2_RTC_0_MASK                        0x0000000000000001UL
+#define UV3H_EVENT_OCCURRED2_RTC_1_SHFT                        1
+#define UV3H_EVENT_OCCURRED2_RTC_1_MASK                        0x0000000000000002UL
+#define UV3H_EVENT_OCCURRED2_RTC_2_SHFT                        2
+#define UV3H_EVENT_OCCURRED2_RTC_2_MASK                        0x0000000000000004UL
+#define UV3H_EVENT_OCCURRED2_RTC_3_SHFT                        3
+#define UV3H_EVENT_OCCURRED2_RTC_3_MASK                        0x0000000000000008UL
+#define UV3H_EVENT_OCCURRED2_RTC_4_SHFT                        4
+#define UV3H_EVENT_OCCURRED2_RTC_4_MASK                        0x0000000000000010UL
+#define UV3H_EVENT_OCCURRED2_RTC_5_SHFT                        5
+#define UV3H_EVENT_OCCURRED2_RTC_5_MASK                        0x0000000000000020UL
+#define UV3H_EVENT_OCCURRED2_RTC_6_SHFT                        6
+#define UV3H_EVENT_OCCURRED2_RTC_6_MASK                        0x0000000000000040UL
+#define UV3H_EVENT_OCCURRED2_RTC_7_SHFT                        7
+#define UV3H_EVENT_OCCURRED2_RTC_7_MASK                        0x0000000000000080UL
+#define UV3H_EVENT_OCCURRED2_RTC_8_SHFT                        8
+#define UV3H_EVENT_OCCURRED2_RTC_8_MASK                        0x0000000000000100UL
+#define UV3H_EVENT_OCCURRED2_RTC_9_SHFT                        9
+#define UV3H_EVENT_OCCURRED2_RTC_9_MASK                        0x0000000000000200UL
+#define UV3H_EVENT_OCCURRED2_RTC_10_SHFT               10
+#define UV3H_EVENT_OCCURRED2_RTC_10_MASK               0x0000000000000400UL
+#define UV3H_EVENT_OCCURRED2_RTC_11_SHFT               11
+#define UV3H_EVENT_OCCURRED2_RTC_11_MASK               0x0000000000000800UL
+#define UV3H_EVENT_OCCURRED2_RTC_12_SHFT               12
+#define UV3H_EVENT_OCCURRED2_RTC_12_MASK               0x0000000000001000UL
+#define UV3H_EVENT_OCCURRED2_RTC_13_SHFT               13
+#define UV3H_EVENT_OCCURRED2_RTC_13_MASK               0x0000000000002000UL
+#define UV3H_EVENT_OCCURRED2_RTC_14_SHFT               14
+#define UV3H_EVENT_OCCURRED2_RTC_14_MASK               0x0000000000004000UL
+#define UV3H_EVENT_OCCURRED2_RTC_15_SHFT               15
+#define UV3H_EVENT_OCCURRED2_RTC_15_MASK               0x0000000000008000UL
+#define UV3H_EVENT_OCCURRED2_RTC_16_SHFT               16
+#define UV3H_EVENT_OCCURRED2_RTC_16_MASK               0x0000000000010000UL
+#define UV3H_EVENT_OCCURRED2_RTC_17_SHFT               17
+#define UV3H_EVENT_OCCURRED2_RTC_17_MASK               0x0000000000020000UL
+#define UV3H_EVENT_OCCURRED2_RTC_18_SHFT               18
+#define UV3H_EVENT_OCCURRED2_RTC_18_MASK               0x0000000000040000UL
+#define UV3H_EVENT_OCCURRED2_RTC_19_SHFT               19
+#define UV3H_EVENT_OCCURRED2_RTC_19_MASK               0x0000000000080000UL
+#define UV3H_EVENT_OCCURRED2_RTC_20_SHFT               20
+#define UV3H_EVENT_OCCURRED2_RTC_20_MASK               0x0000000000100000UL
+#define UV3H_EVENT_OCCURRED2_RTC_21_SHFT               21
+#define UV3H_EVENT_OCCURRED2_RTC_21_MASK               0x0000000000200000UL
+#define UV3H_EVENT_OCCURRED2_RTC_22_SHFT               22
+#define UV3H_EVENT_OCCURRED2_RTC_22_MASK               0x0000000000400000UL
+#define UV3H_EVENT_OCCURRED2_RTC_23_SHFT               23
+#define UV3H_EVENT_OCCURRED2_RTC_23_MASK               0x0000000000800000UL
+#define UV3H_EVENT_OCCURRED2_RTC_24_SHFT               24
+#define UV3H_EVENT_OCCURRED2_RTC_24_MASK               0x0000000001000000UL
+#define UV3H_EVENT_OCCURRED2_RTC_25_SHFT               25
+#define UV3H_EVENT_OCCURRED2_RTC_25_MASK               0x0000000002000000UL
+#define UV3H_EVENT_OCCURRED2_RTC_26_SHFT               26
+#define UV3H_EVENT_OCCURRED2_RTC_26_MASK               0x0000000004000000UL
+#define UV3H_EVENT_OCCURRED2_RTC_27_SHFT               27
+#define UV3H_EVENT_OCCURRED2_RTC_27_MASK               0x0000000008000000UL
+#define UV3H_EVENT_OCCURRED2_RTC_28_SHFT               28
+#define UV3H_EVENT_OCCURRED2_RTC_28_MASK               0x0000000010000000UL
+#define UV3H_EVENT_OCCURRED2_RTC_29_SHFT               29
+#define UV3H_EVENT_OCCURRED2_RTC_29_MASK               0x0000000020000000UL
+#define UV3H_EVENT_OCCURRED2_RTC_30_SHFT               30
+#define UV3H_EVENT_OCCURRED2_RTC_30_MASK               0x0000000040000000UL
+#define UV3H_EVENT_OCCURRED2_RTC_31_SHFT               31
+#define UV3H_EVENT_OCCURRED2_RTC_31_MASK               0x0000000080000000UL
+
+/* UV2 unique defines */
+#define UV2H_EVENT_OCCURRED2_RTC_0_SHFT                        0
+#define UV2H_EVENT_OCCURRED2_RTC_0_MASK                        0x0000000000000001UL
+#define UV2H_EVENT_OCCURRED2_RTC_1_SHFT                        1
+#define UV2H_EVENT_OCCURRED2_RTC_1_MASK                        0x0000000000000002UL
+#define UV2H_EVENT_OCCURRED2_RTC_2_SHFT                        2
+#define UV2H_EVENT_OCCURRED2_RTC_2_MASK                        0x0000000000000004UL
+#define UV2H_EVENT_OCCURRED2_RTC_3_SHFT                        3
+#define UV2H_EVENT_OCCURRED2_RTC_3_MASK                        0x0000000000000008UL
+#define UV2H_EVENT_OCCURRED2_RTC_4_SHFT                        4
+#define UV2H_EVENT_OCCURRED2_RTC_4_MASK                        0x0000000000000010UL
+#define UV2H_EVENT_OCCURRED2_RTC_5_SHFT                        5
+#define UV2H_EVENT_OCCURRED2_RTC_5_MASK                        0x0000000000000020UL
+#define UV2H_EVENT_OCCURRED2_RTC_6_SHFT                        6
+#define UV2H_EVENT_OCCURRED2_RTC_6_MASK                        0x0000000000000040UL
+#define UV2H_EVENT_OCCURRED2_RTC_7_SHFT                        7
+#define UV2H_EVENT_OCCURRED2_RTC_7_MASK                        0x0000000000000080UL
+#define UV2H_EVENT_OCCURRED2_RTC_8_SHFT                        8
+#define UV2H_EVENT_OCCURRED2_RTC_8_MASK                        0x0000000000000100UL
+#define UV2H_EVENT_OCCURRED2_RTC_9_SHFT                        9
+#define UV2H_EVENT_OCCURRED2_RTC_9_MASK                        0x0000000000000200UL
+#define UV2H_EVENT_OCCURRED2_RTC_10_SHFT               10
+#define UV2H_EVENT_OCCURRED2_RTC_10_MASK               0x0000000000000400UL
+#define UV2H_EVENT_OCCURRED2_RTC_11_SHFT               11
+#define UV2H_EVENT_OCCURRED2_RTC_11_MASK               0x0000000000000800UL
+#define UV2H_EVENT_OCCURRED2_RTC_12_SHFT               12
+#define UV2H_EVENT_OCCURRED2_RTC_12_MASK               0x0000000000001000UL
+#define UV2H_EVENT_OCCURRED2_RTC_13_SHFT               13
+#define UV2H_EVENT_OCCURRED2_RTC_13_MASK               0x0000000000002000UL
+#define UV2H_EVENT_OCCURRED2_RTC_14_SHFT               14
+#define UV2H_EVENT_OCCURRED2_RTC_14_MASK               0x0000000000004000UL
+#define UV2H_EVENT_OCCURRED2_RTC_15_SHFT               15
+#define UV2H_EVENT_OCCURRED2_RTC_15_MASK               0x0000000000008000UL
+#define UV2H_EVENT_OCCURRED2_RTC_16_SHFT               16
+#define UV2H_EVENT_OCCURRED2_RTC_16_MASK               0x0000000000010000UL
+#define UV2H_EVENT_OCCURRED2_RTC_17_SHFT               17
+#define UV2H_EVENT_OCCURRED2_RTC_17_MASK               0x0000000000020000UL
+#define UV2H_EVENT_OCCURRED2_RTC_18_SHFT               18
+#define UV2H_EVENT_OCCURRED2_RTC_18_MASK               0x0000000000040000UL
+#define UV2H_EVENT_OCCURRED2_RTC_19_SHFT               19
+#define UV2H_EVENT_OCCURRED2_RTC_19_MASK               0x0000000000080000UL
+#define UV2H_EVENT_OCCURRED2_RTC_20_SHFT               20
+#define UV2H_EVENT_OCCURRED2_RTC_20_MASK               0x0000000000100000UL
+#define UV2H_EVENT_OCCURRED2_RTC_21_SHFT               21
+#define UV2H_EVENT_OCCURRED2_RTC_21_MASK               0x0000000000200000UL
+#define UV2H_EVENT_OCCURRED2_RTC_22_SHFT               22
+#define UV2H_EVENT_OCCURRED2_RTC_22_MASK               0x0000000000400000UL
+#define UV2H_EVENT_OCCURRED2_RTC_23_SHFT               23
+#define UV2H_EVENT_OCCURRED2_RTC_23_MASK               0x0000000000800000UL
+#define UV2H_EVENT_OCCURRED2_RTC_24_SHFT               24
+#define UV2H_EVENT_OCCURRED2_RTC_24_MASK               0x0000000001000000UL
+#define UV2H_EVENT_OCCURRED2_RTC_25_SHFT               25
+#define UV2H_EVENT_OCCURRED2_RTC_25_MASK               0x0000000002000000UL
+#define UV2H_EVENT_OCCURRED2_RTC_26_SHFT               26
+#define UV2H_EVENT_OCCURRED2_RTC_26_MASK               0x0000000004000000UL
+#define UV2H_EVENT_OCCURRED2_RTC_27_SHFT               27
+#define UV2H_EVENT_OCCURRED2_RTC_27_MASK               0x0000000008000000UL
+#define UV2H_EVENT_OCCURRED2_RTC_28_SHFT               28
+#define UV2H_EVENT_OCCURRED2_RTC_28_MASK               0x0000000010000000UL
+#define UV2H_EVENT_OCCURRED2_RTC_29_SHFT               29
+#define UV2H_EVENT_OCCURRED2_RTC_29_MASK               0x0000000020000000UL
+#define UV2H_EVENT_OCCURRED2_RTC_30_SHFT               30
+#define UV2H_EVENT_OCCURRED2_RTC_30_MASK               0x0000000040000000UL
+#define UV2H_EVENT_OCCURRED2_RTC_31_SHFT               31
+#define UV2H_EVENT_OCCURRED2_RTC_31_MASK               0x0000000080000000UL
+
+#define UVH_EVENT_OCCURRED2_RTC_1_MASK (                               \
+       is_uv(UV5) ? 0x0000000000000008UL :                             \
+       is_uv(UV4) ? 0x0000000000080000UL :                             \
+       is_uv(UV3) ? 0x0000000000000002UL :                             \
+       is_uv(UV2) ? 0x0000000000000002UL :                             \
+       0)
+#define UVH_EVENT_OCCURRED2_RTC_1_SHFT (                               \
+       is_uv(UV5) ? 3 :                                                \
+       is_uv(UV4) ? 19 :                                               \
+       is_uv(UV3) ? 1 :                                                \
+       is_uv(UV2) ? 1 :                                                \
+       -1)
+
+union uvyh_event_occurred2_u {
+       unsigned long   v;
+
+       /* UVYH common struct */
+       struct uvyh_event_occurred2_s {
+               unsigned long   rtc_interval_int:1;             /* RW */
+               unsigned long   bau_dashboard_int:1;            /* RW */
+               unsigned long   rtc_0:1;                        /* RW */
+               unsigned long   rtc_1:1;                        /* RW */
+               unsigned long   rtc_2:1;                        /* RW */
+               unsigned long   rtc_3:1;                        /* RW */
+               unsigned long   rtc_4:1;                        /* RW */
+               unsigned long   rtc_5:1;                        /* RW */
+               unsigned long   rtc_6:1;                        /* RW */
+               unsigned long   rtc_7:1;                        /* RW */
+               unsigned long   rtc_8:1;                        /* RW */
+               unsigned long   rtc_9:1;                        /* RW */
+               unsigned long   rtc_10:1;                       /* RW */
+               unsigned long   rtc_11:1;                       /* RW */
+               unsigned long   rtc_12:1;                       /* RW */
+               unsigned long   rtc_13:1;                       /* RW */
+               unsigned long   rtc_14:1;                       /* RW */
+               unsigned long   rtc_15:1;                       /* RW */
+               unsigned long   rtc_16:1;                       /* RW */
+               unsigned long   rtc_17:1;                       /* RW */
+               unsigned long   rtc_18:1;                       /* RW */
+               unsigned long   rtc_19:1;                       /* RW */
+               unsigned long   rtc_20:1;                       /* RW */
+               unsigned long   rtc_21:1;                       /* RW */
+               unsigned long   rtc_22:1;                       /* RW */
+               unsigned long   rtc_23:1;                       /* RW */
+               unsigned long   rtc_24:1;                       /* RW */
+               unsigned long   rtc_25:1;                       /* RW */
+               unsigned long   rtc_26:1;                       /* RW */
+               unsigned long   rtc_27:1;                       /* RW */
+               unsigned long   rtc_28:1;                       /* RW */
+               unsigned long   rtc_29:1;                       /* RW */
+               unsigned long   rtc_30:1;                       /* RW */
+               unsigned long   rtc_31:1;                       /* RW */
+               unsigned long   rsvd_34_63:30;
+       } sy;
+
+       /* UV5 unique struct */
+       struct uv5h_event_occurred2_s {
+               unsigned long   rtc_interval_int:1;             /* RW */
+               unsigned long   bau_dashboard_int:1;            /* RW */
+               unsigned long   rtc_0:1;                        /* RW */
+               unsigned long   rtc_1:1;                        /* RW */
+               unsigned long   rtc_2:1;                        /* RW */
+               unsigned long   rtc_3:1;                        /* RW */
+               unsigned long   rtc_4:1;                        /* RW */
+               unsigned long   rtc_5:1;                        /* RW */
+               unsigned long   rtc_6:1;                        /* RW */
+               unsigned long   rtc_7:1;                        /* RW */
+               unsigned long   rtc_8:1;                        /* RW */
+               unsigned long   rtc_9:1;                        /* RW */
+               unsigned long   rtc_10:1;                       /* RW */
+               unsigned long   rtc_11:1;                       /* RW */
+               unsigned long   rtc_12:1;                       /* RW */
+               unsigned long   rtc_13:1;                       /* RW */
+               unsigned long   rtc_14:1;                       /* RW */
+               unsigned long   rtc_15:1;                       /* RW */
+               unsigned long   rtc_16:1;                       /* RW */
+               unsigned long   rtc_17:1;                       /* RW */
+               unsigned long   rtc_18:1;                       /* RW */
+               unsigned long   rtc_19:1;                       /* RW */
+               unsigned long   rtc_20:1;                       /* RW */
+               unsigned long   rtc_21:1;                       /* RW */
+               unsigned long   rtc_22:1;                       /* RW */
+               unsigned long   rtc_23:1;                       /* RW */
+               unsigned long   rtc_24:1;                       /* RW */
+               unsigned long   rtc_25:1;                       /* RW */
+               unsigned long   rtc_26:1;                       /* RW */
+               unsigned long   rtc_27:1;                       /* RW */
+               unsigned long   rtc_28:1;                       /* RW */
+               unsigned long   rtc_29:1;                       /* RW */
+               unsigned long   rtc_30:1;                       /* RW */
+               unsigned long   rtc_31:1;                       /* RW */
+               unsigned long   rsvd_34_63:30;
+       } s5;
+
+       /* UV4 unique struct */
+       struct uv4h_event_occurred2_s {
+               unsigned long   message_accelerator_int0:1;     /* RW */
+               unsigned long   message_accelerator_int1:1;     /* RW */
+               unsigned long   message_accelerator_int2:1;     /* RW */
+               unsigned long   message_accelerator_int3:1;     /* RW */
+               unsigned long   message_accelerator_int4:1;     /* RW */
+               unsigned long   message_accelerator_int5:1;     /* RW */
+               unsigned long   message_accelerator_int6:1;     /* RW */
+               unsigned long   message_accelerator_int7:1;     /* RW */
+               unsigned long   message_accelerator_int8:1;     /* RW */
+               unsigned long   message_accelerator_int9:1;     /* RW */
+               unsigned long   message_accelerator_int10:1;    /* RW */
+               unsigned long   message_accelerator_int11:1;    /* RW */
+               unsigned long   message_accelerator_int12:1;    /* RW */
+               unsigned long   message_accelerator_int13:1;    /* RW */
+               unsigned long   message_accelerator_int14:1;    /* RW */
+               unsigned long   message_accelerator_int15:1;    /* RW */
+               unsigned long   rtc_interval_int:1;             /* RW */
+               unsigned long   bau_dashboard_int:1;            /* RW */
+               unsigned long   rtc_0:1;                        /* RW */
+               unsigned long   rtc_1:1;                        /* RW */
+               unsigned long   rtc_2:1;                        /* RW */
+               unsigned long   rtc_3:1;                        /* RW */
+               unsigned long   rtc_4:1;                        /* RW */
+               unsigned long   rtc_5:1;                        /* RW */
+               unsigned long   rtc_6:1;                        /* RW */
+               unsigned long   rtc_7:1;                        /* RW */
+               unsigned long   rtc_8:1;                        /* RW */
+               unsigned long   rtc_9:1;                        /* RW */
+               unsigned long   rtc_10:1;                       /* RW */
+               unsigned long   rtc_11:1;                       /* RW */
+               unsigned long   rtc_12:1;                       /* RW */
+               unsigned long   rtc_13:1;                       /* RW */
+               unsigned long   rtc_14:1;                       /* RW */
+               unsigned long   rtc_15:1;                       /* RW */
+               unsigned long   rtc_16:1;                       /* RW */
+               unsigned long   rtc_17:1;                       /* RW */
+               unsigned long   rtc_18:1;                       /* RW */
+               unsigned long   rtc_19:1;                       /* RW */
+               unsigned long   rtc_20:1;                       /* RW */
+               unsigned long   rtc_21:1;                       /* RW */
+               unsigned long   rtc_22:1;                       /* RW */
+               unsigned long   rtc_23:1;                       /* RW */
+               unsigned long   rtc_24:1;                       /* RW */
+               unsigned long   rtc_25:1;                       /* RW */
+               unsigned long   rtc_26:1;                       /* RW */
+               unsigned long   rtc_27:1;                       /* RW */
+               unsigned long   rtc_28:1;                       /* RW */
+               unsigned long   rtc_29:1;                       /* RW */
+               unsigned long   rtc_30:1;                       /* RW */
+               unsigned long   rtc_31:1;                       /* RW */
+               unsigned long   rsvd_50_63:14;
+       } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_event_occurred2_s {
+               unsigned long   rtc_0:1;                        /* RW */
+               unsigned long   rtc_1:1;                        /* RW */
+               unsigned long   rtc_2:1;                        /* RW */
+               unsigned long   rtc_3:1;                        /* RW */
+               unsigned long   rtc_4:1;                        /* RW */
+               unsigned long   rtc_5:1;                        /* RW */
+               unsigned long   rtc_6:1;                        /* RW */
+               unsigned long   rtc_7:1;                        /* RW */
+               unsigned long   rtc_8:1;                        /* RW */
+               unsigned long   rtc_9:1;                        /* RW */
+               unsigned long   rtc_10:1;                       /* RW */
+               unsigned long   rtc_11:1;                       /* RW */
+               unsigned long   rtc_12:1;                       /* RW */
+               unsigned long   rtc_13:1;                       /* RW */
+               unsigned long   rtc_14:1;                       /* RW */
+               unsigned long   rtc_15:1;                       /* RW */
+               unsigned long   rtc_16:1;                       /* RW */
+               unsigned long   rtc_17:1;                       /* RW */
+               unsigned long   rtc_18:1;                       /* RW */
+               unsigned long   rtc_19:1;                       /* RW */
+               unsigned long   rtc_20:1;                       /* RW */
+               unsigned long   rtc_21:1;                       /* RW */
+               unsigned long   rtc_22:1;                       /* RW */
+               unsigned long   rtc_23:1;                       /* RW */
+               unsigned long   rtc_24:1;                       /* RW */
+               unsigned long   rtc_25:1;                       /* RW */
+               unsigned long   rtc_26:1;                       /* RW */
+               unsigned long   rtc_27:1;                       /* RW */
+               unsigned long   rtc_28:1;                       /* RW */
+               unsigned long   rtc_29:1;                       /* RW */
+               unsigned long   rtc_30:1;                       /* RW */
+               unsigned long   rtc_31:1;                       /* RW */
+               unsigned long   rsvd_32_63:32;
+       } s3;
+
+       /* UV2 unique struct */
+       struct uv2h_event_occurred2_s {
+               unsigned long   rtc_0:1;                        /* RW */
+               unsigned long   rtc_1:1;                        /* RW */
+               unsigned long   rtc_2:1;                        /* RW */
+               unsigned long   rtc_3:1;                        /* RW */
+               unsigned long   rtc_4:1;                        /* RW */
+               unsigned long   rtc_5:1;                        /* RW */
+               unsigned long   rtc_6:1;                        /* RW */
+               unsigned long   rtc_7:1;                        /* RW */
+               unsigned long   rtc_8:1;                        /* RW */
+               unsigned long   rtc_9:1;                        /* RW */
+               unsigned long   rtc_10:1;                       /* RW */
+               unsigned long   rtc_11:1;                       /* RW */
+               unsigned long   rtc_12:1;                       /* RW */
+               unsigned long   rtc_13:1;                       /* RW */
+               unsigned long   rtc_14:1;                       /* RW */
+               unsigned long   rtc_15:1;                       /* RW */
+               unsigned long   rtc_16:1;                       /* RW */
+               unsigned long   rtc_17:1;                       /* RW */
+               unsigned long   rtc_18:1;                       /* RW */
+               unsigned long   rtc_19:1;                       /* RW */
+               unsigned long   rtc_20:1;                       /* RW */
+               unsigned long   rtc_21:1;                       /* RW */
+               unsigned long   rtc_22:1;                       /* RW */
+               unsigned long   rtc_23:1;                       /* RW */
+               unsigned long   rtc_24:1;                       /* RW */
+               unsigned long   rtc_25:1;                       /* RW */
+               unsigned long   rtc_26:1;                       /* RW */
+               unsigned long   rtc_27:1;                       /* RW */
+               unsigned long   rtc_28:1;                       /* RW */
+               unsigned long   rtc_29:1;                       /* RW */
+               unsigned long   rtc_30:1;                       /* RW */
+               unsigned long   rtc_31:1;                       /* RW */
+               unsigned long   rsvd_32_63:32;
+       } s2;
+};
+
+/* ========================================================================= */
+/*                        UVH_EVENT_OCCURRED2_ALIAS                          */
+/* ========================================================================= */
+#define UVH_EVENT_OCCURRED2_ALIAS 0x70108UL
+
+
+/* ========================================================================= */
+/*                         UVH_EXTIO_INT0_BROADCAST                          */
+/* ========================================================================= */
+#define UVH_EXTIO_INT0_BROADCAST 0x61448UL
+
+/* UVH common defines*/
+#define UVH_EXTIO_INT0_BROADCAST_ENABLE_SHFT           0
+#define UVH_EXTIO_INT0_BROADCAST_ENABLE_MASK           0x0000000000000001UL
+
+
+union uvh_extio_int0_broadcast_u {
+       unsigned long   v;
+
+       /* UVH common struct */
+       struct uvh_extio_int0_broadcast_s {
+               unsigned long   enable:1;                       /* RW */
+               unsigned long   rsvd_1_63:63;
+       } s;
+
+       /* UV5 unique struct */
+       struct uv5h_extio_int0_broadcast_s {
+               unsigned long   enable:1;                       /* RW */
+               unsigned long   rsvd_1_63:63;
+       } s5;
+
+       /* UV4 unique struct */
+       struct uv4h_extio_int0_broadcast_s {
+               unsigned long   enable:1;                       /* RW */
+               unsigned long   rsvd_1_63:63;
+       } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_extio_int0_broadcast_s {
+               unsigned long   enable:1;                       /* RW */
+               unsigned long   rsvd_1_63:63;
+       } s3;
+
+       /* UV2 unique struct */
+       struct uv2h_extio_int0_broadcast_s {
+               unsigned long   enable:1;                       /* RW */
+               unsigned long   rsvd_1_63:63;
+       } s2;
+};
+
+/* ========================================================================= */
+/*                          UVH_GR0_GAM_GR_CONFIG                            */
+/* ========================================================================= */
+#define UVH_GR0_GAM_GR_CONFIG (                                                \
+       is_uv(UV5) ? 0x600028UL :                                       \
+       is_uv(UV4) ? 0x600028UL :                                       \
+       is_uv(UV3) ? 0xc00028UL :                                       \
+       is_uv(UV2) ? 0xc00028UL :                                       \
+       0)
+
+
+
+/* UVYH common defines */
+#define UVYH_GR0_GAM_GR_CONFIG_SUBSPACE_SHFT           10
+#define UVYH_GR0_GAM_GR_CONFIG_SUBSPACE_MASK           0x0000000000000400UL
+
+/* UV4 unique defines */
+#define UV4H_GR0_GAM_GR_CONFIG_SUBSPACE_SHFT           10
+#define UV4H_GR0_GAM_GR_CONFIG_SUBSPACE_MASK           0x0000000000000400UL
+
+/* UV3 unique defines */
+#define UV3H_GR0_GAM_GR_CONFIG_M_SKT_SHFT              0
+#define UV3H_GR0_GAM_GR_CONFIG_M_SKT_MASK              0x000000000000003fUL
+#define UV3H_GR0_GAM_GR_CONFIG_SUBSPACE_SHFT           10
+#define UV3H_GR0_GAM_GR_CONFIG_SUBSPACE_MASK           0x0000000000000400UL
+
+/* UV2 unique defines */
+#define UV2H_GR0_GAM_GR_CONFIG_N_GR_SHFT               0
+#define UV2H_GR0_GAM_GR_CONFIG_N_GR_MASK               0x000000000000000fUL
+
+
+union uvyh_gr0_gam_gr_config_u {
+       unsigned long   v;
 
+       /* UVYH common struct */
+       struct uvyh_gr0_gam_gr_config_s {
+               unsigned long   rsvd_0_9:10;
+               unsigned long   subspace:1;                     /* RW */
+               unsigned long   rsvd_11_63:53;
+       } sy;
+
+       /* UV5 unique struct */
+       struct uv5h_gr0_gam_gr_config_s {
+               unsigned long   rsvd_0_9:10;
+               unsigned long   subspace:1;                     /* RW */
+               unsigned long   rsvd_11_63:53;
+       } s5;
+
+       /* UV4 unique struct */
+       struct uv4h_gr0_gam_gr_config_s {
+               unsigned long   rsvd_0_9:10;
+               unsigned long   subspace:1;                     /* RW */
+               unsigned long   rsvd_11_63:53;
+       } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_gr0_gam_gr_config_s {
+               unsigned long   m_skt:6;                        /* RW */
+               unsigned long   undef_6_9:4;                    /* Undefined */
+               unsigned long   subspace:1;                     /* RW */
+               unsigned long   reserved:53;
+       } s3;
+
+       /* UV2 unique struct */
+       struct uv2h_gr0_gam_gr_config_s {
+               unsigned long   n_gr:4;                         /* RW */
+               unsigned long   reserved:60;
+       } s2;
+};
+
+/* ========================================================================= */
+/*                         UVH_GR0_TLB_INT0_CONFIG                           */
+/* ========================================================================= */
+#define UVH_GR0_TLB_INT0_CONFIG (                                      \
+       is_uv(UV4) ? 0x61b00UL :                                        \
+       is_uv(UV3) ? 0x61b00UL :                                        \
+       is_uv(UV2) ? 0x61b00UL :                                        \
+       uv_undefined("UVH_GR0_TLB_INT0_CONFIG"))
+
+
+/* UVXH common defines */
+#define UVXH_GR0_TLB_INT0_CONFIG_VECTOR_SHFT           0
+#define UVXH_GR0_TLB_INT0_CONFIG_VECTOR_MASK           0x00000000000000ffUL
+#define UVXH_GR0_TLB_INT0_CONFIG_DM_SHFT               8
+#define UVXH_GR0_TLB_INT0_CONFIG_DM_MASK               0x0000000000000700UL
+#define UVXH_GR0_TLB_INT0_CONFIG_DESTMODE_SHFT         11
+#define UVXH_GR0_TLB_INT0_CONFIG_DESTMODE_MASK         0x0000000000000800UL
+#define UVXH_GR0_TLB_INT0_CONFIG_STATUS_SHFT           12
+#define UVXH_GR0_TLB_INT0_CONFIG_STATUS_MASK           0x0000000000001000UL
+#define UVXH_GR0_TLB_INT0_CONFIG_P_SHFT                        13
+#define UVXH_GR0_TLB_INT0_CONFIG_P_MASK                        0x0000000000002000UL
+#define UVXH_GR0_TLB_INT0_CONFIG_T_SHFT                        15
+#define UVXH_GR0_TLB_INT0_CONFIG_T_MASK                        0x0000000000008000UL
+#define UVXH_GR0_TLB_INT0_CONFIG_M_SHFT                        16
+#define UVXH_GR0_TLB_INT0_CONFIG_M_MASK                        0x0000000000010000UL
+#define UVXH_GR0_TLB_INT0_CONFIG_APIC_ID_SHFT          32
+#define UVXH_GR0_TLB_INT0_CONFIG_APIC_ID_MASK          0xffffffff00000000UL
+
+
+union uvh_gr0_tlb_int0_config_u {
+       unsigned long   v;
+
+       /* UVH common struct */
+       struct uvh_gr0_tlb_int0_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } s;
+
+       /* UVXH common struct */
+       struct uvxh_gr0_tlb_int0_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } sx;
+
+       /* UV4 unique struct */
+       struct uv4h_gr0_tlb_int0_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_gr0_tlb_int0_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } s3;
+
+       /* UV2 unique struct */
+       struct uv2h_gr0_tlb_int0_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } s2;
+};
+
+/* ========================================================================= */
+/*                         UVH_GR0_TLB_INT1_CONFIG                           */
+/* ========================================================================= */
+#define UVH_GR0_TLB_INT1_CONFIG (                                      \
+       is_uv(UV4) ? 0x61b40UL :                                        \
+       is_uv(UV3) ? 0x61b40UL :                                        \
+       is_uv(UV2) ? 0x61b40UL :                                        \
+       uv_undefined("UVH_GR0_TLB_INT1_CONFIG"))
+
+
+/* UVXH common defines */
+#define UVXH_GR0_TLB_INT1_CONFIG_VECTOR_SHFT           0
+#define UVXH_GR0_TLB_INT1_CONFIG_VECTOR_MASK           0x00000000000000ffUL
+#define UVXH_GR0_TLB_INT1_CONFIG_DM_SHFT               8
+#define UVXH_GR0_TLB_INT1_CONFIG_DM_MASK               0x0000000000000700UL
+#define UVXH_GR0_TLB_INT1_CONFIG_DESTMODE_SHFT         11
+#define UVXH_GR0_TLB_INT1_CONFIG_DESTMODE_MASK         0x0000000000000800UL
+#define UVXH_GR0_TLB_INT1_CONFIG_STATUS_SHFT           12
+#define UVXH_GR0_TLB_INT1_CONFIG_STATUS_MASK           0x0000000000001000UL
+#define UVXH_GR0_TLB_INT1_CONFIG_P_SHFT                        13
+#define UVXH_GR0_TLB_INT1_CONFIG_P_MASK                        0x0000000000002000UL
+#define UVXH_GR0_TLB_INT1_CONFIG_T_SHFT                        15
+#define UVXH_GR0_TLB_INT1_CONFIG_T_MASK                        0x0000000000008000UL
+#define UVXH_GR0_TLB_INT1_CONFIG_M_SHFT                        16
+#define UVXH_GR0_TLB_INT1_CONFIG_M_MASK                        0x0000000000010000UL
+#define UVXH_GR0_TLB_INT1_CONFIG_APIC_ID_SHFT          32
+#define UVXH_GR0_TLB_INT1_CONFIG_APIC_ID_MASK          0xffffffff00000000UL
+
+
+union uvh_gr0_tlb_int1_config_u {
+       unsigned long   v;
+
+       /* UVH common struct */
+       struct uvh_gr0_tlb_int1_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } s;
+
+       /* UVXH common struct */
+       struct uvxh_gr0_tlb_int1_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } sx;
+
+       /* UV4 unique struct */
+       struct uv4h_gr0_tlb_int1_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } s4;
 
-union uvh_gr1_tlb_int1_config_u {
-       unsigned long   v;
-       struct uvh_gr1_tlb_int1_config_s {
+       /* UV3 unique struct */
+       struct uv3h_gr0_tlb_int1_config_s {
                unsigned long   vector_:8;                      /* RW */
                unsigned long   dm:3;                           /* RW */
                unsigned long   destmode:1;                     /* RW */
@@ -1113,1326 +2433,403 @@ union uvh_gr1_tlb_int1_config_u {
                unsigned long   m:1;                            /* RW */
                unsigned long   rsvd_17_31:15;
                unsigned long   apic_id:32;                     /* RW */
-       } s;
-};
-
-/* ========================================================================= */
-/*                         UVH_GR1_TLB_MMR_CONTROL                           */
-/* ========================================================================= */
-#define UV2H_GR1_TLB_MMR_CONTROL 0x1001080UL
-#define UV3H_GR1_TLB_MMR_CONTROL 0x1001080UL
-#define UV4H_GR1_TLB_MMR_CONTROL 0x701080UL
-#define UVH_GR1_TLB_MMR_CONTROL (                                      \
-       is_uv2_hub() ? UV2H_GR1_TLB_MMR_CONTROL :                       \
-       is_uv3_hub() ? UV3H_GR1_TLB_MMR_CONTROL :                       \
-       /*is_uv4_hub*/ UV4H_GR1_TLB_MMR_CONTROL)
-
-#define UVH_GR1_TLB_MMR_CONTROL_INDEX_SHFT             0
-#define UVH_GR1_TLB_MMR_CONTROL_AUTO_VALID_EN_SHFT     16
-#define UVH_GR1_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_SHFT 20
-#define UVH_GR1_TLB_MMR_CONTROL_MMR_WRITE_SHFT         30
-#define UVH_GR1_TLB_MMR_CONTROL_MMR_READ_SHFT          31
-#define UVH_GR1_TLB_MMR_CONTROL_AUTO_VALID_EN_MASK     0x0000000000010000UL
-#define UVH_GR1_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_MASK 0x0000000000100000UL
-#define UVH_GR1_TLB_MMR_CONTROL_MMR_WRITE_MASK         0x0000000040000000UL
-#define UVH_GR1_TLB_MMR_CONTROL_MMR_READ_MASK          0x0000000080000000UL
-
-#define UVXH_GR1_TLB_MMR_CONTROL_INDEX_SHFT            0
-#define UVXH_GR1_TLB_MMR_CONTROL_AUTO_VALID_EN_SHFT    16
-#define UVXH_GR1_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_SHFT        20
-#define UVXH_GR1_TLB_MMR_CONTROL_MMR_WRITE_SHFT                30
-#define UVXH_GR1_TLB_MMR_CONTROL_MMR_READ_SHFT         31
-#define UVXH_GR1_TLB_MMR_CONTROL_MMR_OP_DONE_SHFT      32
-#define UVXH_GR1_TLB_MMR_CONTROL_AUTO_VALID_EN_MASK    0x0000000000010000UL
-#define UVXH_GR1_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_MASK        0x0000000000100000UL
-#define UVXH_GR1_TLB_MMR_CONTROL_MMR_WRITE_MASK                0x0000000040000000UL
-#define UVXH_GR1_TLB_MMR_CONTROL_MMR_READ_MASK         0x0000000080000000UL
-#define UVXH_GR1_TLB_MMR_CONTROL_MMR_OP_DONE_MASK      0x0000000100000000UL
-
-#define UV2H_GR1_TLB_MMR_CONTROL_INDEX_SHFT            0
-#define UV2H_GR1_TLB_MMR_CONTROL_MEM_SEL_SHFT          12
-#define UV2H_GR1_TLB_MMR_CONTROL_AUTO_VALID_EN_SHFT    16
-#define UV2H_GR1_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_SHFT        20
-#define UV2H_GR1_TLB_MMR_CONTROL_MMR_WRITE_SHFT                30
-#define UV2H_GR1_TLB_MMR_CONTROL_MMR_READ_SHFT         31
-#define UV2H_GR1_TLB_MMR_CONTROL_MMR_OP_DONE_SHFT      32
-#define UV2H_GR1_TLB_MMR_CONTROL_MMR_INJ_CON_SHFT      48
-#define UV2H_GR1_TLB_MMR_CONTROL_MMR_INJ_TLBRAM_SHFT   52
-#define UV2H_GR1_TLB_MMR_CONTROL_INDEX_MASK            0x0000000000000fffUL
-#define UV2H_GR1_TLB_MMR_CONTROL_MEM_SEL_MASK          0x0000000000003000UL
-#define UV2H_GR1_TLB_MMR_CONTROL_AUTO_VALID_EN_MASK    0x0000000000010000UL
-#define UV2H_GR1_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_MASK        0x0000000000100000UL
-#define UV2H_GR1_TLB_MMR_CONTROL_MMR_WRITE_MASK                0x0000000040000000UL
-#define UV2H_GR1_TLB_MMR_CONTROL_MMR_READ_MASK         0x0000000080000000UL
-#define UV2H_GR1_TLB_MMR_CONTROL_MMR_OP_DONE_MASK      0x0000000100000000UL
-#define UV2H_GR1_TLB_MMR_CONTROL_MMR_INJ_CON_MASK      0x0001000000000000UL
-#define UV2H_GR1_TLB_MMR_CONTROL_MMR_INJ_TLBRAM_MASK   0x0010000000000000UL
-
-#define UV3H_GR1_TLB_MMR_CONTROL_INDEX_SHFT            0
-#define UV3H_GR1_TLB_MMR_CONTROL_MEM_SEL_SHFT          12
-#define UV3H_GR1_TLB_MMR_CONTROL_AUTO_VALID_EN_SHFT    16
-#define UV3H_GR1_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_SHFT        20
-#define UV3H_GR1_TLB_MMR_CONTROL_ECC_SEL_SHFT          21
-#define UV3H_GR1_TLB_MMR_CONTROL_MMR_WRITE_SHFT                30
-#define UV3H_GR1_TLB_MMR_CONTROL_MMR_READ_SHFT         31
-#define UV3H_GR1_TLB_MMR_CONTROL_MMR_OP_DONE_SHFT      32
-#define UV3H_GR1_TLB_MMR_CONTROL_INDEX_MASK            0x0000000000000fffUL
-#define UV3H_GR1_TLB_MMR_CONTROL_MEM_SEL_MASK          0x0000000000003000UL
-#define UV3H_GR1_TLB_MMR_CONTROL_AUTO_VALID_EN_MASK    0x0000000000010000UL
-#define UV3H_GR1_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_MASK        0x0000000000100000UL
-#define UV3H_GR1_TLB_MMR_CONTROL_ECC_SEL_MASK          0x0000000000200000UL
-#define UV3H_GR1_TLB_MMR_CONTROL_MMR_WRITE_MASK                0x0000000040000000UL
-#define UV3H_GR1_TLB_MMR_CONTROL_MMR_READ_MASK         0x0000000080000000UL
-#define UV3H_GR1_TLB_MMR_CONTROL_MMR_OP_DONE_MASK      0x0000000100000000UL
-
-#define UV4H_GR1_TLB_MMR_CONTROL_INDEX_SHFT            0
-#define UV4H_GR1_TLB_MMR_CONTROL_MEM_SEL_SHFT          13
-#define UV4H_GR1_TLB_MMR_CONTROL_AUTO_VALID_EN_SHFT    16
-#define UV4H_GR1_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_SHFT        20
-#define UV4H_GR1_TLB_MMR_CONTROL_ECC_SEL_SHFT          21
-#define UV4H_GR1_TLB_MMR_CONTROL_MMR_WRITE_SHFT                30
-#define UV4H_GR1_TLB_MMR_CONTROL_MMR_READ_SHFT         31
-#define UV4H_GR1_TLB_MMR_CONTROL_MMR_OP_DONE_SHFT      32
-#define UV4H_GR1_TLB_MMR_CONTROL_PAGE_SIZE_SHFT                59
-#define UV4H_GR1_TLB_MMR_CONTROL_INDEX_MASK            0x0000000000001fffUL
-#define UV4H_GR1_TLB_MMR_CONTROL_MEM_SEL_MASK          0x0000000000006000UL
-#define UV4H_GR1_TLB_MMR_CONTROL_AUTO_VALID_EN_MASK    0x0000000000010000UL
-#define UV4H_GR1_TLB_MMR_CONTROL_MMR_HASH_INDEX_EN_MASK        0x0000000000100000UL
-#define UV4H_GR1_TLB_MMR_CONTROL_ECC_SEL_MASK          0x0000000000200000UL
-#define UV4H_GR1_TLB_MMR_CONTROL_MMR_WRITE_MASK                0x0000000040000000UL
-#define UV4H_GR1_TLB_MMR_CONTROL_MMR_READ_MASK         0x0000000080000000UL
-#define UV4H_GR1_TLB_MMR_CONTROL_MMR_OP_DONE_MASK      0x0000000100000000UL
-#define UV4H_GR1_TLB_MMR_CONTROL_PAGE_SIZE_MASK                0xf800000000000000UL
-
-
-union uvh_gr1_tlb_mmr_control_u {
-       unsigned long   v;
-       struct uvh_gr1_tlb_mmr_control_s {
-               unsigned long   rsvd_0_15:16;
-               unsigned long   auto_valid_en:1;                /* RW */
-               unsigned long   rsvd_17_19:3;
-               unsigned long   mmr_hash_index_en:1;            /* RW */
-               unsigned long   rsvd_21_29:9;
-               unsigned long   mmr_write:1;                    /* WP */
-               unsigned long   mmr_read:1;                     /* WP */
-               unsigned long   rsvd_32_48:17;
-               unsigned long   rsvd_49_51:3;
-               unsigned long   rsvd_52_63:12;
-       } s;
-       struct uvxh_gr1_tlb_mmr_control_s {
-               unsigned long   rsvd_0_15:16;
-               unsigned long   auto_valid_en:1;                /* RW */
-               unsigned long   rsvd_17_19:3;
-               unsigned long   mmr_hash_index_en:1;            /* RW */
-               unsigned long   rsvd_21_29:9;
-               unsigned long   mmr_write:1;                    /* WP */
-               unsigned long   mmr_read:1;                     /* WP */
-               unsigned long   mmr_op_done:1;                  /* RW */
-               unsigned long   rsvd_33_47:15;
-               unsigned long   rsvd_48:1;
-               unsigned long   rsvd_49_51:3;
-               unsigned long   rsvd_52_63:12;
-       } sx;
-       struct uv2h_gr1_tlb_mmr_control_s {
-               unsigned long   index:12;                       /* RW */
-               unsigned long   mem_sel:2;                      /* RW */
-               unsigned long   rsvd_14_15:2;
-               unsigned long   auto_valid_en:1;                /* RW */
-               unsigned long   rsvd_17_19:3;
-               unsigned long   mmr_hash_index_en:1;            /* RW */
-               unsigned long   rsvd_21_29:9;
-               unsigned long   mmr_write:1;                    /* WP */
-               unsigned long   mmr_read:1;                     /* WP */
-               unsigned long   mmr_op_done:1;                  /* RW */
-               unsigned long   rsvd_33_47:15;
-               unsigned long   mmr_inj_con:1;                  /* RW */
-               unsigned long   rsvd_49_51:3;
-               unsigned long   mmr_inj_tlbram:1;               /* RW */
-               unsigned long   rsvd_53_63:11;
-       } s2;
-       struct uv3h_gr1_tlb_mmr_control_s {
-               unsigned long   index:12;                       /* RW */
-               unsigned long   mem_sel:2;                      /* RW */
-               unsigned long   rsvd_14_15:2;
-               unsigned long   auto_valid_en:1;                /* RW */
-               unsigned long   rsvd_17_19:3;
-               unsigned long   mmr_hash_index_en:1;            /* RW */
-               unsigned long   ecc_sel:1;                      /* RW */
-               unsigned long   rsvd_22_29:8;
-               unsigned long   mmr_write:1;                    /* WP */
-               unsigned long   mmr_read:1;                     /* WP */
-               unsigned long   mmr_op_done:1;                  /* RW */
-               unsigned long   rsvd_33_47:15;
-               unsigned long   undef_48:1;                     /* Undefined */
-               unsigned long   rsvd_49_51:3;
-               unsigned long   undef_52:1;                     /* Undefined */
-               unsigned long   rsvd_53_63:11;
-       } s3;
-       struct uv4h_gr1_tlb_mmr_control_s {
-               unsigned long   index:13;                       /* RW */
-               unsigned long   mem_sel:2;                      /* RW */
-               unsigned long   rsvd_15:1;
-               unsigned long   auto_valid_en:1;                /* RW */
-               unsigned long   rsvd_17_19:3;
-               unsigned long   mmr_hash_index_en:1;            /* RW */
-               unsigned long   ecc_sel:1;                      /* RW */
-               unsigned long   rsvd_22_29:8;
-               unsigned long   mmr_write:1;                    /* WP */
-               unsigned long   mmr_read:1;                     /* WP */
-               unsigned long   mmr_op_done:1;                  /* RW */
-               unsigned long   rsvd_33_47:15;
-               unsigned long   undef_48:1;                     /* Undefined */
-               unsigned long   rsvd_49_51:3;
-               unsigned long   rsvd_52_58:7;
-               unsigned long   page_size:5;                    /* RW */
-       } s4;
-};
-
-/* ========================================================================= */
-/*                       UVH_GR1_TLB_MMR_READ_DATA_HI                        */
-/* ========================================================================= */
-#define UV2H_GR1_TLB_MMR_READ_DATA_HI 0x10010a0UL
-#define UV3H_GR1_TLB_MMR_READ_DATA_HI 0x10010a0UL
-#define UV4H_GR1_TLB_MMR_READ_DATA_HI 0x7010a0UL
-#define UVH_GR1_TLB_MMR_READ_DATA_HI (                                 \
-       is_uv2_hub() ? UV2H_GR1_TLB_MMR_READ_DATA_HI :                  \
-       is_uv3_hub() ? UV3H_GR1_TLB_MMR_READ_DATA_HI :                  \
-       /*is_uv4_hub*/ UV4H_GR1_TLB_MMR_READ_DATA_HI)
-
-#define UVH_GR1_TLB_MMR_READ_DATA_HI_PFN_SHFT          0
-
-#define UVXH_GR1_TLB_MMR_READ_DATA_HI_PFN_SHFT         0
-
-#define UV2H_GR1_TLB_MMR_READ_DATA_HI_PFN_SHFT         0
-#define UV2H_GR1_TLB_MMR_READ_DATA_HI_GAA_SHFT         41
-#define UV2H_GR1_TLB_MMR_READ_DATA_HI_DIRTY_SHFT       43
-#define UV2H_GR1_TLB_MMR_READ_DATA_HI_LARGER_SHFT      44
-#define UV2H_GR1_TLB_MMR_READ_DATA_HI_PFN_MASK         0x000001ffffffffffUL
-#define UV2H_GR1_TLB_MMR_READ_DATA_HI_GAA_MASK         0x0000060000000000UL
-#define UV2H_GR1_TLB_MMR_READ_DATA_HI_DIRTY_MASK       0x0000080000000000UL
-#define UV2H_GR1_TLB_MMR_READ_DATA_HI_LARGER_MASK      0x0000100000000000UL
-
-#define UV3H_GR1_TLB_MMR_READ_DATA_HI_PFN_SHFT         0
-#define UV3H_GR1_TLB_MMR_READ_DATA_HI_GAA_SHFT         41
-#define UV3H_GR1_TLB_MMR_READ_DATA_HI_DIRTY_SHFT       43
-#define UV3H_GR1_TLB_MMR_READ_DATA_HI_LARGER_SHFT      44
-#define UV3H_GR1_TLB_MMR_READ_DATA_HI_AA_EXT_SHFT      45
-#define UV3H_GR1_TLB_MMR_READ_DATA_HI_WAY_ECC_SHFT     55
-#define UV3H_GR1_TLB_MMR_READ_DATA_HI_PFN_MASK         0x000001ffffffffffUL
-#define UV3H_GR1_TLB_MMR_READ_DATA_HI_GAA_MASK         0x0000060000000000UL
-#define UV3H_GR1_TLB_MMR_READ_DATA_HI_DIRTY_MASK       0x0000080000000000UL
-#define UV3H_GR1_TLB_MMR_READ_DATA_HI_LARGER_MASK      0x0000100000000000UL
-#define UV3H_GR1_TLB_MMR_READ_DATA_HI_AA_EXT_MASK      0x0000200000000000UL
-#define UV3H_GR1_TLB_MMR_READ_DATA_HI_WAY_ECC_MASK     0xff80000000000000UL
-
-#define UV4H_GR1_TLB_MMR_READ_DATA_HI_PFN_SHFT         0
-#define UV4H_GR1_TLB_MMR_READ_DATA_HI_PNID_SHFT                34
-#define UV4H_GR1_TLB_MMR_READ_DATA_HI_GAA_SHFT         49
-#define UV4H_GR1_TLB_MMR_READ_DATA_HI_DIRTY_SHFT       51
-#define UV4H_GR1_TLB_MMR_READ_DATA_HI_LARGER_SHFT      52
-#define UV4H_GR1_TLB_MMR_READ_DATA_HI_AA_EXT_SHFT      53
-#define UV4H_GR1_TLB_MMR_READ_DATA_HI_WAY_ECC_SHFT     55
-#define UV4H_GR1_TLB_MMR_READ_DATA_HI_PFN_MASK         0x00000003ffffffffUL
-#define UV4H_GR1_TLB_MMR_READ_DATA_HI_PNID_MASK                0x0001fffc00000000UL
-#define UV4H_GR1_TLB_MMR_READ_DATA_HI_GAA_MASK         0x0006000000000000UL
-#define UV4H_GR1_TLB_MMR_READ_DATA_HI_DIRTY_MASK       0x0008000000000000UL
-#define UV4H_GR1_TLB_MMR_READ_DATA_HI_LARGER_MASK      0x0010000000000000UL
-#define UV4H_GR1_TLB_MMR_READ_DATA_HI_AA_EXT_MASK      0x0020000000000000UL
-#define UV4H_GR1_TLB_MMR_READ_DATA_HI_WAY_ECC_MASK     0xff80000000000000UL
-
-
-union uvh_gr1_tlb_mmr_read_data_hi_u {
-       unsigned long   v;
-       struct uv2h_gr1_tlb_mmr_read_data_hi_s {
-               unsigned long   pfn:41;                         /* RO */
-               unsigned long   gaa:2;                          /* RO */
-               unsigned long   dirty:1;                        /* RO */
-               unsigned long   larger:1;                       /* RO */
-               unsigned long   rsvd_45_63:19;
-       } s2;
-       struct uv3h_gr1_tlb_mmr_read_data_hi_s {
-               unsigned long   pfn:41;                         /* RO */
-               unsigned long   gaa:2;                          /* RO */
-               unsigned long   dirty:1;                        /* RO */
-               unsigned long   larger:1;                       /* RO */
-               unsigned long   aa_ext:1;                       /* RO */
-               unsigned long   undef_46_54:9;                  /* Undefined */
-               unsigned long   way_ecc:9;                      /* RO */
        } s3;
-       struct uv4h_gr1_tlb_mmr_read_data_hi_s {
-               unsigned long   pfn:34;                         /* RO */
-               unsigned long   pnid:15;                        /* RO */
-               unsigned long   gaa:2;                          /* RO */
-               unsigned long   dirty:1;                        /* RO */
-               unsigned long   larger:1;                       /* RO */
-               unsigned long   aa_ext:1;                       /* RO */
-               unsigned long   undef_54:1;                     /* Undefined */
-               unsigned long   way_ecc:9;                      /* RO */
-       } s4;
-};
 
-/* ========================================================================= */
-/*                       UVH_GR1_TLB_MMR_READ_DATA_LO                        */
-/* ========================================================================= */
-#define UV2H_GR1_TLB_MMR_READ_DATA_LO 0x10010a8UL
-#define UV3H_GR1_TLB_MMR_READ_DATA_LO 0x10010a8UL
-#define UV4H_GR1_TLB_MMR_READ_DATA_LO 0x7010a8UL
-#define UVH_GR1_TLB_MMR_READ_DATA_LO (                                 \
-       is_uv2_hub() ? UV2H_GR1_TLB_MMR_READ_DATA_LO :                  \
-       is_uv3_hub() ? UV3H_GR1_TLB_MMR_READ_DATA_LO :                  \
-       /*is_uv4_hub*/ UV4H_GR1_TLB_MMR_READ_DATA_LO)
-
-#define UVH_GR1_TLB_MMR_READ_DATA_LO_VPN_SHFT          0
-#define UVH_GR1_TLB_MMR_READ_DATA_LO_ASID_SHFT         39
-#define UVH_GR1_TLB_MMR_READ_DATA_LO_VALID_SHFT                63
-#define UVH_GR1_TLB_MMR_READ_DATA_LO_VPN_MASK          0x0000007fffffffffUL
-#define UVH_GR1_TLB_MMR_READ_DATA_LO_ASID_MASK         0x7fffff8000000000UL
-#define UVH_GR1_TLB_MMR_READ_DATA_LO_VALID_MASK                0x8000000000000000UL
-
-#define UVXH_GR1_TLB_MMR_READ_DATA_LO_VPN_SHFT         0
-#define UVXH_GR1_TLB_MMR_READ_DATA_LO_ASID_SHFT                39
-#define UVXH_GR1_TLB_MMR_READ_DATA_LO_VALID_SHFT       63
-#define UVXH_GR1_TLB_MMR_READ_DATA_LO_VPN_MASK         0x0000007fffffffffUL
-#define UVXH_GR1_TLB_MMR_READ_DATA_LO_ASID_MASK                0x7fffff8000000000UL
-#define UVXH_GR1_TLB_MMR_READ_DATA_LO_VALID_MASK       0x8000000000000000UL
-
-#define UV2H_GR1_TLB_MMR_READ_DATA_LO_VPN_SHFT         0
-#define UV2H_GR1_TLB_MMR_READ_DATA_LO_ASID_SHFT                39
-#define UV2H_GR1_TLB_MMR_READ_DATA_LO_VALID_SHFT       63
-#define UV2H_GR1_TLB_MMR_READ_DATA_LO_VPN_MASK         0x0000007fffffffffUL
-#define UV2H_GR1_TLB_MMR_READ_DATA_LO_ASID_MASK                0x7fffff8000000000UL
-#define UV2H_GR1_TLB_MMR_READ_DATA_LO_VALID_MASK       0x8000000000000000UL
-
-#define UV3H_GR1_TLB_MMR_READ_DATA_LO_VPN_SHFT         0
-#define UV3H_GR1_TLB_MMR_READ_DATA_LO_ASID_SHFT                39
-#define UV3H_GR1_TLB_MMR_READ_DATA_LO_VALID_SHFT       63
-#define UV3H_GR1_TLB_MMR_READ_DATA_LO_VPN_MASK         0x0000007fffffffffUL
-#define UV3H_GR1_TLB_MMR_READ_DATA_LO_ASID_MASK                0x7fffff8000000000UL
-#define UV3H_GR1_TLB_MMR_READ_DATA_LO_VALID_MASK       0x8000000000000000UL
-
-#define UV4H_GR1_TLB_MMR_READ_DATA_LO_VPN_SHFT         0
-#define UV4H_GR1_TLB_MMR_READ_DATA_LO_ASID_SHFT                39
-#define UV4H_GR1_TLB_MMR_READ_DATA_LO_VALID_SHFT       63
-#define UV4H_GR1_TLB_MMR_READ_DATA_LO_VPN_MASK         0x0000007fffffffffUL
-#define UV4H_GR1_TLB_MMR_READ_DATA_LO_ASID_MASK                0x7fffff8000000000UL
-#define UV4H_GR1_TLB_MMR_READ_DATA_LO_VALID_MASK       0x8000000000000000UL
-
-
-union uvh_gr1_tlb_mmr_read_data_lo_u {
-       unsigned long   v;
-       struct uvh_gr1_tlb_mmr_read_data_lo_s {
-               unsigned long   vpn:39;                         /* RO */
-               unsigned long   asid:24;                        /* RO */
-               unsigned long   valid:1;                        /* RO */
-       } s;
-       struct uvxh_gr1_tlb_mmr_read_data_lo_s {
-               unsigned long   vpn:39;                         /* RO */
-               unsigned long   asid:24;                        /* RO */
-               unsigned long   valid:1;                        /* RO */
-       } sx;
-       struct uv2h_gr1_tlb_mmr_read_data_lo_s {
-               unsigned long   vpn:39;                         /* RO */
-               unsigned long   asid:24;                        /* RO */
-               unsigned long   valid:1;                        /* RO */
+       /* UV2 unique struct */
+       struct uv2h_gr0_tlb_int1_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
        } s2;
-       struct uv3h_gr1_tlb_mmr_read_data_lo_s {
-               unsigned long   vpn:39;                         /* RO */
-               unsigned long   asid:24;                        /* RO */
-               unsigned long   valid:1;                        /* RO */
-       } s3;
-       struct uv4h_gr1_tlb_mmr_read_data_lo_s {
-               unsigned long   vpn:39;                         /* RO */
-               unsigned long   asid:24;                        /* RO */
-               unsigned long   valid:1;                        /* RO */
-       } s4;
 };
 
 /* ========================================================================= */
-/*                               UVH_INT_CMPB                                */
+/*                         UVH_GR1_TLB_INT0_CONFIG                           */
 /* ========================================================================= */
-#define UVH_INT_CMPB 0x22080UL
-
-#define UVH_INT_CMPB_REAL_TIME_CMPB_SHFT               0
-#define UVH_INT_CMPB_REAL_TIME_CMPB_MASK               0x00ffffffffffffffUL
+#define UVH_GR1_TLB_INT0_CONFIG (                                      \
+       is_uv(UV4) ? 0x62100UL :                                        \
+       is_uv(UV3) ? 0x61f00UL :                                        \
+       is_uv(UV2) ? 0x61f00UL :                                        \
+       uv_undefined("UVH_GR1_TLB_INT0_CONFIG"))
+
+
+/* UVXH common defines */
+#define UVXH_GR1_TLB_INT0_CONFIG_VECTOR_SHFT           0
+#define UVXH_GR1_TLB_INT0_CONFIG_VECTOR_MASK           0x00000000000000ffUL
+#define UVXH_GR1_TLB_INT0_CONFIG_DM_SHFT               8
+#define UVXH_GR1_TLB_INT0_CONFIG_DM_MASK               0x0000000000000700UL
+#define UVXH_GR1_TLB_INT0_CONFIG_DESTMODE_SHFT         11
+#define UVXH_GR1_TLB_INT0_CONFIG_DESTMODE_MASK         0x0000000000000800UL
+#define UVXH_GR1_TLB_INT0_CONFIG_STATUS_SHFT           12
+#define UVXH_GR1_TLB_INT0_CONFIG_STATUS_MASK           0x0000000000001000UL
+#define UVXH_GR1_TLB_INT0_CONFIG_P_SHFT                        13
+#define UVXH_GR1_TLB_INT0_CONFIG_P_MASK                        0x0000000000002000UL
+#define UVXH_GR1_TLB_INT0_CONFIG_T_SHFT                        15
+#define UVXH_GR1_TLB_INT0_CONFIG_T_MASK                        0x0000000000008000UL
+#define UVXH_GR1_TLB_INT0_CONFIG_M_SHFT                        16
+#define UVXH_GR1_TLB_INT0_CONFIG_M_MASK                        0x0000000000010000UL
+#define UVXH_GR1_TLB_INT0_CONFIG_APIC_ID_SHFT          32
+#define UVXH_GR1_TLB_INT0_CONFIG_APIC_ID_MASK          0xffffffff00000000UL
 
 
-union uvh_int_cmpb_u {
+union uvh_gr1_tlb_int0_config_u {
        unsigned long   v;
-       struct uvh_int_cmpb_s {
-               unsigned long   real_time_cmpb:56;              /* RW */
-               unsigned long   rsvd_56_63:8;
-       } s;
-};
-
-/* ========================================================================= */
-/*                               UVH_INT_CMPC                                */
-/* ========================================================================= */
-#define UVH_INT_CMPC 0x22100UL
-
-
-#define UVXH_INT_CMPC_REAL_TIME_CMP_2_SHFT             0
-#define UVXH_INT_CMPC_REAL_TIME_CMP_2_MASK             0x00ffffffffffffffUL
-
 
-union uvh_int_cmpc_u {
-       unsigned long   v;
-       struct uvh_int_cmpc_s {
-               unsigned long   real_time_cmpc:56;              /* RW */
-               unsigned long   rsvd_56_63:8;
+       /* UVH common struct */
+       struct uvh_gr1_tlb_int0_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
        } s;
-};
-
-/* ========================================================================= */
-/*                               UVH_INT_CMPD                                */
-/* ========================================================================= */
-#define UVH_INT_CMPD 0x22180UL
 
+       /* UVXH common struct */
+       struct uvxh_gr1_tlb_int0_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } sx;
 
-#define UVXH_INT_CMPD_REAL_TIME_CMP_3_SHFT             0
-#define UVXH_INT_CMPD_REAL_TIME_CMP_3_MASK             0x00ffffffffffffffUL
+       /* UV4 unique struct */
+       struct uv4h_gr1_tlb_int0_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } s4;
 
+       /* UV3 unique struct */
+       struct uv3h_gr1_tlb_int0_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } s3;
 
-union uvh_int_cmpd_u {
-       unsigned long   v;
-       struct uvh_int_cmpd_s {
-               unsigned long   real_time_cmpd:56;              /* RW */
-               unsigned long   rsvd_56_63:8;
-       } s;
+       /* UV2 unique struct */
+       struct uv2h_gr1_tlb_int0_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } s2;
 };
 
 /* ========================================================================= */
-/*                               UVH_IPI_INT                                 */
+/*                         UVH_GR1_TLB_INT1_CONFIG                           */
 /* ========================================================================= */
-#define UVH_IPI_INT 0x60500UL
-
-#define UV2H_IPI_INT_32 0x348
-#define UV3H_IPI_INT_32 0x348
-#define UV4H_IPI_INT_32 0x268
-#define UVH_IPI_INT_32 (                                               \
-       is_uv2_hub() ? UV2H_IPI_INT_32 :                                \
-       is_uv3_hub() ? UV3H_IPI_INT_32 :                                \
-       /*is_uv4_hub*/ UV4H_IPI_INT_32)
-
-#define UVH_IPI_INT_VECTOR_SHFT                                0
-#define UVH_IPI_INT_DELIVERY_MODE_SHFT                 8
-#define UVH_IPI_INT_DESTMODE_SHFT                      11
-#define UVH_IPI_INT_APIC_ID_SHFT                       16
-#define UVH_IPI_INT_SEND_SHFT                          63
-#define UVH_IPI_INT_VECTOR_MASK                                0x00000000000000ffUL
-#define UVH_IPI_INT_DELIVERY_MODE_MASK                 0x0000000000000700UL
-#define UVH_IPI_INT_DESTMODE_MASK                      0x0000000000000800UL
-#define UVH_IPI_INT_APIC_ID_MASK                       0x0000ffffffff0000UL
-#define UVH_IPI_INT_SEND_MASK                          0x8000000000000000UL
+#define UVH_GR1_TLB_INT1_CONFIG (                                      \
+       is_uv(UV4) ? 0x62140UL :                                        \
+       is_uv(UV3) ? 0x61f40UL :                                        \
+       is_uv(UV2) ? 0x61f40UL :                                        \
+       uv_undefined("UVH_GR1_TLB_INT1_CONFIG"))
+
+
+/* UVXH common defines */
+#define UVXH_GR1_TLB_INT1_CONFIG_VECTOR_SHFT           0
+#define UVXH_GR1_TLB_INT1_CONFIG_VECTOR_MASK           0x00000000000000ffUL
+#define UVXH_GR1_TLB_INT1_CONFIG_DM_SHFT               8
+#define UVXH_GR1_TLB_INT1_CONFIG_DM_MASK               0x0000000000000700UL
+#define UVXH_GR1_TLB_INT1_CONFIG_DESTMODE_SHFT         11
+#define UVXH_GR1_TLB_INT1_CONFIG_DESTMODE_MASK         0x0000000000000800UL
+#define UVXH_GR1_TLB_INT1_CONFIG_STATUS_SHFT           12
+#define UVXH_GR1_TLB_INT1_CONFIG_STATUS_MASK           0x0000000000001000UL
+#define UVXH_GR1_TLB_INT1_CONFIG_P_SHFT                        13
+#define UVXH_GR1_TLB_INT1_CONFIG_P_MASK                        0x0000000000002000UL
+#define UVXH_GR1_TLB_INT1_CONFIG_T_SHFT                        15
+#define UVXH_GR1_TLB_INT1_CONFIG_T_MASK                        0x0000000000008000UL
+#define UVXH_GR1_TLB_INT1_CONFIG_M_SHFT                        16
+#define UVXH_GR1_TLB_INT1_CONFIG_M_MASK                        0x0000000000010000UL
+#define UVXH_GR1_TLB_INT1_CONFIG_APIC_ID_SHFT          32
+#define UVXH_GR1_TLB_INT1_CONFIG_APIC_ID_MASK          0xffffffff00000000UL
 
 
-union uvh_ipi_int_u {
+union uvh_gr1_tlb_int1_config_u {
        unsigned long   v;
-       struct uvh_ipi_int_s {
+
+       /* UVH common struct */
+       struct uvh_gr1_tlb_int1_config_s {
                unsigned long   vector_:8;                      /* RW */
-               unsigned long   delivery_mode:3;                /* RW */
+               unsigned long   dm:3;                           /* RW */
                unsigned long   destmode:1;                     /* RW */
-               unsigned long   rsvd_12_15:4;
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
                unsigned long   apic_id:32;                     /* RW */
-               unsigned long   rsvd_48_62:15;
-               unsigned long   send:1;                         /* WP */
        } s;
-};
-
-/* ========================================================================= */
-/*                   UVH_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST                     */
-/* ========================================================================= */
-#define UV2H_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST 0x320050UL
-#define UV3H_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST 0x320050UL
-#define UV4H_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST uv_undefined("UV4H_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST")
-#define UVH_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST (                          \
-       is_uv2_hub() ? UV2H_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST :           \
-       is_uv3_hub() ? UV3H_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST :           \
-       /*is_uv4_hub*/ UV4H_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST)
-#define UVH_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST_32 0x9c0
 
+       /* UVXH common struct */
+       struct uvxh_gr1_tlb_int1_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } sx;
 
-#define UV2H_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST_ADDRESS_SHFT 4
-#define UV2H_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST_NODE_ID_SHFT 49
-#define UV2H_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST_ADDRESS_MASK 0x000007fffffffff0UL
-#define UV2H_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST_NODE_ID_MASK 0x7ffe000000000000UL
-
-#define UV3H_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST_ADDRESS_SHFT 4
-#define UV3H_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST_NODE_ID_SHFT 49
-#define UV3H_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST_ADDRESS_MASK 0x000007fffffffff0UL
-#define UV3H_LB_BAU_INTD_PAYLOAD_QUEUE_FIRST_NODE_ID_MASK 0x7ffe000000000000UL
+       /* UV4 unique struct */
+       struct uv4h_gr1_tlb_int1_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } s4;
 
+       /* UV3 unique struct */
+       struct uv3h_gr1_tlb_int1_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } s3;
 
-union uvh_lb_bau_intd_payload_queue_first_u {
-       unsigned long   v;
-       struct uv2h_lb_bau_intd_payload_queue_first_s {
-               unsigned long   rsvd_0_3:4;
-               unsigned long   address:39;                     /* RW */
-               unsigned long   rsvd_43_48:6;
-               unsigned long   node_id:14;                     /* RW */
-               unsigned long   rsvd_63:1;
+       /* UV2 unique struct */
+       struct uv2h_gr1_tlb_int1_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
        } s2;
-       struct uv3h_lb_bau_intd_payload_queue_first_s {
-               unsigned long   rsvd_0_3:4;
-               unsigned long   address:39;                     /* RW */
-               unsigned long   rsvd_43_48:6;
-               unsigned long   node_id:14;                     /* RW */
-               unsigned long   rsvd_63:1;
-       } s3;
 };
 
 /* ========================================================================= */
-/*                    UVH_LB_BAU_INTD_PAYLOAD_QUEUE_LAST                     */
+/*                               UVH_INT_CMPB                                */
 /* ========================================================================= */
-#define UV2H_LB_BAU_INTD_PAYLOAD_QUEUE_LAST 0x320060UL
-#define UV3H_LB_BAU_INTD_PAYLOAD_QUEUE_LAST 0x320060UL
-#define UV4H_LB_BAU_INTD_PAYLOAD_QUEUE_LAST uv_undefined("UV4H_LB_BAU_INTD_PAYLOAD_QUEUE_LAST")
-#define UVH_LB_BAU_INTD_PAYLOAD_QUEUE_LAST (                           \
-       is_uv2_hub() ? UV2H_LB_BAU_INTD_PAYLOAD_QUEUE_LAST :            \
-       is_uv3_hub() ? UV3H_LB_BAU_INTD_PAYLOAD_QUEUE_LAST :            \
-       /*is_uv4_hub*/ UV4H_LB_BAU_INTD_PAYLOAD_QUEUE_LAST)
-#define UVH_LB_BAU_INTD_PAYLOAD_QUEUE_LAST_32 0x9c8
-
-
-#define UV2H_LB_BAU_INTD_PAYLOAD_QUEUE_LAST_ADDRESS_SHFT 4
-#define UV2H_LB_BAU_INTD_PAYLOAD_QUEUE_LAST_ADDRESS_MASK 0x000007fffffffff0UL
+#define UVH_INT_CMPB 0x22080UL
 
-#define UV3H_LB_BAU_INTD_PAYLOAD_QUEUE_LAST_ADDRESS_SHFT 4
-#define UV3H_LB_BAU_INTD_PAYLOAD_QUEUE_LAST_ADDRESS_MASK 0x000007fffffffff0UL
+/* UVH common defines*/
+#define UVH_INT_CMPB_REAL_TIME_CMPB_SHFT               0
+#define UVH_INT_CMPB_REAL_TIME_CMPB_MASK               0x00ffffffffffffffUL
 
 
-union uvh_lb_bau_intd_payload_queue_last_u {
+union uvh_int_cmpb_u {
        unsigned long   v;
-       struct uv2h_lb_bau_intd_payload_queue_last_s {
-               unsigned long   rsvd_0_3:4;
-               unsigned long   address:39;                     /* RW */
-               unsigned long   rsvd_43_63:21;
-       } s2;
-       struct uv3h_lb_bau_intd_payload_queue_last_s {
-               unsigned long   rsvd_0_3:4;
-               unsigned long   address:39;                     /* RW */
-               unsigned long   rsvd_43_63:21;
-       } s3;
-};
-
-/* ========================================================================= */
-/*                    UVH_LB_BAU_INTD_PAYLOAD_QUEUE_TAIL                     */
-/* ========================================================================= */
-#define UV2H_LB_BAU_INTD_PAYLOAD_QUEUE_TAIL 0x320070UL
-#define UV3H_LB_BAU_INTD_PAYLOAD_QUEUE_TAIL 0x320070UL
-#define UV4H_LB_BAU_INTD_PAYLOAD_QUEUE_TAIL uv_undefined("UV4H_LB_BAU_INTD_PAYLOAD_QUEUE_TAIL")
-#define UVH_LB_BAU_INTD_PAYLOAD_QUEUE_TAIL (                           \
-       is_uv2_hub() ? UV2H_LB_BAU_INTD_PAYLOAD_QUEUE_TAIL :            \
-       is_uv3_hub() ? UV3H_LB_BAU_INTD_PAYLOAD_QUEUE_TAIL :            \
-       /*is_uv4_hub*/ UV4H_LB_BAU_INTD_PAYLOAD_QUEUE_TAIL)
-#define UVH_LB_BAU_INTD_PAYLOAD_QUEUE_TAIL_32 0x9d0
-
 
-#define UV2H_LB_BAU_INTD_PAYLOAD_QUEUE_TAIL_ADDRESS_SHFT 4
-#define UV2H_LB_BAU_INTD_PAYLOAD_QUEUE_TAIL_ADDRESS_MASK 0x000007fffffffff0UL
-
-#define UV3H_LB_BAU_INTD_PAYLOAD_QUEUE_TAIL_ADDRESS_SHFT 4
-#define UV3H_LB_BAU_INTD_PAYLOAD_QUEUE_TAIL_ADDRESS_MASK 0x000007fffffffff0UL
+       /* UVH common struct */
+       struct uvh_int_cmpb_s {
+               unsigned long   real_time_cmpb:56;              /* RW */
+               unsigned long   rsvd_56_63:8;
+       } s;
 
+       /* UV5 unique struct */
+       struct uv5h_int_cmpb_s {
+               unsigned long   real_time_cmpb:56;              /* RW */
+               unsigned long   rsvd_56_63:8;
+       } s5;
 
-union uvh_lb_bau_intd_payload_queue_tail_u {
-       unsigned long   v;
-       struct uv2h_lb_bau_intd_payload_queue_tail_s {
-               unsigned long   rsvd_0_3:4;
-               unsigned long   address:39;                     /* RW */
-               unsigned long   rsvd_43_63:21;
-       } s2;
-       struct uv3h_lb_bau_intd_payload_queue_tail_s {
-               unsigned long   rsvd_0_3:4;
-               unsigned long   address:39;                     /* RW */
-               unsigned long   rsvd_43_63:21;
-       } s3;
-};
+       /* UV4 unique struct */
+       struct uv4h_int_cmpb_s {
+               unsigned long   real_time_cmpb:56;              /* RW */
+               unsigned long   rsvd_56_63:8;
+       } s4;
 
-/* ========================================================================= */
-/*                   UVH_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE                    */
-/* ========================================================================= */
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE 0x320080UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE 0x320080UL
-#define UV4H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE uv_undefined("UV4H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE")
-#define UVH_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE (                         \
-       is_uv2_hub() ? UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE :          \
-       is_uv3_hub() ? UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE :          \
-       /*is_uv4_hub*/ UV4H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE)
-#define UVH_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_32 0xa68
-
-
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_0_SHFT 0
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_1_SHFT 1
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_2_SHFT 2
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_3_SHFT 3
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_4_SHFT 4
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_5_SHFT 5
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_6_SHFT 6
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_7_SHFT 7
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_0_SHFT 8
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_1_SHFT 9
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_2_SHFT 10
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_3_SHFT 11
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_4_SHFT 12
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_5_SHFT 13
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_6_SHFT 14
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_7_SHFT 15
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_0_MASK 0x0000000000000001UL
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_1_MASK 0x0000000000000002UL
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_2_MASK 0x0000000000000004UL
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_3_MASK 0x0000000000000008UL
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_4_MASK 0x0000000000000010UL
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_5_MASK 0x0000000000000020UL
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_6_MASK 0x0000000000000040UL
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_7_MASK 0x0000000000000080UL
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_0_MASK 0x0000000000000100UL
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_1_MASK 0x0000000000000200UL
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_2_MASK 0x0000000000000400UL
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_3_MASK 0x0000000000000800UL
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_4_MASK 0x0000000000001000UL
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_5_MASK 0x0000000000002000UL
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_6_MASK 0x0000000000004000UL
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_7_MASK 0x0000000000008000UL
-
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_0_SHFT 0
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_1_SHFT 1
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_2_SHFT 2
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_3_SHFT 3
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_4_SHFT 4
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_5_SHFT 5
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_6_SHFT 6
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_7_SHFT 7
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_0_SHFT 8
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_1_SHFT 9
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_2_SHFT 10
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_3_SHFT 11
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_4_SHFT 12
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_5_SHFT 13
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_6_SHFT 14
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_7_SHFT 15
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_0_MASK 0x0000000000000001UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_1_MASK 0x0000000000000002UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_2_MASK 0x0000000000000004UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_3_MASK 0x0000000000000008UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_4_MASK 0x0000000000000010UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_5_MASK 0x0000000000000020UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_6_MASK 0x0000000000000040UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_PENDING_7_MASK 0x0000000000000080UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_0_MASK 0x0000000000000100UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_1_MASK 0x0000000000000200UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_2_MASK 0x0000000000000400UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_3_MASK 0x0000000000000800UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_4_MASK 0x0000000000001000UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_5_MASK 0x0000000000002000UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_6_MASK 0x0000000000004000UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_TIMEOUT_7_MASK 0x0000000000008000UL
-
-
-union uvh_lb_bau_intd_software_acknowledge_u {
-       unsigned long   v;
-       struct uv2h_lb_bau_intd_software_acknowledge_s {
-               unsigned long   pending_0:1;                    /* RW */
-               unsigned long   pending_1:1;                    /* RW */
-               unsigned long   pending_2:1;                    /* RW */
-               unsigned long   pending_3:1;                    /* RW */
-               unsigned long   pending_4:1;                    /* RW */
-               unsigned long   pending_5:1;                    /* RW */
-               unsigned long   pending_6:1;                    /* RW */
-               unsigned long   pending_7:1;                    /* RW */
-               unsigned long   timeout_0:1;                    /* RW */
-               unsigned long   timeout_1:1;                    /* RW */
-               unsigned long   timeout_2:1;                    /* RW */
-               unsigned long   timeout_3:1;                    /* RW */
-               unsigned long   timeout_4:1;                    /* RW */
-               unsigned long   timeout_5:1;                    /* RW */
-               unsigned long   timeout_6:1;                    /* RW */
-               unsigned long   timeout_7:1;                    /* RW */
-               unsigned long   rsvd_16_63:48;
-       } s2;
-       struct uv3h_lb_bau_intd_software_acknowledge_s {
-               unsigned long   pending_0:1;                    /* RW */
-               unsigned long   pending_1:1;                    /* RW */
-               unsigned long   pending_2:1;                    /* RW */
-               unsigned long   pending_3:1;                    /* RW */
-               unsigned long   pending_4:1;                    /* RW */
-               unsigned long   pending_5:1;                    /* RW */
-               unsigned long   pending_6:1;                    /* RW */
-               unsigned long   pending_7:1;                    /* RW */
-               unsigned long   timeout_0:1;                    /* RW */
-               unsigned long   timeout_1:1;                    /* RW */
-               unsigned long   timeout_2:1;                    /* RW */
-               unsigned long   timeout_3:1;                    /* RW */
-               unsigned long   timeout_4:1;                    /* RW */
-               unsigned long   timeout_5:1;                    /* RW */
-               unsigned long   timeout_6:1;                    /* RW */
-               unsigned long   timeout_7:1;                    /* RW */
-               unsigned long   rsvd_16_63:48;
+       /* UV3 unique struct */
+       struct uv3h_int_cmpb_s {
+               unsigned long   real_time_cmpb:56;              /* RW */
+               unsigned long   rsvd_56_63:8;
        } s3;
-};
-
-/* ========================================================================= */
-/*                UVH_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_ALIAS                 */
-/* ========================================================================= */
-#define UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_ALIAS 0x320088UL
-#define UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_ALIAS 0x320088UL
-#define UV4H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_ALIAS uv_undefined("UV4H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_ALIAS")
-#define UVH_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_ALIAS (                   \
-       is_uv2_hub() ? UV2H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_ALIAS :    \
-       is_uv3_hub() ? UV3H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_ALIAS :    \
-       /*is_uv4_hub*/ UV4H_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_ALIAS)
-#define UVH_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE_ALIAS_32 0xa70
 
-
-/* ========================================================================= */
-/*                         UVH_LB_BAU_MISC_CONTROL                           */
-/* ========================================================================= */
-#define UV2H_LB_BAU_MISC_CONTROL 0x320170UL
-#define UV3H_LB_BAU_MISC_CONTROL 0x320170UL
-#define UV4H_LB_BAU_MISC_CONTROL 0xc8170UL
-#define UVH_LB_BAU_MISC_CONTROL (                                      \
-       is_uv2_hub() ? UV2H_LB_BAU_MISC_CONTROL :                       \
-       is_uv3_hub() ? UV3H_LB_BAU_MISC_CONTROL :                       \
-       /*is_uv4_hub*/ UV4H_LB_BAU_MISC_CONTROL)
-
-#define UV2H_LB_BAU_MISC_CONTROL_32 0xa10
-#define UV3H_LB_BAU_MISC_CONTROL_32 0xa10
-#define UV4H_LB_BAU_MISC_CONTROL_32 0xa18
-#define UVH_LB_BAU_MISC_CONTROL_32 (                                   \
-       is_uv2_hub() ? UV2H_LB_BAU_MISC_CONTROL_32 :                    \
-       is_uv3_hub() ? UV3H_LB_BAU_MISC_CONTROL_32 :                    \
-       /*is_uv4_hub*/ UV4H_LB_BAU_MISC_CONTROL_32)
-
-#define UVH_LB_BAU_MISC_CONTROL_REJECTION_DELAY_SHFT   0
-#define UVH_LB_BAU_MISC_CONTROL_APIC_MODE_SHFT         8
-#define UVH_LB_BAU_MISC_CONTROL_FORCE_BROADCAST_SHFT   9
-#define UVH_LB_BAU_MISC_CONTROL_FORCE_LOCK_NOP_SHFT    10
-#define UVH_LB_BAU_MISC_CONTROL_QPI_AGENT_PRESENCE_VECTOR_SHFT 11
-#define UVH_LB_BAU_MISC_CONTROL_DESCRIPTOR_FETCH_MODE_SHFT 14
-#define UVH_LB_BAU_MISC_CONTROL_ENABLE_DUAL_MAPPING_MODE_SHFT 20
-#define UVH_LB_BAU_MISC_CONTROL_VGA_IO_PORT_DECODE_ENABLE_SHFT 21
-#define UVH_LB_BAU_MISC_CONTROL_VGA_IO_PORT_16_BIT_DECODE_SHFT 22
-#define UVH_LB_BAU_MISC_CONTROL_SUPPRESS_DEST_REGISTRATION_SHFT 23
-#define UVH_LB_BAU_MISC_CONTROL_PROGRAMMED_INITIAL_PRIORITY_SHFT 24
-#define UVH_LB_BAU_MISC_CONTROL_USE_INCOMING_PRIORITY_SHFT 27
-#define UVH_LB_BAU_MISC_CONTROL_ENABLE_PROGRAMMED_INITIAL_PRIORITY_SHFT 28
-#define UVH_LB_BAU_MISC_CONTROL_FUN_SHFT               48
-#define UVH_LB_BAU_MISC_CONTROL_REJECTION_DELAY_MASK   0x00000000000000ffUL
-#define UVH_LB_BAU_MISC_CONTROL_APIC_MODE_MASK         0x0000000000000100UL
-#define UVH_LB_BAU_MISC_CONTROL_FORCE_BROADCAST_MASK   0x0000000000000200UL
-#define UVH_LB_BAU_MISC_CONTROL_FORCE_LOCK_NOP_MASK    0x0000000000000400UL
-#define UVH_LB_BAU_MISC_CONTROL_QPI_AGENT_PRESENCE_VECTOR_MASK 0x0000000000003800UL
-#define UVH_LB_BAU_MISC_CONTROL_DESCRIPTOR_FETCH_MODE_MASK 0x0000000000004000UL
-#define UVH_LB_BAU_MISC_CONTROL_ENABLE_DUAL_MAPPING_MODE_MASK 0x0000000000100000UL
-#define UVH_LB_BAU_MISC_CONTROL_VGA_IO_PORT_DECODE_ENABLE_MASK 0x0000000000200000UL
-#define UVH_LB_BAU_MISC_CONTROL_VGA_IO_PORT_16_BIT_DECODE_MASK 0x0000000000400000UL
-#define UVH_LB_BAU_MISC_CONTROL_SUPPRESS_DEST_REGISTRATION_MASK 0x0000000000800000UL
-#define UVH_LB_BAU_MISC_CONTROL_PROGRAMMED_INITIAL_PRIORITY_MASK 0x0000000007000000UL
-#define UVH_LB_BAU_MISC_CONTROL_USE_INCOMING_PRIORITY_MASK 0x0000000008000000UL
-#define UVH_LB_BAU_MISC_CONTROL_ENABLE_PROGRAMMED_INITIAL_PRIORITY_MASK 0x0000000010000000UL
-#define UVH_LB_BAU_MISC_CONTROL_FUN_MASK               0xffff000000000000UL
-
-#define UVXH_LB_BAU_MISC_CONTROL_REJECTION_DELAY_SHFT  0
-#define UVXH_LB_BAU_MISC_CONTROL_APIC_MODE_SHFT                8
-#define UVXH_LB_BAU_MISC_CONTROL_FORCE_BROADCAST_SHFT  9
-#define UVXH_LB_BAU_MISC_CONTROL_FORCE_LOCK_NOP_SHFT   10
-#define UVXH_LB_BAU_MISC_CONTROL_QPI_AGENT_PRESENCE_VECTOR_SHFT 11
-#define UVXH_LB_BAU_MISC_CONTROL_DESCRIPTOR_FETCH_MODE_SHFT 14
-#define UVXH_LB_BAU_MISC_CONTROL_ENABLE_DUAL_MAPPING_MODE_SHFT 20
-#define UVXH_LB_BAU_MISC_CONTROL_VGA_IO_PORT_DECODE_ENABLE_SHFT 21
-#define UVXH_LB_BAU_MISC_CONTROL_VGA_IO_PORT_16_BIT_DECODE_SHFT 22
-#define UVXH_LB_BAU_MISC_CONTROL_SUPPRESS_DEST_REGISTRATION_SHFT 23
-#define UVXH_LB_BAU_MISC_CONTROL_PROGRAMMED_INITIAL_PRIORITY_SHFT 24
-#define UVXH_LB_BAU_MISC_CONTROL_USE_INCOMING_PRIORITY_SHFT 27
-#define UVXH_LB_BAU_MISC_CONTROL_ENABLE_PROGRAMMED_INITIAL_PRIORITY_SHFT 28
-#define UVXH_LB_BAU_MISC_CONTROL_ENABLE_AUTOMATIC_APIC_MODE_SELECTION_SHFT 29
-#define UVXH_LB_BAU_MISC_CONTROL_APIC_MODE_STATUS_SHFT 30
-#define UVXH_LB_BAU_MISC_CONTROL_SUPPRESS_INTERRUPTS_TO_SELF_SHFT 31
-#define UVXH_LB_BAU_MISC_CONTROL_ENABLE_LOCK_BASED_SYSTEM_FLUSH_SHFT 32
-#define UVXH_LB_BAU_MISC_CONTROL_ENABLE_EXTENDED_SB_STATUS_SHFT 33
-#define UVXH_LB_BAU_MISC_CONTROL_SUPPRESS_INT_PRIO_UDT_TO_SELF_SHFT 34
-#define UVXH_LB_BAU_MISC_CONTROL_USE_LEGACY_DESCRIPTOR_FORMATS_SHFT 35
-#define UVXH_LB_BAU_MISC_CONTROL_FUN_SHFT              48
-#define UVXH_LB_BAU_MISC_CONTROL_REJECTION_DELAY_MASK  0x00000000000000ffUL
-#define UVXH_LB_BAU_MISC_CONTROL_APIC_MODE_MASK                0x0000000000000100UL
-#define UVXH_LB_BAU_MISC_CONTROL_FORCE_BROADCAST_MASK  0x0000000000000200UL
-#define UVXH_LB_BAU_MISC_CONTROL_FORCE_LOCK_NOP_MASK   0x0000000000000400UL
-#define UVXH_LB_BAU_MISC_CONTROL_QPI_AGENT_PRESENCE_VECTOR_MASK 0x0000000000003800UL
-#define UVXH_LB_BAU_MISC_CONTROL_DESCRIPTOR_FETCH_MODE_MASK 0x0000000000004000UL
-#define UVXH_LB_BAU_MISC_CONTROL_ENABLE_DUAL_MAPPING_MODE_MASK 0x0000000000100000UL
-#define UVXH_LB_BAU_MISC_CONTROL_VGA_IO_PORT_DECODE_ENABLE_MASK 0x0000000000200000UL
-#define UVXH_LB_BAU_MISC_CONTROL_VGA_IO_PORT_16_BIT_DECODE_MASK 0x0000000000400000UL
-#define UVXH_LB_BAU_MISC_CONTROL_SUPPRESS_DEST_REGISTRATION_MASK 0x0000000000800000UL
-#define UVXH_LB_BAU_MISC_CONTROL_PROGRAMMED_INITIAL_PRIORITY_MASK 0x0000000007000000UL
-#define UVXH_LB_BAU_MISC_CONTROL_USE_INCOMING_PRIORITY_MASK 0x0000000008000000UL
-#define UVXH_LB_BAU_MISC_CONTROL_ENABLE_PROGRAMMED_INITIAL_PRIORITY_MASK 0x0000000010000000UL
-#define UVXH_LB_BAU_MISC_CONTROL_ENABLE_AUTOMATIC_APIC_MODE_SELECTION_MASK 0x0000000020000000UL
-#define UVXH_LB_BAU_MISC_CONTROL_APIC_MODE_STATUS_MASK 0x0000000040000000UL
-#define UVXH_LB_BAU_MISC_CONTROL_SUPPRESS_INTERRUPTS_TO_SELF_MASK 0x0000000080000000UL
-#define UVXH_LB_BAU_MISC_CONTROL_ENABLE_LOCK_BASED_SYSTEM_FLUSH_MASK 0x0000000100000000UL
-#define UVXH_LB_BAU_MISC_CONTROL_ENABLE_EXTENDED_SB_STATUS_MASK 0x0000000200000000UL
-#define UVXH_LB_BAU_MISC_CONTROL_SUPPRESS_INT_PRIO_UDT_TO_SELF_MASK 0x0000000400000000UL
-#define UVXH_LB_BAU_MISC_CONTROL_USE_LEGACY_DESCRIPTOR_FORMATS_MASK 0x0000000800000000UL
-#define UVXH_LB_BAU_MISC_CONTROL_FUN_MASK              0xffff000000000000UL
-
-#define UV2H_LB_BAU_MISC_CONTROL_REJECTION_DELAY_SHFT  0
-#define UV2H_LB_BAU_MISC_CONTROL_APIC_MODE_SHFT                8
-#define UV2H_LB_BAU_MISC_CONTROL_FORCE_BROADCAST_SHFT  9
-#define UV2H_LB_BAU_MISC_CONTROL_FORCE_LOCK_NOP_SHFT   10
-#define UV2H_LB_BAU_MISC_CONTROL_QPI_AGENT_PRESENCE_VECTOR_SHFT 11
-#define UV2H_LB_BAU_MISC_CONTROL_DESCRIPTOR_FETCH_MODE_SHFT 14
-#define UV2H_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_SHFT 15
-#define UV2H_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_SHFT 16
-#define UV2H_LB_BAU_MISC_CONTROL_ENABLE_DUAL_MAPPING_MODE_SHFT 20
-#define UV2H_LB_BAU_MISC_CONTROL_VGA_IO_PORT_DECODE_ENABLE_SHFT 21
-#define UV2H_LB_BAU_MISC_CONTROL_VGA_IO_PORT_16_BIT_DECODE_SHFT 22
-#define UV2H_LB_BAU_MISC_CONTROL_SUPPRESS_DEST_REGISTRATION_SHFT 23
-#define UV2H_LB_BAU_MISC_CONTROL_PROGRAMMED_INITIAL_PRIORITY_SHFT 24
-#define UV2H_LB_BAU_MISC_CONTROL_USE_INCOMING_PRIORITY_SHFT 27
-#define UV2H_LB_BAU_MISC_CONTROL_ENABLE_PROGRAMMED_INITIAL_PRIORITY_SHFT 28
-#define UV2H_LB_BAU_MISC_CONTROL_ENABLE_AUTOMATIC_APIC_MODE_SELECTION_SHFT 29
-#define UV2H_LB_BAU_MISC_CONTROL_APIC_MODE_STATUS_SHFT 30
-#define UV2H_LB_BAU_MISC_CONTROL_SUPPRESS_INTERRUPTS_TO_SELF_SHFT 31
-#define UV2H_LB_BAU_MISC_CONTROL_ENABLE_LOCK_BASED_SYSTEM_FLUSH_SHFT 32
-#define UV2H_LB_BAU_MISC_CONTROL_ENABLE_EXTENDED_SB_STATUS_SHFT 33
-#define UV2H_LB_BAU_MISC_CONTROL_SUPPRESS_INT_PRIO_UDT_TO_SELF_SHFT 34
-#define UV2H_LB_BAU_MISC_CONTROL_USE_LEGACY_DESCRIPTOR_FORMATS_SHFT 35
-#define UV2H_LB_BAU_MISC_CONTROL_FUN_SHFT              48
-#define UV2H_LB_BAU_MISC_CONTROL_REJECTION_DELAY_MASK  0x00000000000000ffUL
-#define UV2H_LB_BAU_MISC_CONTROL_APIC_MODE_MASK                0x0000000000000100UL
-#define UV2H_LB_BAU_MISC_CONTROL_FORCE_BROADCAST_MASK  0x0000000000000200UL
-#define UV2H_LB_BAU_MISC_CONTROL_FORCE_LOCK_NOP_MASK   0x0000000000000400UL
-#define UV2H_LB_BAU_MISC_CONTROL_QPI_AGENT_PRESENCE_VECTOR_MASK 0x0000000000003800UL
-#define UV2H_LB_BAU_MISC_CONTROL_DESCRIPTOR_FETCH_MODE_MASK 0x0000000000004000UL
-#define UV2H_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_MASK 0x0000000000008000UL
-#define UV2H_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_MASK 0x00000000000f0000UL
-#define UV2H_LB_BAU_MISC_CONTROL_ENABLE_DUAL_MAPPING_MODE_MASK 0x0000000000100000UL
-#define UV2H_LB_BAU_MISC_CONTROL_VGA_IO_PORT_DECODE_ENABLE_MASK 0x0000000000200000UL
-#define UV2H_LB_BAU_MISC_CONTROL_VGA_IO_PORT_16_BIT_DECODE_MASK 0x0000000000400000UL
-#define UV2H_LB_BAU_MISC_CONTROL_SUPPRESS_DEST_REGISTRATION_MASK 0x0000000000800000UL
-#define UV2H_LB_BAU_MISC_CONTROL_PROGRAMMED_INITIAL_PRIORITY_MASK 0x0000000007000000UL
-#define UV2H_LB_BAU_MISC_CONTROL_USE_INCOMING_PRIORITY_MASK 0x0000000008000000UL
-#define UV2H_LB_BAU_MISC_CONTROL_ENABLE_PROGRAMMED_INITIAL_PRIORITY_MASK 0x0000000010000000UL
-#define UV2H_LB_BAU_MISC_CONTROL_ENABLE_AUTOMATIC_APIC_MODE_SELECTION_MASK 0x0000000020000000UL
-#define UV2H_LB_BAU_MISC_CONTROL_APIC_MODE_STATUS_MASK 0x0000000040000000UL
-#define UV2H_LB_BAU_MISC_CONTROL_SUPPRESS_INTERRUPTS_TO_SELF_MASK 0x0000000080000000UL
-#define UV2H_LB_BAU_MISC_CONTROL_ENABLE_LOCK_BASED_SYSTEM_FLUSH_MASK 0x0000000100000000UL
-#define UV2H_LB_BAU_MISC_CONTROL_ENABLE_EXTENDED_SB_STATUS_MASK 0x0000000200000000UL
-#define UV2H_LB_BAU_MISC_CONTROL_SUPPRESS_INT_PRIO_UDT_TO_SELF_MASK 0x0000000400000000UL
-#define UV2H_LB_BAU_MISC_CONTROL_USE_LEGACY_DESCRIPTOR_FORMATS_MASK 0x0000000800000000UL
-#define UV2H_LB_BAU_MISC_CONTROL_FUN_MASK              0xffff000000000000UL
-
-#define UV3H_LB_BAU_MISC_CONTROL_REJECTION_DELAY_SHFT  0
-#define UV3H_LB_BAU_MISC_CONTROL_APIC_MODE_SHFT                8
-#define UV3H_LB_BAU_MISC_CONTROL_FORCE_BROADCAST_SHFT  9
-#define UV3H_LB_BAU_MISC_CONTROL_FORCE_LOCK_NOP_SHFT   10
-#define UV3H_LB_BAU_MISC_CONTROL_QPI_AGENT_PRESENCE_VECTOR_SHFT 11
-#define UV3H_LB_BAU_MISC_CONTROL_DESCRIPTOR_FETCH_MODE_SHFT 14
-#define UV3H_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_SHFT 15
-#define UV3H_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_SHFT 16
-#define UV3H_LB_BAU_MISC_CONTROL_ENABLE_DUAL_MAPPING_MODE_SHFT 20
-#define UV3H_LB_BAU_MISC_CONTROL_VGA_IO_PORT_DECODE_ENABLE_SHFT 21
-#define UV3H_LB_BAU_MISC_CONTROL_VGA_IO_PORT_16_BIT_DECODE_SHFT 22
-#define UV3H_LB_BAU_MISC_CONTROL_SUPPRESS_DEST_REGISTRATION_SHFT 23
-#define UV3H_LB_BAU_MISC_CONTROL_PROGRAMMED_INITIAL_PRIORITY_SHFT 24
-#define UV3H_LB_BAU_MISC_CONTROL_USE_INCOMING_PRIORITY_SHFT 27
-#define UV3H_LB_BAU_MISC_CONTROL_ENABLE_PROGRAMMED_INITIAL_PRIORITY_SHFT 28
-#define UV3H_LB_BAU_MISC_CONTROL_ENABLE_AUTOMATIC_APIC_MODE_SELECTION_SHFT 29
-#define UV3H_LB_BAU_MISC_CONTROL_APIC_MODE_STATUS_SHFT 30
-#define UV3H_LB_BAU_MISC_CONTROL_SUPPRESS_INTERRUPTS_TO_SELF_SHFT 31
-#define UV3H_LB_BAU_MISC_CONTROL_ENABLE_LOCK_BASED_SYSTEM_FLUSH_SHFT 32
-#define UV3H_LB_BAU_MISC_CONTROL_ENABLE_EXTENDED_SB_STATUS_SHFT 33
-#define UV3H_LB_BAU_MISC_CONTROL_SUPPRESS_INT_PRIO_UDT_TO_SELF_SHFT 34
-#define UV3H_LB_BAU_MISC_CONTROL_USE_LEGACY_DESCRIPTOR_FORMATS_SHFT 35
-#define UV3H_LB_BAU_MISC_CONTROL_SUPPRESS_QUIESCE_MSGS_TO_QPI_SHFT 36
-#define UV3H_LB_BAU_MISC_CONTROL_ENABLE_INTD_PREFETCH_HINT_SHFT 37
-#define UV3H_LB_BAU_MISC_CONTROL_THREAD_KILL_TIMEBASE_SHFT 38
-#define UV3H_LB_BAU_MISC_CONTROL_FUN_SHFT              48
-#define UV3H_LB_BAU_MISC_CONTROL_REJECTION_DELAY_MASK  0x00000000000000ffUL
-#define UV3H_LB_BAU_MISC_CONTROL_APIC_MODE_MASK                0x0000000000000100UL
-#define UV3H_LB_BAU_MISC_CONTROL_FORCE_BROADCAST_MASK  0x0000000000000200UL
-#define UV3H_LB_BAU_MISC_CONTROL_FORCE_LOCK_NOP_MASK   0x0000000000000400UL
-#define UV3H_LB_BAU_MISC_CONTROL_QPI_AGENT_PRESENCE_VECTOR_MASK 0x0000000000003800UL
-#define UV3H_LB_BAU_MISC_CONTROL_DESCRIPTOR_FETCH_MODE_MASK 0x0000000000004000UL
-#define UV3H_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_MASK 0x0000000000008000UL
-#define UV3H_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_MASK 0x00000000000f0000UL
-#define UV3H_LB_BAU_MISC_CONTROL_ENABLE_DUAL_MAPPING_MODE_MASK 0x0000000000100000UL
-#define UV3H_LB_BAU_MISC_CONTROL_VGA_IO_PORT_DECODE_ENABLE_MASK 0x0000000000200000UL
-#define UV3H_LB_BAU_MISC_CONTROL_VGA_IO_PORT_16_BIT_DECODE_MASK 0x0000000000400000UL
-#define UV3H_LB_BAU_MISC_CONTROL_SUPPRESS_DEST_REGISTRATION_MASK 0x0000000000800000UL
-#define UV3H_LB_BAU_MISC_CONTROL_PROGRAMMED_INITIAL_PRIORITY_MASK 0x0000000007000000UL
-#define UV3H_LB_BAU_MISC_CONTROL_USE_INCOMING_PRIORITY_MASK 0x0000000008000000UL
-#define UV3H_LB_BAU_MISC_CONTROL_ENABLE_PROGRAMMED_INITIAL_PRIORITY_MASK 0x0000000010000000UL
-#define UV3H_LB_BAU_MISC_CONTROL_ENABLE_AUTOMATIC_APIC_MODE_SELECTION_MASK 0x0000000020000000UL
-#define UV3H_LB_BAU_MISC_CONTROL_APIC_MODE_STATUS_MASK 0x0000000040000000UL
-#define UV3H_LB_BAU_MISC_CONTROL_SUPPRESS_INTERRUPTS_TO_SELF_MASK 0x0000000080000000UL
-#define UV3H_LB_BAU_MISC_CONTROL_ENABLE_LOCK_BASED_SYSTEM_FLUSH_MASK 0x0000000100000000UL
-#define UV3H_LB_BAU_MISC_CONTROL_ENABLE_EXTENDED_SB_STATUS_MASK 0x0000000200000000UL
-#define UV3H_LB_BAU_MISC_CONTROL_SUPPRESS_INT_PRIO_UDT_TO_SELF_MASK 0x0000000400000000UL
-#define UV3H_LB_BAU_MISC_CONTROL_USE_LEGACY_DESCRIPTOR_FORMATS_MASK 0x0000000800000000UL
-#define UV3H_LB_BAU_MISC_CONTROL_SUPPRESS_QUIESCE_MSGS_TO_QPI_MASK 0x0000001000000000UL
-#define UV3H_LB_BAU_MISC_CONTROL_ENABLE_INTD_PREFETCH_HINT_MASK 0x0000002000000000UL
-#define UV3H_LB_BAU_MISC_CONTROL_THREAD_KILL_TIMEBASE_MASK 0x00003fc000000000UL
-#define UV3H_LB_BAU_MISC_CONTROL_FUN_MASK              0xffff000000000000UL
-
-#define UV4H_LB_BAU_MISC_CONTROL_REJECTION_DELAY_SHFT  0
-#define UV4H_LB_BAU_MISC_CONTROL_APIC_MODE_SHFT                8
-#define UV4H_LB_BAU_MISC_CONTROL_FORCE_BROADCAST_SHFT  9
-#define UV4H_LB_BAU_MISC_CONTROL_FORCE_LOCK_NOP_SHFT   10
-#define UV4H_LB_BAU_MISC_CONTROL_QPI_AGENT_PRESENCE_VECTOR_SHFT 11
-#define UV4H_LB_BAU_MISC_CONTROL_DESCRIPTOR_FETCH_MODE_SHFT 14
-#define UV4H_LB_BAU_MISC_CONTROL_RESERVED_15_19_SHFT   15
-#define UV4H_LB_BAU_MISC_CONTROL_ENABLE_DUAL_MAPPING_MODE_SHFT 20
-#define UV4H_LB_BAU_MISC_CONTROL_VGA_IO_PORT_DECODE_ENABLE_SHFT 21
-#define UV4H_LB_BAU_MISC_CONTROL_VGA_IO_PORT_16_BIT_DECODE_SHFT 22
-#define UV4H_LB_BAU_MISC_CONTROL_SUPPRESS_DEST_REGISTRATION_SHFT 23
-#define UV4H_LB_BAU_MISC_CONTROL_PROGRAMMED_INITIAL_PRIORITY_SHFT 24
-#define UV4H_LB_BAU_MISC_CONTROL_USE_INCOMING_PRIORITY_SHFT 27
-#define UV4H_LB_BAU_MISC_CONTROL_ENABLE_PROGRAMMED_INITIAL_PRIORITY_SHFT 28
-#define UV4H_LB_BAU_MISC_CONTROL_ENABLE_AUTOMATIC_APIC_MODE_SELECTION_SHFT 29
-#define UV4H_LB_BAU_MISC_CONTROL_APIC_MODE_STATUS_SHFT 30
-#define UV4H_LB_BAU_MISC_CONTROL_SUPPRESS_INTERRUPTS_TO_SELF_SHFT 31
-#define UV4H_LB_BAU_MISC_CONTROL_ENABLE_LOCK_BASED_SYSTEM_FLUSH_SHFT 32
-#define UV4H_LB_BAU_MISC_CONTROL_ENABLE_EXTENDED_SB_STATUS_SHFT 33
-#define UV4H_LB_BAU_MISC_CONTROL_SUPPRESS_INT_PRIO_UDT_TO_SELF_SHFT 34
-#define UV4H_LB_BAU_MISC_CONTROL_USE_LEGACY_DESCRIPTOR_FORMATS_SHFT 35
-#define UV4H_LB_BAU_MISC_CONTROL_SUPPRESS_QUIESCE_MSGS_TO_QPI_SHFT 36
-#define UV4H_LB_BAU_MISC_CONTROL_RESERVED_37_SHFT      37
-#define UV4H_LB_BAU_MISC_CONTROL_THREAD_KILL_TIMEBASE_SHFT 38
-#define UV4H_LB_BAU_MISC_CONTROL_ADDRESS_INTERLEAVE_SELECT_SHFT 46
-#define UV4H_LB_BAU_MISC_CONTROL_FUN_SHFT              48
-#define UV4H_LB_BAU_MISC_CONTROL_REJECTION_DELAY_MASK  0x00000000000000ffUL
-#define UV4H_LB_BAU_MISC_CONTROL_APIC_MODE_MASK                0x0000000000000100UL
-#define UV4H_LB_BAU_MISC_CONTROL_FORCE_BROADCAST_MASK  0x0000000000000200UL
-#define UV4H_LB_BAU_MISC_CONTROL_FORCE_LOCK_NOP_MASK   0x0000000000000400UL
-#define UV4H_LB_BAU_MISC_CONTROL_QPI_AGENT_PRESENCE_VECTOR_MASK 0x0000000000003800UL
-#define UV4H_LB_BAU_MISC_CONTROL_DESCRIPTOR_FETCH_MODE_MASK 0x0000000000004000UL
-#define UV4H_LB_BAU_MISC_CONTROL_RESERVED_15_19_MASK   0x00000000000f8000UL
-#define UV4H_LB_BAU_MISC_CONTROL_ENABLE_DUAL_MAPPING_MODE_MASK 0x0000000000100000UL
-#define UV4H_LB_BAU_MISC_CONTROL_VGA_IO_PORT_DECODE_ENABLE_MASK 0x0000000000200000UL
-#define UV4H_LB_BAU_MISC_CONTROL_VGA_IO_PORT_16_BIT_DECODE_MASK 0x0000000000400000UL
-#define UV4H_LB_BAU_MISC_CONTROL_SUPPRESS_DEST_REGISTRATION_MASK 0x0000000000800000UL
-#define UV4H_LB_BAU_MISC_CONTROL_PROGRAMMED_INITIAL_PRIORITY_MASK 0x0000000007000000UL
-#define UV4H_LB_BAU_MISC_CONTROL_USE_INCOMING_PRIORITY_MASK 0x0000000008000000UL
-#define UV4H_LB_BAU_MISC_CONTROL_ENABLE_PROGRAMMED_INITIAL_PRIORITY_MASK 0x0000000010000000UL
-#define UV4H_LB_BAU_MISC_CONTROL_ENABLE_AUTOMATIC_APIC_MODE_SELECTION_MASK 0x0000000020000000UL
-#define UV4H_LB_BAU_MISC_CONTROL_APIC_MODE_STATUS_MASK 0x0000000040000000UL
-#define UV4H_LB_BAU_MISC_CONTROL_SUPPRESS_INTERRUPTS_TO_SELF_MASK 0x0000000080000000UL
-#define UV4H_LB_BAU_MISC_CONTROL_ENABLE_LOCK_BASED_SYSTEM_FLUSH_MASK 0x0000000100000000UL
-#define UV4H_LB_BAU_MISC_CONTROL_ENABLE_EXTENDED_SB_STATUS_MASK 0x0000000200000000UL
-#define UV4H_LB_BAU_MISC_CONTROL_SUPPRESS_INT_PRIO_UDT_TO_SELF_MASK 0x0000000400000000UL
-#define UV4H_LB_BAU_MISC_CONTROL_USE_LEGACY_DESCRIPTOR_FORMATS_MASK 0x0000000800000000UL
-#define UV4H_LB_BAU_MISC_CONTROL_SUPPRESS_QUIESCE_MSGS_TO_QPI_MASK 0x0000001000000000UL
-#define UV4H_LB_BAU_MISC_CONTROL_RESERVED_37_MASK      0x0000002000000000UL
-#define UV4H_LB_BAU_MISC_CONTROL_THREAD_KILL_TIMEBASE_MASK 0x00003fc000000000UL
-#define UV4H_LB_BAU_MISC_CONTROL_ADDRESS_INTERLEAVE_SELECT_MASK 0x0000400000000000UL
-#define UV4H_LB_BAU_MISC_CONTROL_FUN_MASK              0xffff000000000000UL
-
-#define UV4H_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_MASK        \
-       uv_undefined("UV4H_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_MASK")
-#define UVH_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_MASK (       \
-       is_uv2_hub() ? UV2H_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_MASK : \
-       is_uv3_hub() ? UV3H_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_MASK : \
-       /*is_uv4_hub*/ UV4H_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_MASK)
-#define UV4H_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_SHFT        \
-       uv_undefined("UV4H_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_SHFT")
-#define UVH_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_SHFT (       \
-       is_uv2_hub() ? UV2H_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_SHFT : \
-       is_uv3_hub() ? UV3H_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_SHFT : \
-       /*is_uv4_hub*/ UV4H_LB_BAU_MISC_CONTROL_ENABLE_INTD_SOFT_ACK_MODE_SHFT)
-#define UV4H_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_MASK     \
-       uv_undefined("UV4H_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_MASK")
-#define UVH_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_MASK (    \
-       is_uv2_hub() ? UV2H_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_MASK : \
-       is_uv3_hub() ? UV3H_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_MASK : \
-       /*is_uv4_hub*/ UV4H_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_MASK)
-#define UV4H_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_SHFT     \
-       uv_undefined("UV4H_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_SHFT")
-#define UVH_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_SHFT (    \
-       is_uv2_hub() ? UV2H_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_SHFT : \
-       is_uv3_hub() ? UV3H_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_SHFT : \
-       /*is_uv4_hub*/ UV4H_LB_BAU_MISC_CONTROL_INTD_SOFT_ACK_TIMEOUT_PERIOD_SHFT)
-
-union uvh_lb_bau_misc_control_u {
-       unsigned long   v;
-       struct uvh_lb_bau_misc_control_s {
-               unsigned long   rejection_delay:8;              /* RW */
-               unsigned long   apic_mode:1;                    /* RW */
-               unsigned long   force_broadcast:1;              /* RW */
-               unsigned long   force_lock_nop:1;               /* RW */
-               unsigned long   qpi_agent_presence_vector:3;    /* RW */
-               unsigned long   descriptor_fetch_mode:1;        /* RW */
-               unsigned long   rsvd_15_19:5;
-               unsigned long   enable_dual_mapping_mode:1;     /* RW */
-               unsigned long   vga_io_port_decode_enable:1;    /* RW */
-               unsigned long   vga_io_port_16_bit_decode:1;    /* RW */
-               unsigned long   suppress_dest_registration:1;   /* RW */
-               unsigned long   programmed_initial_priority:3;  /* RW */
-               unsigned long   use_incoming_priority:1;        /* RW */
-               unsigned long   enable_programmed_initial_priority:1;/* RW */
-               unsigned long   rsvd_29_47:19;
-               unsigned long   fun:16;                         /* RW */
-       } s;
-       struct uvxh_lb_bau_misc_control_s {
-               unsigned long   rejection_delay:8;              /* RW */
-               unsigned long   apic_mode:1;                    /* RW */
-               unsigned long   force_broadcast:1;              /* RW */
-               unsigned long   force_lock_nop:1;               /* RW */
-               unsigned long   qpi_agent_presence_vector:3;    /* RW */
-               unsigned long   descriptor_fetch_mode:1;        /* RW */
-               unsigned long   rsvd_15_19:5;
-               unsigned long   enable_dual_mapping_mode:1;     /* RW */
-               unsigned long   vga_io_port_decode_enable:1;    /* RW */
-               unsigned long   vga_io_port_16_bit_decode:1;    /* RW */
-               unsigned long   suppress_dest_registration:1;   /* RW */
-               unsigned long   programmed_initial_priority:3;  /* RW */
-               unsigned long   use_incoming_priority:1;        /* RW */
-               unsigned long   enable_programmed_initial_priority:1;/* RW */
-               unsigned long   enable_automatic_apic_mode_selection:1;/* RW */
-               unsigned long   apic_mode_status:1;             /* RO */
-               unsigned long   suppress_interrupts_to_self:1;  /* RW */
-               unsigned long   enable_lock_based_system_flush:1;/* RW */
-               unsigned long   enable_extended_sb_status:1;    /* RW */
-               unsigned long   suppress_int_prio_udt_to_self:1;/* RW */
-               unsigned long   use_legacy_descriptor_formats:1;/* RW */
-               unsigned long   rsvd_36_47:12;
-               unsigned long   fun:16;                         /* RW */
-       } sx;
-       struct uv2h_lb_bau_misc_control_s {
-               unsigned long   rejection_delay:8;              /* RW */
-               unsigned long   apic_mode:1;                    /* RW */
-               unsigned long   force_broadcast:1;              /* RW */
-               unsigned long   force_lock_nop:1;               /* RW */
-               unsigned long   qpi_agent_presence_vector:3;    /* RW */
-               unsigned long   descriptor_fetch_mode:1;        /* RW */
-               unsigned long   enable_intd_soft_ack_mode:1;    /* RW */
-               unsigned long   intd_soft_ack_timeout_period:4; /* RW */
-               unsigned long   enable_dual_mapping_mode:1;     /* RW */
-               unsigned long   vga_io_port_decode_enable:1;    /* RW */
-               unsigned long   vga_io_port_16_bit_decode:1;    /* RW */
-               unsigned long   suppress_dest_registration:1;   /* RW */
-               unsigned long   programmed_initial_priority:3;  /* RW */
-               unsigned long   use_incoming_priority:1;        /* RW */
-               unsigned long   enable_programmed_initial_priority:1;/* RW */
-               unsigned long   enable_automatic_apic_mode_selection:1;/* RW */
-               unsigned long   apic_mode_status:1;             /* RO */
-               unsigned long   suppress_interrupts_to_self:1;  /* RW */
-               unsigned long   enable_lock_based_system_flush:1;/* RW */
-               unsigned long   enable_extended_sb_status:1;    /* RW */
-               unsigned long   suppress_int_prio_udt_to_self:1;/* RW */
-               unsigned long   use_legacy_descriptor_formats:1;/* RW */
-               unsigned long   rsvd_36_47:12;
-               unsigned long   fun:16;                         /* RW */
+       /* UV2 unique struct */
+       struct uv2h_int_cmpb_s {
+               unsigned long   real_time_cmpb:56;              /* RW */
+               unsigned long   rsvd_56_63:8;
        } s2;
-       struct uv3h_lb_bau_misc_control_s {
-               unsigned long   rejection_delay:8;              /* RW */
-               unsigned long   apic_mode:1;                    /* RW */
-               unsigned long   force_broadcast:1;              /* RW */
-               unsigned long   force_lock_nop:1;               /* RW */
-               unsigned long   qpi_agent_presence_vector:3;    /* RW */
-               unsigned long   descriptor_fetch_mode:1;        /* RW */
-               unsigned long   enable_intd_soft_ack_mode:1;    /* RW */
-               unsigned long   intd_soft_ack_timeout_period:4; /* RW */
-               unsigned long   enable_dual_mapping_mode:1;     /* RW */
-               unsigned long   vga_io_port_decode_enable:1;    /* RW */
-               unsigned long   vga_io_port_16_bit_decode:1;    /* RW */
-               unsigned long   suppress_dest_registration:1;   /* RW */
-               unsigned long   programmed_initial_priority:3;  /* RW */
-               unsigned long   use_incoming_priority:1;        /* RW */
-               unsigned long   enable_programmed_initial_priority:1;/* RW */
-               unsigned long   enable_automatic_apic_mode_selection:1;/* RW */
-               unsigned long   apic_mode_status:1;             /* RO */
-               unsigned long   suppress_interrupts_to_self:1;  /* RW */
-               unsigned long   enable_lock_based_system_flush:1;/* RW */
-               unsigned long   enable_extended_sb_status:1;    /* RW */
-               unsigned long   suppress_int_prio_udt_to_self:1;/* RW */
-               unsigned long   use_legacy_descriptor_formats:1;/* RW */
-               unsigned long   suppress_quiesce_msgs_to_qpi:1; /* RW */
-               unsigned long   enable_intd_prefetch_hint:1;    /* RW */
-               unsigned long   thread_kill_timebase:8;         /* RW */
-               unsigned long   rsvd_46_47:2;
-               unsigned long   fun:16;                         /* RW */
-       } s3;
-       struct uv4h_lb_bau_misc_control_s {
-               unsigned long   rejection_delay:8;              /* RW */
-               unsigned long   apic_mode:1;                    /* RW */
-               unsigned long   force_broadcast:1;              /* RW */
-               unsigned long   force_lock_nop:1;               /* RW */
-               unsigned long   qpi_agent_presence_vector:3;    /* RW */
-               unsigned long   descriptor_fetch_mode:1;        /* RW */
-               unsigned long   rsvd_15_19:5;
-               unsigned long   enable_dual_mapping_mode:1;     /* RW */
-               unsigned long   vga_io_port_decode_enable:1;    /* RW */
-               unsigned long   vga_io_port_16_bit_decode:1;    /* RW */
-               unsigned long   suppress_dest_registration:1;   /* RW */
-               unsigned long   programmed_initial_priority:3;  /* RW */
-               unsigned long   use_incoming_priority:1;        /* RW */
-               unsigned long   enable_programmed_initial_priority:1;/* RW */
-               unsigned long   enable_automatic_apic_mode_selection:1;/* RW */
-               unsigned long   apic_mode_status:1;             /* RO */
-               unsigned long   suppress_interrupts_to_self:1;  /* RW */
-               unsigned long   enable_lock_based_system_flush:1;/* RW */
-               unsigned long   enable_extended_sb_status:1;    /* RW */
-               unsigned long   suppress_int_prio_udt_to_self:1;/* RW */
-               unsigned long   use_legacy_descriptor_formats:1;/* RW */
-               unsigned long   suppress_quiesce_msgs_to_qpi:1; /* RW */
-               unsigned long   rsvd_37:1;
-               unsigned long   thread_kill_timebase:8;         /* RW */
-               unsigned long   address_interleave_select:1;    /* RW */
-               unsigned long   rsvd_47:1;
-               unsigned long   fun:16;                         /* RW */
-       } s4;
 };
 
 /* ========================================================================= */
-/*                     UVH_LB_BAU_SB_ACTIVATION_CONTROL                      */
+/*                               UVH_IPI_INT                                 */
 /* ========================================================================= */
-#define UV2H_LB_BAU_SB_ACTIVATION_CONTROL 0x320020UL
-#define UV3H_LB_BAU_SB_ACTIVATION_CONTROL 0x320020UL
-#define UV4H_LB_BAU_SB_ACTIVATION_CONTROL 0xc8020UL
-#define UVH_LB_BAU_SB_ACTIVATION_CONTROL (                             \
-       is_uv2_hub() ? UV2H_LB_BAU_SB_ACTIVATION_CONTROL :              \
-       is_uv3_hub() ? UV3H_LB_BAU_SB_ACTIVATION_CONTROL :              \
-       /*is_uv4_hub*/ UV4H_LB_BAU_SB_ACTIVATION_CONTROL)
-
-#define UV2H_LB_BAU_SB_ACTIVATION_CONTROL_32 0x9a8
-#define UV3H_LB_BAU_SB_ACTIVATION_CONTROL_32 0x9a8
-#define UV4H_LB_BAU_SB_ACTIVATION_CONTROL_32 0x9c8
-#define UVH_LB_BAU_SB_ACTIVATION_CONTROL_32 (                          \
-       is_uv2_hub() ? UV2H_LB_BAU_SB_ACTIVATION_CONTROL_32 :           \
-       is_uv3_hub() ? UV3H_LB_BAU_SB_ACTIVATION_CONTROL_32 :           \
-       /*is_uv4_hub*/ UV4H_LB_BAU_SB_ACTIVATION_CONTROL_32)
-
-#define UVH_LB_BAU_SB_ACTIVATION_CONTROL_INDEX_SHFT    0
-#define UVH_LB_BAU_SB_ACTIVATION_CONTROL_PUSH_SHFT     62
-#define UVH_LB_BAU_SB_ACTIVATION_CONTROL_INIT_SHFT     63
-#define UVH_LB_BAU_SB_ACTIVATION_CONTROL_INDEX_MASK    0x000000000000003fUL
-#define UVH_LB_BAU_SB_ACTIVATION_CONTROL_PUSH_MASK     0x4000000000000000UL
-#define UVH_LB_BAU_SB_ACTIVATION_CONTROL_INIT_MASK     0x8000000000000000UL
-
-
-union uvh_lb_bau_sb_activation_control_u {
-       unsigned long   v;
-       struct uvh_lb_bau_sb_activation_control_s {
-               unsigned long   index:6;                        /* RW */
-               unsigned long   rsvd_6_61:56;
-               unsigned long   push:1;                         /* WP */
-               unsigned long   init:1;                         /* WP */
-       } s;
-};
+#define UVH_IPI_INT 0x60500UL
 
-/* ========================================================================= */
-/*                    UVH_LB_BAU_SB_ACTIVATION_STATUS_0                      */
-/* ========================================================================= */
-#define UV2H_LB_BAU_SB_ACTIVATION_STATUS_0 0x320030UL
-#define UV3H_LB_BAU_SB_ACTIVATION_STATUS_0 0x320030UL
-#define UV4H_LB_BAU_SB_ACTIVATION_STATUS_0 0xc8030UL
-#define UVH_LB_BAU_SB_ACTIVATION_STATUS_0 (                            \
-       is_uv2_hub() ? UV2H_LB_BAU_SB_ACTIVATION_STATUS_0 :             \
-       is_uv3_hub() ? UV3H_LB_BAU_SB_ACTIVATION_STATUS_0 :             \
-       /*is_uv4_hub*/ UV4H_LB_BAU_SB_ACTIVATION_STATUS_0)
-
-#define UV2H_LB_BAU_SB_ACTIVATION_STATUS_0_32 0x9b0
-#define UV3H_LB_BAU_SB_ACTIVATION_STATUS_0_32 0x9b0
-#define UV4H_LB_BAU_SB_ACTIVATION_STATUS_0_32 0x9d0
-#define UVH_LB_BAU_SB_ACTIVATION_STATUS_0_32 (                         \
-       is_uv2_hub() ? UV2H_LB_BAU_SB_ACTIVATION_STATUS_0_32 :          \
-       is_uv3_hub() ? UV3H_LB_BAU_SB_ACTIVATION_STATUS_0_32 :          \
-       /*is_uv4_hub*/ UV4H_LB_BAU_SB_ACTIVATION_STATUS_0_32)
-
-#define UVH_LB_BAU_SB_ACTIVATION_STATUS_0_STATUS_SHFT  0
-#define UVH_LB_BAU_SB_ACTIVATION_STATUS_0_STATUS_MASK  0xffffffffffffffffUL
-
-
-union uvh_lb_bau_sb_activation_status_0_u {
-       unsigned long   v;
-       struct uvh_lb_bau_sb_activation_status_0_s {
-               unsigned long   status:64;                      /* RW */
-       } s;
-};
+/* UVH common defines*/
+#define UVH_IPI_INT_VECTOR_SHFT                                0
+#define UVH_IPI_INT_VECTOR_MASK                                0x00000000000000ffUL
+#define UVH_IPI_INT_DELIVERY_MODE_SHFT                 8
+#define UVH_IPI_INT_DELIVERY_MODE_MASK                 0x0000000000000700UL
+#define UVH_IPI_INT_DESTMODE_SHFT                      11
+#define UVH_IPI_INT_DESTMODE_MASK                      0x0000000000000800UL
+#define UVH_IPI_INT_APIC_ID_SHFT                       16
+#define UVH_IPI_INT_APIC_ID_MASK                       0x0000ffffffff0000UL
+#define UVH_IPI_INT_SEND_SHFT                          63
+#define UVH_IPI_INT_SEND_MASK                          0x8000000000000000UL
 
-/* ========================================================================= */
-/*                    UVH_LB_BAU_SB_ACTIVATION_STATUS_1                      */
-/* ========================================================================= */
-#define UV2H_LB_BAU_SB_ACTIVATION_STATUS_1 0x320040UL
-#define UV3H_LB_BAU_SB_ACTIVATION_STATUS_1 0x320040UL
-#define UV4H_LB_BAU_SB_ACTIVATION_STATUS_1 0xc8040UL
-#define UVH_LB_BAU_SB_ACTIVATION_STATUS_1 (                            \
-       is_uv2_hub() ? UV2H_LB_BAU_SB_ACTIVATION_STATUS_1 :             \
-       is_uv3_hub() ? UV3H_LB_BAU_SB_ACTIVATION_STATUS_1 :             \
-       /*is_uv4_hub*/ UV4H_LB_BAU_SB_ACTIVATION_STATUS_1)
-
-#define UV2H_LB_BAU_SB_ACTIVATION_STATUS_1_32 0x9b8
-#define UV3H_LB_BAU_SB_ACTIVATION_STATUS_1_32 0x9b8
-#define UV4H_LB_BAU_SB_ACTIVATION_STATUS_1_32 0x9d8
-#define UVH_LB_BAU_SB_ACTIVATION_STATUS_1_32 (                         \
-       is_uv2_hub() ? UV2H_LB_BAU_SB_ACTIVATION_STATUS_1_32 :          \
-       is_uv3_hub() ? UV3H_LB_BAU_SB_ACTIVATION_STATUS_1_32 :          \
-       /*is_uv4_hub*/ UV4H_LB_BAU_SB_ACTIVATION_STATUS_1_32)
-
-#define UVH_LB_BAU_SB_ACTIVATION_STATUS_1_STATUS_SHFT  0
-#define UVH_LB_BAU_SB_ACTIVATION_STATUS_1_STATUS_MASK  0xffffffffffffffffUL
-
-
-union uvh_lb_bau_sb_activation_status_1_u {
+
+union uvh_ipi_int_u {
        unsigned long   v;
-       struct uvh_lb_bau_sb_activation_status_1_s {
-               unsigned long   status:64;                      /* RW */
+
+       /* UVH common struct */
+       struct uvh_ipi_int_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   delivery_mode:3;                /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   rsvd_12_15:4;
+               unsigned long   apic_id:32;                     /* RW */
+               unsigned long   rsvd_48_62:15;
+               unsigned long   send:1;                         /* WP */
        } s;
-};
 
-/* ========================================================================= */
-/*                      UVH_LB_BAU_SB_DESCRIPTOR_BASE                        */
-/* ========================================================================= */
-#define UV2H_LB_BAU_SB_DESCRIPTOR_BASE 0x320010UL
-#define UV3H_LB_BAU_SB_DESCRIPTOR_BASE 0x320010UL
-#define UV4H_LB_BAU_SB_DESCRIPTOR_BASE 0xc8010UL
-#define UVH_LB_BAU_SB_DESCRIPTOR_BASE (                                        \
-       is_uv2_hub() ? UV2H_LB_BAU_SB_DESCRIPTOR_BASE :                 \
-       is_uv3_hub() ? UV3H_LB_BAU_SB_DESCRIPTOR_BASE :                 \
-       /*is_uv4_hub*/ UV4H_LB_BAU_SB_DESCRIPTOR_BASE)
-
-#define UV2H_LB_BAU_SB_DESCRIPTOR_BASE_32 0x9a0
-#define UV3H_LB_BAU_SB_DESCRIPTOR_BASE_32 0x9a0
-#define UV4H_LB_BAU_SB_DESCRIPTOR_BASE_32 0x9c0
-#define UVH_LB_BAU_SB_DESCRIPTOR_BASE_32 (                             \
-       is_uv2_hub() ? UV2H_LB_BAU_SB_DESCRIPTOR_BASE_32 :              \
-       is_uv3_hub() ? UV3H_LB_BAU_SB_DESCRIPTOR_BASE_32 :              \
-       /*is_uv4_hub*/ UV4H_LB_BAU_SB_DESCRIPTOR_BASE_32)
-
-#define UVH_LB_BAU_SB_DESCRIPTOR_BASE_PAGE_ADDRESS_SHFT        12
-
-#define UV2H_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_SHFT    49
-#define UV2H_LB_BAU_SB_DESCRIPTOR_BASE_PAGE_ADDRESS_MASK 0x000007fffffff000UL
-#define UV2H_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_MASK    0x7ffe000000000000UL
-
-#define UV3H_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_SHFT    49
-#define UV3H_LB_BAU_SB_DESCRIPTOR_BASE_PAGE_ADDRESS_MASK 0x000007fffffff000UL
-#define UV3H_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_MASK    0x7ffe000000000000UL
-
-#define UV4H_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_SHFT    49
-#define UV4H_LB_BAU_SB_DESCRIPTOR_BASE_PAGE_ADDRESS_MASK 0x00003ffffffff000UL
-#define UV4H_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_MASK    0x7ffe000000000000UL
-
-#define UV4AH_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_SHFT   53
-#define UV4AH_LB_BAU_SB_DESCRIPTOR_BASE_PAGE_ADDRESS_MASK 0x000ffffffffff000UL
-#define UV4AH_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_MASK   0xffe0000000000000UL
-
-#define UVH_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_SHFT (                   \
-       is_uv2_hub() ? UV2H_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_SHFT :    \
-       is_uv3_hub() ? UV3H_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_SHFT :    \
-       is_uv4a_hub() ? UV4AH_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_SHFT :  \
-       /*is_uv4_hub*/ UV4H_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_SHFT)
-
-#define UVH_LB_BAU_SB_DESCRIPTOR_PAGE_ADDRESS_MASK (                   \
-       is_uv2_hub() ? UV2H_LB_BAU_SB_DESCRIPTOR_PAGE_ADDRESS_MASK :    \
-       is_uv3_hub() ? UV3H_LB_BAU_SB_DESCRIPTOR_PAGE_ADDRESS_MASK :    \
-       is_uv4a_hub() ? UV4AH_LB_BAU_SB_DESCRIPTOR_PAGE_ADDRESS_MASK :  \
-       /*is_uv4_hub*/ UV4H_LB_BAU_SB_DESCRIPTOR_PAGE_ADDRESS_MASK)
-
-#define UVH_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_MASK (                   \
-       is_uv2_hub() ? UV2H_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_MASK :    \
-       is_uv3_hub() ? UV3H_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_MASK :    \
-       is_uv4a_hub() ? UV4AH_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_MASK :  \
-       /*is_uv4_hub*/ UV4H_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_MASK)
+       /* UV5 unique struct */
+       struct uv5h_ipi_int_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   delivery_mode:3;                /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   rsvd_12_15:4;
+               unsigned long   apic_id:32;                     /* RW */
+               unsigned long   rsvd_48_62:15;
+               unsigned long   send:1;                         /* WP */
+       } s5;
+
+       /* UV4 unique struct */
+       struct uv4h_ipi_int_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   delivery_mode:3;                /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   rsvd_12_15:4;
+               unsigned long   apic_id:32;                     /* RW */
+               unsigned long   rsvd_48_62:15;
+               unsigned long   send:1;                         /* WP */
+       } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_ipi_int_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   delivery_mode:3;                /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   rsvd_12_15:4;
+               unsigned long   apic_id:32;                     /* RW */
+               unsigned long   rsvd_48_62:15;
+               unsigned long   send:1;                         /* WP */
+       } s3;
+
+       /* UV2 unique struct */
+       struct uv2h_ipi_int_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   delivery_mode:3;                /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   rsvd_12_15:4;
+               unsigned long   apic_id:32;                     /* RW */
+               unsigned long   rsvd_48_62:15;
+               unsigned long   send:1;                         /* WP */
+       } s2;
+};
 
 /* ========================================================================= */
 /*                               UVH_NODE_ID                                 */
 /* ========================================================================= */
 #define UVH_NODE_ID 0x0UL
-#define UV2H_NODE_ID 0x0UL
-#define UV3H_NODE_ID 0x0UL
-#define UV4H_NODE_ID 0x0UL
 
+/* UVH common defines*/
 #define UVH_NODE_ID_FORCE1_SHFT                                0
-#define UVH_NODE_ID_MANUFACTURER_SHFT                  1
-#define UVH_NODE_ID_PART_NUMBER_SHFT                   12
-#define UVH_NODE_ID_REVISION_SHFT                      28
-#define UVH_NODE_ID_NODE_ID_SHFT                       32
 #define UVH_NODE_ID_FORCE1_MASK                                0x0000000000000001UL
+#define UVH_NODE_ID_MANUFACTURER_SHFT                  1
 #define UVH_NODE_ID_MANUFACTURER_MASK                  0x0000000000000ffeUL
+#define UVH_NODE_ID_PART_NUMBER_SHFT                   12
 #define UVH_NODE_ID_PART_NUMBER_MASK                   0x000000000ffff000UL
+#define UVH_NODE_ID_REVISION_SHFT                      28
 #define UVH_NODE_ID_REVISION_MASK                      0x00000000f0000000UL
-#define UVH_NODE_ID_NODE_ID_MASK                       0x00007fff00000000UL
+#define UVH_NODE_ID_NODE_ID_SHFT                       32
+#define UVH_NODE_ID_NI_PORT_SHFT                       57
 
-#define UVXH_NODE_ID_FORCE1_SHFT                       0
-#define UVXH_NODE_ID_MANUFACTURER_SHFT                 1
-#define UVXH_NODE_ID_PART_NUMBER_SHFT                  12
-#define UVXH_NODE_ID_REVISION_SHFT                     28
-#define UVXH_NODE_ID_NODE_ID_SHFT                      32
-#define UVXH_NODE_ID_NODES_PER_BIT_SHFT                        50
-#define UVXH_NODE_ID_NI_PORT_SHFT                      57
-#define UVXH_NODE_ID_FORCE1_MASK                       0x0000000000000001UL
-#define UVXH_NODE_ID_MANUFACTURER_MASK                 0x0000000000000ffeUL
-#define UVXH_NODE_ID_PART_NUMBER_MASK                  0x000000000ffff000UL
-#define UVXH_NODE_ID_REVISION_MASK                     0x00000000f0000000UL
+/* UVXH common defines */
 #define UVXH_NODE_ID_NODE_ID_MASK                      0x00007fff00000000UL
+#define UVXH_NODE_ID_NODES_PER_BIT_SHFT                        50
 #define UVXH_NODE_ID_NODES_PER_BIT_MASK                        0x01fc000000000000UL
 #define UVXH_NODE_ID_NI_PORT_MASK                      0x3e00000000000000UL
 
-#define UV2H_NODE_ID_FORCE1_SHFT                       0
-#define UV2H_NODE_ID_MANUFACTURER_SHFT                 1
-#define UV2H_NODE_ID_PART_NUMBER_SHFT                  12
-#define UV2H_NODE_ID_REVISION_SHFT                     28
-#define UV2H_NODE_ID_NODE_ID_SHFT                      32
-#define UV2H_NODE_ID_NODES_PER_BIT_SHFT                        50
-#define UV2H_NODE_ID_NI_PORT_SHFT                      57
-#define UV2H_NODE_ID_FORCE1_MASK                       0x0000000000000001UL
-#define UV2H_NODE_ID_MANUFACTURER_MASK                 0x0000000000000ffeUL
-#define UV2H_NODE_ID_PART_NUMBER_MASK                  0x000000000ffff000UL
-#define UV2H_NODE_ID_REVISION_MASK                     0x00000000f0000000UL
-#define UV2H_NODE_ID_NODE_ID_MASK                      0x00007fff00000000UL
-#define UV2H_NODE_ID_NODES_PER_BIT_MASK                        0x01fc000000000000UL
-#define UV2H_NODE_ID_NI_PORT_MASK                      0x3e00000000000000UL
-
-#define UV3H_NODE_ID_FORCE1_SHFT                       0
-#define UV3H_NODE_ID_MANUFACTURER_SHFT                 1
-#define UV3H_NODE_ID_PART_NUMBER_SHFT                  12
-#define UV3H_NODE_ID_REVISION_SHFT                     28
-#define UV3H_NODE_ID_NODE_ID_SHFT                      32
-#define UV3H_NODE_ID_ROUTER_SELECT_SHFT                        48
-#define UV3H_NODE_ID_RESERVED_2_SHFT                   49
-#define UV3H_NODE_ID_NODES_PER_BIT_SHFT                        50
-#define UV3H_NODE_ID_NI_PORT_SHFT                      57
-#define UV3H_NODE_ID_FORCE1_MASK                       0x0000000000000001UL
-#define UV3H_NODE_ID_MANUFACTURER_MASK                 0x0000000000000ffeUL
-#define UV3H_NODE_ID_PART_NUMBER_MASK                  0x000000000ffff000UL
-#define UV3H_NODE_ID_REVISION_MASK                     0x00000000f0000000UL
-#define UV3H_NODE_ID_NODE_ID_MASK                      0x00007fff00000000UL
-#define UV3H_NODE_ID_ROUTER_SELECT_MASK                        0x0001000000000000UL
-#define UV3H_NODE_ID_RESERVED_2_MASK                   0x0002000000000000UL
-#define UV3H_NODE_ID_NODES_PER_BIT_MASK                        0x01fc000000000000UL
-#define UV3H_NODE_ID_NI_PORT_MASK                      0x3e00000000000000UL
-
-#define UV4H_NODE_ID_FORCE1_SHFT                       0
-#define UV4H_NODE_ID_MANUFACTURER_SHFT                 1
-#define UV4H_NODE_ID_PART_NUMBER_SHFT                  12
-#define UV4H_NODE_ID_REVISION_SHFT                     28
-#define UV4H_NODE_ID_NODE_ID_SHFT                      32
+/* UVYH common defines */
+#define UVYH_NODE_ID_NODE_ID_MASK                      0x0000007f00000000UL
+#define UVYH_NODE_ID_NI_PORT_MASK                      0x7e00000000000000UL
+
+/* UV4 unique defines */
 #define UV4H_NODE_ID_ROUTER_SELECT_SHFT                        48
-#define UV4H_NODE_ID_RESERVED_2_SHFT                   49
-#define UV4H_NODE_ID_NODES_PER_BIT_SHFT                        50
-#define UV4H_NODE_ID_NI_PORT_SHFT                      57
-#define UV4H_NODE_ID_FORCE1_MASK                       0x0000000000000001UL
-#define UV4H_NODE_ID_MANUFACTURER_MASK                 0x0000000000000ffeUL
-#define UV4H_NODE_ID_PART_NUMBER_MASK                  0x000000000ffff000UL
-#define UV4H_NODE_ID_REVISION_MASK                     0x00000000f0000000UL
-#define UV4H_NODE_ID_NODE_ID_MASK                      0x00007fff00000000UL
 #define UV4H_NODE_ID_ROUTER_SELECT_MASK                        0x0001000000000000UL
+#define UV4H_NODE_ID_RESERVED_2_SHFT                   49
 #define UV4H_NODE_ID_RESERVED_2_MASK                   0x0002000000000000UL
-#define UV4H_NODE_ID_NODES_PER_BIT_MASK                        0x01fc000000000000UL
-#define UV4H_NODE_ID_NI_PORT_MASK                      0x3e00000000000000UL
+
+/* UV3 unique defines */
+#define UV3H_NODE_ID_ROUTER_SELECT_SHFT                        48
+#define UV3H_NODE_ID_ROUTER_SELECT_MASK                        0x0001000000000000UL
+#define UV3H_NODE_ID_RESERVED_2_SHFT                   49
+#define UV3H_NODE_ID_RESERVED_2_MASK                   0x0002000000000000UL
 
 
 union uvh_node_id_u {
        unsigned long   v;
+
+       /* UVH common struct */
        struct uvh_node_id_s {
                unsigned long   force1:1;                       /* RO */
                unsigned long   manufacturer:11;                /* RO */
                unsigned long   part_number:16;                 /* RO */
                unsigned long   revision:4;                     /* RO */
-               unsigned long   node_id:15;                     /* RW */
-               unsigned long   rsvd_47_63:17;
+               unsigned long   rsvd_32_63:32;
        } s;
+
+       /* UVXH common struct */
        struct uvxh_node_id_s {
                unsigned long   force1:1;                       /* RO */
                unsigned long   manufacturer:11;                /* RO */
@@ -2444,17 +2841,47 @@ union uvh_node_id_u {
                unsigned long   ni_port:5;                      /* RO */
                unsigned long   rsvd_62_63:2;
        } sx;
-       struct uv2h_node_id_s {
+
+       /* UVYH common struct */
+       struct uvyh_node_id_s {
+               unsigned long   force1:1;                       /* RO */
+               unsigned long   manufacturer:11;                /* RO */
+               unsigned long   part_number:16;                 /* RO */
+               unsigned long   revision:4;                     /* RO */
+               unsigned long   node_id:7;                      /* RW */
+               unsigned long   rsvd_39_56:18;
+               unsigned long   ni_port:6;                      /* RO */
+               unsigned long   rsvd_63:1;
+       } sy;
+
+       /* UV5 unique struct */
+       struct uv5h_node_id_s {
+               unsigned long   force1:1;                       /* RO */
+               unsigned long   manufacturer:11;                /* RO */
+               unsigned long   part_number:16;                 /* RO */
+               unsigned long   revision:4;                     /* RO */
+               unsigned long   node_id:7;                      /* RW */
+               unsigned long   rsvd_39_56:18;
+               unsigned long   ni_port:6;                      /* RO */
+               unsigned long   rsvd_63:1;
+       } s5;
+
+       /* UV4 unique struct */
+       struct uv4h_node_id_s {
                unsigned long   force1:1;                       /* RO */
                unsigned long   manufacturer:11;                /* RO */
                unsigned long   part_number:16;                 /* RO */
                unsigned long   revision:4;                     /* RO */
                unsigned long   node_id:15;                     /* RW */
-               unsigned long   rsvd_47_49:3;
+               unsigned long   rsvd_47:1;
+               unsigned long   router_select:1;                /* RO */
+               unsigned long   rsvd_49:1;
                unsigned long   nodes_per_bit:7;                /* RO */
                unsigned long   ni_port:5;                      /* RO */
                unsigned long   rsvd_62_63:2;
-       } s2;
+       } s4;
+
+       /* UV3 unique struct */
        struct uv3h_node_id_s {
                unsigned long   force1:1;                       /* RO */
                unsigned long   manufacturer:11;                /* RO */
@@ -2468,1642 +2895,1743 @@ union uvh_node_id_u {
                unsigned long   ni_port:5;                      /* RO */
                unsigned long   rsvd_62_63:2;
        } s3;
-       struct uv4h_node_id_s {
+
+       /* UV2 unique struct */
+       struct uv2h_node_id_s {
                unsigned long   force1:1;                       /* RO */
                unsigned long   manufacturer:11;                /* RO */
                unsigned long   part_number:16;                 /* RO */
                unsigned long   revision:4;                     /* RO */
                unsigned long   node_id:15;                     /* RW */
-               unsigned long   rsvd_47:1;
-               unsigned long   router_select:1;                /* RO */
-               unsigned long   rsvd_49:1;
+               unsigned long   rsvd_47_49:3;
                unsigned long   nodes_per_bit:7;                /* RO */
                unsigned long   ni_port:5;                      /* RO */
                unsigned long   rsvd_62_63:2;
-       } s4;
+       } s2;
+};
+
+/* ========================================================================= */
+/*                            UVH_NODE_PRESENT_0                             */
+/* ========================================================================= */
+#define UVH_NODE_PRESENT_0 (                                           \
+       is_uv(UV5) ? 0x1400UL :                                         \
+       0)
+
+
+/* UVYH common defines */
+#define UVYH_NODE_PRESENT_0_NODES_SHFT                 0
+#define UVYH_NODE_PRESENT_0_NODES_MASK                 0xffffffffffffffffUL
+
+
+union uvh_node_present_0_u {
+       unsigned long   v;
+
+       /* UVH common struct */
+       struct uvh_node_present_0_s {
+               unsigned long   nodes:64;                       /* RW */
+       } s;
+
+       /* UVYH common struct */
+       struct uvyh_node_present_0_s {
+               unsigned long   nodes:64;                       /* RW */
+       } sy;
+
+       /* UV5 unique struct */
+       struct uv5h_node_present_0_s {
+               unsigned long   nodes:64;                       /* RW */
+       } s5;
+};
+
+/* ========================================================================= */
+/*                            UVH_NODE_PRESENT_1                             */
+/* ========================================================================= */
+#define UVH_NODE_PRESENT_1 (                                           \
+       is_uv(UV5) ? 0x1408UL :                                         \
+       0)
+
+
+/* UVYH common defines */
+#define UVYH_NODE_PRESENT_1_NODES_SHFT                 0
+#define UVYH_NODE_PRESENT_1_NODES_MASK                 0xffffffffffffffffUL
+
+
+union uvh_node_present_1_u {
+       unsigned long   v;
+
+       /* UVH common struct */
+       struct uvh_node_present_1_s {
+               unsigned long   nodes:64;                       /* RW */
+       } s;
+
+       /* UVYH common struct */
+       struct uvyh_node_present_1_s {
+               unsigned long   nodes:64;                       /* RW */
+       } sy;
+
+       /* UV5 unique struct */
+       struct uv5h_node_present_1_s {
+               unsigned long   nodes:64;                       /* RW */
+       } s5;
 };
 
 /* ========================================================================= */
 /*                          UVH_NODE_PRESENT_TABLE                           */
 /* ========================================================================= */
-#define UVH_NODE_PRESENT_TABLE 0x1400UL
+#define UVH_NODE_PRESENT_TABLE (                                       \
+       is_uv(UV4) ? 0x1400UL :                                         \
+       is_uv(UV3) ? 0x1400UL :                                         \
+       is_uv(UV2) ? 0x1400UL :                                         \
+       0)
 
-#define UV2H_NODE_PRESENT_TABLE_DEPTH 16
-#define UV3H_NODE_PRESENT_TABLE_DEPTH 16
-#define UV4H_NODE_PRESENT_TABLE_DEPTH 4
 #define UVH_NODE_PRESENT_TABLE_DEPTH (                                 \
-       is_uv2_hub() ? UV2H_NODE_PRESENT_TABLE_DEPTH :                  \
-       is_uv3_hub() ? UV3H_NODE_PRESENT_TABLE_DEPTH :                  \
-       /*is_uv4_hub*/ UV4H_NODE_PRESENT_TABLE_DEPTH)
+       is_uv(UV4) ? 4 :                                                \
+       is_uv(UV3) ? 16 :                                               \
+       is_uv(UV2) ? 16 :                                               \
+       0)
+
 
-#define UVH_NODE_PRESENT_TABLE_NODES_SHFT              0
-#define UVH_NODE_PRESENT_TABLE_NODES_MASK              0xffffffffffffffffUL
+/* UVXH common defines */
+#define UVXH_NODE_PRESENT_TABLE_NODES_SHFT             0
+#define UVXH_NODE_PRESENT_TABLE_NODES_MASK             0xffffffffffffffffUL
 
 
 union uvh_node_present_table_u {
        unsigned long   v;
+
+       /* UVH common struct */
        struct uvh_node_present_table_s {
                unsigned long   nodes:64;                       /* RW */
        } s;
+
+       /* UVXH common struct */
+       struct uvxh_node_present_table_s {
+               unsigned long   nodes:64;                       /* RW */
+       } sx;
+
+       /* UV4 unique struct */
+       struct uv4h_node_present_table_s {
+               unsigned long   nodes:64;                       /* RW */
+       } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_node_present_table_s {
+               unsigned long   nodes:64;                       /* RW */
+       } s3;
+
+       /* UV2 unique struct */
+       struct uv2h_node_present_table_s {
+               unsigned long   nodes:64;                       /* RW */
+       } s2;
 };
 
 /* ========================================================================= */
-/*                 UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR                  */
+/*                       UVH_RH10_GAM_ADDR_MAP_CONFIG                        */
 /* ========================================================================= */
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR 0x16000c8UL
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR 0x16000c8UL
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR 0x4800c8UL
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR (                     \
-       is_uv2_hub() ? UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR :      \
-       is_uv3_hub() ? UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR :      \
-       /*is_uv4_hub*/ UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR)
-
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_BASE_SHFT 24
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_M_ALIAS_SHFT 48
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_ENABLE_SHFT 63
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_BASE_MASK 0x00000000ff000000UL
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_M_ALIAS_MASK 0x001f000000000000UL
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_BASE_SHFT 24
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_M_ALIAS_SHFT 48
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_ENABLE_SHFT 63
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_BASE_MASK 0x00000000ff000000UL
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_M_ALIAS_MASK 0x001f000000000000UL
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_BASE_SHFT 24
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_M_ALIAS_SHFT 48
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_ENABLE_SHFT 63
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_BASE_MASK 0x00000000ff000000UL
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_M_ALIAS_MASK 0x001f000000000000UL
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_BASE_SHFT 24
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_M_ALIAS_SHFT 48
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_ENABLE_SHFT 63
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_BASE_MASK 0x00000000ff000000UL
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_M_ALIAS_MASK 0x001f000000000000UL
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_BASE_SHFT 24
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_M_ALIAS_SHFT 48
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_ENABLE_SHFT 63
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_BASE_MASK 0x00000000ff000000UL
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_M_ALIAS_MASK 0x001f000000000000UL
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR_ENABLE_MASK 0x8000000000000000UL
-
-
-union uvh_rh_gam_alias210_overlay_config_0_mmr_u {
+#define UVH_RH10_GAM_ADDR_MAP_CONFIG (                                 \
+       is_uv(UV5) ? 0x470000UL :                                       \
+       0)
+
+
+/* UVYH common defines */
+#define UVYH_RH10_GAM_ADDR_MAP_CONFIG_N_SKT_SHFT       6
+#define UVYH_RH10_GAM_ADDR_MAP_CONFIG_N_SKT_MASK       0x00000000000001c0UL
+#define UVYH_RH10_GAM_ADDR_MAP_CONFIG_LS_ENABLE_SHFT   12
+#define UVYH_RH10_GAM_ADDR_MAP_CONFIG_LS_ENABLE_MASK   0x0000000000001000UL
+#define UVYH_RH10_GAM_ADDR_MAP_CONFIG_MK_TME_KEYID_BITS_SHFT 16
+#define UVYH_RH10_GAM_ADDR_MAP_CONFIG_MK_TME_KEYID_BITS_MASK 0x00000000000f0000UL
+
+
+union uvh_rh10_gam_addr_map_config_u {
        unsigned long   v;
-       struct uvh_rh_gam_alias210_overlay_config_0_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   base:8;                         /* RW */
-               unsigned long   rsvd_32_47:16;
-               unsigned long   m_alias:5;                      /* RW */
-               unsigned long   rsvd_53_62:10;
-               unsigned long   enable:1;                       /* RW */
+
+       /* UVH common struct */
+       struct uvh_rh10_gam_addr_map_config_s {
+               unsigned long   undef_0_5:6;                    /* Undefined */
+               unsigned long   n_skt:3;                        /* RW */
+               unsigned long   undef_9_11:3;                   /* Undefined */
+               unsigned long   ls_enable:1;                    /* RW */
+               unsigned long   undef_13_15:3;                  /* Undefined */
+               unsigned long   mk_tme_keyid_bits:4;            /* RW */
+               unsigned long   rsvd_20_63:44;
        } s;
-       struct uvxh_rh_gam_alias210_overlay_config_0_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   base:8;                         /* RW */
-               unsigned long   rsvd_32_47:16;
-               unsigned long   m_alias:5;                      /* RW */
-               unsigned long   rsvd_53_62:10;
-               unsigned long   enable:1;                       /* RW */
-       } sx;
-       struct uv2h_rh_gam_alias210_overlay_config_0_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   base:8;                         /* RW */
-               unsigned long   rsvd_32_47:16;
-               unsigned long   m_alias:5;                      /* RW */
-               unsigned long   rsvd_53_62:10;
-               unsigned long   enable:1;                       /* RW */
-       } s2;
-       struct uv3h_rh_gam_alias210_overlay_config_0_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   base:8;                         /* RW */
-               unsigned long   rsvd_32_47:16;
-               unsigned long   m_alias:5;                      /* RW */
-               unsigned long   rsvd_53_62:10;
-               unsigned long   enable:1;                       /* RW */
-       } s3;
-       struct uv4h_rh_gam_alias210_overlay_config_0_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   base:8;                         /* RW */
-               unsigned long   rsvd_32_47:16;
-               unsigned long   m_alias:5;                      /* RW */
-               unsigned long   rsvd_53_62:10;
-               unsigned long   enable:1;                       /* RW */
-       } s4;
+
+       /* UVYH common struct */
+       struct uvyh_rh10_gam_addr_map_config_s {
+               unsigned long   undef_0_5:6;                    /* Undefined */
+               unsigned long   n_skt:3;                        /* RW */
+               unsigned long   undef_9_11:3;                   /* Undefined */
+               unsigned long   ls_enable:1;                    /* RW */
+               unsigned long   undef_13_15:3;                  /* Undefined */
+               unsigned long   mk_tme_keyid_bits:4;            /* RW */
+               unsigned long   rsvd_20_63:44;
+       } sy;
+
+       /* UV5 unique struct */
+       struct uv5h_rh10_gam_addr_map_config_s {
+               unsigned long   undef_0_5:6;                    /* Undefined */
+               unsigned long   n_skt:3;                        /* RW */
+               unsigned long   undef_9_11:3;                   /* Undefined */
+               unsigned long   ls_enable:1;                    /* RW */
+               unsigned long   undef_13_15:3;                  /* Undefined */
+               unsigned long   mk_tme_keyid_bits:4;            /* RW */
+       } s5;
 };
 
 /* ========================================================================= */
-/*                 UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR                  */
+/*                     UVH_RH10_GAM_GRU_OVERLAY_CONFIG                       */
 /* ========================================================================= */
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR 0x16000d8UL
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR 0x16000d8UL
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR 0x4800d8UL
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR (                     \
-       is_uv2_hub() ? UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR :      \
-       is_uv3_hub() ? UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR :      \
-       /*is_uv4_hub*/ UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR)
-
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_BASE_SHFT 24
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_M_ALIAS_SHFT 48
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_ENABLE_SHFT 63
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_BASE_MASK 0x00000000ff000000UL
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_M_ALIAS_MASK 0x001f000000000000UL
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_BASE_SHFT 24
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_M_ALIAS_SHFT 48
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_ENABLE_SHFT 63
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_BASE_MASK 0x00000000ff000000UL
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_M_ALIAS_MASK 0x001f000000000000UL
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_BASE_SHFT 24
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_M_ALIAS_SHFT 48
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_ENABLE_SHFT 63
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_BASE_MASK 0x00000000ff000000UL
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_M_ALIAS_MASK 0x001f000000000000UL
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_BASE_SHFT 24
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_M_ALIAS_SHFT 48
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_ENABLE_SHFT 63
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_BASE_MASK 0x00000000ff000000UL
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_M_ALIAS_MASK 0x001f000000000000UL
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_BASE_SHFT 24
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_M_ALIAS_SHFT 48
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_ENABLE_SHFT 63
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_BASE_MASK 0x00000000ff000000UL
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_M_ALIAS_MASK 0x001f000000000000UL
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR_ENABLE_MASK 0x8000000000000000UL
-
-
-union uvh_rh_gam_alias210_overlay_config_1_mmr_u {
+#define UVH_RH10_GAM_GRU_OVERLAY_CONFIG (                              \
+       is_uv(UV5) ? 0x4700b0UL :                                       \
+       0)
+
+
+/* UVYH common defines */
+#define UVYH_RH10_GAM_GRU_OVERLAY_CONFIG_BASE_SHFT     25
+#define UVYH_RH10_GAM_GRU_OVERLAY_CONFIG_BASE_MASK     0x000ffffffe000000UL
+#define UVYH_RH10_GAM_GRU_OVERLAY_CONFIG_N_GRU_SHFT    52
+#define UVYH_RH10_GAM_GRU_OVERLAY_CONFIG_N_GRU_MASK    0x0070000000000000UL
+#define UVYH_RH10_GAM_GRU_OVERLAY_CONFIG_ENABLE_SHFT   63
+#define UVYH_RH10_GAM_GRU_OVERLAY_CONFIG_ENABLE_MASK   0x8000000000000000UL
+
+#define UVH_RH10_GAM_GRU_OVERLAY_CONFIG_BASE_MASK (                    \
+       is_uv(UV5) ? 0x000ffffffe000000UL :                             \
+       0)
+#define UVH_RH10_GAM_GRU_OVERLAY_CONFIG_BASE_SHFT (                    \
+       is_uv(UV5) ? 25 :                                               \
+       -1)
+
+union uvh_rh10_gam_gru_overlay_config_u {
        unsigned long   v;
-       struct uvh_rh_gam_alias210_overlay_config_1_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   base:8;                         /* RW */
-               unsigned long   rsvd_32_47:16;
-               unsigned long   m_alias:5;                      /* RW */
-               unsigned long   rsvd_53_62:10;
-               unsigned long   enable:1;                       /* RW */
-       } s;
-       struct uvxh_rh_gam_alias210_overlay_config_1_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   base:8;                         /* RW */
-               unsigned long   rsvd_32_47:16;
-               unsigned long   m_alias:5;                      /* RW */
-               unsigned long   rsvd_53_62:10;
-               unsigned long   enable:1;                       /* RW */
-       } sx;
-       struct uv2h_rh_gam_alias210_overlay_config_1_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   base:8;                         /* RW */
-               unsigned long   rsvd_32_47:16;
-               unsigned long   m_alias:5;                      /* RW */
-               unsigned long   rsvd_53_62:10;
-               unsigned long   enable:1;                       /* RW */
-       } s2;
-       struct uv3h_rh_gam_alias210_overlay_config_1_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   base:8;                         /* RW */
-               unsigned long   rsvd_32_47:16;
-               unsigned long   m_alias:5;                      /* RW */
-               unsigned long   rsvd_53_62:10;
-               unsigned long   enable:1;                       /* RW */
-       } s3;
-       struct uv4h_rh_gam_alias210_overlay_config_1_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   base:8;                         /* RW */
-               unsigned long   rsvd_32_47:16;
-               unsigned long   m_alias:5;                      /* RW */
-               unsigned long   rsvd_53_62:10;
+
+       /* UVH common struct */
+       struct uvh_rh10_gam_gru_overlay_config_s {
+               unsigned long   undef_0_24:25;                  /* Undefined */
+               unsigned long   base:27;                        /* RW */
+               unsigned long   n_gru:3;                        /* RW */
+               unsigned long   undef_55_62:8;                  /* Undefined */
                unsigned long   enable:1;                       /* RW */
-       } s4;
+       } s;
+
+       /* UVYH common struct */
+       struct uvyh_rh10_gam_gru_overlay_config_s {
+               unsigned long   undef_0_24:25;                  /* Undefined */
+               unsigned long   base:27;                        /* RW */
+               unsigned long   n_gru:3;                        /* RW */
+               unsigned long   undef_55_62:8;                  /* Undefined */
+               unsigned long   enable:1;                       /* RW */
+       } sy;
+
+       /* UV5 unique struct */
+       struct uv5h_rh10_gam_gru_overlay_config_s {
+               unsigned long   undef_0_24:25;                  /* Undefined */
+               unsigned long   base:27;                        /* RW */
+               unsigned long   n_gru:3;                        /* RW */
+               unsigned long   undef_55_62:8;                  /* Undefined */
+               unsigned long   enable:1;                       /* RW */
+       } s5;
 };
 
 /* ========================================================================= */
-/*                 UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR                  */
+/*                    UVH_RH10_GAM_MMIOH_OVERLAY_CONFIG0                     */
 /* ========================================================================= */
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR 0x16000e8UL
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR 0x16000e8UL
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR 0x4800e8UL
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR (                     \
-       is_uv2_hub() ? UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR :      \
-       is_uv3_hub() ? UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR :      \
-       /*is_uv4_hub*/ UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR)
-
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_BASE_SHFT 24
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_M_ALIAS_SHFT 48
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_ENABLE_SHFT 63
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_BASE_MASK 0x00000000ff000000UL
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_M_ALIAS_MASK 0x001f000000000000UL
-#define UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_BASE_SHFT 24
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_M_ALIAS_SHFT 48
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_ENABLE_SHFT 63
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_BASE_MASK 0x00000000ff000000UL
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_M_ALIAS_MASK 0x001f000000000000UL
-#define UVXH_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_BASE_SHFT 24
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_M_ALIAS_SHFT 48
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_ENABLE_SHFT 63
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_BASE_MASK 0x00000000ff000000UL
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_M_ALIAS_MASK 0x001f000000000000UL
-#define UV2H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_BASE_SHFT 24
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_M_ALIAS_SHFT 48
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_ENABLE_SHFT 63
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_BASE_MASK 0x00000000ff000000UL
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_M_ALIAS_MASK 0x001f000000000000UL
-#define UV3H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_BASE_SHFT 24
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_M_ALIAS_SHFT 48
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_ENABLE_SHFT 63
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_BASE_MASK 0x00000000ff000000UL
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_M_ALIAS_MASK 0x001f000000000000UL
-#define UV4H_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR_ENABLE_MASK 0x8000000000000000UL
-
-
-union uvh_rh_gam_alias210_overlay_config_2_mmr_u {
+#define UVH_RH10_GAM_MMIOH_OVERLAY_CONFIG0 (                           \
+       is_uv(UV5) ? 0x473000UL :                                       \
+       0)
+
+
+/* UVYH common defines */
+#define UVYH_RH10_GAM_MMIOH_OVERLAY_CONFIG0_BASE_SHFT  26
+#define UVYH_RH10_GAM_MMIOH_OVERLAY_CONFIG0_BASE_MASK  0x000ffffffc000000UL
+#define UVYH_RH10_GAM_MMIOH_OVERLAY_CONFIG0_M_IO_SHFT  52
+#define UVYH_RH10_GAM_MMIOH_OVERLAY_CONFIG0_M_IO_MASK  0x03f0000000000000UL
+#define UVYH_RH10_GAM_MMIOH_OVERLAY_CONFIG0_ENABLE_SHFT        63
+#define UVYH_RH10_GAM_MMIOH_OVERLAY_CONFIG0_ENABLE_MASK        0x8000000000000000UL
+
+#define UVH_RH10_GAM_MMIOH_OVERLAY_CONFIG0_BASE_MASK (                 \
+       is_uv(UV5) ? 0x000ffffffc000000UL :                             \
+       0)
+#define UVH_RH10_GAM_MMIOH_OVERLAY_CONFIG0_BASE_SHFT (                 \
+       is_uv(UV5) ? 26 :                                               \
+       -1)
+
+union uvh_rh10_gam_mmioh_overlay_config0_u {
        unsigned long   v;
-       struct uvh_rh_gam_alias210_overlay_config_2_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   base:8;                         /* RW */
-               unsigned long   rsvd_32_47:16;
-               unsigned long   m_alias:5;                      /* RW */
-               unsigned long   rsvd_53_62:10;
+
+       /* UVH common struct */
+       struct uvh_rh10_gam_mmioh_overlay_config0_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:26;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   undef_62:1;                     /* Undefined */
                unsigned long   enable:1;                       /* RW */
        } s;
-       struct uvxh_rh_gam_alias210_overlay_config_2_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   base:8;                         /* RW */
-               unsigned long   rsvd_32_47:16;
-               unsigned long   m_alias:5;                      /* RW */
-               unsigned long   rsvd_53_62:10;
-               unsigned long   enable:1;                       /* RW */
-       } sx;
-       struct uv2h_rh_gam_alias210_overlay_config_2_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   base:8;                         /* RW */
-               unsigned long   rsvd_32_47:16;
-               unsigned long   m_alias:5;                      /* RW */
-               unsigned long   rsvd_53_62:10;
-               unsigned long   enable:1;                       /* RW */
-       } s2;
-       struct uv3h_rh_gam_alias210_overlay_config_2_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   base:8;                         /* RW */
-               unsigned long   rsvd_32_47:16;
-               unsigned long   m_alias:5;                      /* RW */
-               unsigned long   rsvd_53_62:10;
+
+       /* UVYH common struct */
+       struct uvyh_rh10_gam_mmioh_overlay_config0_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:26;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   undef_62:1;                     /* Undefined */
                unsigned long   enable:1;                       /* RW */
-       } s3;
-       struct uv4h_rh_gam_alias210_overlay_config_2_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   base:8;                         /* RW */
-               unsigned long   rsvd_32_47:16;
-               unsigned long   m_alias:5;                      /* RW */
-               unsigned long   rsvd_53_62:10;
+       } sy;
+
+       /* UV5 unique struct */
+       struct uv5h_rh10_gam_mmioh_overlay_config0_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:26;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   undef_62:1;                     /* Undefined */
                unsigned long   enable:1;                       /* RW */
-       } s4;
+       } s5;
 };
 
 /* ========================================================================= */
-/*                UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR                  */
+/*                    UVH_RH10_GAM_MMIOH_OVERLAY_CONFIG1                     */
 /* ========================================================================= */
-#define UV2H_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR 0x16000d0UL
-#define UV3H_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR 0x16000d0UL
-#define UV4H_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR 0x4800d0UL
-#define UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR (                    \
-       is_uv2_hub() ? UV2H_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR :     \
-       is_uv3_hub() ? UV3H_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR :     \
-       /*is_uv4_hub*/ UV4H_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR)
+#define UVH_RH10_GAM_MMIOH_OVERLAY_CONFIG1 (                           \
+       is_uv(UV5) ? 0x474000UL :                                       \
+       0)
+
+
+/* UVYH common defines */
+#define UVYH_RH10_GAM_MMIOH_OVERLAY_CONFIG1_BASE_SHFT  26
+#define UVYH_RH10_GAM_MMIOH_OVERLAY_CONFIG1_BASE_MASK  0x000ffffffc000000UL
+#define UVYH_RH10_GAM_MMIOH_OVERLAY_CONFIG1_M_IO_SHFT  52
+#define UVYH_RH10_GAM_MMIOH_OVERLAY_CONFIG1_M_IO_MASK  0x03f0000000000000UL
+#define UVYH_RH10_GAM_MMIOH_OVERLAY_CONFIG1_ENABLE_SHFT        63
+#define UVYH_RH10_GAM_MMIOH_OVERLAY_CONFIG1_ENABLE_MASK        0x8000000000000000UL
+
+#define UVH_RH10_GAM_MMIOH_OVERLAY_CONFIG1_BASE_MASK (                 \
+       is_uv(UV5) ? 0x000ffffffc000000UL :                             \
+       0)
+#define UVH_RH10_GAM_MMIOH_OVERLAY_CONFIG1_BASE_SHFT (                 \
+       is_uv(UV5) ? 26 :                                               \
+       -1)
+
+union uvh_rh10_gam_mmioh_overlay_config1_u {
+       unsigned long   v;
+
+       /* UVH common struct */
+       struct uvh_rh10_gam_mmioh_overlay_config1_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:26;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   undef_62:1;                     /* Undefined */
+               unsigned long   enable:1;                       /* RW */
+       } s;
+
+       /* UVYH common struct */
+       struct uvyh_rh10_gam_mmioh_overlay_config1_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:26;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   undef_62:1;                     /* Undefined */
+               unsigned long   enable:1;                       /* RW */
+       } sy;
 
-#define UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR_DEST_BASE_SHFT 24
-#define UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR_DEST_BASE_MASK 0x00003fffff000000UL
+       /* UV5 unique struct */
+       struct uv5h_rh10_gam_mmioh_overlay_config1_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:26;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   undef_62:1;                     /* Undefined */
+               unsigned long   enable:1;                       /* RW */
+       } s5;
+};
 
-#define UVXH_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR_DEST_BASE_SHFT 24
-#define UVXH_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR_DEST_BASE_MASK 0x00003fffff000000UL
+/* ========================================================================= */
+/*                   UVH_RH10_GAM_MMIOH_REDIRECT_CONFIG0                     */
+/* ========================================================================= */
+#define UVH_RH10_GAM_MMIOH_REDIRECT_CONFIG0 (                          \
+       is_uv(UV5) ? 0x473800UL :                                       \
+       0)
 
-#define UV2H_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR_DEST_BASE_SHFT 24
-#define UV2H_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR_DEST_BASE_MASK 0x00003fffff000000UL
+#define UVH_RH10_GAM_MMIOH_REDIRECT_CONFIG0_DEPTH (                    \
+       is_uv(UV5) ? 128 :                                              \
+       0)
 
-#define UV3H_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR_DEST_BASE_SHFT 24
-#define UV3H_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR_DEST_BASE_MASK 0x00003fffff000000UL
 
-#define UV4H_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR_DEST_BASE_SHFT 24
-#define UV4H_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR_DEST_BASE_MASK 0x00003fffff000000UL
+/* UVYH common defines */
+#define UVYH_RH10_GAM_MMIOH_REDIRECT_CONFIG0_NASID_SHFT        0
+#define UVYH_RH10_GAM_MMIOH_REDIRECT_CONFIG0_NASID_MASK        0x000000000000007fUL
 
 
-union uvh_rh_gam_alias210_redirect_config_0_mmr_u {
+union uvh_rh10_gam_mmioh_redirect_config0_u {
        unsigned long   v;
-       struct uvh_rh_gam_alias210_redirect_config_0_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   dest_base:22;                   /* RW */
-               unsigned long   rsvd_46_63:18;
+
+       /* UVH common struct */
+       struct uvh_rh10_gam_mmioh_redirect_config0_s {
+               unsigned long   nasid:7;                        /* RW */
+               unsigned long   rsvd_7_63:57;
        } s;
-       struct uvxh_rh_gam_alias210_redirect_config_0_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   dest_base:22;                   /* RW */
-               unsigned long   rsvd_46_63:18;
-       } sx;
-       struct uv2h_rh_gam_alias210_redirect_config_0_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   dest_base:22;                   /* RW */
-               unsigned long   rsvd_46_63:18;
-       } s2;
-       struct uv3h_rh_gam_alias210_redirect_config_0_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   dest_base:22;                   /* RW */
-               unsigned long   rsvd_46_63:18;
-       } s3;
-       struct uv4h_rh_gam_alias210_redirect_config_0_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   dest_base:22;                   /* RW */
-               unsigned long   rsvd_46_63:18;
-       } s4;
+
+       /* UVYH common struct */
+       struct uvyh_rh10_gam_mmioh_redirect_config0_s {
+               unsigned long   nasid:7;                        /* RW */
+               unsigned long   rsvd_7_63:57;
+       } sy;
+
+       /* UV5 unique struct */
+       struct uv5h_rh10_gam_mmioh_redirect_config0_s {
+               unsigned long   nasid:7;                        /* RW */
+               unsigned long   rsvd_7_63:57;
+       } s5;
 };
 
 /* ========================================================================= */
-/*                UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR                  */
+/*                   UVH_RH10_GAM_MMIOH_REDIRECT_CONFIG1                     */
 /* ========================================================================= */
-#define UV2H_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR 0x16000e0UL
-#define UV3H_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR 0x16000e0UL
-#define UV4H_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR 0x4800e0UL
-#define UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR (                    \
-       is_uv2_hub() ? UV2H_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR :     \
-       is_uv3_hub() ? UV3H_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR :     \
-       /*is_uv4_hub*/ UV4H_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR)
+#define UVH_RH10_GAM_MMIOH_REDIRECT_CONFIG1 (                          \
+       is_uv(UV5) ? 0x474800UL :                                       \
+       0)
 
-#define UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR_DEST_BASE_SHFT 24
-#define UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR_DEST_BASE_MASK 0x00003fffff000000UL
+#define UVH_RH10_GAM_MMIOH_REDIRECT_CONFIG1_DEPTH (                    \
+       is_uv(UV5) ? 128 :                                              \
+       0)
 
-#define UVXH_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR_DEST_BASE_SHFT 24
-#define UVXH_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR_DEST_BASE_MASK 0x00003fffff000000UL
 
-#define UV2H_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR_DEST_BASE_SHFT 24
-#define UV2H_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR_DEST_BASE_MASK 0x00003fffff000000UL
+/* UVYH common defines */
+#define UVYH_RH10_GAM_MMIOH_REDIRECT_CONFIG1_NASID_SHFT        0
+#define UVYH_RH10_GAM_MMIOH_REDIRECT_CONFIG1_NASID_MASK        0x000000000000007fUL
 
-#define UV3H_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR_DEST_BASE_SHFT 24
-#define UV3H_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR_DEST_BASE_MASK 0x00003fffff000000UL
 
-#define UV4H_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR_DEST_BASE_SHFT 24
-#define UV4H_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR_DEST_BASE_MASK 0x00003fffff000000UL
-
-
-union uvh_rh_gam_alias210_redirect_config_1_mmr_u {
+union uvh_rh10_gam_mmioh_redirect_config1_u {
        unsigned long   v;
-       struct uvh_rh_gam_alias210_redirect_config_1_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   dest_base:22;                   /* RW */
-               unsigned long   rsvd_46_63:18;
+
+       /* UVH common struct */
+       struct uvh_rh10_gam_mmioh_redirect_config1_s {
+               unsigned long   nasid:7;                        /* RW */
+               unsigned long   rsvd_7_63:57;
        } s;
-       struct uvxh_rh_gam_alias210_redirect_config_1_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   dest_base:22;                   /* RW */
-               unsigned long   rsvd_46_63:18;
-       } sx;
-       struct uv2h_rh_gam_alias210_redirect_config_1_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   dest_base:22;                   /* RW */
-               unsigned long   rsvd_46_63:18;
-       } s2;
-       struct uv3h_rh_gam_alias210_redirect_config_1_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   dest_base:22;                   /* RW */
-               unsigned long   rsvd_46_63:18;
-       } s3;
-       struct uv4h_rh_gam_alias210_redirect_config_1_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   dest_base:22;                   /* RW */
-               unsigned long   rsvd_46_63:18;
-       } s4;
+
+       /* UVYH common struct */
+       struct uvyh_rh10_gam_mmioh_redirect_config1_s {
+               unsigned long   nasid:7;                        /* RW */
+               unsigned long   rsvd_7_63:57;
+       } sy;
+
+       /* UV5 unique struct */
+       struct uv5h_rh10_gam_mmioh_redirect_config1_s {
+               unsigned long   nasid:7;                        /* RW */
+               unsigned long   rsvd_7_63:57;
+       } s5;
 };
 
 /* ========================================================================= */
-/*                UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR                  */
+/*                     UVH_RH10_GAM_MMR_OVERLAY_CONFIG                       */
 /* ========================================================================= */
-#define UV2H_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR 0x16000f0UL
-#define UV3H_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR 0x16000f0UL
-#define UV4H_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR 0x4800f0UL
-#define UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR (                    \
-       is_uv2_hub() ? UV2H_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR :     \
-       is_uv3_hub() ? UV3H_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR :     \
-       /*is_uv4_hub*/ UV4H_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR)
+#define UVH_RH10_GAM_MMR_OVERLAY_CONFIG (                              \
+       is_uv(UV5) ? 0x470090UL :                                       \
+       0)
 
-#define UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR_DEST_BASE_SHFT 24
-#define UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR_DEST_BASE_MASK 0x00003fffff000000UL
 
-#define UVXH_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR_DEST_BASE_SHFT 24
-#define UVXH_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR_DEST_BASE_MASK 0x00003fffff000000UL
+/* UVYH common defines */
+#define UVYH_RH10_GAM_MMR_OVERLAY_CONFIG_BASE_SHFT     25
+#define UVYH_RH10_GAM_MMR_OVERLAY_CONFIG_BASE_MASK     0x000ffffffe000000UL
+#define UVYH_RH10_GAM_MMR_OVERLAY_CONFIG_ENABLE_SHFT   63
+#define UVYH_RH10_GAM_MMR_OVERLAY_CONFIG_ENABLE_MASK   0x8000000000000000UL
 
-#define UV2H_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR_DEST_BASE_SHFT 24
-#define UV2H_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR_DEST_BASE_MASK 0x00003fffff000000UL
+#define UVH_RH10_GAM_MMR_OVERLAY_CONFIG_BASE_MASK (                    \
+       is_uv(UV5) ? 0x000ffffffe000000UL :                             \
+       0)
+#define UVH_RH10_GAM_MMR_OVERLAY_CONFIG_BASE_SHFT (                    \
+       is_uv(UV5) ? 25 :                                               \
+       -1)
 
-#define UV3H_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR_DEST_BASE_SHFT 24
-#define UV3H_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR_DEST_BASE_MASK 0x00003fffff000000UL
+union uvh_rh10_gam_mmr_overlay_config_u {
+       unsigned long   v;
 
-#define UV4H_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR_DEST_BASE_SHFT 24
-#define UV4H_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR_DEST_BASE_MASK 0x00003fffff000000UL
+       /* UVH common struct */
+       struct uvh_rh10_gam_mmr_overlay_config_s {
+               unsigned long   undef_0_24:25;                  /* Undefined */
+               unsigned long   base:27;                        /* RW */
+               unsigned long   undef_52_62:11;                 /* Undefined */
+               unsigned long   enable:1;                       /* RW */
+       } s;
 
+       /* UVYH common struct */
+       struct uvyh_rh10_gam_mmr_overlay_config_s {
+               unsigned long   undef_0_24:25;                  /* Undefined */
+               unsigned long   base:27;                        /* RW */
+               unsigned long   undef_52_62:11;                 /* Undefined */
+               unsigned long   enable:1;                       /* RW */
+       } sy;
 
-union uvh_rh_gam_alias210_redirect_config_2_mmr_u {
-       unsigned long   v;
-       struct uvh_rh_gam_alias210_redirect_config_2_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   dest_base:22;                   /* RW */
-               unsigned long   rsvd_46_63:18;
-       } s;
-       struct uvxh_rh_gam_alias210_redirect_config_2_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   dest_base:22;                   /* RW */
-               unsigned long   rsvd_46_63:18;
-       } sx;
-       struct uv2h_rh_gam_alias210_redirect_config_2_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   dest_base:22;                   /* RW */
-               unsigned long   rsvd_46_63:18;
-       } s2;
-       struct uv3h_rh_gam_alias210_redirect_config_2_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   dest_base:22;                   /* RW */
-               unsigned long   rsvd_46_63:18;
-       } s3;
-       struct uv4h_rh_gam_alias210_redirect_config_2_mmr_s {
-               unsigned long   rsvd_0_23:24;
-               unsigned long   dest_base:22;                   /* RW */
-               unsigned long   rsvd_46_63:18;
-       } s4;
+       /* UV5 unique struct */
+       struct uv5h_rh10_gam_mmr_overlay_config_s {
+               unsigned long   undef_0_24:25;                  /* Undefined */
+               unsigned long   base:27;                        /* RW */
+               unsigned long   undef_52_62:11;                 /* Undefined */
+               unsigned long   enable:1;                       /* RW */
+       } s5;
 };
 
 /* ========================================================================= */
-/*                          UVH_RH_GAM_CONFIG_MMR                            */
+/*                        UVH_RH_GAM_ADDR_MAP_CONFIG                         */
 /* ========================================================================= */
-#define UV2H_RH_GAM_CONFIG_MMR 0x1600000UL
-#define UV3H_RH_GAM_CONFIG_MMR 0x1600000UL
-#define UV4H_RH_GAM_CONFIG_MMR 0x480000UL
-#define UVH_RH_GAM_CONFIG_MMR (                                                \
-       is_uv2_hub() ? UV2H_RH_GAM_CONFIG_MMR :                         \
-       is_uv3_hub() ? UV3H_RH_GAM_CONFIG_MMR :                         \
-       /*is_uv4_hub*/ UV4H_RH_GAM_CONFIG_MMR)
-
-#define UVH_RH_GAM_CONFIG_MMR_N_SKT_SHFT               6
-#define UVH_RH_GAM_CONFIG_MMR_N_SKT_MASK               0x00000000000003c0UL
+#define UVH_RH_GAM_ADDR_MAP_CONFIG (                                   \
+       is_uv(UV4) ? 0x480000UL :                                       \
+       is_uv(UV3) ? 0x1600000UL :                                      \
+       is_uv(UV2) ? 0x1600000UL :                                      \
+       0)
 
-#define UVXH_RH_GAM_CONFIG_MMR_N_SKT_SHFT              6
-#define UVXH_RH_GAM_CONFIG_MMR_N_SKT_MASK              0x00000000000003c0UL
 
-#define UV2H_RH_GAM_CONFIG_MMR_M_SKT_SHFT              0
-#define UV2H_RH_GAM_CONFIG_MMR_N_SKT_SHFT              6
-#define UV2H_RH_GAM_CONFIG_MMR_M_SKT_MASK              0x000000000000003fUL
-#define UV2H_RH_GAM_CONFIG_MMR_N_SKT_MASK              0x00000000000003c0UL
+/* UVXH common defines */
+#define UVXH_RH_GAM_ADDR_MAP_CONFIG_N_SKT_SHFT         6
+#define UVXH_RH_GAM_ADDR_MAP_CONFIG_N_SKT_MASK         0x00000000000003c0UL
 
-#define UV3H_RH_GAM_CONFIG_MMR_M_SKT_SHFT              0
-#define UV3H_RH_GAM_CONFIG_MMR_N_SKT_SHFT              6
-#define UV3H_RH_GAM_CONFIG_MMR_M_SKT_MASK              0x000000000000003fUL
-#define UV3H_RH_GAM_CONFIG_MMR_N_SKT_MASK              0x00000000000003c0UL
+/* UV3 unique defines */
+#define UV3H_RH_GAM_ADDR_MAP_CONFIG_M_SKT_SHFT         0
+#define UV3H_RH_GAM_ADDR_MAP_CONFIG_M_SKT_MASK         0x000000000000003fUL
 
-#define UV4H_RH_GAM_CONFIG_MMR_N_SKT_SHFT              6
-#define UV4H_RH_GAM_CONFIG_MMR_N_SKT_MASK              0x00000000000003c0UL
+/* UV2 unique defines */
+#define UV2H_RH_GAM_ADDR_MAP_CONFIG_M_SKT_SHFT         0
+#define UV2H_RH_GAM_ADDR_MAP_CONFIG_M_SKT_MASK         0x000000000000003fUL
 
 
-union uvh_rh_gam_config_mmr_u {
+union uvh_rh_gam_addr_map_config_u {
        unsigned long   v;
-       struct uvh_rh_gam_config_mmr_s {
+
+       /* UVH common struct */
+       struct uvh_rh_gam_addr_map_config_s {
                unsigned long   rsvd_0_5:6;
                unsigned long   n_skt:4;                        /* RW */
                unsigned long   rsvd_10_63:54;
        } s;
-       struct uvxh_rh_gam_config_mmr_s {
+
+       /* UVXH common struct */
+       struct uvxh_rh_gam_addr_map_config_s {
                unsigned long   rsvd_0_5:6;
                unsigned long   n_skt:4;                        /* RW */
                unsigned long   rsvd_10_63:54;
        } sx;
-       struct uv2h_rh_gam_config_mmr_s {
-               unsigned long   m_skt:6;                        /* RW */
+
+       /* UV4 unique struct */
+       struct uv4h_rh_gam_addr_map_config_s {
+               unsigned long   rsvd_0_5:6;
                unsigned long   n_skt:4;                        /* RW */
                unsigned long   rsvd_10_63:54;
-       } s2;
-       struct uv3h_rh_gam_config_mmr_s {
+       } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_rh_gam_addr_map_config_s {
                unsigned long   m_skt:6;                        /* RW */
                unsigned long   n_skt:4;                        /* RW */
                unsigned long   rsvd_10_63:54;
        } s3;
-       struct uv4h_rh_gam_config_mmr_s {
-               unsigned long   rsvd_0_5:6;
+
+       /* UV2 unique struct */
+       struct uv2h_rh_gam_addr_map_config_s {
+               unsigned long   m_skt:6;                        /* RW */
                unsigned long   n_skt:4;                        /* RW */
                unsigned long   rsvd_10_63:54;
-       } s4;
+       } s2;
 };
 
 /* ========================================================================= */
-/*                    UVH_RH_GAM_GRU_OVERLAY_CONFIG_MMR                      */
+/*                    UVH_RH_GAM_ALIAS_0_OVERLAY_CONFIG                      */
 /* ========================================================================= */
-#define UV2H_RH_GAM_GRU_OVERLAY_CONFIG_MMR 0x1600010UL
-#define UV3H_RH_GAM_GRU_OVERLAY_CONFIG_MMR 0x1600010UL
-#define UV4H_RH_GAM_GRU_OVERLAY_CONFIG_MMR 0x480010UL
-#define UVH_RH_GAM_GRU_OVERLAY_CONFIG_MMR (                            \
-       is_uv2_hub() ? UV2H_RH_GAM_GRU_OVERLAY_CONFIG_MMR :             \
-       is_uv3_hub() ? UV3H_RH_GAM_GRU_OVERLAY_CONFIG_MMR :             \
-       /*is_uv4_hub*/ UV4H_RH_GAM_GRU_OVERLAY_CONFIG_MMR)
-
-#define UVH_RH_GAM_GRU_OVERLAY_CONFIG_MMR_N_GRU_SHFT   52
-#define UVH_RH_GAM_GRU_OVERLAY_CONFIG_MMR_ENABLE_SHFT  63
-#define UVH_RH_GAM_GRU_OVERLAY_CONFIG_MMR_N_GRU_MASK   0x00f0000000000000UL
-#define UVH_RH_GAM_GRU_OVERLAY_CONFIG_MMR_ENABLE_MASK  0x8000000000000000UL
-
-#define UVXH_RH_GAM_GRU_OVERLAY_CONFIG_MMR_N_GRU_SHFT  52
-#define UVXH_RH_GAM_GRU_OVERLAY_CONFIG_MMR_ENABLE_SHFT 63
-#define UVXH_RH_GAM_GRU_OVERLAY_CONFIG_MMR_N_GRU_MASK  0x00f0000000000000UL
-#define UVXH_RH_GAM_GRU_OVERLAY_CONFIG_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV2H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_SHFT   28
-#define UV2H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_N_GRU_SHFT  52
-#define UV2H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_ENABLE_SHFT 63
-#define UV2H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_MASK   0x00003ffff0000000UL
-#define UV2H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_N_GRU_MASK  0x00f0000000000000UL
-#define UV2H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV3H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_SHFT   28
-#define UV3H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_N_GRU_SHFT  52
-#define UV3H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_MODE_SHFT   62
-#define UV3H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_ENABLE_SHFT 63
-#define UV3H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_MASK   0x00003ffff0000000UL
-#define UV3H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_N_GRU_MASK  0x00f0000000000000UL
-#define UV3H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_MODE_MASK   0x4000000000000000UL
-#define UV3H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV4H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_SHFT   26
-#define UV4H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_N_GRU_SHFT  52
-#define UV4H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_ENABLE_SHFT 63
-#define UV4H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_MASK   0x00003ffffc000000UL
-#define UV4H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_N_GRU_MASK  0x00f0000000000000UL
-#define UV4H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UVH_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_MASK (                  \
-       is_uv2_hub() ? UV2H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_MASK :   \
-       is_uv3_hub() ? UV3H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_MASK :   \
-       /*is_uv4_hub*/ UV4H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_MASK)
-#define UVH_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_SHFT (                  \
-       is_uv2_hub() ? UV2H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_SHFT :   \
-       is_uv3_hub() ? UV3H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_SHFT :   \
-       /*is_uv4_hub*/ UV4H_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_SHFT)
-
-union uvh_rh_gam_gru_overlay_config_mmr_u {
+#define UVH_RH_GAM_ALIAS_0_OVERLAY_CONFIG (                            \
+       is_uv(UV4) ? 0x4800c8UL :                                       \
+       is_uv(UV3) ? 0x16000c8UL :                                      \
+       is_uv(UV2) ? 0x16000c8UL :                                      \
+       0)
+
+
+/* UVXH common defines */
+#define UVXH_RH_GAM_ALIAS_0_OVERLAY_CONFIG_BASE_SHFT   24
+#define UVXH_RH_GAM_ALIAS_0_OVERLAY_CONFIG_BASE_MASK   0x00000000ff000000UL
+#define UVXH_RH_GAM_ALIAS_0_OVERLAY_CONFIG_M_ALIAS_SHFT        48
+#define UVXH_RH_GAM_ALIAS_0_OVERLAY_CONFIG_M_ALIAS_MASK        0x001f000000000000UL
+#define UVXH_RH_GAM_ALIAS_0_OVERLAY_CONFIG_ENABLE_SHFT 63
+#define UVXH_RH_GAM_ALIAS_0_OVERLAY_CONFIG_ENABLE_MASK 0x8000000000000000UL
+
+
+union uvh_rh_gam_alias_0_overlay_config_u {
        unsigned long   v;
-       struct uvh_rh_gam_gru_overlay_config_mmr_s {
-               unsigned long   rsvd_0_51:52;
-               unsigned long   n_gru:4;                        /* RW */
-               unsigned long   rsvd_56_62:7;
+
+       /* UVH common struct */
+       struct uvh_rh_gam_alias_0_overlay_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   base:8;                         /* RW */
+               unsigned long   rsvd_32_47:16;
+               unsigned long   m_alias:5;                      /* RW */
+               unsigned long   rsvd_53_62:10;
                unsigned long   enable:1;                       /* RW */
        } s;
-       struct uvxh_rh_gam_gru_overlay_config_mmr_s {
-               unsigned long   rsvd_0_45:46;
-               unsigned long   rsvd_46_51:6;
-               unsigned long   n_gru:4;                        /* RW */
-               unsigned long   rsvd_56_62:7;
-               unsigned long   enable:1;                       /* RW */
-       } sx;
-       struct uv2h_rh_gam_gru_overlay_config_mmr_s {
-               unsigned long   rsvd_0_27:28;
-               unsigned long   base:18;                        /* RW */
-               unsigned long   rsvd_46_51:6;
-               unsigned long   n_gru:4;                        /* RW */
-               unsigned long   rsvd_56_62:7;
-               unsigned long   enable:1;                       /* RW */
-       } s2;
-       struct uv3h_rh_gam_gru_overlay_config_mmr_s {
-               unsigned long   rsvd_0_27:28;
-               unsigned long   base:18;                        /* RW */
-               unsigned long   rsvd_46_51:6;
-               unsigned long   n_gru:4;                        /* RW */
-               unsigned long   rsvd_56_61:6;
-               unsigned long   mode:1;                         /* RW */
-               unsigned long   enable:1;                       /* RW */
-       } s3;
-       struct uv4h_rh_gam_gru_overlay_config_mmr_s {
-               unsigned long   rsvd_0_24:25;
-               unsigned long   undef_25:1;                     /* Undefined */
-               unsigned long   base:20;                        /* RW */
-               unsigned long   rsvd_46_51:6;
-               unsigned long   n_gru:4;                        /* RW */
-               unsigned long   rsvd_56_62:7;
-               unsigned long   enable:1;                       /* RW */
-       } s4;
-};
 
-/* ========================================================================= */
-/*                   UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR                    */
-/* ========================================================================= */
-#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR uv_undefined("UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR")
-#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR 0x1603000UL
-#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR 0x483000UL
-#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR (                         \
-       is_uv2_hub() ? UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR :          \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR :          \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR)
-
-
-#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_BASE_SHFT        26
-#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_SHFT        46
-#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_ENABLE_SHFT 63
-#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_BASE_MASK        0x00003ffffc000000UL
-#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_MASK        0x000fc00000000000UL
-#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_BASE_SHFT        26
-#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_SHFT        46
-#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_ENABLE_SHFT 63
-#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_BASE_MASK        0x00003ffffc000000UL
-#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_MASK        0x000fc00000000000UL
-#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_SHFT 52
-#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_BASE_MASK 0x000ffffffc000000UL
-#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_MASK 0x03f0000000000000UL
-#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_SHFT (               \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_SHFT : \
-       is_uv4a_hub() ? UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_SHFT : \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_SHFT)
-
-#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_BASE_MASK (               \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_BASE_MASK : \
-       is_uv4a_hub() ? UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_BASE_MASK : \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_BASE_MASK)
-
-#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_MASK (               \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_MASK : \
-       is_uv4a_hub() ? UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_MASK : \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_MASK)
-
-#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_ENABLE_MASK (             \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_ENABLE_MASK : \
-       is_uv4a_hub() ? UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_ENABLE_MASK : \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_ENABLE_MASK)
-
-union uvh_rh_gam_mmioh_overlay_config0_mmr_u {
-       unsigned long   v;
-       struct uv3h_rh_gam_mmioh_overlay_config0_mmr_s {
-               unsigned long   rsvd_0_25:26;
-               unsigned long   base:20;                        /* RW */
-               unsigned long   m_io:6;                         /* RW */
-               unsigned long   n_io:4;
-               unsigned long   rsvd_56_62:7;
-               unsigned long   enable:1;                       /* RW */
-       } s3;
-       struct uv4h_rh_gam_mmioh_overlay_config0_mmr_s {
-               unsigned long   rsvd_0_25:26;
-               unsigned long   base:20;                        /* RW */
-               unsigned long   m_io:6;                         /* RW */
-               unsigned long   n_io:4;
-               unsigned long   rsvd_56_62:7;
-               unsigned long   enable:1;                       /* RW */
-       } s4;
-       struct uv4ah_rh_gam_mmioh_overlay_config0_mmr_s {
-               unsigned long   rsvd_0_25:26;
-               unsigned long   base:26;                        /* RW */
-               unsigned long   m_io:6;                         /* RW */
-               unsigned long   n_io:4;
-               unsigned long   undef_62:1;                     /* Undefined */
+       /* UVXH common struct */
+       struct uvxh_rh_gam_alias_0_overlay_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   base:8;                         /* RW */
+               unsigned long   rsvd_32_47:16;
+               unsigned long   m_alias:5;                      /* RW */
+               unsigned long   rsvd_53_62:10;
                unsigned long   enable:1;                       /* RW */
-       } s4a;
-};
+       } sx;
 
-/* ========================================================================= */
-/*                   UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR                    */
-/* ========================================================================= */
-#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR uv_undefined("UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR")
-#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR 0x1603000UL
-#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR 0x484000UL
-#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR (                         \
-       is_uv2_hub() ? UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR :          \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR :          \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR)
-
-
-#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_BASE_SHFT        26
-#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_SHFT        46
-#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_ENABLE_SHFT 63
-#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_BASE_MASK        0x00003ffffc000000UL
-#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_MASK        0x000fc00000000000UL
-#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_BASE_SHFT        26
-#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_SHFT        46
-#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_ENABLE_SHFT 63
-#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_BASE_MASK        0x00003ffffc000000UL
-#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_MASK        0x000fc00000000000UL
-#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_SHFT 52
-#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_BASE_MASK 0x000ffffffc000000UL
-#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_MASK 0x03f0000000000000UL
-
-#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_SHFT (               \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_SHFT : \
-       is_uv4a_hub() ? UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_SHFT : \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_SHFT)
-
-#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_BASE_MASK (               \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_BASE_MASK : \
-       is_uv4a_hub() ? UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_BASE_MASK : \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_BASE_MASK)
-
-#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_MASK (               \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_MASK : \
-       is_uv4a_hub() ? UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_MASK : \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_MASK)
-
-union uvh_rh_gam_mmioh_overlay_config1_mmr_u {
-       unsigned long   v;
-       struct uv3h_rh_gam_mmioh_overlay_config1_mmr_s {
-               unsigned long   rsvd_0_25:26;
-               unsigned long   base:20;                        /* RW */
-               unsigned long   m_io:6;                         /* RW */
-               unsigned long   n_io:4;
-               unsigned long   rsvd_56_62:7;
-               unsigned long   enable:1;                       /* RW */
-       } s3;
-       struct uv4h_rh_gam_mmioh_overlay_config1_mmr_s {
-               unsigned long   rsvd_0_25:26;
-               unsigned long   base:20;                        /* RW */
-               unsigned long   m_io:6;                         /* RW */
-               unsigned long   n_io:4;
-               unsigned long   rsvd_56_62:7;
+       /* UV4 unique struct */
+       struct uv4h_rh_gam_alias_0_overlay_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   base:8;                         /* RW */
+               unsigned long   rsvd_32_47:16;
+               unsigned long   m_alias:5;                      /* RW */
+               unsigned long   rsvd_53_62:10;
                unsigned long   enable:1;                       /* RW */
        } s4;
-       struct uv4ah_rh_gam_mmioh_overlay_config1_mmr_s {
-               unsigned long   rsvd_0_25:26;
-               unsigned long   base:26;                        /* RW */
-               unsigned long   m_io:6;                         /* RW */
-               unsigned long   n_io:4;
-               unsigned long   undef_62:1;                     /* Undefined */
+
+       /* UV3 unique struct */
+       struct uv3h_rh_gam_alias_0_overlay_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   base:8;                         /* RW */
+               unsigned long   rsvd_32_47:16;
+               unsigned long   m_alias:5;                      /* RW */
+               unsigned long   rsvd_53_62:10;
                unsigned long   enable:1;                       /* RW */
-       } s4a;
-};
+       } s3;
 
-/* ========================================================================= */
-/*                   UVH_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR                     */
-/* ========================================================================= */
-#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR 0x1600030UL
-#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR uv_undefined("UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR")
-#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR uv_undefined("UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR")
-#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR (                          \
-       is_uv2_hub() ? UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR :           \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR :           \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR)
-
-
-#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR_BASE_SHFT 27
-#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR_M_IO_SHFT 46
-#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR_N_IO_SHFT 52
-#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR_ENABLE_SHFT 63
-#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR_BASE_MASK 0x00003ffff8000000UL
-#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR_M_IO_MASK 0x000fc00000000000UL
-#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR_N_IO_MASK 0x00f0000000000000UL
-#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR_ENABLE_MASK 0x8000000000000000UL
-
-
-union uvh_rh_gam_mmioh_overlay_config_mmr_u {
-       unsigned long   v;
-       struct uv2h_rh_gam_mmioh_overlay_config_mmr_s {
-               unsigned long   rsvd_0_26:27;
-               unsigned long   base:19;                        /* RW */
-               unsigned long   m_io:6;                         /* RW */
-               unsigned long   n_io:4;                         /* RW */
-               unsigned long   rsvd_56_62:7;
+       /* UV2 unique struct */
+       struct uv2h_rh_gam_alias_0_overlay_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   base:8;                         /* RW */
+               unsigned long   rsvd_32_47:16;
+               unsigned long   m_alias:5;                      /* RW */
+               unsigned long   rsvd_53_62:10;
                unsigned long   enable:1;                       /* RW */
        } s2;
 };
 
 /* ========================================================================= */
-/*                  UVH_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR                    */
+/*                    UVH_RH_GAM_ALIAS_0_REDIRECT_CONFIG                     */
 /* ========================================================================= */
-#define UV2H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR uv_undefined("UV2H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR")
-#define UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR 0x1603800UL
-#define UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR 0x483800UL
-#define UVH_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR (                                \
-       is_uv2_hub() ? UV2H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR :         \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR :         \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR)
+#define UVH_RH_GAM_ALIAS_0_REDIRECT_CONFIG (                           \
+       is_uv(UV4) ? 0x4800d0UL :                                       \
+       is_uv(UV3) ? 0x16000d0UL :                                      \
+       is_uv(UV2) ? 0x16000d0UL :                                      \
+       0)
 
-#define UV2H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_DEPTH uv_undefined("UV2H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_DEPTH")
-#define UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_DEPTH 128
-#define UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_DEPTH 128
-#define UVH_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_DEPTH (                  \
-       is_uv2_hub() ? UV2H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_DEPTH :   \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_DEPTH :   \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_DEPTH)
 
+/* UVXH common defines */
+#define UVXH_RH_GAM_ALIAS_0_REDIRECT_CONFIG_DEST_BASE_SHFT 24
+#define UVXH_RH_GAM_ALIAS_0_REDIRECT_CONFIG_DEST_BASE_MASK 0x00003fffff000000UL
 
-#define UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_NASID_SHFT 0
-#define UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_NASID_MASK 0x0000000000007fffUL
 
-#define UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_NASID_SHFT 0
-#define UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_NASID_MASK 0x0000000000007fffUL
+union uvh_rh_gam_alias_0_redirect_config_u {
+       unsigned long   v;
+
+       /* UVH common struct */
+       struct uvh_rh_gam_alias_0_redirect_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   dest_base:22;                   /* RW */
+               unsigned long   rsvd_46_63:18;
+       } s;
 
-#define UV4AH_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_NASID_MASK 0x0000000000000fffUL
+       /* UVXH common struct */
+       struct uvxh_rh_gam_alias_0_redirect_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   dest_base:22;                   /* RW */
+               unsigned long   rsvd_46_63:18;
+       } sx;
 
-#define UVH_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_NASID_MASK (             \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_NASID_MASK : \
-       is_uv4a_hub() ? UV4AH_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_NASID_MASK : \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_NASID_MASK)
+       /* UV4 unique struct */
+       struct uv4h_rh_gam_alias_0_redirect_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   dest_base:22;                   /* RW */
+               unsigned long   rsvd_46_63:18;
+       } s4;
 
-union uvh_rh_gam_mmioh_redirect_config0_mmr_u {
-       unsigned long   v;
-       struct uv3h_rh_gam_mmioh_redirect_config0_mmr_s {
-               unsigned long   nasid:15;                       /* RW */
-               unsigned long   rsvd_15_63:49;
+       /* UV3 unique struct */
+       struct uv3h_rh_gam_alias_0_redirect_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   dest_base:22;                   /* RW */
+               unsigned long   rsvd_46_63:18;
        } s3;
-       struct uv4h_rh_gam_mmioh_redirect_config0_mmr_s {
-               unsigned long   nasid:15;                       /* RW */
-               unsigned long   rsvd_15_63:49;
-       } s4;
-       struct uv4ah_rh_gam_mmioh_redirect_config0_mmr_s {
-               unsigned long   nasid:12;                       /* RW */
-               unsigned long   rsvd_12_63:52;
-       } s4a;
+
+       /* UV2 unique struct */
+       struct uv2h_rh_gam_alias_0_redirect_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   dest_base:22;                   /* RW */
+               unsigned long   rsvd_46_63:18;
+       } s2;
 };
 
 /* ========================================================================= */
-/*                  UVH_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR                    */
+/*                    UVH_RH_GAM_ALIAS_1_OVERLAY_CONFIG                      */
 /* ========================================================================= */
-#define UV2H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR uv_undefined("UV2H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR")
-#define UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR 0x1604800UL
-#define UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR 0x484800UL
-#define UVH_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR (                                \
-       is_uv2_hub() ? UV2H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR :         \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR :         \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR)
-
-#define UV2H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_DEPTH uv_undefined("UV2H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_DEPTH")
-#define UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_DEPTH 128
-#define UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_DEPTH 128
-#define UVH_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_DEPTH (                  \
-       is_uv2_hub() ? UV2H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_DEPTH :   \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_DEPTH :   \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_DEPTH)
+#define UVH_RH_GAM_ALIAS_1_OVERLAY_CONFIG (                            \
+       is_uv(UV4) ? 0x4800d8UL :                                       \
+       is_uv(UV3) ? 0x16000d8UL :                                      \
+       is_uv(UV2) ? 0x16000d8UL :                                      \
+       0)
 
 
-#define UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_NASID_SHFT 0
-#define UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_NASID_MASK 0x0000000000007fffUL
+/* UVXH common defines */
+#define UVXH_RH_GAM_ALIAS_1_OVERLAY_CONFIG_BASE_SHFT   24
+#define UVXH_RH_GAM_ALIAS_1_OVERLAY_CONFIG_BASE_MASK   0x00000000ff000000UL
+#define UVXH_RH_GAM_ALIAS_1_OVERLAY_CONFIG_M_ALIAS_SHFT        48
+#define UVXH_RH_GAM_ALIAS_1_OVERLAY_CONFIG_M_ALIAS_MASK        0x001f000000000000UL
+#define UVXH_RH_GAM_ALIAS_1_OVERLAY_CONFIG_ENABLE_SHFT 63
+#define UVXH_RH_GAM_ALIAS_1_OVERLAY_CONFIG_ENABLE_MASK 0x8000000000000000UL
 
-#define UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_NASID_SHFT 0
-#define UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_NASID_MASK 0x0000000000007fffUL
 
-#define UV4AH_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_NASID_MASK 0x0000000000000fffUL
-
-#define UVH_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_NASID_MASK (             \
-       is_uv3_hub() ? UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_NASID_MASK : \
-       is_uv4a_hub() ? UV4AH_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_NASID_MASK : \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_NASID_MASK)
-
-union uvh_rh_gam_mmioh_redirect_config1_mmr_u {
+union uvh_rh_gam_alias_1_overlay_config_u {
        unsigned long   v;
-       struct uv3h_rh_gam_mmioh_redirect_config1_mmr_s {
-               unsigned long   nasid:15;                       /* RW */
-               unsigned long   rsvd_15_63:49;
-       } s3;
-       struct uv4h_rh_gam_mmioh_redirect_config1_mmr_s {
-               unsigned long   nasid:15;                       /* RW */
-               unsigned long   rsvd_15_63:49;
-       } s4;
-       struct uv4ah_rh_gam_mmioh_redirect_config1_mmr_s {
-               unsigned long   nasid:12;                       /* RW */
-               unsigned long   rsvd_12_63:52;
-       } s4a;
-};
 
-/* ========================================================================= */
-/*                    UVH_RH_GAM_MMR_OVERLAY_CONFIG_MMR                      */
-/* ========================================================================= */
-#define UV2H_RH_GAM_MMR_OVERLAY_CONFIG_MMR 0x1600028UL
-#define UV3H_RH_GAM_MMR_OVERLAY_CONFIG_MMR 0x1600028UL
-#define UV4H_RH_GAM_MMR_OVERLAY_CONFIG_MMR 0x480028UL
-#define UVH_RH_GAM_MMR_OVERLAY_CONFIG_MMR (                            \
-       is_uv2_hub() ? UV2H_RH_GAM_MMR_OVERLAY_CONFIG_MMR :             \
-       is_uv3_hub() ? UV3H_RH_GAM_MMR_OVERLAY_CONFIG_MMR :             \
-       /*is_uv4_hub*/ UV4H_RH_GAM_MMR_OVERLAY_CONFIG_MMR)
-
-#define UVH_RH_GAM_MMR_OVERLAY_CONFIG_MMR_BASE_SHFT    26
-#define UVH_RH_GAM_MMR_OVERLAY_CONFIG_MMR_ENABLE_SHFT  63
-#define UVH_RH_GAM_MMR_OVERLAY_CONFIG_MMR_BASE_MASK    0x00003ffffc000000UL
-#define UVH_RH_GAM_MMR_OVERLAY_CONFIG_MMR_ENABLE_MASK  0x8000000000000000UL
-
-#define UVXH_RH_GAM_MMR_OVERLAY_CONFIG_MMR_BASE_SHFT   26
-#define UVXH_RH_GAM_MMR_OVERLAY_CONFIG_MMR_ENABLE_SHFT 63
-#define UVXH_RH_GAM_MMR_OVERLAY_CONFIG_MMR_BASE_MASK   0x00003ffffc000000UL
-#define UVXH_RH_GAM_MMR_OVERLAY_CONFIG_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV2H_RH_GAM_MMR_OVERLAY_CONFIG_MMR_BASE_SHFT   26
-#define UV2H_RH_GAM_MMR_OVERLAY_CONFIG_MMR_ENABLE_SHFT 63
-#define UV2H_RH_GAM_MMR_OVERLAY_CONFIG_MMR_BASE_MASK   0x00003ffffc000000UL
-#define UV2H_RH_GAM_MMR_OVERLAY_CONFIG_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV3H_RH_GAM_MMR_OVERLAY_CONFIG_MMR_BASE_SHFT   26
-#define UV3H_RH_GAM_MMR_OVERLAY_CONFIG_MMR_ENABLE_SHFT 63
-#define UV3H_RH_GAM_MMR_OVERLAY_CONFIG_MMR_BASE_MASK   0x00003ffffc000000UL
-#define UV3H_RH_GAM_MMR_OVERLAY_CONFIG_MMR_ENABLE_MASK 0x8000000000000000UL
-
-#define UV4H_RH_GAM_MMR_OVERLAY_CONFIG_MMR_BASE_SHFT   26
-#define UV4H_RH_GAM_MMR_OVERLAY_CONFIG_MMR_ENABLE_SHFT 63
-#define UV4H_RH_GAM_MMR_OVERLAY_CONFIG_MMR_BASE_MASK   0x00003ffffc000000UL
-#define UV4H_RH_GAM_MMR_OVERLAY_CONFIG_MMR_ENABLE_MASK 0x8000000000000000UL
-
-
-union uvh_rh_gam_mmr_overlay_config_mmr_u {
-       unsigned long   v;
-       struct uvh_rh_gam_mmr_overlay_config_mmr_s {
-               unsigned long   rsvd_0_25:26;
-               unsigned long   base:20;                        /* RW */
-               unsigned long   rsvd_46_62:17;
+       /* UVH common struct */
+       struct uvh_rh_gam_alias_1_overlay_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   base:8;                         /* RW */
+               unsigned long   rsvd_32_47:16;
+               unsigned long   m_alias:5;                      /* RW */
+               unsigned long   rsvd_53_62:10;
                unsigned long   enable:1;                       /* RW */
        } s;
-       struct uvxh_rh_gam_mmr_overlay_config_mmr_s {
-               unsigned long   rsvd_0_25:26;
-               unsigned long   base:20;                        /* RW */
-               unsigned long   rsvd_46_62:17;
+
+       /* UVXH common struct */
+       struct uvxh_rh_gam_alias_1_overlay_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   base:8;                         /* RW */
+               unsigned long   rsvd_32_47:16;
+               unsigned long   m_alias:5;                      /* RW */
+               unsigned long   rsvd_53_62:10;
                unsigned long   enable:1;                       /* RW */
        } sx;
-       struct uv2h_rh_gam_mmr_overlay_config_mmr_s {
-               unsigned long   rsvd_0_25:26;
-               unsigned long   base:20;                        /* RW */
-               unsigned long   rsvd_46_62:17;
+
+       /* UV4 unique struct */
+       struct uv4h_rh_gam_alias_1_overlay_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   base:8;                         /* RW */
+               unsigned long   rsvd_32_47:16;
+               unsigned long   m_alias:5;                      /* RW */
+               unsigned long   rsvd_53_62:10;
                unsigned long   enable:1;                       /* RW */
-       } s2;
-       struct uv3h_rh_gam_mmr_overlay_config_mmr_s {
-               unsigned long   rsvd_0_25:26;
-               unsigned long   base:20;                        /* RW */
-               unsigned long   rsvd_46_62:17;
+       } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_rh_gam_alias_1_overlay_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   base:8;                         /* RW */
+               unsigned long   rsvd_32_47:16;
+               unsigned long   m_alias:5;                      /* RW */
+               unsigned long   rsvd_53_62:10;
                unsigned long   enable:1;                       /* RW */
        } s3;
-       struct uv4h_rh_gam_mmr_overlay_config_mmr_s {
-               unsigned long   rsvd_0_25:26;
-               unsigned long   base:20;                        /* RW */
-               unsigned long   rsvd_46_62:17;
+
+       /* UV2 unique struct */
+       struct uv2h_rh_gam_alias_1_overlay_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   base:8;                         /* RW */
+               unsigned long   rsvd_32_47:16;
+               unsigned long   m_alias:5;                      /* RW */
+               unsigned long   rsvd_53_62:10;
                unsigned long   enable:1;                       /* RW */
-       } s4;
+       } s2;
 };
 
 /* ========================================================================= */
-/*                                 UVH_RTC                                   */
+/*                    UVH_RH_GAM_ALIAS_1_REDIRECT_CONFIG                     */
 /* ========================================================================= */
-#define UV2H_RTC 0x340000UL
-#define UV3H_RTC 0x340000UL
-#define UV4H_RTC 0xe0000UL
-#define UVH_RTC (                                                      \
-       is_uv2_hub() ? UV2H_RTC :                                       \
-       is_uv3_hub() ? UV3H_RTC :                                       \
-       /*is_uv4_hub*/ UV4H_RTC)
+#define UVH_RH_GAM_ALIAS_1_REDIRECT_CONFIG (                           \
+       is_uv(UV4) ? 0x4800e0UL :                                       \
+       is_uv(UV3) ? 0x16000e0UL :                                      \
+       is_uv(UV2) ? 0x16000e0UL :                                      \
+       0)
 
-#define UVH_RTC_REAL_TIME_CLOCK_SHFT                   0
-#define UVH_RTC_REAL_TIME_CLOCK_MASK                   0x00ffffffffffffffUL
 
+/* UVXH common defines */
+#define UVXH_RH_GAM_ALIAS_1_REDIRECT_CONFIG_DEST_BASE_SHFT 24
+#define UVXH_RH_GAM_ALIAS_1_REDIRECT_CONFIG_DEST_BASE_MASK 0x00003fffff000000UL
 
-union uvh_rtc_u {
+
+union uvh_rh_gam_alias_1_redirect_config_u {
        unsigned long   v;
-       struct uvh_rtc_s {
-               unsigned long   real_time_clock:56;             /* RW */
-               unsigned long   rsvd_56_63:8;
+
+       /* UVH common struct */
+       struct uvh_rh_gam_alias_1_redirect_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   dest_base:22;                   /* RW */
+               unsigned long   rsvd_46_63:18;
        } s;
+
+       /* UVXH common struct */
+       struct uvxh_rh_gam_alias_1_redirect_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   dest_base:22;                   /* RW */
+               unsigned long   rsvd_46_63:18;
+       } sx;
+
+       /* UV4 unique struct */
+       struct uv4h_rh_gam_alias_1_redirect_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   dest_base:22;                   /* RW */
+               unsigned long   rsvd_46_63:18;
+       } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_rh_gam_alias_1_redirect_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   dest_base:22;                   /* RW */
+               unsigned long   rsvd_46_63:18;
+       } s3;
+
+       /* UV2 unique struct */
+       struct uv2h_rh_gam_alias_1_redirect_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   dest_base:22;                   /* RW */
+               unsigned long   rsvd_46_63:18;
+       } s2;
 };
 
 /* ========================================================================= */
-/*                           UVH_RTC1_INT_CONFIG                             */
+/*                    UVH_RH_GAM_ALIAS_2_OVERLAY_CONFIG                      */
 /* ========================================================================= */
-#define UVH_RTC1_INT_CONFIG 0x615c0UL
+#define UVH_RH_GAM_ALIAS_2_OVERLAY_CONFIG (                            \
+       is_uv(UV4) ? 0x4800e8UL :                                       \
+       is_uv(UV3) ? 0x16000e8UL :                                      \
+       is_uv(UV2) ? 0x16000e8UL :                                      \
+       0)
 
-#define UVH_RTC1_INT_CONFIG_VECTOR_SHFT                        0
-#define UVH_RTC1_INT_CONFIG_DM_SHFT                    8
-#define UVH_RTC1_INT_CONFIG_DESTMODE_SHFT              11
-#define UVH_RTC1_INT_CONFIG_STATUS_SHFT                        12
-#define UVH_RTC1_INT_CONFIG_P_SHFT                     13
-#define UVH_RTC1_INT_CONFIG_T_SHFT                     15
-#define UVH_RTC1_INT_CONFIG_M_SHFT                     16
-#define UVH_RTC1_INT_CONFIG_APIC_ID_SHFT               32
-#define UVH_RTC1_INT_CONFIG_VECTOR_MASK                        0x00000000000000ffUL
-#define UVH_RTC1_INT_CONFIG_DM_MASK                    0x0000000000000700UL
-#define UVH_RTC1_INT_CONFIG_DESTMODE_MASK              0x0000000000000800UL
-#define UVH_RTC1_INT_CONFIG_STATUS_MASK                        0x0000000000001000UL
-#define UVH_RTC1_INT_CONFIG_P_MASK                     0x0000000000002000UL
-#define UVH_RTC1_INT_CONFIG_T_MASK                     0x0000000000008000UL
-#define UVH_RTC1_INT_CONFIG_M_MASK                     0x0000000000010000UL
-#define UVH_RTC1_INT_CONFIG_APIC_ID_MASK               0xffffffff00000000UL
 
+/* UVXH common defines */
+#define UVXH_RH_GAM_ALIAS_2_OVERLAY_CONFIG_BASE_SHFT   24
+#define UVXH_RH_GAM_ALIAS_2_OVERLAY_CONFIG_BASE_MASK   0x00000000ff000000UL
+#define UVXH_RH_GAM_ALIAS_2_OVERLAY_CONFIG_M_ALIAS_SHFT        48
+#define UVXH_RH_GAM_ALIAS_2_OVERLAY_CONFIG_M_ALIAS_MASK        0x001f000000000000UL
+#define UVXH_RH_GAM_ALIAS_2_OVERLAY_CONFIG_ENABLE_SHFT 63
+#define UVXH_RH_GAM_ALIAS_2_OVERLAY_CONFIG_ENABLE_MASK 0x8000000000000000UL
 
-union uvh_rtc1_int_config_u {
+
+union uvh_rh_gam_alias_2_overlay_config_u {
        unsigned long   v;
-       struct uvh_rtc1_int_config_s {
-               unsigned long   vector_:8;                      /* RW */
-               unsigned long   dm:3;                           /* RW */
-               unsigned long   destmode:1;                     /* RW */
-               unsigned long   status:1;                       /* RO */
-               unsigned long   p:1;                            /* RO */
-               unsigned long   rsvd_14:1;
-               unsigned long   t:1;                            /* RO */
-               unsigned long   m:1;                            /* RW */
-               unsigned long   rsvd_17_31:15;
-               unsigned long   apic_id:32;                     /* RW */
+
+       /* UVH common struct */
+       struct uvh_rh_gam_alias_2_overlay_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   base:8;                         /* RW */
+               unsigned long   rsvd_32_47:16;
+               unsigned long   m_alias:5;                      /* RW */
+               unsigned long   rsvd_53_62:10;
+               unsigned long   enable:1;                       /* RW */
        } s;
+
+       /* UVXH common struct */
+       struct uvxh_rh_gam_alias_2_overlay_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   base:8;                         /* RW */
+               unsigned long   rsvd_32_47:16;
+               unsigned long   m_alias:5;                      /* RW */
+               unsigned long   rsvd_53_62:10;
+               unsigned long   enable:1;                       /* RW */
+       } sx;
+
+       /* UV4 unique struct */
+       struct uv4h_rh_gam_alias_2_overlay_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   base:8;                         /* RW */
+               unsigned long   rsvd_32_47:16;
+               unsigned long   m_alias:5;                      /* RW */
+               unsigned long   rsvd_53_62:10;
+               unsigned long   enable:1;                       /* RW */
+       } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_rh_gam_alias_2_overlay_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   base:8;                         /* RW */
+               unsigned long   rsvd_32_47:16;
+               unsigned long   m_alias:5;                      /* RW */
+               unsigned long   rsvd_53_62:10;
+               unsigned long   enable:1;                       /* RW */
+       } s3;
+
+       /* UV2 unique struct */
+       struct uv2h_rh_gam_alias_2_overlay_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   base:8;                         /* RW */
+               unsigned long   rsvd_32_47:16;
+               unsigned long   m_alias:5;                      /* RW */
+               unsigned long   rsvd_53_62:10;
+               unsigned long   enable:1;                       /* RW */
+       } s2;
 };
 
 /* ========================================================================= */
-/*                               UVH_SCRATCH5                                */
+/*                    UVH_RH_GAM_ALIAS_2_REDIRECT_CONFIG                     */
 /* ========================================================================= */
-#define UV2H_SCRATCH5 0x2d0200UL
-#define UV3H_SCRATCH5 0x2d0200UL
-#define UV4H_SCRATCH5 0xb0200UL
-#define UVH_SCRATCH5 (                                                 \
-       is_uv2_hub() ? UV2H_SCRATCH5 :                                  \
-       is_uv3_hub() ? UV3H_SCRATCH5 :                                  \
-       /*is_uv4_hub*/ UV4H_SCRATCH5)
-
-#define UV2H_SCRATCH5_32 0x778
-#define UV3H_SCRATCH5_32 0x778
-#define UV4H_SCRATCH5_32 0x798
-#define UVH_SCRATCH5_32 (                                              \
-       is_uv2_hub() ? UV2H_SCRATCH5_32 :                               \
-       is_uv3_hub() ? UV3H_SCRATCH5_32 :                               \
-       /*is_uv4_hub*/ UV4H_SCRATCH5_32)
+#define UVH_RH_GAM_ALIAS_2_REDIRECT_CONFIG (                           \
+       is_uv(UV4) ? 0x4800f0UL :                                       \
+       is_uv(UV3) ? 0x16000f0UL :                                      \
+       is_uv(UV2) ? 0x16000f0UL :                                      \
+       0)
 
-#define UVH_SCRATCH5_SCRATCH5_SHFT                     0
-#define UVH_SCRATCH5_SCRATCH5_MASK                     0xffffffffffffffffUL
 
+/* UVXH common defines */
+#define UVXH_RH_GAM_ALIAS_2_REDIRECT_CONFIG_DEST_BASE_SHFT 24
+#define UVXH_RH_GAM_ALIAS_2_REDIRECT_CONFIG_DEST_BASE_MASK 0x00003fffff000000UL
 
-union uvh_scratch5_u {
+
+union uvh_rh_gam_alias_2_redirect_config_u {
        unsigned long   v;
-       struct uvh_scratch5_s {
-               unsigned long   scratch5:64;                    /* RW, W1CS */
-       } s;
-};
 
-/* ========================================================================= */
-/*                            UVH_SCRATCH5_ALIAS                             */
-/* ========================================================================= */
-#define UV2H_SCRATCH5_ALIAS 0x2d0208UL
-#define UV3H_SCRATCH5_ALIAS 0x2d0208UL
-#define UV4H_SCRATCH5_ALIAS 0xb0208UL
-#define UVH_SCRATCH5_ALIAS (                                           \
-       is_uv2_hub() ? UV2H_SCRATCH5_ALIAS :                            \
-       is_uv3_hub() ? UV3H_SCRATCH5_ALIAS :                            \
-       /*is_uv4_hub*/ UV4H_SCRATCH5_ALIAS)
+       /* UVH common struct */
+       struct uvh_rh_gam_alias_2_redirect_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   dest_base:22;                   /* RW */
+               unsigned long   rsvd_46_63:18;
+       } s;
 
-#define UV2H_SCRATCH5_ALIAS_32 0x780
-#define UV3H_SCRATCH5_ALIAS_32 0x780
-#define UV4H_SCRATCH5_ALIAS_32 0x7a0
-#define UVH_SCRATCH5_ALIAS_32 (                                                \
-       is_uv2_hub() ? UV2H_SCRATCH5_ALIAS_32 :                         \
-       is_uv3_hub() ? UV3H_SCRATCH5_ALIAS_32 :                         \
-       /*is_uv4_hub*/ UV4H_SCRATCH5_ALIAS_32)
+       /* UVXH common struct */
+       struct uvxh_rh_gam_alias_2_redirect_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   dest_base:22;                   /* RW */
+               unsigned long   rsvd_46_63:18;
+       } sx;
 
+       /* UV4 unique struct */
+       struct uv4h_rh_gam_alias_2_redirect_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   dest_base:22;                   /* RW */
+               unsigned long   rsvd_46_63:18;
+       } s4;
 
-/* ========================================================================= */
-/*                           UVH_SCRATCH5_ALIAS_2                            */
-/* ========================================================================= */
-#define UV2H_SCRATCH5_ALIAS_2 0x2d0210UL
-#define UV3H_SCRATCH5_ALIAS_2 0x2d0210UL
-#define UV4H_SCRATCH5_ALIAS_2 0xb0210UL
-#define UVH_SCRATCH5_ALIAS_2 (                                         \
-       is_uv2_hub() ? UV2H_SCRATCH5_ALIAS_2 :                          \
-       is_uv3_hub() ? UV3H_SCRATCH5_ALIAS_2 :                          \
-       /*is_uv4_hub*/ UV4H_SCRATCH5_ALIAS_2)
-#define UVH_SCRATCH5_ALIAS_2_32 0x788
+       /* UV3 unique struct */
+       struct uv3h_rh_gam_alias_2_redirect_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   dest_base:22;                   /* RW */
+               unsigned long   rsvd_46_63:18;
+       } s3;
 
+       /* UV2 unique struct */
+       struct uv2h_rh_gam_alias_2_redirect_config_s {
+               unsigned long   rsvd_0_23:24;
+               unsigned long   dest_base:22;                   /* RW */
+               unsigned long   rsvd_46_63:18;
+       } s2;
+};
 
 /* ========================================================================= */
-/*                          UVXH_EVENT_OCCURRED2                             */
+/*                      UVH_RH_GAM_GRU_OVERLAY_CONFIG                        */
 /* ========================================================================= */
-#define UVXH_EVENT_OCCURRED2 0x70100UL
-
-#define UV2H_EVENT_OCCURRED2_32 0xb68
-#define UV3H_EVENT_OCCURRED2_32 0xb68
-#define UV4H_EVENT_OCCURRED2_32 0x608
-#define UVH_EVENT_OCCURRED2_32 (                                       \
-       is_uv2_hub() ? UV2H_EVENT_OCCURRED2_32 :                        \
-       is_uv3_hub() ? UV3H_EVENT_OCCURRED2_32 :                        \
-       /*is_uv4_hub*/ UV4H_EVENT_OCCURRED2_32)
-
-
-#define UV2H_EVENT_OCCURRED2_RTC_0_SHFT                        0
-#define UV2H_EVENT_OCCURRED2_RTC_1_SHFT                        1
-#define UV2H_EVENT_OCCURRED2_RTC_2_SHFT                        2
-#define UV2H_EVENT_OCCURRED2_RTC_3_SHFT                        3
-#define UV2H_EVENT_OCCURRED2_RTC_4_SHFT                        4
-#define UV2H_EVENT_OCCURRED2_RTC_5_SHFT                        5
-#define UV2H_EVENT_OCCURRED2_RTC_6_SHFT                        6
-#define UV2H_EVENT_OCCURRED2_RTC_7_SHFT                        7
-#define UV2H_EVENT_OCCURRED2_RTC_8_SHFT                        8
-#define UV2H_EVENT_OCCURRED2_RTC_9_SHFT                        9
-#define UV2H_EVENT_OCCURRED2_RTC_10_SHFT               10
-#define UV2H_EVENT_OCCURRED2_RTC_11_SHFT               11
-#define UV2H_EVENT_OCCURRED2_RTC_12_SHFT               12
-#define UV2H_EVENT_OCCURRED2_RTC_13_SHFT               13
-#define UV2H_EVENT_OCCURRED2_RTC_14_SHFT               14
-#define UV2H_EVENT_OCCURRED2_RTC_15_SHFT               15
-#define UV2H_EVENT_OCCURRED2_RTC_16_SHFT               16
-#define UV2H_EVENT_OCCURRED2_RTC_17_SHFT               17
-#define UV2H_EVENT_OCCURRED2_RTC_18_SHFT               18
-#define UV2H_EVENT_OCCURRED2_RTC_19_SHFT               19
-#define UV2H_EVENT_OCCURRED2_RTC_20_SHFT               20
-#define UV2H_EVENT_OCCURRED2_RTC_21_SHFT               21
-#define UV2H_EVENT_OCCURRED2_RTC_22_SHFT               22
-#define UV2H_EVENT_OCCURRED2_RTC_23_SHFT               23
-#define UV2H_EVENT_OCCURRED2_RTC_24_SHFT               24
-#define UV2H_EVENT_OCCURRED2_RTC_25_SHFT               25
-#define UV2H_EVENT_OCCURRED2_RTC_26_SHFT               26
-#define UV2H_EVENT_OCCURRED2_RTC_27_SHFT               27
-#define UV2H_EVENT_OCCURRED2_RTC_28_SHFT               28
-#define UV2H_EVENT_OCCURRED2_RTC_29_SHFT               29
-#define UV2H_EVENT_OCCURRED2_RTC_30_SHFT               30
-#define UV2H_EVENT_OCCURRED2_RTC_31_SHFT               31
-#define UV2H_EVENT_OCCURRED2_RTC_0_MASK                        0x0000000000000001UL
-#define UV2H_EVENT_OCCURRED2_RTC_1_MASK                        0x0000000000000002UL
-#define UV2H_EVENT_OCCURRED2_RTC_2_MASK                        0x0000000000000004UL
-#define UV2H_EVENT_OCCURRED2_RTC_3_MASK                        0x0000000000000008UL
-#define UV2H_EVENT_OCCURRED2_RTC_4_MASK                        0x0000000000000010UL
-#define UV2H_EVENT_OCCURRED2_RTC_5_MASK                        0x0000000000000020UL
-#define UV2H_EVENT_OCCURRED2_RTC_6_MASK                        0x0000000000000040UL
-#define UV2H_EVENT_OCCURRED2_RTC_7_MASK                        0x0000000000000080UL
-#define UV2H_EVENT_OCCURRED2_RTC_8_MASK                        0x0000000000000100UL
-#define UV2H_EVENT_OCCURRED2_RTC_9_MASK                        0x0000000000000200UL
-#define UV2H_EVENT_OCCURRED2_RTC_10_MASK               0x0000000000000400UL
-#define UV2H_EVENT_OCCURRED2_RTC_11_MASK               0x0000000000000800UL
-#define UV2H_EVENT_OCCURRED2_RTC_12_MASK               0x0000000000001000UL
-#define UV2H_EVENT_OCCURRED2_RTC_13_MASK               0x0000000000002000UL
-#define UV2H_EVENT_OCCURRED2_RTC_14_MASK               0x0000000000004000UL
-#define UV2H_EVENT_OCCURRED2_RTC_15_MASK               0x0000000000008000UL
-#define UV2H_EVENT_OCCURRED2_RTC_16_MASK               0x0000000000010000UL
-#define UV2H_EVENT_OCCURRED2_RTC_17_MASK               0x0000000000020000UL
-#define UV2H_EVENT_OCCURRED2_RTC_18_MASK               0x0000000000040000UL
-#define UV2H_EVENT_OCCURRED2_RTC_19_MASK               0x0000000000080000UL
-#define UV2H_EVENT_OCCURRED2_RTC_20_MASK               0x0000000000100000UL
-#define UV2H_EVENT_OCCURRED2_RTC_21_MASK               0x0000000000200000UL
-#define UV2H_EVENT_OCCURRED2_RTC_22_MASK               0x0000000000400000UL
-#define UV2H_EVENT_OCCURRED2_RTC_23_MASK               0x0000000000800000UL
-#define UV2H_EVENT_OCCURRED2_RTC_24_MASK               0x0000000001000000UL
-#define UV2H_EVENT_OCCURRED2_RTC_25_MASK               0x0000000002000000UL
-#define UV2H_EVENT_OCCURRED2_RTC_26_MASK               0x0000000004000000UL
-#define UV2H_EVENT_OCCURRED2_RTC_27_MASK               0x0000000008000000UL
-#define UV2H_EVENT_OCCURRED2_RTC_28_MASK               0x0000000010000000UL
-#define UV2H_EVENT_OCCURRED2_RTC_29_MASK               0x0000000020000000UL
-#define UV2H_EVENT_OCCURRED2_RTC_30_MASK               0x0000000040000000UL
-#define UV2H_EVENT_OCCURRED2_RTC_31_MASK               0x0000000080000000UL
+#define UVH_RH_GAM_GRU_OVERLAY_CONFIG (                                        \
+       is_uv(UV4) ? 0x480010UL :                                       \
+       is_uv(UV3) ? 0x1600010UL :                                      \
+       is_uv(UV2) ? 0x1600010UL :                                      \
+       0)
+
+
+/* UVXH common defines */
+#define UVXH_RH_GAM_GRU_OVERLAY_CONFIG_N_GRU_SHFT      52
+#define UVXH_RH_GAM_GRU_OVERLAY_CONFIG_N_GRU_MASK      0x00f0000000000000UL
+#define UVXH_RH_GAM_GRU_OVERLAY_CONFIG_ENABLE_SHFT     63
+#define UVXH_RH_GAM_GRU_OVERLAY_CONFIG_ENABLE_MASK     0x8000000000000000UL
+
+/* UV4A unique defines */
+#define UV4AH_RH_GAM_GRU_OVERLAY_CONFIG_BASE_SHFT      26
+#define UV4AH_RH_GAM_GRU_OVERLAY_CONFIG_BASE_MASK      0x000ffffffc000000UL
+
+/* UV4 unique defines */
+#define UV4H_RH_GAM_GRU_OVERLAY_CONFIG_BASE_SHFT       26
+#define UV4H_RH_GAM_GRU_OVERLAY_CONFIG_BASE_MASK       0x00003ffffc000000UL
+
+/* UV3 unique defines */
+#define UV3H_RH_GAM_GRU_OVERLAY_CONFIG_BASE_SHFT       28
+#define UV3H_RH_GAM_GRU_OVERLAY_CONFIG_BASE_MASK       0x00003ffff0000000UL
+#define UV3H_RH_GAM_GRU_OVERLAY_CONFIG_MODE_SHFT       62
+#define UV3H_RH_GAM_GRU_OVERLAY_CONFIG_MODE_MASK       0x4000000000000000UL
+
+/* UV2 unique defines */
+#define UV2H_RH_GAM_GRU_OVERLAY_CONFIG_BASE_SHFT       28
+#define UV2H_RH_GAM_GRU_OVERLAY_CONFIG_BASE_MASK       0x00003ffff0000000UL
+
+#define UVH_RH_GAM_GRU_OVERLAY_CONFIG_BASE_MASK (                      \
+       is_uv(UV4A) ? 0x000ffffffc000000UL :                            \
+       is_uv(UV4) ? 0x00003ffffc000000UL :                             \
+       is_uv(UV3) ? 0x00003ffff0000000UL :                             \
+       is_uv(UV2) ? 0x00003ffff0000000UL :                             \
+       0)
+#define UVH_RH_GAM_GRU_OVERLAY_CONFIG_BASE_SHFT (                      \
+       is_uv(UV4) ? 26 :                                               \
+       is_uv(UV3) ? 28 :                                               \
+       is_uv(UV2) ? 28 :                                               \
+       -1)
+
+union uvh_rh_gam_gru_overlay_config_u {
+       unsigned long   v;
 
-#define UV3H_EVENT_OCCURRED2_RTC_0_SHFT                        0
-#define UV3H_EVENT_OCCURRED2_RTC_1_SHFT                        1
-#define UV3H_EVENT_OCCURRED2_RTC_2_SHFT                        2
-#define UV3H_EVENT_OCCURRED2_RTC_3_SHFT                        3
-#define UV3H_EVENT_OCCURRED2_RTC_4_SHFT                        4
-#define UV3H_EVENT_OCCURRED2_RTC_5_SHFT                        5
-#define UV3H_EVENT_OCCURRED2_RTC_6_SHFT                        6
-#define UV3H_EVENT_OCCURRED2_RTC_7_SHFT                        7
-#define UV3H_EVENT_OCCURRED2_RTC_8_SHFT                        8
-#define UV3H_EVENT_OCCURRED2_RTC_9_SHFT                        9
-#define UV3H_EVENT_OCCURRED2_RTC_10_SHFT               10
-#define UV3H_EVENT_OCCURRED2_RTC_11_SHFT               11
-#define UV3H_EVENT_OCCURRED2_RTC_12_SHFT               12
-#define UV3H_EVENT_OCCURRED2_RTC_13_SHFT               13
-#define UV3H_EVENT_OCCURRED2_RTC_14_SHFT               14
-#define UV3H_EVENT_OCCURRED2_RTC_15_SHFT               15
-#define UV3H_EVENT_OCCURRED2_RTC_16_SHFT               16
-#define UV3H_EVENT_OCCURRED2_RTC_17_SHFT               17
-#define UV3H_EVENT_OCCURRED2_RTC_18_SHFT               18
-#define UV3H_EVENT_OCCURRED2_RTC_19_SHFT               19
-#define UV3H_EVENT_OCCURRED2_RTC_20_SHFT               20
-#define UV3H_EVENT_OCCURRED2_RTC_21_SHFT               21
-#define UV3H_EVENT_OCCURRED2_RTC_22_SHFT               22
-#define UV3H_EVENT_OCCURRED2_RTC_23_SHFT               23
-#define UV3H_EVENT_OCCURRED2_RTC_24_SHFT               24
-#define UV3H_EVENT_OCCURRED2_RTC_25_SHFT               25
-#define UV3H_EVENT_OCCURRED2_RTC_26_SHFT               26
-#define UV3H_EVENT_OCCURRED2_RTC_27_SHFT               27
-#define UV3H_EVENT_OCCURRED2_RTC_28_SHFT               28
-#define UV3H_EVENT_OCCURRED2_RTC_29_SHFT               29
-#define UV3H_EVENT_OCCURRED2_RTC_30_SHFT               30
-#define UV3H_EVENT_OCCURRED2_RTC_31_SHFT               31
-#define UV3H_EVENT_OCCURRED2_RTC_0_MASK                        0x0000000000000001UL
-#define UV3H_EVENT_OCCURRED2_RTC_1_MASK                        0x0000000000000002UL
-#define UV3H_EVENT_OCCURRED2_RTC_2_MASK                        0x0000000000000004UL
-#define UV3H_EVENT_OCCURRED2_RTC_3_MASK                        0x0000000000000008UL
-#define UV3H_EVENT_OCCURRED2_RTC_4_MASK                        0x0000000000000010UL
-#define UV3H_EVENT_OCCURRED2_RTC_5_MASK                        0x0000000000000020UL
-#define UV3H_EVENT_OCCURRED2_RTC_6_MASK                        0x0000000000000040UL
-#define UV3H_EVENT_OCCURRED2_RTC_7_MASK                        0x0000000000000080UL
-#define UV3H_EVENT_OCCURRED2_RTC_8_MASK                        0x0000000000000100UL
-#define UV3H_EVENT_OCCURRED2_RTC_9_MASK                        0x0000000000000200UL
-#define UV3H_EVENT_OCCURRED2_RTC_10_MASK               0x0000000000000400UL
-#define UV3H_EVENT_OCCURRED2_RTC_11_MASK               0x0000000000000800UL
-#define UV3H_EVENT_OCCURRED2_RTC_12_MASK               0x0000000000001000UL
-#define UV3H_EVENT_OCCURRED2_RTC_13_MASK               0x0000000000002000UL
-#define UV3H_EVENT_OCCURRED2_RTC_14_MASK               0x0000000000004000UL
-#define UV3H_EVENT_OCCURRED2_RTC_15_MASK               0x0000000000008000UL
-#define UV3H_EVENT_OCCURRED2_RTC_16_MASK               0x0000000000010000UL
-#define UV3H_EVENT_OCCURRED2_RTC_17_MASK               0x0000000000020000UL
-#define UV3H_EVENT_OCCURRED2_RTC_18_MASK               0x0000000000040000UL
-#define UV3H_EVENT_OCCURRED2_RTC_19_MASK               0x0000000000080000UL
-#define UV3H_EVENT_OCCURRED2_RTC_20_MASK               0x0000000000100000UL
-#define UV3H_EVENT_OCCURRED2_RTC_21_MASK               0x0000000000200000UL
-#define UV3H_EVENT_OCCURRED2_RTC_22_MASK               0x0000000000400000UL
-#define UV3H_EVENT_OCCURRED2_RTC_23_MASK               0x0000000000800000UL
-#define UV3H_EVENT_OCCURRED2_RTC_24_MASK               0x0000000001000000UL
-#define UV3H_EVENT_OCCURRED2_RTC_25_MASK               0x0000000002000000UL
-#define UV3H_EVENT_OCCURRED2_RTC_26_MASK               0x0000000004000000UL
-#define UV3H_EVENT_OCCURRED2_RTC_27_MASK               0x0000000008000000UL
-#define UV3H_EVENT_OCCURRED2_RTC_28_MASK               0x0000000010000000UL
-#define UV3H_EVENT_OCCURRED2_RTC_29_MASK               0x0000000020000000UL
-#define UV3H_EVENT_OCCURRED2_RTC_30_MASK               0x0000000040000000UL
-#define UV3H_EVENT_OCCURRED2_RTC_31_MASK               0x0000000080000000UL
+       /* UVH common struct */
+       struct uvh_rh_gam_gru_overlay_config_s {
+               unsigned long   rsvd_0_45:46;
+               unsigned long   rsvd_46_51:6;
+               unsigned long   n_gru:4;                        /* RW */
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
+       } s;
+
+       /* UVXH common struct */
+       struct uvxh_rh_gam_gru_overlay_config_s {
+               unsigned long   rsvd_0_45:46;
+               unsigned long   rsvd_46_51:6;
+               unsigned long   n_gru:4;                        /* RW */
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
+       } sx;
+
+       /* UV4A unique struct */
+       struct uv4ah_rh_gam_gru_overlay_config_s {
+               unsigned long   rsvd_0_24:25;
+               unsigned long   undef_25:1;                     /* Undefined */
+               unsigned long   base:26;                        /* RW */
+               unsigned long   n_gru:4;                        /* RW */
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
+       } s4a;
+
+       /* UV4 unique struct */
+       struct uv4h_rh_gam_gru_overlay_config_s {
+               unsigned long   rsvd_0_24:25;
+               unsigned long   undef_25:1;                     /* Undefined */
+               unsigned long   base:20;                        /* RW */
+               unsigned long   rsvd_46_51:6;
+               unsigned long   n_gru:4;                        /* RW */
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
+       } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_rh_gam_gru_overlay_config_s {
+               unsigned long   rsvd_0_27:28;
+               unsigned long   base:18;                        /* RW */
+               unsigned long   rsvd_46_51:6;
+               unsigned long   n_gru:4;                        /* RW */
+               unsigned long   rsvd_56_61:6;
+               unsigned long   mode:1;                         /* RW */
+               unsigned long   enable:1;                       /* RW */
+       } s3;
+
+       /* UV2 unique struct */
+       struct uv2h_rh_gam_gru_overlay_config_s {
+               unsigned long   rsvd_0_27:28;
+               unsigned long   base:18;                        /* RW */
+               unsigned long   rsvd_46_51:6;
+               unsigned long   n_gru:4;                        /* RW */
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
+       } s2;
+};
+
+/* ========================================================================= */
+/*                     UVH_RH_GAM_MMIOH_OVERLAY_CONFIG                       */
+/* ========================================================================= */
+#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG (                              \
+       is_uv(UV2) ? 0x1600030UL :                                      \
+       0)
 
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT0_SHFT 0
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT1_SHFT 1
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT2_SHFT 2
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT3_SHFT 3
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT4_SHFT 4
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT5_SHFT 5
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT6_SHFT 6
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT7_SHFT 7
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT8_SHFT 8
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT9_SHFT 9
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT10_SHFT 10
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT11_SHFT 11
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT12_SHFT 12
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT13_SHFT 13
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT14_SHFT 14
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT15_SHFT 15
-#define UV4H_EVENT_OCCURRED2_RTC_INTERVAL_INT_SHFT     16
-#define UV4H_EVENT_OCCURRED2_BAU_DASHBOARD_INT_SHFT    17
-#define UV4H_EVENT_OCCURRED2_RTC_0_SHFT                        18
-#define UV4H_EVENT_OCCURRED2_RTC_1_SHFT                        19
-#define UV4H_EVENT_OCCURRED2_RTC_2_SHFT                        20
-#define UV4H_EVENT_OCCURRED2_RTC_3_SHFT                        21
-#define UV4H_EVENT_OCCURRED2_RTC_4_SHFT                        22
-#define UV4H_EVENT_OCCURRED2_RTC_5_SHFT                        23
-#define UV4H_EVENT_OCCURRED2_RTC_6_SHFT                        24
-#define UV4H_EVENT_OCCURRED2_RTC_7_SHFT                        25
-#define UV4H_EVENT_OCCURRED2_RTC_8_SHFT                        26
-#define UV4H_EVENT_OCCURRED2_RTC_9_SHFT                        27
-#define UV4H_EVENT_OCCURRED2_RTC_10_SHFT               28
-#define UV4H_EVENT_OCCURRED2_RTC_11_SHFT               29
-#define UV4H_EVENT_OCCURRED2_RTC_12_SHFT               30
-#define UV4H_EVENT_OCCURRED2_RTC_13_SHFT               31
-#define UV4H_EVENT_OCCURRED2_RTC_14_SHFT               32
-#define UV4H_EVENT_OCCURRED2_RTC_15_SHFT               33
-#define UV4H_EVENT_OCCURRED2_RTC_16_SHFT               34
-#define UV4H_EVENT_OCCURRED2_RTC_17_SHFT               35
-#define UV4H_EVENT_OCCURRED2_RTC_18_SHFT               36
-#define UV4H_EVENT_OCCURRED2_RTC_19_SHFT               37
-#define UV4H_EVENT_OCCURRED2_RTC_20_SHFT               38
-#define UV4H_EVENT_OCCURRED2_RTC_21_SHFT               39
-#define UV4H_EVENT_OCCURRED2_RTC_22_SHFT               40
-#define UV4H_EVENT_OCCURRED2_RTC_23_SHFT               41
-#define UV4H_EVENT_OCCURRED2_RTC_24_SHFT               42
-#define UV4H_EVENT_OCCURRED2_RTC_25_SHFT               43
-#define UV4H_EVENT_OCCURRED2_RTC_26_SHFT               44
-#define UV4H_EVENT_OCCURRED2_RTC_27_SHFT               45
-#define UV4H_EVENT_OCCURRED2_RTC_28_SHFT               46
-#define UV4H_EVENT_OCCURRED2_RTC_29_SHFT               47
-#define UV4H_EVENT_OCCURRED2_RTC_30_SHFT               48
-#define UV4H_EVENT_OCCURRED2_RTC_31_SHFT               49
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT0_MASK 0x0000000000000001UL
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT1_MASK 0x0000000000000002UL
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT2_MASK 0x0000000000000004UL
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT3_MASK 0x0000000000000008UL
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT4_MASK 0x0000000000000010UL
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT5_MASK 0x0000000000000020UL
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT6_MASK 0x0000000000000040UL
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT7_MASK 0x0000000000000080UL
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT8_MASK 0x0000000000000100UL
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT9_MASK 0x0000000000000200UL
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT10_MASK 0x0000000000000400UL
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT11_MASK 0x0000000000000800UL
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT12_MASK 0x0000000000001000UL
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT13_MASK 0x0000000000002000UL
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT14_MASK 0x0000000000004000UL
-#define UV4H_EVENT_OCCURRED2_MESSAGE_ACCELERATOR_INT15_MASK 0x0000000000008000UL
-#define UV4H_EVENT_OCCURRED2_RTC_INTERVAL_INT_MASK     0x0000000000010000UL
-#define UV4H_EVENT_OCCURRED2_BAU_DASHBOARD_INT_MASK    0x0000000000020000UL
-#define UV4H_EVENT_OCCURRED2_RTC_0_MASK                        0x0000000000040000UL
-#define UV4H_EVENT_OCCURRED2_RTC_1_MASK                        0x0000000000080000UL
-#define UV4H_EVENT_OCCURRED2_RTC_2_MASK                        0x0000000000100000UL
-#define UV4H_EVENT_OCCURRED2_RTC_3_MASK                        0x0000000000200000UL
-#define UV4H_EVENT_OCCURRED2_RTC_4_MASK                        0x0000000000400000UL
-#define UV4H_EVENT_OCCURRED2_RTC_5_MASK                        0x0000000000800000UL
-#define UV4H_EVENT_OCCURRED2_RTC_6_MASK                        0x0000000001000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_7_MASK                        0x0000000002000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_8_MASK                        0x0000000004000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_9_MASK                        0x0000000008000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_10_MASK               0x0000000010000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_11_MASK               0x0000000020000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_12_MASK               0x0000000040000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_13_MASK               0x0000000080000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_14_MASK               0x0000000100000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_15_MASK               0x0000000200000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_16_MASK               0x0000000400000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_17_MASK               0x0000000800000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_18_MASK               0x0000001000000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_19_MASK               0x0000002000000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_20_MASK               0x0000004000000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_21_MASK               0x0000008000000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_22_MASK               0x0000010000000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_23_MASK               0x0000020000000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_24_MASK               0x0000040000000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_25_MASK               0x0000080000000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_26_MASK               0x0000100000000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_27_MASK               0x0000200000000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_28_MASK               0x0000400000000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_29_MASK               0x0000800000000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_30_MASK               0x0001000000000000UL
-#define UV4H_EVENT_OCCURRED2_RTC_31_MASK               0x0002000000000000UL
 
-#define UVXH_EVENT_OCCURRED2_RTC_1_MASK (                              \
-       is_uv2_hub() ? UV2H_EVENT_OCCURRED2_RTC_1_MASK :                \
-       is_uv3_hub() ? UV3H_EVENT_OCCURRED2_RTC_1_MASK :                \
-       /*is_uv4_hub*/ UV4H_EVENT_OCCURRED2_RTC_1_MASK)
 
-union uvh_event_occurred2_u {
+/* UV2 unique defines */
+#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_BASE_SHFT     27
+#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_BASE_MASK     0x00003ffff8000000UL
+#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_M_IO_SHFT     46
+#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_M_IO_MASK     0x000fc00000000000UL
+#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_N_IO_SHFT     52
+#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_N_IO_MASK     0x00f0000000000000UL
+#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_ENABLE_SHFT   63
+#define UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_ENABLE_MASK   0x8000000000000000UL
+
+#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG_BASE_SHFT (                    \
+       is_uv(UV2) ? 27 :                                               \
+       uv_undefined("UVH_RH_GAM_MMIOH_OVERLAY_CONFIG_BASE_SHFT"))
+
+union uvh_rh_gam_mmioh_overlay_config_u {
        unsigned long   v;
-       struct uv2h_event_occurred2_s {
-               unsigned long   rtc_0:1;                        /* RW */
-               unsigned long   rtc_1:1;                        /* RW */
-               unsigned long   rtc_2:1;                        /* RW */
-               unsigned long   rtc_3:1;                        /* RW */
-               unsigned long   rtc_4:1;                        /* RW */
-               unsigned long   rtc_5:1;                        /* RW */
-               unsigned long   rtc_6:1;                        /* RW */
-               unsigned long   rtc_7:1;                        /* RW */
-               unsigned long   rtc_8:1;                        /* RW */
-               unsigned long   rtc_9:1;                        /* RW */
-               unsigned long   rtc_10:1;                       /* RW */
-               unsigned long   rtc_11:1;                       /* RW */
-               unsigned long   rtc_12:1;                       /* RW */
-               unsigned long   rtc_13:1;                       /* RW */
-               unsigned long   rtc_14:1;                       /* RW */
-               unsigned long   rtc_15:1;                       /* RW */
-               unsigned long   rtc_16:1;                       /* RW */
-               unsigned long   rtc_17:1;                       /* RW */
-               unsigned long   rtc_18:1;                       /* RW */
-               unsigned long   rtc_19:1;                       /* RW */
-               unsigned long   rtc_20:1;                       /* RW */
-               unsigned long   rtc_21:1;                       /* RW */
-               unsigned long   rtc_22:1;                       /* RW */
-               unsigned long   rtc_23:1;                       /* RW */
-               unsigned long   rtc_24:1;                       /* RW */
-               unsigned long   rtc_25:1;                       /* RW */
-               unsigned long   rtc_26:1;                       /* RW */
-               unsigned long   rtc_27:1;                       /* RW */
-               unsigned long   rtc_28:1;                       /* RW */
-               unsigned long   rtc_29:1;                       /* RW */
-               unsigned long   rtc_30:1;                       /* RW */
-               unsigned long   rtc_31:1;                       /* RW */
-               unsigned long   rsvd_32_63:32;
+
+       /* UVH common struct */
+       struct uvh_rh_gam_mmioh_overlay_config_s {
+               unsigned long   rsvd_0_26:27;
+               unsigned long   base:19;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;                         /* RW */
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
+       } s;
+
+       /* UVXH common struct */
+       struct uvxh_rh_gam_mmioh_overlay_config_s {
+               unsigned long   rsvd_0_26:27;
+               unsigned long   base:19;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;                         /* RW */
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
+       } sx;
+
+       /* UV2 unique struct */
+       struct uv2h_rh_gam_mmioh_overlay_config_s {
+               unsigned long   rsvd_0_26:27;
+               unsigned long   base:19;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;                         /* RW */
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
        } s2;
-       struct uv3h_event_occurred2_s {
-               unsigned long   rtc_0:1;                        /* RW */
-               unsigned long   rtc_1:1;                        /* RW */
-               unsigned long   rtc_2:1;                        /* RW */
-               unsigned long   rtc_3:1;                        /* RW */
-               unsigned long   rtc_4:1;                        /* RW */
-               unsigned long   rtc_5:1;                        /* RW */
-               unsigned long   rtc_6:1;                        /* RW */
-               unsigned long   rtc_7:1;                        /* RW */
-               unsigned long   rtc_8:1;                        /* RW */
-               unsigned long   rtc_9:1;                        /* RW */
-               unsigned long   rtc_10:1;                       /* RW */
-               unsigned long   rtc_11:1;                       /* RW */
-               unsigned long   rtc_12:1;                       /* RW */
-               unsigned long   rtc_13:1;                       /* RW */
-               unsigned long   rtc_14:1;                       /* RW */
-               unsigned long   rtc_15:1;                       /* RW */
-               unsigned long   rtc_16:1;                       /* RW */
-               unsigned long   rtc_17:1;                       /* RW */
-               unsigned long   rtc_18:1;                       /* RW */
-               unsigned long   rtc_19:1;                       /* RW */
-               unsigned long   rtc_20:1;                       /* RW */
-               unsigned long   rtc_21:1;                       /* RW */
-               unsigned long   rtc_22:1;                       /* RW */
-               unsigned long   rtc_23:1;                       /* RW */
-               unsigned long   rtc_24:1;                       /* RW */
-               unsigned long   rtc_25:1;                       /* RW */
-               unsigned long   rtc_26:1;                       /* RW */
-               unsigned long   rtc_27:1;                       /* RW */
-               unsigned long   rtc_28:1;                       /* RW */
-               unsigned long   rtc_29:1;                       /* RW */
-               unsigned long   rtc_30:1;                       /* RW */
-               unsigned long   rtc_31:1;                       /* RW */
-               unsigned long   rsvd_32_63:32;
+};
+
+/* ========================================================================= */
+/*                     UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0                      */
+/* ========================================================================= */
+#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0 (                             \
+       is_uv(UV4) ? 0x483000UL :                                       \
+       is_uv(UV3) ? 0x1603000UL :                                      \
+       0)
+
+/* UV4A unique defines */
+#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG0_BASE_SHFT   26
+#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG0_BASE_MASK   0x000ffffffc000000UL
+#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG0_M_IO_SHFT   52
+#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG0_M_IO_MASK   0x03f0000000000000UL
+#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG0_ENABLE_SHFT 63
+#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG0_ENABLE_MASK 0x8000000000000000UL
+
+/* UV4 unique defines */
+#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_BASE_SHFT    26
+#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_BASE_MASK    0x00003ffffc000000UL
+#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_M_IO_SHFT    46
+#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_M_IO_MASK    0x000fc00000000000UL
+#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_ENABLE_SHFT  63
+#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG0_ENABLE_MASK  0x8000000000000000UL
+
+/* UV3 unique defines */
+#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_BASE_SHFT    26
+#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_BASE_MASK    0x00003ffffc000000UL
+#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_M_IO_SHFT    46
+#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_M_IO_MASK    0x000fc00000000000UL
+#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_ENABLE_SHFT  63
+#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG0_ENABLE_MASK  0x8000000000000000UL
+
+#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_BASE_MASK (                   \
+       is_uv(UV4A) ? 0x000ffffffc000000UL :                            \
+       is_uv(UV4) ? 0x00003ffffc000000UL :                             \
+       is_uv(UV3) ? 0x00003ffffc000000UL :                             \
+       0)
+#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_BASE_SHFT (                   \
+       is_uv(UV4) ? 26 :                                               \
+       is_uv(UV3) ? 26 :                                               \
+       -1)
+
+union uvh_rh_gam_mmioh_overlay_config0_u {
+       unsigned long   v;
+
+       /* UVH common struct */
+       struct uvh_rh_gam_mmioh_overlay_config0_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:20;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
+       } s;
+
+       /* UVXH common struct */
+       struct uvxh_rh_gam_mmioh_overlay_config0_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:20;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
+       } sx;
+
+       /* UV4A unique struct */
+       struct uv4ah_rh_gam_mmioh_overlay_config0_mmr_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:26;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   undef_62:1;                     /* Undefined */
+               unsigned long   enable:1;                       /* RW */
+       } s4a;
+
+       /* UV4 unique struct */
+       struct uv4h_rh_gam_mmioh_overlay_config0_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:20;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
+       } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_rh_gam_mmioh_overlay_config0_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:20;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
        } s3;
-       struct uv4h_event_occurred2_s {
-               unsigned long   message_accelerator_int0:1;     /* RW */
-               unsigned long   message_accelerator_int1:1;     /* RW */
-               unsigned long   message_accelerator_int2:1;     /* RW */
-               unsigned long   message_accelerator_int3:1;     /* RW */
-               unsigned long   message_accelerator_int4:1;     /* RW */
-               unsigned long   message_accelerator_int5:1;     /* RW */
-               unsigned long   message_accelerator_int6:1;     /* RW */
-               unsigned long   message_accelerator_int7:1;     /* RW */
-               unsigned long   message_accelerator_int8:1;     /* RW */
-               unsigned long   message_accelerator_int9:1;     /* RW */
-               unsigned long   message_accelerator_int10:1;    /* RW */
-               unsigned long   message_accelerator_int11:1;    /* RW */
-               unsigned long   message_accelerator_int12:1;    /* RW */
-               unsigned long   message_accelerator_int13:1;    /* RW */
-               unsigned long   message_accelerator_int14:1;    /* RW */
-               unsigned long   message_accelerator_int15:1;    /* RW */
-               unsigned long   rtc_interval_int:1;             /* RW */
-               unsigned long   bau_dashboard_int:1;            /* RW */
-               unsigned long   rtc_0:1;                        /* RW */
-               unsigned long   rtc_1:1;                        /* RW */
-               unsigned long   rtc_2:1;                        /* RW */
-               unsigned long   rtc_3:1;                        /* RW */
-               unsigned long   rtc_4:1;                        /* RW */
-               unsigned long   rtc_5:1;                        /* RW */
-               unsigned long   rtc_6:1;                        /* RW */
-               unsigned long   rtc_7:1;                        /* RW */
-               unsigned long   rtc_8:1;                        /* RW */
-               unsigned long   rtc_9:1;                        /* RW */
-               unsigned long   rtc_10:1;                       /* RW */
-               unsigned long   rtc_11:1;                       /* RW */
-               unsigned long   rtc_12:1;                       /* RW */
-               unsigned long   rtc_13:1;                       /* RW */
-               unsigned long   rtc_14:1;                       /* RW */
-               unsigned long   rtc_15:1;                       /* RW */
-               unsigned long   rtc_16:1;                       /* RW */
-               unsigned long   rtc_17:1;                       /* RW */
-               unsigned long   rtc_18:1;                       /* RW */
-               unsigned long   rtc_19:1;                       /* RW */
-               unsigned long   rtc_20:1;                       /* RW */
-               unsigned long   rtc_21:1;                       /* RW */
-               unsigned long   rtc_22:1;                       /* RW */
-               unsigned long   rtc_23:1;                       /* RW */
-               unsigned long   rtc_24:1;                       /* RW */
-               unsigned long   rtc_25:1;                       /* RW */
-               unsigned long   rtc_26:1;                       /* RW */
-               unsigned long   rtc_27:1;                       /* RW */
-               unsigned long   rtc_28:1;                       /* RW */
-               unsigned long   rtc_29:1;                       /* RW */
-               unsigned long   rtc_30:1;                       /* RW */
-               unsigned long   rtc_31:1;                       /* RW */
-               unsigned long   rsvd_50_63:14;
+};
+
+/* ========================================================================= */
+/*                     UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1                      */
+/* ========================================================================= */
+#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1 (                             \
+       is_uv(UV4) ? 0x484000UL :                                       \
+       is_uv(UV3) ? 0x1604000UL :                                      \
+       0)
+
+/* UV4A unique defines */
+#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG1_BASE_SHFT   26
+#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG1_BASE_MASK   0x000ffffffc000000UL
+#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG1_M_IO_SHFT   52
+#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG1_M_IO_MASK   0x03f0000000000000UL
+#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG1_ENABLE_SHFT 63
+#define UV4AH_RH_GAM_MMIOH_OVERLAY_CONFIG1_ENABLE_MASK 0x8000000000000000UL
+
+/* UV4 unique defines */
+#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_BASE_SHFT    26
+#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_BASE_MASK    0x00003ffffc000000UL
+#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_M_IO_SHFT    46
+#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_M_IO_MASK    0x000fc00000000000UL
+#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_ENABLE_SHFT  63
+#define UV4H_RH_GAM_MMIOH_OVERLAY_CONFIG1_ENABLE_MASK  0x8000000000000000UL
+
+/* UV3 unique defines */
+#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_BASE_SHFT    26
+#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_BASE_MASK    0x00003ffffc000000UL
+#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_M_IO_SHFT    46
+#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_M_IO_MASK    0x000fc00000000000UL
+#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_ENABLE_SHFT  63
+#define UV3H_RH_GAM_MMIOH_OVERLAY_CONFIG1_ENABLE_MASK  0x8000000000000000UL
+
+#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1_BASE_MASK (                   \
+       is_uv(UV4A) ? 0x000ffffffc000000UL : \
+       is_uv(UV4) ? 0x00003ffffc000000UL :                             \
+       is_uv(UV3) ? 0x00003ffffc000000UL :                             \
+       0)
+#define UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1_BASE_SHFT (                   \
+       is_uv(UV4) ? 26 :                                               \
+       is_uv(UV3) ? 26 :                                               \
+       -1)
+
+union uvh_rh_gam_mmioh_overlay_config1_u {
+       unsigned long   v;
+
+       /* UVH common struct */
+       struct uvh_rh_gam_mmioh_overlay_config1_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:20;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
+       } s;
+
+       /* UVXH common struct */
+       struct uvxh_rh_gam_mmioh_overlay_config1_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:20;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
+       } sx;
+
+       /* UV4A unique struct */
+       struct uv4ah_rh_gam_mmioh_overlay_config1_mmr_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:26;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   undef_62:1;                     /* Undefined */
+               unsigned long   enable:1;                       /* RW */
+       } s4a;
+
+       /* UV4 unique struct */
+       struct uv4h_rh_gam_mmioh_overlay_config1_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:20;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
        } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_rh_gam_mmioh_overlay_config1_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:20;                        /* RW */
+               unsigned long   m_io:6;                         /* RW */
+               unsigned long   n_io:4;
+               unsigned long   rsvd_56_62:7;
+               unsigned long   enable:1;                       /* RW */
+       } s3;
 };
 
 /* ========================================================================= */
-/*                       UVXH_EVENT_OCCURRED2_ALIAS                          */
+/*                    UVH_RH_GAM_MMIOH_REDIRECT_CONFIG0                      */
 /* ========================================================================= */
-#define UVXH_EVENT_OCCURRED2_ALIAS 0x70108UL
+#define UVH_RH_GAM_MMIOH_REDIRECT_CONFIG0 (                            \
+       is_uv(UV4) ? 0x483800UL :                                       \
+       is_uv(UV3) ? 0x1603800UL :                                      \
+       0)
 
-#define UV2H_EVENT_OCCURRED2_ALIAS_32 0xb70
-#define UV3H_EVENT_OCCURRED2_ALIAS_32 0xb70
-#define UV4H_EVENT_OCCURRED2_ALIAS_32 0x610
-#define UVH_EVENT_OCCURRED2_ALIAS_32 (                                 \
-       is_uv2_hub() ? UV2H_EVENT_OCCURRED2_ALIAS_32 :                  \
-       is_uv3_hub() ? UV3H_EVENT_OCCURRED2_ALIAS_32 :                  \
-       /*is_uv4_hub*/ UV4H_EVENT_OCCURRED2_ALIAS_32)
+#define UVH_RH_GAM_MMIOH_REDIRECT_CONFIG0_DEPTH (                      \
+       is_uv(UV4) ? 128 :                                              \
+       is_uv(UV3) ? 128 :                                              \
+       0)
 
+/* UV4A unique defines */
+#define UV4AH_RH_GAM_MMIOH_REDIRECT_CONFIG0_NASID_SHFT 0
+#define UV4AH_RH_GAM_MMIOH_REDIRECT_CONFIG0_NASID_MASK 0x0000000000000fffUL
 
-/* ========================================================================= */
-/*                   UVXH_LB_BAU_SB_ACTIVATION_STATUS_2                      */
-/* ========================================================================= */
-#define UV2H_LB_BAU_SB_ACTIVATION_STATUS_2 0x320130UL
-#define UV3H_LB_BAU_SB_ACTIVATION_STATUS_2 0x320130UL
-#define UV4H_LB_BAU_SB_ACTIVATION_STATUS_2 0xc8130UL
-#define UVH_LB_BAU_SB_ACTIVATION_STATUS_2 (                            \
-       is_uv2_hub() ? UV2H_LB_BAU_SB_ACTIVATION_STATUS_2 :             \
-       is_uv3_hub() ? UV3H_LB_BAU_SB_ACTIVATION_STATUS_2 :             \
-       /*is_uv4_hub*/ UV4H_LB_BAU_SB_ACTIVATION_STATUS_2)
+/* UV4 unique defines */
+#define UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG0_NASID_SHFT  0
+#define UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG0_NASID_MASK  0x0000000000007fffUL
+
+/* UV3 unique defines */
+#define UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG0_NASID_SHFT  0
+#define UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG0_NASID_MASK  0x0000000000007fffUL
 
-#define UV2H_LB_BAU_SB_ACTIVATION_STATUS_2_32 0x9f0
-#define UV3H_LB_BAU_SB_ACTIVATION_STATUS_2_32 0x9f0
-#define UV4H_LB_BAU_SB_ACTIVATION_STATUS_2_32 0xa10
-#define UVH_LB_BAU_SB_ACTIVATION_STATUS_2_32 (                         \
-       is_uv2_hub() ? UV2H_LB_BAU_SB_ACTIVATION_STATUS_2_32 :          \
-       is_uv3_hub() ? UV3H_LB_BAU_SB_ACTIVATION_STATUS_2_32 :          \
-       /*is_uv4_hub*/ UV4H_LB_BAU_SB_ACTIVATION_STATUS_2_32)
 
-#define UVXH_LB_BAU_SB_ACTIVATION_STATUS_2_AUX_ERROR_SHFT 0
-#define UVXH_LB_BAU_SB_ACTIVATION_STATUS_2_AUX_ERROR_MASK 0xffffffffffffffffUL
+union uvh_rh_gam_mmioh_redirect_config0_u {
+       unsigned long   v;
 
-#define UV2H_LB_BAU_SB_ACTIVATION_STATUS_2_AUX_ERROR_SHFT 0
-#define UV2H_LB_BAU_SB_ACTIVATION_STATUS_2_AUX_ERROR_MASK 0xffffffffffffffffUL
+       /* UVH common struct */
+       struct uvh_rh_gam_mmioh_redirect_config0_s {
+               unsigned long   nasid:15;                       /* RW */
+               unsigned long   rsvd_15_63:49;
+       } s;
 
-#define UV3H_LB_BAU_SB_ACTIVATION_STATUS_2_AUX_ERROR_SHFT 0
-#define UV3H_LB_BAU_SB_ACTIVATION_STATUS_2_AUX_ERROR_MASK 0xffffffffffffffffUL
+       /* UVXH common struct */
+       struct uvxh_rh_gam_mmioh_redirect_config0_s {
+               unsigned long   nasid:15;                       /* RW */
+               unsigned long   rsvd_15_63:49;
+       } sx;
 
-#define UV4H_LB_BAU_SB_ACTIVATION_STATUS_2_AUX_ERROR_SHFT 0
-#define UV4H_LB_BAU_SB_ACTIVATION_STATUS_2_AUX_ERROR_MASK 0xffffffffffffffffUL
+       struct uv4ah_rh_gam_mmioh_redirect_config0_s {
+               unsigned long   nasid:12;                       /* RW */
+               unsigned long   rsvd_12_63:52;
+       } s4a;
 
+       /* UV4 unique struct */
+       struct uv4h_rh_gam_mmioh_redirect_config0_s {
+               unsigned long   nasid:15;                       /* RW */
+               unsigned long   rsvd_15_63:49;
+       } s4;
 
-union uvxh_lb_bau_sb_activation_status_2_u {
-       unsigned long   v;
-       struct uvxh_lb_bau_sb_activation_status_2_s {
-               unsigned long   aux_error:64;                   /* RW */
-       } sx;
-       struct uv2h_lb_bau_sb_activation_status_2_s {
-               unsigned long   aux_error:64;                   /* RW */
-       } s2;
-       struct uv3h_lb_bau_sb_activation_status_2_s {
-               unsigned long   aux_error:64;                   /* RW */
+       /* UV3 unique struct */
+       struct uv3h_rh_gam_mmioh_redirect_config0_s {
+               unsigned long   nasid:15;                       /* RW */
+               unsigned long   rsvd_15_63:49;
        } s3;
-       struct uv4h_lb_bau_sb_activation_status_2_s {
-               unsigned long   aux_error:64;                   /* RW */
-       } s4;
 };
 
 /* ========================================================================= */
-/*                          UV3H_GR0_GAM_GR_CONFIG                           */
+/*                    UVH_RH_GAM_MMIOH_REDIRECT_CONFIG1                      */
 /* ========================================================================= */
-#define UV3H_GR0_GAM_GR_CONFIG                         0xc00028UL
+#define UVH_RH_GAM_MMIOH_REDIRECT_CONFIG1 (                            \
+       is_uv(UV4) ? 0x484800UL :                                       \
+       is_uv(UV3) ? 0x1604800UL :                                      \
+       0)
 
-#define UV3H_GR0_GAM_GR_CONFIG_M_SKT_SHFT              0
-#define UV3H_GR0_GAM_GR_CONFIG_SUBSPACE_SHFT           10
-#define UV3H_GR0_GAM_GR_CONFIG_M_SKT_MASK              0x000000000000003fUL
-#define UV3H_GR0_GAM_GR_CONFIG_SUBSPACE_MASK           0x0000000000000400UL
+#define UVH_RH_GAM_MMIOH_REDIRECT_CONFIG1_DEPTH (                      \
+       is_uv(UV4) ? 128 :                                              \
+       is_uv(UV3) ? 128 :                                              \
+       0)
+
+/* UV4A unique defines */
+#define UV4AH_RH_GAM_MMIOH_REDIRECT_CONFIG0_NASID_SHFT 0
+#define UV4AH_RH_GAM_MMIOH_REDIRECT_CONFIG0_NASID_MASK 0x0000000000000fffUL
+
+/* UV4 unique defines */
+#define UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG1_NASID_SHFT  0
+#define UV4H_RH_GAM_MMIOH_REDIRECT_CONFIG1_NASID_MASK  0x0000000000007fffUL
+
+/* UV3 unique defines */
+#define UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG1_NASID_SHFT  0
+#define UV3H_RH_GAM_MMIOH_REDIRECT_CONFIG1_NASID_MASK  0x0000000000007fffUL
 
-union uv3h_gr0_gam_gr_config_u {
+
+union uvh_rh_gam_mmioh_redirect_config1_u {
        unsigned long   v;
-       struct uv3h_gr0_gam_gr_config_s {
-               unsigned long   m_skt:6;                        /* RW */
-               unsigned long   undef_6_9:4;                    /* Undefined */
-               unsigned long   subspace:1;                     /* RW */
-               unsigned long   reserved:53;
+
+       /* UVH common struct */
+       struct uvh_rh_gam_mmioh_redirect_config1_s {
+               unsigned long   nasid:15;                       /* RW */
+               unsigned long   rsvd_15_63:49;
+       } s;
+
+       /* UVXH common struct */
+       struct uvxh_rh_gam_mmioh_redirect_config1_s {
+               unsigned long   nasid:15;                       /* RW */
+               unsigned long   rsvd_15_63:49;
+       } sx;
+
+       struct uv4ah_rh_gam_mmioh_redirect_config1_s {
+               unsigned long   nasid:12;                       /* RW */
+               unsigned long   rsvd_12_63:52;
+       } s4a;
+
+       /* UV4 unique struct */
+       struct uv4h_rh_gam_mmioh_redirect_config1_s {
+               unsigned long   nasid:15;                       /* RW */
+               unsigned long   rsvd_15_63:49;
+       } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_rh_gam_mmioh_redirect_config1_s {
+               unsigned long   nasid:15;                       /* RW */
+               unsigned long   rsvd_15_63:49;
        } s3;
 };
 
 /* ========================================================================= */
-/*                       UV4H_LB_PROC_INTD_QUEUE_FIRST                       */
+/*                      UVH_RH_GAM_MMR_OVERLAY_CONFIG                        */
 /* ========================================================================= */
-#define UV4H_LB_PROC_INTD_QUEUE_FIRST                  0xa4100UL
+#define UVH_RH_GAM_MMR_OVERLAY_CONFIG (                                        \
+       is_uv(UV4) ? 0x480028UL :                                       \
+       is_uv(UV3) ? 0x1600028UL :                                      \
+       is_uv(UV2) ? 0x1600028UL :                                      \
+       0)
+
+
+/* UVXH common defines */
+#define UVXH_RH_GAM_MMR_OVERLAY_CONFIG_BASE_SHFT       26
+#define UVXH_RH_GAM_MMR_OVERLAY_CONFIG_BASE_MASK (                     \
+       is_uv(UV4A) ? 0x000ffffffc000000UL :                            \
+       is_uv(UV4) ? 0x00003ffffc000000UL :                             \
+       is_uv(UV3) ? 0x00003ffffc000000UL :                             \
+       is_uv(UV2) ? 0x00003ffffc000000UL :                             \
+       0)
+#define UVXH_RH_GAM_MMR_OVERLAY_CONFIG_ENABLE_SHFT     63
+#define UVXH_RH_GAM_MMR_OVERLAY_CONFIG_ENABLE_MASK     0x8000000000000000UL
+
+/* UV4A unique defines */
+#define UV4AH_RH_GAM_GRU_OVERLAY_CONFIG_BASE_SHFT      26
+#define UV4AH_RH_GAM_GRU_OVERLAY_CONFIG_BASE_MASK      0x000ffffffc000000UL
+
+#define UVH_RH_GAM_MMR_OVERLAY_CONFIG_BASE_MASK (                      \
+       is_uv(UV4A) ? 0x000ffffffc000000UL :                            \
+       is_uv(UV4) ? 0x00003ffffc000000UL :                             \
+       is_uv(UV3) ? 0x00003ffffc000000UL :                             \
+       is_uv(UV2) ? 0x00003ffffc000000UL :                             \
+       0)
+
+#define UVH_RH_GAM_MMR_OVERLAY_CONFIG_BASE_SHFT (                      \
+       is_uv(UV4) ? 26 :                                               \
+       is_uv(UV3) ? 26 :                                               \
+       is_uv(UV2) ? 26 :                                               \
+       -1)
+
+union uvh_rh_gam_mmr_overlay_config_u {
+       unsigned long   v;
+
+       /* UVH common struct */
+       struct uvh_rh_gam_mmr_overlay_config_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:20;                        /* RW */
+               unsigned long   rsvd_46_62:17;
+               unsigned long   enable:1;                       /* RW */
+       } s;
 
-#define UV4H_LB_PROC_INTD_QUEUE_FIRST_FIRST_PAYLOAD_ADDRESS_SHFT 6
-#define UV4H_LB_PROC_INTD_QUEUE_FIRST_FIRST_PAYLOAD_ADDRESS_MASK 0x00003fffffffffc0UL
+       /* UVXH common struct */
+       struct uvxh_rh_gam_mmr_overlay_config_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:20;                        /* RW */
+               unsigned long   rsvd_46_62:17;
+               unsigned long   enable:1;                       /* RW */
+       } sx;
 
-union uv4h_lb_proc_intd_queue_first_u {
-       unsigned long   v;
-       struct uv4h_lb_proc_intd_queue_first_s {
-               unsigned long   undef_0_5:6;                    /* Undefined */
-               unsigned long   first_payload_address:40;       /* RW */
+       /* UV4 unique struct */
+       struct uv4h_rh_gam_mmr_overlay_config_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:20;                        /* RW */
+               unsigned long   rsvd_46_62:17;
+               unsigned long   enable:1;                       /* RW */
        } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_rh_gam_mmr_overlay_config_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:20;                        /* RW */
+               unsigned long   rsvd_46_62:17;
+               unsigned long   enable:1;                       /* RW */
+       } s3;
+
+       /* UV2 unique struct */
+       struct uv2h_rh_gam_mmr_overlay_config_s {
+               unsigned long   rsvd_0_25:26;
+               unsigned long   base:20;                        /* RW */
+               unsigned long   rsvd_46_62:17;
+               unsigned long   enable:1;                       /* RW */
+       } s2;
 };
 
 /* ========================================================================= */
-/*                       UV4H_LB_PROC_INTD_QUEUE_LAST                        */
+/*                                 UVH_RTC                                   */
 /* ========================================================================= */
-#define UV4H_LB_PROC_INTD_QUEUE_LAST                   0xa4108UL
+#define UVH_RTC (                                                      \
+       is_uv(UV5) ? 0xe0000UL :                                        \
+       is_uv(UV4) ? 0xe0000UL :                                        \
+       is_uv(UV3) ? 0x340000UL :                                       \
+       is_uv(UV2) ? 0x340000UL :                                       \
+       0)
+
+/* UVH common defines*/
+#define UVH_RTC_REAL_TIME_CLOCK_SHFT                   0
+#define UVH_RTC_REAL_TIME_CLOCK_MASK                   0x00ffffffffffffffUL
 
-#define UV4H_LB_PROC_INTD_QUEUE_LAST_LAST_PAYLOAD_ADDRESS_SHFT 5
-#define UV4H_LB_PROC_INTD_QUEUE_LAST_LAST_PAYLOAD_ADDRESS_MASK 0x00003fffffffffe0UL
 
-union uv4h_lb_proc_intd_queue_last_u {
+union uvh_rtc_u {
        unsigned long   v;
-       struct uv4h_lb_proc_intd_queue_last_s {
-               unsigned long   undef_0_4:5;                    /* Undefined */
-               unsigned long   last_payload_address:41;        /* RW */
+
+       /* UVH common struct */
+       struct uvh_rtc_s {
+               unsigned long   real_time_clock:56;             /* RW */
+               unsigned long   rsvd_56_63:8;
+       } s;
+
+       /* UV5 unique struct */
+       struct uv5h_rtc_s {
+               unsigned long   real_time_clock:56;             /* RW */
+               unsigned long   rsvd_56_63:8;
+       } s5;
+
+       /* UV4 unique struct */
+       struct uv4h_rtc_s {
+               unsigned long   real_time_clock:56;             /* RW */
+               unsigned long   rsvd_56_63:8;
        } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_rtc_s {
+               unsigned long   real_time_clock:56;             /* RW */
+               unsigned long   rsvd_56_63:8;
+       } s3;
+
+       /* UV2 unique struct */
+       struct uv2h_rtc_s {
+               unsigned long   real_time_clock:56;             /* RW */
+               unsigned long   rsvd_56_63:8;
+       } s2;
 };
 
 /* ========================================================================= */
-/*                     UV4H_LB_PROC_INTD_SOFT_ACK_CLEAR                      */
+/*                           UVH_RTC1_INT_CONFIG                             */
 /* ========================================================================= */
-#define UV4H_LB_PROC_INTD_SOFT_ACK_CLEAR               0xa4118UL
+#define UVH_RTC1_INT_CONFIG 0x615c0UL
+
+/* UVH common defines*/
+#define UVH_RTC1_INT_CONFIG_VECTOR_SHFT                        0
+#define UVH_RTC1_INT_CONFIG_VECTOR_MASK                        0x00000000000000ffUL
+#define UVH_RTC1_INT_CONFIG_DM_SHFT                    8
+#define UVH_RTC1_INT_CONFIG_DM_MASK                    0x0000000000000700UL
+#define UVH_RTC1_INT_CONFIG_DESTMODE_SHFT              11
+#define UVH_RTC1_INT_CONFIG_DESTMODE_MASK              0x0000000000000800UL
+#define UVH_RTC1_INT_CONFIG_STATUS_SHFT                        12
+#define UVH_RTC1_INT_CONFIG_STATUS_MASK                        0x0000000000001000UL
+#define UVH_RTC1_INT_CONFIG_P_SHFT                     13
+#define UVH_RTC1_INT_CONFIG_P_MASK                     0x0000000000002000UL
+#define UVH_RTC1_INT_CONFIG_T_SHFT                     15
+#define UVH_RTC1_INT_CONFIG_T_MASK                     0x0000000000008000UL
+#define UVH_RTC1_INT_CONFIG_M_SHFT                     16
+#define UVH_RTC1_INT_CONFIG_M_MASK                     0x0000000000010000UL
+#define UVH_RTC1_INT_CONFIG_APIC_ID_SHFT               32
+#define UVH_RTC1_INT_CONFIG_APIC_ID_MASK               0xffffffff00000000UL
 
-#define UV4H_LB_PROC_INTD_SOFT_ACK_CLEAR_SOFT_ACK_PENDING_FLAGS_SHFT 0
-#define UV4H_LB_PROC_INTD_SOFT_ACK_CLEAR_SOFT_ACK_PENDING_FLAGS_MASK 0x00000000000000ffUL
 
-union uv4h_lb_proc_intd_soft_ack_clear_u {
+union uvh_rtc1_int_config_u {
        unsigned long   v;
-       struct uv4h_lb_proc_intd_soft_ack_clear_s {
-               unsigned long   soft_ack_pending_flags:8;       /* WP */
+
+       /* UVH common struct */
+       struct uvh_rtc1_int_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } s;
+
+       /* UV5 unique struct */
+       struct uv5h_rtc1_int_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } s5;
+
+       /* UV4 unique struct */
+       struct uv4h_rtc1_int_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
        } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_rtc1_int_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } s3;
+
+       /* UV2 unique struct */
+       struct uv2h_rtc1_int_config_s {
+               unsigned long   vector_:8;                      /* RW */
+               unsigned long   dm:3;                           /* RW */
+               unsigned long   destmode:1;                     /* RW */
+               unsigned long   status:1;                       /* RO */
+               unsigned long   p:1;                            /* RO */
+               unsigned long   rsvd_14:1;
+               unsigned long   t:1;                            /* RO */
+               unsigned long   m:1;                            /* RW */
+               unsigned long   rsvd_17_31:15;
+               unsigned long   apic_id:32;                     /* RW */
+       } s2;
 };
 
 /* ========================================================================= */
-/*                    UV4H_LB_PROC_INTD_SOFT_ACK_PENDING                     */
+/*                               UVH_SCRATCH5                                */
 /* ========================================================================= */
-#define UV4H_LB_PROC_INTD_SOFT_ACK_PENDING             0xa4110UL
+#define UVH_SCRATCH5 (                                                 \
+       is_uv(UV5) ? 0xb0200UL :                                        \
+       is_uv(UV4) ? 0xb0200UL :                                        \
+       is_uv(UV3) ? 0x2d0200UL :                                       \
+       is_uv(UV2) ? 0x2d0200UL :                                       \
+       0)
+#define UV5H_SCRATCH5 0xb0200UL
+#define UV4H_SCRATCH5 0xb0200UL
+#define UV3H_SCRATCH5 0x2d0200UL
+#define UV2H_SCRATCH5 0x2d0200UL
+
+/* UVH common defines*/
+#define UVH_SCRATCH5_SCRATCH5_SHFT                     0
+#define UVH_SCRATCH5_SCRATCH5_MASK                     0xffffffffffffffffUL
+
+/* UVXH common defines */
+#define UVXH_SCRATCH5_SCRATCH5_SHFT                    0
+#define UVXH_SCRATCH5_SCRATCH5_MASK                    0xffffffffffffffffUL
+
+/* UVYH common defines */
+#define UVYH_SCRATCH5_SCRATCH5_SHFT                    0
+#define UVYH_SCRATCH5_SCRATCH5_MASK                    0xffffffffffffffffUL
+
+/* UV5 unique defines */
+#define UV5H_SCRATCH5_SCRATCH5_SHFT                    0
+#define UV5H_SCRATCH5_SCRATCH5_MASK                    0xffffffffffffffffUL
+
+/* UV4 unique defines */
+#define UV4H_SCRATCH5_SCRATCH5_SHFT                    0
+#define UV4H_SCRATCH5_SCRATCH5_MASK                    0xffffffffffffffffUL
+
+/* UV3 unique defines */
+#define UV3H_SCRATCH5_SCRATCH5_SHFT                    0
+#define UV3H_SCRATCH5_SCRATCH5_MASK                    0xffffffffffffffffUL
 
-#define UV4H_LB_PROC_INTD_SOFT_ACK_PENDING_SOFT_ACK_FLAGS_SHFT 0
-#define UV4H_LB_PROC_INTD_SOFT_ACK_PENDING_SOFT_ACK_FLAGS_MASK 0x00000000000000ffUL
+/* UV2 unique defines */
+#define UV2H_SCRATCH5_SCRATCH5_SHFT                    0
+#define UV2H_SCRATCH5_SCRATCH5_MASK                    0xffffffffffffffffUL
 
-union uv4h_lb_proc_intd_soft_ack_pending_u {
+
+union uvh_scratch5_u {
        unsigned long   v;
-       struct uv4h_lb_proc_intd_soft_ack_pending_s {
-               unsigned long   soft_ack_flags:8;               /* RW */
+
+       /* UVH common struct */
+       struct uvh_scratch5_s {
+               unsigned long   scratch5:64;                    /* RW */
+       } s;
+
+       /* UVXH common struct */
+       struct uvxh_scratch5_s {
+               unsigned long   scratch5:64;                    /* RW */
+       } sx;
+
+       /* UVYH common struct */
+       struct uvyh_scratch5_s {
+               unsigned long   scratch5:64;                    /* RW */
+       } sy;
+
+       /* UV5 unique struct */
+       struct uv5h_scratch5_s {
+               unsigned long   scratch5:64;                    /* RW */
+       } s5;
+
+       /* UV4 unique struct */
+       struct uv4h_scratch5_s {
+               unsigned long   scratch5:64;                    /* RW */
        } s4;
+
+       /* UV3 unique struct */
+       struct uv3h_scratch5_s {
+               unsigned long   scratch5:64;                    /* RW */
+       } s3;
+
+       /* UV2 unique struct */
+       struct uv2h_scratch5_s {
+               unsigned long   scratch5:64;                    /* RW */
+       } s2;
 };
 
+/* ========================================================================= */
+/*                            UVH_SCRATCH5_ALIAS                             */
+/* ========================================================================= */
+#define UVH_SCRATCH5_ALIAS (                                           \
+       is_uv(UV5) ? 0xb0208UL :                                        \
+       is_uv(UV4) ? 0xb0208UL :                                        \
+       is_uv(UV3) ? 0x2d0208UL :                                       \
+       is_uv(UV2) ? 0x2d0208UL :                                       \
+       0)
+#define UV5H_SCRATCH5_ALIAS 0xb0208UL
+#define UV4H_SCRATCH5_ALIAS 0xb0208UL
+#define UV3H_SCRATCH5_ALIAS 0x2d0208UL
+#define UV2H_SCRATCH5_ALIAS 0x2d0208UL
+
+
+/* ========================================================================= */
+/*                           UVH_SCRATCH5_ALIAS_2                            */
+/* ========================================================================= */
+#define UVH_SCRATCH5_ALIAS_2 (                                         \
+       is_uv(UV5) ? 0xb0210UL :                                        \
+       is_uv(UV4) ? 0xb0210UL :                                        \
+       is_uv(UV3) ? 0x2d0210UL :                                       \
+       is_uv(UV2) ? 0x2d0210UL :                                       \
+       0)
+#define UV5H_SCRATCH5_ALIAS_2 0xb0210UL
+#define UV4H_SCRATCH5_ALIAS_2 0xb0210UL
+#define UV3H_SCRATCH5_ALIAS_2 0x2d0210UL
+#define UV2H_SCRATCH5_ALIAS_2 0x2d0210UL
+
+
 
 #endif /* _ASM_X86_UV_UV_MMRS_H */
index 6807153..397196f 100644 (file)
@@ -8,25 +8,16 @@ struct mpc_bus;
 struct mpc_cpu;
 struct mpc_table;
 struct cpuinfo_x86;
+struct irq_domain;
 
 /**
  * struct x86_init_mpparse - platform specific mpparse ops
- * @mpc_record:                        platform specific mpc record accounting
  * @setup_ioapic_ids:          platform specific ioapic id override
- * @mpc_apic_id:               platform specific mpc apic id assignment
- * @smp_read_mpc_oem:          platform specific oem mpc table setup
- * @mpc_oem_pci_bus:           platform specific pci bus setup (default NULL)
- * @mpc_oem_bus_info:          platform specific mpc bus info
  * @find_smp_config:           find the smp configuration
  * @get_smp_config:            get the smp configuration
  */
 struct x86_init_mpparse {
-       void (*mpc_record)(unsigned int mode);
        void (*setup_ioapic_ids)(void);
-       int (*mpc_apic_id)(struct mpc_cpu *m);
-       void (*smp_read_mpc_oem)(struct mpc_table *mpc);
-       void (*mpc_oem_pci_bus)(struct mpc_bus *m);
-       void (*mpc_oem_bus_info)(struct mpc_bus *m, char *name);
        void (*find_smp_config)(void);
        void (*get_smp_config)(unsigned int early);
 };
@@ -52,12 +43,14 @@ struct x86_init_resources {
  * @intr_init:                 interrupt init code
  * @intr_mode_select:          interrupt delivery mode selection
  * @intr_mode_init:            interrupt delivery mode setup
+ * @create_pci_msi_domain:     Create the PCI/MSI interrupt domain
  */
 struct x86_init_irqs {
        void (*pre_vector_init)(void);
        void (*intr_init)(void);
        void (*intr_mode_select)(void);
        void (*intr_mode_init)(void);
+       struct irq_domain *(*create_pci_msi_domain)(void);
 };
 
 /**
@@ -283,9 +276,6 @@ struct x86_platform_ops {
 struct pci_dev;
 
 struct x86_msi_ops {
-       int (*setup_msi_irqs)(struct pci_dev *dev, int nvec, int type);
-       void (*teardown_msi_irq)(unsigned int irq);
-       void (*teardown_msi_irqs)(struct pci_dev *dev);
        void (*restore_msi_irqs)(struct pci_dev *dev);
 };
 
index e77261d..de09af0 100644 (file)
@@ -68,6 +68,7 @@ obj-y                 += tsc.o tsc_msr.o io_delay.o rtc.o
 obj-y                  += pci-iommu_table.o
 obj-y                  += resource.o
 obj-y                  += irqflags.o
+obj-y                  += static_call.o
 
 obj-y                          += process.o
 obj-y                          += fpu/
index cdaab30..4adbe65 100644 (file)
@@ -1103,6 +1103,10 @@ noinstr int poke_int3_handler(struct pt_regs *regs)
                 */
                goto out_put;
 
+       case RET_INSN_OPCODE:
+               int3_emulate_ret(regs);
+               break;
+
        case CALL_INSN_OPCODE:
                int3_emulate_call(regs, (long)ip + tp->rel32);
                break;
@@ -1277,6 +1281,7 @@ static void text_poke_loc_init(struct text_poke_loc *tp, void *addr,
 
        switch (tp->opcode) {
        case INT3_INSN_OPCODE:
+       case RET_INSN_OPCODE:
                break;
 
        case CALL_INSN_OPCODE:
index 5f943b9..b3eef1d 100644 (file)
@@ -1429,6 +1429,9 @@ void __init apic_intr_mode_init(void)
                break;
        }
 
+       if (x86_platform.apic_post_init)
+               x86_platform.apic_post_init();
+
        apic_bsp_setup(upmode);
 }
 
index 21f9c7f..7b3c7e0 100644 (file)
@@ -860,10 +860,10 @@ void ioapic_set_alloc_attr(struct irq_alloc_info *info, int node,
 {
        init_irq_alloc_info(info, NULL);
        info->type = X86_IRQ_ALLOC_TYPE_IOAPIC;
-       info->ioapic_node = node;
-       info->ioapic_trigger = trigger;
-       info->ioapic_polarity = polarity;
-       info->ioapic_valid = 1;
+       info->ioapic.node = node;
+       info->ioapic.trigger = trigger;
+       info->ioapic.polarity = polarity;
+       info->ioapic.valid = 1;
 }
 
 #ifndef CONFIG_ACPI
@@ -878,32 +878,32 @@ static void ioapic_copy_alloc_attr(struct irq_alloc_info *dst,
 
        copy_irq_alloc_info(dst, src);
        dst->type = X86_IRQ_ALLOC_TYPE_IOAPIC;
-       dst->ioapic_id = mpc_ioapic_id(ioapic_idx);
-       dst->ioapic_pin = pin;
-       dst->ioapic_valid = 1;
-       if (src && src->ioapic_valid) {
-               dst->ioapic_node = src->ioapic_node;
-               dst->ioapic_trigger = src->ioapic_trigger;
-               dst->ioapic_polarity = src->ioapic_polarity;
+       dst->devid = mpc_ioapic_id(ioapic_idx);
+       dst->ioapic.pin = pin;
+       dst->ioapic.valid = 1;
+       if (src && src->ioapic.valid) {
+               dst->ioapic.node = src->ioapic.node;
+               dst->ioapic.trigger = src->ioapic.trigger;
+               dst->ioapic.polarity = src->ioapic.polarity;
        } else {
-               dst->ioapic_node = NUMA_NO_NODE;
+               dst->ioapic.node = NUMA_NO_NODE;
                if (acpi_get_override_irq(gsi, &trigger, &polarity) >= 0) {
-                       dst->ioapic_trigger = trigger;
-                       dst->ioapic_polarity = polarity;
+                       dst->ioapic.trigger = trigger;
+                       dst->ioapic.polarity = polarity;
                } else {
                        /*
                         * PCI interrupts are always active low level
                         * triggered.
                         */
-                       dst->ioapic_trigger = IOAPIC_LEVEL;
-                       dst->ioapic_polarity = IOAPIC_POL_LOW;
+                       dst->ioapic.trigger = IOAPIC_LEVEL;
+                       dst->ioapic.polarity = IOAPIC_POL_LOW;
                }
        }
 }
 
 static int ioapic_alloc_attr_node(struct irq_alloc_info *info)
 {
-       return (info && info->ioapic_valid) ? info->ioapic_node : NUMA_NO_NODE;
+       return (info && info->ioapic.valid) ? info->ioapic.node : NUMA_NO_NODE;
 }
 
 static void mp_register_handler(unsigned int irq, unsigned long trigger)
@@ -933,14 +933,14 @@ static bool mp_check_pin_attr(int irq, struct irq_alloc_info *info)
         * pin with real trigger and polarity attributes.
         */
        if (irq < nr_legacy_irqs() && data->count == 1) {
-               if (info->ioapic_trigger != data->trigger)
-                       mp_register_handler(irq, info->ioapic_trigger);
-               data->entry.trigger = data->trigger = info->ioapic_trigger;
-               data->entry.polarity = data->polarity = info->ioapic_polarity;
+               if (info->ioapic.trigger != data->trigger)
+                       mp_register_handler(irq, info->ioapic.trigger);
+               data->entry.trigger = data->trigger = info->ioapic.trigger;
+               data->entry.polarity = data->polarity = info->ioapic.polarity;
        }
 
-       return data->trigger == info->ioapic_trigger &&
-              data->polarity == info->ioapic_polarity;
+       return data->trigger == info->ioapic.trigger &&
+              data->polarity == info->ioapic.polarity;
 }
 
 static int alloc_irq_from_domain(struct irq_domain *domain, int ioapic, u32 gsi,
@@ -1002,7 +1002,7 @@ static int alloc_isa_irq_from_domain(struct irq_domain *domain,
                if (!mp_check_pin_attr(irq, info))
                        return -EBUSY;
                if (__add_pin_to_irq_node(irq_data->chip_data, node, ioapic,
-                                         info->ioapic_pin))
+                                         info->ioapic.pin))
                        return -ENOMEM;
        } else {
                info->flags |= X86_IRQ_ALLOC_LEGACY;
@@ -2092,8 +2092,8 @@ static int mp_alloc_timer_irq(int ioapic, int pin)
                struct irq_alloc_info info;
 
                ioapic_set_alloc_attr(&info, NUMA_NO_NODE, 0, 0);
-               info.ioapic_id = mpc_ioapic_id(ioapic);
-               info.ioapic_pin = pin;
+               info.devid = mpc_ioapic_id(ioapic);
+               info.ioapic.pin = pin;
                mutex_lock(&ioapic_mutex);
                irq = alloc_isa_irq_from_domain(domain, 0, ioapic, pin, &info);
                mutex_unlock(&ioapic_mutex);
@@ -2297,9 +2297,9 @@ static int mp_irqdomain_create(int ioapic)
                return 0;
 
        init_irq_alloc_info(&info, NULL);
-       info.type = X86_IRQ_ALLOC_TYPE_IOAPIC;
-       info.ioapic_id = mpc_ioapic_id(ioapic);
-       parent = irq_remapping_get_ir_irq_domain(&info);
+       info.type = X86_IRQ_ALLOC_TYPE_IOAPIC_GET_PARENT;
+       info.devid = mpc_ioapic_id(ioapic);
+       parent = irq_remapping_get_irq_domain(&info);
        if (!parent)
                parent = x86_vector_domain;
        else
@@ -2933,9 +2933,9 @@ int mp_ioapic_registered(u32 gsi_base)
 static void mp_irqdomain_get_attr(u32 gsi, struct mp_chip_data *data,
                                  struct irq_alloc_info *info)
 {
-       if (info && info->ioapic_valid) {
-               data->trigger = info->ioapic_trigger;
-               data->polarity = info->ioapic_polarity;
+       if (info && info->ioapic.valid) {
+               data->trigger = info->ioapic.trigger;
+               data->polarity = info->ioapic.polarity;
        } else if (acpi_get_override_irq(gsi, &data->trigger,
                                         &data->polarity) < 0) {
                /* PCI interrupts are always active low level triggered. */
@@ -2981,7 +2981,7 @@ int mp_irqdomain_alloc(struct irq_domain *domain, unsigned int virq,
                return -EINVAL;
 
        ioapic = mp_irqdomain_ioapic_idx(domain);
-       pin = info->ioapic_pin;
+       pin = info->ioapic.pin;
        if (irq_find_mapping(domain, (irq_hw_number_t)pin) > 0)
                return -EEXIST;
 
@@ -2989,7 +2989,7 @@ int mp_irqdomain_alloc(struct irq_domain *domain, unsigned int virq,
        if (!data)
                return -ENOMEM;
 
-       info->ioapic_entry = &data->entry;
+       info->ioapic.entry = &data->entry;
        ret = irq_domain_alloc_irqs_parent(domain, virq, nr_irqs, info);
        if (ret < 0) {
                kfree(data);
@@ -2997,7 +2997,7 @@ int mp_irqdomain_alloc(struct irq_domain *domain, unsigned int virq,
        }
 
        INIT_LIST_HEAD(&data->irq_2_pin);
-       irq_data->hwirq = info->ioapic_pin;
+       irq_data->hwirq = info->ioapic.pin;
        irq_data->chip = (domain->parent == x86_vector_domain) ?
                          &ioapic_chip : &ioapic_ir_chip;
        irq_data->chip_data = data;
@@ -3007,8 +3007,8 @@ int mp_irqdomain_alloc(struct irq_domain *domain, unsigned int virq,
        add_pin_to_irq_node(data, ioapic_alloc_attr_node(info), ioapic, pin);
 
        local_irq_save(flags);
-       if (info->ioapic_entry)
-               mp_setup_entry(cfg, data, info->ioapic_entry);
+       if (info->ioapic.entry)
+               mp_setup_entry(cfg, data, info->ioapic.entry);
        mp_register_handler(virq, data->trigger);
        if (virq < nr_legacy_irqs())
                legacy_pic->mask(virq);
index c2b2911..6313f0a 100644 (file)
@@ -21,7 +21,7 @@
 #include <asm/apic.h>
 #include <asm/irq_remapping.h>
 
-static struct irq_domain *msi_default_domain;
+struct irq_domain *x86_pci_msi_default_domain __ro_after_init;
 
 static void __irq_msi_compose_msg(struct irq_cfg *cfg, struct msi_msg *msg)
 {
@@ -45,7 +45,7 @@ static void __irq_msi_compose_msg(struct irq_cfg *cfg, struct msi_msg *msg)
                MSI_DATA_VECTOR(cfg->vector);
 }
 
-static void irq_msi_compose_msg(struct irq_data *data, struct msi_msg *msg)
+void x86_vector_msi_compose_msg(struct irq_data *data, struct msi_msg *msg)
 {
        __irq_msi_compose_msg(irqd_cfg(data), msg);
 }
@@ -177,40 +177,10 @@ static struct irq_chip pci_msi_controller = {
        .irq_mask               = pci_msi_mask_irq,
        .irq_ack                = irq_chip_ack_parent,
        .irq_retrigger          = irq_chip_retrigger_hierarchy,
-       .irq_compose_msi_msg    = irq_msi_compose_msg,
        .irq_set_affinity       = msi_set_affinity,
        .flags                  = IRQCHIP_SKIP_SET_WAKE,
 };
 
-int native_setup_msi_irqs(struct pci_dev *dev, int nvec, int type)
-{
-       struct irq_domain *domain;
-       struct irq_alloc_info info;
-
-       init_irq_alloc_info(&info, NULL);
-       info.type = X86_IRQ_ALLOC_TYPE_MSI;
-       info.msi_dev = dev;
-
-       domain = irq_remapping_get_irq_domain(&info);
-       if (domain == NULL)
-               domain = msi_default_domain;
-       if (domain == NULL)
-               return -ENOSYS;
-
-       return msi_domain_alloc_irqs(domain, &dev->dev, nvec);
-}
-
-void native_teardown_msi_irq(unsigned int irq)
-{
-       irq_domain_free_irqs(irq, 1);
-}
-
-static irq_hw_number_t pci_msi_get_hwirq(struct msi_domain_info *info,
-                                        msi_alloc_info_t *arg)
-{
-       return arg->msi_hwirq;
-}
-
 int pci_msi_prepare(struct irq_domain *domain, struct device *dev, int nvec,
                    msi_alloc_info_t *arg)
 {
@@ -218,11 +188,10 @@ int pci_msi_prepare(struct irq_domain *domain, struct device *dev, int nvec,
        struct msi_desc *desc = first_pci_msi_entry(pdev);
 
        init_irq_alloc_info(arg, NULL);
-       arg->msi_dev = pdev;
        if (desc->msi_attrib.is_msix) {
-               arg->type = X86_IRQ_ALLOC_TYPE_MSIX;
+               arg->type = X86_IRQ_ALLOC_TYPE_PCI_MSIX;
        } else {
-               arg->type = X86_IRQ_ALLOC_TYPE_MSI;
+               arg->type = X86_IRQ_ALLOC_TYPE_PCI_MSI;
                arg->flags |= X86_IRQ_ALLOC_CONTIGUOUS_VECTORS;
        }
 
@@ -230,16 +199,8 @@ int pci_msi_prepare(struct irq_domain *domain, struct device *dev, int nvec,
 }
 EXPORT_SYMBOL_GPL(pci_msi_prepare);
 
-void pci_msi_set_desc(msi_alloc_info_t *arg, struct msi_desc *desc)
-{
-       arg->msi_hwirq = pci_msi_domain_calc_hwirq(arg->msi_dev, desc);
-}
-EXPORT_SYMBOL_GPL(pci_msi_set_desc);
-
 static struct msi_domain_ops pci_msi_domain_ops = {
-       .get_hwirq      = pci_msi_get_hwirq,
        .msi_prepare    = pci_msi_prepare,
-       .set_desc       = pci_msi_set_desc,
 };
 
 static struct msi_domain_info pci_msi_domain_info = {
@@ -251,25 +212,32 @@ static struct msi_domain_info pci_msi_domain_info = {
        .handler_name   = "edge",
 };
 
-void __init arch_init_msi_domain(struct irq_domain *parent)
+struct irq_domain * __init native_create_pci_msi_domain(void)
 {
        struct fwnode_handle *fn;
+       struct irq_domain *d;
 
        if (disable_apic)
-               return;
+               return NULL;
 
        fn = irq_domain_alloc_named_fwnode("PCI-MSI");
-       if (fn) {
-               msi_default_domain =
-                       pci_msi_create_irq_domain(fn, &pci_msi_domain_info,
-                                                 parent);
-       }
-       if (!msi_default_domain) {
+       if (!fn)
+               return NULL;
+
+       d = pci_msi_create_irq_domain(fn, &pci_msi_domain_info,
+                                     x86_vector_domain);
+       if (!d) {
                irq_domain_free_fwnode(fn);
-               pr_warn("failed to initialize irqdomain for MSI/MSI-x.\n");
+               pr_warn("Failed to initialize PCI-MSI irqdomain.\n");
        } else {
-               msi_default_domain->flags |= IRQ_DOMAIN_MSI_NOMASK_QUIRK;
+               d->flags |= IRQ_DOMAIN_MSI_NOMASK_QUIRK;
        }
+       return d;
+}
+
+void __init x86_create_pci_msi_domain(void)
+{
+       x86_pci_msi_default_domain = x86_init.irqs.create_pci_msi_domain();
 }
 
 #ifdef CONFIG_IRQ_REMAP
@@ -279,7 +247,6 @@ static struct irq_chip pci_msi_ir_controller = {
        .irq_mask               = pci_msi_mask_irq,
        .irq_ack                = irq_chip_ack_parent,
        .irq_retrigger          = irq_chip_retrigger_hierarchy,
-       .irq_set_vcpu_affinity  = irq_chip_set_vcpu_affinity_parent,
        .flags                  = IRQCHIP_SKIP_SET_WAKE,
 };
 
@@ -321,35 +288,28 @@ static struct irq_chip dmar_msi_controller = {
        .irq_ack                = irq_chip_ack_parent,
        .irq_set_affinity       = msi_domain_set_affinity,
        .irq_retrigger          = irq_chip_retrigger_hierarchy,
-       .irq_compose_msi_msg    = irq_msi_compose_msg,
        .irq_write_msi_msg      = dmar_msi_write_msg,
        .flags                  = IRQCHIP_SKIP_SET_WAKE,
 };
 
-static irq_hw_number_t dmar_msi_get_hwirq(struct msi_domain_info *info,
-                                         msi_alloc_info_t *arg)
-{
-       return arg->dmar_id;
-}
-
 static int dmar_msi_init(struct irq_domain *domain,
                         struct msi_domain_info *info, unsigned int virq,
                         irq_hw_number_t hwirq, msi_alloc_info_t *arg)
 {
-       irq_domain_set_info(domain, virq, arg->dmar_id, info->chip, NULL,
-                           handle_edge_irq, arg->dmar_data, "edge");
+       irq_domain_set_info(domain, virq, arg->devid, info->chip, NULL,
+                           handle_edge_irq, arg->data, "edge");
 
        return 0;
 }
 
 static struct msi_domain_ops dmar_msi_domain_ops = {
-       .get_hwirq      = dmar_msi_get_hwirq,
        .msi_init       = dmar_msi_init,
 };
 
 static struct msi_domain_info dmar_msi_domain_info = {
        .ops            = &dmar_msi_domain_ops,
        .chip           = &dmar_msi_controller,
+       .flags          = MSI_FLAG_USE_DEF_DOM_OPS,
 };
 
 static struct irq_domain *dmar_get_irq_domain(void)
@@ -384,8 +344,9 @@ int dmar_alloc_hwirq(int id, int node, void *arg)
 
        init_irq_alloc_info(&info, NULL);
        info.type = X86_IRQ_ALLOC_TYPE_DMAR;
-       info.dmar_id = id;
-       info.dmar_data = arg;
+       info.devid = id;
+       info.hwirq = id;
+       info.data = arg;
 
        return irq_domain_alloc_irqs(domain, 1, node, &info);
 }
@@ -419,24 +380,17 @@ static struct irq_chip hpet_msi_controller __ro_after_init = {
        .irq_ack = irq_chip_ack_parent,
        .irq_set_affinity = msi_domain_set_affinity,
        .irq_retrigger = irq_chip_retrigger_hierarchy,
-       .irq_compose_msi_msg = irq_msi_compose_msg,
        .irq_write_msi_msg = hpet_msi_write_msg,
        .flags = IRQCHIP_SKIP_SET_WAKE,
 };
 
-static irq_hw_number_t hpet_msi_get_hwirq(struct msi_domain_info *info,
-                                         msi_alloc_info_t *arg)
-{
-       return arg->hpet_index;
-}
-
 static int hpet_msi_init(struct irq_domain *domain,
                         struct msi_domain_info *info, unsigned int virq,
                         irq_hw_number_t hwirq, msi_alloc_info_t *arg)
 {
        irq_set_status_flags(virq, IRQ_MOVE_PCNTXT);
-       irq_domain_set_info(domain, virq, arg->hpet_index, info->chip, NULL,
-                           handle_edge_irq, arg->hpet_data, "edge");
+       irq_domain_set_info(domain, virq, arg->hwirq, info->chip, NULL,
+                           handle_edge_irq, arg->data, "edge");
 
        return 0;
 }
@@ -448,7 +402,6 @@ static void hpet_msi_free(struct irq_domain *domain,
 }
 
 static struct msi_domain_ops hpet_msi_domain_ops = {
-       .get_hwirq      = hpet_msi_get_hwirq,
        .msi_init       = hpet_msi_init,
        .msi_free       = hpet_msi_free,
 };
@@ -456,6 +409,7 @@ static struct msi_domain_ops hpet_msi_domain_ops = {
 static struct msi_domain_info hpet_msi_domain_info = {
        .ops            = &hpet_msi_domain_ops,
        .chip           = &hpet_msi_controller,
+       .flags          = MSI_FLAG_USE_DEF_DOM_OPS,
 };
 
 struct irq_domain *hpet_create_irq_domain(int hpet_id)
@@ -476,9 +430,9 @@ struct irq_domain *hpet_create_irq_domain(int hpet_id)
        domain_info->data = (void *)(long)hpet_id;
 
        init_irq_alloc_info(&info, NULL);
-       info.type = X86_IRQ_ALLOC_TYPE_HPET;
-       info.hpet_id = hpet_id;
-       parent = irq_remapping_get_ir_irq_domain(&info);
+       info.type = X86_IRQ_ALLOC_TYPE_HPET_GET_PARENT;
+       info.devid = hpet_id;
+       parent = irq_remapping_get_irq_domain(&info);
        if (parent == NULL)
                parent = x86_vector_domain;
        else
@@ -506,9 +460,9 @@ int hpet_assign_irq(struct irq_domain *domain, struct hpet_channel *hc,
 
        init_irq_alloc_info(&info, NULL);
        info.type = X86_IRQ_ALLOC_TYPE_HPET;
-       info.hpet_data = hc;
-       info.hpet_id = hpet_dev_id(domain);
-       info.hpet_index = dev_num;
+       info.data = hc;
+       info.devid = hpet_dev_id(domain);
+       info.hwirq = dev_num;
 
        return irq_domain_alloc_irqs(domain, 1, NUMA_NO_NODE, &info);
 }
index 99ee61c..67b6f7c 100644 (file)
@@ -170,9 +170,6 @@ void __init default_setup_apic_routing(void)
 
        if (apic->setup_apic_routing)
                apic->setup_apic_routing();
-
-       if (x86_platform.apic_post_init)
-               x86_platform.apic_post_init();
 }
 
 void __init generic_apic_probe(void)
index bd3835d..c46720f 100644 (file)
@@ -32,9 +32,6 @@ void __init default_setup_apic_routing(void)
                        break;
                }
        }
-
-       if (x86_platform.apic_post_init)
-               x86_platform.apic_post_init();
 }
 
 int __init default_acpi_madt_oem_check(char *oem_id, char *oem_table_id)
index f8a56b5..1eac536 100644 (file)
@@ -714,8 +714,6 @@ int __init arch_early_irq_init(void)
        BUG_ON(x86_vector_domain == NULL);
        irq_set_default_host(x86_vector_domain);
 
-       arch_init_msi_domain(x86_vector_domain);
-
        BUG_ON(!alloc_cpumask_var(&vector_searchmask, GFP_KERNEL));
 
        /*
@@ -824,6 +822,7 @@ static struct irq_chip lapic_controller = {
        .name                   = "APIC",
        .irq_ack                = apic_ack_edge,
        .irq_set_affinity       = apic_set_affinity,
+       .irq_compose_msi_msg    = x86_vector_msi_compose_msg,
        .irq_retrigger          = apic_retrigger_irq,
 };
 
index 0b6eea3..714233c 100644 (file)
@@ -5,6 +5,7 @@
  *
  * SGI UV APIC functions (note: not an Intel compatible APIC)
  *
+ * (C) Copyright 2020 Hewlett Packard Enterprise Development LP
  * Copyright (C) 2007-2014 Silicon Graphics, Inc. All rights reserved.
  */
 #include <linux/crash_dump.h>
@@ -29,19 +30,24 @@ static int                  uv_hubbed_system;
 static int                     uv_hubless_system;
 static u64                     gru_start_paddr, gru_end_paddr;
 static union uvh_apicid                uvh_apicid;
+static int                     uv_node_id;
 
-/* Unpack OEM/TABLE ID's to be NULL terminated strings */
+/* Unpack AT/OEM/TABLE ID's to be NULL terminated strings */
+static u8 uv_archtype[UV_AT_SIZE];
 static u8 oem_id[ACPI_OEM_ID_SIZE + 1];
 static u8 oem_table_id[ACPI_OEM_TABLE_ID_SIZE + 1];
 
-/* Information derived from CPUID: */
+/* Information derived from CPUID and some UV MMRs */
 static struct {
        unsigned int apicid_shift;
        unsigned int apicid_mask;
        unsigned int socketid_shift;    /* aka pnode_shift for UV2/3 */
        unsigned int pnode_mask;
+       unsigned int nasid_shift;
        unsigned int gpa_shift;
        unsigned int gnode_shift;
+       unsigned int m_skt;
+       unsigned int n_skt;
 } uv_cpuid;
 
 static int uv_min_hub_revision_id;
@@ -77,6 +83,9 @@ static unsigned long __init uv_early_read_mmr(unsigned long addr)
 
 static inline bool is_GRU_range(u64 start, u64 end)
 {
+       if (!gru_start_paddr)
+               return false;
+
        return start >= gru_start_paddr && end <= gru_end_paddr;
 }
 
@@ -85,43 +94,102 @@ static bool uv_is_untracked_pat_range(u64 start, u64 end)
        return is_ISA_range(start, end) || is_GRU_range(start, end);
 }
 
-static int __init early_get_pnodeid(void)
+static void __init early_get_pnodeid(void)
 {
-       union uvh_node_id_u node_id;
-       union uvh_rh_gam_config_mmr_u  m_n_config;
        int pnode;
 
-       /* Currently, all blades have same revision number */
+       uv_cpuid.m_skt = 0;
+       if (UVH_RH10_GAM_ADDR_MAP_CONFIG) {
+               union uvh_rh10_gam_addr_map_config_u  m_n_config;
+
+               m_n_config.v = uv_early_read_mmr(UVH_RH10_GAM_ADDR_MAP_CONFIG);
+               uv_cpuid.n_skt = m_n_config.s.n_skt;
+               uv_cpuid.nasid_shift = 0;
+       } else if (UVH_RH_GAM_ADDR_MAP_CONFIG) {
+               union uvh_rh_gam_addr_map_config_u  m_n_config;
+
+       m_n_config.v = uv_early_read_mmr(UVH_RH_GAM_ADDR_MAP_CONFIG);
+               uv_cpuid.n_skt = m_n_config.s.n_skt;
+               if (is_uv(UV3))
+                       uv_cpuid.m_skt = m_n_config.s3.m_skt;
+               if (is_uv(UV2))
+                       uv_cpuid.m_skt = m_n_config.s2.m_skt;
+               uv_cpuid.nasid_shift = 1;
+       } else {
+               unsigned long GAM_ADDR_MAP_CONFIG = 0;
+
+               WARN(GAM_ADDR_MAP_CONFIG == 0,
+                       "UV: WARN: GAM_ADDR_MAP_CONFIG is not available\n");
+               uv_cpuid.n_skt = 0;
+               uv_cpuid.nasid_shift = 0;
+       }
+
+       if (is_uv(UV4|UVY))
+               uv_cpuid.gnode_shift = 2; /* min partition is 4 sockets */
+
+       uv_cpuid.pnode_mask = (1 << uv_cpuid.n_skt) - 1;
+       pnode = (uv_node_id >> uv_cpuid.nasid_shift) & uv_cpuid.pnode_mask;
+       uv_cpuid.gpa_shift = 46;        /* Default unless changed */
+
+       pr_info("UV: n_skt:%d pnmsk:%x pn:%x\n",
+               uv_cpuid.n_skt, uv_cpuid.pnode_mask, pnode);
+}
+
+/* Running on a UV Hubbed system, determine which UV Hub Type it is */
+static int __init early_set_hub_type(void)
+{
+       union uvh_node_id_u node_id;
+
+       /*
+        * The NODE_ID MMR is always at offset 0.
+        * Contains the chip part # + revision.
+        * Node_id field started with 15 bits,
+        * ... now 7 but upper 8 are masked to 0.
+        * All blades/nodes have the same part # and hub revision.
+        */
        node_id.v = uv_early_read_mmr(UVH_NODE_ID);
-       m_n_config.v = uv_early_read_mmr(UVH_RH_GAM_CONFIG_MMR);
-       uv_min_hub_revision_id = node_id.s.revision;
+       uv_node_id = node_id.sx.node_id;
 
        switch (node_id.s.part_number) {
-       case UV2_HUB_PART_NUMBER:
-       case UV2_HUB_PART_NUMBER_X:
-               uv_min_hub_revision_id += UV2_HUB_REVISION_BASE - 1;
+
+       case UV5_HUB_PART_NUMBER:
+               uv_min_hub_revision_id = node_id.s.revision
+                                        + UV5_HUB_REVISION_BASE;
+               uv_hub_type_set(UV5);
                break;
+
+       /* UV4/4A only have a revision difference */
+       case UV4_HUB_PART_NUMBER:
+               uv_min_hub_revision_id = node_id.s.revision
+                                        + UV4_HUB_REVISION_BASE;
+               uv_hub_type_set(UV4);
+               if (uv_min_hub_revision_id == UV4A_HUB_REVISION_BASE)
+                       uv_hub_type_set(UV4|UV4A);
+               break;
+
        case UV3_HUB_PART_NUMBER:
        case UV3_HUB_PART_NUMBER_X:
-               uv_min_hub_revision_id += UV3_HUB_REVISION_BASE;
+               uv_min_hub_revision_id = node_id.s.revision
+                                        + UV3_HUB_REVISION_BASE;
+               uv_hub_type_set(UV3);
                break;
 
-       /* Update: UV4A has only a modified revision to indicate HUB fixes */
-       case UV4_HUB_PART_NUMBER:
-               uv_min_hub_revision_id += UV4_HUB_REVISION_BASE - 1;
-               uv_cpuid.gnode_shift = 2; /* min partition is 4 sockets */
+       case UV2_HUB_PART_NUMBER:
+       case UV2_HUB_PART_NUMBER_X:
+               uv_min_hub_revision_id = node_id.s.revision
+                                        + UV2_HUB_REVISION_BASE - 1;
+               uv_hub_type_set(UV2);
                break;
+
+       default:
+               return 0;
        }
 
-       uv_hub_info->hub_revision = uv_min_hub_revision_id;
-       uv_cpuid.pnode_mask = (1 << m_n_config.s.n_skt) - 1;
-       pnode = (node_id.s.node_id >> 1) & uv_cpuid.pnode_mask;
-       uv_cpuid.gpa_shift = 46;        /* Default unless changed */
+       pr_info("UV: part#:%x rev:%d rev_id:%d UVtype:0x%x\n",
+               node_id.s.part_number, node_id.s.revision,
+               uv_min_hub_revision_id, is_uv(~0));
 
-       pr_info("UV: rev:%d part#:%x nodeid:%04x n_skt:%d pnmsk:%x pn:%x\n",
-               node_id.s.revision, node_id.s.part_number, node_id.s.node_id,
-               m_n_config.s.n_skt, uv_cpuid.pnode_mask, pnode);
-       return pnode;
+       return 1;
 }
 
 static void __init uv_tsc_check_sync(void)
@@ -130,38 +198,41 @@ static void __init uv_tsc_check_sync(void)
        int sync_state;
        int mmr_shift;
        char *state;
-       bool valid;
 
-       /* Accommodate different UV arch BIOSes */
+       /* Different returns from different UV BIOS versions */
        mmr = uv_early_read_mmr(UVH_TSC_SYNC_MMR);
        mmr_shift =
                is_uv2_hub() ? UVH_TSC_SYNC_SHIFT_UV2K : UVH_TSC_SYNC_SHIFT;
        sync_state = (mmr >> mmr_shift) & UVH_TSC_SYNC_MASK;
 
+       /* Check if TSC is valid for all sockets */
        switch (sync_state) {
        case UVH_TSC_SYNC_VALID:
                state = "in sync";
-               valid = true;
+               mark_tsc_async_resets("UV BIOS");
                break;
 
-       case UVH_TSC_SYNC_INVALID:
-               state = "unstable";
-               valid = false;
+       /* If BIOS state unknown, don't do anything */
+       case UVH_TSC_SYNC_UNKNOWN:
+               state = "unknown";
                break;
+
+       /* Otherwise, BIOS indicates problem with TSC */
        default:
-               state = "unknown: assuming valid";
-               valid = true;
+               state = "unstable";
+               mark_tsc_unstable("UV BIOS");
                break;
        }
        pr_info("UV: TSC sync state from BIOS:0%d(%s)\n", sync_state, state);
-
-       /* Mark flag that says TSC != 0 is valid for socket 0 */
-       if (valid)
-               mark_tsc_async_resets("UV BIOS");
-       else
-               mark_tsc_unstable("UV BIOS");
 }
 
+/* Selector for (4|4A|5) structs */
+#define uvxy_field(sname, field, undef) (      \
+       is_uv(UV4A) ? sname.s4a.field :         \
+       is_uv(UV4) ? sname.s4.field :           \
+       is_uv(UV3) ? sname.s3.field :           \
+       undef)
+
 /* [Copied from arch/x86/kernel/cpu/topology.c:detect_extended_topology()] */
 
 #define SMT_LEVEL                      0       /* Leaf 0xb SMT level */
@@ -221,29 +292,110 @@ static void __init uv_stringify(int len, char *to, char *from)
        strncpy(to, from, len-1);
 }
 
-static int __init uv_acpi_madt_oem_check(char *_oem_id, char *_oem_table_id)
+/* Find UV arch type entry in UVsystab */
+static unsigned long __init early_find_archtype(struct uv_systab *st)
+{
+       int i;
+
+       for (i = 0; st->entry[i].type != UV_SYSTAB_TYPE_UNUSED; i++) {
+               unsigned long ptr = st->entry[i].offset;
+
+               if (!ptr)
+                       continue;
+               ptr += (unsigned long)st;
+               if (st->entry[i].type == UV_SYSTAB_TYPE_ARCH_TYPE)
+                       return ptr;
+       }
+       return 0;
+}
+
+/* Validate UV arch type field in UVsystab */
+static int __init decode_arch_type(unsigned long ptr)
+{
+       struct uv_arch_type_entry *uv_ate = (struct uv_arch_type_entry *)ptr;
+       int n = strlen(uv_ate->archtype);
+
+       if (n > 0 && n < sizeof(uv_ate->archtype)) {
+               pr_info("UV: UVarchtype received from BIOS\n");
+               uv_stringify(UV_AT_SIZE, uv_archtype, uv_ate->archtype);
+               return 1;
+       }
+       return 0;
+}
+
+/* Determine if UV arch type entry might exist in UVsystab */
+static int __init early_get_arch_type(void)
 {
-       int pnodeid;
-       int uv_apic;
+       unsigned long uvst_physaddr, uvst_size, ptr;
+       struct uv_systab *st;
+       u32 rev;
+       int ret;
+
+       uvst_physaddr = get_uv_systab_phys(0);
+       if (!uvst_physaddr)
+               return 0;
+
+       st = early_memremap_ro(uvst_physaddr, sizeof(struct uv_systab));
+       if (!st) {
+               pr_err("UV: Cannot access UVsystab, remap failed\n");
+               return 0;
+       }
 
+       rev = st->revision;
+       if (rev < UV_SYSTAB_VERSION_UV5) {
+               early_memunmap(st, sizeof(struct uv_systab));
+               return 0;
+       }
+
+       uvst_size = st->size;
+       early_memunmap(st, sizeof(struct uv_systab));
+       st = early_memremap_ro(uvst_physaddr, uvst_size);
+       if (!st) {
+               pr_err("UV: Cannot access UVarchtype, remap failed\n");
+               return 0;
+       }
+
+       ptr = early_find_archtype(st);
+       if (!ptr) {
+               early_memunmap(st, uvst_size);
+               return 0;
+       }
+
+       ret = decode_arch_type(ptr);
+       early_memunmap(st, uvst_size);
+       return ret;
+}
+
+static int __init uv_set_system_type(char *_oem_id)
+{
+       /* Save OEM_ID passed from ACPI MADT */
        uv_stringify(sizeof(oem_id), oem_id, _oem_id);
-       uv_stringify(sizeof(oem_table_id), oem_table_id, _oem_table_id);
 
-       if (strncmp(oem_id, "SGI", 3) != 0) {
-               if (strncmp(oem_id, "NSGI", 4) != 0)
+       /* Check if BIOS sent us a UVarchtype */
+       if (!early_get_arch_type())
+
+               /* If not use OEM ID for UVarchtype */
+               uv_stringify(UV_AT_SIZE, uv_archtype, _oem_id);
+
+       /* Check if not hubbed */
+       if (strncmp(uv_archtype, "SGI", 3) != 0) {
+
+               /* (Not hubbed), check if not hubless */
+               if (strncmp(uv_archtype, "NSGI", 4) != 0)
+
+                       /* (Not hubless), not a UV */
                        return 0;
 
-               /* UV4 Hubless, CH, (0x11:UV4+Any) */
-               if (strncmp(oem_id, "NSGI4", 5) == 0)
+               /* UV4 Hubless: CH */
+               if (strncmp(uv_archtype, "NSGI4", 5) == 0)
                        uv_hubless_system = 0x11;
 
-               /* UV3 Hubless, UV300/MC990X w/o hub (0x9:UV3+Any) */
+               /* UV3 Hubless: UV300/MC990X w/o hub */
                else
                        uv_hubless_system = 0x9;
 
-               pr_info("UV: OEM IDs %s/%s, HUBLESS(0x%x)\n",
-                       oem_id, oem_table_id, uv_hubless_system);
-
+               pr_info("UV: OEM IDs %s/%s, SystemType %d, HUBLESS ID %x\n",
+                       oem_id, oem_table_id, uv_system_type, uv_hubless_system);
                return 0;
        }
 
@@ -252,60 +404,83 @@ static int __init uv_acpi_madt_oem_check(char *_oem_id, char *_oem_table_id)
                return 0;
        }
 
-       /* Set up early hub type field in uv_hub_info for Node 0 */
-       uv_cpu_info->p_uv_hub_info = &uv_hub_info_node0;
+       /* Set hubbed type if true */
+       uv_hub_info->hub_revision =
+               !strncmp(uv_archtype, "SGI5", 4) ? UV5_HUB_REVISION_BASE :
+               !strncmp(uv_archtype, "SGI4", 4) ? UV4_HUB_REVISION_BASE :
+               !strncmp(uv_archtype, "SGI3", 4) ? UV3_HUB_REVISION_BASE :
+               !strcmp(uv_archtype, "SGI2") ? UV2_HUB_REVISION_BASE : 0;
+
+       switch (uv_hub_info->hub_revision) {
+       case UV5_HUB_REVISION_BASE:
+               uv_hubbed_system = 0x21;
+               uv_hub_type_set(UV5);
+               break;
 
-       /*
-        * Determine UV arch type.
-        *   SGI2: UV2000/3000
-        *   SGI3: UV300 (truncated to 4 chars because of different varieties)
-        *   SGI4: UV400 (truncated to 4 chars because of different varieties)
-        */
-       if (!strncmp(oem_id, "SGI4", 4)) {
-               uv_hub_info->hub_revision = UV4_HUB_REVISION_BASE;
+       case UV4_HUB_REVISION_BASE:
                uv_hubbed_system = 0x11;
+               uv_hub_type_set(UV4);
+               break;
 
-       } else if (!strncmp(oem_id, "SGI3", 4)) {
-               uv_hub_info->hub_revision = UV3_HUB_REVISION_BASE;
+       case UV3_HUB_REVISION_BASE:
                uv_hubbed_system = 0x9;
+               uv_hub_type_set(UV3);
+               break;
 
-       } else if (!strcmp(oem_id, "SGI2")) {
-               uv_hub_info->hub_revision = UV2_HUB_REVISION_BASE;
+       case UV2_HUB_REVISION_BASE:
                uv_hubbed_system = 0x5;
+               uv_hub_type_set(UV2);
+               break;
 
-       } else {
-               uv_hub_info->hub_revision = 0;
-               goto badbios;
+       default:
+               return 0;
        }
 
-       pnodeid = early_get_pnodeid();
-       early_get_apic_socketid_shift();
+       /* Get UV hub chip part number & revision */
+       early_set_hub_type();
 
+       /* Other UV setup functions */
+       early_get_pnodeid();
+       early_get_apic_socketid_shift();
        x86_platform.is_untracked_pat_range = uv_is_untracked_pat_range;
        x86_platform.nmi_init = uv_nmi_init;
+       uv_tsc_check_sync();
+
+       return 1;
+}
+
+/* Called early to probe for the correct APIC driver */
+static int __init uv_acpi_madt_oem_check(char *_oem_id, char *_oem_table_id)
+{
+       /* Set up early hub info fields for Node 0 */
+       uv_cpu_info->p_uv_hub_info = &uv_hub_info_node0;
+
+       /* If not UV, return. */
+       if (likely(uv_set_system_type(_oem_id) == 0))
+               return 0;
+
+       /* Save and Decode OEM Table ID */
+       uv_stringify(sizeof(oem_table_id), oem_table_id, _oem_table_id);
 
-       if (!strcmp(oem_table_id, "UVX")) {
-               /* This is the most common hardware variant: */
+       /* This is the most common hardware variant, x2apic mode */
+       if (!strcmp(oem_table_id, "UVX"))
                uv_system_type = UV_X2APIC;
-               uv_apic = 0;
 
-       } else if (!strcmp(oem_table_id, "UVL")) {
-               /* Only used for very small systems:  */
+       /* Only used for very small systems, usually 1 chassis, legacy mode  */
+       else if (!strcmp(oem_table_id, "UVL"))
                uv_system_type = UV_LEGACY_APIC;
-               uv_apic = 0;
 
-       } else {
+       else
                goto badbios;
-       }
 
-       pr_info("UV: OEM IDs %s/%s, System/HUB Types %d/%d, uv_apic %d\n", oem_id, oem_table_id, uv_system_type, uv_min_hub_revision_id, uv_apic);
-       uv_tsc_check_sync();
+       pr_info("UV: OEM IDs %s/%s, System/UVType %d/0x%x, HUB RevID %d\n",
+               oem_id, oem_table_id, uv_system_type, is_uv(UV_ANY),
+               uv_min_hub_revision_id);
 
-       return uv_apic;
+       return 0;
 
 badbios:
-       pr_err("UV: OEM_ID:%s OEM_TABLE_ID:%s\n", oem_id, oem_table_id);
-       pr_err("Current UV Type or BIOS not supported\n");
+       pr_err("UV: UVarchtype:%s not supported\n", uv_archtype);
        BUG();
 }
 
@@ -673,12 +848,12 @@ static struct apic apic_x2apic_uv_x __ro_after_init = {
 };
 
 #define        UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_LENGTH      3
-#define DEST_SHIFT UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR_DEST_BASE_SHFT
+#define DEST_SHIFT UVXH_RH_GAM_ALIAS_0_REDIRECT_CONFIG_DEST_BASE_SHFT
 
 static __init void get_lowmem_redirect(unsigned long *base, unsigned long *size)
 {
-       union uvh_rh_gam_alias210_overlay_config_2_mmr_u alias;
-       union uvh_rh_gam_alias210_redirect_config_2_mmr_u redirect;
+       union uvh_rh_gam_alias_2_overlay_config_u alias;
+       union uvh_rh_gam_alias_2_redirect_config_u redirect;
        unsigned long m_redirect;
        unsigned long m_overlay;
        int i;
@@ -686,16 +861,16 @@ static __init void get_lowmem_redirect(unsigned long *base, unsigned long *size)
        for (i = 0; i < UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_LENGTH; i++) {
                switch (i) {
                case 0:
-                       m_redirect = UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_0_MMR;
-                       m_overlay  = UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_0_MMR;
+                       m_redirect = UVH_RH_GAM_ALIAS_0_REDIRECT_CONFIG;
+                       m_overlay  = UVH_RH_GAM_ALIAS_0_OVERLAY_CONFIG;
                        break;
                case 1:
-                       m_redirect = UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_1_MMR;
-                       m_overlay  = UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_1_MMR;
+                       m_redirect = UVH_RH_GAM_ALIAS_1_REDIRECT_CONFIG;
+                       m_overlay  = UVH_RH_GAM_ALIAS_1_OVERLAY_CONFIG;
                        break;
                case 2:
-                       m_redirect = UVH_RH_GAM_ALIAS210_REDIRECT_CONFIG_2_MMR;
-                       m_overlay  = UVH_RH_GAM_ALIAS210_OVERLAY_CONFIG_2_MMR;
+                       m_redirect = UVH_RH_GAM_ALIAS_2_REDIRECT_CONFIG;
+                       m_overlay  = UVH_RH_GAM_ALIAS_2_OVERLAY_CONFIG;
                        break;
                }
                alias.v = uv_read_local_mmr(m_overlay);
@@ -710,6 +885,7 @@ static __init void get_lowmem_redirect(unsigned long *base, unsigned long *size)
 }
 
 enum map_type {map_wb, map_uc};
+static const char * const mt[] = { "WB", "UC" };
 
 static __init void map_high(char *id, unsigned long base, int pshift, int bshift, int max_pnode, enum map_type map_type)
 {
@@ -721,23 +897,36 @@ static __init void map_high(char *id, unsigned long base, int pshift, int bshift
                pr_info("UV: Map %s_HI base address NULL\n", id);
                return;
        }
-       pr_debug("UV: Map %s_HI 0x%lx - 0x%lx\n", id, paddr, paddr + bytes);
        if (map_type == map_uc)
                init_extra_mapping_uc(paddr, bytes);
        else
                init_extra_mapping_wb(paddr, bytes);
+
+       pr_info("UV: Map %s_HI 0x%lx - 0x%lx %s (%d segments)\n",
+               id, paddr, paddr + bytes, mt[map_type], max_pnode + 1);
 }
 
 static __init void map_gru_high(int max_pnode)
 {
-       union uvh_rh_gam_gru_overlay_config_mmr_u gru;
-       int shift = UVH_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_SHFT;
-       unsigned long mask = UVH_RH_GAM_GRU_OVERLAY_CONFIG_MMR_BASE_MASK;
-       unsigned long base;
+       union uvh_rh_gam_gru_overlay_config_u gru;
+       unsigned long mask, base;
+       int shift;
+
+       if (UVH_RH_GAM_GRU_OVERLAY_CONFIG) {
+               gru.v = uv_read_local_mmr(UVH_RH_GAM_GRU_OVERLAY_CONFIG);
+               shift = UVH_RH_GAM_GRU_OVERLAY_CONFIG_BASE_SHFT;
+               mask = UVH_RH_GAM_GRU_OVERLAY_CONFIG_BASE_MASK;
+       } else if (UVH_RH10_GAM_GRU_OVERLAY_CONFIG) {
+               gru.v = uv_read_local_mmr(UVH_RH10_GAM_GRU_OVERLAY_CONFIG);
+               shift = UVH_RH10_GAM_GRU_OVERLAY_CONFIG_BASE_SHFT;
+               mask = UVH_RH10_GAM_GRU_OVERLAY_CONFIG_BASE_MASK;
+       } else {
+               pr_err("UV: GRU unavailable (no MMR)\n");
+               return;
+       }
 
-       gru.v = uv_read_local_mmr(UVH_RH_GAM_GRU_OVERLAY_CONFIG_MMR);
        if (!gru.s.enable) {
-               pr_info("UV: GRU disabled\n");
+               pr_info("UV: GRU disabled (by BIOS)\n");
                return;
        }
 
@@ -749,62 +938,104 @@ static __init void map_gru_high(int max_pnode)
 
 static __init void map_mmr_high(int max_pnode)
 {
-       union uvh_rh_gam_mmr_overlay_config_mmr_u mmr;
-       int shift = UVH_RH_GAM_MMR_OVERLAY_CONFIG_MMR_BASE_SHFT;
+       unsigned long base;
+       int shift;
+       bool enable;
+
+       if (UVH_RH10_GAM_MMR_OVERLAY_CONFIG) {
+               union uvh_rh10_gam_mmr_overlay_config_u mmr;
+
+               mmr.v = uv_read_local_mmr(UVH_RH10_GAM_MMR_OVERLAY_CONFIG);
+               enable = mmr.s.enable;
+               base = mmr.s.base;
+               shift = UVH_RH10_GAM_MMR_OVERLAY_CONFIG_BASE_SHFT;
+       } else if (UVH_RH_GAM_MMR_OVERLAY_CONFIG) {
+               union uvh_rh_gam_mmr_overlay_config_u mmr;
+
+               mmr.v = uv_read_local_mmr(UVH_RH_GAM_MMR_OVERLAY_CONFIG);
+               enable = mmr.s.enable;
+               base = mmr.s.base;
+               shift = UVH_RH_GAM_MMR_OVERLAY_CONFIG_BASE_SHFT;
+       } else {
+               pr_err("UV:%s:RH_GAM_MMR_OVERLAY_CONFIG MMR undefined?\n",
+                       __func__);
+               return;
+       }
 
-       mmr.v = uv_read_local_mmr(UVH_RH_GAM_MMR_OVERLAY_CONFIG_MMR);
-       if (mmr.s.enable)
-               map_high("MMR", mmr.s.base, shift, shift, max_pnode, map_uc);
+       if (enable)
+               map_high("MMR", base, shift, shift, max_pnode, map_uc);
        else
                pr_info("UV: MMR disabled\n");
 }
 
-/* UV3/4 have identical MMIOH overlay configs, UV4A is slightly different */
-static __init void map_mmioh_high_uv34(int index, int min_pnode, int max_pnode)
-{
-       unsigned long overlay;
-       unsigned long mmr;
-       unsigned long base;
-       unsigned long nasid_mask;
-       unsigned long m_overlay;
-       int i, n, shift, m_io, max_io;
-       int nasid, lnasid, fi, li;
-       char *id;
-
-       if (index == 0) {
-               id = "MMIOH0";
-               m_overlay = UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR;
-               overlay = uv_read_local_mmr(m_overlay);
-               base = overlay & UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_BASE_MASK;
-               mmr = UVH_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR;
-               m_io = (overlay & UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_MASK)
-                       >> UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_SHFT;
-               shift = UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_M_IO_SHFT;
-               n = UVH_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_DEPTH;
-               nasid_mask = UVH_RH_GAM_MMIOH_REDIRECT_CONFIG0_MMR_NASID_MASK;
-       } else {
-               id = "MMIOH1";
-               m_overlay = UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR;
-               overlay = uv_read_local_mmr(m_overlay);
-               base = overlay & UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_BASE_MASK;
-               mmr = UVH_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR;
-               m_io = (overlay & UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_MASK)
-                       >> UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_SHFT;
-               shift = UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1_MMR_M_IO_SHFT;
-               n = UVH_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_DEPTH;
-               nasid_mask = UVH_RH_GAM_MMIOH_REDIRECT_CONFIG1_MMR_NASID_MASK;
+/* Arch specific ENUM cases */
+enum mmioh_arch {
+       UV2_MMIOH = -1,
+       UVY_MMIOH0, UVY_MMIOH1,
+       UVX_MMIOH0, UVX_MMIOH1,
+};
+
+/* Calculate and Map MMIOH Regions */
+static void __init calc_mmioh_map(enum mmioh_arch index,
+       int min_pnode, int max_pnode,
+       int shift, unsigned long base, int m_io, int n_io)
+{
+       unsigned long mmr, nasid_mask;
+       int nasid, min_nasid, max_nasid, lnasid, mapped;
+       int i, fi, li, n, max_io;
+       char id[8];
+
+       /* One (UV2) mapping */
+       if (index == UV2_MMIOH) {
+               strncpy(id, "MMIOH", sizeof(id));
+               max_io = max_pnode;
+               mapped = 0;
+               goto map_exit;
        }
-       pr_info("UV: %s overlay 0x%lx base:0x%lx m_io:%d\n", id, overlay, base, m_io);
-       if (!(overlay & UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_MMR_ENABLE_MASK)) {
-               pr_info("UV: %s disabled\n", id);
+
+       /* small and large MMIOH mappings */
+       switch (index) {
+       case UVY_MMIOH0:
+               mmr = UVH_RH10_GAM_MMIOH_REDIRECT_CONFIG0;
+               nasid_mask = UVH_RH10_GAM_MMIOH_OVERLAY_CONFIG0_BASE_MASK;
+               n = UVH_RH10_GAM_MMIOH_REDIRECT_CONFIG0_DEPTH;
+               min_nasid = min_pnode;
+               max_nasid = max_pnode;
+               mapped = 1;
+               break;
+       case UVY_MMIOH1:
+               mmr = UVH_RH10_GAM_MMIOH_REDIRECT_CONFIG1;
+               nasid_mask = UVH_RH10_GAM_MMIOH_OVERLAY_CONFIG1_BASE_MASK;
+               n = UVH_RH10_GAM_MMIOH_REDIRECT_CONFIG1_DEPTH;
+               min_nasid = min_pnode;
+               max_nasid = max_pnode;
+               mapped = 1;
+               break;
+       case UVX_MMIOH0:
+               mmr = UVH_RH_GAM_MMIOH_REDIRECT_CONFIG0;
+               nasid_mask = UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_BASE_MASK;
+               n = UVH_RH_GAM_MMIOH_REDIRECT_CONFIG0_DEPTH;
+               min_nasid = min_pnode * 2;
+               max_nasid = max_pnode * 2;
+               mapped = 1;
+               break;
+       case UVX_MMIOH1:
+               mmr = UVH_RH_GAM_MMIOH_REDIRECT_CONFIG1;
+               nasid_mask = UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1_BASE_MASK;
+               n = UVH_RH_GAM_MMIOH_REDIRECT_CONFIG1_DEPTH;
+               min_nasid = min_pnode * 2;
+               max_nasid = max_pnode * 2;
+               mapped = 1;
+               break;
+       default:
+               pr_err("UV:%s:Invalid mapping type:%d\n", __func__, index);
                return;
        }
 
-       /* Convert to NASID: */
-       min_pnode *= 2;
-       max_pnode *= 2;
-       max_io = lnasid = fi = li = -1;
+       /* enum values chosen so (index mod 2) is MMIOH 0/1 (low/high) */
+       snprintf(id, sizeof(id), "MMIOH%d", index%2);
 
+       max_io = lnasid = fi = li = -1;
        for (i = 0; i < n; i++) {
                unsigned long m_redirect = mmr + i * 8;
                unsigned long redirect = uv_read_local_mmr(m_redirect);
@@ -814,9 +1045,12 @@ static __init void map_mmioh_high_uv34(int index, int min_pnode, int max_pnode)
                        pr_info("UV: %s redirect base 0x%lx(@0x%lx) 0x%04x\n",
                                id, redirect, m_redirect, nasid);
 
-               /* Invalid NASID: */
-               if (nasid < min_pnode || max_pnode < nasid)
+               /* Invalid NASID check */
+               if (nasid < min_nasid || max_nasid < nasid) {
+                       pr_err("UV:%s:Invalid NASID:%x (range:%x..%x)\n",
+                               __func__, index, min_nasid, max_nasid);
                        nasid = -1;
+               }
 
                if (nasid == lnasid) {
                        li = i;
@@ -839,7 +1073,8 @@ static __init void map_mmioh_high_uv34(int index, int min_pnode, int max_pnode)
                        }
                        addr1 = (base << shift) + f * (1ULL << m_io);
                        addr2 = (base << shift) + (l + 1) * (1ULL << m_io);
-                       pr_info("UV: %s[%03d..%03d] NASID 0x%04x ADDR 0x%016lx - 0x%016lx\n", id, fi, li, lnasid, addr1, addr2);
+                       pr_info("UV: %s[%03d..%03d] NASID 0x%04x ADDR 0x%016lx - 0x%016lx\n",
+                               id, fi, li, lnasid, addr1, addr2);
                        if (max_io < l)
                                max_io = l;
                }
@@ -847,49 +1082,93 @@ static __init void map_mmioh_high_uv34(int index, int min_pnode, int max_pnode)
                lnasid = nasid;
        }
 
-       pr_info("UV: %s base:0x%lx shift:%d M_IO:%d MAX_IO:%d\n", id, base, shift, m_io, max_io);
+map_exit:
+       pr_info("UV: %s base:0x%lx shift:%d m_io:%d max_io:%d max_pnode:0x%x\n",
+               id, base, shift, m_io, max_io, max_pnode);
 
-       if (max_io >= 0)
+       if (max_io >= 0 && !mapped)
                map_high(id, base, shift, m_io, max_io, map_uc);
 }
 
 static __init void map_mmioh_high(int min_pnode, int max_pnode)
 {
-       union uvh_rh_gam_mmioh_overlay_config_mmr_u mmioh;
-       unsigned long mmr, base;
-       int shift, enable, m_io, n_io;
+       /* UVY flavor */
+       if (UVH_RH10_GAM_MMIOH_OVERLAY_CONFIG0) {
+               union uvh_rh10_gam_mmioh_overlay_config0_u mmioh0;
+               union uvh_rh10_gam_mmioh_overlay_config1_u mmioh1;
+
+               mmioh0.v = uv_read_local_mmr(UVH_RH10_GAM_MMIOH_OVERLAY_CONFIG0);
+               if (unlikely(mmioh0.s.enable == 0))
+                       pr_info("UV: MMIOH0 disabled\n");
+               else
+                       calc_mmioh_map(UVY_MMIOH0, min_pnode, max_pnode,
+                               UVH_RH10_GAM_MMIOH_OVERLAY_CONFIG0_BASE_SHFT,
+                               mmioh0.s.base, mmioh0.s.m_io, mmioh0.s.n_io);
 
-       if (is_uv3_hub() || is_uv4_hub()) {
-               /* Map both MMIOH regions: */
-               map_mmioh_high_uv34(0, min_pnode, max_pnode);
-               map_mmioh_high_uv34(1, min_pnode, max_pnode);
+               mmioh1.v = uv_read_local_mmr(UVH_RH10_GAM_MMIOH_OVERLAY_CONFIG1);
+               if (unlikely(mmioh1.s.enable == 0))
+                       pr_info("UV: MMIOH1 disabled\n");
+               else
+                       calc_mmioh_map(UVY_MMIOH1, min_pnode, max_pnode,
+                               UVH_RH10_GAM_MMIOH_OVERLAY_CONFIG1_BASE_SHFT,
+                               mmioh1.s.base, mmioh1.s.m_io, mmioh1.s.n_io);
                return;
        }
+       /* UVX flavor */
+       if (UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0) {
+               union uvh_rh_gam_mmioh_overlay_config0_u mmioh0;
+               union uvh_rh_gam_mmioh_overlay_config1_u mmioh1;
+
+               mmioh0.v = uv_read_local_mmr(UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0);
+               if (unlikely(mmioh0.s.enable == 0))
+                       pr_info("UV: MMIOH0 disabled\n");
+               else {
+                       unsigned long base = uvxy_field(mmioh0, base, 0);
+                       int m_io = uvxy_field(mmioh0, m_io, 0);
+                       int n_io = uvxy_field(mmioh0, n_io, 0);
+
+                       calc_mmioh_map(UVX_MMIOH0, min_pnode, max_pnode,
+                               UVH_RH_GAM_MMIOH_OVERLAY_CONFIG0_BASE_SHFT,
+                               base, m_io, n_io);
+               }
 
-       if (is_uv2_hub()) {
-               mmr     = UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR;
-               shift   = UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_MMR_BASE_SHFT;
-               mmioh.v = uv_read_local_mmr(mmr);
-               enable  = !!mmioh.s2.enable;
-               base    = mmioh.s2.base;
-               m_io    = mmioh.s2.m_io;
-               n_io    = mmioh.s2.n_io;
-
-               if (enable) {
-                       max_pnode &= (1 << n_io) - 1;
-                       pr_info("UV: base:0x%lx shift:%d N_IO:%d M_IO:%d max_pnode:0x%x\n",
-                               base, shift, m_io, n_io, max_pnode);
-                       map_high("MMIOH", base, shift, m_io, max_pnode, map_uc);
-               } else {
-                       pr_info("UV: MMIOH disabled\n");
+               mmioh1.v = uv_read_local_mmr(UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1);
+               if (unlikely(mmioh1.s.enable == 0))
+                       pr_info("UV: MMIOH1 disabled\n");
+               else {
+                       unsigned long base = uvxy_field(mmioh1, base, 0);
+                       int m_io = uvxy_field(mmioh1, m_io, 0);
+                       int n_io = uvxy_field(mmioh1, n_io, 0);
+
+                       calc_mmioh_map(UVX_MMIOH1, min_pnode, max_pnode,
+                               UVH_RH_GAM_MMIOH_OVERLAY_CONFIG1_BASE_SHFT,
+                               base, m_io, n_io);
                }
+               return;
+       }
+
+       /* UV2 flavor */
+       if (UVH_RH_GAM_MMIOH_OVERLAY_CONFIG) {
+               union uvh_rh_gam_mmioh_overlay_config_u mmioh;
+
+               mmioh.v = uv_read_local_mmr(UVH_RH_GAM_MMIOH_OVERLAY_CONFIG);
+               if (unlikely(mmioh.s2.enable == 0))
+                       pr_info("UV: MMIOH disabled\n");
+               else
+                       calc_mmioh_map(UV2_MMIOH, min_pnode, max_pnode,
+                               UV2H_RH_GAM_MMIOH_OVERLAY_CONFIG_BASE_SHFT,
+                               mmioh.s2.base, mmioh.s2.m_io, mmioh.s2.n_io);
+               return;
        }
 }
 
 static __init void map_low_mmrs(void)
 {
-       init_extra_mapping_uc(UV_GLOBAL_MMR32_BASE, UV_GLOBAL_MMR32_SIZE);
-       init_extra_mapping_uc(UV_LOCAL_MMR_BASE, UV_LOCAL_MMR_SIZE);
+       if (UV_GLOBAL_MMR32_BASE)
+               init_extra_mapping_uc(UV_GLOBAL_MMR32_BASE, UV_GLOBAL_MMR32_SIZE);
+
+       if (UV_LOCAL_MMR_BASE)
+               init_extra_mapping_uc(UV_LOCAL_MMR_BASE, UV_LOCAL_MMR_SIZE);
 }
 
 static __init void uv_rtc_init(void)
@@ -909,85 +1188,6 @@ static __init void uv_rtc_init(void)
        }
 }
 
-/*
- * percpu heartbeat timer
- */
-static void uv_heartbeat(struct timer_list *timer)
-{
-       unsigned char bits = uv_scir_info->state;
-
-       /* Flip heartbeat bit: */
-       bits ^= SCIR_CPU_HEARTBEAT;
-
-       /* Is this CPU idle? */
-       if (idle_cpu(raw_smp_processor_id()))
-               bits &= ~SCIR_CPU_ACTIVITY;
-       else
-               bits |= SCIR_CPU_ACTIVITY;
-
-       /* Update system controller interface reg: */
-       uv_set_scir_bits(bits);
-
-       /* Enable next timer period: */
-       mod_timer(timer, jiffies + SCIR_CPU_HB_INTERVAL);
-}
-
-static int uv_heartbeat_enable(unsigned int cpu)
-{
-       while (!uv_cpu_scir_info(cpu)->enabled) {
-               struct timer_list *timer = &uv_cpu_scir_info(cpu)->timer;
-
-               uv_set_cpu_scir_bits(cpu, SCIR_CPU_HEARTBEAT|SCIR_CPU_ACTIVITY);
-               timer_setup(timer, uv_heartbeat, TIMER_PINNED);
-               timer->expires = jiffies + SCIR_CPU_HB_INTERVAL;
-               add_timer_on(timer, cpu);
-               uv_cpu_scir_info(cpu)->enabled = 1;
-
-               /* Also ensure that boot CPU is enabled: */
-               cpu = 0;
-       }
-       return 0;
-}
-
-#ifdef CONFIG_HOTPLUG_CPU
-static int uv_heartbeat_disable(unsigned int cpu)
-{
-       if (uv_cpu_scir_info(cpu)->enabled) {
-               uv_cpu_scir_info(cpu)->enabled = 0;
-               del_timer(&uv_cpu_scir_info(cpu)->timer);
-       }
-       uv_set_cpu_scir_bits(cpu, 0xff);
-       return 0;
-}
-
-static __init void uv_scir_register_cpu_notifier(void)
-{
-       cpuhp_setup_state_nocalls(CPUHP_AP_ONLINE_DYN, "x86/x2apic-uvx:online",
-                                 uv_heartbeat_enable, uv_heartbeat_disable);
-}
-
-#else /* !CONFIG_HOTPLUG_CPU */
-
-static __init void uv_scir_register_cpu_notifier(void)
-{
-}
-
-static __init int uv_init_heartbeat(void)
-{
-       int cpu;
-
-       if (is_uv_system()) {
-               for_each_online_cpu(cpu)
-                       uv_heartbeat_enable(cpu);
-       }
-
-       return 0;
-}
-
-late_initcall(uv_init_heartbeat);
-
-#endif /* !CONFIG_HOTPLUG_CPU */
-
 /* Direct Legacy VGA I/O traffic to designated IOH */
 static int uv_set_vga_state(struct pci_dev *pdev, bool decode, unsigned int command_bits, u32 flags)
 {
@@ -1027,26 +1227,22 @@ struct mn {
        unsigned char   n_lshift;
 };
 
+/* Initialize caller's MN struct and fill in values */
 static void get_mn(struct mn *mnp)
 {
-       union uvh_rh_gam_config_mmr_u m_n_config;
-       union uv3h_gr0_gam_gr_config_u m_gr_config;
-
-       /* Make sure the whole structure is well initialized: */
        memset(mnp, 0, sizeof(*mnp));
-
-       m_n_config.v    = uv_read_local_mmr(UVH_RH_GAM_CONFIG_MMR);
-       mnp->n_val      = m_n_config.s.n_skt;
-
-       if (is_uv4_hub()) {
+       mnp->n_val      = uv_cpuid.n_skt;
+       if (is_uv(UV4|UVY)) {
                mnp->m_val      = 0;
                mnp->n_lshift   = 0;
        } else if (is_uv3_hub()) {
-               mnp->m_val      = m_n_config.s3.m_skt;
-               m_gr_config.v   = uv_read_local_mmr(UV3H_GR0_GAM_GR_CONFIG);
+               union uvyh_gr0_gam_gr_config_u m_gr_config;
+
+               mnp->m_val      = uv_cpuid.m_skt;
+               m_gr_config.v   = uv_read_local_mmr(UVH_GR0_GAM_GR_CONFIG);
                mnp->n_lshift   = m_gr_config.s3.m_skt;
        } else if (is_uv2_hub()) {
-               mnp->m_val      = m_n_config.s2.m_skt;
+               mnp->m_val      = uv_cpuid.m_skt;
                mnp->n_lshift   = mnp->m_val == 40 ? 40 : 39;
        }
        mnp->m_shift = mnp->m_val ? 64 - mnp->m_val : 0;
@@ -1054,7 +1250,6 @@ static void get_mn(struct mn *mnp)
 
 static void __init uv_init_hub_info(struct uv_hub_info_s *hi)
 {
-       union uvh_node_id_u node_id;
        struct mn mn;
 
        get_mn(&mn);
@@ -1067,7 +1262,9 @@ static void __init uv_init_hub_info(struct uv_hub_info_s *hi)
        hi->m_shift             = mn.m_shift;
        hi->n_lshift            = mn.n_lshift ? mn.n_lshift : 0;
        hi->hub_revision        = uv_hub_info->hub_revision;
+       hi->hub_type            = uv_hub_info->hub_type;
        hi->pnode_mask          = uv_cpuid.pnode_mask;
+       hi->nasid_shift         = uv_cpuid.nasid_shift;
        hi->min_pnode           = _min_pnode;
        hi->min_socket          = _min_socket;
        hi->pnode_to_socket     = _pnode_to_socket;
@@ -1076,9 +1273,8 @@ static void __init uv_init_hub_info(struct uv_hub_info_s *hi)
        hi->gr_table_len        = _gr_table_len;
        hi->gr_table            = _gr_table;
 
-       node_id.v               = uv_read_local_mmr(UVH_NODE_ID);
        uv_cpuid.gnode_shift    = max_t(unsigned int, uv_cpuid.gnode_shift, mn.n_val);
-       hi->gnode_extra         = (node_id.s.node_id & ~((1 << uv_cpuid.gnode_shift) - 1)) >> 1;
+       hi->gnode_extra         = (uv_node_id & ~((1 << uv_cpuid.gnode_shift) - 1)) >> 1;
        if (mn.m_val)
                hi->gnode_upper = (u64)hi->gnode_extra << mn.m_val;
 
@@ -1090,7 +1286,9 @@ static void __init uv_init_hub_info(struct uv_hub_info_s *hi)
                hi->gpa_shift           = uv_gp_table->gpa_shift;
                hi->gpa_mask            = (1UL << hi->gpa_shift) - 1;
        } else {
-               hi->global_mmr_base     = uv_read_local_mmr(UVH_RH_GAM_MMR_OVERLAY_CONFIG_MMR) & ~UV_MMR_ENABLE;
+               hi->global_mmr_base     =
+                       uv_read_local_mmr(UVH_RH_GAM_MMR_OVERLAY_CONFIG) &
+                       ~UV_MMR_ENABLE;
                hi->global_mmr_shift    = _UV_GLOBAL_MMR64_PNODE_SHIFT;
        }
 
@@ -1101,7 +1299,11 @@ static void __init uv_init_hub_info(struct uv_hub_info_s *hi)
        /* Show system specific info: */
        pr_info("UV: N:%d M:%d m_shift:%d n_lshift:%d\n", hi->n_val, hi->m_val, hi->m_shift, hi->n_lshift);
        pr_info("UV: gpa_mask/shift:0x%lx/%d pnode_mask:0x%x apic_pns:%d\n", hi->gpa_mask, hi->gpa_shift, hi->pnode_mask, hi->apic_pnode_shift);
-       pr_info("UV: mmr_base/shift:0x%lx/%ld gru_base/shift:0x%lx/%ld\n", hi->global_mmr_base, hi->global_mmr_shift, hi->global_gru_base, hi->global_gru_shift);
+       pr_info("UV: mmr_base/shift:0x%lx/%ld\n", hi->global_mmr_base, hi->global_mmr_shift);
+       if (hi->global_gru_base)
+               pr_info("UV: gru_base/shift:0x%lx/%ld\n",
+                       hi->global_gru_base, hi->global_gru_shift);
+
        pr_info("UV: gnode_upper:0x%lx gnode_extra:0x%x\n", hi->gnode_upper, hi->gnode_extra);
 }
 
@@ -1173,21 +1375,25 @@ static void __init decode_gam_rng_tbl(unsigned long ptr)
        pr_info("UV: GRT: %d entries, sockets(min:%x,max:%x) pnodes(min:%x,max:%x)\n", index, _min_socket, _max_socket, _min_pnode, _max_pnode);
 }
 
+/* Walk through UVsystab decoding the fields */
 static int __init decode_uv_systab(void)
 {
        struct uv_systab *st;
        int i;
 
-       /* If system is uv3 or lower, there is no extended UVsystab */
-       if (is_uv_hubbed(0xfffffe) < uv(4) && is_uv_hubless(0xfffffe) < uv(4))
-               return 0;       /* No extended UVsystab required */
-
+       /* Get mapped UVsystab pointer */
        st = uv_systab;
+
+       /* If UVsystab is version 1, there is no extended UVsystab */
+       if (st && st->revision == UV_SYSTAB_VERSION_1)
+               return 0;
+
        if ((!st) || (st->revision < UV_SYSTAB_VERSION_UV4_LATEST)) {
                int rev = st ? st->revision : 0;
 
-               pr_err("UV: BIOS UVsystab version(%x) mismatch, expecting(%x)\n", rev, UV_SYSTAB_VERSION_UV4_LATEST);
-               pr_err("UV: Cannot support UV operations, switching to generic PC\n");
+               pr_err("UV: BIOS UVsystab mismatch, (%x < %x)\n",
+                       rev, UV_SYSTAB_VERSION_UV4_LATEST);
+               pr_err("UV: Does not support UV, switch to non-UV x86_64\n");
                uv_system_type = UV_NONE;
 
                return -EINVAL;
@@ -1199,7 +1405,8 @@ static int __init decode_uv_systab(void)
                if (!ptr)
                        continue;
 
-               ptr = ptr + (unsigned long)st;
+               /* point to payload */
+               ptr += (unsigned long)st;
 
                switch (st->entry[i].type) {
                case UV_SYSTAB_TYPE_GAM_PARAMS:
@@ -1209,32 +1416,49 @@ static int __init decode_uv_systab(void)
                case UV_SYSTAB_TYPE_GAM_RNG_TBL:
                        decode_gam_rng_tbl(ptr);
                        break;
+
+               case UV_SYSTAB_TYPE_ARCH_TYPE:
+                       /* already processed in early startup */
+                       break;
+
+               default:
+                       pr_err("UV:%s:Unrecognized UV_SYSTAB_TYPE:%d, skipped\n",
+                               __func__, st->entry[i].type);
+                       break;
                }
        }
        return 0;
 }
 
-/*
- * Set up physical blade translations from UVH_NODE_PRESENT_TABLE
- * .. NB: UVH_NODE_PRESENT_TABLE is going away,
- * .. being replaced by GAM Range Table
- */
+/* Set up physical blade translations from UVH_NODE_PRESENT_TABLE */
 static __init void boot_init_possible_blades(struct uv_hub_info_s *hub_info)
 {
+       unsigned long np;
        int i, uv_pb = 0;
 
-       pr_info("UV: NODE_PRESENT_DEPTH = %d\n", UVH_NODE_PRESENT_TABLE_DEPTH);
-       for (i = 0; i < UVH_NODE_PRESENT_TABLE_DEPTH; i++) {
-               unsigned long np;
-
-               np = uv_read_local_mmr(UVH_NODE_PRESENT_TABLE + i * 8);
-               if (np)
+       if (UVH_NODE_PRESENT_TABLE) {
+               pr_info("UV: NODE_PRESENT_DEPTH = %d\n",
+                       UVH_NODE_PRESENT_TABLE_DEPTH);
+               for (i = 0; i < UVH_NODE_PRESENT_TABLE_DEPTH; i++) {
+                       np = uv_read_local_mmr(UVH_NODE_PRESENT_TABLE + i * 8);
                        pr_info("UV: NODE_PRESENT(%d) = 0x%016lx\n", i, np);
-
+                       uv_pb += hweight64(np);
+               }
+       }
+       if (UVH_NODE_PRESENT_0) {
+               np = uv_read_local_mmr(UVH_NODE_PRESENT_0);
+               pr_info("UV: NODE_PRESENT_0 = 0x%016lx\n", np);
+               uv_pb += hweight64(np);
+       }
+       if (UVH_NODE_PRESENT_1) {
+               np = uv_read_local_mmr(UVH_NODE_PRESENT_1);
+               pr_info("UV: NODE_PRESENT_1 = 0x%016lx\n", np);
                uv_pb += hweight64(np);
        }
        if (uv_possible_blades != uv_pb)
                uv_possible_blades = uv_pb;
+
+       pr_info("UV: number nodes/possible blades %d\n", uv_pb);
 }
 
 static void __init build_socket_tables(void)
@@ -1253,7 +1477,7 @@ static void __init build_socket_tables(void)
                        pr_info("UV: No UVsystab socket table, ignoring\n");
                        return;
                }
-               pr_crit("UV: Error: UVsystab address translations not available!\n");
+               pr_err("UV: Error: UVsystab address translations not available!\n");
                BUG();
        }
 
@@ -1379,9 +1603,9 @@ static int __maybe_unused proc_hubless_show(struct seq_file *file, void *data)
        return 0;
 }
 
-static int __maybe_unused proc_oemid_show(struct seq_file *file, void *data)
+static int __maybe_unused proc_archtype_show(struct seq_file *file, void *data)
 {
-       seq_printf(file, "%s/%s\n", oem_id, oem_table_id);
+       seq_printf(file, "%s/%s\n", uv_archtype, oem_table_id);
        return 0;
 }
 
@@ -1390,7 +1614,7 @@ static __init void uv_setup_proc_files(int hubless)
        struct proc_dir_entry *pde;
 
        pde = proc_mkdir(UV_PROC_NODE, NULL);
-       proc_create_single("oemid", 0, pde, proc_oemid_show);
+       proc_create_single("archtype", 0, pde, proc_archtype_show);
        if (hubless)
                proc_create_single("hubless", 0, pde, proc_hubless_show);
        else
@@ -1429,7 +1653,8 @@ static void __init uv_system_init_hub(void)
        struct uv_hub_info_s hub_info = {0};
        int bytes, cpu, nodeid;
        unsigned short min_pnode = 9999, max_pnode = 0;
-       char *hub = is_uv4_hub() ? "UV400" :
+       char *hub = is_uv5_hub() ? "UV500" :
+                   is_uv4_hub() ? "UV400" :
                    is_uv3_hub() ? "UV300" :
                    is_uv2_hub() ? "UV2000/3000" : NULL;
 
@@ -1441,12 +1666,14 @@ static void __init uv_system_init_hub(void)
 
        map_low_mmrs();
 
-       /* Get uv_systab for decoding: */
+       /* Get uv_systab for decoding, setup UV BIOS calls */
        uv_bios_init();
 
        /* If there's an UVsystab problem then abort UV init: */
-       if (decode_uv_systab() < 0)
+       if (decode_uv_systab() < 0) {
+               pr_err("UV: Mangled UVsystab format\n");
                return;
+       }
 
        build_socket_tables();
        build_uv_gr_table();
@@ -1517,8 +1744,6 @@ static void __init uv_system_init_hub(void)
                        uv_hub_info_list(numa_node_id)->pnode = pnode;
                else if (uv_cpu_hub_info(cpu)->pnode == 0xffff)
                        uv_cpu_hub_info(cpu)->pnode = pnode;
-
-               uv_cpu_scir_info(cpu)->offset = uv_scir_offset(apicid);
        }
 
        for_each_node(nodeid) {
@@ -1547,7 +1772,6 @@ static void __init uv_system_init_hub(void)
 
        uv_nmi_setup();
        uv_cpu_init();
-       uv_scir_register_cpu_notifier();
        uv_setup_proc_files(0);
 
        /* Register Legacy VGA I/O redirection handler: */
index c5cf336..345f7d9 100644 (file)
@@ -65,6 +65,9 @@ static void init_c3(struct cpuinfo_x86 *c)
                c->x86_cache_alignment = c->x86_clflush_size * 2;
                set_cpu_cap(c, X86_FEATURE_REP_GOOD);
        }
+
+       if (c->x86 >= 7)
+               set_cpu_cap(c, X86_FEATURE_REP_GOOD);
 }
 
 enum {
@@ -90,18 +93,15 @@ enum {
 
 static void early_init_centaur(struct cpuinfo_x86 *c)
 {
-       switch (c->x86) {
 #ifdef CONFIG_X86_32
-       case 5:
-               /* Emulate MTRRs using Centaur's MCR. */
+       /* Emulate MTRRs using Centaur's MCR. */
+       if (c->x86 == 5)
                set_cpu_cap(c, X86_FEATURE_CENTAUR_MCR);
-               break;
 #endif
-       case 6:
-               if (c->x86_model >= 0xf)
-                       set_cpu_cap(c, X86_FEATURE_CONSTANT_TSC);
-               break;
-       }
+       if ((c->x86 == 6 && c->x86_model >= 0xf) ||
+           (c->x86 >= 7))
+               set_cpu_cap(c, X86_FEATURE_CONSTANT_TSC);
+
 #ifdef CONFIG_X86_64
        set_cpu_cap(c, X86_FEATURE_SYSENTER32);
 #endif
@@ -145,9 +145,8 @@ static void init_centaur(struct cpuinfo_x86 *c)
                        set_cpu_cap(c, X86_FEATURE_ARCH_PERFMON);
        }
 
-       switch (c->x86) {
 #ifdef CONFIG_X86_32
-       case 5:
+       if (c->x86 == 5) {
                switch (c->x86_model) {
                case 4:
                        name = "C6";
@@ -207,12 +206,10 @@ static void init_centaur(struct cpuinfo_x86 *c)
                        c->x86_cache_size = (cc>>24)+(dd>>24);
                }
                sprintf(c->x86_model_id, "WinChip %s", name);
-               break;
+       }
 #endif
-       case 6:
+       if (c->x86 == 6 || c->x86 >= 7)
                init_c3(c);
-               break;
-       }
 #ifdef CONFIG_X86_64
        set_cpu_cap(c, X86_FEATURE_LFENCE_RDTSC);
 #endif
index c5d6f17..7824fc6 100644 (file)
@@ -23,6 +23,7 @@
 #include <linux/syscore_ops.h>
 #include <linux/pgtable.h>
 
+#include <asm/cmdline.h>
 #include <asm/stackprotector.h>
 #include <asm/perf_event.h>
 #include <asm/mmu_context.h>
@@ -1221,6 +1222,59 @@ static void detect_nopl(void)
 }
 
 /*
+ * We parse cpu parameters early because fpu__init_system() is executed
+ * before parse_early_param().
+ */
+static void __init cpu_parse_early_param(void)
+{
+       char arg[128];
+       char *argptr = arg;
+       int arglen, res, bit;
+
+#ifdef CONFIG_X86_32
+       if (cmdline_find_option_bool(boot_command_line, "no387"))
+#ifdef CONFIG_MATH_EMULATION
+               setup_clear_cpu_cap(X86_FEATURE_FPU);
+#else
+               pr_err("Option 'no387' required CONFIG_MATH_EMULATION enabled.\n");
+#endif
+
+       if (cmdline_find_option_bool(boot_command_line, "nofxsr"))
+               setup_clear_cpu_cap(X86_FEATURE_FXSR);
+#endif
+
+       if (cmdline_find_option_bool(boot_command_line, "noxsave"))
+               setup_clear_cpu_cap(X86_FEATURE_XSAVE);
+
+       if (cmdline_find_option_bool(boot_command_line, "noxsaveopt"))
+               setup_clear_cpu_cap(X86_FEATURE_XSAVEOPT);
+
+       if (cmdline_find_option_bool(boot_command_line, "noxsaves"))
+               setup_clear_cpu_cap(X86_FEATURE_XSAVES);
+
+       arglen = cmdline_find_option(boot_command_line, "clearcpuid", arg, sizeof(arg));
+       if (arglen <= 0)
+               return;
+
+       pr_info("Clearing CPUID bits:");
+       do {
+               res = get_option(&argptr, &bit);
+               if (res == 0 || res == 3)
+                       break;
+
+               /* If the argument was too long, the last bit may be cut off */
+               if (res == 1 && arglen >= sizeof(arg))
+                       break;
+
+               if (bit >= 0 && bit < NCAPINTS * 32) {
+                       pr_cont(" " X86_CAP_FMT, x86_cap_flag(bit));
+                       setup_clear_cpu_cap(bit);
+               }
+       } while (res == 2);
+       pr_cont("\n");
+}
+
+/*
  * Do minimum CPU detection early.
  * Fields really needed: vendor, cpuid_level, family, model, mask,
  * cache alignment.
@@ -1255,6 +1309,7 @@ static void __init early_identify_cpu(struct cpuinfo_x86 *c)
                get_cpu_cap(c);
                get_cpu_address_sizes(c);
                setup_force_cpu_cap(X86_FEATURE_CPUID);
+               cpu_parse_early_param();
 
                if (this_cpu->c_early_init)
                        this_cpu->c_early_init(c);
@@ -1413,15 +1468,7 @@ static void generic_identify(struct cpuinfo_x86 *c)
         * ESPFIX issue, we can change this.
         */
 #ifdef CONFIG_X86_32
-# ifdef CONFIG_PARAVIRT_XXL
-       do {
-               extern void native_iret(void);
-               if (pv_ops.cpu.iret == native_iret)
-                       set_cpu_bug(c, X86_BUG_ESPFIX);
-       } while (0);
-# else
        set_cpu_bug(c, X86_BUG_ESPFIX);
-# endif
 #endif
 }
 
index 3cbe24c..d502241 100644 (file)
@@ -69,6 +69,8 @@ static const struct cpuid_dep cpuid_deps[] = {
        { X86_FEATURE_CQM_MBM_TOTAL,            X86_FEATURE_CQM_LLC   },
        { X86_FEATURE_CQM_MBM_LOCAL,            X86_FEATURE_CQM_LLC   },
        { X86_FEATURE_AVX512_BF16,              X86_FEATURE_AVX512VL  },
+       { X86_FEATURE_ENQCMD,                   X86_FEATURE_XSAVES    },
+       { X86_FEATURE_PER_THREAD_MBA,           X86_FEATURE_MBA       },
        {}
 };
 
index 99be063..0c6b02d 100644 (file)
@@ -132,49 +132,49 @@ static enum smca_bank_types smca_get_bank_type(unsigned int bank)
 }
 
 static struct smca_hwid smca_hwid_mcatypes[] = {
-       /* { bank_type, hwid_mcatype, xec_bitmap } */
+       /* { bank_type, hwid_mcatype } */
 
        /* Reserved type */
-       { SMCA_RESERVED, HWID_MCATYPE(0x00, 0x0), 0x0 },
+       { SMCA_RESERVED, HWID_MCATYPE(0x00, 0x0)        },
 
        /* ZN Core (HWID=0xB0) MCA types */
-       { SMCA_LS,       HWID_MCATYPE(0xB0, 0x0), 0x1FFFFF },
-       { SMCA_LS_V2,    HWID_MCATYPE(0xB0, 0x10), 0xFFFFFF },
-       { SMCA_IF,       HWID_MCATYPE(0xB0, 0x1), 0x3FFF },
-       { SMCA_L2_CACHE, HWID_MCATYPE(0xB0, 0x2), 0xF },
-       { SMCA_DE,       HWID_MCATYPE(0xB0, 0x3), 0x1FF },
+       { SMCA_LS,       HWID_MCATYPE(0xB0, 0x0)        },
+       { SMCA_LS_V2,    HWID_MCATYPE(0xB0, 0x10)       },
+       { SMCA_IF,       HWID_MCATYPE(0xB0, 0x1)        },
+       { SMCA_L2_CACHE, HWID_MCATYPE(0xB0, 0x2)        },
+       { SMCA_DE,       HWID_MCATYPE(0xB0, 0x3)        },
        /* HWID 0xB0 MCATYPE 0x4 is Reserved */
-       { SMCA_EX,       HWID_MCATYPE(0xB0, 0x5), 0xFFF },
-       { SMCA_FP,       HWID_MCATYPE(0xB0, 0x6), 0x7F },
-       { SMCA_L3_CACHE, HWID_MCATYPE(0xB0, 0x7), 0xFF },
+       { SMCA_EX,       HWID_MCATYPE(0xB0, 0x5)        },
+       { SMCA_FP,       HWID_MCATYPE(0xB0, 0x6)        },
+       { SMCA_L3_CACHE, HWID_MCATYPE(0xB0, 0x7)        },
 
        /* Data Fabric MCA types */
-       { SMCA_CS,       HWID_MCATYPE(0x2E, 0x0), 0x1FF },
-       { SMCA_PIE,      HWID_MCATYPE(0x2E, 0x1), 0x1F },
-       { SMCA_CS_V2,    HWID_MCATYPE(0x2E, 0x2), 0x3FFF },
+       { SMCA_CS,       HWID_MCATYPE(0x2E, 0x0)        },
+       { SMCA_PIE,      HWID_MCATYPE(0x2E, 0x1)        },
+       { SMCA_CS_V2,    HWID_MCATYPE(0x2E, 0x2)        },
 
        /* Unified Memory Controller MCA type */
-       { SMCA_UMC,      HWID_MCATYPE(0x96, 0x0), 0xFF },
+       { SMCA_UMC,      HWID_MCATYPE(0x96, 0x0)        },
 
        /* Parameter Block MCA type */
-       { SMCA_PB,       HWID_MCATYPE(0x05, 0x0), 0x1 },
+       { SMCA_PB,       HWID_MCATYPE(0x05, 0x0)        },
 
        /* Platform Security Processor MCA type */
-       { SMCA_PSP,      HWID_MCATYPE(0xFF, 0x0), 0x1 },
-       { SMCA_PSP_V2,   HWID_MCATYPE(0xFF, 0x1), 0x3FFFF },
+       { SMCA_PSP,      HWID_MCATYPE(0xFF, 0x0)        },
+       { SMCA_PSP_V2,   HWID_MCATYPE(0xFF, 0x1)        },
 
        /* System Management Unit MCA type */
-       { SMCA_SMU,      HWID_MCATYPE(0x01, 0x0), 0x1 },
-       { SMCA_SMU_V2,   HWID_MCATYPE(0x01, 0x1), 0x7FF },
+       { SMCA_SMU,      HWID_MCATYPE(0x01, 0x0)        },
+       { SMCA_SMU_V2,   HWID_MCATYPE(0x01, 0x1)        },
 
        /* Microprocessor 5 Unit MCA type */
-       { SMCA_MP5,      HWID_MCATYPE(0x01, 0x2), 0x3FF },
+       { SMCA_MP5,      HWID_MCATYPE(0x01, 0x2)        },
 
        /* Northbridge IO Unit MCA type */
-       { SMCA_NBIO,     HWID_MCATYPE(0x18, 0x0), 0x1F },
+       { SMCA_NBIO,     HWID_MCATYPE(0x18, 0x0)        },
 
        /* PCI Express Unit MCA type */
-       { SMCA_PCIE,     HWID_MCATYPE(0x46, 0x0), 0x1F },
+       { SMCA_PCIE,     HWID_MCATYPE(0x46, 0x0)        },
 };
 
 struct smca_bank smca_banks[MAX_NR_BANKS];
index f43a78b..1c08cb9 100644 (file)
@@ -40,7 +40,6 @@
 #include <linux/debugfs.h>
 #include <linux/irq_work.h>
 #include <linux/export.h>
-#include <linux/jump_label.h>
 #include <linux/set_memory.h>
 #include <linux/sync_core.h>
 #include <linux/task_work.h>
@@ -373,42 +372,105 @@ static int msr_to_offset(u32 msr)
        return -1;
 }
 
+__visible bool ex_handler_rdmsr_fault(const struct exception_table_entry *fixup,
+                                     struct pt_regs *regs, int trapnr,
+                                     unsigned long error_code,
+                                     unsigned long fault_addr)
+{
+       pr_emerg("MSR access error: RDMSR from 0x%x at rIP: 0x%lx (%pS)\n",
+                (unsigned int)regs->cx, regs->ip, (void *)regs->ip);
+
+       show_stack_regs(regs);
+
+       panic("MCA architectural violation!\n");
+
+       while (true)
+               cpu_relax();
+
+       return true;
+}
+
 /* MSR access wrappers used for error injection */
-static u64 mce_rdmsrl(u32 msr)
+static noinstr u64 mce_rdmsrl(u32 msr)
 {
-       u64 v;
+       DECLARE_ARGS(val, low, high);
 
        if (__this_cpu_read(injectm.finished)) {
-               int offset = msr_to_offset(msr);
+               int offset;
+               u64 ret;
+
+               instrumentation_begin();
 
+               offset = msr_to_offset(msr);
                if (offset < 0)
-                       return 0;
-               return *(u64 *)((char *)this_cpu_ptr(&injectm) + offset);
-       }
+                       ret = 0;
+               else
+                       ret = *(u64 *)((char *)this_cpu_ptr(&injectm) + offset);
 
-       if (rdmsrl_safe(msr, &v)) {
-               WARN_ONCE(1, "mce: Unable to read MSR 0x%x!\n", msr);
-               /*
-                * Return zero in case the access faulted. This should
-                * not happen normally but can happen if the CPU does
-                * something weird, or if the code is buggy.
-                */
-               v = 0;
+               instrumentation_end();
+
+               return ret;
        }
 
-       return v;
+       /*
+        * RDMSR on MCA MSRs should not fault. If they do, this is very much an
+        * architectural violation and needs to be reported to hw vendor. Panic
+        * the box to not allow any further progress.
+        */
+       asm volatile("1: rdmsr\n"
+                    "2:\n"
+                    _ASM_EXTABLE_HANDLE(1b, 2b, ex_handler_rdmsr_fault)
+                    : EAX_EDX_RET(val, low, high) : "c" (msr));
+
+
+       return EAX_EDX_VAL(val, low, high);
+}
+
+__visible bool ex_handler_wrmsr_fault(const struct exception_table_entry *fixup,
+                                     struct pt_regs *regs, int trapnr,
+                                     unsigned long error_code,
+                                     unsigned long fault_addr)
+{
+       pr_emerg("MSR access error: WRMSR to 0x%x (tried to write 0x%08x%08x) at rIP: 0x%lx (%pS)\n",
+                (unsigned int)regs->cx, (unsigned int)regs->dx, (unsigned int)regs->ax,
+                 regs->ip, (void *)regs->ip);
+
+       show_stack_regs(regs);
+
+       panic("MCA architectural violation!\n");
+
+       while (true)
+               cpu_relax();
+
+       return true;
 }
 
-static void mce_wrmsrl(u32 msr, u64 v)
+static noinstr void mce_wrmsrl(u32 msr, u64 v)
 {
+       u32 low, high;
+
        if (__this_cpu_read(injectm.finished)) {
-               int offset = msr_to_offset(msr);
+               int offset;
+
+               instrumentation_begin();
 
+               offset = msr_to_offset(msr);
                if (offset >= 0)
                        *(u64 *)((char *)this_cpu_ptr(&injectm) + offset) = v;
+
+               instrumentation_end();
+
                return;
        }
-       wrmsrl(msr, v);
+
+       low  = (u32)v;
+       high = (u32)(v >> 32);
+
+       /* See comment in mce_rdmsrl() */
+       asm volatile("1: wrmsr\n"
+                    "2:\n"
+                    _ASM_EXTABLE_HANDLE(1b, 2b, ex_handler_wrmsr_fault)
+                    : : "c" (msr), "a"(low), "d" (high) : "memory");
 }
 
 /*
@@ -745,7 +807,7 @@ log_it:
                        goto clear_it;
 
                mce_read_aux(&m, i);
-               m.severity = mce_severity(&m, mca_cfg.tolerant, NULL, false);
+               m.severity = mce_severity(&m, NULL, mca_cfg.tolerant, NULL, false);
                /*
                 * Don't get the IP here because it's unlikely to
                 * have anything to do with the actual error location.
@@ -794,7 +856,7 @@ static int mce_no_way_out(struct mce *m, char **msg, unsigned long *validp,
                        quirk_no_way_out(i, m, regs);
 
                m->bank = i;
-               if (mce_severity(m, mca_cfg.tolerant, &tmp, true) >= MCE_PANIC_SEVERITY) {
+               if (mce_severity(m, regs, mca_cfg.tolerant, &tmp, true) >= MCE_PANIC_SEVERITY) {
                        mce_read_aux(m, i);
                        *msg = tmp;
                        return 1;
@@ -872,7 +934,6 @@ static void mce_reign(void)
        struct mce *m = NULL;
        int global_worst = 0;
        char *msg = NULL;
-       char *nmsg = NULL;
 
        /*
         * This CPU is the Monarch and the other CPUs have run
@@ -880,12 +941,10 @@ static void mce_reign(void)
         * Grade the severity of the errors of all the CPUs.
         */
        for_each_possible_cpu(cpu) {
-               int severity = mce_severity(&per_cpu(mces_seen, cpu),
-                                           mca_cfg.tolerant,
-                                           &nmsg, true);
-               if (severity > global_worst) {
-                       msg = nmsg;
-                       global_worst = severity;
+               struct mce *mtmp = &per_cpu(mces_seen, cpu);
+
+               if (mtmp->severity > global_worst) {
+                       global_worst = mtmp->severity;
                        m = &per_cpu(mces_seen, cpu);
                }
        }
@@ -895,8 +954,11 @@ static void mce_reign(void)
         * This dumps all the mces in the log buffer and stops the
         * other CPUs.
         */
-       if (m && global_worst >= MCE_PANIC_SEVERITY && mca_cfg.tolerant < 3)
+       if (m && global_worst >= MCE_PANIC_SEVERITY && mca_cfg.tolerant < 3) {
+               /* call mce_severity() to get "msg" for panic */
+               mce_severity(m, NULL, mca_cfg.tolerant, &msg, true);
                mce_panic("Fatal machine check", m, msg);
+       }
 
        /*
         * For UC somewhere we let the CPU who detects it handle it.
@@ -1105,7 +1167,7 @@ static noinstr bool mce_check_crashing_cpu(void)
        return false;
 }
 
-static void __mc_scan_banks(struct mce *m, struct mce *final,
+static void __mc_scan_banks(struct mce *m, struct pt_regs *regs, struct mce *final,
                            unsigned long *toclear, unsigned long *valid_banks,
                            int no_way_out, int *worst)
 {
@@ -1140,7 +1202,7 @@ static void __mc_scan_banks(struct mce *m, struct mce *final,
                /* Set taint even when machine check was not enabled. */
                add_taint(TAINT_MACHINE_CHECK, LOCKDEP_NOW_UNRELIABLE);
 
-               severity = mce_severity(m, cfg->tolerant, NULL, true);
+               severity = mce_severity(m, regs, cfg->tolerant, NULL, true);
 
                /*
                 * When machine check was for corrected/deferred handler don't
@@ -1188,13 +1250,34 @@ static void kill_me_maybe(struct callback_head *cb)
        if (!p->mce_ripv)
                flags |= MF_MUST_KILL;
 
-       if (!memory_failure(p->mce_addr >> PAGE_SHIFT, flags)) {
+       if (!memory_failure(p->mce_addr >> PAGE_SHIFT, flags) &&
+           !(p->mce_kflags & MCE_IN_KERNEL_COPYIN)) {
                set_mce_nospec(p->mce_addr >> PAGE_SHIFT, p->mce_whole_page);
+               sync_core();
                return;
        }
 
-       pr_err("Memory error not recovered");
-       kill_me_now(cb);
+       if (p->mce_vaddr != (void __user *)-1l) {
+               force_sig_mceerr(BUS_MCEERR_AR, p->mce_vaddr, PAGE_SHIFT);
+       } else {
+               pr_err("Memory error not recovered");
+               kill_me_now(cb);
+       }
+}
+
+static void queue_task_work(struct mce *m, int kill_it)
+{
+       current->mce_addr = m->addr;
+       current->mce_kflags = m->kflags;
+       current->mce_ripv = !!(m->mcgstatus & MCG_STATUS_RIPV);
+       current->mce_whole_page = whole_page(m);
+
+       if (kill_it)
+               current->mce_kill_me.func = kill_me_now;
+       else
+               current->mce_kill_me.func = kill_me_maybe;
+
+       task_work_add(current, &current->mce_kill_me, true);
 }
 
 /*
@@ -1291,7 +1374,7 @@ noinstr void do_machine_check(struct pt_regs *regs)
                order = mce_start(&no_way_out);
        }
 
-       __mc_scan_banks(&m, final, toclear, valid_banks, no_way_out, &worst);
+       __mc_scan_banks(&m, regs, final, toclear, valid_banks, no_way_out, &worst);
 
        if (!no_way_out)
                mce_clear_state(toclear);
@@ -1313,7 +1396,7 @@ noinstr void do_machine_check(struct pt_regs *regs)
                 * make sure we have the right "msg".
                 */
                if (worst >= MCE_PANIC_SEVERITY && mca_cfg.tolerant < 3) {
-                       mce_severity(&m, cfg->tolerant, &msg, true);
+                       mce_severity(&m, regs, cfg->tolerant, &msg, true);
                        mce_panic("Local fatal machine check!", &m, msg);
                }
        }
@@ -1330,25 +1413,16 @@ noinstr void do_machine_check(struct pt_regs *regs)
        if (worst > 0)
                irq_work_queue(&mce_irq_work);
 
-       mce_wrmsrl(MSR_IA32_MCG_STATUS, 0);
-
-       sync_core();
-
        if (worst != MCE_AR_SEVERITY && !kill_it)
-               return;
+               goto out;
 
        /* Fault was in user mode and we need to take some action */
        if ((m.cs & 3) == 3) {
                /* If this triggers there is no way to recover. Die hard. */
                BUG_ON(!on_thread_stack() || !user_mode(regs));
 
-               current->mce_addr = m.addr;
-               current->mce_ripv = !!(m.mcgstatus & MCG_STATUS_RIPV);
-               current->mce_whole_page = whole_page(&m);
-               current->mce_kill_me.func = kill_me_maybe;
-               if (kill_it)
-                       current->mce_kill_me.func = kill_me_now;
-               task_work_add(current, &current->mce_kill_me, true);
+               queue_task_work(&m, kill_it);
+
        } else {
                /*
                 * Handle an MCE which has happened in kernel space but from
@@ -1363,7 +1437,12 @@ noinstr void do_machine_check(struct pt_regs *regs)
                        if (!fixup_exception(regs, X86_TRAP_MC, 0, 0))
                                mce_panic("Failed kernel mode recovery", &m, msg);
                }
+
+               if (m.kflags & MCE_IN_KERNEL_COPYIN)
+                       queue_task_work(&m, kill_it);
        }
+out:
+       mce_wrmsrl(MSR_IA32_MCG_STATUS, 0);
 }
 EXPORT_SYMBOL_GPL(do_machine_check);
 
@@ -1904,6 +1983,8 @@ void (*machine_check_vector)(struct pt_regs *) = unexpected_machine_check;
 
 static __always_inline void exc_machine_check_kernel(struct pt_regs *regs)
 {
+       bool irq_state;
+
        WARN_ON_ONCE(user_mode(regs));
 
        /*
@@ -1914,7 +1995,7 @@ static __always_inline void exc_machine_check_kernel(struct pt_regs *regs)
            mce_check_crashing_cpu())
                return;
 
-       nmi_enter();
+       irq_state = idtentry_enter_nmi(regs);
        /*
         * The call targets are marked noinstr, but objtool can't figure
         * that out because it's an indirect call. Annotate it.
@@ -1925,7 +2006,7 @@ static __always_inline void exc_machine_check_kernel(struct pt_regs *regs)
        if (regs->flags & X86_EFLAGS_IF)
                trace_hardirqs_on_prepare();
        instrumentation_end();
-       nmi_exit();
+       idtentry_exit_nmi(regs, irq_state);
 }
 
 static __always_inline void exc_machine_check_user(struct pt_regs *regs)
@@ -2062,7 +2143,7 @@ void mce_disable_bank(int bank)
        and older.
  * mce=nobootlog Don't log MCEs from before booting.
  * mce=bios_cmci_threshold Don't program the CMCI threshold
- * mce=recovery force enable memcpy_mcsafe()
+ * mce=recovery force enable copy_mc_fragile()
  */
 static int __init mcheck_enable(char *str)
 {
@@ -2670,13 +2751,10 @@ static void __init mcheck_debugfs_init(void)
 static void __init mcheck_debugfs_init(void) { }
 #endif
 
-DEFINE_STATIC_KEY_FALSE(mcsafe_key);
-EXPORT_SYMBOL_GPL(mcsafe_key);
-
 static int __init mcheck_late_init(void)
 {
        if (mca_cfg.recovery)
-               static_branch_inc(&mcsafe_key);
+               enable_copy_mc_fragile();
 
        mcheck_debugfs_init();
 
index 03e5105..100fbee 100644 (file)
@@ -67,7 +67,9 @@ static int dev_mce_log(struct notifier_block *nb, unsigned long val,
 unlock:
        mutex_unlock(&mce_chrdev_read_mutex);
 
-       mce->kflags |= MCE_HANDLED_MCELOG;
+       if (boot_cpu_data.x86_vendor != X86_VENDOR_AMD)
+               mce->kflags |= MCE_HANDLED_MCELOG;
+
        return NOTIFY_OK;
 }
 
index 6473070..88dcc79 100644 (file)
@@ -38,7 +38,8 @@ int mce_gen_pool_add(struct mce *mce);
 int mce_gen_pool_init(void);
 struct llist_node *mce_gen_pool_prepare_records(void);
 
-extern int (*mce_severity)(struct mce *a, int tolerant, char **msg, bool is_excp);
+extern int (*mce_severity)(struct mce *a, struct pt_regs *regs,
+                          int tolerant, char **msg, bool is_excp);
 struct dentry *mce_get_debugfs_dir(void);
 
 extern mce_banks_t mce_banks_ce_disabled;
@@ -185,4 +186,14 @@ extern bool amd_filter_mce(struct mce *m);
 static inline bool amd_filter_mce(struct mce *m)                       { return false; };
 #endif
 
+__visible bool ex_handler_rdmsr_fault(const struct exception_table_entry *fixup,
+                                     struct pt_regs *regs, int trapnr,
+                                     unsigned long error_code,
+                                     unsigned long fault_addr);
+
+__visible bool ex_handler_wrmsr_fault(const struct exception_table_entry *fixup,
+                                     struct pt_regs *regs, int trapnr,
+                                     unsigned long error_code,
+                                     unsigned long fault_addr);
+
 #endif /* __X86_MCE_INTERNAL_H__ */
index e1da619..83df991 100644 (file)
@@ -9,9 +9,14 @@
 #include <linux/seq_file.h>
 #include <linux/init.h>
 #include <linux/debugfs.h>
-#include <asm/mce.h>
 #include <linux/uaccess.h>
 
+#include <asm/mce.h>
+#include <asm/intel-family.h>
+#include <asm/traps.h>
+#include <asm/insn.h>
+#include <asm/insn-eval.h>
+
 #include "internal.h"
 
 /*
@@ -40,9 +45,14 @@ static struct severity {
        unsigned char context;
        unsigned char excp;
        unsigned char covered;
+       unsigned char cpu_model;
+       unsigned char cpu_minstepping;
+       unsigned char bank_lo, bank_hi;
        char *msg;
 } severities[] = {
 #define MCESEV(s, m, c...) { .sev = MCE_ ## s ## _SEVERITY, .msg = m, ## c }
+#define BANK_RANGE(l, h) .bank_lo = l, .bank_hi = h
+#define MODEL_STEPPING(m, s) .cpu_model = m, .cpu_minstepping = s
 #define  KERNEL                .context = IN_KERNEL
 #define  USER          .context = IN_USER
 #define  KERNEL_RECOV  .context = IN_KERNEL_RECOV
@@ -90,14 +100,9 @@ static struct severity {
                EXCP, KERNEL_RECOV, MCGMASK(MCG_STATUS_RIPV, 0)
                ),
        MCESEV(
-               DEFERRED, "Deferred error",
-               NOSER, MASK(MCI_STATUS_UC|MCI_STATUS_DEFERRED|MCI_STATUS_POISON, MCI_STATUS_DEFERRED)
-               ),
-       MCESEV(
                KEEP, "Corrected error",
                NOSER, BITCLR(MCI_STATUS_UC)
                ),
-
        /*
         * known AO MCACODs reported via MCE or CMC:
         *
@@ -113,6 +118,18 @@ static struct severity {
                AO, "Action optional: last level cache writeback error",
                SER, MASK(MCI_UC_AR|MCACOD, MCI_STATUS_UC|MCACOD_L3WB)
                ),
+       /*
+        * Quirk for Skylake/Cascade Lake. Patrol scrubber may be configured
+        * to report uncorrected errors using CMCI with a special signature.
+        * UC=0, MSCOD=0x0010, MCACOD=binary(000X 0000 1100 XXXX) reported
+        * in one of the memory controller banks.
+        * Set severity to "AO" for same action as normal patrol scrub error.
+        */
+       MCESEV(
+               AO, "Uncorrected Patrol Scrub Error",
+               SER, MASK(MCI_STATUS_UC|MCI_ADDR|0xffffeff0, MCI_ADDR|0x001000c0),
+               MODEL_STEPPING(INTEL_FAM6_SKYLAKE_X, 4), BANK_RANGE(13, 18)
+       ),
 
        /* ignore OVER for UCNA */
        MCESEV(
@@ -198,6 +215,47 @@ static struct severity {
 #define mc_recoverable(mcg) (((mcg) & (MCG_STATUS_RIPV|MCG_STATUS_EIPV)) == \
                                (MCG_STATUS_RIPV|MCG_STATUS_EIPV))
 
+static bool is_copy_from_user(struct pt_regs *regs)
+{
+       u8 insn_buf[MAX_INSN_SIZE];
+       struct insn insn;
+       unsigned long addr;
+
+       if (copy_from_kernel_nofault(insn_buf, (void *)regs->ip, MAX_INSN_SIZE))
+               return false;
+
+       kernel_insn_init(&insn, insn_buf, MAX_INSN_SIZE);
+       insn_get_opcode(&insn);
+       if (!insn.opcode.got)
+               return false;
+
+       switch (insn.opcode.value) {
+       /* MOV mem,reg */
+       case 0x8A: case 0x8B:
+       /* MOVZ mem,reg */
+       case 0xB60F: case 0xB70F:
+               insn_get_modrm(&insn);
+               insn_get_sib(&insn);
+               if (!insn.modrm.got || !insn.sib.got)
+                       return false;
+               addr = (unsigned long)insn_get_addr_ref(&insn, regs);
+               break;
+       /* REP MOVS */
+       case 0xA4: case 0xA5:
+               addr = regs->si;
+               break;
+       default:
+               return false;
+       }
+
+       if (fault_in_kernel_space(addr))
+               return false;
+
+       current->mce_vaddr = (void __user *)addr;
+
+       return true;
+}
+
 /*
  * If mcgstatus indicated that ip/cs on the stack were
  * no good, then "m->cs" will be zero and we will have
@@ -209,15 +267,25 @@ static struct severity {
  * distinguish an exception taken in user from from one
  * taken in the kernel.
  */
-static int error_context(struct mce *m)
+static int error_context(struct mce *m, struct pt_regs *regs)
 {
+       enum handler_type t;
+
        if ((m->cs & 3) == 3)
                return IN_USER;
+       if (!mc_recoverable(m->mcgstatus))
+               return IN_KERNEL;
 
-       if (mc_recoverable(m->mcgstatus) && ex_has_fault_handler(m->ip)) {
+       t = ex_get_fault_handler_type(m->ip);
+       if (t == EX_HANDLER_FAULT) {
                m->kflags |= MCE_IN_KERNEL_RECOV;
                return IN_KERNEL_RECOV;
        }
+       if (t == EX_HANDLER_UACCESS && regs && is_copy_from_user(regs)) {
+               m->kflags |= MCE_IN_KERNEL_RECOV;
+               m->kflags |= MCE_IN_KERNEL_COPYIN;
+               return IN_KERNEL_RECOV;
+       }
 
        return IN_KERNEL;
 }
@@ -253,9 +321,10 @@ static int mce_severity_amd_smca(struct mce *m, enum context err_ctx)
  * See AMD Error Scope Hierarchy table in a newer BKDG. For example
  * 49125_15h_Models_30h-3Fh_BKDG.pdf, section "RAS Features"
  */
-static int mce_severity_amd(struct mce *m, int tolerant, char **msg, bool is_excp)
+static int mce_severity_amd(struct mce *m, struct pt_regs *regs, int tolerant,
+                           char **msg, bool is_excp)
 {
-       enum context ctx = error_context(m);
+       enum context ctx = error_context(m, regs);
 
        /* Processor Context Corrupt, no need to fumble too much, die! */
        if (m->status & MCI_STATUS_PCC)
@@ -305,10 +374,11 @@ static int mce_severity_amd(struct mce *m, int tolerant, char **msg, bool is_exc
        return MCE_KEEP_SEVERITY;
 }
 
-static int mce_severity_intel(struct mce *m, int tolerant, char **msg, bool is_excp)
+static int mce_severity_intel(struct mce *m, struct pt_regs *regs,
+                             int tolerant, char **msg, bool is_excp)
 {
        enum exception excp = (is_excp ? EXCP_CONTEXT : NO_EXCP);
-       enum context ctx = error_context(m);
+       enum context ctx = error_context(m, regs);
        struct severity *s;
 
        for (s = severities;; s++) {
@@ -324,6 +394,12 @@ static int mce_severity_intel(struct mce *m, int tolerant, char **msg, bool is_e
                        continue;
                if (s->excp && excp != s->excp)
                        continue;
+               if (s->cpu_model && boot_cpu_data.x86_model != s->cpu_model)
+                       continue;
+               if (s->cpu_minstepping && boot_cpu_data.x86_stepping < s->cpu_minstepping)
+                       continue;
+               if (s->bank_lo && (m->bank < s->bank_lo || m->bank > s->bank_hi))
+                       continue;
                if (msg)
                        *msg = s->msg;
                s->covered = 1;
@@ -336,7 +412,7 @@ static int mce_severity_intel(struct mce *m, int tolerant, char **msg, bool is_e
 }
 
 /* Default to mce_severity_intel */
-int (*mce_severity)(struct mce *m, int tolerant, char **msg, bool is_excp) =
+int (*mce_severity)(struct mce *m, struct pt_regs *regs, int tolerant, char **msg, bool is_excp) =
                    mce_severity_intel;
 
 void __init mcheck_vendor_init_severity(void)
index 3112544..9834a43 100644 (file)
@@ -248,7 +248,7 @@ static void __init ms_hyperv_init_platform(void)
                        hv_host_info_edx >> 24, hv_host_info_edx & 0xFFFFFF);
        }
 
-       if (ms_hyperv.features & HV_X64_ACCESS_FREQUENCY_MSRS &&
+       if (ms_hyperv.features & HV_ACCESS_FREQUENCY_MSRS &&
            ms_hyperv.misc_features & HV_FEATURE_FREQUENCY_MSRS_AVAILABLE) {
                x86_platform.calibrate_tsc = hv_get_tsc_khz;
                x86_platform.calibrate_cpu = hv_get_tsc_khz;
@@ -270,7 +270,7 @@ static void __init ms_hyperv_init_platform(void)
                crash_kexec_post_notifiers = true;
 
 #ifdef CONFIG_X86_LOCAL_APIC
-       if (ms_hyperv.features & HV_X64_ACCESS_FREQUENCY_MSRS &&
+       if (ms_hyperv.features & HV_ACCESS_FREQUENCY_MSRS &&
            ms_hyperv.misc_features & HV_FEATURE_FREQUENCY_MSRS_AVAILABLE) {
                /*
                 * Get the APIC frequency.
@@ -296,7 +296,7 @@ static void __init ms_hyperv_init_platform(void)
        machine_ops.shutdown = hv_machine_shutdown;
        machine_ops.crash_shutdown = hv_machine_crash_shutdown;
 #endif
-       if (ms_hyperv.features & HV_X64_ACCESS_TSC_INVARIANT) {
+       if (ms_hyperv.features & HV_ACCESS_TSC_INVARIANT) {
                wrmsrl(HV_X64_MSR_TSC_INVARIANT_CONTROL, 0x1);
                setup_force_cpu_cap(X86_FEATURE_TSC_RELIABLE);
        } else {
@@ -330,7 +330,7 @@ static void __init ms_hyperv_init_platform(void)
        alloc_intr_gate(HYPERVISOR_CALLBACK_VECTOR, asm_sysvec_hyperv_callback);
 
        /* Setup the IDT for reenlightenment notifications */
-       if (ms_hyperv.features & HV_X64_ACCESS_REENLIGHTENMENT) {
+       if (ms_hyperv.features & HV_ACCESS_REENLIGHTENMENT) {
                alloc_intr_gate(HYPERV_REENLIGHTENMENT_VECTOR,
                                asm_sysvec_hyperv_reenlightenment);
        }
index 6a9df71..e5f4ee8 100644 (file)
@@ -168,6 +168,7 @@ struct rdt_resource rdt_resources_all[] = {
                .name                   = "MB",
                .domains                = domain_init(RDT_RESOURCE_MBA),
                .cache_level            = 3,
+               .parse_ctrlval          = parse_bw,
                .format_str             = "%d=%*u",
                .fflags                 = RFTYPE_RES_MB,
        },
@@ -254,22 +255,30 @@ static bool __get_mem_config_intel(struct rdt_resource *r)
 {
        union cpuid_0x10_3_eax eax;
        union cpuid_0x10_x_edx edx;
-       u32 ebx, ecx;
+       u32 ebx, ecx, max_delay;
 
        cpuid_count(0x00000010, 3, &eax.full, &ebx, &ecx, &edx.full);
        r->num_closid = edx.split.cos_max + 1;
-       r->membw.max_delay = eax.split.max_delay + 1;
+       max_delay = eax.split.max_delay + 1;
        r->default_ctrl = MAX_MBA_BW;
+       r->membw.arch_needs_linear = true;
        if (ecx & MBA_IS_LINEAR) {
                r->membw.delay_linear = true;
-               r->membw.min_bw = MAX_MBA_BW - r->membw.max_delay;
-               r->membw.bw_gran = MAX_MBA_BW - r->membw.max_delay;
+               r->membw.min_bw = MAX_MBA_BW - max_delay;
+               r->membw.bw_gran = MAX_MBA_BW - max_delay;
        } else {
                if (!rdt_get_mb_table(r))
                        return false;
+               r->membw.arch_needs_linear = false;
        }
        r->data_width = 3;
 
+       if (boot_cpu_has(X86_FEATURE_PER_THREAD_MBA))
+               r->membw.throttle_mode = THREAD_THROTTLE_PER_THREAD;
+       else
+               r->membw.throttle_mode = THREAD_THROTTLE_MAX;
+       thread_throttle_mode_init();
+
        r->alloc_capable = true;
        r->alloc_enabled = true;
 
@@ -288,7 +297,13 @@ static bool __rdt_get_mem_config_amd(struct rdt_resource *r)
 
        /* AMD does not use delay */
        r->membw.delay_linear = false;
+       r->membw.arch_needs_linear = false;
 
+       /*
+        * AMD does not use memory delay throttle model to control
+        * the allocation like Intel does.
+        */
+       r->membw.throttle_mode = THREAD_THROTTLE_UNDEFINED;
        r->membw.min_bw = 0;
        r->membw.bw_gran = 1;
        /* Max value is 2048, Data width should be 4 in decimal */
@@ -346,19 +361,6 @@ static void rdt_get_cdp_l2_config(void)
        rdt_get_cdp_config(RDT_RESOURCE_L2, RDT_RESOURCE_L2CODE);
 }
 
-static int get_cache_id(int cpu, int level)
-{
-       struct cpu_cacheinfo *ci = get_cpu_cacheinfo(cpu);
-       int i;
-
-       for (i = 0; i < ci->num_leaves; i++) {
-               if (ci->info_list[i].level == level)
-                       return ci->info_list[i].id;
-       }
-
-       return -1;
-}
-
 static void
 mba_wrmsr_amd(struct rdt_domain *d, struct msr_param *m, struct rdt_resource *r)
 {
@@ -556,13 +558,13 @@ static int domain_setup_mon_state(struct rdt_resource *r, struct rdt_domain *d)
  */
 static void domain_add_cpu(int cpu, struct rdt_resource *r)
 {
-       int id = get_cache_id(cpu, r->cache_level);
+       int id = get_cpu_cacheinfo_id(cpu, r->cache_level);
        struct list_head *add_pos = NULL;
        struct rdt_domain *d;
 
        d = rdt_find_domain(r, id, &add_pos);
        if (IS_ERR(d)) {
-               pr_warn("Could't find cache id for cpu %d\n", cpu);
+               pr_warn("Couldn't find cache id for CPU %d\n", cpu);
                return;
        }
 
@@ -602,12 +604,12 @@ static void domain_add_cpu(int cpu, struct rdt_resource *r)
 
 static void domain_remove_cpu(int cpu, struct rdt_resource *r)
 {
-       int id = get_cache_id(cpu, r->cache_level);
+       int id = get_cpu_cacheinfo_id(cpu, r->cache_level);
        struct rdt_domain *d;
 
        d = rdt_find_domain(r, id, NULL);
        if (IS_ERR_OR_NULL(d)) {
-               pr_warn("Could't find cache id for cpu %d\n", cpu);
+               pr_warn("Couldn't find cache id for CPU %d\n", cpu);
                return;
        }
 
@@ -918,12 +920,12 @@ static __init void rdt_init_res_defs_intel(void)
                    r->rid == RDT_RESOURCE_L3CODE ||
                    r->rid == RDT_RESOURCE_L2 ||
                    r->rid == RDT_RESOURCE_L2DATA ||
-                   r->rid == RDT_RESOURCE_L2CODE)
-                       r->cbm_validate = cbm_validate_intel;
-               else if (r->rid == RDT_RESOURCE_MBA) {
+                   r->rid == RDT_RESOURCE_L2CODE) {
+                       r->cache.arch_has_sparse_bitmaps = false;
+                       r->cache.arch_has_empty_bitmaps = false;
+               } else if (r->rid == RDT_RESOURCE_MBA) {
                        r->msr_base = MSR_IA32_MBA_THRTL_BASE;
                        r->msr_update = mba_wrmsr_intel;
-                       r->parse_ctrlval = parse_bw_intel;
                }
        }
 }
@@ -938,12 +940,12 @@ static __init void rdt_init_res_defs_amd(void)
                    r->rid == RDT_RESOURCE_L3CODE ||
                    r->rid == RDT_RESOURCE_L2 ||
                    r->rid == RDT_RESOURCE_L2DATA ||
-                   r->rid == RDT_RESOURCE_L2CODE)
-                       r->cbm_validate = cbm_validate_amd;
-               else if (r->rid == RDT_RESOURCE_MBA) {
+                   r->rid == RDT_RESOURCE_L2CODE) {
+                       r->cache.arch_has_sparse_bitmaps = true;
+                       r->cache.arch_has_empty_bitmaps = true;
+               } else if (r->rid == RDT_RESOURCE_MBA) {
                        r->msr_base = MSR_IA32_MBA_BW_BASE;
                        r->msr_update = mba_wrmsr_amd;
-                       r->parse_ctrlval = parse_bw_amd;
                }
        }
 }
index 934c8fb..c877642 100644 (file)
 
 /*
  * Check whether MBA bandwidth percentage value is correct. The value is
- * checked against the minimum and maximum bandwidth values specified by
- * the hardware. The allocated bandwidth percentage is rounded to the next
- * control step available on the hardware.
- */
-static bool bw_validate_amd(char *buf, unsigned long *data,
-                           struct rdt_resource *r)
-{
-       unsigned long bw;
-       int ret;
-
-       ret = kstrtoul(buf, 10, &bw);
-       if (ret) {
-               rdt_last_cmd_printf("Non-decimal digit in MB value %s\n", buf);
-               return false;
-       }
-
-       if (bw < r->membw.min_bw || bw > r->default_ctrl) {
-               rdt_last_cmd_printf("MB value %ld out of range [%d,%d]\n", bw,
-                                   r->membw.min_bw, r->default_ctrl);
-               return false;
-       }
-
-       *data = roundup(bw, (unsigned long)r->membw.bw_gran);
-       return true;
-}
-
-int parse_bw_amd(struct rdt_parse_data *data, struct rdt_resource *r,
-                struct rdt_domain *d)
-{
-       unsigned long bw_val;
-
-       if (d->have_new_ctrl) {
-               rdt_last_cmd_printf("Duplicate domain %d\n", d->id);
-               return -EINVAL;
-       }
-
-       if (!bw_validate_amd(data->buf, &bw_val, r))
-               return -EINVAL;
-
-       d->new_ctrl = bw_val;
-       d->have_new_ctrl = true;
-
-       return 0;
-}
-
-/*
- * Check whether MBA bandwidth percentage value is correct. The value is
  * checked against the minimum and max bandwidth values specified by the
  * hardware. The allocated bandwidth percentage is rounded to the next
  * control step available on the hardware.
@@ -82,7 +35,7 @@ static bool bw_validate(char *buf, unsigned long *data, struct rdt_resource *r)
        /*
         * Only linear delay values is supported for current Intel SKUs.
         */
-       if (!r->membw.delay_linear) {
+       if (!r->membw.delay_linear && r->membw.arch_needs_linear) {
                rdt_last_cmd_puts("No support for non-linear MB domains\n");
                return false;
        }
@@ -104,8 +57,8 @@ static bool bw_validate(char *buf, unsigned long *data, struct rdt_resource *r)
        return true;
 }
 
-int parse_bw_intel(struct rdt_parse_data *data, struct rdt_resource *r,
-                  struct rdt_domain *d)
+int parse_bw(struct rdt_parse_data *data, struct rdt_resource *r,
+            struct rdt_domain *d)
 {
        unsigned long bw_val;
 
@@ -123,12 +76,14 @@ int parse_bw_intel(struct rdt_parse_data *data, struct rdt_resource *r,
 }
 
 /*
- * Check whether a cache bit mask is valid. The SDM says:
+ * Check whether a cache bit mask is valid.
+ * For Intel the SDM says:
  *     Please note that all (and only) contiguous '1' combinations
  *     are allowed (e.g. FFFFH, 0FF0H, 003CH, etc.).
  * Additionally Haswell requires at least two bits set.
+ * AMD allows non-contiguous bitmasks.
  */
-bool cbm_validate_intel(char *buf, u32 *data, struct rdt_resource *r)
+static bool cbm_validate(char *buf, u32 *data, struct rdt_resource *r)
 {
        unsigned long first_bit, zero_bit, val;
        unsigned int cbm_len = r->cache.cbm_len;
@@ -140,7 +95,8 @@ bool cbm_validate_intel(char *buf, u32 *data, struct rdt_resource *r)
                return false;
        }
 
-       if (val == 0 || val > r->default_ctrl) {
+       if ((!r->cache.arch_has_empty_bitmaps && val == 0) ||
+           val > r->default_ctrl) {
                rdt_last_cmd_puts("Mask out of range\n");
                return false;
        }
@@ -148,7 +104,9 @@ bool cbm_validate_intel(char *buf, u32 *data, struct rdt_resource *r)
        first_bit = find_first_bit(&val, cbm_len);
        zero_bit = find_next_zero_bit(&val, cbm_len, first_bit);
 
-       if (find_next_bit(&val, cbm_len, zero_bit) < cbm_len) {
+       /* Are non-contiguous bitmaps allowed? */
+       if (!r->cache.arch_has_sparse_bitmaps &&
+           (find_next_bit(&val, cbm_len, zero_bit) < cbm_len)) {
                rdt_last_cmd_printf("The mask %lx has non-consecutive 1-bits\n", val);
                return false;
        }
@@ -164,30 +122,6 @@ bool cbm_validate_intel(char *buf, u32 *data, struct rdt_resource *r)
 }
 
 /*
- * Check whether a cache bit mask is valid. AMD allows non-contiguous
- * bitmasks
- */
-bool cbm_validate_amd(char *buf, u32 *data, struct rdt_resource *r)
-{
-       unsigned long val;
-       int ret;
-
-       ret = kstrtoul(buf, 16, &val);
-       if (ret) {
-               rdt_last_cmd_printf("Non-hex character in the mask %s\n", buf);
-               return false;
-       }
-
-       if (val > r->default_ctrl) {
-               rdt_last_cmd_puts("Mask out of range\n");
-               return false;
-       }
-
-       *data = val;
-       return true;
-}
-
-/*
  * Read one cache bit mask (hex). Check that it is valid for the current
  * resource type.
  */
@@ -212,7 +146,7 @@ int parse_cbm(struct rdt_parse_data *data, struct rdt_resource *r,
                return -EINVAL;
        }
 
-       if (!r->cbm_validate(data->buf, &cbm_val, r))
+       if (!cbm_validate(data->buf, &cbm_val, r))
                return -EINVAL;
 
        if ((rdtgrp->mode == RDT_MODE_EXCLUSIVE ||
index 5ffa322..80fa997 100644 (file)
@@ -283,7 +283,6 @@ struct rftype {
  * struct mbm_state - status for each MBM counter in each domain
  * @chunks:    Total data moved (multiply by rdt_group.mon_scale to get bytes)
  * @prev_msr   Value of IA32_QM_CTR for this RMID last time we read it
- * @chunks_bw  Total local data moved. Used for bandwidth calculation
  * @prev_bw_msr:Value of previous IA32_QM_CTR for bandwidth counting
  * @prev_bw    The most recent bandwidth in MBps
  * @delta_bw   Difference between the current and previous bandwidth
@@ -292,7 +291,6 @@ struct rftype {
 struct mbm_state {
        u64     chunks;
        u64     prev_msr;
-       u64     chunks_bw;
        u64     prev_bw_msr;
        u32     prev_bw;
        u32     delta_bw;
@@ -360,6 +358,8 @@ struct msr_param {
  *                     in a cache bit mask
  * @shareable_bits:    Bitmask of shareable resource with other
  *                     executing entities
+ * @arch_has_sparse_bitmaps:   True if a bitmap like f00f is valid.
+ * @arch_has_empty_bitmaps:    True if the '0' bitmap is valid.
  */
 struct rdt_cache {
        unsigned int    cbm_len;
@@ -367,25 +367,43 @@ struct rdt_cache {
        unsigned int    cbm_idx_mult;
        unsigned int    cbm_idx_offset;
        unsigned int    shareable_bits;
+       bool            arch_has_sparse_bitmaps;
+       bool            arch_has_empty_bitmaps;
+};
+
+/**
+ * enum membw_throttle_mode - System's memory bandwidth throttling mode
+ * @THREAD_THROTTLE_UNDEFINED: Not relevant to the system
+ * @THREAD_THROTTLE_MAX:       Memory bandwidth is throttled at the core
+ *                             always using smallest bandwidth percentage
+ *                             assigned to threads, aka "max throttling"
+ * @THREAD_THROTTLE_PER_THREAD:        Memory bandwidth is throttled at the thread
+ */
+enum membw_throttle_mode {
+       THREAD_THROTTLE_UNDEFINED = 0,
+       THREAD_THROTTLE_MAX,
+       THREAD_THROTTLE_PER_THREAD,
 };
 
 /**
  * struct rdt_membw - Memory bandwidth allocation related data
- * @max_delay:         Max throttle delay. Delay is the hardware
- *                     representation for memory bandwidth.
  * @min_bw:            Minimum memory bandwidth percentage user can request
  * @bw_gran:           Granularity at which the memory bandwidth is allocated
  * @delay_linear:      True if memory B/W delay is in linear scale
+ * @arch_needs_linear: True if we can't configure non-linear resources
+ * @throttle_mode:     Bandwidth throttling mode when threads request
+ *                     different memory bandwidths
  * @mba_sc:            True if MBA software controller(mba_sc) is enabled
  * @mb_map:            Mapping of memory B/W percentage to memory B/W delay
  */
 struct rdt_membw {
-       u32             max_delay;
-       u32             min_bw;
-       u32             bw_gran;
-       u32             delay_linear;
-       bool            mba_sc;
-       u32             *mb_map;
+       u32                             min_bw;
+       u32                             bw_gran;
+       u32                             delay_linear;
+       bool                            arch_needs_linear;
+       enum membw_throttle_mode        throttle_mode;
+       bool                            mba_sc;
+       u32                             *mb_map;
 };
 
 static inline bool is_llc_occupancy_enabled(void)
@@ -437,7 +455,6 @@ struct rdt_parse_data {
  * @cache:             Cache allocation related data
  * @format_str:                Per resource format string to show domain value
  * @parse_ctrlval:     Per resource function pointer to parse control values
- * @cbm_validate       Cache bitmask validate function
  * @evt_list:          List of monitoring events
  * @num_rmid:          Number of RMIDs available
  * @mon_scale:         cqm counter * mon_scale = occupancy in bytes
@@ -464,7 +481,6 @@ struct rdt_resource {
        int (*parse_ctrlval)(struct rdt_parse_data *data,
                             struct rdt_resource *r,
                             struct rdt_domain *d);
-       bool (*cbm_validate)(char *buf, u32 *data, struct rdt_resource *r);
        struct list_head        evt_list;
        int                     num_rmid;
        unsigned int            mon_scale;
@@ -474,10 +490,8 @@ struct rdt_resource {
 
 int parse_cbm(struct rdt_parse_data *data, struct rdt_resource *r,
              struct rdt_domain *d);
-int parse_bw_intel(struct rdt_parse_data *data, struct rdt_resource *r,
-                  struct rdt_domain *d);
-int parse_bw_amd(struct rdt_parse_data *data, struct rdt_resource *r,
-                struct rdt_domain *d);
+int parse_bw(struct rdt_parse_data *data, struct rdt_resource *r,
+            struct rdt_domain *d);
 
 extern struct mutex rdtgroup_mutex;
 
@@ -609,8 +623,7 @@ void cqm_setup_limbo_handler(struct rdt_domain *dom, unsigned long delay_ms);
 void cqm_handle_limbo(struct work_struct *work);
 bool has_busy_rmid(struct rdt_resource *r, struct rdt_domain *d);
 void __check_limbo(struct rdt_domain *d, bool force_free);
-bool cbm_validate_intel(char *buf, u32 *data, struct rdt_resource *r);
-bool cbm_validate_amd(char *buf, u32 *data, struct rdt_resource *r);
 void rdt_domain_reconfigure_cdp(struct rdt_resource *r);
+void __init thread_throttle_mode_init(void);
 
 #endif /* _ASM_X86_RESCTRL_INTERNAL_H */
index 837d7d0..54dffe5 100644 (file)
@@ -279,8 +279,7 @@ static void mbm_bw_count(u32 rmid, struct rmid_read *rr)
                return;
 
        chunks = mbm_overflow_count(m->prev_bw_msr, tval, rr->r->mbm_width);
-       m->chunks_bw += chunks;
-       m->chunks = m->chunks_bw;
+       m->chunks += chunks;
        cur_bw = (chunks * r->mon_scale) >> 20;
 
        if (m->delta_comp)
@@ -478,19 +477,13 @@ void cqm_handle_limbo(struct work_struct *work)
        mutex_lock(&rdtgroup_mutex);
 
        r = &rdt_resources_all[RDT_RESOURCE_L3];
-       d = get_domain_from_cpu(cpu, r);
-
-       if (!d) {
-               pr_warn_once("Failure to get domain for limbo worker\n");
-               goto out_unlock;
-       }
+       d = container_of(work, struct rdt_domain, cqm_limbo.work);
 
        __check_limbo(d, false);
 
        if (has_busy_rmid(r, d))
                schedule_delayed_work_on(cpu, &d->cqm_limbo, delay);
 
-out_unlock:
        mutex_unlock(&rdtgroup_mutex);
 }
 
@@ -520,10 +513,7 @@ void mbm_handle_overflow(struct work_struct *work)
                goto out_unlock;
 
        r = &rdt_resources_all[RDT_RESOURCE_L3];
-
-       d = get_domain_from_cpu(cpu, r);
-       if (!d)
-               goto out_unlock;
+       d = container_of(work, struct rdt_domain, mbm_over.work);
 
        list_for_each_entry(prgrp, &rdt_all_groups, rdtgroup_list) {
                mbm_update(r, d, prgrp->mon.rmid);
index 3f844f1..b494187 100644 (file)
@@ -592,6 +592,18 @@ static int __rdtgroup_move_task(struct task_struct *tsk,
        return ret;
 }
 
+static bool is_closid_match(struct task_struct *t, struct rdtgroup *r)
+{
+       return (rdt_alloc_capable &&
+              (r->type == RDTCTRL_GROUP) && (t->closid == r->closid));
+}
+
+static bool is_rmid_match(struct task_struct *t, struct rdtgroup *r)
+{
+       return (rdt_mon_capable &&
+              (r->type == RDTMON_GROUP) && (t->rmid == r->mon.rmid));
+}
+
 /**
  * rdtgroup_tasks_assigned - Test if tasks have been assigned to resource group
  * @r: Resource group
@@ -607,8 +619,7 @@ int rdtgroup_tasks_assigned(struct rdtgroup *r)
 
        rcu_read_lock();
        for_each_process_thread(p, t) {
-               if ((r->type == RDTCTRL_GROUP && t->closid == r->closid) ||
-                   (r->type == RDTMON_GROUP && t->rmid == r->mon.rmid)) {
+               if (is_closid_match(t, r) || is_rmid_match(t, r)) {
                        ret = 1;
                        break;
                }
@@ -706,8 +717,7 @@ static void show_rdt_tasks(struct rdtgroup *r, struct seq_file *s)
 
        rcu_read_lock();
        for_each_process_thread(p, t) {
-               if ((r->type == RDTCTRL_GROUP && t->closid == r->closid) ||
-                   (r->type == RDTMON_GROUP && t->rmid == r->mon.rmid))
+               if (is_closid_match(t, r) || is_rmid_match(t, r))
                        seq_printf(s, "%d\n", t->pid);
        }
        rcu_read_unlock();
@@ -1017,6 +1027,19 @@ static int max_threshold_occ_show(struct kernfs_open_file *of,
        return 0;
 }
 
+static int rdt_thread_throttle_mode_show(struct kernfs_open_file *of,
+                                        struct seq_file *seq, void *v)
+{
+       struct rdt_resource *r = of->kn->parent->priv;
+
+       if (r->membw.throttle_mode == THREAD_THROTTLE_PER_THREAD)
+               seq_puts(seq, "per-thread\n");
+       else
+               seq_puts(seq, "max\n");
+
+       return 0;
+}
+
 static ssize_t max_threshold_occ_write(struct kernfs_open_file *of,
                                       char *buf, size_t nbytes, loff_t off)
 {
@@ -1513,6 +1536,17 @@ static struct rftype res_common_files[] = {
                .seq_show       = rdt_delay_linear_show,
                .fflags         = RF_CTRL_INFO | RFTYPE_RES_MB,
        },
+       /*
+        * Platform specific which (if any) capabilities are provided by
+        * thread_throttle_mode. Defer "fflags" initialization to platform
+        * discovery.
+        */
+       {
+               .name           = "thread_throttle_mode",
+               .mode           = 0444,
+               .kf_ops         = &rdtgroup_kf_single_ops,
+               .seq_show       = rdt_thread_throttle_mode_show,
+       },
        {
                .name           = "max_threshold_occupancy",
                .mode           = 0644,
@@ -1583,7 +1617,7 @@ static int rdtgroup_add_files(struct kernfs_node *kn, unsigned long fflags)
        lockdep_assert_held(&rdtgroup_mutex);
 
        for (rft = rfts; rft < rfts + len; rft++) {
-               if ((fflags & rft->fflags) == rft->fflags) {
+               if (rft->fflags && ((fflags & rft->fflags) == rft->fflags)) {
                        ret = rdtgroup_add_file(kn, rft);
                        if (ret)
                                goto error;
@@ -1600,6 +1634,33 @@ error:
        return ret;
 }
 
+static struct rftype *rdtgroup_get_rftype_by_name(const char *name)
+{
+       struct rftype *rfts, *rft;
+       int len;
+
+       rfts = res_common_files;
+       len = ARRAY_SIZE(res_common_files);
+
+       for (rft = rfts; rft < rfts + len; rft++) {
+               if (!strcmp(rft->name, name))
+                       return rft;
+       }
+
+       return NULL;
+}
+
+void __init thread_throttle_mode_init(void)
+{
+       struct rftype *rft;
+
+       rft = rdtgroup_get_rftype_by_name("thread_throttle_mode");
+       if (!rft)
+               return;
+
+       rft->fflags = RF_CTRL_INFO | RFTYPE_RES_MB;
+}
+
 /**
  * rdtgroup_kn_mode_restrict - Restrict user access to named resctrl file
  * @r: The resource group with which the file is associated.
@@ -2245,18 +2306,6 @@ static int reset_all_ctrls(struct rdt_resource *r)
        return 0;
 }
 
-static bool is_closid_match(struct task_struct *t, struct rdtgroup *r)
-{
-       return (rdt_alloc_capable &&
-               (r->type == RDTCTRL_GROUP) && (t->closid == r->closid));
-}
-
-static bool is_rmid_match(struct task_struct *t, struct rdtgroup *r)
-{
-       return (rdt_mon_capable &&
-               (r->type == RDTMON_GROUP) && (t->rmid == r->mon.rmid));
-}
-
 /*
  * Move tasks from one to the other group. If @from is NULL, then all tasks
  * in the systems are moved unconditionally (used for teardown).
@@ -3196,7 +3245,7 @@ int __init rdtgroup_init(void)
         * It may also be ok since that would enable debugging of RDT before
         * resctrl is mounted.
         * The reason why the debugfs directory is created here and not in
-        * rdt_mount() is because rdt_mount() takes rdtgroup_mutex and
+        * rdt_get_tree() is because rdt_get_tree() takes rdtgroup_mutex and
         * during the debugfs directory creation also &sb->s_type->i_mutex_key
         * (the lockdep class of inode->i_rwsem). Other filesystem
         * interactions (eg. SyS_getdents) have the lock ordering:
index 62b137c..2eb0a8c 100644 (file)
@@ -35,12 +35,14 @@ static const struct cpuid_bit cpuid_bits[] = {
        { X86_FEATURE_CDP_L3,           CPUID_ECX,  2, 0x00000010, 1 },
        { X86_FEATURE_CDP_L2,           CPUID_ECX,  2, 0x00000010, 2 },
        { X86_FEATURE_MBA,              CPUID_EBX,  3, 0x00000010, 0 },
+       { X86_FEATURE_PER_THREAD_MBA,   CPUID_ECX,  0, 0x00000010, 3 },
        { X86_FEATURE_HW_PSTATE,        CPUID_EDX,  7, 0x80000007, 0 },
        { X86_FEATURE_CPB,              CPUID_EDX,  9, 0x80000007, 0 },
        { X86_FEATURE_PROC_FEEDBACK,    CPUID_EDX, 11, 0x80000007, 0 },
        { X86_FEATURE_MBA,              CPUID_EBX,  6, 0x80000008, 0 },
        { X86_FEATURE_SME,              CPUID_EAX,  0, 0x8000001f, 0 },
        { X86_FEATURE_SEV,              CPUID_EAX,  1, 0x8000001f, 0 },
+       { X86_FEATURE_SME_COHERENT,     CPUID_EAX, 10, 0x8000001f, 0 },
        { 0, 0, 0, 0, 0 }
 };
 
index a0e8fc7..ddffd80 100644 (file)
@@ -229,8 +229,8 @@ static int dt_irqdomain_alloc(struct irq_domain *domain, unsigned int virq,
 
        it = &of_ioapic_type[type_index];
        ioapic_set_alloc_attr(&tmp, NUMA_NO_NODE, it->trigger, it->polarity);
-       tmp.ioapic_id = mpc_ioapic_id(mp_irqdomain_ioapic_idx(domain));
-       tmp.ioapic_pin = fwspec->param[0];
+       tmp.devid = mpc_ioapic_id(mp_irqdomain_ioapic_idx(domain));
+       tmp.ioapic.pin = fwspec->param[0];
 
        return mp_irqdomain_alloc(domain, virq, nr_irqs, &tmp);
 }
index 48ce445..ea8d51e 100644 (file)
@@ -115,7 +115,8 @@ void show_opcodes(struct pt_regs *regs, const char *loglvl)
        unsigned long prologue = regs->ip - PROLOGUE_SIZE;
 
        if (copy_code(regs, opcodes, prologue, sizeof(opcodes))) {
-               printk("%sCode: Bad RIP value.\n", loglvl);
+               printk("%sCode: Unable to access opcode bytes at RIP 0x%lx.\n",
+                      loglvl, prologue);
        } else {
                printk("%sCode: %" __stringify(PROLOGUE_SIZE) "ph <%02x> %"
                       __stringify(EPILOGUE_SIZE) "ph\n", loglvl, opcodes,
index 61ddc3a..701f196 100644 (file)
@@ -5,7 +5,6 @@
 #include <asm/fpu/internal.h>
 #include <asm/tlbflush.h>
 #include <asm/setup.h>
-#include <asm/cmdline.h>
 
 #include <linux/sched.h>
 #include <linux/sched/task.h>
@@ -238,51 +237,11 @@ static void __init fpu__init_system_ctx_switch(void)
 }
 
 /*
- * We parse fpu parameters early because fpu__init_system() is executed
- * before parse_early_param().
- */
-static void __init fpu__init_parse_early_param(void)
-{
-       char arg[32];
-       char *argptr = arg;
-       int bit;
-
-#ifdef CONFIG_X86_32
-       if (cmdline_find_option_bool(boot_command_line, "no387"))
-#ifdef CONFIG_MATH_EMULATION
-               setup_clear_cpu_cap(X86_FEATURE_FPU);
-#else
-               pr_err("Option 'no387' required CONFIG_MATH_EMULATION enabled.\n");
-#endif
-
-       if (cmdline_find_option_bool(boot_command_line, "nofxsr"))
-               setup_clear_cpu_cap(X86_FEATURE_FXSR);
-#endif
-
-       if (cmdline_find_option_bool(boot_command_line, "noxsave"))
-               setup_clear_cpu_cap(X86_FEATURE_XSAVE);
-
-       if (cmdline_find_option_bool(boot_command_line, "noxsaveopt"))
-               setup_clear_cpu_cap(X86_FEATURE_XSAVEOPT);
-
-       if (cmdline_find_option_bool(boot_command_line, "noxsaves"))
-               setup_clear_cpu_cap(X86_FEATURE_XSAVES);
-
-       if (cmdline_find_option(boot_command_line, "clearcpuid", arg,
-                               sizeof(arg)) &&
-           get_option(&argptr, &bit) &&
-           bit >= 0 &&
-           bit < NCAPINTS * 32)
-               setup_clear_cpu_cap(bit);
-}
-
-/*
  * Called on the boot CPU once per system bootup, to set up the initial
  * FPU state that is later cloned into all processes:
  */
 void __init fpu__init_system(struct cpuinfo_x86 *c)
 {
-       fpu__init_parse_early_param();
        fpu__init_system_early_generic(c);
 
        /*
index 038e19c..5d80474 100644 (file)
@@ -37,6 +37,7 @@ static const char *xfeature_names[] =
        "AVX-512 ZMM_Hi256"             ,
        "Processor Trace (unused)"      ,
        "Protection Keys User registers",
+       "PASID state",
        "unknown xstate feature"        ,
 };
 
@@ -51,6 +52,7 @@ static short xsave_cpuid_features[] __initdata = {
        X86_FEATURE_AVX512F,
        X86_FEATURE_INTEL_PT,
        X86_FEATURE_PKU,
+       X86_FEATURE_ENQCMD,
 };
 
 /*
@@ -318,6 +320,7 @@ static void __init print_xstate_features(void)
        print_xstate_feature(XFEATURE_MASK_ZMM_Hi256);
        print_xstate_feature(XFEATURE_MASK_Hi16_ZMM);
        print_xstate_feature(XFEATURE_MASK_PKRU);
+       print_xstate_feature(XFEATURE_MASK_PASID);
 }
 
 /*
@@ -592,6 +595,7 @@ static void check_xstate_against_struct(int nr)
        XCHECK_SZ(sz, nr, XFEATURE_ZMM_Hi256, struct avx_512_zmm_uppers_state);
        XCHECK_SZ(sz, nr, XFEATURE_Hi16_ZMM,  struct avx_512_hi16_state);
        XCHECK_SZ(sz, nr, XFEATURE_PKRU,      struct pkru_state);
+       XCHECK_SZ(sz, nr, XFEATURE_PASID,     struct ia32_pasid_state);
 
        /*
         * Make *SURE* to add any feature numbers in below if
@@ -601,7 +605,7 @@ static void check_xstate_against_struct(int nr)
        if ((nr < XFEATURE_YMM) ||
            (nr >= XFEATURE_MAX) ||
            (nr == XFEATURE_PT_UNIMPLEMENTED_SO_FAR) ||
-           ((nr >= XFEATURE_RSRVD_COMP_10) && (nr <= XFEATURE_LBR))) {
+           ((nr >= XFEATURE_RSRVD_COMP_11) && (nr <= XFEATURE_LBR))) {
                WARN_ONCE(1, "no structure for xstate: %d\n", nr);
                XSTATE_WARN_ON(1);
        }
@@ -1398,3 +1402,60 @@ int proc_pid_arch_status(struct seq_file *m, struct pid_namespace *ns,
        return 0;
 }
 #endif /* CONFIG_PROC_PID_ARCH_STATUS */
+
+#ifdef CONFIG_IOMMU_SUPPORT
+void update_pasid(void)
+{
+       u64 pasid_state;
+       u32 pasid;
+
+       if (!cpu_feature_enabled(X86_FEATURE_ENQCMD))
+               return;
+
+       if (!current->mm)
+               return;
+
+       pasid = READ_ONCE(current->mm->pasid);
+       /* Set the valid bit in the PASID MSR/state only for valid pasid. */
+       pasid_state = pasid == PASID_DISABLED ?
+                     pasid : pasid | MSR_IA32_PASID_VALID;
+
+       /*
+        * No need to hold fregs_lock() since the task's fpstate won't
+        * be changed by others (e.g. ptrace) while the task is being
+        * switched to or is in IPI.
+        */
+       if (!test_thread_flag(TIF_NEED_FPU_LOAD)) {
+               /* The MSR is active and can be directly updated. */
+               wrmsrl(MSR_IA32_PASID, pasid_state);
+       } else {
+               struct fpu *fpu = &current->thread.fpu;
+               struct ia32_pasid_state *ppasid_state;
+               struct xregs_state *xsave;
+
+               /*
+                * The CPU's xstate registers are not currently active. Just
+                * update the PASID state in the memory buffer here. The
+                * PASID MSR will be loaded when returning to user mode.
+                */
+               xsave = &fpu->state.xsave;
+               xsave->header.xfeatures |= XFEATURE_MASK_PASID;
+               ppasid_state = get_xsave_addr(xsave, XFEATURE_PASID);
+               /*
+                * Since XFEATURE_MASK_PASID is set in xfeatures, ppasid_state
+                * won't be NULL and no need to check its value.
+                *
+                * Only update the task's PASID state when it's different
+                * from the mm's pasid.
+                */
+               if (ppasid_state->pasid != pasid_state) {
+                       /*
+                        * Invalid fpregs so that state restoring will pick up
+                        * the PASID state.
+                        */
+                       __fpu_invalidate_fpregs_state(fpu);
+                       ppasid_state->pasid = pasid_state;
+               }
+       }
+}
+#endif /* CONFIG_IOMMU_SUPPORT */
index b98ff62..03aa33b 100644 (file)
@@ -442,42 +442,6 @@ int hw_breakpoint_arch_parse(struct perf_event *bp,
 }
 
 /*
- * Dump the debug register contents to the user.
- * We can't dump our per cpu values because it
- * may contain cpu wide breakpoint, something that
- * doesn't belong to the current task.
- *
- * TODO: include non-ptrace user breakpoints (perf)
- */
-void aout_dump_debugregs(struct user *dump)
-{
-       int i;
-       int dr7 = 0;
-       struct perf_event *bp;
-       struct arch_hw_breakpoint *info;
-       struct thread_struct *thread = &current->thread;
-
-       for (i = 0; i < HBP_NUM; i++) {
-               bp = thread->ptrace_bps[i];
-
-               if (bp && !bp->attr.disabled) {
-                       dump->u_debugreg[i] = bp->attr.bp_addr;
-                       info = counter_arch_bp(bp);
-                       dr7 |= encode_dr7(i, info->len, info->type);
-               } else {
-                       dump->u_debugreg[i] = 0;
-               }
-       }
-
-       dump->u_debugreg[4] = 0;
-       dump->u_debugreg[5] = 0;
-       dump->u_debugreg[6] = current->thread.debugreg6;
-
-       dump->u_debugreg[7] = dr7;
-}
-EXPORT_SYMBOL_GPL(aout_dump_debugregs);
-
-/*
  * Release the user breakpoints used by ptrace
  */
 void flush_ptrace_hw_breakpoint(struct task_struct *tsk)
@@ -490,7 +454,7 @@ void flush_ptrace_hw_breakpoint(struct task_struct *tsk)
                t->ptrace_bps[i] = NULL;
        }
 
-       t->debugreg6 = 0;
+       t->virtual_dr6 = 0;
        t->ptrace_dr7 = 0;
 }
 
@@ -500,7 +464,7 @@ void hw_breakpoint_restore(void)
        set_debugreg(__this_cpu_read(cpu_debugreg[1]), 1);
        set_debugreg(__this_cpu_read(cpu_debugreg[2]), 2);
        set_debugreg(__this_cpu_read(cpu_debugreg[3]), 3);
-       set_debugreg(current->thread.debugreg6, 6);
+       set_debugreg(DR6_RESERVED, 6);
        set_debugreg(__this_cpu_read(cpu_dr7), 7);
 }
 EXPORT_SYMBOL_GPL(hw_breakpoint_restore);
@@ -523,10 +487,10 @@ EXPORT_SYMBOL_GPL(hw_breakpoint_restore);
  */
 static int hw_breakpoint_handler(struct die_args *args)
 {
-       int i, cpu, rc = NOTIFY_STOP;
+       int i, rc = NOTIFY_STOP;
        struct perf_event *bp;
-       unsigned long dr6;
        unsigned long *dr6_p;
+       unsigned long dr6;
 
        /* The DR6 value is pointed by args->err */
        dr6_p = (unsigned long *)ERR_PTR(args->err);
@@ -540,14 +504,6 @@ static int hw_breakpoint_handler(struct die_args *args)
        if ((dr6 & DR_TRAP_BITS) == 0)
                return NOTIFY_DONE;
 
-       /*
-        * Assert that local interrupts are disabled
-        * Reset the DRn bits in the virtualized register value.
-        * The ptrace trigger routine will add in whatever is needed.
-        */
-       current->thread.debugreg6 &= ~DR_TRAP_BITS;
-       cpu = get_cpu();
-
        /* Handle all the breakpoints that were triggered */
        for (i = 0; i < HBP_NUM; ++i) {
                if (likely(!(dr6 & (DR_TRAP0 << i))))
@@ -561,7 +517,7 @@ static int hw_breakpoint_handler(struct die_args *args)
                 */
                rcu_read_lock();
 
-               bp = per_cpu(bp_per_reg[i], cpu);
+               bp = this_cpu_read(bp_per_reg[i]);
                /*
                 * Reset the 'i'th TRAP bit in dr6 to denote completion of
                 * exception handling
@@ -592,12 +548,10 @@ static int hw_breakpoint_handler(struct die_args *args)
         * breakpoints (to generate signals) and b) when the system has
         * taken exception due to multiple causes
         */
-       if ((current->thread.debugreg6 & DR_TRAP_BITS) ||
+       if ((current->thread.virtual_dr6 & DR_TRAP_BITS) ||
            (dr6 & (~DR_TRAP_BITS)))
                rc = NOTIFY_DONE;
 
-       put_cpu();
-
        return rc;
 }
 
index 7ecf9ba..1bffb87 100644 (file)
@@ -149,9 +149,6 @@ static const __initconst struct idt_data apic_idts[] = {
 # ifdef CONFIG_IRQ_WORK
        INTG(IRQ_WORK_VECTOR,                   asm_sysvec_irq_work),
 # endif
-# ifdef CONFIG_X86_UV
-       INTG(UV_BAU_MESSAGE,                    asm_sysvec_uv_bau_message),
-# endif
        INTG(SPURIOUS_APIC_VECTOR,              asm_sysvec_spurious_apic_interrupt),
        INTG(ERROR_APIC_VECTOR,                 asm_sysvec_error_interrupt),
 #endif
index c2f02f3..ff7878d 100644 (file)
@@ -629,9 +629,10 @@ static void kgdb_hw_overflow_handler(struct perf_event *event,
        struct task_struct *tsk = current;
        int i;
 
-       for (i = 0; i < 4; i++)
+       for (i = 0; i < 4; i++) {
                if (breakinfo[i].enabled)
-                       tsk->thread.debugreg6 |= (DR_TRAP0 << i);
+                       tsk->thread.virtual_dr6 |= (DR_TRAP0 << i);
+       }
 }
 
 void kgdb_arch_late(void)
index fdadc37..db8f869 100644 (file)
@@ -767,124 +767,21 @@ asm(
 NOKPROBE_SYMBOL(kretprobe_trampoline);
 STACK_FRAME_NON_STANDARD(kretprobe_trampoline);
 
+
 /*
  * Called from kretprobe_trampoline
  */
 __used __visible void *trampoline_handler(struct pt_regs *regs)
 {
-       struct kretprobe_instance *ri = NULL;
-       struct hlist_head *head, empty_rp;
-       struct hlist_node *tmp;
-       unsigned long flags, orig_ret_address = 0;
-       unsigned long trampoline_address = (unsigned long)&kretprobe_trampoline;
-       kprobe_opcode_t *correct_ret_addr = NULL;
-       void *frame_pointer;
-       bool skipped = false;
-
-       /*
-        * Set a dummy kprobe for avoiding kretprobe recursion.
-        * Since kretprobe never run in kprobe handler, kprobe must not
-        * be running at this point.
-        */
-       kprobe_busy_begin();
-
-       INIT_HLIST_HEAD(&empty_rp);
-       kretprobe_hash_lock(current, &head, &flags);
        /* fixup registers */
        regs->cs = __KERNEL_CS;
 #ifdef CONFIG_X86_32
-       regs->cs |= get_kernel_rpl();
        regs->gs = 0;
 #endif
-       /* We use pt_regs->sp for return address holder. */
-       frame_pointer = &regs->sp;
-       regs->ip = trampoline_address;
+       regs->ip = (unsigned long)&kretprobe_trampoline;
        regs->orig_ax = ~0UL;
 
-       /*
-        * It is possible to have multiple instances associated with a given
-        * task either because multiple functions in the call path have
-        * return probes installed on them, and/or more than one
-        * return probe was registered for a target function.
-        *
-        * We can handle this because:
-        *     - instances are always pushed into the head of the list
-        *     - when multiple return probes are registered for the same
-        *       function, the (chronologically) first instance's ret_addr
-        *       will be the real return address, and all the rest will
-        *       point to kretprobe_trampoline.
-        */
-       hlist_for_each_entry(ri, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-               /*
-                * Return probes must be pushed on this hash list correct
-                * order (same as return order) so that it can be popped
-                * correctly. However, if we find it is pushed it incorrect
-                * order, this means we find a function which should not be
-                * probed, because the wrong order entry is pushed on the
-                * path of processing other kretprobe itself.
-                */
-               if (ri->fp != frame_pointer) {
-                       if (!skipped)
-                               pr_warn("kretprobe is stacked incorrectly. Trying to fixup.\n");
-                       skipped = true;
-                       continue;
-               }
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-               if (skipped)
-                       pr_warn("%ps must be blacklisted because of incorrect kretprobe order\n",
-                               ri->rp->kp.addr);
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       kretprobe_assert(ri, orig_ret_address, trampoline_address);
-
-       correct_ret_addr = ri->ret_addr;
-       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
-               if (ri->task != current)
-                       /* another task is sharing our hash bucket */
-                       continue;
-               if (ri->fp != frame_pointer)
-                       continue;
-
-               orig_ret_address = (unsigned long)ri->ret_addr;
-               if (ri->rp && ri->rp->handler) {
-                       __this_cpu_write(current_kprobe, &ri->rp->kp);
-                       ri->ret_addr = correct_ret_addr;
-                       ri->rp->handler(ri, regs);
-                       __this_cpu_write(current_kprobe, &kprobe_busy);
-               }
-
-               recycle_rp_inst(ri, &empty_rp);
-
-               if (orig_ret_address != trampoline_address)
-                       /*
-                        * This is the real return address. Any other
-                        * instances associated with this task are for
-                        * other calls deeper on the call stack
-                        */
-                       break;
-       }
-
-       kretprobe_hash_unlock(current, &flags);
-
-       kprobe_busy_end();
-
-       hlist_for_each_entry_safe(ri, tmp, &empty_rp, hlist) {
-               hlist_del(&ri->hlist);
-               kfree(ri);
-       }
-       return (void *)orig_ret_address;
+       return (void *)kretprobe_trampoline_handler(regs, &kretprobe_trampoline, &regs->sp);
 }
 NOKPROBE_SYMBOL(trampoline_handler);
 
index 40f3804..15e0640 100644 (file)
@@ -18,6 +18,7 @@
 #include <linux/ftrace.h>
 #include <linux/frame.h>
 #include <linux/pgtable.h>
+#include <linux/static_call.h>
 
 #include <asm/text-patching.h>
 #include <asm/cacheflush.h>
@@ -181,7 +182,6 @@ optimized_callback(struct optimized_kprobe *op, struct pt_regs *regs)
                /* Save skipped registers */
                regs->cs = __KERNEL_CS;
 #ifdef CONFIG_X86_32
-               regs->cs |= get_kernel_rpl();
                regs->gs = 0;
 #endif
                regs->ip = (unsigned long)op->kp.addr + INT3_INSN_SIZE;
@@ -210,7 +210,8 @@ static int copy_optimized_instructions(u8 *dest, u8 *src, u8 *real)
        /* Check whether the address range is reserved */
        if (ftrace_text_reserved(src, src + len - 1) ||
            alternatives_text_reserved(src, src + len - 1) ||
-           jump_label_text_reserved(src, src + len - 1))
+           jump_label_text_reserved(src, src + len - 1) ||
+           static_call_text_reserved(src, src + len - 1))
                return -EBUSY;
 
        return len;
index baa2109..8f06449 100644 (file)
@@ -24,7 +24,6 @@
 #include <asm/irqdomain.h>
 #include <asm/mtrr.h>
 #include <asm/mpspec.h>
-#include <asm/io_apic.h>
 #include <asm/proto.h>
 #include <asm/bios_ebda.h>
 #include <asm/e820/api.h>
@@ -46,11 +45,6 @@ static int __init mpf_checksum(unsigned char *mp, int len)
        return sum & 0xFF;
 }
 
-int __init default_mpc_apic_id(struct mpc_cpu *m)
-{
-       return m->apicid;
-}
-
 static void __init MP_processor_info(struct mpc_cpu *m)
 {
        int apicid;
@@ -61,7 +55,7 @@ static void __init MP_processor_info(struct mpc_cpu *m)
                return;
        }
 
-       apicid = x86_init.mpparse.mpc_apic_id(m);
+       apicid = m->apicid;
 
        if (m->cpuflag & CPU_BOOTPROCESSOR) {
                bootup_cpu = " (Bootup-CPU)";
@@ -73,7 +67,7 @@ static void __init MP_processor_info(struct mpc_cpu *m)
 }
 
 #ifdef CONFIG_X86_IO_APIC
-void __init default_mpc_oem_bus_info(struct mpc_bus *m, char *str)
+static void __init mpc_oem_bus_info(struct mpc_bus *m, char *str)
 {
        memcpy(str, m->bustype, 6);
        str[6] = 0;
@@ -84,7 +78,7 @@ static void __init MP_bus_info(struct mpc_bus *m)
 {
        char str[7];
 
-       x86_init.mpparse.mpc_oem_bus_info(m, str);
+       mpc_oem_bus_info(m, str);
 
 #if MAX_MP_BUSSES < 256
        if (m->busid >= MAX_MP_BUSSES) {
@@ -100,9 +94,6 @@ static void __init MP_bus_info(struct mpc_bus *m)
                mp_bus_id_to_type[m->busid] = MP_BUS_ISA;
 #endif
        } else if (strncmp(str, BUSTYPE_PCI, sizeof(BUSTYPE_PCI) - 1) == 0) {
-               if (x86_init.mpparse.mpc_oem_pci_bus)
-                       x86_init.mpparse.mpc_oem_pci_bus(m);
-
                clear_bit(m->busid, mp_bus_not_pci);
 #ifdef CONFIG_EISA
                mp_bus_id_to_type[m->busid] = MP_BUS_PCI;
@@ -198,8 +189,6 @@ static void __init smp_dump_mptable(struct mpc_table *mpc, unsigned char *mpt)
                        1, mpc, mpc->length, 1);
 }
 
-void __init default_smp_read_mpc_oem(struct mpc_table *mpc) { }
-
 static int __init smp_read_mpc(struct mpc_table *mpc, unsigned early)
 {
        char str[16];
@@ -218,14 +207,7 @@ static int __init smp_read_mpc(struct mpc_table *mpc, unsigned early)
        if (early)
                return 1;
 
-       if (mpc->oemptr)
-               x86_init.mpparse.smp_read_mpc_oem(mpc);
-
-       /*
-        *      Now process the configuration blocks.
-        */
-       x86_init.mpparse.mpc_record(0);
-
+       /* Now process the configuration blocks. */
        while (count < mpc->length) {
                switch (*mpt) {
                case MP_PROCESSOR:
@@ -256,7 +238,6 @@ static int __init smp_read_mpc(struct mpc_table *mpc, unsigned early)
                        count = mpc->length;
                        break;
                }
-               x86_init.mpparse.mpc_record(1);
        }
 
        if (!num_processors)
index 49dcfb8..c0d4098 100644 (file)
@@ -80,18 +80,30 @@ static ssize_t msr_read(struct file *file, char __user *buf,
 
 static int filter_write(u32 reg)
 {
+       /*
+        * MSRs writes usually happen all at once, and can easily saturate kmsg.
+        * Only allow one message every 30 seconds.
+        *
+        * It's possible to be smarter here and do it (for example) per-MSR, but
+        * it would certainly be more complex, and this is enough at least to
+        * avoid saturating the ring buffer.
+        */
+       static DEFINE_RATELIMIT_STATE(fw_rs, 30 * HZ, 1);
+
        switch (allow_writes) {
        case MSR_WRITES_ON:  return 0;
        case MSR_WRITES_OFF: return -EPERM;
        default: break;
        }
 
+       if (!__ratelimit(&fw_rs))
+               return 0;
+
        if (reg == MSR_IA32_ENERGY_PERF_BIAS)
                return 0;
 
-       pr_err_ratelimited("Write to unrecognized MSR 0x%x by %s\n"
-                          "Please report to x86@kernel.org\n",
-                          reg, current->comm);
+       pr_err("Write to unrecognized MSR 0x%x by %s (pid: %d). Please report to x86@kernel.org.\n",
+              reg, current->comm, current->pid);
 
        return 0;
 }
index 4fc9954..4738166 100644 (file)
@@ -102,7 +102,6 @@ fs_initcall(nmi_warning_debugfs);
 
 static void nmi_check_duration(struct nmiaction *action, u64 duration)
 {
-       u64 whole_msecs = READ_ONCE(action->max_duration);
        int remainder_ns, decimal_msecs;
 
        if (duration < nmi_longest_ns || duration < action->max_duration)
@@ -110,12 +109,12 @@ static void nmi_check_duration(struct nmiaction *action, u64 duration)
 
        action->max_duration = duration;
 
-       remainder_ns = do_div(whole_msecs, (1000 * 1000));
+       remainder_ns = do_div(duration, (1000 * 1000));
        decimal_msecs = remainder_ns / 1000;
 
        printk_ratelimited(KERN_INFO
                "INFO: NMI handler (%ps) took too long to run: %lld.%03d msecs\n",
-               action->handler, whole_msecs, decimal_msecs);
+               action->handler, duration, decimal_msecs);
 }
 
 static int nmi_handle(unsigned int type, struct pt_regs *regs)
index de2138b..6c3407b 100644 (file)
@@ -263,13 +263,8 @@ enum paravirt_lazy_mode paravirt_get_lazy_mode(void)
 struct pv_info pv_info = {
        .name = "bare hardware",
 #ifdef CONFIG_PARAVIRT_XXL
-       .kernel_rpl = 0,
-       .shared_kernel_pmd = 1, /* Only used when CONFIG_X86_PAE is set */
-
-#ifdef CONFIG_X86_64
        .extra_user_64bit_cs = __USER_CS,
 #endif
-#endif
 };
 
 /* 64-bit pagetable entries */
@@ -305,9 +300,7 @@ struct paravirt_patch_template pv_ops = {
        .cpu.load_idt           = native_load_idt,
        .cpu.store_tr           = native_store_tr,
        .cpu.load_tls           = native_load_tls,
-#ifdef CONFIG_X86_64
        .cpu.load_gs_index      = native_load_gs_index,
-#endif
        .cpu.write_ldt_entry    = native_write_ldt_entry,
        .cpu.write_gdt_entry    = native_write_gdt_entry,
        .cpu.write_idt_entry    = native_write_idt_entry,
@@ -317,9 +310,7 @@ struct paravirt_patch_template pv_ops = {
 
        .cpu.load_sp0           = native_load_sp0,
 
-#ifdef CONFIG_X86_64
        .cpu.usergs_sysret64    = native_usergs_sysret64,
-#endif
        .cpu.iret               = native_iret,
        .cpu.swapgs             = native_swapgs,
 
@@ -369,24 +360,16 @@ struct paravirt_patch_template pv_ops = {
        .mmu.release_p4d        = paravirt_nop,
 
        .mmu.set_pte            = native_set_pte,
-       .mmu.set_pte_at         = native_set_pte_at,
        .mmu.set_pmd            = native_set_pmd,
 
        .mmu.ptep_modify_prot_start     = __ptep_modify_prot_start,
        .mmu.ptep_modify_prot_commit    = __ptep_modify_prot_commit,
 
-#if CONFIG_PGTABLE_LEVELS >= 3
-#ifdef CONFIG_X86_PAE
-       .mmu.set_pte_atomic     = native_set_pte_atomic,
-       .mmu.pte_clear          = native_pte_clear,
-       .mmu.pmd_clear          = native_pmd_clear,
-#endif
        .mmu.set_pud            = native_set_pud,
 
        .mmu.pmd_val            = PTE_IDENT,
        .mmu.make_pmd           = PTE_IDENT,
 
-#if CONFIG_PGTABLE_LEVELS >= 4
        .mmu.pud_val            = PTE_IDENT,
        .mmu.make_pud           = PTE_IDENT,
 
@@ -398,8 +381,6 @@ struct paravirt_patch_template pv_ops = {
 
        .mmu.set_pgd            = native_set_pgd,
 #endif /* CONFIG_PGTABLE_LEVELS >= 5 */
-#endif /* CONFIG_PGTABLE_LEVELS >= 4 */
-#endif /* CONFIG_PGTABLE_LEVELS >= 3 */
 
        .mmu.pte_val            = PTE_IDENT,
        .mmu.pgd_val            = PTE_IDENT,
index 3eff63c..ace6e33 100644 (file)
@@ -26,14 +26,10 @@ struct patch_xxl {
        const unsigned char     mmu_read_cr3[3];
        const unsigned char     mmu_write_cr3[3];
        const unsigned char     irq_restore_fl[2];
-# ifdef CONFIG_X86_64
        const unsigned char     cpu_wbinvd[2];
        const unsigned char     cpu_usergs_sysret64[6];
        const unsigned char     cpu_swapgs[3];
        const unsigned char     mov64[3];
-# else
-       const unsigned char     cpu_iret[1];
-# endif
 };
 
 static const struct patch_xxl patch_data_xxl = {
@@ -42,7 +38,6 @@ static const struct patch_xxl patch_data_xxl = {
        .irq_save_fl            = { 0x9c, 0x58 },       // pushf; pop %[re]ax
        .mmu_read_cr2           = { 0x0f, 0x20, 0xd0 }, // mov %cr2, %[re]ax
        .mmu_read_cr3           = { 0x0f, 0x20, 0xd8 }, // mov %cr3, %[re]ax
-# ifdef CONFIG_X86_64
        .mmu_write_cr3          = { 0x0f, 0x22, 0xdf }, // mov %rdi, %cr3
        .irq_restore_fl         = { 0x57, 0x9d },       // push %rdi; popfq
        .cpu_wbinvd             = { 0x0f, 0x09 },       // wbinvd
@@ -50,19 +45,11 @@ static const struct patch_xxl patch_data_xxl = {
                                    0x48, 0x0f, 0x07 }, // swapgs; sysretq
        .cpu_swapgs             = { 0x0f, 0x01, 0xf8 }, // swapgs
        .mov64                  = { 0x48, 0x89, 0xf8 }, // mov %rdi, %rax
-# else
-       .mmu_write_cr3          = { 0x0f, 0x22, 0xd8 }, // mov %eax, %cr3
-       .irq_restore_fl         = { 0x50, 0x9d },       // push %eax; popf
-       .cpu_iret               = { 0xcf },             // iret
-# endif
 };
 
 unsigned int paravirt_patch_ident_64(void *insn_buff, unsigned int len)
 {
-#ifdef CONFIG_X86_64
        return PATCH(xxl, mov64, insn_buff, len);
-#endif
-       return 0;
 }
 # endif /* CONFIG_PARAVIRT_XXL */
 
@@ -98,13 +85,9 @@ unsigned int native_patch(u8 type, void *insn_buff, unsigned long addr,
        PATCH_CASE(mmu, read_cr3, xxl, insn_buff, len);
        PATCH_CASE(mmu, write_cr3, xxl, insn_buff, len);
 
-# ifdef CONFIG_X86_64
        PATCH_CASE(cpu, usergs_sysret64, xxl, insn_buff, len);
        PATCH_CASE(cpu, swapgs, xxl, insn_buff, len);
        PATCH_CASE(cpu, wbinvd, xxl, insn_buff, len);
-# else
-       PATCH_CASE(cpu, iret, xxl, insn_buff, len);
-# endif
 #endif
 
 #ifdef CONFIG_PARAVIRT_SPINLOCKS
index 9afefe3..df342be 100644 (file)
@@ -407,7 +407,7 @@ unsigned long x86_gsbase_read_cpu_inactive(void)
 {
        unsigned long gsbase;
 
-       if (static_cpu_has(X86_FEATURE_FSGSBASE)) {
+       if (boot_cpu_has(X86_FEATURE_FSGSBASE)) {
                unsigned long flags;
 
                local_irq_save(flags);
@@ -422,7 +422,7 @@ unsigned long x86_gsbase_read_cpu_inactive(void)
 
 void x86_gsbase_write_cpu_inactive(unsigned long gsbase)
 {
-       if (static_cpu_has(X86_FEATURE_FSGSBASE)) {
+       if (boot_cpu_has(X86_FEATURE_FSGSBASE)) {
                unsigned long flags;
 
                local_irq_save(flags);
@@ -439,7 +439,7 @@ unsigned long x86_fsbase_read_task(struct task_struct *task)
 
        if (task == current)
                fsbase = x86_fsbase_read_cpu();
-       else if (static_cpu_has(X86_FEATURE_FSGSBASE) ||
+       else if (boot_cpu_has(X86_FEATURE_FSGSBASE) ||
                 (task->thread.fsindex == 0))
                fsbase = task->thread.fsbase;
        else
@@ -454,7 +454,7 @@ unsigned long x86_gsbase_read_task(struct task_struct *task)
 
        if (task == current)
                gsbase = x86_gsbase_read_cpu_inactive();
-       else if (static_cpu_has(X86_FEATURE_FSGSBASE) ||
+       else if (boot_cpu_has(X86_FEATURE_FSGSBASE) ||
                 (task->thread.gsindex == 0))
                gsbase = task->thread.gsbase;
        else
index e7537c5..bedca01 100644 (file)
@@ -465,7 +465,7 @@ static void ptrace_triggered(struct perf_event *bp,
                        break;
        }
 
-       thread->debugreg6 |= (DR_TRAP0 << i);
+       thread->virtual_dr6 |= (DR_TRAP0 << i);
 }
 
 /*
@@ -601,7 +601,7 @@ static unsigned long ptrace_get_debugreg(struct task_struct *tsk, int n)
                if (bp)
                        val = bp->hw.info.address;
        } else if (n == 6) {
-               val = thread->debugreg6;
+               val = thread->virtual_dr6 ^ DR6_RESERVED; /* Flip back to arch polarity */
        } else if (n == 7) {
                val = thread->ptrace_dr7;
        }
@@ -657,7 +657,7 @@ static int ptrace_set_debugreg(struct task_struct *tsk, int n,
        if (n < HBP_NUM) {
                rc = ptrace_set_breakpoint_addr(tsk, n, val);
        } else if (n == 6) {
-               thread->debugreg6 = val;
+               thread->virtual_dr6 = val ^ DR6_RESERVED; /* Flip to positive polarity */
                rc = 0;
        } else if (n == 7) {
                rc = ptrace_write_dr7(tsk, val);
index 1b10717..6d0df6a 100644 (file)
@@ -8,6 +8,7 @@
 
 #include <asm/hpet.h>
 #include <asm/setup.h>
+#include <asm/mce.h>
 
 #if defined(CONFIG_X86_IO_APIC) && defined(CONFIG_SMP) && defined(CONFIG_PCI)
 
@@ -624,10 +625,6 @@ static void amd_disable_seq_and_redirect_scrub(struct pci_dev *dev)
 DECLARE_PCI_FIXUP_FINAL(PCI_VENDOR_ID_AMD, PCI_DEVICE_ID_AMD_16H_NB_F3,
                        amd_disable_seq_and_redirect_scrub);
 
-#if defined(CONFIG_X86_64) && defined(CONFIG_X86_MCE)
-#include <linux/jump_label.h>
-#include <asm/string_64.h>
-
 /* Ivy Bridge, Haswell, Broadwell */
 static void quirk_intel_brickland_xeon_ras_cap(struct pci_dev *pdev)
 {
@@ -636,7 +633,7 @@ static void quirk_intel_brickland_xeon_ras_cap(struct pci_dev *pdev)
        pci_read_config_dword(pdev, 0x84, &capid0);
 
        if (capid0 & 0x10)
-               static_branch_inc(&mcsafe_key);
+               enable_copy_mc_fragile();
 }
 
 /* Skylake */
@@ -653,7 +650,7 @@ static void quirk_intel_purley_xeon_ras_cap(struct pci_dev *pdev)
         * enabled, so memory machine check recovery is also enabled.
         */
        if ((capid0 & 0xc0) == 0xc0 || (capid5 & 0x1e0))
-               static_branch_inc(&mcsafe_key);
+               enable_copy_mc_fragile();
 
 }
 DECLARE_PCI_FIXUP_EARLY(PCI_VENDOR_ID_INTEL, 0x0ec3, quirk_intel_brickland_xeon_ras_cap);
@@ -661,7 +658,6 @@ DECLARE_PCI_FIXUP_EARLY(PCI_VENDOR_ID_INTEL, 0x2fc0, quirk_intel_brickland_xeon_
 DECLARE_PCI_FIXUP_EARLY(PCI_VENDOR_ID_INTEL, 0x6fc0, quirk_intel_brickland_xeon_ras_cap);
 DECLARE_PCI_FIXUP_EARLY(PCI_VENDOR_ID_INTEL, 0x2083, quirk_intel_purley_xeon_ras_cap);
 #endif
-#endif
 
 bool x86_apple_machine;
 EXPORT_SYMBOL(x86_apple_machine);
index 3511736..fa16b90 100644 (file)
@@ -19,6 +19,7 @@
 #include <linux/hugetlb.h>
 #include <linux/tboot.h>
 #include <linux/usb/xhci-dbgp.h>
+#include <linux/static_call.h>
 
 #include <uapi/linux/mount.h>
 
@@ -849,6 +850,7 @@ void __init setup_arch(char **cmdline_p)
        early_cpu_init();
        arch_init_ideal_nops();
        jump_label_init();
+       static_call_init();
        early_ioremap_init();
 
        setup_olpc_ofw_pgd();
@@ -1077,6 +1079,7 @@ void __init setup_arch(char **cmdline_p)
        efi_fake_memmap();
        efi_find_mirror();
        efi_esrt_init();
+       efi_mokvar_table_init();
 
        /*
         * The EFI specification says that boot service code won't be
index 9ccbf05..a7f3e12 100644 (file)
@@ -27,7 +27,7 @@ static inline void signal_compat_build_tests(void)
         */
        BUILD_BUG_ON(NSIGILL  != 11);
        BUILD_BUG_ON(NSIGFPE  != 15);
-       BUILD_BUG_ON(NSIGSEGV != 7);
+       BUILD_BUG_ON(NSIGSEGV != 9);
        BUILD_BUG_ON(NSIGBUS  != 5);
        BUILD_BUG_ON(NSIGTRAP != 5);
        BUILD_BUG_ON(NSIGCHLD != 6);
index 2fd698e..8627fda 100644 (file)
@@ -18,13 +18,13 @@ void arch_stack_walk(stack_trace_consume_fn consume_entry, void *cookie,
        struct unwind_state state;
        unsigned long addr;
 
-       if (regs && !consume_entry(cookie, regs->ip, false))
+       if (regs && !consume_entry(cookie, regs->ip))
                return;
 
        for (unwind_start(&state, task, regs, NULL); !unwind_done(&state);
             unwind_next_frame(&state)) {
                addr = unwind_get_return_address(&state);
-               if (!addr || !consume_entry(cookie, addr, false))
+               if (!addr || !consume_entry(cookie, addr))
                        break;
        }
 }
@@ -72,7 +72,7 @@ int arch_stack_walk_reliable(stack_trace_consume_fn consume_entry,
                if (!addr)
                        return -EINVAL;
 
-               if (!consume_entry(cookie, addr, false))
+               if (!consume_entry(cookie, addr))
                        return -EINVAL;
        }
 
@@ -114,7 +114,7 @@ void arch_stack_walk_user(stack_trace_consume_fn consume_entry, void *cookie,
 {
        const void __user *fp = (const void __user *)regs->bp;
 
-       if (!consume_entry(cookie, regs->ip, false))
+       if (!consume_entry(cookie, regs->ip))
                return;
 
        while (1) {
@@ -128,7 +128,7 @@ void arch_stack_walk_user(stack_trace_consume_fn consume_entry, void *cookie,
                        break;
                if (!frame.ret_addr)
                        break;
-               if (!consume_entry(cookie, frame.ret_addr, false))
+               if (!consume_entry(cookie, frame.ret_addr))
                        break;
                fp = frame.next_fp;
        }
diff --git a/arch/x86/kernel/static_call.c b/arch/x86/kernel/static_call.c
new file mode 100644 (file)
index 0000000..ca9a380
--- /dev/null
@@ -0,0 +1,98 @@
+// SPDX-License-Identifier: GPL-2.0
+#include <linux/static_call.h>
+#include <linux/memory.h>
+#include <linux/bug.h>
+#include <asm/text-patching.h>
+
+enum insn_type {
+       CALL = 0, /* site call */
+       NOP = 1,  /* site cond-call */
+       JMP = 2,  /* tramp / site tail-call */
+       RET = 3,  /* tramp / site cond-tail-call */
+};
+
+static void __ref __static_call_transform(void *insn, enum insn_type type, void *func)
+{
+       int size = CALL_INSN_SIZE;
+       const void *code;
+
+       switch (type) {
+       case CALL:
+               code = text_gen_insn(CALL_INSN_OPCODE, insn, func);
+               break;
+
+       case NOP:
+               code = ideal_nops[NOP_ATOMIC5];
+               break;
+
+       case JMP:
+               code = text_gen_insn(JMP32_INSN_OPCODE, insn, func);
+               break;
+
+       case RET:
+               code = text_gen_insn(RET_INSN_OPCODE, insn, func);
+               size = RET_INSN_SIZE;
+               break;
+       }
+
+       if (memcmp(insn, code, size) == 0)
+               return;
+
+       if (unlikely(system_state == SYSTEM_BOOTING))
+               return text_poke_early(insn, code, size);
+
+       text_poke_bp(insn, code, size, NULL);
+}
+
+static void __static_call_validate(void *insn, bool tail)
+{
+       u8 opcode = *(u8 *)insn;
+
+       if (tail) {
+               if (opcode == JMP32_INSN_OPCODE ||
+                   opcode == RET_INSN_OPCODE)
+                       return;
+       } else {
+               if (opcode == CALL_INSN_OPCODE ||
+                   !memcmp(insn, ideal_nops[NOP_ATOMIC5], 5))
+                       return;
+       }
+
+       /*
+        * If we ever trigger this, our text is corrupt, we'll probably not live long.
+        */
+       WARN_ONCE(1, "unexpected static_call insn opcode 0x%x at %pS\n", opcode, insn);
+}
+
+static inline enum insn_type __sc_insn(bool null, bool tail)
+{
+       /*
+        * Encode the following table without branches:
+        *
+        *      tail    null    insn
+        *      -----+-------+------
+        *        0  |   0   |  CALL
+        *        0  |   1   |  NOP
+        *        1  |   0   |  JMP
+        *        1  |   1   |  RET
+        */
+       return 2*tail + null;
+}
+
+void arch_static_call_transform(void *site, void *tramp, void *func, bool tail)
+{
+       mutex_lock(&text_mutex);
+
+       if (tramp) {
+               __static_call_validate(tramp, true);
+               __static_call_transform(tramp, __sc_insn(!func, true), func);
+       }
+
+       if (IS_ENABLED(CONFIG_HAVE_STATIC_CALL_INLINE) && site) {
+               __static_call_validate(site, tail);
+               __static_call_transform(site, __sc_insn(!func, tail), func);
+       }
+
+       mutex_unlock(&text_mutex);
+}
+EXPORT_SYMBOL_GPL(arch_static_call_transform);
index 81a2fb7..df9c655 100644 (file)
@@ -745,9 +745,21 @@ static __always_inline unsigned long debug_read_clear_dr6(void)
         * Keep it simple: clear DR6 immediately.
         */
        get_debugreg(dr6, 6);
-       set_debugreg(0, 6);
-       /* Filter out all the reserved bits which are preset to 1 */
-       dr6 &= ~DR6_RESERVED;
+       set_debugreg(DR6_RESERVED, 6);
+       dr6 ^= DR6_RESERVED; /* Flip to positive polarity */
+
+       /*
+        * Clear the virtual DR6 value, ptrace routines will set bits here for
+        * things we want signals for.
+        */
+       current->thread.virtual_dr6 = 0;
+
+       /*
+        * The SDM says "The processor clears the BTF flag when it
+        * generates a debug exception."  Clear TIF_BLOCKSTEP to keep
+        * TIF_BLOCKSTEP in sync with the hardware BTF flag.
+        */
+       clear_thread_flag(TIF_BLOCKSTEP);
 
        return dr6;
 }
@@ -776,74 +788,20 @@ static __always_inline unsigned long debug_read_clear_dr6(void)
  *
  * May run on IST stack.
  */
-static void handle_debug(struct pt_regs *regs, unsigned long dr6, bool user)
-{
-       struct task_struct *tsk = current;
-       bool user_icebp;
-       int si_code;
-
-       /*
-        * The SDM says "The processor clears the BTF flag when it
-        * generates a debug exception."  Clear TIF_BLOCKSTEP to keep
-        * TIF_BLOCKSTEP in sync with the hardware BTF flag.
-        */
-       clear_thread_flag(TIF_BLOCKSTEP);
-
-       /*
-        * If DR6 is zero, no point in trying to handle it. The kernel is
-        * not using INT1.
-        */
-       if (!user && !dr6)
-               return;
 
+static bool notify_debug(struct pt_regs *regs, unsigned long *dr6)
+{
        /*
-        * If dr6 has no reason to give us about the origin of this trap,
-        * then it's very likely the result of an icebp/int01 trap.
-        * User wants a sigtrap for that.
+        * Notifiers will clear bits in @dr6 to indicate the event has been
+        * consumed - hw_breakpoint_handler(), single_stop_cont().
+        *
+        * Notifiers will set bits in @virtual_dr6 to indicate the desire
+        * for signals - ptrace_triggered(), kgdb_hw_overflow_handler().
         */
-       user_icebp = user && !dr6;
-
-       /* Store the virtualized DR6 value */
-       tsk->thread.debugreg6 = dr6;
-
-#ifdef CONFIG_KPROBES
-       if (kprobe_debug_handler(regs)) {
-               return;
-       }
-#endif
-
-       if (notify_die(DIE_DEBUG, "debug", regs, (long)&dr6, 0,
-                      SIGTRAP) == NOTIFY_STOP) {
-               return;
-       }
-
-       /* It's safe to allow irq's after DR6 has been saved */
-       cond_local_irq_enable(regs);
-
-       if (v8086_mode(regs)) {
-               handle_vm86_trap((struct kernel_vm86_regs *) regs, 0,
-                                X86_TRAP_DB);
-               goto out;
-       }
-
-       if (WARN_ON_ONCE((dr6 & DR_STEP) && !user_mode(regs))) {
-               /*
-                * Historical junk that used to handle SYSENTER single-stepping.
-                * This should be unreachable now.  If we survive for a while
-                * without anyone hitting this warning, we'll turn this into
-                * an oops.
-                */
-               tsk->thread.debugreg6 &= ~DR_STEP;
-               set_tsk_thread_flag(tsk, TIF_SINGLESTEP);
-               regs->flags &= ~X86_EFLAGS_TF;
-       }
-
-       si_code = get_si_code(tsk->thread.debugreg6);
-       if (tsk->thread.debugreg6 & (DR_STEP | DR_TRAP_BITS) || user_icebp)
-               send_sigtrap(regs, 0, si_code);
+       if (notify_die(DIE_DEBUG, "debug", regs, (long)dr6, 0, SIGTRAP) == NOTIFY_STOP)
+               return true;
 
-out:
-       cond_local_irq_disable(regs);
+       return false;
 }
 
 static __always_inline void exc_debug_kernel(struct pt_regs *regs,
@@ -877,8 +835,32 @@ static __always_inline void exc_debug_kernel(struct pt_regs *regs,
        if ((dr6 & DR_STEP) && is_sysenter_singlestep(regs))
                dr6 &= ~DR_STEP;
 
-       handle_debug(regs, dr6, false);
+       if (kprobe_debug_handler(regs))
+               goto out;
+
+       /*
+        * The kernel doesn't use INT1
+        */
+       if (!dr6)
+               goto out;
 
+       if (notify_debug(regs, &dr6))
+               goto out;
+
+       /*
+        * The kernel doesn't use TF single-step outside of:
+        *
+        *  - Kprobes, consumed through kprobe_debug_handler()
+        *  - KGDB, consumed through notify_debug()
+        *
+        * So if we get here with DR_STEP set, something is wonky.
+        *
+        * A known way to trigger this is through QEMU's GDB stub,
+        * which leaks #DB into the guest and causes IST recursion.
+        */
+       if (WARN_ON_ONCE(dr6 & DR_STEP))
+               regs->flags &= ~X86_EFLAGS_TF;
+out:
        instrumentation_end();
        idtentry_exit_nmi(regs, irq_state);
 
@@ -888,6 +870,8 @@ static __always_inline void exc_debug_kernel(struct pt_regs *regs,
 static __always_inline void exc_debug_user(struct pt_regs *regs,
                                           unsigned long dr6)
 {
+       bool icebp;
+
        /*
         * If something gets miswired and we end up here for a kernel mode
         * #DB, we will malfunction.
@@ -906,8 +890,32 @@ static __always_inline void exc_debug_user(struct pt_regs *regs,
        irqentry_enter_from_user_mode(regs);
        instrumentation_begin();
 
-       handle_debug(regs, dr6, true);
+       /*
+        * If dr6 has no reason to give us about the origin of this trap,
+        * then it's very likely the result of an icebp/int01 trap.
+        * User wants a sigtrap for that.
+        */
+       icebp = !dr6;
 
+       if (notify_debug(regs, &dr6))
+               goto out;
+
+       /* It's safe to allow irq's after DR6 has been saved */
+       local_irq_enable();
+
+       if (v8086_mode(regs)) {
+               handle_vm86_trap((struct kernel_vm86_regs *)regs, 0, X86_TRAP_DB);
+               goto out_irq;
+       }
+
+       /* Add the virtual_dr6 bits for signals. */
+       dr6 |= current->thread.virtual_dr6;
+       if (dr6 & (DR_STEP | DR_TRAP_BITS) || icebp)
+               send_sigtrap(regs, 0, get_si_code(dr6));
+
+out_irq:
+       local_irq_disable();
+out:
        instrumentation_end();
        irqentry_exit_to_user_mode(regs);
 }
index 49d9250..f70dffc 100644 (file)
@@ -54,7 +54,7 @@ struct clocksource *art_related_clocksource;
 
 struct cyc2ns {
        struct cyc2ns_data data[2];     /*  0 + 2*16 = 32 */
-       seqcount_t         seq;         /* 32 + 4    = 36 */
+       seqcount_latch_t   seq;         /* 32 + 4    = 36 */
 
 }; /* fits one cacheline */
 
@@ -73,14 +73,14 @@ __always_inline void cyc2ns_read_begin(struct cyc2ns_data *data)
        preempt_disable_notrace();
 
        do {
-               seq = this_cpu_read(cyc2ns.seq.sequence);
+               seq = this_cpu_read(cyc2ns.seq.seqcount.sequence);
                idx = seq & 1;
 
                data->cyc2ns_offset = this_cpu_read(cyc2ns.data[idx].cyc2ns_offset);
                data->cyc2ns_mul    = this_cpu_read(cyc2ns.data[idx].cyc2ns_mul);
                data->cyc2ns_shift  = this_cpu_read(cyc2ns.data[idx].cyc2ns_shift);
 
-       } while (unlikely(seq != this_cpu_read(cyc2ns.seq.sequence)));
+       } while (unlikely(seq != this_cpu_read(cyc2ns.seq.seqcount.sequence)));
 }
 
 __always_inline void cyc2ns_read_end(void)
@@ -186,7 +186,7 @@ static void __init cyc2ns_init_boot_cpu(void)
 {
        struct cyc2ns *c2n = this_cpu_ptr(&cyc2ns);
 
-       seqcount_init(&c2n->seq);
+       seqcount_latch_init(&c2n->seq);
        __set_cyc2ns_scale(tsc_khz, smp_processor_id(), rdtsc());
 }
 
@@ -203,7 +203,7 @@ static void __init cyc2ns_init_secondary_cpus(void)
 
        for_each_possible_cpu(cpu) {
                if (cpu != this_cpu) {
-                       seqcount_init(&c2n->seq);
+                       seqcount_latch_init(&c2n->seq);
                        c2n = per_cpu_ptr(&cyc2ns, cpu);
                        c2n->data[0] = data[0];
                        c2n->data[1] = data[1];
index 8d5cbe1..2c304fd 100644 (file)
  * value that, lies close to the top of the kernel memory. The limit for the GDT
  * and the IDT are set to zero.
  *
- * Given that SLDT and STR are not commonly used in programs that run on WineHQ
- * or DOSEMU2, they are not emulated.
- *
- * The instruction smsw is emulated to return the value that the register CR0
+ * The instruction SMSW is emulated to return the value that the register CR0
  * has at boot time as set in the head_32.
+ * SLDT and STR are emulated to return the values that the kernel programmatically
+ * assigns:
+ * - SLDT returns (GDT_ENTRY_LDT * 8) if an LDT has been set, 0 if not.
+ * - STR returns (GDT_ENTRY_TSS * 8).
  *
  * Emulation is provided for both 32-bit and 64-bit processes.
  *
@@ -244,16 +245,34 @@ static int emulate_umip_insn(struct insn *insn, int umip_inst,
                *data_size += UMIP_GDT_IDT_LIMIT_SIZE;
                memcpy(data, &dummy_limit, UMIP_GDT_IDT_LIMIT_SIZE);
 
-       } else if (umip_inst == UMIP_INST_SMSW) {
-               unsigned long dummy_value = CR0_STATE;
+       } else if (umip_inst == UMIP_INST_SMSW || umip_inst == UMIP_INST_SLDT ||
+                  umip_inst == UMIP_INST_STR) {
+               unsigned long dummy_value;
+
+               if (umip_inst == UMIP_INST_SMSW) {
+                       dummy_value = CR0_STATE;
+               } else if (umip_inst == UMIP_INST_STR) {
+                       dummy_value = GDT_ENTRY_TSS * 8;
+               } else if (umip_inst == UMIP_INST_SLDT) {
+#ifdef CONFIG_MODIFY_LDT_SYSCALL
+                       down_read(&current->mm->context.ldt_usr_sem);
+                       if (current->mm->context.ldt)
+                               dummy_value = GDT_ENTRY_LDT * 8;
+                       else
+                               dummy_value = 0;
+                       up_read(&current->mm->context.ldt_usr_sem);
+#else
+                       dummy_value = 0;
+#endif
+               }
 
                /*
-                * Even though the CR0 register has 4 bytes, the number
+                * For these 3 instructions, the number
                 * of bytes to be copied in the result buffer is determined
                 * by whether the operand is a register or a memory location.
                 * If operand is a register, return as many bytes as the operand
                 * size. If operand is memory, return only the two least
-                * siginificant bytes of CR0.
+                * siginificant bytes.
                 */
                if (X86_MODRM_MOD(insn->modrm.value) == 3)
                        *data_size = insn->opnd_bytes;
@@ -261,7 +280,6 @@ static int emulate_umip_insn(struct insn *insn, int umip_inst,
                        *data_size = 2;
 
                memcpy(data, &dummy_value, *data_size);
-       /* STR and SLDT  are not emulated */
        } else {
                return -EINVAL;
        }
@@ -383,10 +401,6 @@ bool fixup_umip_exception(struct pt_regs *regs)
        umip_pr_warn(regs, "%s instruction cannot be used by applications.\n",
                        umip_insns[umip_inst]);
 
-       /* Do not emulate (spoof) SLDT or STR. */
-       if (umip_inst == UMIP_INST_STR || umip_inst == UMIP_INST_SLDT)
-               return false;
-
        umip_pr_warn(regs, "For now, expensive software emulation returns the result.\n");
 
        if (emulate_umip_insn(&insn, umip_inst, dummy_data, &dummy_data_size,
index 9a03e5b..bf9e0ad 100644 (file)
@@ -136,6 +136,7 @@ SECTIONS
                ENTRY_TEXT
                ALIGN_ENTRY_TEXT_END
                SOFTIRQENTRY_TEXT
+               STATIC_CALL_TEXT
                *(.fixup)
                *(.gnu.warning)
 
@@ -411,10 +412,47 @@ SECTIONS
 
        STABS_DEBUG
        DWARF_DEBUG
+       ELF_DETAILS
 
        DISCARDS
-}
 
+       /*
+        * Make sure that the .got.plt is either completely empty or it
+        * contains only the lazy dispatch entries.
+        */
+       .got.plt (INFO) : { *(.got.plt) }
+       ASSERT(SIZEOF(.got.plt) == 0 ||
+#ifdef CONFIG_X86_64
+              SIZEOF(.got.plt) == 0x18,
+#else
+              SIZEOF(.got.plt) == 0xc,
+#endif
+              "Unexpected GOT/PLT entries detected!")
+
+       /*
+        * Sections that should stay zero sized, which is safer to
+        * explicitly check instead of blindly discarding.
+        */
+       .got : {
+               *(.got) *(.igot.*)
+       }
+       ASSERT(SIZEOF(.got) == 0, "Unexpected GOT entries detected!")
+
+       .plt : {
+               *(.plt) *(.plt.*) *(.iplt)
+       }
+       ASSERT(SIZEOF(.plt) == 0, "Unexpected run-time procedure linkages detected!")
+
+       .rel.dyn : {
+               *(.rel.*) *(.rel_*)
+       }
+       ASSERT(SIZEOF(.rel.dyn) == 0, "Unexpected run-time relocations (.rel) detected!")
+
+       .rela.dyn : {
+               *(.rela.*) *(.rela_*)
+       }
+       ASSERT(SIZEOF(.rela.dyn) == 0, "Unexpected run-time relocations (.rela) detected!")
+}
 
 #ifdef CONFIG_X86_32
 /*
index 123f1c1..a3038d8 100644 (file)
@@ -24,6 +24,7 @@
 #include <asm/tsc.h>
 #include <asm/iommu.h>
 #include <asm/mach_traps.h>
+#include <asm/irqdomain.h>
 
 void x86_init_noop(void) { }
 void __init x86_init_uint_noop(unsigned int unused) { }
@@ -67,11 +68,7 @@ struct x86_init_ops x86_init __initdata = {
        },
 
        .mpparse = {
-               .mpc_record             = x86_init_uint_noop,
                .setup_ioapic_ids       = x86_init_noop,
-               .mpc_apic_id            = default_mpc_apic_id,
-               .smp_read_mpc_oem       = default_smp_read_mpc_oem,
-               .mpc_oem_bus_info       = default_mpc_oem_bus_info,
                .find_smp_config        = default_find_smp_config,
                .get_smp_config         = default_get_smp_config,
        },
@@ -80,7 +77,8 @@ struct x86_init_ops x86_init __initdata = {
                .pre_vector_init        = init_ISA_irqs,
                .intr_init              = native_init_IRQ,
                .intr_mode_select       = apic_intr_mode_select,
-               .intr_mode_init         = apic_intr_mode_init
+               .intr_mode_init         = apic_intr_mode_init,
+               .create_pci_msi_domain  = native_create_pci_msi_domain,
        },
 
        .oem = {
@@ -148,28 +146,10 @@ EXPORT_SYMBOL_GPL(x86_platform);
 
 #if defined(CONFIG_PCI_MSI)
 struct x86_msi_ops x86_msi __ro_after_init = {
-       .setup_msi_irqs         = native_setup_msi_irqs,
-       .teardown_msi_irq       = native_teardown_msi_irq,
-       .teardown_msi_irqs      = default_teardown_msi_irqs,
        .restore_msi_irqs       = default_restore_msi_irqs,
 };
 
 /* MSI arch specific hooks */
-int arch_setup_msi_irqs(struct pci_dev *dev, int nvec, int type)
-{
-       return x86_msi.setup_msi_irqs(dev, nvec, type);
-}
-
-void arch_teardown_msi_irqs(struct pci_dev *dev)
-{
-       x86_msi.teardown_msi_irqs(dev);
-}
-
-void arch_teardown_msi_irq(unsigned int irq)
-{
-       x86_msi.teardown_msi_irq(irq);
-}
-
 void arch_restore_msi_irqs(struct pci_dev *dev)
 {
        x86_msi.restore_msi_irqs(dev);
index 3fd6eec..7456f9a 100644 (file)
@@ -371,7 +371,7 @@ void kvm_set_cpu_caps(void)
                F(AVX512_4VNNIW) | F(AVX512_4FMAPS) | F(SPEC_CTRL) |
                F(SPEC_CTRL_SSBD) | F(ARCH_CAPABILITIES) | F(INTEL_STIBP) |
                F(MD_CLEAR) | F(AVX512_VP2INTERSECT) | F(FSRM) |
-               F(SERIALIZE)
+               F(SERIALIZE) | F(TSXLDTRK)
        );
 
        /* TSC_ADJUST and ARCH_CAPABILITIES are emulated in software. */
index 1d33056..8c1e833 100644 (file)
@@ -2000,20 +2000,20 @@ int kvm_vcpu_ioctl_get_hv_cpuid(struct kvm_vcpu *vcpu, struct kvm_cpuid2 *cpuid,
                        break;
 
                case HYPERV_CPUID_FEATURES:
-                       ent->eax |= HV_X64_MSR_VP_RUNTIME_AVAILABLE;
+                       ent->eax |= HV_MSR_VP_RUNTIME_AVAILABLE;
                        ent->eax |= HV_MSR_TIME_REF_COUNT_AVAILABLE;
-                       ent->eax |= HV_X64_MSR_SYNIC_AVAILABLE;
+                       ent->eax |= HV_MSR_SYNIC_AVAILABLE;
                        ent->eax |= HV_MSR_SYNTIMER_AVAILABLE;
-                       ent->eax |= HV_X64_MSR_APIC_ACCESS_AVAILABLE;
-                       ent->eax |= HV_X64_MSR_HYPERCALL_AVAILABLE;
-                       ent->eax |= HV_X64_MSR_VP_INDEX_AVAILABLE;
-                       ent->eax |= HV_X64_MSR_RESET_AVAILABLE;
+                       ent->eax |= HV_MSR_APIC_ACCESS_AVAILABLE;
+                       ent->eax |= HV_MSR_HYPERCALL_AVAILABLE;
+                       ent->eax |= HV_MSR_VP_INDEX_AVAILABLE;
+                       ent->eax |= HV_MSR_RESET_AVAILABLE;
                        ent->eax |= HV_MSR_REFERENCE_TSC_AVAILABLE;
-                       ent->eax |= HV_X64_ACCESS_FREQUENCY_MSRS;
-                       ent->eax |= HV_X64_ACCESS_REENLIGHTENMENT;
+                       ent->eax |= HV_ACCESS_FREQUENCY_MSRS;
+                       ent->eax |= HV_ACCESS_REENLIGHTENMENT;
 
-                       ent->ebx |= HV_X64_POST_MESSAGES;
-                       ent->ebx |= HV_X64_SIGNAL_EVENTS;
+                       ent->ebx |= HV_POST_MESSAGES;
+                       ent->ebx |= HV_SIGNAL_EVENTS;
 
                        ent->edx |= HV_FEATURE_FREQUENCY_MSRS_AVAILABLE;
                        ent->edx |= HV_FEATURE_GUEST_CRASH_MSR_AVAILABLE;
index 7bf7bf7..3c9a45e 100644 (file)
@@ -384,7 +384,8 @@ static void sev_clflush_pages(struct page *pages[], unsigned long npages)
        uint8_t *page_virtual;
        unsigned long i;
 
-       if (npages == 0 || pages == NULL)
+       if (this_cpu_has(X86_FEATURE_SME_COHERENT) || npages == 0 ||
+           pages == NULL)
                return;
 
        for (i = 0; i < npages; i++) {
index aa06785..bad4dee 100644 (file)
@@ -44,6 +44,7 @@ obj-$(CONFIG_SMP) += msr-smp.o cache-smp.o
 lib-y := delay.o misc.o cmdline.o cpu.o
 lib-y += usercopy_$(BITS).o usercopy.o getuser.o putuser.o
 lib-y += memcpy_$(BITS).o
+lib-$(CONFIG_ARCH_HAS_COPY_MC) += copy_mc.o copy_mc_64.o
 lib-$(CONFIG_INSTRUCTION_DECODER) += insn.o inat.o insn-eval.o
 lib-$(CONFIG_RANDOMIZE_BASE) += kaslr.o
 lib-$(CONFIG_FUNCTION_ERROR_INJECTION) += error-inject.o
index d1d7689..4304320 100644 (file)
@@ -253,28 +253,17 @@ EXPORT_SYMBOL(csum_partial)
 
 /*
 unsigned int csum_partial_copy_generic (const char *src, char *dst,
-                                 int len, int sum, int *src_err_ptr, int *dst_err_ptr)
+                                 int len)
  */ 
 
 /*
  * Copy from ds while checksumming, otherwise like csum_partial
- *
- * The macros SRC and DST specify the type of access for the instruction.
- * thus we can call a custom exception handler for all access types.
- *
- * FIXME: could someone double-check whether I haven't mixed up some SRC and
- *       DST definitions? It's damn hard to trigger all cases.  I hope I got
- *       them all but there's no guarantee.
  */
 
-#define SRC(y...)                      \
+#define EXC(y...)                      \
        9999: y;                        \
        _ASM_EXTABLE_UA(9999b, 6001f)
 
-#define DST(y...)                      \
-       9999: y;                        \
-       _ASM_EXTABLE_UA(9999b, 6002f)
-
 #ifndef CONFIG_X86_USE_PPRO_CHECKSUM
 
 #define ARGBASE 16             
@@ -285,20 +274,20 @@ SYM_FUNC_START(csum_partial_copy_generic)
        pushl %edi
        pushl %esi
        pushl %ebx
-       movl ARGBASE+16(%esp),%eax      # sum
        movl ARGBASE+12(%esp),%ecx      # len
        movl ARGBASE+4(%esp),%esi       # src
        movl ARGBASE+8(%esp),%edi       # dst
 
+       movl $-1, %eax                  # sum
        testl $2, %edi                  # Check alignment. 
        jz 2f                           # Jump if alignment is ok.
        subl $2, %ecx                   # Alignment uses up two bytes.
        jae 1f                          # Jump if we had at least two bytes.
        addl $2, %ecx                   # ecx was < 2.  Deal with it.
        jmp 4f
-SRC(1: movw (%esi), %bx        )
+EXC(1: movw (%esi), %bx        )
        addl $2, %esi
-DST(   movw %bx, (%edi)        )
+EXC(   movw %bx, (%edi)        )
        addl $2, %edi
        addw %bx, %ax   
        adcl $0, %eax
@@ -306,34 +295,34 @@ DST(      movw %bx, (%edi)        )
        movl %ecx, FP(%esp)
        shrl $5, %ecx
        jz 2f
-       testl %esi, %esi
-SRC(1: movl (%esi), %ebx       )
-SRC(   movl 4(%esi), %edx      )
+       testl %esi, %esi                # what's wrong with clc?
+EXC(1: movl (%esi), %ebx       )
+EXC(   movl 4(%esi), %edx      )
        adcl %ebx, %eax
-DST(   movl %ebx, (%edi)       )
+EXC(   movl %ebx, (%edi)       )
        adcl %edx, %eax
-DST(   movl %edx, 4(%edi)      )
+EXC(   movl %edx, 4(%edi)      )
 
-SRC(   movl 8(%esi), %ebx      )
-SRC(   movl 12(%esi), %edx     )
+EXC(   movl 8(%esi), %ebx      )
+EXC(   movl 12(%esi), %edx     )
        adcl %ebx, %eax
-DST(   movl %ebx, 8(%edi)      )
+EXC(   movl %ebx, 8(%edi)      )
        adcl %edx, %eax
-DST(   movl %edx, 12(%edi)     )
+EXC(   movl %edx, 12(%edi)     )
 
-SRC(   movl 16(%esi), %ebx     )
-SRC(   movl 20(%esi), %edx     )
+EXC(   movl 16(%esi), %ebx     )
+EXC(   movl 20(%esi), %edx     )
        adcl %ebx, %eax
-DST(   movl %ebx, 16(%edi)     )
+EXC(   movl %ebx, 16(%edi)     )
        adcl %edx, %eax
-DST(   movl %edx, 20(%edi)     )
+EXC(   movl %edx, 20(%edi)     )
 
-SRC(   movl 24(%esi), %ebx     )
-SRC(   movl 28(%esi), %edx     )
+EXC(   movl 24(%esi), %ebx     )
+EXC(   movl 28(%esi), %edx     )
        adcl %ebx, %eax
-DST(   movl %ebx, 24(%edi)     )
+EXC(   movl %ebx, 24(%edi)     )
        adcl %edx, %eax
-DST(   movl %edx, 28(%edi)     )
+EXC(   movl %edx, 28(%edi)     )
 
        lea 32(%esi), %esi
        lea 32(%edi), %edi
@@ -345,9 +334,9 @@ DST(        movl %edx, 28(%edi)     )
        andl $0x1c, %edx
        je 4f
        shrl $2, %edx                   # This clears CF
-SRC(3: movl (%esi), %ebx       )
+EXC(3: movl (%esi), %ebx       )
        adcl %ebx, %eax
-DST(   movl %ebx, (%edi)       )
+EXC(   movl %ebx, (%edi)       )
        lea 4(%esi), %esi
        lea 4(%edi), %edi
        dec %edx
@@ -357,39 +346,24 @@ DST(      movl %ebx, (%edi)       )
        jz 7f
        cmpl $2, %ecx
        jb 5f
-SRC(   movw (%esi), %cx        )
+EXC(   movw (%esi), %cx        )
        leal 2(%esi), %esi
-DST(   movw %cx, (%edi)        )
+EXC(   movw %cx, (%edi)        )
        leal 2(%edi), %edi
        je 6f
        shll $16,%ecx
-SRC(5: movb (%esi), %cl        )
-DST(   movb %cl, (%edi)        )
+EXC(5: movb (%esi), %cl        )
+EXC(   movb %cl, (%edi)        )
 6:     addl %ecx, %eax
        adcl $0, %eax
 7:
-5000:
 
 # Exception handler:
 .section .fixup, "ax"                                                  
 
 6001:
-       movl ARGBASE+20(%esp), %ebx     # src_err_ptr
-       movl $-EFAULT, (%ebx)
-
-       # zero the complete destination - computing the rest
-       # is too much work 
-       movl ARGBASE+8(%esp), %edi      # dst
-       movl ARGBASE+12(%esp), %ecx     # len
-       xorl %eax,%eax
-       rep ; stosb
-
-       jmp 5000b
-
-6002:
-       movl ARGBASE+24(%esp), %ebx     # dst_err_ptr
-       movl $-EFAULT,(%ebx)
-       jmp 5000b
+       xorl %eax, %eax
+       jmp 7b
 
 .previous
 
@@ -405,14 +379,14 @@ SYM_FUNC_END(csum_partial_copy_generic)
 /* Version for PentiumII/PPro */
 
 #define ROUND1(x) \
-       SRC(movl x(%esi), %ebx  )       ;       \
+       EXC(movl x(%esi), %ebx  )       ;       \
        addl %ebx, %eax                 ;       \
-       DST(movl %ebx, x(%edi)  )       ; 
+       EXC(movl %ebx, x(%edi)  )       ;
 
 #define ROUND(x) \
-       SRC(movl x(%esi), %ebx  )       ;       \
+       EXC(movl x(%esi), %ebx  )       ;       \
        adcl %ebx, %eax                 ;       \
-       DST(movl %ebx, x(%edi)  )       ;
+       EXC(movl %ebx, x(%edi)  )       ;
 
 #define ARGBASE 12
                
@@ -423,7 +397,7 @@ SYM_FUNC_START(csum_partial_copy_generic)
        movl ARGBASE+4(%esp),%esi       #src
        movl ARGBASE+8(%esp),%edi       #dst    
        movl ARGBASE+12(%esp),%ecx      #len
-       movl ARGBASE+16(%esp),%eax      #sum
+       movl $-1, %eax                  #sum
 #      movl %ecx, %edx  
        movl %ecx, %ebx  
        movl %esi, %edx
@@ -439,7 +413,7 @@ SYM_FUNC_START(csum_partial_copy_generic)
        JMP_NOSPEC ebx
 1:     addl $64,%esi
        addl $64,%edi 
-       SRC(movb -32(%edx),%bl) ; SRC(movb (%edx),%bl)
+       EXC(movb -32(%edx),%bl) ; EXC(movb (%edx),%bl)
        ROUND1(-64) ROUND(-60) ROUND(-56) ROUND(-52)    
        ROUND (-48) ROUND(-44) ROUND(-40) ROUND(-36)    
        ROUND (-32) ROUND(-28) ROUND(-24) ROUND(-20)    
@@ -453,29 +427,20 @@ SYM_FUNC_START(csum_partial_copy_generic)
        jz 7f
        cmpl $2, %edx
        jb 5f
-SRC(   movw (%esi), %dx         )
+EXC(   movw (%esi), %dx         )
        leal 2(%esi), %esi
-DST(   movw %dx, (%edi)         )
+EXC(   movw %dx, (%edi)         )
        leal 2(%edi), %edi
        je 6f
        shll $16,%edx
 5:
-SRC(   movb (%esi), %dl         )
-DST(   movb %dl, (%edi)         )
+EXC(   movb (%esi), %dl         )
+EXC(   movb %dl, (%edi)         )
 6:     addl %edx, %eax
        adcl $0, %eax
 7:
 .section .fixup, "ax"
-6001:  movl    ARGBASE+20(%esp), %ebx  # src_err_ptr   
-       movl $-EFAULT, (%ebx)
-       # zero the complete destination (computing the rest is too much work)
-       movl ARGBASE+8(%esp),%edi       # dst
-       movl ARGBASE+12(%esp),%ecx      # len
-       xorl %eax,%eax
-       rep; stosb
-       jmp 7b
-6002:  movl ARGBASE+24(%esp), %ebx     # dst_err_ptr
-       movl $-EFAULT, (%ebx)
+6001:  xorl %eax, %eax
        jmp  7b                 
 .previous                              
 
diff --git a/arch/x86/lib/copy_mc.c b/arch/x86/lib/copy_mc.c
new file mode 100644 (file)
index 0000000..c13e8c9
--- /dev/null
@@ -0,0 +1,96 @@
+// SPDX-License-Identifier: GPL-2.0
+/* Copyright(c) 2016-2020 Intel Corporation. All rights reserved. */
+
+#include <linux/jump_label.h>
+#include <linux/uaccess.h>
+#include <linux/export.h>
+#include <linux/string.h>
+#include <linux/types.h>
+
+#include <asm/mce.h>
+
+#ifdef CONFIG_X86_MCE
+/*
+ * See COPY_MC_TEST for self-test of the copy_mc_fragile()
+ * implementation.
+ */
+static DEFINE_STATIC_KEY_FALSE(copy_mc_fragile_key);
+
+void enable_copy_mc_fragile(void)
+{
+       static_branch_inc(&copy_mc_fragile_key);
+}
+#define copy_mc_fragile_enabled (static_branch_unlikely(&copy_mc_fragile_key))
+
+/*
+ * Similar to copy_user_handle_tail, probe for the write fault point, or
+ * source exception point.
+ */
+__visible notrace unsigned long
+copy_mc_fragile_handle_tail(char *to, char *from, unsigned len)
+{
+       for (; len; --len, to++, from++)
+               if (copy_mc_fragile(to, from, 1))
+                       break;
+       return len;
+}
+#else
+/*
+ * No point in doing careful copying, or consulting a static key when
+ * there is no #MC handler in the CONFIG_X86_MCE=n case.
+ */
+void enable_copy_mc_fragile(void)
+{
+}
+#define copy_mc_fragile_enabled (0)
+#endif
+
+unsigned long copy_mc_enhanced_fast_string(void *dst, const void *src, unsigned len);
+
+/**
+ * copy_mc_to_kernel - memory copy that handles source exceptions
+ *
+ * @dst:       destination address
+ * @src:       source address
+ * @len:       number of bytes to copy
+ *
+ * Call into the 'fragile' version on systems that benefit from avoiding
+ * corner case poison consumption scenarios, For example, accessing
+ * poison across 2 cachelines with a single instruction. Almost all
+ * other uses case can use copy_mc_enhanced_fast_string() for a fast
+ * recoverable copy, or fallback to plain memcpy.
+ *
+ * Return 0 for success, or number of bytes not copied if there was an
+ * exception.
+ */
+unsigned long __must_check copy_mc_to_kernel(void *dst, const void *src, unsigned len)
+{
+       if (copy_mc_fragile_enabled)
+               return copy_mc_fragile(dst, src, len);
+       if (static_cpu_has(X86_FEATURE_ERMS))
+               return copy_mc_enhanced_fast_string(dst, src, len);
+       memcpy(dst, src, len);
+       return 0;
+}
+EXPORT_SYMBOL_GPL(copy_mc_to_kernel);
+
+unsigned long __must_check copy_mc_to_user(void *dst, const void *src, unsigned len)
+{
+       unsigned long ret;
+
+       if (copy_mc_fragile_enabled) {
+               __uaccess_begin();
+               ret = copy_mc_fragile(dst, src, len);
+               __uaccess_end();
+               return ret;
+       }
+
+       if (static_cpu_has(X86_FEATURE_ERMS)) {
+               __uaccess_begin();
+               ret = copy_mc_enhanced_fast_string(dst, src, len);
+               __uaccess_end();
+               return ret;
+       }
+
+       return copy_user_generic(dst, src, len);
+}
diff --git a/arch/x86/lib/copy_mc_64.S b/arch/x86/lib/copy_mc_64.S
new file mode 100644 (file)
index 0000000..892d891
--- /dev/null
@@ -0,0 +1,163 @@
+/* SPDX-License-Identifier: GPL-2.0-only */
+/* Copyright(c) 2016-2020 Intel Corporation. All rights reserved. */
+
+#include <linux/linkage.h>
+#include <asm/copy_mc_test.h>
+#include <asm/export.h>
+#include <asm/asm.h>
+
+#ifndef CONFIG_UML
+
+#ifdef CONFIG_X86_MCE
+COPY_MC_TEST_CTL
+
+/*
+ * copy_mc_fragile - copy memory with indication if an exception / fault happened
+ *
+ * The 'fragile' version is opted into by platform quirks and takes
+ * pains to avoid unrecoverable corner cases like 'fast-string'
+ * instruction sequences, and consuming poison across a cacheline
+ * boundary. The non-fragile version is equivalent to memcpy()
+ * regardless of CPU machine-check-recovery capability.
+ */
+SYM_FUNC_START(copy_mc_fragile)
+       cmpl $8, %edx
+       /* Less than 8 bytes? Go to byte copy loop */
+       jb .L_no_whole_words
+
+       /* Check for bad alignment of source */
+       testl $7, %esi
+       /* Already aligned */
+       jz .L_8byte_aligned
+
+       /* Copy one byte at a time until source is 8-byte aligned */
+       movl %esi, %ecx
+       andl $7, %ecx
+       subl $8, %ecx
+       negl %ecx
+       subl %ecx, %edx
+.L_read_leading_bytes:
+       movb (%rsi), %al
+       COPY_MC_TEST_SRC %rsi 1 .E_leading_bytes
+       COPY_MC_TEST_DST %rdi 1 .E_leading_bytes
+.L_write_leading_bytes:
+       movb %al, (%rdi)
+       incq %rsi
+       incq %rdi
+       decl %ecx
+       jnz .L_read_leading_bytes
+
+.L_8byte_aligned:
+       movl %edx, %ecx
+       andl $7, %edx
+       shrl $3, %ecx
+       jz .L_no_whole_words
+
+.L_read_words:
+       movq (%rsi), %r8
+       COPY_MC_TEST_SRC %rsi 8 .E_read_words
+       COPY_MC_TEST_DST %rdi 8 .E_write_words
+.L_write_words:
+       movq %r8, (%rdi)
+       addq $8, %rsi
+       addq $8, %rdi
+       decl %ecx
+       jnz .L_read_words
+
+       /* Any trailing bytes? */
+.L_no_whole_words:
+       andl %edx, %edx
+       jz .L_done_memcpy_trap
+
+       /* Copy trailing bytes */
+       movl %edx, %ecx
+.L_read_trailing_bytes:
+       movb (%rsi), %al
+       COPY_MC_TEST_SRC %rsi 1 .E_trailing_bytes
+       COPY_MC_TEST_DST %rdi 1 .E_trailing_bytes
+.L_write_trailing_bytes:
+       movb %al, (%rdi)
+       incq %rsi
+       incq %rdi
+       decl %ecx
+       jnz .L_read_trailing_bytes
+
+       /* Copy successful. Return zero */
+.L_done_memcpy_trap:
+       xorl %eax, %eax
+.L_done:
+       ret
+SYM_FUNC_END(copy_mc_fragile)
+EXPORT_SYMBOL_GPL(copy_mc_fragile)
+
+       .section .fixup, "ax"
+       /*
+        * Return number of bytes not copied for any failure. Note that
+        * there is no "tail" handling since the source buffer is 8-byte
+        * aligned and poison is cacheline aligned.
+        */
+.E_read_words:
+       shll    $3, %ecx
+.E_leading_bytes:
+       addl    %edx, %ecx
+.E_trailing_bytes:
+       mov     %ecx, %eax
+       jmp     .L_done
+
+       /*
+        * For write fault handling, given the destination is unaligned,
+        * we handle faults on multi-byte writes with a byte-by-byte
+        * copy up to the write-protected page.
+        */
+.E_write_words:
+       shll    $3, %ecx
+       addl    %edx, %ecx
+       movl    %ecx, %edx
+       jmp copy_mc_fragile_handle_tail
+
+       .previous
+
+       _ASM_EXTABLE_FAULT(.L_read_leading_bytes, .E_leading_bytes)
+       _ASM_EXTABLE_FAULT(.L_read_words, .E_read_words)
+       _ASM_EXTABLE_FAULT(.L_read_trailing_bytes, .E_trailing_bytes)
+       _ASM_EXTABLE(.L_write_leading_bytes, .E_leading_bytes)
+       _ASM_EXTABLE(.L_write_words, .E_write_words)
+       _ASM_EXTABLE(.L_write_trailing_bytes, .E_trailing_bytes)
+#endif /* CONFIG_X86_MCE */
+
+/*
+ * copy_mc_enhanced_fast_string - memory copy with exception handling
+ *
+ * Fast string copy + fault / exception handling. If the CPU does
+ * support machine check exception recovery, but does not support
+ * recovering from fast-string exceptions then this CPU needs to be
+ * added to the copy_mc_fragile_key set of quirks. Otherwise, absent any
+ * machine check recovery support this version should be no slower than
+ * standard memcpy.
+ */
+SYM_FUNC_START(copy_mc_enhanced_fast_string)
+       movq %rdi, %rax
+       movq %rdx, %rcx
+.L_copy:
+       rep movsb
+       /* Copy successful. Return zero */
+       xorl %eax, %eax
+       ret
+SYM_FUNC_END(copy_mc_enhanced_fast_string)
+
+       .section .fixup, "ax"
+.E_copy:
+       /*
+        * On fault %rcx is updated such that the copy instruction could
+        * optionally be restarted at the fault position, i.e. it
+        * contains 'bytes remaining'. A non-zero return indicates error
+        * to copy_mc_generic() users, or indicate short transfers to
+        * user-copy routines.
+        */
+       movq %rcx, %rax
+       ret
+
+       .previous
+
+       _ASM_EXTABLE_FAULT(.L_copy, .E_copy)
+#endif /* !CONFIG_UML */
index 816f128..77b9b2a 100644 (file)
@@ -15,6 +15,7 @@
 #include <asm/asm.h>
 #include <asm/smap.h>
 #include <asm/export.h>
+#include <asm/trapnr.h>
 
 .macro ALIGN_DESTINATION
        /* check for bad alignment of destination */
@@ -36,8 +37,8 @@
        jmp .Lcopy_user_handle_tail
        .previous
 
-       _ASM_EXTABLE_UA(100b, 103b)
-       _ASM_EXTABLE_UA(101b, 103b)
+       _ASM_EXTABLE_CPY(100b, 103b)
+       _ASM_EXTABLE_CPY(101b, 103b)
        .endm
 
 /*
@@ -116,26 +117,26 @@ SYM_FUNC_START(copy_user_generic_unrolled)
 60:    jmp .Lcopy_user_handle_tail /* ecx is zerorest also */
        .previous
 
-       _ASM_EXTABLE_UA(1b, 30b)
-       _ASM_EXTABLE_UA(2b, 30b)
-       _ASM_EXTABLE_UA(3b, 30b)
-       _ASM_EXTABLE_UA(4b, 30b)
-       _ASM_EXTABLE_UA(5b, 30b)
-       _ASM_EXTABLE_UA(6b, 30b)
-       _ASM_EXTABLE_UA(7b, 30b)
-       _ASM_EXTABLE_UA(8b, 30b)
-       _ASM_EXTABLE_UA(9b, 30b)
-       _ASM_EXTABLE_UA(10b, 30b)
-       _ASM_EXTABLE_UA(11b, 30b)
-       _ASM_EXTABLE_UA(12b, 30b)
-       _ASM_EXTABLE_UA(13b, 30b)
-       _ASM_EXTABLE_UA(14b, 30b)
-       _ASM_EXTABLE_UA(15b, 30b)
-       _ASM_EXTABLE_UA(16b, 30b)
-       _ASM_EXTABLE_UA(18b, 40b)
-       _ASM_EXTABLE_UA(19b, 40b)
-       _ASM_EXTABLE_UA(21b, 50b)
-       _ASM_EXTABLE_UA(22b, 50b)
+       _ASM_EXTABLE_CPY(1b, 30b)
+       _ASM_EXTABLE_CPY(2b, 30b)
+       _ASM_EXTABLE_CPY(3b, 30b)
+       _ASM_EXTABLE_CPY(4b, 30b)
+       _ASM_EXTABLE_CPY(5b, 30b)
+       _ASM_EXTABLE_CPY(6b, 30b)
+       _ASM_EXTABLE_CPY(7b, 30b)
+       _ASM_EXTABLE_CPY(8b, 30b)
+       _ASM_EXTABLE_CPY(9b, 30b)
+       _ASM_EXTABLE_CPY(10b, 30b)
+       _ASM_EXTABLE_CPY(11b, 30b)
+       _ASM_EXTABLE_CPY(12b, 30b)
+       _ASM_EXTABLE_CPY(13b, 30b)
+       _ASM_EXTABLE_CPY(14b, 30b)
+       _ASM_EXTABLE_CPY(15b, 30b)
+       _ASM_EXTABLE_CPY(16b, 30b)
+       _ASM_EXTABLE_CPY(18b, 40b)
+       _ASM_EXTABLE_CPY(19b, 40b)
+       _ASM_EXTABLE_CPY(21b, 50b)
+       _ASM_EXTABLE_CPY(22b, 50b)
 SYM_FUNC_END(copy_user_generic_unrolled)
 EXPORT_SYMBOL(copy_user_generic_unrolled)
 
@@ -180,8 +181,8 @@ SYM_FUNC_START(copy_user_generic_string)
        jmp .Lcopy_user_handle_tail
        .previous
 
-       _ASM_EXTABLE_UA(1b, 11b)
-       _ASM_EXTABLE_UA(3b, 12b)
+       _ASM_EXTABLE_CPY(1b, 11b)
+       _ASM_EXTABLE_CPY(3b, 12b)
 SYM_FUNC_END(copy_user_generic_string)
 EXPORT_SYMBOL(copy_user_generic_string)
 
@@ -213,7 +214,7 @@ SYM_FUNC_START(copy_user_enhanced_fast_string)
        jmp .Lcopy_user_handle_tail
        .previous
 
-       _ASM_EXTABLE_UA(1b, 12b)
+       _ASM_EXTABLE_CPY(1b, 12b)
 SYM_FUNC_END(copy_user_enhanced_fast_string)
 EXPORT_SYMBOL(copy_user_enhanced_fast_string)
 
@@ -221,6 +222,7 @@ EXPORT_SYMBOL(copy_user_enhanced_fast_string)
  * Try to copy last bytes and clear the rest if needed.
  * Since protection fault in copy_from/to_user is not a normal situation,
  * it is not necessary to optimize tail handling.
+ * Don't try to copy the tail if machine check happened
  *
  * Input:
  * rdi destination
@@ -232,12 +234,25 @@ EXPORT_SYMBOL(copy_user_enhanced_fast_string)
  */
 SYM_CODE_START_LOCAL(.Lcopy_user_handle_tail)
        movl %edx,%ecx
+       cmp $X86_TRAP_MC,%eax           /* check if X86_TRAP_MC */
+       je 3f
 1:     rep movsb
 2:     mov %ecx,%eax
        ASM_CLAC
        ret
 
-       _ASM_EXTABLE_UA(1b, 2b)
+       /*
+        * Return zero to pretend that this copy succeeded. This
+        * is counter-intuitive, but needed to prevent the code
+        * in lib/iov_iter.c from retrying and running back into
+        * the poison cache line again. The machine check handler
+        * will ensure that a SIGBUS is sent to the task.
+        */
+3:     xorl %eax,%eax
+       ASM_CLAC
+       ret
+
+       _ASM_EXTABLE_CPY(1b, 2b)
 SYM_CODE_END(.Lcopy_user_handle_tail)
 
 /*
@@ -366,27 +381,27 @@ SYM_FUNC_START(__copy_user_nocache)
        jmp .Lcopy_user_handle_tail
        .previous
 
-       _ASM_EXTABLE_UA(1b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(2b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(3b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(4b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(5b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(6b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(7b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(8b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(9b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(10b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(11b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(12b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(13b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(14b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(15b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(16b, .L_fixup_4x8b_copy)
-       _ASM_EXTABLE_UA(20b, .L_fixup_8b_copy)
-       _ASM_EXTABLE_UA(21b, .L_fixup_8b_copy)
-       _ASM_EXTABLE_UA(30b, .L_fixup_4b_copy)
-       _ASM_EXTABLE_UA(31b, .L_fixup_4b_copy)
-       _ASM_EXTABLE_UA(40b, .L_fixup_1b_copy)
-       _ASM_EXTABLE_UA(41b, .L_fixup_1b_copy)
+       _ASM_EXTABLE_CPY(1b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(2b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(3b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(4b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(5b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(6b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(7b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(8b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(9b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(10b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(11b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(12b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(13b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(14b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(15b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(16b, .L_fixup_4x8b_copy)
+       _ASM_EXTABLE_CPY(20b, .L_fixup_8b_copy)
+       _ASM_EXTABLE_CPY(21b, .L_fixup_8b_copy)
+       _ASM_EXTABLE_CPY(30b, .L_fixup_4b_copy)
+       _ASM_EXTABLE_CPY(31b, .L_fixup_4b_copy)
+       _ASM_EXTABLE_CPY(40b, .L_fixup_1b_copy)
+       _ASM_EXTABLE_CPY(41b, .L_fixup_1b_copy)
 SYM_FUNC_END(__copy_user_nocache)
 EXPORT_SYMBOL(__copy_user_nocache)
index 3394a8f..1fbd8ee 100644 (file)
@@ -18,9 +18,6 @@
  * rdi  source
  * rsi  destination
  * edx  len (32bit)
- * ecx  sum (32bit)
- * r8   src_err_ptr (int)
- * r9   dst_err_ptr (int)
  *
  * Output
  * eax  64bit sum. undefined in case of exception.
 
        .macro source
 10:
-       _ASM_EXTABLE_UA(10b, .Lbad_source)
+       _ASM_EXTABLE_UA(10b, .Lfault)
        .endm
 
        .macro dest
 20:
-       _ASM_EXTABLE_UA(20b, .Lbad_dest)
+       _ASM_EXTABLE_UA(20b, .Lfault)
        .endm
 
-       /*
-        * No _ASM_EXTABLE_UA; this is used for intentional prefetch on a
-        * potentially unmapped kernel address.
-        */
-       .macro ignore L=.Lignore
-30:
-       _ASM_EXTABLE(30b, \L)
-       .endm
-
-
 SYM_FUNC_START(csum_partial_copy_generic)
-       cmpl    $3*64, %edx
-       jle     .Lignore
-
-.Lignore:
-       subq  $7*8, %rsp
-       movq  %rbx, 2*8(%rsp)
-       movq  %r12, 3*8(%rsp)
-       movq  %r14, 4*8(%rsp)
-       movq  %r13, 5*8(%rsp)
-       movq  %r15, 6*8(%rsp)
+       subq  $5*8, %rsp
+       movq  %rbx, 0*8(%rsp)
+       movq  %r12, 1*8(%rsp)
+       movq  %r14, 2*8(%rsp)
+       movq  %r13, 3*8(%rsp)
+       movq  %r15, 4*8(%rsp)
 
-       movq  %r8, (%rsp)
-       movq  %r9, 1*8(%rsp)
-
-       movl  %ecx, %eax
+       movl  $-1, %eax
+       xorl  %r9d, %r9d
        movl  %edx, %ecx
+       cmpl  $8, %ecx
+       jb    .Lshort
 
-       xorl  %r9d, %r9d
-       movq  %rcx, %r12
+       testb  $7, %sil
+       jne   .Lunaligned
+.Laligned:
+       movl  %ecx, %r12d
 
        shrq  $6, %r12
        jz      .Lhandle_tail       /* < 64 */
@@ -99,7 +84,12 @@ SYM_FUNC_START(csum_partial_copy_generic)
        source
        movq  56(%rdi), %r13
 
-       ignore 2f
+30:
+       /*
+        * No _ASM_EXTABLE_UA; this is used for intentional prefetch on a
+        * potentially unmapped kernel address.
+        */
+       _ASM_EXTABLE(30b, 2f)
        prefetcht0 5*64(%rdi)
 2:
        adcq  %rbx, %rax
@@ -131,8 +121,6 @@ SYM_FUNC_START(csum_partial_copy_generic)
        dest
        movq %r13, 56(%rsi)
 
-3:
-
        leaq 64(%rdi), %rdi
        leaq 64(%rsi), %rsi
 
@@ -142,8 +130,8 @@ SYM_FUNC_START(csum_partial_copy_generic)
 
        /* do last up to 56 bytes */
 .Lhandle_tail:
-       /* ecx: count */
-       movl %ecx, %r10d
+       /* ecx: count, rcx.63: the end result needs to be rol8 */
+       movq %rcx, %r10
        andl $63, %ecx
        shrl $3, %ecx
        jz      .Lfold
@@ -172,6 +160,7 @@ SYM_FUNC_START(csum_partial_copy_generic)
 .Lhandle_7:
        movl %r10d, %ecx
        andl $7, %ecx
+.L1:                           /* .Lshort rejoins the common path here */
        shrl $1, %ecx
        jz   .Lhandle_1
        movl $2, %edx
@@ -203,26 +192,65 @@ SYM_FUNC_START(csum_partial_copy_generic)
        adcl %r9d, %eax         /* carry */
 
 .Lende:
-       movq 2*8(%rsp), %rbx
-       movq 3*8(%rsp), %r12
-       movq 4*8(%rsp), %r14
-       movq 5*8(%rsp), %r13
-       movq 6*8(%rsp), %r15
-       addq $7*8, %rsp
+       testq %r10, %r10
+       js  .Lwas_odd
+.Lout:
+       movq 0*8(%rsp), %rbx
+       movq 1*8(%rsp), %r12
+       movq 2*8(%rsp), %r14
+       movq 3*8(%rsp), %r13
+       movq 4*8(%rsp), %r15
+       addq $5*8, %rsp
        ret
+.Lshort:
+       movl %ecx, %r10d
+       jmp  .L1
+.Lunaligned:
+       xorl %ebx, %ebx
+       testb $1, %sil
+       jne  .Lodd
+1:     testb $2, %sil
+       je   2f
+       source
+       movw (%rdi), %bx
+       dest
+       movw %bx, (%rsi)
+       leaq 2(%rdi), %rdi
+       subq $2, %rcx
+       leaq 2(%rsi), %rsi
+       addq %rbx, %rax
+2:     testb $4, %sil
+       je .Laligned
+       source
+       movl (%rdi), %ebx
+       dest
+       movl %ebx, (%rsi)
+       leaq 4(%rdi), %rdi
+       subq $4, %rcx
+       leaq 4(%rsi), %rsi
+       addq %rbx, %rax
+       jmp .Laligned
+
+.Lodd:
+       source
+       movb (%rdi), %bl
+       dest
+       movb %bl, (%rsi)
+       leaq 1(%rdi), %rdi
+       leaq 1(%rsi), %rsi
+       /* decrement, set MSB */
+       leaq -1(%rcx, %rcx), %rcx
+       rorq $1, %rcx
+       shll $8, %ebx
+       addq %rbx, %rax
+       jmp 1b
+
+.Lwas_odd:
+       roll $8, %eax
+       jmp .Lout
 
-       /* Exception handlers. Very simple, zeroing is done in the wrappers */
-.Lbad_source:
-       movq (%rsp), %rax
-       testq %rax, %rax
-       jz   .Lende
-       movl $-EFAULT, (%rax)
-       jmp  .Lende
-
-.Lbad_dest:
-       movq 8(%rsp), %rax
-       testq %rax, %rax
-       jz   .Lende
-       movl $-EFAULT, (%rax)
-       jmp .Lende
+       /* Exception: just return 0 */
+.Lfault:
+       xorl %eax, %eax
+       jmp  .Lout
 SYM_FUNC_END(csum_partial_copy_generic)
index ee63d75..1893449 100644 (file)
  * src and dst are best aligned to 64bits.
  */
 __wsum
-csum_and_copy_from_user(const void __user *src, void *dst,
-                           int len, __wsum isum, int *errp)
+csum_and_copy_from_user(const void __user *src, void *dst, int len)
 {
-       might_sleep();
-       *errp = 0;
+       __wsum sum;
 
+       might_sleep();
        if (!user_access_begin(src, len))
-               goto out_err;
-
-       /*
-        * Why 6, not 7? To handle odd addresses aligned we
-        * would need to do considerable complications to fix the
-        * checksum which is defined as an 16bit accumulator. The
-        * fix alignment code is primarily for performance
-        * compatibility with 32bit and that will handle odd
-        * addresses slowly too.
-        */
-       if (unlikely((unsigned long)src & 6)) {
-               while (((unsigned long)src & 6) && len >= 2) {
-                       __u16 val16;
-
-                       unsafe_get_user(val16, (const __u16 __user *)src, out);
-
-                       *(__u16 *)dst = val16;
-                       isum = (__force __wsum)add32_with_carry(
-                                       (__force unsigned)isum, val16);
-                       src += 2;
-                       dst += 2;
-                       len -= 2;
-               }
-       }
-       isum = csum_partial_copy_generic((__force const void *)src,
-                               dst, len, isum, errp, NULL);
-       user_access_end();
-       if (unlikely(*errp))
-               goto out_err;
-
-       return isum;
-
-out:
+               return 0;
+       sum = csum_partial_copy_generic((__force const void *)src, dst, len);
        user_access_end();
-out_err:
-       *errp = -EFAULT;
-       memset(dst, 0, len);
-
-       return isum;
+       return sum;
 }
 EXPORT_SYMBOL(csum_and_copy_from_user);
 
@@ -82,40 +46,16 @@ EXPORT_SYMBOL(csum_and_copy_from_user);
  * src and dst are best aligned to 64bits.
  */
 __wsum
-csum_and_copy_to_user(const void *src, void __user *dst,
-                         int len, __wsum isum, int *errp)
+csum_and_copy_to_user(const void *src, void __user *dst, int len)
 {
-       __wsum ret;
+       __wsum sum;
 
        might_sleep();
-
-       if (!user_access_begin(dst, len)) {
-               *errp = -EFAULT;
+       if (!user_access_begin(dst, len))
                return 0;
-       }
-
-       if (unlikely((unsigned long)dst & 6)) {
-               while (((unsigned long)dst & 6) && len >= 2) {
-                       __u16 val16 = *(__u16 *)src;
-
-                       isum = (__force __wsum)add32_with_carry(
-                                       (__force unsigned)isum, val16);
-                       unsafe_put_user(val16, (__u16 __user *)dst, out);
-                       src += 2;
-                       dst += 2;
-                       len -= 2;
-               }
-       }
-
-       *errp = 0;
-       ret = csum_partial_copy_generic(src, (void __force *)dst,
-                                       len, isum, NULL, errp);
-       user_access_end();
-       return ret;
-out:
+       sum = csum_partial_copy_generic(src, (void __force *)dst, len);
        user_access_end();
-       *errp = -EFAULT;
-       return isum;
+       return sum;
 }
 EXPORT_SYMBOL(csum_and_copy_to_user);
 
@@ -129,9 +69,9 @@ EXPORT_SYMBOL(csum_and_copy_to_user);
  * Returns an 32bit unfolded checksum of the buffer.
  */
 __wsum
-csum_partial_copy_nocheck(const void *src, void *dst, int len, __wsum sum)
+csum_partial_copy_nocheck(const void *src, void *dst, int len)
 {
-       return csum_partial_copy_generic(src, dst, len, sum, NULL, NULL);
+       return csum_partial_copy_generic(src, dst, len);
 }
 EXPORT_SYMBOL(csum_partial_copy_nocheck);
 
index c8a85b5..2cd902e 100644 (file)
@@ -35,6 +35,8 @@
 #include <asm/smap.h>
 #include <asm/export.h>
 
+#define ASM_BARRIER_NOSPEC ALTERNATIVE "", "lfence", X86_FEATURE_LFENCE_RDTSC
+
        .text
 SYM_FUNC_START(__get_user_1)
        mov PER_CPU_VAR(current_task), %_ASM_DX
@@ -114,6 +116,52 @@ SYM_FUNC_START(__get_user_8)
 SYM_FUNC_END(__get_user_8)
 EXPORT_SYMBOL(__get_user_8)
 
+/* .. and the same for __get_user, just without the range checks */
+SYM_FUNC_START(__get_user_nocheck_1)
+       ASM_STAC
+       ASM_BARRIER_NOSPEC
+6:     movzbl (%_ASM_AX),%edx
+       xor %eax,%eax
+       ASM_CLAC
+       ret
+SYM_FUNC_END(__get_user_nocheck_1)
+EXPORT_SYMBOL(__get_user_nocheck_1)
+
+SYM_FUNC_START(__get_user_nocheck_2)
+       ASM_STAC
+       ASM_BARRIER_NOSPEC
+7:     movzwl (%_ASM_AX),%edx
+       xor %eax,%eax
+       ASM_CLAC
+       ret
+SYM_FUNC_END(__get_user_nocheck_2)
+EXPORT_SYMBOL(__get_user_nocheck_2)
+
+SYM_FUNC_START(__get_user_nocheck_4)
+       ASM_STAC
+       ASM_BARRIER_NOSPEC
+8:     movl (%_ASM_AX),%edx
+       xor %eax,%eax
+       ASM_CLAC
+       ret
+SYM_FUNC_END(__get_user_nocheck_4)
+EXPORT_SYMBOL(__get_user_nocheck_4)
+
+SYM_FUNC_START(__get_user_nocheck_8)
+       ASM_STAC
+       ASM_BARRIER_NOSPEC
+#ifdef CONFIG_X86_64
+9:     movq (%_ASM_AX),%rdx
+#else
+9:     movl (%_ASM_AX),%edx
+10:    movl 4(%_ASM_AX),%ecx
+#endif
+       xor %eax,%eax
+       ASM_CLAC
+       ret
+SYM_FUNC_END(__get_user_nocheck_8)
+EXPORT_SYMBOL(__get_user_nocheck_8)
+
 
 SYM_CODE_START_LOCAL(.Lbad_get_user_clac)
        ASM_CLAC
@@ -134,6 +182,7 @@ bad_get_user_8:
 SYM_CODE_END(.Lbad_get_user_8_clac)
 #endif
 
+/* get_user */
        _ASM_EXTABLE_UA(1b, .Lbad_get_user_clac)
        _ASM_EXTABLE_UA(2b, .Lbad_get_user_clac)
        _ASM_EXTABLE_UA(3b, .Lbad_get_user_clac)
@@ -143,3 +192,14 @@ SYM_CODE_END(.Lbad_get_user_8_clac)
        _ASM_EXTABLE_UA(4b, .Lbad_get_user_8_clac)
        _ASM_EXTABLE_UA(5b, .Lbad_get_user_8_clac)
 #endif
+
+/* __get_user */
+       _ASM_EXTABLE_UA(6b, .Lbad_get_user_clac)
+       _ASM_EXTABLE_UA(7b, .Lbad_get_user_clac)
+       _ASM_EXTABLE_UA(8b, .Lbad_get_user_clac)
+#ifdef CONFIG_X86_64
+       _ASM_EXTABLE_UA(9b, .Lbad_get_user_clac)
+#else
+       _ASM_EXTABLE_UA(9b, .Lbad_get_user_8_clac)
+       _ASM_EXTABLE_UA(10b, .Lbad_get_user_8_clac)
+#endif
index bbcc05b..037faac 100644 (file)
@@ -4,7 +4,6 @@
 #include <linux/linkage.h>
 #include <asm/errno.h>
 #include <asm/cpufeatures.h>
-#include <asm/mcsafe_test.h>
 #include <asm/alternative-asm.h>
 #include <asm/export.h>
 
@@ -187,117 +186,3 @@ SYM_FUNC_START_LOCAL(memcpy_orig)
 SYM_FUNC_END(memcpy_orig)
 
 .popsection
-
-#ifndef CONFIG_UML
-
-MCSAFE_TEST_CTL
-
-/*
- * __memcpy_mcsafe - memory copy with machine check exception handling
- * Note that we only catch machine checks when reading the source addresses.
- * Writes to target are posted and don't generate machine checks.
- */
-SYM_FUNC_START(__memcpy_mcsafe)
-       cmpl $8, %edx
-       /* Less than 8 bytes? Go to byte copy loop */
-       jb .L_no_whole_words
-
-       /* Check for bad alignment of source */
-       testl $7, %esi
-       /* Already aligned */
-       jz .L_8byte_aligned
-
-       /* Copy one byte at a time until source is 8-byte aligned */
-       movl %esi, %ecx
-       andl $7, %ecx
-       subl $8, %ecx
-       negl %ecx
-       subl %ecx, %edx
-.L_read_leading_bytes:
-       movb (%rsi), %al
-       MCSAFE_TEST_SRC %rsi 1 .E_leading_bytes
-       MCSAFE_TEST_DST %rdi 1 .E_leading_bytes
-.L_write_leading_bytes:
-       movb %al, (%rdi)
-       incq %rsi
-       incq %rdi
-       decl %ecx
-       jnz .L_read_leading_bytes
-
-.L_8byte_aligned:
-       movl %edx, %ecx
-       andl $7, %edx
-       shrl $3, %ecx
-       jz .L_no_whole_words
-
-.L_read_words:
-       movq (%rsi), %r8
-       MCSAFE_TEST_SRC %rsi 8 .E_read_words
-       MCSAFE_TEST_DST %rdi 8 .E_write_words
-.L_write_words:
-       movq %r8, (%rdi)
-       addq $8, %rsi
-       addq $8, %rdi
-       decl %ecx
-       jnz .L_read_words
-
-       /* Any trailing bytes? */
-.L_no_whole_words:
-       andl %edx, %edx
-       jz .L_done_memcpy_trap
-
-       /* Copy trailing bytes */
-       movl %edx, %ecx
-.L_read_trailing_bytes:
-       movb (%rsi), %al
-       MCSAFE_TEST_SRC %rsi 1 .E_trailing_bytes
-       MCSAFE_TEST_DST %rdi 1 .E_trailing_bytes
-.L_write_trailing_bytes:
-       movb %al, (%rdi)
-       incq %rsi
-       incq %rdi
-       decl %ecx
-       jnz .L_read_trailing_bytes
-
-       /* Copy successful. Return zero */
-.L_done_memcpy_trap:
-       xorl %eax, %eax
-.L_done:
-       ret
-SYM_FUNC_END(__memcpy_mcsafe)
-EXPORT_SYMBOL_GPL(__memcpy_mcsafe)
-
-       .section .fixup, "ax"
-       /*
-        * Return number of bytes not copied for any failure. Note that
-        * there is no "tail" handling since the source buffer is 8-byte
-        * aligned and poison is cacheline aligned.
-        */
-.E_read_words:
-       shll    $3, %ecx
-.E_leading_bytes:
-       addl    %edx, %ecx
-.E_trailing_bytes:
-       mov     %ecx, %eax
-       jmp     .L_done
-
-       /*
-        * For write fault handling, given the destination is unaligned,
-        * we handle faults on multi-byte writes with a byte-by-byte
-        * copy up to the write-protected page.
-        */
-.E_write_words:
-       shll    $3, %ecx
-       addl    %edx, %ecx
-       movl    %ecx, %edx
-       jmp mcsafe_handle_tail
-
-       .previous
-
-       _ASM_EXTABLE_FAULT(.L_read_leading_bytes, .E_leading_bytes)
-       _ASM_EXTABLE_FAULT(.L_read_words, .E_read_words)
-       _ASM_EXTABLE_FAULT(.L_read_trailing_bytes, .E_trailing_bytes)
-       _ASM_EXTABLE(.L_write_leading_bytes, .E_leading_bytes)
-       _ASM_EXTABLE(.L_write_words, .E_write_words)
-       _ASM_EXTABLE(.L_write_trailing_bytes, .E_trailing_bytes)
-#endif
index 7c7c92d..b34a177 100644 (file)
@@ -25,7 +25,9 @@
  * Inputs:     %eax[:%edx] contains the data
  *             %ecx contains the address
  *
- * Outputs:    %eax is error code (0 or -EFAULT)
+ * Outputs:    %ecx is error code (0 or -EFAULT)
+ *
+ * Clobbers:   %ebx needed for task pointer
  *
  * These functions should not modify any other registers,
  * as they get called from within inline assembly.
@@ -38,13 +40,15 @@ SYM_FUNC_START(__put_user_1)
        ENTER
        cmp TASK_addr_limit(%_ASM_BX),%_ASM_CX
        jae .Lbad_put_user
+SYM_INNER_LABEL(__put_user_nocheck_1, SYM_L_GLOBAL)
        ASM_STAC
 1:     movb %al,(%_ASM_CX)
-       xor %eax,%eax
+       xor %ecx,%ecx
        ASM_CLAC
        ret
 SYM_FUNC_END(__put_user_1)
 EXPORT_SYMBOL(__put_user_1)
+EXPORT_SYMBOL(__put_user_nocheck_1)
 
 SYM_FUNC_START(__put_user_2)
        ENTER
@@ -52,13 +56,15 @@ SYM_FUNC_START(__put_user_2)
        sub $1,%_ASM_BX
        cmp %_ASM_BX,%_ASM_CX
        jae .Lbad_put_user
+SYM_INNER_LABEL(__put_user_nocheck_2, SYM_L_GLOBAL)
        ASM_STAC
 2:     movw %ax,(%_ASM_CX)
-       xor %eax,%eax
+       xor %ecx,%ecx
        ASM_CLAC
        ret
 SYM_FUNC_END(__put_user_2)
 EXPORT_SYMBOL(__put_user_2)
+EXPORT_SYMBOL(__put_user_nocheck_2)
 
 SYM_FUNC_START(__put_user_4)
        ENTER
@@ -66,13 +72,15 @@ SYM_FUNC_START(__put_user_4)
        sub $3,%_ASM_BX
        cmp %_ASM_BX,%_ASM_CX
        jae .Lbad_put_user
+SYM_INNER_LABEL(__put_user_nocheck_4, SYM_L_GLOBAL)
        ASM_STAC
 3:     movl %eax,(%_ASM_CX)
-       xor %eax,%eax
+       xor %ecx,%ecx
        ASM_CLAC
        ret
 SYM_FUNC_END(__put_user_4)
 EXPORT_SYMBOL(__put_user_4)
+EXPORT_SYMBOL(__put_user_nocheck_4)
 
 SYM_FUNC_START(__put_user_8)
        ENTER
@@ -80,21 +88,23 @@ SYM_FUNC_START(__put_user_8)
        sub $7,%_ASM_BX
        cmp %_ASM_BX,%_ASM_CX
        jae .Lbad_put_user
+SYM_INNER_LABEL(__put_user_nocheck_8, SYM_L_GLOBAL)
        ASM_STAC
 4:     mov %_ASM_AX,(%_ASM_CX)
 #ifdef CONFIG_X86_32
 5:     movl %edx,4(%_ASM_CX)
 #endif
-       xor %eax,%eax
+       xor %ecx,%ecx
        ASM_CLAC
        RET
 SYM_FUNC_END(__put_user_8)
 EXPORT_SYMBOL(__put_user_8)
+EXPORT_SYMBOL(__put_user_nocheck_8)
 
 SYM_CODE_START_LOCAL(.Lbad_put_user_clac)
        ASM_CLAC
 .Lbad_put_user:
-       movl $-EFAULT,%eax
+       movl $-EFAULT,%ecx
        RET
 SYM_CODE_END(.Lbad_put_user_clac)
 
index 1847e99..508c81e 100644 (file)
@@ -56,27 +56,6 @@ unsigned long clear_user(void __user *to, unsigned long n)
 }
 EXPORT_SYMBOL(clear_user);
 
-/*
- * Similar to copy_user_handle_tail, probe for the write fault point,
- * but reuse __memcpy_mcsafe in case a new read error is encountered.
- * clac() is handled in _copy_to_iter_mcsafe().
- */
-__visible notrace unsigned long
-mcsafe_handle_tail(char *to, char *from, unsigned len)
-{
-       for (; len; --len, to++, from++) {
-               /*
-                * Call the assembly routine back directly since
-                * memcpy_mcsafe() may silently fallback to memcpy.
-                */
-               unsigned long rem = __memcpy_mcsafe(to, from, 1);
-
-               if (rem)
-                       break;
-       }
-       return len;
-}
-
 #ifdef CONFIG_ARCH_HAS_UACCESS_FLUSHCACHE
 /**
  * clean_cache_range - write back a cache range with CLWB
index 1d6cb07..5829457 100644 (file)
@@ -80,6 +80,18 @@ __visible bool ex_handler_uaccess(const struct exception_table_entry *fixup,
 }
 EXPORT_SYMBOL(ex_handler_uaccess);
 
+__visible bool ex_handler_copy(const struct exception_table_entry *fixup,
+                              struct pt_regs *regs, int trapnr,
+                              unsigned long error_code,
+                              unsigned long fault_addr)
+{
+       WARN_ONCE(trapnr == X86_TRAP_GP, "General protection fault in user access. Non-canonical address?");
+       regs->ip = ex_fixup_addr(fixup);
+       regs->ax = trapnr;
+       return true;
+}
+EXPORT_SYMBOL(ex_handler_copy);
+
 __visible bool ex_handler_rdmsr_unsafe(const struct exception_table_entry *fixup,
                                       struct pt_regs *regs, int trapnr,
                                       unsigned long error_code,
@@ -125,17 +137,21 @@ __visible bool ex_handler_clear_fs(const struct exception_table_entry *fixup,
 }
 EXPORT_SYMBOL(ex_handler_clear_fs);
 
-__visible bool ex_has_fault_handler(unsigned long ip)
+enum handler_type ex_get_fault_handler_type(unsigned long ip)
 {
        const struct exception_table_entry *e;
        ex_handler_t handler;
 
        e = search_exception_tables(ip);
        if (!e)
-               return false;
+               return EX_HANDLER_NONE;
        handler = ex_fixup_handler(e);
-
-       return handler == ex_handler_fault;
+       if (handler == ex_handler_fault)
+               return EX_HANDLER_FAULT;
+       else if (handler == ex_handler_uaccess || handler == ex_handler_copy)
+               return EX_HANDLER_UACCESS;
+       else
+               return EX_HANDLER_OTHER;
 }
 
 int fixup_exception(struct pt_regs *regs, int trapnr, unsigned long error_code,
index 6e3e8a1..42606a0 100644 (file)
@@ -1128,7 +1128,7 @@ access_error(unsigned long error_code, struct vm_area_struct *vma)
        return 0;
 }
 
-static int fault_in_kernel_space(unsigned long address)
+bool fault_in_kernel_space(unsigned long address)
 {
        /*
         * On 64-bit systems, the vsyscall page is at an address above
index a4ac13c..b5a3fa4 100644 (file)
@@ -217,11 +217,6 @@ static void sync_global_pgds(unsigned long start, unsigned long end)
                sync_global_pgds_l4(start, end);
 }
 
-void arch_sync_kernel_mappings(unsigned long start, unsigned long end)
-{
-       sync_global_pgds(start, end);
-}
-
 /*
  * NOTE: This function is marked __ref because it calls __init function
  * (alloc_bootmem_pages). It's safe to do it ONLY when after_bootmem == 0.
@@ -1257,14 +1252,19 @@ static void __init preallocate_vmalloc_pages(void)
                if (!p4d)
                        goto failed;
 
-               /*
-                * With 5-level paging the P4D level is not folded. So the PGDs
-                * are now populated and there is no need to walk down to the
-                * PUD level.
-                */
                if (pgtable_l5_enabled())
                        continue;
 
+               /*
+                * The goal here is to allocate all possibly required
+                * hardware page tables pointed to by the top hardware
+                * level.
+                *
+                * On 4-level systems, the P4D layer is folded away and
+                * the above code does no preallocation.  Below, go down
+                * to the pud _software_ level to ensure the second
+                * hardware level is allocated on 4-level systems too.
+                */
                lvl = "pud";
                pud = pud_alloc(&init_mm, p4d, addr);
                if (!pud)
index d1b2a88..40baa90 100644 (file)
@@ -1999,7 +1999,7 @@ static int __set_memory_enc_dec(unsigned long addr, int numpages, bool enc)
        /*
         * Before changing the encryption attribute, we need to flush caches.
         */
-       cpa_flush(&cpa, 1);
+       cpa_flush(&cpa, !this_cpu_has(X86_FEATURE_SME_COHERENT));
 
        ret = __change_page_attr_set_clr(&cpa, 1);
 
index 0951b47..11666ba 100644 (file)
@@ -14,7 +14,6 @@
 #include <asm/nospec-branch.h>
 #include <asm/cache.h>
 #include <asm/apic.h>
-#include <asm/uv/uv.h>
 
 #include "mm_internal.h"
 
@@ -800,29 +799,6 @@ STATIC_NOPV void native_flush_tlb_others(const struct cpumask *cpumask,
                trace_tlb_flush(TLB_REMOTE_SEND_IPI,
                                (info->end - info->start) >> PAGE_SHIFT);
 
-       if (is_uv_system()) {
-               /*
-                * This whole special case is confused.  UV has a "Broadcast
-                * Assist Unit", which seems to be a fancy way to send IPIs.
-                * Back when x86 used an explicit TLB flush IPI, UV was
-                * optimized to use its own mechanism.  These days, x86 uses
-                * smp_call_function_many(), but UV still uses a manual IPI,
-                * and that IPI's action is out of date -- it does a manual
-                * flush instead of calling flush_tlb_func_remote().  This
-                * means that the percpu tlb_gen variables won't be updated
-                * and we'll do pointless flushes on future context switches.
-                *
-                * Rather than hooking native_flush_tlb_others() here, I think
-                * that UV should be updated so that smp_call_function_many(),
-                * etc, are optimal on UV.
-                */
-               cpumask = uv_flush_tlb_others(cpumask, info);
-               if (cpumask)
-                       smp_call_function_many(cpumask, flush_tlb_func_remote,
-                                              (void *)info, 1);
-               return;
-       }
-
        /*
         * If no page tables were freed, we can skip sending IPIs to
         * CPUs in lazy TLB mode. They will flush the CPU themselves
index df1d959..3507f45 100644 (file)
@@ -19,6 +19,7 @@
 #include <asm/smp.h>
 #include <asm/pci_x86.h>
 #include <asm/setup.h>
+#include <asm/irqdomain.h>
 
 unsigned int pci_probe = PCI_PROBE_BIOS | PCI_PROBE_CONF1 | PCI_PROBE_CONF2 |
                                PCI_PROBE_MMCONF;
@@ -633,8 +634,9 @@ static void set_dev_domain_options(struct pci_dev *pdev)
 
 int pcibios_add_device(struct pci_dev *dev)
 {
-       struct setup_data *data;
        struct pci_setup_rom *rom;
+       struct irq_domain *msidom;
+       struct setup_data *data;
        u64 pa_data;
 
        pa_data = boot_params.hdr.setup_data;
@@ -661,6 +663,20 @@ int pcibios_add_device(struct pci_dev *dev)
                memunmap(data);
        }
        set_dev_domain_options(dev);
+
+       /*
+        * Setup the initial MSI domain of the device. If the underlying
+        * bus has a PCI/MSI irqdomain associated use the bus domain,
+        * otherwise set the default domain. This ensures that special irq
+        * domains e.g. VMD are preserved. The default ensures initial
+        * operation if irq remapping is not active. If irq remapping is
+        * active it will overwrite the domain pointer when the device is
+        * associated to a remapping domain.
+        */
+       msidom = dev_get_msi_domain(&dev->bus->dev);
+       if (!msidom)
+               msidom = x86_pci_msi_default_domain;
+       dev_set_msi_domain(&dev->dev, msidom);
        return 0;
 }
 
index 5fc617e..00bfa1e 100644 (file)
@@ -3,16 +3,17 @@
 #include <linux/init.h>
 #include <asm/pci_x86.h>
 #include <asm/x86_init.h>
+#include <asm/irqdomain.h>
 
 /* arch_initcall has too random ordering, so call the initializers
    in the right sequence from here. */
 static __init int pci_arch_init(void)
 {
-#ifdef CONFIG_PCI_DIRECT
-       int type = 0;
+       int type;
+
+       x86_create_pci_msi_domain();
 
        type = pci_direct_probe();
-#endif
 
        if (!(pci_probe & PCI_PROBE_NOEARLY))
                pci_mmcfg_early_init();
@@ -20,18 +21,16 @@ static __init int pci_arch_init(void)
        if (x86_init.pci.arch_init && !x86_init.pci.arch_init())
                return 0;
 
-#ifdef CONFIG_PCI_BIOS
        pci_pcbios_init();
-#endif
+
        /*
         * don't check for raw_pci_ops here because we want pcbios as last
         * fallback, yet it's needed to run first to set pcibios_last_bus
         * in case legacy PCI probing is used. otherwise detecting peer busses
         * fails.
         */
-#ifdef CONFIG_PCI_DIRECT
        pci_direct_init(type);
-#endif
+
        if (!raw_pci_ops && !raw_pci_ext_ops)
                printk(KERN_ERR
                "PCI: Fatal: No config space access function found\n");
index 89395a5..c552cd2 100644 (file)
@@ -157,6 +157,13 @@ static int acpi_register_gsi_xen(struct device *dev, u32 gsi,
 struct xen_pci_frontend_ops *xen_pci_frontend;
 EXPORT_SYMBOL_GPL(xen_pci_frontend);
 
+struct xen_msi_ops {
+       int (*setup_msi_irqs)(struct pci_dev *dev, int nvec, int type);
+       void (*teardown_msi_irqs)(struct pci_dev *dev);
+};
+
+static struct xen_msi_ops xen_msi_ops __ro_after_init;
+
 static int xen_setup_msi_irqs(struct pci_dev *dev, int nvec, int type)
 {
        int irq, ret, i;
@@ -372,28 +379,122 @@ static void xen_initdom_restore_msi_irqs(struct pci_dev *dev)
                WARN(ret && ret != -ENOSYS, "restore_msi -> %d\n", ret);
        }
 }
-#endif
+#else /* CONFIG_XEN_DOM0 */
+#define xen_initdom_setup_msi_irqs     NULL
+#define xen_initdom_restore_msi_irqs   NULL
+#endif /* !CONFIG_XEN_DOM0 */
 
 static void xen_teardown_msi_irqs(struct pci_dev *dev)
 {
        struct msi_desc *msidesc;
+       int i;
+
+       for_each_pci_msi_entry(msidesc, dev) {
+               if (msidesc->irq) {
+                       for (i = 0; i < msidesc->nvec_used; i++)
+                               xen_destroy_irq(msidesc->irq + i);
+               }
+       }
+}
+
+static void xen_pv_teardown_msi_irqs(struct pci_dev *dev)
+{
+       struct msi_desc *msidesc = first_pci_msi_entry(dev);
 
-       msidesc = first_pci_msi_entry(dev);
        if (msidesc->msi_attrib.is_msix)
                xen_pci_frontend_disable_msix(dev);
        else
                xen_pci_frontend_disable_msi(dev);
 
-       /* Free the IRQ's and the msidesc using the generic code. */
-       default_teardown_msi_irqs(dev);
+       xen_teardown_msi_irqs(dev);
 }
 
-static void xen_teardown_msi_irq(unsigned int irq)
+static int xen_msi_domain_alloc_irqs(struct irq_domain *domain,
+                                    struct device *dev,  int nvec)
 {
-       xen_destroy_irq(irq);
+       int type;
+
+       if (WARN_ON_ONCE(!dev_is_pci(dev)))
+               return -EINVAL;
+
+       if (first_msi_entry(dev)->msi_attrib.is_msix)
+               type = PCI_CAP_ID_MSIX;
+       else
+               type = PCI_CAP_ID_MSI;
+
+       return xen_msi_ops.setup_msi_irqs(to_pci_dev(dev), nvec, type);
 }
 
-#endif
+static void xen_msi_domain_free_irqs(struct irq_domain *domain,
+                                    struct device *dev)
+{
+       if (WARN_ON_ONCE(!dev_is_pci(dev)))
+               return;
+
+       xen_msi_ops.teardown_msi_irqs(to_pci_dev(dev));
+}
+
+static struct msi_domain_ops xen_pci_msi_domain_ops = {
+       .domain_alloc_irqs      = xen_msi_domain_alloc_irqs,
+       .domain_free_irqs       = xen_msi_domain_free_irqs,
+};
+
+static struct msi_domain_info xen_pci_msi_domain_info = {
+       .ops                    = &xen_pci_msi_domain_ops,
+};
+
+/*
+ * This irq domain is a blatant violation of the irq domain design, but
+ * distangling XEN into real irq domains is not a job for mere mortals with
+ * limited XENology. But it's the least dangerous way for a mere mortal to
+ * get rid of the arch_*_msi_irqs() hackery in order to store the irq
+ * domain pointer in struct device. This irq domain wrappery allows to do
+ * that without breaking XEN terminally.
+ */
+static __init struct irq_domain *xen_create_pci_msi_domain(void)
+{
+       struct irq_domain *d = NULL;
+       struct fwnode_handle *fn;
+
+       fn = irq_domain_alloc_named_fwnode("XEN-MSI");
+       if (fn)
+               d = msi_create_irq_domain(fn, &xen_pci_msi_domain_info, NULL);
+
+       /* FIXME: No idea how to survive if this fails */
+       BUG_ON(!d);
+
+       return d;
+}
+
+static __init void xen_setup_pci_msi(void)
+{
+       if (xen_pv_domain()) {
+               if (xen_initial_domain()) {
+                       xen_msi_ops.setup_msi_irqs = xen_initdom_setup_msi_irqs;
+                       x86_msi.restore_msi_irqs = xen_initdom_restore_msi_irqs;
+               } else {
+                       xen_msi_ops.setup_msi_irqs = xen_setup_msi_irqs;
+               }
+               xen_msi_ops.teardown_msi_irqs = xen_pv_teardown_msi_irqs;
+               pci_msi_ignore_mask = 1;
+       } else if (xen_hvm_domain()) {
+               xen_msi_ops.setup_msi_irqs = xen_hvm_setup_msi_irqs;
+               xen_msi_ops.teardown_msi_irqs = xen_teardown_msi_irqs;
+       } else {
+               WARN_ON_ONCE(1);
+               return;
+       }
+
+       /*
+        * Override the PCI/MSI irq domain init function. No point
+        * in allocating the native domain and never use it.
+        */
+       x86_init.irqs.create_pci_msi_domain = xen_create_pci_msi_domain;
+}
+
+#else /* CONFIG_PCI_MSI */
+static inline void xen_setup_pci_msi(void) { }
+#endif /* CONFIG_PCI_MSI */
 
 int __init pci_xen_init(void)
 {
@@ -410,17 +511,12 @@ int __init pci_xen_init(void)
        /* Keep ACPI out of the picture */
        acpi_noirq_set();
 
-#ifdef CONFIG_PCI_MSI
-       x86_msi.setup_msi_irqs = xen_setup_msi_irqs;
-       x86_msi.teardown_msi_irq = xen_teardown_msi_irq;
-       x86_msi.teardown_msi_irqs = xen_teardown_msi_irqs;
-       pci_msi_ignore_mask = 1;
-#endif
+       xen_setup_pci_msi();
        return 0;
 }
 
 #ifdef CONFIG_PCI_MSI
-void __init xen_msi_init(void)
+static void __init xen_hvm_msi_init(void)
 {
        if (!disable_apic) {
                /*
@@ -435,9 +531,7 @@ void __init xen_msi_init(void)
                    ((eax & XEN_HVM_CPUID_APIC_ACCESS_VIRT) && boot_cpu_has(X86_FEATURE_APIC)))
                        return;
        }
-
-       x86_msi.setup_msi_irqs = xen_hvm_setup_msi_irqs;
-       x86_msi.teardown_msi_irq = xen_teardown_msi_irq;
+       xen_setup_pci_msi();
 }
 #endif
 
@@ -460,7 +554,7 @@ int __init pci_xen_hvm_init(void)
         * We need to wait until after x2apic is initialized
         * before we can set MSI IRQ ops.
         */
-       x86_platform.apic_post_init = xen_msi_init;
+       x86_platform.apic_post_init = xen_hvm_msi_init;
 #endif
        return 0;
 }
@@ -470,12 +564,7 @@ int __init pci_xen_initial_domain(void)
 {
        int irq;
 
-#ifdef CONFIG_PCI_MSI
-       x86_msi.setup_msi_irqs = xen_initdom_setup_msi_irqs;
-       x86_msi.teardown_msi_irq = xen_teardown_msi_irq;
-       x86_msi.restore_msi_irqs = xen_initdom_restore_msi_irqs;
-       pci_msi_ignore_mask = 1;
-#endif
+       xen_setup_pci_msi();
        __acpi_register_gsi = acpi_register_gsi_xen;
        __acpi_unregister_gsi = NULL;
        /*
index d37ebe6..8a26e70 100644 (file)
@@ -90,6 +90,9 @@ static const unsigned long * const efi_tables[] = {
        &efi.tpm_log,
        &efi.tpm_final_log,
        &efi_rng_seed,
+#ifdef CONFIG_LOAD_UEFI_KEYS
+       &efi.mokvar_table,
+#endif
 };
 
 u64 efi_setup;         /* efi setup_data physical address */
index a3693c8..224ff05 100644 (file)
@@ -1,2 +1,2 @@
 # SPDX-License-Identifier: GPL-2.0-only
-obj-$(CONFIG_X86_UV)           += tlb_uv.o bios_uv.o uv_irq.o uv_sysfs.o uv_time.o uv_nmi.o
+obj-$(CONFIG_X86_UV)           += bios_uv.o uv_irq.o uv_sysfs.o uv_time.o uv_nmi.o
index a2f447d..54511ea 100644 (file)
@@ -2,8 +2,9 @@
 /*
  * BIOS run time interface routines.
  *
- *  Copyright (c) 2008-2009 Silicon Graphics, Inc.  All Rights Reserved.
- *  Copyright (c) Russ Anderson <rja@sgi.com>
+ * (C) Copyright 2020 Hewlett Packard Enterprise Development LP
+ * Copyright (C) 2007-2017 Silicon Graphics, Inc. All rights reserved.
+ * Copyright (c) Russ Anderson <rja@sgi.com>
  */
 
 #include <linux/efi.h>
@@ -170,16 +171,27 @@ int uv_bios_set_legacy_vga_target(bool decode, int domain, int bus)
                                (u64)decode, (u64)domain, (u64)bus, 0, 0);
 }
 
-int uv_bios_init(void)
+unsigned long get_uv_systab_phys(bool msg)
 {
-       uv_systab = NULL;
        if ((uv_systab_phys == EFI_INVALID_TABLE_ADDR) ||
            !uv_systab_phys || efi_runtime_disabled()) {
-               pr_crit("UV: UVsystab: missing\n");
-               return -EEXIST;
+               if (msg)
+                       pr_crit("UV: UVsystab: missing\n");
+               return 0;
        }
+       return uv_systab_phys;
+}
+
+int uv_bios_init(void)
+{
+       unsigned long uv_systab_phys_addr;
+
+       uv_systab = NULL;
+       uv_systab_phys_addr = get_uv_systab_phys(1);
+       if (!uv_systab_phys_addr)
+               return -EEXIST;
 
-       uv_systab = ioremap(uv_systab_phys, sizeof(struct uv_systab));
+       uv_systab = ioremap(uv_systab_phys_addr, sizeof(struct uv_systab));
        if (!uv_systab || strncmp(uv_systab->signature, UV_SYSTAB_SIG, 4)) {
                pr_err("UV: UVsystab: bad signature!\n");
                iounmap(uv_systab);
@@ -191,7 +203,7 @@ int uv_bios_init(void)
                int size = uv_systab->size;
 
                iounmap(uv_systab);
-               uv_systab = ioremap(uv_systab_phys, size);
+               uv_systab = ioremap(uv_systab_phys_addr, size);
                if (!uv_systab) {
                        pr_err("UV: UVsystab: ioremap(%d) failed!\n", size);
                        return -EFAULT;
diff --git a/arch/x86/platform/uv/tlb_uv.c b/arch/x86/platform/uv/tlb_uv.c
deleted file mode 100644 (file)
index 62ea907..0000000
+++ /dev/null
@@ -1,2097 +0,0 @@
-// SPDX-License-Identifier: GPL-2.0-or-later
-/*
- *     SGI UltraViolet TLB flush routines.
- *
- *     (c) 2008-2014 Cliff Wickman <cpw@sgi.com>, SGI.
- */
-#include <linux/seq_file.h>
-#include <linux/proc_fs.h>
-#include <linux/debugfs.h>
-#include <linux/kernel.h>
-#include <linux/slab.h>
-#include <linux/delay.h>
-
-#include <asm/mmu_context.h>
-#include <asm/uv/uv.h>
-#include <asm/uv/uv_mmrs.h>
-#include <asm/uv/uv_hub.h>
-#include <asm/uv/uv_bau.h>
-#include <asm/apic.h>
-#include <asm/tsc.h>
-#include <asm/irq_vectors.h>
-#include <asm/timer.h>
-
-static struct bau_operations ops __ro_after_init;
-
-static int timeout_us;
-static bool nobau = true;
-static int nobau_perm;
-
-/* tunables: */
-static int max_concurr         = MAX_BAU_CONCURRENT;
-static int max_concurr_const   = MAX_BAU_CONCURRENT;
-static int plugged_delay       = PLUGGED_DELAY;
-static int plugsb4reset                = PLUGSB4RESET;
-static int giveup_limit                = GIVEUP_LIMIT;
-static int timeoutsb4reset     = TIMEOUTSB4RESET;
-static int ipi_reset_limit     = IPI_RESET_LIMIT;
-static int complete_threshold  = COMPLETE_THRESHOLD;
-static int congested_respns_us = CONGESTED_RESPONSE_US;
-static int congested_reps      = CONGESTED_REPS;
-static int disabled_period     = DISABLED_PERIOD;
-
-static struct tunables tunables[] = {
-       {&max_concurr,           MAX_BAU_CONCURRENT}, /* must be [0] */
-       {&plugged_delay,         PLUGGED_DELAY},
-       {&plugsb4reset,          PLUGSB4RESET},
-       {&timeoutsb4reset,       TIMEOUTSB4RESET},
-       {&ipi_reset_limit,       IPI_RESET_LIMIT},
-       {&complete_threshold,    COMPLETE_THRESHOLD},
-       {&congested_respns_us,   CONGESTED_RESPONSE_US},
-       {&congested_reps,        CONGESTED_REPS},
-       {&disabled_period,       DISABLED_PERIOD},
-       {&giveup_limit,          GIVEUP_LIMIT}
-};
-
-static struct dentry *tunables_dir;
-
-/* these correspond to the statistics printed by ptc_seq_show() */
-static char *stat_description[] = {
-       "sent:     number of shootdown messages sent",
-       "stime:    time spent sending messages",
-       "numuvhubs: number of hubs targeted with shootdown",
-       "numuvhubs16: number times 16 or more hubs targeted",
-       "numuvhubs8: number times 8 or more hubs targeted",
-       "numuvhubs4: number times 4 or more hubs targeted",
-       "numuvhubs2: number times 2 or more hubs targeted",
-       "numuvhubs1: number times 1 hub targeted",
-       "numcpus:  number of cpus targeted with shootdown",
-       "dto:      number of destination timeouts",
-       "retries:  destination timeout retries sent",
-       "rok:   :  destination timeouts successfully retried",
-       "resetp:   ipi-style resource resets for plugs",
-       "resett:   ipi-style resource resets for timeouts",
-       "giveup:   fall-backs to ipi-style shootdowns",
-       "sto:      number of source timeouts",
-       "bz:       number of stay-busy's",
-       "throt:    number times spun in throttle",
-       "swack:   image of UVH_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE",
-       "recv:     shootdown messages received",
-       "rtime:    time spent processing messages",
-       "all:      shootdown all-tlb messages",
-       "one:      shootdown one-tlb messages",
-       "mult:     interrupts that found multiple messages",
-       "none:     interrupts that found no messages",
-       "retry:    number of retry messages processed",
-       "canc:     number messages canceled by retries",
-       "nocan:    number retries that found nothing to cancel",
-       "reset:    number of ipi-style reset requests processed",
-       "rcan:     number messages canceled by reset requests",
-       "disable:  number times use of the BAU was disabled",
-       "enable:   number times use of the BAU was re-enabled"
-};
-
-static int __init setup_bau(char *arg)
-{
-       int result;
-
-       if (!arg)
-               return -EINVAL;
-
-       result = strtobool(arg, &nobau);
-       if (result)
-               return result;
-
-       /* we need to flip the logic here, so that bau=y sets nobau to false */
-       nobau = !nobau;
-
-       if (!nobau)
-               pr_info("UV BAU Enabled\n");
-       else
-               pr_info("UV BAU Disabled\n");
-
-       return 0;
-}
-early_param("bau", setup_bau);
-
-/* base pnode in this partition */
-static int uv_base_pnode __read_mostly;
-
-static DEFINE_PER_CPU(struct ptc_stats, ptcstats);
-static DEFINE_PER_CPU(struct bau_control, bau_control);
-static DEFINE_PER_CPU(cpumask_var_t, uv_flush_tlb_mask);
-
-static void
-set_bau_on(void)
-{
-       int cpu;
-       struct bau_control *bcp;
-
-       if (nobau_perm) {
-               pr_info("BAU not initialized; cannot be turned on\n");
-               return;
-       }
-       nobau = false;
-       for_each_present_cpu(cpu) {
-               bcp = &per_cpu(bau_control, cpu);
-               bcp->nobau = false;
-       }
-       pr_info("BAU turned on\n");
-       return;
-}
-
-static void
-set_bau_off(void)
-{
-       int cpu;
-       struct bau_control *bcp;
-
-       nobau = true;
-       for_each_present_cpu(cpu) {
-               bcp = &per_cpu(bau_control, cpu);
-               bcp->nobau = true;
-       }
-       pr_info("BAU turned off\n");
-       return;
-}
-
-/*
- * Determine the first node on a uvhub. 'Nodes' are used for kernel
- * memory allocation.
- */
-static int __init uvhub_to_first_node(int uvhub)
-{
-       int node, b;
-
-       for_each_online_node(node) {
-               b = uv_node_to_blade_id(node);
-               if (uvhub == b)
-                       return node;
-       }
-       return -1;
-}
-
-/*
- * Determine the apicid of the first cpu on a uvhub.
- */
-static int __init uvhub_to_first_apicid(int uvhub)
-{
-       int cpu;
-
-       for_each_present_cpu(cpu)
-               if (uvhub == uv_cpu_to_blade_id(cpu))
-                       return per_cpu(x86_cpu_to_apicid, cpu);
-       return -1;
-}
-
-/*
- * Free a software acknowledge hardware resource by clearing its Pending
- * bit. This will return a reply to the sender.
- * If the message has timed out, a reply has already been sent by the
- * hardware but the resource has not been released. In that case our
- * clear of the Timeout bit (as well) will free the resource. No reply will
- * be sent (the hardware will only do one reply per message).
- */
-static void reply_to_message(struct msg_desc *mdp, struct bau_control *bcp,
-                                               int do_acknowledge)
-{
-       unsigned long dw;
-       struct bau_pq_entry *msg;
-
-       msg = mdp->msg;
-       if (!msg->canceled && do_acknowledge) {
-               dw = (msg->swack_vec << UV_SW_ACK_NPENDING) | msg->swack_vec;
-               ops.write_l_sw_ack(dw);
-       }
-       msg->replied_to = 1;
-       msg->swack_vec = 0;
-}
-
-/*
- * Process the receipt of a RETRY message
- */
-static void bau_process_retry_msg(struct msg_desc *mdp,
-                                       struct bau_control *bcp)
-{
-       int i;
-       int cancel_count = 0;
-       unsigned long msg_res;
-       unsigned long mmr = 0;
-       struct bau_pq_entry *msg = mdp->msg;
-       struct bau_pq_entry *msg2;
-       struct ptc_stats *stat = bcp->statp;
-
-       stat->d_retries++;
-       /*
-        * cancel any message from msg+1 to the retry itself
-        */
-       for (msg2 = msg+1, i = 0; i < DEST_Q_SIZE; msg2++, i++) {
-               if (msg2 > mdp->queue_last)
-                       msg2 = mdp->queue_first;
-               if (msg2 == msg)
-                       break;
-
-               /* same conditions for cancellation as do_reset */
-               if ((msg2->replied_to == 0) && (msg2->canceled == 0) &&
-                   (msg2->swack_vec) && ((msg2->swack_vec &
-                       msg->swack_vec) == 0) &&
-                   (msg2->sending_cpu == msg->sending_cpu) &&
-                   (msg2->msg_type != MSG_NOOP)) {
-                       mmr = ops.read_l_sw_ack();
-                       msg_res = msg2->swack_vec;
-                       /*
-                        * This is a message retry; clear the resources held
-                        * by the previous message only if they timed out.
-                        * If it has not timed out we have an unexpected
-                        * situation to report.
-                        */
-                       if (mmr & (msg_res << UV_SW_ACK_NPENDING)) {
-                               unsigned long mr;
-                               /*
-                                * Is the resource timed out?
-                                * Make everyone ignore the cancelled message.
-                                */
-                               msg2->canceled = 1;
-                               stat->d_canceled++;
-                               cancel_count++;
-                               mr = (msg_res << UV_SW_ACK_NPENDING) | msg_res;
-                               ops.write_l_sw_ack(mr);
-                       }
-               }
-       }
-       if (!cancel_count)
-               stat->d_nocanceled++;
-}
-
-/*
- * Do all the things a cpu should do for a TLB shootdown message.
- * Other cpu's may come here at the same time for this message.
- */
-static void bau_process_message(struct msg_desc *mdp, struct bau_control *bcp,
-                                               int do_acknowledge)
-{
-       short socket_ack_count = 0;
-       short *sp;
-       struct atomic_short *asp;
-       struct ptc_stats *stat = bcp->statp;
-       struct bau_pq_entry *msg = mdp->msg;
-       struct bau_control *smaster = bcp->socket_master;
-
-       /*
-        * This must be a normal message, or retry of a normal message
-        */
-       if (msg->address == TLB_FLUSH_ALL) {
-               flush_tlb_local();
-               stat->d_alltlb++;
-       } else {
-               flush_tlb_one_user(msg->address);
-               stat->d_onetlb++;
-       }
-       stat->d_requestee++;
-
-       /*
-        * One cpu on each uvhub has the additional job on a RETRY
-        * of releasing the resource held by the message that is
-        * being retried.  That message is identified by sending
-        * cpu number.
-        */
-       if (msg->msg_type == MSG_RETRY && bcp == bcp->uvhub_master)
-               bau_process_retry_msg(mdp, bcp);
-
-       /*
-        * This is a swack message, so we have to reply to it.
-        * Count each responding cpu on the socket. This avoids
-        * pinging the count's cache line back and forth between
-        * the sockets.
-        */
-       sp = &smaster->socket_acknowledge_count[mdp->msg_slot];
-       asp = (struct atomic_short *)sp;
-       socket_ack_count = atom_asr(1, asp);
-       if (socket_ack_count == bcp->cpus_in_socket) {
-               int msg_ack_count;
-               /*
-                * Both sockets dump their completed count total into
-                * the message's count.
-                */
-               *sp = 0;
-               asp = (struct atomic_short *)&msg->acknowledge_count;
-               msg_ack_count = atom_asr(socket_ack_count, asp);
-
-               if (msg_ack_count == bcp->cpus_in_uvhub) {
-                       /*
-                        * All cpus in uvhub saw it; reply
-                        * (unless we are in the UV2 workaround)
-                        */
-                       reply_to_message(mdp, bcp, do_acknowledge);
-               }
-       }
-
-       return;
-}
-
-/*
- * Determine the first cpu on a pnode.
- */
-static int pnode_to_first_cpu(int pnode, struct bau_control *smaster)
-{
-       int cpu;
-       struct hub_and_pnode *hpp;
-
-       for_each_present_cpu(cpu) {
-               hpp = &smaster->thp[cpu];
-               if (pnode == hpp->pnode)
-                       return cpu;
-       }
-       return -1;
-}
-
-/*
- * Last resort when we get a large number of destination timeouts is
- * to clear resources held by a given cpu.
- * Do this with IPI so that all messages in the BAU message queue
- * can be identified by their nonzero swack_vec field.
- *
- * This is entered for a single cpu on the uvhub.
- * The sender want's this uvhub to free a specific message's
- * swack resources.
- */
-static void do_reset(void *ptr)
-{
-       int i;
-       struct bau_control *bcp = &per_cpu(bau_control, smp_processor_id());
-       struct reset_args *rap = (struct reset_args *)ptr;
-       struct bau_pq_entry *msg;
-       struct ptc_stats *stat = bcp->statp;
-
-       stat->d_resets++;
-       /*
-        * We're looking for the given sender, and
-        * will free its swack resource.
-        * If all cpu's finally responded after the timeout, its
-        * message 'replied_to' was set.
-        */
-       for (msg = bcp->queue_first, i = 0; i < DEST_Q_SIZE; msg++, i++) {
-               unsigned long msg_res;
-               /* do_reset: same conditions for cancellation as
-                  bau_process_retry_msg() */
-               if ((msg->replied_to == 0) &&
-                   (msg->canceled == 0) &&
-                   (msg->sending_cpu == rap->sender) &&
-                   (msg->swack_vec) &&
-                   (msg->msg_type != MSG_NOOP)) {
-                       unsigned long mmr;
-                       unsigned long mr;
-                       /*
-                        * make everyone else ignore this message
-                        */
-                       msg->canceled = 1;
-                       /*
-                        * only reset the resource if it is still pending
-                        */
-                       mmr = ops.read_l_sw_ack();
-                       msg_res = msg->swack_vec;
-                       mr = (msg_res << UV_SW_ACK_NPENDING) | msg_res;
-                       if (mmr & msg_res) {
-                               stat->d_rcanceled++;
-                               ops.write_l_sw_ack(mr);
-                       }
-               }
-       }
-       return;
-}
-
-/*
- * Use IPI to get all target uvhubs to release resources held by
- * a given sending cpu number.
- */
-static void reset_with_ipi(struct pnmask *distribution, struct bau_control *bcp)
-{
-       int pnode;
-       int apnode;
-       int maskbits;
-       int sender = bcp->cpu;
-       cpumask_t *mask = bcp->uvhub_master->cpumask;
-       struct bau_control *smaster = bcp->socket_master;
-       struct reset_args reset_args;
-
-       reset_args.sender = sender;
-       cpumask_clear(mask);
-       /* find a single cpu for each uvhub in this distribution mask */
-       maskbits = sizeof(struct pnmask) * BITSPERBYTE;
-       /* each bit is a pnode relative to the partition base pnode */
-       for (pnode = 0; pnode < maskbits; pnode++) {
-               int cpu;
-               if (!bau_uvhub_isset(pnode, distribution))
-                       continue;
-               apnode = pnode + bcp->partition_base_pnode;
-               cpu = pnode_to_first_cpu(apnode, smaster);
-               cpumask_set_cpu(cpu, mask);
-       }
-
-       /* IPI all cpus; preemption is already disabled */
-       smp_call_function_many(mask, do_reset, (void *)&reset_args, 1);
-       return;
-}
-
-/*
- * Not to be confused with cycles_2_ns() from tsc.c; this gives a relative
- * number, not an absolute. It converts a duration in cycles to a duration in
- * ns.
- */
-static inline unsigned long long cycles_2_ns(unsigned long long cyc)
-{
-       struct cyc2ns_data data;
-       unsigned long long ns;
-
-       cyc2ns_read_begin(&data);
-       ns = mul_u64_u32_shr(cyc, data.cyc2ns_mul, data.cyc2ns_shift);
-       cyc2ns_read_end();
-
-       return ns;
-}
-
-/*
- * The reverse of the above; converts a duration in ns to a duration in cycles.
- */
-static inline unsigned long long ns_2_cycles(unsigned long long ns)
-{
-       struct cyc2ns_data data;
-       unsigned long long cyc;
-
-       cyc2ns_read_begin(&data);
-       cyc = (ns << data.cyc2ns_shift) / data.cyc2ns_mul;
-       cyc2ns_read_end();
-
-       return cyc;
-}
-
-static inline unsigned long cycles_2_us(unsigned long long cyc)
-{
-       return cycles_2_ns(cyc) / NSEC_PER_USEC;
-}
-
-static inline cycles_t sec_2_cycles(unsigned long sec)
-{
-       return ns_2_cycles(sec * NSEC_PER_SEC);
-}
-
-static inline unsigned long long usec_2_cycles(unsigned long usec)
-{
-       return ns_2_cycles(usec * NSEC_PER_USEC);
-}
-
-/*
- * wait for all cpus on this hub to finish their sends and go quiet
- * leaves uvhub_quiesce set so that no new broadcasts are started by
- * bau_flush_send_and_wait()
- */
-static inline void quiesce_local_uvhub(struct bau_control *hmaster)
-{
-       atom_asr(1, (struct atomic_short *)&hmaster->uvhub_quiesce);
-}
-
-/*
- * mark this quiet-requestor as done
- */
-static inline void end_uvhub_quiesce(struct bau_control *hmaster)
-{
-       atom_asr(-1, (struct atomic_short *)&hmaster->uvhub_quiesce);
-}
-
-/*
- * UV2 could have an extra bit of status in the ACTIVATION_STATUS_2 register.
- * But not currently used.
- */
-static unsigned long uv2_3_read_status(unsigned long offset, int rshft, int desc)
-{
-       return ((read_lmmr(offset) >> rshft) & UV_ACT_STATUS_MASK) << 1;
-}
-
-/*
- * Entered when a bau descriptor has gone into a permanent busy wait because
- * of a hardware bug.
- * Workaround the bug.
- */
-static int handle_uv2_busy(struct bau_control *bcp)
-{
-       struct ptc_stats *stat = bcp->statp;
-
-       stat->s_uv2_wars++;
-       bcp->busy = 1;
-       return FLUSH_GIVEUP;
-}
-
-static int uv2_3_wait_completion(struct bau_desc *bau_desc,
-                               struct bau_control *bcp, long try)
-{
-       unsigned long descriptor_stat;
-       cycles_t ttm;
-       u64 mmr_offset = bcp->status_mmr;
-       int right_shift = bcp->status_index;
-       int desc = bcp->uvhub_cpu;
-       long busy_reps = 0;
-       struct ptc_stats *stat = bcp->statp;
-
-       descriptor_stat = uv2_3_read_status(mmr_offset, right_shift, desc);
-
-       /* spin on the status MMR, waiting for it to go idle */
-       while (descriptor_stat != UV2H_DESC_IDLE) {
-               if (descriptor_stat == UV2H_DESC_SOURCE_TIMEOUT) {
-                       /*
-                        * A h/w bug on the destination side may
-                        * have prevented the message being marked
-                        * pending, thus it doesn't get replied to
-                        * and gets continually nacked until it times
-                        * out with a SOURCE_TIMEOUT.
-                        */
-                       stat->s_stimeout++;
-                       return FLUSH_GIVEUP;
-               } else if (descriptor_stat == UV2H_DESC_DEST_TIMEOUT) {
-                       ttm = get_cycles();
-
-                       /*
-                        * Our retries may be blocked by all destination
-                        * swack resources being consumed, and a timeout
-                        * pending.  In that case hardware returns the
-                        * ERROR that looks like a destination timeout.
-                        * Without using the extended status we have to
-                        * deduce from the short time that this was a
-                        * strong nack.
-                        */
-                       if (cycles_2_us(ttm - bcp->send_message) < timeout_us) {
-                               bcp->conseccompletes = 0;
-                               stat->s_plugged++;
-                               /* FLUSH_RETRY_PLUGGED causes hang on boot */
-                               return FLUSH_GIVEUP;
-                       }
-                       stat->s_dtimeout++;
-                       bcp->conseccompletes = 0;
-                       /* FLUSH_RETRY_TIMEOUT causes hang on boot */
-                       return FLUSH_GIVEUP;
-               } else {
-                       busy_reps++;
-                       if (busy_reps > 1000000) {
-                               /* not to hammer on the clock */
-                               busy_reps = 0;
-                               ttm = get_cycles();
-                               if ((ttm - bcp->send_message) > bcp->timeout_interval)
-                                       return handle_uv2_busy(bcp);
-                       }
-                       /*
-                        * descriptor_stat is still BUSY
-                        */
-                       cpu_relax();
-               }
-               descriptor_stat = uv2_3_read_status(mmr_offset, right_shift, desc);
-       }
-       bcp->conseccompletes++;
-       return FLUSH_COMPLETE;
-}
-
-/*
- * Returns the status of current BAU message for cpu desc as a bit field
- * [Error][Busy][Aux]
- */
-static u64 read_status(u64 status_mmr, int index, int desc)
-{
-       u64 stat;
-
-       stat = ((read_lmmr(status_mmr) >> index) & UV_ACT_STATUS_MASK) << 1;
-       stat |= (read_lmmr(UVH_LB_BAU_SB_ACTIVATION_STATUS_2) >> desc) & 0x1;
-
-       return stat;
-}
-
-static int uv4_wait_completion(struct bau_desc *bau_desc,
-                               struct bau_control *bcp, long try)
-{
-       struct ptc_stats *stat = bcp->statp;
-       u64 descriptor_stat;
-       u64 mmr = bcp->status_mmr;
-       int index = bcp->status_index;
-       int desc = bcp->uvhub_cpu;
-
-       descriptor_stat = read_status(mmr, index, desc);
-
-       /* spin on the status MMR, waiting for it to go idle */
-       while (descriptor_stat != UV2H_DESC_IDLE) {
-               switch (descriptor_stat) {
-               case UV2H_DESC_SOURCE_TIMEOUT:
-                       stat->s_stimeout++;
-                       return FLUSH_GIVEUP;
-
-               case UV2H_DESC_DEST_TIMEOUT:
-                       stat->s_dtimeout++;
-                       bcp->conseccompletes = 0;
-                       return FLUSH_RETRY_TIMEOUT;
-
-               case UV2H_DESC_DEST_STRONG_NACK:
-                       stat->s_plugged++;
-                       bcp->conseccompletes = 0;
-                       return FLUSH_RETRY_PLUGGED;
-
-               case UV2H_DESC_DEST_PUT_ERR:
-                       bcp->conseccompletes = 0;
-                       return FLUSH_GIVEUP;
-
-               default:
-                       /* descriptor_stat is still BUSY */
-                       cpu_relax();
-               }
-               descriptor_stat = read_status(mmr, index, desc);
-       }
-       bcp->conseccompletes++;
-       return FLUSH_COMPLETE;
-}
-
-/*
- * Our retries are blocked by all destination sw ack resources being
- * in use, and a timeout is pending. In that case hardware immediately
- * returns the ERROR that looks like a destination timeout.
- */
-static void destination_plugged(struct bau_desc *bau_desc,
-                       struct bau_control *bcp,
-                       struct bau_control *hmaster, struct ptc_stats *stat)
-{
-       udelay(bcp->plugged_delay);
-       bcp->plugged_tries++;
-
-       if (bcp->plugged_tries >= bcp->plugsb4reset) {
-               bcp->plugged_tries = 0;
-
-               quiesce_local_uvhub(hmaster);
-
-               spin_lock(&hmaster->queue_lock);
-               reset_with_ipi(&bau_desc->distribution, bcp);
-               spin_unlock(&hmaster->queue_lock);
-
-               end_uvhub_quiesce(hmaster);
-
-               bcp->ipi_attempts++;
-               stat->s_resets_plug++;
-       }
-}
-
-static void destination_timeout(struct bau_desc *bau_desc,
-                       struct bau_control *bcp, struct bau_control *hmaster,
-                       struct ptc_stats *stat)
-{
-       hmaster->max_concurr = 1;
-       bcp->timeout_tries++;
-       if (bcp->timeout_tries >= bcp->timeoutsb4reset) {
-               bcp->timeout_tries = 0;
-
-               quiesce_local_uvhub(hmaster);
-
-               spin_lock(&hmaster->queue_lock);
-               reset_with_ipi(&bau_desc->distribution, bcp);
-               spin_unlock(&hmaster->queue_lock);
-
-               end_uvhub_quiesce(hmaster);
-
-               bcp->ipi_attempts++;
-               stat->s_resets_timeout++;
-       }
-}
-
-/*
- * Stop all cpus on a uvhub from using the BAU for a period of time.
- * This is reversed by check_enable.
- */
-static void disable_for_period(struct bau_control *bcp, struct ptc_stats *stat)
-{
-       int tcpu;
-       struct bau_control *tbcp;
-       struct bau_control *hmaster;
-       cycles_t tm1;
-
-       hmaster = bcp->uvhub_master;
-       spin_lock(&hmaster->disable_lock);
-       if (!bcp->baudisabled) {
-               stat->s_bau_disabled++;
-               tm1 = get_cycles();
-               for_each_present_cpu(tcpu) {
-                       tbcp = &per_cpu(bau_control, tcpu);
-                       if (tbcp->uvhub_master == hmaster) {
-                               tbcp->baudisabled = 1;
-                               tbcp->set_bau_on_time =
-                                       tm1 + bcp->disabled_period;
-                       }
-               }
-       }
-       spin_unlock(&hmaster->disable_lock);
-}
-
-static void count_max_concurr(int stat, struct bau_control *bcp,
-                               struct bau_control *hmaster)
-{
-       bcp->plugged_tries = 0;
-       bcp->timeout_tries = 0;
-       if (stat != FLUSH_COMPLETE)
-               return;
-       if (bcp->conseccompletes <= bcp->complete_threshold)
-               return;
-       if (hmaster->max_concurr >= hmaster->max_concurr_const)
-               return;
-       hmaster->max_concurr++;
-}
-
-static void record_send_stats(cycles_t time1, cycles_t time2,
-               struct bau_control *bcp, struct ptc_stats *stat,
-               int completion_status, int try)
-{
-       cycles_t elapsed;
-
-       if (time2 > time1) {
-               elapsed = time2 - time1;
-               stat->s_time += elapsed;
-
-               if ((completion_status == FLUSH_COMPLETE) && (try == 1)) {
-                       bcp->period_requests++;
-                       bcp->period_time += elapsed;
-                       if ((elapsed > usec_2_cycles(bcp->cong_response_us)) &&
-                           (bcp->period_requests > bcp->cong_reps) &&
-                           ((bcp->period_time / bcp->period_requests) >
-                                       usec_2_cycles(bcp->cong_response_us))) {
-                               stat->s_congested++;
-                               disable_for_period(bcp, stat);
-                       }
-               }
-       } else
-               stat->s_requestor--;
-
-       if (completion_status == FLUSH_COMPLETE && try > 1)
-               stat->s_retriesok++;
-       else if (completion_status == FLUSH_GIVEUP) {
-               stat->s_giveup++;
-               if (get_cycles() > bcp->period_end)
-                       bcp->period_giveups = 0;
-               bcp->period_giveups++;
-               if (bcp->period_giveups == 1)
-                       bcp->period_end = get_cycles() + bcp->disabled_period;
-               if (bcp->period_giveups > bcp->giveup_limit) {
-                       disable_for_period(bcp, stat);
-                       stat->s_giveuplimit++;
-               }
-       }
-}
-
-/*
- * Handle the completion status of a message send.
- */
-static void handle_cmplt(int completion_status, struct bau_desc *bau_desc,
-                       struct bau_control *bcp, struct bau_control *hmaster,
-                       struct ptc_stats *stat)
-{
-       if (completion_status == FLUSH_RETRY_PLUGGED)
-               destination_plugged(bau_desc, bcp, hmaster, stat);
-       else if (completion_status == FLUSH_RETRY_TIMEOUT)
-               destination_timeout(bau_desc, bcp, hmaster, stat);
-}
-
-/*
- * Send a broadcast and wait for it to complete.
- *
- * The flush_mask contains the cpus the broadcast is to be sent to including
- * cpus that are on the local uvhub.
- *
- * Returns 0 if all flushing represented in the mask was done.
- * Returns 1 if it gives up entirely and the original cpu mask is to be
- * returned to the kernel.
- */
-static int uv_flush_send_and_wait(struct cpumask *flush_mask,
-                                 struct bau_control *bcp,
-                                 struct bau_desc *bau_desc)
-{
-       int seq_number = 0;
-       int completion_stat = 0;
-       long try = 0;
-       unsigned long index;
-       cycles_t time1;
-       cycles_t time2;
-       struct ptc_stats *stat = bcp->statp;
-       struct bau_control *hmaster = bcp->uvhub_master;
-       struct uv2_3_bau_msg_header *uv2_3_hdr = NULL;
-
-       while (hmaster->uvhub_quiesce)
-               cpu_relax();
-
-       time1 = get_cycles();
-       uv2_3_hdr = &bau_desc->header.uv2_3_hdr;
-
-       do {
-               if (try == 0) {
-                       uv2_3_hdr->msg_type = MSG_REGULAR;
-                       seq_number = bcp->message_number++;
-               } else {
-                       uv2_3_hdr->msg_type = MSG_RETRY;
-                       stat->s_retry_messages++;
-               }
-
-               uv2_3_hdr->sequence = seq_number;
-               index = (1UL << AS_PUSH_SHIFT) | bcp->uvhub_cpu;
-               bcp->send_message = get_cycles();
-
-               write_mmr_activation(index);
-
-               try++;
-               completion_stat = ops.wait_completion(bau_desc, bcp, try);
-
-               handle_cmplt(completion_stat, bau_desc, bcp, hmaster, stat);
-
-               if (bcp->ipi_attempts >= bcp->ipi_reset_limit) {
-                       bcp->ipi_attempts = 0;
-                       stat->s_overipilimit++;
-                       completion_stat = FLUSH_GIVEUP;
-                       break;
-               }
-               cpu_relax();
-       } while ((completion_stat == FLUSH_RETRY_PLUGGED) ||
-                (completion_stat == FLUSH_RETRY_TIMEOUT));
-
-       time2 = get_cycles();
-
-       count_max_concurr(completion_stat, bcp, hmaster);
-
-       while (hmaster->uvhub_quiesce)
-               cpu_relax();
-
-       atomic_dec(&hmaster->active_descriptor_count);
-
-       record_send_stats(time1, time2, bcp, stat, completion_stat, try);
-
-       if (completion_stat == FLUSH_GIVEUP)
-               /* FLUSH_GIVEUP will fall back to using IPI's for tlb flush */
-               return 1;
-       return 0;
-}
-
-/*
- * The BAU is disabled for this uvhub. When the disabled time period has
- * expired re-enable it.
- * Return 0 if it is re-enabled for all cpus on this uvhub.
- */
-static int check_enable(struct bau_control *bcp, struct ptc_stats *stat)
-{
-       int tcpu;
-       struct bau_control *tbcp;
-       struct bau_control *hmaster;
-
-       hmaster = bcp->uvhub_master;
-       spin_lock(&hmaster->disable_lock);
-       if (bcp->baudisabled && (get_cycles() >= bcp->set_bau_on_time)) {
-               stat->s_bau_reenabled++;
-               for_each_present_cpu(tcpu) {
-                       tbcp = &per_cpu(bau_control, tcpu);
-                       if (tbcp->uvhub_master == hmaster) {
-                               tbcp->baudisabled = 0;
-                               tbcp->period_requests = 0;
-                               tbcp->period_time = 0;
-                               tbcp->period_giveups = 0;
-                       }
-               }
-               spin_unlock(&hmaster->disable_lock);
-               return 0;
-       }
-       spin_unlock(&hmaster->disable_lock);
-       return -1;
-}
-
-static void record_send_statistics(struct ptc_stats *stat, int locals, int hubs,
-                               int remotes, struct bau_desc *bau_desc)
-{
-       stat->s_requestor++;
-       stat->s_ntargcpu += remotes + locals;
-       stat->s_ntargremotes += remotes;
-       stat->s_ntarglocals += locals;
-
-       /* uvhub statistics */
-       hubs = bau_uvhub_weight(&bau_desc->distribution);
-       if (locals) {
-               stat->s_ntarglocaluvhub++;
-               stat->s_ntargremoteuvhub += (hubs - 1);
-       } else
-               stat->s_ntargremoteuvhub += hubs;
-
-       stat->s_ntarguvhub += hubs;
-
-       if (hubs >= 16)
-               stat->s_ntarguvhub16++;
-       else if (hubs >= 8)
-               stat->s_ntarguvhub8++;
-       else if (hubs >= 4)
-               stat->s_ntarguvhub4++;
-       else if (hubs >= 2)
-               stat->s_ntarguvhub2++;
-       else
-               stat->s_ntarguvhub1++;
-}
-
-/*
- * Translate a cpu mask to the uvhub distribution mask in the BAU
- * activation descriptor.
- */
-static int set_distrib_bits(struct cpumask *flush_mask, struct bau_control *bcp,
-                       struct bau_desc *bau_desc, int *localsp, int *remotesp)
-{
-       int cpu;
-       int pnode;
-       int cnt = 0;
-       struct hub_and_pnode *hpp;
-
-       for_each_cpu(cpu, flush_mask) {
-               /*
-                * The distribution vector is a bit map of pnodes, relative
-                * to the partition base pnode (and the partition base nasid
-                * in the header).
-                * Translate cpu to pnode and hub using a local memory array.
-                */
-               hpp = &bcp->socket_master->thp[cpu];
-               pnode = hpp->pnode - bcp->partition_base_pnode;
-               bau_uvhub_set(pnode, &bau_desc->distribution);
-               cnt++;
-               if (hpp->uvhub == bcp->uvhub)
-                       (*localsp)++;
-               else
-                       (*remotesp)++;
-       }
-       if (!cnt)
-               return 1;
-       return 0;
-}
-
-/*
- * globally purge translation cache of a virtual address or all TLB's
- * @cpumask: mask of all cpu's in which the address is to be removed
- * @mm: mm_struct containing virtual address range
- * @start: start virtual address to be removed from TLB
- * @end: end virtual address to be remove from TLB
- * @cpu: the current cpu
- *
- * This is the entry point for initiating any UV global TLB shootdown.
- *
- * Purges the translation caches of all specified processors of the given
- * virtual address, or purges all TLB's on specified processors.
- *
- * The caller has derived the cpumask from the mm_struct.  This function
- * is called only if there are bits set in the mask. (e.g. flush_tlb_page())
- *
- * The cpumask is converted into a uvhubmask of the uvhubs containing
- * those cpus.
- *
- * Note that this function should be called with preemption disabled.
- *
- * Returns NULL if all remote flushing was done.
- * Returns pointer to cpumask if some remote flushing remains to be
- * done.  The returned pointer is valid till preemption is re-enabled.
- */
-const struct cpumask *uv_flush_tlb_others(const struct cpumask *cpumask,
-                                         const struct flush_tlb_info *info)
-{
-       unsigned int cpu = smp_processor_id();
-       int locals = 0, remotes = 0, hubs = 0;
-       struct bau_desc *bau_desc;
-       struct cpumask *flush_mask;
-       struct ptc_stats *stat;
-       struct bau_control *bcp;
-       unsigned long descriptor_status, status, address;
-
-       bcp = &per_cpu(bau_control, cpu);
-
-       if (bcp->nobau)
-               return cpumask;
-
-       stat = bcp->statp;
-       stat->s_enters++;
-
-       if (bcp->busy) {
-               descriptor_status =
-                       read_lmmr(UVH_LB_BAU_SB_ACTIVATION_STATUS_0);
-               status = ((descriptor_status >> (bcp->uvhub_cpu *
-                       UV_ACT_STATUS_SIZE)) & UV_ACT_STATUS_MASK) << 1;
-               if (status == UV2H_DESC_BUSY)
-                       return cpumask;
-               bcp->busy = 0;
-       }
-
-       /* bau was disabled due to slow response */
-       if (bcp->baudisabled) {
-               if (check_enable(bcp, stat)) {
-                       stat->s_ipifordisabled++;
-                       return cpumask;
-               }
-       }
-
-       /*
-        * Each sending cpu has a per-cpu mask which it fills from the caller's
-        * cpu mask.  All cpus are converted to uvhubs and copied to the
-        * activation descriptor.
-        */
-       flush_mask = (struct cpumask *)per_cpu(uv_flush_tlb_mask, cpu);
-       /* don't actually do a shootdown of the local cpu */
-       cpumask_andnot(flush_mask, cpumask, cpumask_of(cpu));
-
-       if (cpumask_test_cpu(cpu, cpumask))
-               stat->s_ntargself++;
-
-       bau_desc = bcp->descriptor_base;
-       bau_desc += (ITEMS_PER_DESC * bcp->uvhub_cpu);
-       bau_uvhubs_clear(&bau_desc->distribution, UV_DISTRIBUTION_SIZE);
-       if (set_distrib_bits(flush_mask, bcp, bau_desc, &locals, &remotes))
-               return NULL;
-
-       record_send_statistics(stat, locals, hubs, remotes, bau_desc);
-
-       if (!info->end || (info->end - info->start) <= PAGE_SIZE)
-               address = info->start;
-       else
-               address = TLB_FLUSH_ALL;
-
-       switch (bcp->uvhub_version) {
-       case UV_BAU_V2:
-       case UV_BAU_V3:
-               bau_desc->payload.uv2_3.address = address;
-               bau_desc->payload.uv2_3.sending_cpu = cpu;
-               break;
-       case UV_BAU_V4:
-               bau_desc->payload.uv4.address = address;
-               bau_desc->payload.uv4.sending_cpu = cpu;
-               bau_desc->payload.uv4.qualifier = BAU_DESC_QUALIFIER;
-               break;
-       }
-
-       /*
-        * uv_flush_send_and_wait returns 0 if all cpu's were messaged,
-        * or 1 if it gave up and the original cpumask should be returned.
-        */
-       if (!uv_flush_send_and_wait(flush_mask, bcp, bau_desc))
-               return NULL;
-       else
-               return cpumask;
-}
-
-/*
- * Search the message queue for any 'other' unprocessed message with the
- * same software acknowledge resource bit vector as the 'msg' message.
- */
-static struct bau_pq_entry *find_another_by_swack(struct bau_pq_entry *msg,
-                                                 struct bau_control *bcp)
-{
-       struct bau_pq_entry *msg_next = msg + 1;
-       unsigned char swack_vec = msg->swack_vec;
-
-       if (msg_next > bcp->queue_last)
-               msg_next = bcp->queue_first;
-       while (msg_next != msg) {
-               if ((msg_next->canceled == 0) && (msg_next->replied_to == 0) &&
-                               (msg_next->swack_vec == swack_vec))
-                       return msg_next;
-               msg_next++;
-               if (msg_next > bcp->queue_last)
-                       msg_next = bcp->queue_first;
-       }
-       return NULL;
-}
-
-/*
- * UV2 needs to work around a bug in which an arriving message has not
- * set a bit in the UVH_LB_BAU_INTD_SOFTWARE_ACKNOWLEDGE register.
- * Such a message must be ignored.
- */
-static void process_uv2_message(struct msg_desc *mdp, struct bau_control *bcp)
-{
-       unsigned long mmr_image;
-       unsigned char swack_vec;
-       struct bau_pq_entry *msg = mdp->msg;
-       struct bau_pq_entry *other_msg;
-
-       mmr_image = ops.read_l_sw_ack();
-       swack_vec = msg->swack_vec;
-
-       if ((swack_vec & mmr_image) == 0) {
-               /*
-                * This message was assigned a swack resource, but no
-                * reserved acknowlegment is pending.
-                * The bug has prevented this message from setting the MMR.
-                */
-               /*
-                * Some message has set the MMR 'pending' bit; it might have
-                * been another message.  Look for that message.
-                */
-               other_msg = find_another_by_swack(msg, bcp);
-               if (other_msg) {
-                       /*
-                        * There is another. Process this one but do not
-                        * ack it.
-                        */
-                       bau_process_message(mdp, bcp, 0);
-                       /*
-                        * Let the natural processing of that other message
-                        * acknowledge it. Don't get the processing of sw_ack's
-                        * out of order.
-                        */
-                       return;
-               }
-       }
-
-       /*
-        * Either the MMR shows this one pending a reply or there is no
-        * other message using this sw_ack, so it is safe to acknowledge it.
-        */
-       bau_process_message(mdp, bcp, 1);
-
-       return;
-}
-
-/*
- * The BAU message interrupt comes here. (registered by set_intr_gate)
- * See entry_64.S
- *
- * We received a broadcast assist message.
- *
- * Interrupts are disabled; this interrupt could represent
- * the receipt of several messages.
- *
- * All cores/threads on this hub get this interrupt.
- * The last one to see it does the software ack.
- * (the resource will not be freed until noninterruptable cpus see this
- *  interrupt; hardware may timeout the s/w ack and reply ERROR)
- */
-DEFINE_IDTENTRY_SYSVEC(sysvec_uv_bau_message)
-{
-       int count = 0;
-       cycles_t time_start;
-       struct bau_pq_entry *msg;
-       struct bau_control *bcp;
-       struct ptc_stats *stat;
-       struct msg_desc msgdesc;
-
-       ack_APIC_irq();
-       kvm_set_cpu_l1tf_flush_l1d();
-       time_start = get_cycles();
-
-       bcp = &per_cpu(bau_control, smp_processor_id());
-       stat = bcp->statp;
-
-       msgdesc.queue_first = bcp->queue_first;
-       msgdesc.queue_last = bcp->queue_last;
-
-       msg = bcp->bau_msg_head;
-       while (msg->swack_vec) {
-               count++;
-
-               msgdesc.msg_slot = msg - msgdesc.queue_first;
-               msgdesc.msg = msg;
-               if (bcp->uvhub_version == UV_BAU_V2)
-                       process_uv2_message(&msgdesc, bcp);
-               else
-                       /* no error workaround for uv3 */
-                       bau_process_message(&msgdesc, bcp, 1);
-
-               msg++;
-               if (msg > msgdesc.queue_last)
-                       msg = msgdesc.queue_first;
-               bcp->bau_msg_head = msg;
-       }
-       stat->d_time += (get_cycles() - time_start);
-       if (!count)
-               stat->d_nomsg++;
-       else if (count > 1)
-               stat->d_multmsg++;
-}
-
-/*
- * Each target uvhub (i.e. a uvhub that has cpu's) needs to have
- * shootdown message timeouts enabled.  The timeout does not cause
- * an interrupt, but causes an error message to be returned to
- * the sender.
- */
-static void __init enable_timeouts(void)
-{
-       int uvhub;
-       int nuvhubs;
-       int pnode;
-       unsigned long mmr_image;
-
-       nuvhubs = uv_num_possible_blades();
-
-       for (uvhub = 0; uvhub < nuvhubs; uvhub++) {
-               if (!uv_blade_nr_possible_cpus(uvhub))
-                       continue;
-
-               pnode = uv_blade_to_pnode(uvhub);
-               mmr_image = read_mmr_misc_control(pnode);
-               /*
-                * Set the timeout period and then lock it in, in three
-                * steps; captures and locks in the period.
-                *
-                * To program the period, the SOFT_ACK_MODE must be off.
-                */
-               mmr_image &= ~(1L << SOFTACK_MSHIFT);
-               write_mmr_misc_control(pnode, mmr_image);
-               /*
-                * Set the 4-bit period.
-                */
-               mmr_image &= ~((unsigned long)0xf << SOFTACK_PSHIFT);
-               mmr_image |= (SOFTACK_TIMEOUT_PERIOD << SOFTACK_PSHIFT);
-               write_mmr_misc_control(pnode, mmr_image);
-
-               mmr_image |= (1L << SOFTACK_MSHIFT);
-               if (is_uv2_hub()) {
-                       /* do not touch the legacy mode bit */
-                       /* hw bug workaround; do not use extended status */
-                       mmr_image &= ~(1L << UV2_EXT_SHFT);
-               } else if (is_uv3_hub()) {
-                       mmr_image &= ~(1L << PREFETCH_HINT_SHFT);
-                       mmr_image |= (1L << SB_STATUS_SHFT);
-               }
-               write_mmr_misc_control(pnode, mmr_image);
-       }
-}
-
-static void *ptc_seq_start(struct seq_file *file, loff_t *offset)
-{
-       if (*offset < num_possible_cpus())
-               return offset;
-       return NULL;
-}
-
-static void *ptc_seq_next(struct seq_file *file, void *data, loff_t *offset)
-{
-       (*offset)++;
-       if (*offset < num_possible_cpus())
-               return offset;
-       return NULL;
-}
-
-static void ptc_seq_stop(struct seq_file *file, void *data)
-{
-}
-
-/*
- * Display the statistics thru /proc/sgi_uv/ptc_statistics
- * 'data' points to the cpu number
- * Note: see the descriptions in stat_description[].
- */
-static int ptc_seq_show(struct seq_file *file, void *data)
-{
-       struct ptc_stats *stat;
-       struct bau_control *bcp;
-       int cpu;
-
-       cpu = *(loff_t *)data;
-       if (!cpu) {
-               seq_puts(file,
-                        "# cpu bauoff sent stime self locals remotes ncpus localhub ");
-               seq_puts(file, "remotehub numuvhubs numuvhubs16 numuvhubs8 ");
-               seq_puts(file,
-                        "numuvhubs4 numuvhubs2 numuvhubs1 dto snacks retries ");
-               seq_puts(file,
-                        "rok resetp resett giveup sto bz throt disable ");
-               seq_puts(file,
-                        "enable wars warshw warwaits enters ipidis plugged ");
-               seq_puts(file,
-                        "ipiover glim cong swack recv rtime all one mult ");
-               seq_puts(file, "none retry canc nocan reset rcan\n");
-       }
-       if (cpu < num_possible_cpus() && cpu_online(cpu)) {
-               bcp = &per_cpu(bau_control, cpu);
-               if (bcp->nobau) {
-                       seq_printf(file, "cpu %d bau disabled\n", cpu);
-                       return 0;
-               }
-               stat = bcp->statp;
-               /* source side statistics */
-               seq_printf(file,
-                       "cpu %d %d %ld %ld %ld %ld %ld %ld %ld %ld %ld %ld ",
-                          cpu, bcp->nobau, stat->s_requestor,
-                          cycles_2_us(stat->s_time),
-                          stat->s_ntargself, stat->s_ntarglocals,
-                          stat->s_ntargremotes, stat->s_ntargcpu,
-                          stat->s_ntarglocaluvhub, stat->s_ntargremoteuvhub,
-                          stat->s_ntarguvhub, stat->s_ntarguvhub16);
-               seq_printf(file, "%ld %ld %ld %ld %ld %ld ",
-                          stat->s_ntarguvhub8, stat->s_ntarguvhub4,
-                          stat->s_ntarguvhub2, stat->s_ntarguvhub1,
-                          stat->s_dtimeout, stat->s_strongnacks);
-               seq_printf(file, "%ld %ld %ld %ld %ld %ld %ld %ld ",
-                          stat->s_retry_messages, stat->s_retriesok,
-                          stat->s_resets_plug, stat->s_resets_timeout,
-                          stat->s_giveup, stat->s_stimeout,
-                          stat->s_busy, stat->s_throttles);
-               seq_printf(file, "%ld %ld %ld %ld %ld %ld %ld %ld %ld %ld %ld ",
-                          stat->s_bau_disabled, stat->s_bau_reenabled,
-                          stat->s_uv2_wars, stat->s_uv2_wars_hw,
-                          stat->s_uv2_war_waits, stat->s_enters,
-                          stat->s_ipifordisabled, stat->s_plugged,
-                          stat->s_overipilimit, stat->s_giveuplimit,
-                          stat->s_congested);
-
-               /* destination side statistics */
-               seq_printf(file,
-                       "%lx %ld %ld %ld %ld %ld %ld %ld %ld %ld %ld %ld\n",
-                          ops.read_g_sw_ack(uv_cpu_to_pnode(cpu)),
-                          stat->d_requestee, cycles_2_us(stat->d_time),
-                          stat->d_alltlb, stat->d_onetlb, stat->d_multmsg,
-                          stat->d_nomsg, stat->d_retries, stat->d_canceled,
-                          stat->d_nocanceled, stat->d_resets,
-                          stat->d_rcanceled);
-       }
-       return 0;
-}
-
-/*
- * Display the tunables thru debugfs
- */
-static ssize_t tunables_read(struct file *file, char __user *userbuf,
-                               size_t count, loff_t *ppos)
-{
-       char *buf;
-       int ret;
-
-       buf = kasprintf(GFP_KERNEL, "%s %s %s\n%d %d %d %d %d %d %d %d %d %d\n",
-               "max_concur plugged_delay plugsb4reset timeoutsb4reset",
-               "ipi_reset_limit complete_threshold congested_response_us",
-               "congested_reps disabled_period giveup_limit",
-               max_concurr, plugged_delay, plugsb4reset,
-               timeoutsb4reset, ipi_reset_limit, complete_threshold,
-               congested_respns_us, congested_reps, disabled_period,
-               giveup_limit);
-
-       if (!buf)
-               return -ENOMEM;
-
-       ret = simple_read_from_buffer(userbuf, count, ppos, buf, strlen(buf));
-       kfree(buf);
-       return ret;
-}
-
-/*
- * handle a write to /proc/sgi_uv/ptc_statistics
- * -1: reset the statistics
- *  0: display meaning of the statistics
- */
-static ssize_t ptc_proc_write(struct file *file, const char __user *user,
-                               size_t count, loff_t *data)
-{
-       int cpu;
-       int i;
-       int elements;
-       long input_arg;
-       char optstr[64];
-       struct ptc_stats *stat;
-
-       if (count == 0 || count > sizeof(optstr))
-               return -EINVAL;
-       if (copy_from_user(optstr, user, count))
-               return -EFAULT;
-       optstr[count - 1] = '\0';
-
-       if (!strcmp(optstr, "on")) {
-               set_bau_on();
-               return count;
-       } else if (!strcmp(optstr, "off")) {
-               set_bau_off();
-               return count;
-       }
-
-       if (kstrtol(optstr, 10, &input_arg) < 0) {
-               pr_debug("%s is invalid\n", optstr);
-               return -EINVAL;
-       }
-
-       if (input_arg == 0) {
-               elements = ARRAY_SIZE(stat_description);
-               pr_debug("# cpu:      cpu number\n");
-               pr_debug("Sender statistics:\n");
-               for (i = 0; i < elements; i++)
-                       pr_debug("%s\n", stat_description[i]);
-       } else if (input_arg == -1) {
-               for_each_present_cpu(cpu) {
-                       stat = &per_cpu(ptcstats, cpu);
-                       memset(stat, 0, sizeof(struct ptc_stats));
-               }
-       }
-
-       return count;
-}
-
-static int local_atoi(const char *name)
-{
-       int val = 0;
-
-       for (;; name++) {
-               switch (*name) {
-               case '0' ... '9':
-                       val = 10*val+(*name-'0');
-                       break;
-               default:
-                       return val;
-               }
-       }
-}
-
-/*
- * Parse the values written to /sys/kernel/debug/sgi_uv/bau_tunables.
- * Zero values reset them to defaults.
- */
-static int parse_tunables_write(struct bau_control *bcp, char *instr,
-                               int count)
-{
-       char *p;
-       char *q;
-       int cnt = 0;
-       int val;
-       int e = ARRAY_SIZE(tunables);
-
-       p = instr + strspn(instr, WHITESPACE);
-       q = p;
-       for (; *p; p = q + strspn(q, WHITESPACE)) {
-               q = p + strcspn(p, WHITESPACE);
-               cnt++;
-               if (q == p)
-                       break;
-       }
-       if (cnt != e) {
-               pr_info("bau tunable error: should be %d values\n", e);
-               return -EINVAL;
-       }
-
-       p = instr + strspn(instr, WHITESPACE);
-       q = p;
-       for (cnt = 0; *p; p = q + strspn(q, WHITESPACE), cnt++) {
-               q = p + strcspn(p, WHITESPACE);
-               val = local_atoi(p);
-               switch (cnt) {
-               case 0:
-                       if (val == 0) {
-                               max_concurr = MAX_BAU_CONCURRENT;
-                               max_concurr_const = MAX_BAU_CONCURRENT;
-                               continue;
-                       }
-                       if (val < 1 || val > bcp->cpus_in_uvhub) {
-                               pr_debug(
-                               "Error: BAU max concurrent %d is invalid\n",
-                               val);
-                               return -EINVAL;
-                       }
-                       max_concurr = val;
-                       max_concurr_const = val;
-                       continue;
-               default:
-                       if (val == 0)
-                               *tunables[cnt].tunp = tunables[cnt].deflt;
-                       else
-                               *tunables[cnt].tunp = val;
-                       continue;
-               }
-       }
-       return 0;
-}
-
-/*
- * Handle a write to debugfs. (/sys/kernel/debug/sgi_uv/bau_tunables)
- */
-static ssize_t tunables_write(struct file *file, const char __user *user,
-                               size_t count, loff_t *data)
-{
-       int cpu;
-       int ret;
-       char instr[100];
-       struct bau_control *bcp;
-
-       if (count == 0 || count > sizeof(instr)-1)
-               return -EINVAL;
-       if (copy_from_user(instr, user, count))
-               return -EFAULT;
-
-       instr[count] = '\0';
-
-       cpu = get_cpu();
-       bcp = &per_cpu(bau_control, cpu);
-       ret = parse_tunables_write(bcp, instr, count);
-       put_cpu();
-       if (ret)
-               return ret;
-
-       for_each_present_cpu(cpu) {
-               bcp = &per_cpu(bau_control, cpu);
-               bcp->max_concurr         = max_concurr;
-               bcp->max_concurr_const   = max_concurr;
-               bcp->plugged_delay       = plugged_delay;
-               bcp->plugsb4reset        = plugsb4reset;
-               bcp->timeoutsb4reset     = timeoutsb4reset;
-               bcp->ipi_reset_limit     = ipi_reset_limit;
-               bcp->complete_threshold  = complete_threshold;
-               bcp->cong_response_us    = congested_respns_us;
-               bcp->cong_reps           = congested_reps;
-               bcp->disabled_period     = sec_2_cycles(disabled_period);
-               bcp->giveup_limit        = giveup_limit;
-       }
-       return count;
-}
-
-static const struct seq_operations uv_ptc_seq_ops = {
-       .start          = ptc_seq_start,
-       .next           = ptc_seq_next,
-       .stop           = ptc_seq_stop,
-       .show           = ptc_seq_show
-};
-
-static int ptc_proc_open(struct inode *inode, struct file *file)
-{
-       return seq_open(file, &uv_ptc_seq_ops);
-}
-
-static int tunables_open(struct inode *inode, struct file *file)
-{
-       return 0;
-}
-
-static const struct proc_ops uv_ptc_proc_ops = {
-       .proc_open      = ptc_proc_open,
-       .proc_read      = seq_read,
-       .proc_write     = ptc_proc_write,
-       .proc_lseek     = seq_lseek,
-       .proc_release   = seq_release,
-};
-
-static const struct file_operations tunables_fops = {
-       .open           = tunables_open,
-       .read           = tunables_read,
-       .write          = tunables_write,
-       .llseek         = default_llseek,
-};
-
-static int __init uv_ptc_init(void)
-{
-       struct proc_dir_entry *proc_uv_ptc;
-
-       if (!is_uv_system())
-               return 0;
-
-       proc_uv_ptc = proc_create(UV_PTC_BASENAME, 0444, NULL,
-                                 &uv_ptc_proc_ops);
-       if (!proc_uv_ptc) {
-               pr_err("unable to create %s proc entry\n",
-                      UV_PTC_BASENAME);
-               return -EINVAL;
-       }
-
-       tunables_dir = debugfs_create_dir(UV_BAU_TUNABLES_DIR, NULL);
-       debugfs_create_file(UV_BAU_TUNABLES_FILE, 0600, tunables_dir, NULL,
-                           &tunables_fops);
-       return 0;
-}
-
-/*
- * Initialize the sending side's sending buffers.
- */
-static void activation_descriptor_init(int node, int pnode, int base_pnode)
-{
-       int i;
-       int cpu;
-       unsigned long gpa;
-       unsigned long m;
-       unsigned long n;
-       size_t dsize;
-       struct bau_desc *bau_desc;
-       struct bau_desc *bd2;
-       struct uv2_3_bau_msg_header *uv2_3_hdr;
-       struct bau_control *bcp;
-
-       /*
-        * each bau_desc is 64 bytes; there are 8 (ITEMS_PER_DESC)
-        * per cpu; and one per cpu on the uvhub (ADP_SZ)
-        */
-       dsize = sizeof(struct bau_desc) * ADP_SZ * ITEMS_PER_DESC;
-       bau_desc = kmalloc_node(dsize, GFP_KERNEL, node);
-       BUG_ON(!bau_desc);
-
-       gpa = uv_gpa(bau_desc);
-       n = uv_gpa_to_gnode(gpa);
-       m = ops.bau_gpa_to_offset(gpa);
-
-       /* the 14-bit pnode */
-       write_mmr_descriptor_base(pnode,
-               (n << UVH_LB_BAU_SB_DESCRIPTOR_BASE_NODE_ID_SHFT | m));
-       /*
-        * Initializing all 8 (ITEMS_PER_DESC) descriptors for each
-        * cpu even though we only use the first one; one descriptor can
-        * describe a broadcast to 256 uv hubs.
-        */
-       for (i = 0, bd2 = bau_desc; i < (ADP_SZ * ITEMS_PER_DESC); i++, bd2++) {
-               memset(bd2, 0, sizeof(struct bau_desc));
-               /*
-                * BIOS uses legacy mode, but uv2 and uv3 hardware always
-                * uses native mode for selective broadcasts.
-                */
-               uv2_3_hdr = &bd2->header.uv2_3_hdr;
-               uv2_3_hdr->swack_flag      = 1;
-               uv2_3_hdr->base_dest_nasid = UV_PNODE_TO_NASID(base_pnode);
-               uv2_3_hdr->dest_subnodeid  = UV_LB_SUBNODEID;
-               uv2_3_hdr->command         = UV_NET_ENDPOINT_INTD;
-       }
-       for_each_present_cpu(cpu) {
-               if (pnode != uv_blade_to_pnode(uv_cpu_to_blade_id(cpu)))
-                       continue;
-               bcp = &per_cpu(bau_control, cpu);
-               bcp->descriptor_base = bau_desc;
-       }
-}
-
-/*
- * initialize the destination side's receiving buffers
- * entered for each uvhub in the partition
- * - node is first node (kernel memory notion) on the uvhub
- * - pnode is the uvhub's physical identifier
- */
-static void pq_init(int node, int pnode)
-{
-       int cpu;
-       size_t plsize;
-       char *cp;
-       void *vp;
-       unsigned long gnode, first, last, tail;
-       struct bau_pq_entry *pqp;
-       struct bau_control *bcp;
-
-       plsize = (DEST_Q_SIZE + 1) * sizeof(struct bau_pq_entry);
-       vp = kmalloc_node(plsize, GFP_KERNEL, node);
-       BUG_ON(!vp);
-
-       pqp = (struct bau_pq_entry *)vp;
-       cp = (char *)pqp + 31;
-       pqp = (struct bau_pq_entry *)(((unsigned long)cp >> 5) << 5);
-
-       for_each_present_cpu(cpu) {
-               if (pnode != uv_cpu_to_pnode(cpu))
-                       continue;
-               /* for every cpu on this pnode: */
-               bcp = &per_cpu(bau_control, cpu);
-               bcp->queue_first        = pqp;
-               bcp->bau_msg_head       = pqp;
-               bcp->queue_last         = pqp + (DEST_Q_SIZE - 1);
-       }
-
-       first = ops.bau_gpa_to_offset(uv_gpa(pqp));
-       last = ops.bau_gpa_to_offset(uv_gpa(pqp + (DEST_Q_SIZE - 1)));
-
-       /*
-        * Pre UV4, the gnode is required to locate the payload queue
-        * and the payload queue tail must be maintained by the kernel.
-        */
-       bcp = &per_cpu(bau_control, smp_processor_id());
-       if (bcp->uvhub_version <= UV_BAU_V3) {
-               tail = first;
-               gnode = uv_gpa_to_gnode(uv_gpa(pqp));
-               first = (gnode << UV_PAYLOADQ_GNODE_SHIFT) | tail;
-               write_mmr_payload_tail(pnode, tail);
-       }
-
-       ops.write_payload_first(pnode, first);
-       ops.write_payload_last(pnode, last);
-
-       /* in effect, all msg_type's are set to MSG_NOOP */
-       memset(pqp, 0, sizeof(struct bau_pq_entry) * DEST_Q_SIZE);
-}
-
-/*
- * Initialization of each UV hub's structures
- */
-static void __init init_uvhub(int uvhub, int vector, int base_pnode)
-{
-       int node;
-       int pnode;
-       unsigned long apicid;
-
-       node = uvhub_to_first_node(uvhub);
-       pnode = uv_blade_to_pnode(uvhub);
-
-       activation_descriptor_init(node, pnode, base_pnode);
-
-       pq_init(node, pnode);
-       /*
-        * The below initialization can't be in firmware because the
-        * messaging IRQ will be determined by the OS.
-        */
-       apicid = uvhub_to_first_apicid(uvhub);
-       write_mmr_data_config(pnode, ((apicid << 32) | vector));
-}
-
-/*
- * We will set BAU_MISC_CONTROL with a timeout period.
- * But the BIOS has set UVH_AGING_PRESCALE_SEL and UVH_TRANSACTION_TIMEOUT.
- * So the destination timeout period has to be calculated from them.
- */
-static int calculate_destination_timeout(void)
-{
-       unsigned long mmr_image;
-       int mult1;
-       int base;
-       int ret;
-
-       /* same destination timeout for uv2 and uv3 */
-       /* 4 bits  0/1 for 10/80us base, 3 bits of multiplier */
-       mmr_image = uv_read_local_mmr(UVH_LB_BAU_MISC_CONTROL);
-       mmr_image = (mmr_image & UV_SA_MASK) >> UV_SA_SHFT;
-       if (mmr_image & (1L << UV2_ACK_UNITS_SHFT))
-               base = 80;
-       else
-               base = 10;
-       mult1 = mmr_image & UV2_ACK_MASK;
-       ret = mult1 * base;
-
-       return ret;
-}
-
-static void __init init_per_cpu_tunables(void)
-{
-       int cpu;
-       struct bau_control *bcp;
-
-       for_each_present_cpu(cpu) {
-               bcp = &per_cpu(bau_control, cpu);
-               bcp->baudisabled                = 0;
-               if (nobau)
-                       bcp->nobau              = true;
-               bcp->statp                      = &per_cpu(ptcstats, cpu);
-               /* time interval to catch a hardware stay-busy bug */
-               bcp->timeout_interval           = usec_2_cycles(2*timeout_us);
-               bcp->max_concurr                = max_concurr;
-               bcp->max_concurr_const          = max_concurr;
-               bcp->plugged_delay              = plugged_delay;
-               bcp->plugsb4reset               = plugsb4reset;
-               bcp->timeoutsb4reset            = timeoutsb4reset;
-               bcp->ipi_reset_limit            = ipi_reset_limit;
-               bcp->complete_threshold         = complete_threshold;
-               bcp->cong_response_us           = congested_respns_us;
-               bcp->cong_reps                  = congested_reps;
-               bcp->disabled_period            = sec_2_cycles(disabled_period);
-               bcp->giveup_limit               = giveup_limit;
-               spin_lock_init(&bcp->queue_lock);
-               spin_lock_init(&bcp->uvhub_lock);
-               spin_lock_init(&bcp->disable_lock);
-       }
-}
-
-/*
- * Scan all cpus to collect blade and socket summaries.
- */
-static int __init get_cpu_topology(int base_pnode,
-                                       struct uvhub_desc *uvhub_descs,
-                                       unsigned char *uvhub_mask)
-{
-       int cpu;
-       int pnode;
-       int uvhub;
-       int socket;
-       struct bau_control *bcp;
-       struct uvhub_desc *bdp;
-       struct socket_desc *sdp;
-
-       for_each_present_cpu(cpu) {
-               bcp = &per_cpu(bau_control, cpu);
-
-               memset(bcp, 0, sizeof(struct bau_control));
-
-               pnode = uv_cpu_hub_info(cpu)->pnode;
-               if ((pnode - base_pnode) >= UV_DISTRIBUTION_SIZE) {
-                       pr_emerg(
-                               "cpu %d pnode %d-%d beyond %d; BAU disabled\n",
-                               cpu, pnode, base_pnode, UV_DISTRIBUTION_SIZE);
-                       return 1;
-               }
-
-               bcp->osnode = cpu_to_node(cpu);
-               bcp->partition_base_pnode = base_pnode;
-
-               uvhub = uv_cpu_hub_info(cpu)->numa_blade_id;
-               *(uvhub_mask + (uvhub/8)) |= (1 << (uvhub%8));
-               bdp = &uvhub_descs[uvhub];
-
-               bdp->num_cpus++;
-               bdp->uvhub = uvhub;
-               bdp->pnode = pnode;
-
-               /* kludge: 'assuming' one node per socket, and assuming that
-                  disabling a socket just leaves a gap in node numbers */
-               socket = bcp->osnode & 1;
-               bdp->socket_mask |= (1 << socket);
-               sdp = &bdp->socket[socket];
-               sdp->cpu_number[sdp->num_cpus] = cpu;
-               sdp->num_cpus++;
-               if (sdp->num_cpus > MAX_CPUS_PER_SOCKET) {
-                       pr_emerg("%d cpus per socket invalid\n",
-                               sdp->num_cpus);
-                       return 1;
-               }
-       }
-       return 0;
-}
-
-/*
- * Each socket is to get a local array of pnodes/hubs.
- */
-static void make_per_cpu_thp(struct bau_control *smaster)
-{
-       int cpu;
-       size_t hpsz = sizeof(struct hub_and_pnode) * num_possible_cpus();
-
-       smaster->thp = kzalloc_node(hpsz, GFP_KERNEL, smaster->osnode);
-       for_each_present_cpu(cpu) {
-               smaster->thp[cpu].pnode = uv_cpu_hub_info(cpu)->pnode;
-               smaster->thp[cpu].uvhub = uv_cpu_hub_info(cpu)->numa_blade_id;
-       }
-}
-
-/*
- * Each uvhub is to get a local cpumask.
- */
-static void make_per_hub_cpumask(struct bau_control *hmaster)
-{
-       int sz = sizeof(cpumask_t);
-
-       hmaster->cpumask = kzalloc_node(sz, GFP_KERNEL, hmaster->osnode);
-}
-
-/*
- * Initialize all the per_cpu information for the cpu's on a given socket,
- * given what has been gathered into the socket_desc struct.
- * And reports the chosen hub and socket masters back to the caller.
- */
-static int scan_sock(struct socket_desc *sdp, struct uvhub_desc *bdp,
-                       struct bau_control **smasterp,
-                       struct bau_control **hmasterp)
-{
-       int i, cpu, uvhub_cpu;
-       struct bau_control *bcp;
-
-       for (i = 0; i < sdp->num_cpus; i++) {
-               cpu = sdp->cpu_number[i];
-               bcp = &per_cpu(bau_control, cpu);
-               bcp->cpu = cpu;
-               if (i == 0) {
-                       *smasterp = bcp;
-                       if (!(*hmasterp))
-                               *hmasterp = bcp;
-               }
-               bcp->cpus_in_uvhub = bdp->num_cpus;
-               bcp->cpus_in_socket = sdp->num_cpus;
-               bcp->socket_master = *smasterp;
-               bcp->uvhub = bdp->uvhub;
-               if (is_uv2_hub())
-                       bcp->uvhub_version = UV_BAU_V2;
-               else if (is_uv3_hub())
-                       bcp->uvhub_version = UV_BAU_V3;
-               else if (is_uv4_hub())
-                       bcp->uvhub_version = UV_BAU_V4;
-               else {
-                       pr_emerg("uvhub version not 1, 2, 3, or 4\n");
-                       return 1;
-               }
-               bcp->uvhub_master = *hmasterp;
-               uvhub_cpu = uv_cpu_blade_processor_id(cpu);
-               bcp->uvhub_cpu = uvhub_cpu;
-
-               /*
-                * The ERROR and BUSY status registers are located pairwise over
-                * the STATUS_0 and STATUS_1 mmrs; each an array[32] of 2 bits.
-                */
-               if (uvhub_cpu < UV_CPUS_PER_AS) {
-                       bcp->status_mmr = UVH_LB_BAU_SB_ACTIVATION_STATUS_0;
-                       bcp->status_index = uvhub_cpu * UV_ACT_STATUS_SIZE;
-               } else {
-                       bcp->status_mmr = UVH_LB_BAU_SB_ACTIVATION_STATUS_1;
-                       bcp->status_index = (uvhub_cpu - UV_CPUS_PER_AS)
-                                               * UV_ACT_STATUS_SIZE;
-               }
-
-               if (bcp->uvhub_cpu >= MAX_CPUS_PER_UVHUB) {
-                       pr_emerg("%d cpus per uvhub invalid\n",
-                               bcp->uvhub_cpu);
-                       return 1;
-               }
-       }
-       return 0;
-}
-
-/*
- * Summarize the blade and socket topology into the per_cpu structures.
- */
-static int __init summarize_uvhub_sockets(int nuvhubs,
-                       struct uvhub_desc *uvhub_descs,
-                       unsigned char *uvhub_mask)
-{
-       int socket;
-       int uvhub;
-       unsigned short socket_mask;
-
-       for (uvhub = 0; uvhub < nuvhubs; uvhub++) {
-               struct uvhub_desc *bdp;
-               struct bau_control *smaster = NULL;
-               struct bau_control *hmaster = NULL;
-
-               if (!(*(uvhub_mask + (uvhub/8)) & (1 << (uvhub%8))))
-                       continue;
-
-               bdp = &uvhub_descs[uvhub];
-               socket_mask = bdp->socket_mask;
-               socket = 0;
-               while (socket_mask) {
-                       struct socket_desc *sdp;
-                       if ((socket_mask & 1)) {
-                               sdp = &bdp->socket[socket];
-                               if (scan_sock(sdp, bdp, &smaster, &hmaster))
-                                       return 1;
-                               make_per_cpu_thp(smaster);
-                       }
-                       socket++;
-                       socket_mask = (socket_mask >> 1);
-               }
-               make_per_hub_cpumask(hmaster);
-       }
-       return 0;
-}
-
-/*
- * initialize the bau_control structure for each cpu
- */
-static int __init init_per_cpu(int nuvhubs, int base_part_pnode)
-{
-       struct uvhub_desc *uvhub_descs;
-       unsigned char *uvhub_mask = NULL;
-
-       if (is_uv3_hub() || is_uv2_hub())
-               timeout_us = calculate_destination_timeout();
-
-       uvhub_descs = kcalloc(nuvhubs, sizeof(struct uvhub_desc), GFP_KERNEL);
-       if (!uvhub_descs)
-               goto fail;
-
-       uvhub_mask = kzalloc((nuvhubs+7)/8, GFP_KERNEL);
-       if (!uvhub_mask)
-               goto fail;
-
-       if (get_cpu_topology(base_part_pnode, uvhub_descs, uvhub_mask))
-               goto fail;
-
-       if (summarize_uvhub_sockets(nuvhubs, uvhub_descs, uvhub_mask))
-               goto fail;
-
-       kfree(uvhub_descs);
-       kfree(uvhub_mask);
-       init_per_cpu_tunables();
-       return 0;
-
-fail:
-       kfree(uvhub_descs);
-       kfree(uvhub_mask);
-       return 1;
-}
-
-static const struct bau_operations uv2_3_bau_ops __initconst = {
-       .bau_gpa_to_offset       = uv_gpa_to_offset,
-       .read_l_sw_ack           = read_mmr_sw_ack,
-       .read_g_sw_ack           = read_gmmr_sw_ack,
-       .write_l_sw_ack          = write_mmr_sw_ack,
-       .write_g_sw_ack          = write_gmmr_sw_ack,
-       .write_payload_first     = write_mmr_payload_first,
-       .write_payload_last      = write_mmr_payload_last,
-       .wait_completion         = uv2_3_wait_completion,
-};
-
-static const struct bau_operations uv4_bau_ops __initconst = {
-       .bau_gpa_to_offset       = uv_gpa_to_soc_phys_ram,
-       .read_l_sw_ack           = read_mmr_proc_sw_ack,
-       .read_g_sw_ack           = read_gmmr_proc_sw_ack,
-       .write_l_sw_ack          = write_mmr_proc_sw_ack,
-       .write_g_sw_ack          = write_gmmr_proc_sw_ack,
-       .write_payload_first     = write_mmr_proc_payload_first,
-       .write_payload_last      = write_mmr_proc_payload_last,
-       .wait_completion         = uv4_wait_completion,
-};
-
-/*
- * Initialization of BAU-related structures
- */
-static int __init uv_bau_init(void)
-{
-       int uvhub;
-       int pnode;
-       int nuvhubs;
-       int cur_cpu;
-       int cpus;
-       int vector;
-       cpumask_var_t *mask;
-
-       if (!is_uv_system())
-               return 0;
-
-       if (is_uv4_hub())
-               ops = uv4_bau_ops;
-       else if (is_uv3_hub())
-               ops = uv2_3_bau_ops;
-       else if (is_uv2_hub())
-               ops = uv2_3_bau_ops;
-
-       nuvhubs = uv_num_possible_blades();
-       if (nuvhubs < 2) {
-               pr_crit("UV: BAU disabled - insufficient hub count\n");
-               goto err_bau_disable;
-       }
-
-       for_each_possible_cpu(cur_cpu) {
-               mask = &per_cpu(uv_flush_tlb_mask, cur_cpu);
-               zalloc_cpumask_var_node(mask, GFP_KERNEL, cpu_to_node(cur_cpu));
-       }
-
-       uv_base_pnode = 0x7fffffff;
-       for (uvhub = 0; uvhub < nuvhubs; uvhub++) {
-               cpus = uv_blade_nr_possible_cpus(uvhub);
-               if (cpus && (uv_blade_to_pnode(uvhub) < uv_base_pnode))
-                       uv_base_pnode = uv_blade_to_pnode(uvhub);
-       }
-
-       /* software timeouts are not supported on UV4 */
-       if (is_uv3_hub() || is_uv2_hub())
-               enable_timeouts();
-
-       if (init_per_cpu(nuvhubs, uv_base_pnode)) {
-               pr_crit("UV: BAU disabled - per CPU init failed\n");
-               goto err_bau_disable;
-       }
-
-       vector = UV_BAU_MESSAGE;
-       for_each_possible_blade(uvhub) {
-               if (uv_blade_nr_possible_cpus(uvhub))
-                       init_uvhub(uvhub, vector, uv_base_pnode);
-       }
-
-       for_each_possible_blade(uvhub) {
-               if (uv_blade_nr_possible_cpus(uvhub)) {
-                       unsigned long val;
-                       unsigned long mmr;
-                       pnode = uv_blade_to_pnode(uvhub);
-                       /* INIT the bau */
-                       val = 1L << 63;
-                       write_gmmr_activation(pnode, val);
-                       mmr = 1; /* should be 1 to broadcast to both sockets */
-                       write_mmr_data_broadcast(pnode, mmr);
-               }
-       }
-
-       return 0;
-
-err_bau_disable:
-
-       for_each_possible_cpu(cur_cpu)
-               free_cpumask_var(per_cpu(uv_flush_tlb_mask, cur_cpu));
-
-       set_bau_off();
-       nobau_perm = 1;
-
-       return -EINVAL;
-}
-core_initcall(uv_bau_init);
-fs_initcall(uv_ptc_init);
index abb6075..18ca226 100644 (file)
@@ -90,15 +90,15 @@ static int uv_domain_alloc(struct irq_domain *domain, unsigned int virq,
 
        ret = irq_domain_alloc_irqs_parent(domain, virq, nr_irqs, arg);
        if (ret >= 0) {
-               if (info->uv_limit == UV_AFFINITY_CPU)
+               if (info->uv.limit == UV_AFFINITY_CPU)
                        irq_set_status_flags(virq, IRQ_NO_BALANCING);
                else
                        irq_set_status_flags(virq, IRQ_MOVE_PCNTXT);
 
-               chip_data->pnode = uv_blade_to_pnode(info->uv_blade);
-               chip_data->offset = info->uv_offset;
+               chip_data->pnode = uv_blade_to_pnode(info->uv.blade);
+               chip_data->offset = info->uv.offset;
                irq_domain_set_info(domain, virq, virq, &uv_irq_chip, chip_data,
-                                   handle_percpu_irq, NULL, info->uv_name);
+                                   handle_percpu_irq, NULL, info->uv.name);
        } else {
                kfree(chip_data);
        }
@@ -193,10 +193,10 @@ int uv_setup_irq(char *irq_name, int cpu, int mmr_blade,
 
        init_irq_alloc_info(&info, cpumask_of(cpu));
        info.type = X86_IRQ_ALLOC_TYPE_UV;
-       info.uv_limit = limit;
-       info.uv_blade = mmr_blade;
-       info.uv_offset = mmr_offset;
-       info.uv_name = irq_name;
+       info.uv.limit = limit;
+       info.uv.blade = mmr_blade;
+       info.uv.offset = mmr_offset;
+       info.uv.name = irq_name;
 
        return irq_domain_alloc_irqs(domain, 1,
                                     uv_blade_to_memory_nid(mmr_blade), &info);
index 9d08ff5..0f5cbcf 100644 (file)
@@ -2,8 +2,9 @@
 /*
  * SGI NMI support routines
  *
- *  Copyright (c) 2009-2013 Silicon Graphics, Inc.  All Rights Reserved.
- *  Copyright (c) Mike Travis
+ * (C) Copyright 2020 Hewlett Packard Enterprise Development LP
+ * Copyright (C) 2007-2017 Silicon Graphics, Inc. All rights reserved.
+ * Copyright (c) Mike Travis
  */
 
 #include <linux/cpu.h>
@@ -54,6 +55,20 @@ static struct uv_hub_nmi_s **uv_hub_nmi_list;
 
 DEFINE_PER_CPU(struct uv_cpu_nmi_s, uv_cpu_nmi);
 
+/* Newer SMM NMI handler, not present in all systems */
+static unsigned long uvh_nmi_mmrx;             /* UVH_EVENT_OCCURRED0/1 */
+static unsigned long uvh_nmi_mmrx_clear;       /* UVH_EVENT_OCCURRED0/1_ALIAS */
+static int uvh_nmi_mmrx_shift;                 /* UVH_EVENT_OCCURRED0/1_EXTIO_INT0_SHFT */
+static int uvh_nmi_mmrx_mask;                  /* UVH_EVENT_OCCURRED0/1_EXTIO_INT0_MASK */
+static char *uvh_nmi_mmrx_type;                        /* "EXTIO_INT0" */
+
+/* Non-zero indicates newer SMM NMI handler present */
+static unsigned long uvh_nmi_mmrx_supported;   /* UVH_EXTIO_INT0_BROADCAST */
+
+/* Indicates to BIOS that we want to use the newer SMM NMI handler */
+static unsigned long uvh_nmi_mmrx_req;         /* UVH_BIOS_KERNEL_MMR_ALIAS_2 */
+static int uvh_nmi_mmrx_req_shift;             /* 62 */
+
 /* UV hubless values */
 #define NMI_CONTROL_PORT       0x70
 #define NMI_DUMMY_PORT         0x71
@@ -227,13 +242,43 @@ static inline bool uv_nmi_action_is(const char *action)
 /* Setup which NMI support is present in system */
 static void uv_nmi_setup_mmrs(void)
 {
-       if (uv_read_local_mmr(UVH_NMI_MMRX_SUPPORTED)) {
-               uv_write_local_mmr(UVH_NMI_MMRX_REQ,
-                                       1UL << UVH_NMI_MMRX_REQ_SHIFT);
-               nmi_mmr = UVH_NMI_MMRX;
-               nmi_mmr_clear = UVH_NMI_MMRX_CLEAR;
-               nmi_mmr_pending = 1UL << UVH_NMI_MMRX_SHIFT;
-               pr_info("UV: SMI NMI support: %s\n", UVH_NMI_MMRX_TYPE);
+       /* First determine arch specific MMRs to handshake with BIOS */
+       if (UVH_EVENT_OCCURRED0_EXTIO_INT0_MASK) {
+               uvh_nmi_mmrx = UVH_EVENT_OCCURRED0;
+               uvh_nmi_mmrx_clear = UVH_EVENT_OCCURRED0_ALIAS;
+               uvh_nmi_mmrx_shift = UVH_EVENT_OCCURRED0_EXTIO_INT0_SHFT;
+               uvh_nmi_mmrx_mask = UVH_EVENT_OCCURRED0_EXTIO_INT0_MASK;
+               uvh_nmi_mmrx_type = "OCRD0-EXTIO_INT0";
+
+               uvh_nmi_mmrx_supported = UVH_EXTIO_INT0_BROADCAST;
+               uvh_nmi_mmrx_req = UVH_BIOS_KERNEL_MMR_ALIAS_2;
+               uvh_nmi_mmrx_req_shift = 62;
+
+       } else if (UVH_EVENT_OCCURRED1_EXTIO_INT0_MASK) {
+               uvh_nmi_mmrx = UVH_EVENT_OCCURRED1;
+               uvh_nmi_mmrx_clear = UVH_EVENT_OCCURRED1_ALIAS;
+               uvh_nmi_mmrx_shift = UVH_EVENT_OCCURRED1_EXTIO_INT0_SHFT;
+               uvh_nmi_mmrx_mask = UVH_EVENT_OCCURRED1_EXTIO_INT0_MASK;
+               uvh_nmi_mmrx_type = "OCRD1-EXTIO_INT0";
+
+               uvh_nmi_mmrx_supported = UVH_EXTIO_INT0_BROADCAST;
+               uvh_nmi_mmrx_req = UVH_BIOS_KERNEL_MMR_ALIAS_2;
+               uvh_nmi_mmrx_req_shift = 62;
+
+       } else {
+               pr_err("UV:%s:cannot find EVENT_OCCURRED*_EXTIO_INT0\n",
+                       __func__);
+               return;
+       }
+
+       /* Then find out if new NMI is supported */
+       if (likely(uv_read_local_mmr(uvh_nmi_mmrx_supported))) {
+               uv_write_local_mmr(uvh_nmi_mmrx_req,
+                                       1UL << uvh_nmi_mmrx_req_shift);
+               nmi_mmr = uvh_nmi_mmrx;
+               nmi_mmr_clear = uvh_nmi_mmrx_clear;
+               nmi_mmr_pending = 1UL << uvh_nmi_mmrx_shift;
+               pr_info("UV: SMI NMI support: %s\n", uvh_nmi_mmrx_type);
        } else {
                nmi_mmr = UVH_NMI_MMR;
                nmi_mmr_clear = UVH_NMI_MMR_CLEAR;
@@ -1049,5 +1094,5 @@ void __init uv_nmi_setup_hubless(void)
        /* Ensure NMI enabled in Processor Interface Reg: */
        uv_reassert_nmi();
        uv_register_nmi_notifier();
-       pr_info("UV: Hubless NMI enabled\n");
+       pr_info("UV: PCH NMI enabled\n");
 }
index f82a133..54663f3 100644 (file)
@@ -2,6 +2,7 @@
 /*
  * SGI RTC clock/timer routines.
  *
+ *  (C) Copyright 2020 Hewlett Packard Enterprise Development LP
  *  Copyright (c) 2009-2013 Silicon Graphics, Inc.  All Rights Reserved.
  *  Copyright (c) Dimitri Sivanich
  */
@@ -52,7 +53,7 @@ struct uv_rtc_timer_head {
        struct {
                int     lcpu;           /* systemwide logical cpu number */
                u64     expires;        /* next timer expiration for this cpu */
-       } cpu[1];
+       } cpu[];
 };
 
 /*
@@ -84,10 +85,8 @@ static void uv_rtc_send_IPI(int cpu)
 /* Check for an RTC interrupt pending */
 static int uv_intr_pending(int pnode)
 {
-       if (is_uvx_hub())
-               return uv_read_global_mmr64(pnode, UVXH_EVENT_OCCURRED2) &
-                       UVXH_EVENT_OCCURRED2_RTC_1_MASK;
-       return 0;
+       return uv_read_global_mmr64(pnode, UVH_EVENT_OCCURRED2) &
+               UVH_EVENT_OCCURRED2_RTC_1_MASK;
 }
 
 /* Setup interrupt and return non-zero if early expiration occurred. */
@@ -101,8 +100,8 @@ static int uv_setup_intr(int cpu, u64 expires)
                UVH_RTC1_INT_CONFIG_M_MASK);
        uv_write_global_mmr64(pnode, UVH_INT_CMPB, -1L);
 
-       uv_write_global_mmr64(pnode, UVXH_EVENT_OCCURRED2_ALIAS,
-                             UVXH_EVENT_OCCURRED2_RTC_1_MASK);
+       uv_write_global_mmr64(pnode, UVH_EVENT_OCCURRED2_ALIAS,
+                             UVH_EVENT_OCCURRED2_RTC_1_MASK);
 
        val = (X86_PLATFORM_IPI_VECTOR << UVH_RTC1_INT_CONFIG_VECTOR_SHFT) |
                ((u64)apicid << UVH_RTC1_INT_CONFIG_APIC_ID_SHFT);
@@ -148,9 +147,8 @@ static __init int uv_rtc_allocate_timers(void)
                struct uv_rtc_timer_head *head = blade_info[bid];
 
                if (!head) {
-                       head = kmalloc_node(sizeof(struct uv_rtc_timer_head) +
-                               (uv_blade_nr_possible_cpus(bid) *
-                                       2 * sizeof(u64)),
+                       head = kmalloc_node(struct_size(head, cpu,
+                               uv_blade_nr_possible_cpus(bid)),
                                GFP_KERNEL, nid);
                        if (!head) {
                                uv_rtc_deallocate_timers();
index ff6bba2..b078245 100644 (file)
  */
 extern __wsum csum_partial(const void *buff, int len, __wsum sum);
 
-/*
- *     Note: when you get a NULL pointer exception here this means someone
- *     passed in an incorrect kernel address to one of these functions.
- *
- *     If you use these functions directly please don't forget the
- *     access_ok().
- */
-
-static __inline__
-__wsum csum_partial_copy_nocheck(const void *src, void *dst,
-                                      int len, __wsum sum)
-{
-       memcpy(dst, src, len);
-       return csum_partial(dst, len, sum);
-}
-
 /**
  * csum_fold - Fold and invert a 32bit checksum.
  * sum: 32bit unfolded sum
index b9ac7c9..0b13c29 100644 (file)
@@ -35,27 +35,4 @@ static __inline__ __sum16 csum_ipv6_magic(const struct in6_addr *saddr,
        return csum_fold(sum);
 }
 
-/*
- *     Copy and checksum to user
- */
-#define HAVE_CSUM_COPY_USER
-static __inline__ __wsum csum_and_copy_to_user(const void *src,
-                                                    void __user *dst,
-                                                    int len, __wsum sum, int *err_ptr)
-{
-       if (access_ok(dst, len)) {
-               if (copy_to_user(dst, src, len)) {
-                       *err_ptr = -EFAULT;
-                       return (__force __wsum)-1;
-               }
-
-               return csum_partial(src, len, sum);
-       }
-
-       if (len)
-               *err_ptr = -EFAULT;
-
-       return (__force __wsum)-1; /* invalid checksum */
-}
-
 #endif
index 22e741e..41485a8 100644 (file)
@@ -1014,8 +1014,6 @@ void __init xen_setup_vcpu_info_placement(void)
 }
 
 static const struct pv_info xen_info __initconst = {
-       .shared_kernel_pmd = 0,
-
        .extra_user_64bit_cs = FLAT_USER_CS64,
        .name = "Xen",
 };
@@ -1314,10 +1312,6 @@ asmlinkage __visible void __init xen_start_kernel(void)
                                   xen_start_info->nr_pages);
        xen_reserve_special_pages();
 
-       /* keep using Xen gdt for now; no urgent need to change it */
-
-       pv_info.kernel_rpl = 0;
-
        /*
         * We used to do this in xen_arch_setup, but that is too late
         * on AMD were early_cpu_init (run before ->arch_setup()) calls
index 3273c98..eda7814 100644 (file)
@@ -285,13 +285,6 @@ static void xen_set_pte(pte_t *ptep, pte_t pteval)
        __xen_set_pte(ptep, pteval);
 }
 
-static void xen_set_pte_at(struct mm_struct *mm, unsigned long addr,
-                   pte_t *ptep, pte_t pteval)
-{
-       trace_xen_mmu_set_pte_at(mm, addr, ptep, pteval);
-       __xen_set_pte(ptep, pteval);
-}
-
 pte_t xen_ptep_modify_prot_start(struct vm_area_struct *vma,
                                 unsigned long addr, pte_t *ptep)
 {
@@ -2105,7 +2098,6 @@ static const struct pv_mmu_ops xen_mmu_ops __initconst = {
        .release_pmd = xen_release_pmd_init,
 
        .set_pte = xen_set_pte_init,
-       .set_pte_at = xen_set_pte_at,
        .set_pmd = xen_set_pmd_hyper,
 
        .ptep_modify_prot_start = __ptep_modify_prot_start,
index 243a5fe..44ec1d0 100644 (file)
@@ -37,32 +37,27 @@ asmlinkage __wsum csum_partial(const void *buff, int len, __wsum sum);
  * better 64-bit) boundary
  */
 
-asmlinkage __wsum csum_partial_copy_generic(const void *src, void *dst,
-                                           int len, __wsum sum,
-                                           int *src_err_ptr, int *dst_err_ptr);
+asmlinkage __wsum csum_partial_copy_generic(const void *src, void *dst, int len);
 
+#define _HAVE_ARCH_CSUM_AND_COPY
 /*
  *     Note: when you get a NULL pointer exception here this means someone
  *     passed in an incorrect kernel address to one of these functions.
  */
 static inline
-__wsum csum_partial_copy_nocheck(const void *src, void *dst,
-                                       int len, __wsum sum)
+__wsum csum_partial_copy_nocheck(const void *src, void *dst, int len)
 {
-       return csum_partial_copy_generic(src, dst, len, sum, NULL, NULL);
+       return csum_partial_copy_generic(src, dst, len);
 }
 
 #define _HAVE_ARCH_COPY_AND_CSUM_FROM_USER
 static inline
 __wsum csum_and_copy_from_user(const void __user *src, void *dst,
-                                  int len, __wsum sum, int *err_ptr)
+                                  int len)
 {
-       if (access_ok(src, len))
-               return csum_partial_copy_generic((__force const void *)src, dst,
-                                       len, sum, err_ptr, NULL);
-       if (len)
-               *err_ptr = -EFAULT;
-       return sum;
+       if (!access_ok(src, len))
+               return 0;
+       return csum_partial_copy_generic((__force const void *)src, dst, len);
 }
 
 /*
@@ -243,15 +238,10 @@ static __inline__ __sum16 csum_ipv6_magic(const struct in6_addr *saddr,
  */
 #define HAVE_CSUM_COPY_USER
 static __inline__ __wsum csum_and_copy_to_user(const void *src,
-                                              void __user *dst, int len,
-                                              __wsum sum, int *err_ptr)
+                                              void __user *dst, int len)
 {
-       if (access_ok(dst, len))
-               return csum_partial_copy_generic(src,dst,len,sum,NULL,err_ptr);
-
-       if (len)
-               *err_ptr = -EFAULT;
-
-       return (__force __wsum)-1; /* invalid checksum */
+       if (!access_ok(dst, len))
+               return 0;
+       return csum_partial_copy_generic(src, (__force void *)dst, len);
 }
 #endif
index 4cb9ca5..cf1bed1 100644 (file)
@@ -175,19 +175,14 @@ ENDPROC(csum_partial)
  */
 
 /*
-unsigned int csum_partial_copy_generic (const char *src, char *dst, int len,
-                                       int sum, int *src_err_ptr, int *dst_err_ptr)
+unsigned int csum_partial_copy_generic (const char *src, char *dst, int len)
        a2  = src
        a3  = dst
        a4  = len
        a5  = sum
-       a6  = src_err_ptr
-       a7  = dst_err_ptr
        a8  = temp
        a9  = temp
        a10 = temp
-       a11 = original len for exception handling
-       a12 = original dst for exception handling
 
     This function is optimized for 4-byte aligned addresses.  Other
     alignments work, but not nearly as efficiently.
@@ -196,8 +191,7 @@ unsigned int csum_partial_copy_generic (const char *src, char *dst, int len,
 ENTRY(csum_partial_copy_generic)
 
        abi_entry_default
-       mov     a12, a3
-       mov     a11, a4
+       movi    a5, -1
        or      a10, a2, a3
 
        /* We optimize the following alignment tests for the 4-byte
@@ -228,26 +222,26 @@ ENTRY(csum_partial_copy_generic)
 #endif
 EX(10f)        l32i    a9, a2, 0
 EX(10f)        l32i    a8, a2, 4
-EX(11f)        s32i    a9, a3, 0
-EX(11f)        s32i    a8, a3, 4
+EX(10f)        s32i    a9, a3, 0
+EX(10f)        s32i    a8, a3, 4
        ONES_ADD(a5, a9)
        ONES_ADD(a5, a8)
 EX(10f)        l32i    a9, a2, 8
 EX(10f)        l32i    a8, a2, 12
-EX(11f)        s32i    a9, a3, 8
-EX(11f)        s32i    a8, a3, 12
+EX(10f)        s32i    a9, a3, 8
+EX(10f)        s32i    a8, a3, 12
        ONES_ADD(a5, a9)
        ONES_ADD(a5, a8)
 EX(10f)        l32i    a9, a2, 16
 EX(10f)        l32i    a8, a2, 20
-EX(11f)        s32i    a9, a3, 16
-EX(11f)        s32i    a8, a3, 20
+EX(10f)        s32i    a9, a3, 16
+EX(10f)        s32i    a8, a3, 20
        ONES_ADD(a5, a9)
        ONES_ADD(a5, a8)
 EX(10f)        l32i    a9, a2, 24
 EX(10f)        l32i    a8, a2, 28
-EX(11f)        s32i    a9, a3, 24
-EX(11f)        s32i    a8, a3, 28
+EX(10f)        s32i    a9, a3, 24
+EX(10f)        s32i    a8, a3, 28
        ONES_ADD(a5, a9)
        ONES_ADD(a5, a8)
        addi    a2, a2, 32
@@ -267,7 +261,7 @@ EX(11f)     s32i    a8, a3, 28
 .Loop6:
 #endif
 EX(10f)        l32i    a9, a2, 0
-EX(11f)        s32i    a9, a3, 0
+EX(10f)        s32i    a9, a3, 0
        ONES_ADD(a5, a9)
        addi    a2, a2, 4
        addi    a3, a3, 4
@@ -298,7 +292,7 @@ EX(11f)     s32i    a9, a3, 0
 .Loop7:
 #endif
 EX(10f)        l16ui   a9, a2, 0
-EX(11f)        s16i    a9, a3, 0
+EX(10f)        s16i    a9, a3, 0
        ONES_ADD(a5, a9)
        addi    a2, a2, 2
        addi    a3, a3, 2
@@ -309,7 +303,7 @@ EX(11f)     s16i    a9, a3, 0
        /* This section processes a possible trailing odd byte. */
        _bbci.l a4, 0, 8f       /* 1-byte chunk */
 EX(10f)        l8ui    a9, a2, 0
-EX(11f)        s8i     a9, a3, 0
+EX(10f)        s8i     a9, a3, 0
 #ifdef __XTENSA_EB__
        slli    a9, a9, 8       /* shift byte to bits 8..15 */
 #endif
@@ -334,8 +328,8 @@ EX(11f)     s8i     a9, a3, 0
 #endif
 EX(10f)        l8ui    a9, a2, 0
 EX(10f)        l8ui    a8, a2, 1
-EX(11f)        s8i     a9, a3, 0
-EX(11f)        s8i     a8, a3, 1
+EX(10f)        s8i     a9, a3, 0
+EX(10f)        s8i     a8, a3, 1
 #ifdef __XTENSA_EB__
        slli    a9, a9, 8       /* combine into a single 16-bit value */
 #else                          /* for checksum computation */
@@ -356,38 +350,7 @@ ENDPROC(csum_partial_copy_generic)
 
 # Exception handler:
 .section .fixup, "ax"
-/*
-       a6  = src_err_ptr
-       a7  = dst_err_ptr
-       a11 = original len for exception handling
-       a12 = original dst for exception handling
-*/
-
 10:
-       _movi   a2, -EFAULT
-       s32i    a2, a6, 0       /* src_err_ptr */
-
-       # clear the complete destination - computing the rest
-       # is too much work
-       movi    a2, 0
-#if XCHAL_HAVE_LOOPS
-       loopgtz a11, 2f
-#else
-       beqz    a11, 2f
-       add     a11, a11, a12   /* a11 = ending address */
-.Leloop:
-#endif
-       s8i     a2, a12, 0
-       addi    a12, a12, 1
-#if !XCHAL_HAVE_LOOPS
-       blt     a12, a11, .Leloop
-#endif
-2:
-       abi_ret_default
-
-11:
-       movi    a2, -EFAULT
-       s32i    a2, a7, 0       /* dst_err_ptr */
        movi    a2, 0
        abi_ret_default
 
index d6e18df..4b044e6 100644 (file)
@@ -305,8 +305,6 @@ int ibm_partition(struct parsed_partitions *state)
        if (!disk->fops->getgeo)
                goto out_exit;
        fn = symbol_get(dasd_biodasdinfo);
-       if (!fn)
-               goto out_exit;
        blocksize = bdev_logical_block_size(bdev);
        if (blocksize <= 0)
                goto out_symbol;
@@ -326,7 +324,7 @@ int ibm_partition(struct parsed_partitions *state)
        geo->start = get_start_sect(bdev);
        if (disk->fops->getgeo(bdev, geo))
                goto out_freeall;
-       if (fn(disk, info)) {
+       if (!fn || fn(disk, info)) {
                kfree(info);
                info = NULL;
        }
@@ -370,7 +368,8 @@ out_nolab:
 out_nogeo:
        kfree(info);
 out_symbol:
-       symbol_put(dasd_biodasdinfo);
+       if (fn)
+               symbol_put(dasd_biodasdinfo);
 out_exit:
        return res;
 }
index ef722f0..97e0b16 100644 (file)
@@ -333,16 +333,8 @@ static int sg_io(struct request_queue *q, struct gendisk *bd_disk,
                struct iov_iter i;
                struct iovec *iov = NULL;
 
-#ifdef CONFIG_COMPAT
-               if (in_compat_syscall())
-                       ret = compat_import_iovec(rq_data_dir(rq),
-                                  hdr->dxferp, hdr->iovec_count,
-                                  0, &iov, &i);
-               else
-#endif
-                       ret = import_iovec(rq_data_dir(rq),
-                                  hdr->dxferp, hdr->iovec_count,
-                                  0, &iov, &i);
+               ret = import_iovec(rq_data_dir(rq), hdr->dxferp,
+                                  hdr->iovec_count, 0, &iov, &i);
                if (ret < 0)
                        goto out_free_cdb;
 
@@ -651,6 +643,7 @@ struct compat_cdrom_generic_command {
        compat_int_t    stat;
        compat_caddr_t  sense;
        unsigned char   data_direction;
+       unsigned char   pad[3];
        compat_int_t    quiet;
        compat_int_t    timeout;
        compat_caddr_t  reserved[1];
index 1b57419..094ef56 100644 (file)
@@ -260,6 +260,23 @@ config CRYPTO_ECRDSA
          standard algorithms (called GOST algorithms). Only signature verification
          is implemented.
 
+config CRYPTO_SM2
+       tristate "SM2 algorithm"
+       select CRYPTO_SM3
+       select CRYPTO_AKCIPHER
+       select CRYPTO_MANAGER
+       select MPILIB
+       select ASN1
+       help
+         Generic implementation of the SM2 public key algorithm. It was
+         published by State Encryption Management Bureau, China.
+         as specified by OSCCA GM/T 0003.1-2012 -- 0003.5-2012.
+
+         References:
+         https://tools.ietf.org/html/draft-shen-sm2-ecdsa-02
+         http://www.oscca.gov.cn/sca/xxgk/2010-12/17/content_1002386.shtml
+         http://www.gmbz.org.cn/main/bzlb.html
+
 config CRYPTO_CURVE25519
        tristate "Curve25519 algorithm"
        select CRYPTO_KPP
@@ -1185,6 +1202,7 @@ config CRYPTO_AES_PPC_SPE
 
 config CRYPTO_ANUBIS
        tristate "Anubis cipher algorithm"
+       depends on CRYPTO_USER_API_ENABLE_OBSOLETE
        select CRYPTO_ALGAPI
        help
          Anubis cipher algorithm.
@@ -1199,6 +1217,7 @@ config CRYPTO_ANUBIS
 
 config CRYPTO_ARC4
        tristate "ARC4 cipher algorithm"
+       depends on CRYPTO_USER_API_ENABLE_OBSOLETE
        select CRYPTO_SKCIPHER
        select CRYPTO_LIB_ARC4
        help
@@ -1423,6 +1442,7 @@ config CRYPTO_FCRYPT
 
 config CRYPTO_KHAZAD
        tristate "Khazad cipher algorithm"
+       depends on CRYPTO_USER_API_ENABLE_OBSOLETE
        select CRYPTO_ALGAPI
        help
          Khazad cipher algorithm.
@@ -1486,6 +1506,7 @@ config CRYPTO_CHACHA_MIPS
 
 config CRYPTO_SEED
        tristate "SEED cipher algorithm"
+       depends on CRYPTO_USER_API_ENABLE_OBSOLETE
        select CRYPTO_ALGAPI
        help
          SEED cipher algorithm (RFC4269).
@@ -1612,6 +1633,7 @@ config CRYPTO_SM4
 
 config CRYPTO_TEA
        tristate "TEA, XTEA and XETA cipher algorithms"
+       depends on CRYPTO_USER_API_ENABLE_OBSOLETE
        select CRYPTO_ALGAPI
        help
          TEA cipher algorithm.
@@ -1870,6 +1892,15 @@ config CRYPTO_USER_API_RNG
          This option enables the user-spaces interface for random
          number generator algorithms.
 
+config CRYPTO_USER_API_RNG_CAVP
+       bool "Enable CAVP testing of DRBG"
+       depends on CRYPTO_USER_API_RNG && CRYPTO_DRBG
+       help
+         This option enables extra API for CAVP testing via the user-space
+         interface: resetting of DRBG entropy, and providing Additional Data.
+         This should only be enabled for CAVP testing. You should say
+         no unless you know what this is.
+
 config CRYPTO_USER_API_AEAD
        tristate "User-space interface for AEAD cipher algorithms"
        depends on NET
@@ -1881,6 +1912,15 @@ config CRYPTO_USER_API_AEAD
          This option enables the user-spaces interface for AEAD
          cipher algorithms.
 
+config CRYPTO_USER_API_ENABLE_OBSOLETE
+       bool "Enable obsolete cryptographic algorithms for userspace"
+       depends on CRYPTO_USER_API
+       default y
+       help
+         Allow obsolete cryptographic algorithms to be selected that have
+         already been phased out from internal use by the kernel, and are
+         only useful for userspace clients that still rely on them.
+
 config CRYPTO_STATS
        bool "Crypto usage statistics for User-space"
        depends on CRYPTO_USER
index 4ca12b6..b279483 100644 (file)
@@ -42,6 +42,14 @@ rsa_generic-y += rsa_helper.o
 rsa_generic-y += rsa-pkcs1pad.o
 obj-$(CONFIG_CRYPTO_RSA) += rsa_generic.o
 
+$(obj)/sm2signature.asn1.o: $(obj)/sm2signature.asn1.c $(obj)/sm2signature.asn1.h
+$(obj)/sm2.o: $(obj)/sm2signature.asn1.h
+
+sm2_generic-y += sm2signature.asn1.o
+sm2_generic-y += sm2.o
+
+obj-$(CONFIG_CRYPTO_SM2) += sm2_generic.o
+
 crypto_acompress-y := acompress.o
 crypto_acompress-y += scompress.o
 obj-$(CONFIG_CRYPTO_ACOMP2) += crypto_acompress.o
index 8be8bec..d11db80 100644 (file)
@@ -254,6 +254,14 @@ static int alg_setsockopt(struct socket *sock, int level, int optname,
                if (!type->setauthsize)
                        goto unlock;
                err = type->setauthsize(ask->private, optlen);
+               break;
+       case ALG_SET_DRBG_ENTROPY:
+               if (sock->state == SS_CONNECTED)
+                       goto unlock;
+               if (!type->setentropy)
+                       goto unlock;
+
+               err = type->setentropy(ask->private, optval, optlen);
        }
 
 unlock:
@@ -286,6 +294,11 @@ int af_alg_accept(struct sock *sk, struct socket *newsock, bool kern)
        security_sock_graft(sk2, newsock);
        security_sk_clone(sk, sk2);
 
+       /*
+        * newsock->ops assigned here to allow type->accept call to override
+        * them when required.
+        */
+       newsock->ops = type->ops;
        err = type->accept(ask->private, sk2);
 
        nokey = err == -ENOKEY;
@@ -304,7 +317,6 @@ int af_alg_accept(struct sock *sk, struct socket *newsock, bool kern)
        alg_sk(sk2)->parent = sk;
        alg_sk(sk2)->type = type;
 
-       newsock->ops = type->ops;
        newsock->state = SS_CONNECTED;
 
        if (nokey)
index d9d65d1..c2ca631 100644 (file)
@@ -10,7 +10,6 @@
 
 #include <crypto/internal/hash.h>
 #include <crypto/scatterwalk.h>
-#include <linux/bug.h>
 #include <linux/err.h>
 #include <linux/kernel.h>
 #include <linux/module.h>
@@ -46,10 +45,7 @@ static int hash_walk_next(struct crypto_hash_walk *walk)
        unsigned int nbytes = min(walk->entrylen,
                                  ((unsigned int)(PAGE_SIZE)) - offset);
 
-       if (walk->flags & CRYPTO_ALG_ASYNC)
-               walk->data = kmap(walk->pg);
-       else
-               walk->data = kmap_atomic(walk->pg);
+       walk->data = kmap_atomic(walk->pg);
        walk->data += offset;
 
        if (offset & alignmask) {
@@ -99,16 +95,8 @@ int crypto_hash_walk_done(struct crypto_hash_walk *walk, int err)
                }
        }
 
-       if (walk->flags & CRYPTO_ALG_ASYNC)
-               kunmap(walk->pg);
-       else {
-               kunmap_atomic(walk->data);
-               /*
-                * The may sleep test only makes sense for sync users.
-                * Async users don't need to sleep here anyway.
-                */
-               crypto_yield(walk->flags);
-       }
+       kunmap_atomic(walk->data);
+       crypto_yield(walk->flags);
 
        if (err)
                return err;
@@ -140,33 +128,12 @@ int crypto_hash_walk_first(struct ahash_request *req,
 
        walk->alignmask = crypto_ahash_alignmask(crypto_ahash_reqtfm(req));
        walk->sg = req->src;
-       walk->flags = req->base.flags & CRYPTO_TFM_REQ_MASK;
+       walk->flags = req->base.flags;
 
        return hash_walk_new_entry(walk);
 }
 EXPORT_SYMBOL_GPL(crypto_hash_walk_first);
 
-int crypto_ahash_walk_first(struct ahash_request *req,
-                           struct crypto_hash_walk *walk)
-{
-       walk->total = req->nbytes;
-
-       if (!walk->total) {
-               walk->entrylen = 0;
-               return 0;
-       }
-
-       walk->alignmask = crypto_ahash_alignmask(crypto_ahash_reqtfm(req));
-       walk->sg = req->src;
-       walk->flags = req->base.flags & CRYPTO_TFM_REQ_MASK;
-       walk->flags |= CRYPTO_ALG_ASYNC;
-
-       BUILD_BUG_ON(CRYPTO_TFM_REQ_MASK & CRYPTO_ALG_ASYNC);
-
-       return hash_walk_new_entry(walk);
-}
-EXPORT_SYMBOL_GPL(crypto_ahash_walk_first);
-
 static int ahash_setkey_unaligned(struct crypto_ahash *tfm, const u8 *key,
                                unsigned int keylen)
 {
@@ -477,6 +444,14 @@ static int ahash_def_finup(struct ahash_request *req)
        return ahash_def_finup_finish1(req, err);
 }
 
+static void crypto_ahash_exit_tfm(struct crypto_tfm *tfm)
+{
+       struct crypto_ahash *hash = __crypto_ahash_cast(tfm);
+       struct ahash_alg *alg = crypto_ahash_alg(hash);
+
+       alg->exit_tfm(hash);
+}
+
 static int crypto_ahash_init_tfm(struct crypto_tfm *tfm)
 {
        struct crypto_ahash *hash = __crypto_ahash_cast(tfm);
@@ -500,7 +475,10 @@ static int crypto_ahash_init_tfm(struct crypto_tfm *tfm)
                ahash_set_needkey(hash);
        }
 
-       return 0;
+       if (alg->exit_tfm)
+               tfm->exit = crypto_ahash_exit_tfm;
+
+       return alg->init_tfm ? alg->init_tfm(hash) : 0;
 }
 
 static unsigned int crypto_ahash_extsize(struct crypto_alg *alg)
index 21efa78..42493b4 100644 (file)
@@ -78,7 +78,7 @@ static int crypto_aead_copy_sgl(struct crypto_sync_skcipher *null_tfm,
        SYNC_SKCIPHER_REQUEST_ON_STACK(skreq, null_tfm);
 
        skcipher_request_set_sync_tfm(skreq, null_tfm);
-       skcipher_request_set_callback(skreq, CRYPTO_TFM_REQ_MAY_BACKLOG,
+       skcipher_request_set_callback(skreq, CRYPTO_TFM_REQ_MAY_SLEEP,
                                      NULL, NULL);
        skcipher_request_set_crypt(skreq, src, dst, len, NULL);
 
@@ -120,7 +120,7 @@ static int _aead_recvmsg(struct socket *sock, struct msghdr *msg,
 
        /*
         * Make sure sufficient data is present -- note, the same check is
-        * is also present in sendmsg/sendpage. The checks in sendpage/sendmsg
+        * also present in sendmsg/sendpage. The checks in sendpage/sendmsg
         * shall provide an information to the data sender that something is
         * wrong, but they are irrelevant to maintain the kernel integrity.
         * We need this check here too in case user space decides to not honor
@@ -291,19 +291,20 @@ static int _aead_recvmsg(struct socket *sock, struct msghdr *msg,
                areq->outlen = outlen;
 
                aead_request_set_callback(&areq->cra_u.aead_req,
-                                         CRYPTO_TFM_REQ_MAY_BACKLOG,
+                                         CRYPTO_TFM_REQ_MAY_SLEEP,
                                          af_alg_async_cb, areq);
                err = ctx->enc ? crypto_aead_encrypt(&areq->cra_u.aead_req) :
                                 crypto_aead_decrypt(&areq->cra_u.aead_req);
 
                /* AIO operation in progress */
-               if (err == -EINPROGRESS || err == -EBUSY)
+               if (err == -EINPROGRESS)
                        return -EIOCBQUEUED;
 
                sock_put(sk);
        } else {
                /* Synchronous operation */
                aead_request_set_callback(&areq->cra_u.aead_req,
+                                         CRYPTO_TFM_REQ_MAY_SLEEP |
                                          CRYPTO_TFM_REQ_MAY_BACKLOG,
                                          crypto_req_done, &ctx->wait);
                err = crypto_wait_req(ctx->enc ?
index 6300e05..407408c 100644 (file)
@@ -38,6 +38,7 @@
  * DAMAGE.
  */
 
+#include <linux/capability.h>
 #include <linux/module.h>
 #include <crypto/rng.h>
 #include <linux/random.h>
@@ -53,15 +54,26 @@ struct rng_ctx {
 #define MAXSIZE 128
        unsigned int len;
        struct crypto_rng *drng;
+       u8 *addtl;
+       size_t addtl_len;
 };
 
-static int rng_recvmsg(struct socket *sock, struct msghdr *msg, size_t len,
-                      int flags)
+struct rng_parent_ctx {
+       struct crypto_rng *drng;
+       u8 *entropy;
+};
+
+static void rng_reset_addtl(struct rng_ctx *ctx)
 {
-       struct sock *sk = sock->sk;
-       struct alg_sock *ask = alg_sk(sk);
-       struct rng_ctx *ctx = ask->private;
-       int err;
+       kfree_sensitive(ctx->addtl);
+       ctx->addtl = NULL;
+       ctx->addtl_len = 0;
+}
+
+static int _rng_recvmsg(struct crypto_rng *drng, struct msghdr *msg, size_t len,
+                       u8 *addtl, size_t addtl_len)
+{
+       int err = 0;
        int genlen = 0;
        u8 result[MAXSIZE];
 
@@ -82,7 +94,7 @@ static int rng_recvmsg(struct socket *sock, struct msghdr *msg, size_t len,
         * seeding as they automatically seed. The X9.31 DRNG will return
         * an error if it was not seeded properly.
         */
-       genlen = crypto_rng_get_bytes(ctx->drng, result, len);
+       genlen = crypto_rng_generate(drng, addtl, addtl_len, result, len);
        if (genlen < 0)
                return genlen;
 
@@ -92,6 +104,63 @@ static int rng_recvmsg(struct socket *sock, struct msghdr *msg, size_t len,
        return err ? err : len;
 }
 
+static int rng_recvmsg(struct socket *sock, struct msghdr *msg, size_t len,
+                      int flags)
+{
+       struct sock *sk = sock->sk;
+       struct alg_sock *ask = alg_sk(sk);
+       struct rng_ctx *ctx = ask->private;
+
+       return _rng_recvmsg(ctx->drng, msg, len, NULL, 0);
+}
+
+static int rng_test_recvmsg(struct socket *sock, struct msghdr *msg, size_t len,
+                           int flags)
+{
+       struct sock *sk = sock->sk;
+       struct alg_sock *ask = alg_sk(sk);
+       struct rng_ctx *ctx = ask->private;
+       int ret;
+
+       lock_sock(sock->sk);
+       ret = _rng_recvmsg(ctx->drng, msg, len, ctx->addtl, ctx->addtl_len);
+       rng_reset_addtl(ctx);
+       release_sock(sock->sk);
+
+       return ret;
+}
+
+static int rng_test_sendmsg(struct socket *sock, struct msghdr *msg, size_t len)
+{
+       int err;
+       struct alg_sock *ask = alg_sk(sock->sk);
+       struct rng_ctx *ctx = ask->private;
+
+       lock_sock(sock->sk);
+       if (len > MAXSIZE) {
+               err = -EMSGSIZE;
+               goto unlock;
+       }
+
+       rng_reset_addtl(ctx);
+       ctx->addtl = kmalloc(len, GFP_KERNEL);
+       if (!ctx->addtl) {
+               err = -ENOMEM;
+               goto unlock;
+       }
+
+       err = memcpy_from_msg(ctx->addtl, msg, len);
+       if (err) {
+               rng_reset_addtl(ctx);
+               goto unlock;
+       }
+       ctx->addtl_len = len;
+
+unlock:
+       release_sock(sock->sk);
+       return err ? err : len;
+}
+
 static struct proto_ops algif_rng_ops = {
        .family         =       PF_ALG,
 
@@ -111,14 +180,53 @@ static struct proto_ops algif_rng_ops = {
        .recvmsg        =       rng_recvmsg,
 };
 
+static struct proto_ops __maybe_unused algif_rng_test_ops = {
+       .family         =       PF_ALG,
+
+       .connect        =       sock_no_connect,
+       .socketpair     =       sock_no_socketpair,
+       .getname        =       sock_no_getname,
+       .ioctl          =       sock_no_ioctl,
+       .listen         =       sock_no_listen,
+       .shutdown       =       sock_no_shutdown,
+       .mmap           =       sock_no_mmap,
+       .bind           =       sock_no_bind,
+       .accept         =       sock_no_accept,
+       .sendpage       =       sock_no_sendpage,
+
+       .release        =       af_alg_release,
+       .recvmsg        =       rng_test_recvmsg,
+       .sendmsg        =       rng_test_sendmsg,
+};
+
 static void *rng_bind(const char *name, u32 type, u32 mask)
 {
-       return crypto_alloc_rng(name, type, mask);
+       struct rng_parent_ctx *pctx;
+       struct crypto_rng *rng;
+
+       pctx = kzalloc(sizeof(*pctx), GFP_KERNEL);
+       if (!pctx)
+               return ERR_PTR(-ENOMEM);
+
+       rng = crypto_alloc_rng(name, type, mask);
+       if (IS_ERR(rng)) {
+               kfree(pctx);
+               return ERR_CAST(rng);
+       }
+
+       pctx->drng = rng;
+       return pctx;
 }
 
 static void rng_release(void *private)
 {
-       crypto_free_rng(private);
+       struct rng_parent_ctx *pctx = private;
+
+       if (unlikely(!pctx))
+               return;
+       crypto_free_rng(pctx->drng);
+       kfree_sensitive(pctx->entropy);
+       kfree_sensitive(pctx);
 }
 
 static void rng_sock_destruct(struct sock *sk)
@@ -126,6 +234,7 @@ static void rng_sock_destruct(struct sock *sk)
        struct alg_sock *ask = alg_sk(sk);
        struct rng_ctx *ctx = ask->private;
 
+       rng_reset_addtl(ctx);
        sock_kfree_s(sk, ctx, ctx->len);
        af_alg_release_parent(sk);
 }
@@ -133,6 +242,7 @@ static void rng_sock_destruct(struct sock *sk)
 static int rng_accept_parent(void *private, struct sock *sk)
 {
        struct rng_ctx *ctx;
+       struct rng_parent_ctx *pctx = private;
        struct alg_sock *ask = alg_sk(sk);
        unsigned int len = sizeof(*ctx);
 
@@ -141,6 +251,8 @@ static int rng_accept_parent(void *private, struct sock *sk)
                return -ENOMEM;
 
        ctx->len = len;
+       ctx->addtl = NULL;
+       ctx->addtl_len = 0;
 
        /*
         * No seeding done at that point -- if multiple accepts are
@@ -148,20 +260,58 @@ static int rng_accept_parent(void *private, struct sock *sk)
         * state of the RNG.
         */
 
-       ctx->drng = private;
+       ctx->drng = pctx->drng;
        ask->private = ctx;
        sk->sk_destruct = rng_sock_destruct;
 
+       /*
+        * Non NULL pctx->entropy means that CAVP test has been initiated on
+        * this socket, replace proto_ops algif_rng_ops with algif_rng_test_ops.
+        */
+       if (IS_ENABLED(CONFIG_CRYPTO_USER_API_RNG_CAVP) && pctx->entropy)
+               sk->sk_socket->ops = &algif_rng_test_ops;
+
        return 0;
 }
 
 static int rng_setkey(void *private, const u8 *seed, unsigned int seedlen)
 {
+       struct rng_parent_ctx *pctx = private;
        /*
         * Check whether seedlen is of sufficient size is done in RNG
         * implementations.
         */
-       return crypto_rng_reset(private, seed, seedlen);
+       return crypto_rng_reset(pctx->drng, seed, seedlen);
+}
+
+static int __maybe_unused rng_setentropy(void *private, sockptr_t entropy,
+                                        unsigned int len)
+{
+       struct rng_parent_ctx *pctx = private;
+       u8 *kentropy = NULL;
+
+       if (!capable(CAP_SYS_ADMIN))
+               return -EACCES;
+
+       if (pctx->entropy)
+               return -EINVAL;
+
+       if (len > MAXSIZE)
+               return -EMSGSIZE;
+
+       if (len) {
+               kentropy = memdup_sockptr(entropy, len);
+               if (IS_ERR(kentropy))
+                       return PTR_ERR(kentropy);
+       }
+
+       crypto_rng_alg(pctx->drng)->set_ent(pctx->drng, kentropy, len);
+       /*
+        * Since rng doesn't perform any memory management for the entropy
+        * buffer, save kentropy pointer to pctx now to free it after use.
+        */
+       pctx->entropy = kentropy;
+       return 0;
 }
 
 static const struct af_alg_type algif_type_rng = {
@@ -169,6 +319,9 @@ static const struct af_alg_type algif_type_rng = {
        .release        =       rng_release,
        .accept         =       rng_accept_parent,
        .setkey         =       rng_setkey,
+#ifdef CONFIG_CRYPTO_USER_API_RNG_CAVP
+       .setentropy     =       rng_setentropy,
+#endif
        .ops            =       &algif_rng_ops,
        .name           =       "rng",
        .owner          =       THIS_MODULE
index 478f3b8..ee8890e 100644 (file)
@@ -123,7 +123,7 @@ static int _skcipher_recvmsg(struct socket *sock, struct msghdr *msg,
                        crypto_skcipher_decrypt(&areq->cra_u.skcipher_req);
 
                /* AIO operation in progress */
-               if (err == -EINPROGRESS || err == -EBUSY)
+               if (err == -EINPROGRESS)
                        return -EIOCBQUEUED;
 
                sock_put(sk);
index aa79571..3254dcc 100644 (file)
@@ -11,7 +11,9 @@
 #include <crypto/arc4.h>
 #include <crypto/internal/skcipher.h>
 #include <linux/init.h>
+#include <linux/kernel.h>
 #include <linux/module.h>
+#include <linux/sched.h>
 
 static int crypto_arc4_setkey(struct crypto_skcipher *tfm, const u8 *in_key,
                              unsigned int key_len)
@@ -39,6 +41,14 @@ static int crypto_arc4_crypt(struct skcipher_request *req)
        return err;
 }
 
+static int crypto_arc4_init(struct crypto_skcipher *tfm)
+{
+       pr_warn_ratelimited("\"%s\" (%ld) uses obsolete ecb(arc4) skcipher\n",
+                           current->comm, (unsigned long)current->pid);
+
+       return 0;
+}
+
 static struct skcipher_alg arc4_alg = {
        /*
         * For legacy reasons, this is named "ecb(arc4)", not "arc4".
@@ -55,6 +65,7 @@ static struct skcipher_alg arc4_alg = {
        .setkey                 =       crypto_arc4_setkey,
        .encrypt                =       crypto_arc4_crypt,
        .decrypt                =       crypto_arc4_crypt,
+       .init                   =       crypto_arc4_init,
 };
 
 static int __init arc4_init(void)
index d8410ff..8892908 100644 (file)
@@ -17,6 +17,8 @@
 #include <keys/asymmetric-subtype.h>
 #include <crypto/public_key.h>
 #include <crypto/akcipher.h>
+#include <crypto/sm2.h>
+#include <crypto/sm3_base.h>
 
 MODULE_DESCRIPTION("In-software asymmetric public-key subtype");
 MODULE_AUTHOR("Red Hat, Inc.");
@@ -246,6 +248,61 @@ error_free_tfm:
        return ret;
 }
 
+#if IS_REACHABLE(CONFIG_CRYPTO_SM2)
+static int cert_sig_digest_update(const struct public_key_signature *sig,
+                                 struct crypto_akcipher *tfm_pkey)
+{
+       struct crypto_shash *tfm;
+       struct shash_desc *desc;
+       size_t desc_size;
+       unsigned char dgst[SM3_DIGEST_SIZE];
+       int ret;
+
+       BUG_ON(!sig->data);
+
+       ret = sm2_compute_z_digest(tfm_pkey, SM2_DEFAULT_USERID,
+                                       SM2_DEFAULT_USERID_LEN, dgst);
+       if (ret)
+               return ret;
+
+       tfm = crypto_alloc_shash(sig->hash_algo, 0, 0);
+       if (IS_ERR(tfm))
+               return PTR_ERR(tfm);
+
+       desc_size = crypto_shash_descsize(tfm) + sizeof(*desc);
+       desc = kzalloc(desc_size, GFP_KERNEL);
+       if (!desc) {
+               ret = -ENOMEM;
+               goto error_free_tfm;
+       }
+
+       desc->tfm = tfm;
+
+       ret = crypto_shash_init(desc);
+       if (ret < 0)
+               goto error_free_desc;
+
+       ret = crypto_shash_update(desc, dgst, SM3_DIGEST_SIZE);
+       if (ret < 0)
+               goto error_free_desc;
+
+       ret = crypto_shash_finup(desc, sig->data, sig->data_size, sig->digest);
+
+error_free_desc:
+       kfree(desc);
+error_free_tfm:
+       crypto_free_shash(tfm);
+       return ret;
+}
+#else
+static inline int cert_sig_digest_update(
+       const struct public_key_signature *sig,
+       struct crypto_akcipher *tfm_pkey)
+{
+       return -ENOTSUPP;
+}
+#endif /* ! IS_REACHABLE(CONFIG_CRYPTO_SM2) */
+
 /*
  * Verify a signature using a public key.
  */
@@ -299,6 +356,12 @@ int public_key_verify_signature(const struct public_key *pkey,
        if (ret)
                goto error_free_key;
 
+       if (strcmp(sig->pkey_algo, "sm2") == 0 && sig->data_size) {
+               ret = cert_sig_digest_update(sig, tfm);
+               if (ret)
+                       goto error_free_key;
+       }
+
        sg_init_table(src_sg, 2);
        sg_set_buf(&src_sg[0], sig->s, sig->s_size);
        sg_set_buf(&src_sg[1], sig->digest, sig->digest_size);
index 26ec20e..52c9b45 100644 (file)
@@ -234,6 +234,10 @@ int x509_note_pkey_algo(void *context, size_t hdrlen,
        case OID_gost2012Signature512:
                ctx->cert->sig->hash_algo = "streebog512";
                goto ecrdsa;
+
+       case OID_SM2_with_SM3:
+               ctx->cert->sig->hash_algo = "sm3";
+               goto sm2;
        }
 
 rsa_pkcs1:
@@ -246,6 +250,11 @@ ecrdsa:
        ctx->cert->sig->encoding = "raw";
        ctx->algo_oid = ctx->last_oid;
        return 0;
+sm2:
+       ctx->cert->sig->pkey_algo = "sm2";
+       ctx->cert->sig->encoding = "raw";
+       ctx->algo_oid = ctx->last_oid;
+       return 0;
 }
 
 /*
@@ -266,7 +275,8 @@ int x509_note_signature(void *context, size_t hdrlen,
        }
 
        if (strcmp(ctx->cert->sig->pkey_algo, "rsa") == 0 ||
-           strcmp(ctx->cert->sig->pkey_algo, "ecrdsa") == 0) {
+           strcmp(ctx->cert->sig->pkey_algo, "ecrdsa") == 0 ||
+           strcmp(ctx->cert->sig->pkey_algo, "sm2") == 0) {
                /* Discard the BIT STRING metadata */
                if (vlen < 1 || *(const u8 *)value != 0)
                        return -EBADMSG;
@@ -451,13 +461,20 @@ int x509_extract_key_data(void *context, size_t hdrlen,
        struct x509_parse_context *ctx = context;
 
        ctx->key_algo = ctx->last_oid;
-       if (ctx->last_oid == OID_rsaEncryption)
+       switch (ctx->last_oid) {
+       case OID_rsaEncryption:
                ctx->cert->pub->pkey_algo = "rsa";
-       else if (ctx->last_oid == OID_gost2012PKey256 ||
-                ctx->last_oid == OID_gost2012PKey512)
+               break;
+       case OID_gost2012PKey256:
+       case OID_gost2012PKey512:
                ctx->cert->pub->pkey_algo = "ecrdsa";
-       else
+               break;
+       case OID_id_ecPublicKey:
+               ctx->cert->pub->pkey_algo = "sm2";
+               break;
+       default:
                return -ENOPKG;
+       }
 
        /* Discard the BIT STRING metadata */
        if (vlen < 1 || *(const u8 *)value != 0)
index d964cc8..ae450eb 100644 (file)
@@ -30,6 +30,9 @@ int x509_get_sig_params(struct x509_certificate *cert)
 
        pr_devel("==>%s()\n", __func__);
 
+       sig->data = cert->tbs;
+       sig->data_size = cert->tbs_size;
+
        if (!cert->pub->pkey_algo)
                cert->unsupported_key = true;
 
index e6f6273..0d9509d 100644 (file)
@@ -6,7 +6,6 @@
  */
 
 #include <crypto/algapi.h>
-#include <crypto/cbc.h>
 #include <crypto/internal/skcipher.h>
 #include <linux/err.h>
 #include <linux/init.h>
 #include <linux/log2.h>
 #include <linux/module.h>
 
-static inline void crypto_cbc_encrypt_one(struct crypto_skcipher *tfm,
-                                         const u8 *src, u8 *dst)
+static int crypto_cbc_encrypt_segment(struct skcipher_walk *walk,
+                                     struct crypto_skcipher *skcipher)
 {
-       crypto_cipher_encrypt_one(skcipher_cipher_simple(tfm), dst, src);
+       unsigned int bsize = crypto_skcipher_blocksize(skcipher);
+       void (*fn)(struct crypto_tfm *, u8 *, const u8 *);
+       unsigned int nbytes = walk->nbytes;
+       u8 *src = walk->src.virt.addr;
+       u8 *dst = walk->dst.virt.addr;
+       struct crypto_cipher *cipher;
+       struct crypto_tfm *tfm;
+       u8 *iv = walk->iv;
+
+       cipher = skcipher_cipher_simple(skcipher);
+       tfm = crypto_cipher_tfm(cipher);
+       fn = crypto_cipher_alg(cipher)->cia_encrypt;
+
+       do {
+               crypto_xor(iv, src, bsize);
+               fn(tfm, dst, iv);
+               memcpy(iv, dst, bsize);
+
+               src += bsize;
+               dst += bsize;
+       } while ((nbytes -= bsize) >= bsize);
+
+       return nbytes;
+}
+
+static int crypto_cbc_encrypt_inplace(struct skcipher_walk *walk,
+                                     struct crypto_skcipher *skcipher)
+{
+       unsigned int bsize = crypto_skcipher_blocksize(skcipher);
+       void (*fn)(struct crypto_tfm *, u8 *, const u8 *);
+       unsigned int nbytes = walk->nbytes;
+       u8 *src = walk->src.virt.addr;
+       struct crypto_cipher *cipher;
+       struct crypto_tfm *tfm;
+       u8 *iv = walk->iv;
+
+       cipher = skcipher_cipher_simple(skcipher);
+       tfm = crypto_cipher_tfm(cipher);
+       fn = crypto_cipher_alg(cipher)->cia_encrypt;
+
+       do {
+               crypto_xor(src, iv, bsize);
+               fn(tfm, src, src);
+               iv = src;
+
+               src += bsize;
+       } while ((nbytes -= bsize) >= bsize);
+
+       memcpy(walk->iv, iv, bsize);
+
+       return nbytes;
 }
 
 static int crypto_cbc_encrypt(struct skcipher_request *req)
 {
-       return crypto_cbc_encrypt_walk(req, crypto_cbc_encrypt_one);
+       struct crypto_skcipher *skcipher = crypto_skcipher_reqtfm(req);
+       struct skcipher_walk walk;
+       int err;
+
+       err = skcipher_walk_virt(&walk, req, false);
+
+       while (walk.nbytes) {
+               if (walk.src.virt.addr == walk.dst.virt.addr)
+                       err = crypto_cbc_encrypt_inplace(&walk, skcipher);
+               else
+                       err = crypto_cbc_encrypt_segment(&walk, skcipher);
+               err = skcipher_walk_done(&walk, err);
+       }
+
+       return err;
+}
+
+static int crypto_cbc_decrypt_segment(struct skcipher_walk *walk,
+                                     struct crypto_skcipher *skcipher)
+{
+       unsigned int bsize = crypto_skcipher_blocksize(skcipher);
+       void (*fn)(struct crypto_tfm *, u8 *, const u8 *);
+       unsigned int nbytes = walk->nbytes;
+       u8 *src = walk->src.virt.addr;
+       u8 *dst = walk->dst.virt.addr;
+       struct crypto_cipher *cipher;
+       struct crypto_tfm *tfm;
+       u8 *iv = walk->iv;
+
+       cipher = skcipher_cipher_simple(skcipher);
+       tfm = crypto_cipher_tfm(cipher);
+       fn = crypto_cipher_alg(cipher)->cia_decrypt;
+
+       do {
+               fn(tfm, dst, src);
+               crypto_xor(dst, iv, bsize);
+               iv = src;
+
+               src += bsize;
+               dst += bsize;
+       } while ((nbytes -= bsize) >= bsize);
+
+       memcpy(walk->iv, iv, bsize);
+
+       return nbytes;
 }
 
-static inline void crypto_cbc_decrypt_one(struct crypto_skcipher *tfm,
-                                         const u8 *src, u8 *dst)
+static int crypto_cbc_decrypt_inplace(struct skcipher_walk *walk,
+                                     struct crypto_skcipher *skcipher)
 {
-       crypto_cipher_decrypt_one(skcipher_cipher_simple(tfm), dst, src);
+       unsigned int bsize = crypto_skcipher_blocksize(skcipher);
+       void (*fn)(struct crypto_tfm *, u8 *, const u8 *);
+       unsigned int nbytes = walk->nbytes;
+       u8 *src = walk->src.virt.addr;
+       u8 last_iv[MAX_CIPHER_BLOCKSIZE];
+       struct crypto_cipher *cipher;
+       struct crypto_tfm *tfm;
+
+       cipher = skcipher_cipher_simple(skcipher);
+       tfm = crypto_cipher_tfm(cipher);
+       fn = crypto_cipher_alg(cipher)->cia_decrypt;
+
+       /* Start of the last block. */
+       src += nbytes - (nbytes & (bsize - 1)) - bsize;
+       memcpy(last_iv, src, bsize);
+
+       for (;;) {
+               fn(tfm, src, src);
+               if ((nbytes -= bsize) < bsize)
+                       break;
+               crypto_xor(src, src - bsize, bsize);
+               src -= bsize;
+       }
+
+       crypto_xor(src, walk->iv, bsize);
+       memcpy(walk->iv, last_iv, bsize);
+
+       return nbytes;
 }
 
 static int crypto_cbc_decrypt(struct skcipher_request *req)
 {
-       struct crypto_skcipher *tfm = crypto_skcipher_reqtfm(req);
+       struct crypto_skcipher *skcipher = crypto_skcipher_reqtfm(req);
        struct skcipher_walk walk;
        int err;
 
        err = skcipher_walk_virt(&walk, req, false);
 
        while (walk.nbytes) {
-               err = crypto_cbc_decrypt_blocks(&walk, tfm,
-                                               crypto_cbc_decrypt_one);
+               if (walk.src.virt.addr == walk.dst.virt.addr)
+                       err = crypto_cbc_decrypt_inplace(&walk, skcipher);
+               else
+                       err = crypto_cbc_decrypt_segment(&walk, skcipher);
                err = skcipher_walk_done(&walk, err);
        }
 
index 7fa9b07..7686147 100644 (file)
@@ -15,7 +15,7 @@
  * pages =        {},
  * month =        {June},
  *}
- * Used by the iSCSI driver, possibly others, and derived from the
+ * Used by the iSCSI driver, possibly others, and derived from
  * the iscsi-crc.c module of the linux-iscsi driver at
  * http://linux-iscsi.sourceforge.net.
  *
@@ -50,7 +50,7 @@ struct chksum_desc_ctx {
 };
 
 /*
- * Steps through buffer one byte at at time, calculates reflected
+ * Steps through buffer one byte at a time, calculates reflected
  * crc using table.
  */
 
index d90c007..e843982 100644 (file)
@@ -35,7 +35,7 @@ struct chksum_desc_ctx {
 };
 
 /*
- * Steps through buffer one byte at at time, calculates reflected
+ * Steps through buffer one byte at a time, calculates reflected
  * crc using table.
  */
 
index 198a8eb..cff21f4 100644 (file)
@@ -9,6 +9,7 @@
 
 #include <linux/err.h>
 #include <linux/delay.h>
+#include <linux/device.h>
 #include <crypto/engine.h>
 #include <uapi/linux/sched/types.h>
 #include "internal.h"
@@ -465,7 +466,7 @@ EXPORT_SYMBOL_GPL(crypto_engine_stop);
  * crypto-engine queue.
  * @dev: the device attached with one hardware engine
  * @retry_support: whether hardware has support for retry mechanism
- * @cbk_do_batch: pointer to a callback function to be invoked when executing a
+ * @cbk_do_batch: pointer to a callback function to be invoked when executing
  *                a batch of requests.
  *                This has the form:
  *                callback(struct crypto_engine *engine)
index 887ec21..6a3fd09 100644 (file)
@@ -22,6 +22,7 @@
 #include <crypto/internal/akcipher.h>
 #include <crypto/akcipher.h>
 #include <linux/oid_registry.h>
+#include <linux/scatterlist.h>
 #include "ecrdsa_params.asn1.h"
 #include "ecrdsa_pub_key.asn1.h"
 #include "ecc.h"
index 1b92a5a..976ec9d 100644 (file)
 
 #include <crypto/algapi.h>
 #include <linux/completion.h>
-#include <linux/mm.h>
-#include <linux/highmem.h>
-#include <linux/interrupt.h>
-#include <linux/init.h>
 #include <linux/list.h>
 #include <linux/module.h>
-#include <linux/kernel.h>
 #include <linux/notifier.h>
+#include <linux/numa.h>
+#include <linux/refcount.h>
 #include <linux/rwsem.h>
-#include <linux/slab.h>
+#include <linux/sched.h>
+#include <linux/types.h>
 
 struct crypto_instance;
 struct crypto_template;
@@ -140,5 +138,11 @@ static inline void crypto_notify(unsigned long val, void *v)
        blocking_notifier_call_chain(&crypto_chain, val, v);
 }
 
+static inline void crypto_yield(u32 flags)
+{
+       if (flags & CRYPTO_TFM_REQ_MAY_SLEEP)
+               cond_resched();
+}
+
 #endif /* _CRYPTO_INTERNAL_H */
 
index eb7d1dd..e8a4165 100644 (file)
  * DAMAGE.
  */
 
+#include <linux/kernel.h>
 #include <linux/module.h>
 #include <linux/slab.h>
 #include <linux/fips.h>
 #include <linux/time.h>
-#include <linux/crypto.h>
 #include <crypto/internal/rng.h>
 
 #include "jitterentropy.h"
index 08d8c2b..12fccb9 100644 (file)
@@ -36,7 +36,7 @@ static void c_stop(struct seq_file *m, void *p)
 static int c_show(struct seq_file *m, void *p)
 {
        struct crypto_alg *alg = list_entry(p, struct crypto_alg, cra_list);
-       
+
        seq_printf(m, "name         : %s\n", alg->cra_name);
        seq_printf(m, "driver       : %s\n", alg->cra_driver_name);
        seq_printf(m, "module       : %s\n", module_name(alg->cra_module));
@@ -59,7 +59,7 @@ static int c_show(struct seq_file *m, void *p)
                alg->cra_type->show(m, alg);
                goto out;
        }
-       
+
        switch (alg->cra_flags & CRYPTO_ALG_TYPE_MASK) {
        case CRYPTO_ALG_TYPE_CIPHER:
                seq_printf(m, "type         : cipher\n");
index ddd3d10..8ac3e73 100644 (file)
@@ -14,6 +14,7 @@
 #include <linux/kernel.h>
 #include <linux/module.h>
 #include <linux/random.h>
+#include <linux/scatterlist.h>
 
 /*
  * Hash algorithm OIDs plus ASN.1 DER wrappings [RFC4880 sec 5.2.2].
diff --git a/crypto/sm2.c b/crypto/sm2.c
new file mode 100644 (file)
index 0000000..767e160
--- /dev/null
@@ -0,0 +1,481 @@
+/* SPDX-License-Identifier: GPL-2.0-or-later */
+/*
+ * SM2 asymmetric public-key algorithm
+ * as specified by OSCCA GM/T 0003.1-2012 -- 0003.5-2012 SM2 and
+ * described at https://tools.ietf.org/html/draft-shen-sm2-ecdsa-02
+ *
+ * Copyright (c) 2020, Alibaba Group.
+ * Authors: Tianjia Zhang <tianjia.zhang@linux.alibaba.com>
+ */
+
+#include <linux/module.h>
+#include <linux/mpi.h>
+#include <crypto/internal/akcipher.h>
+#include <crypto/akcipher.h>
+#include <crypto/hash.h>
+#include <crypto/sm3_base.h>
+#include <crypto/rng.h>
+#include <crypto/sm2.h>
+#include "sm2signature.asn1.h"
+
+#define MPI_NBYTES(m)   ((mpi_get_nbits(m) + 7) / 8)
+
+struct ecc_domain_parms {
+       const char *desc;           /* Description of the curve.  */
+       unsigned int nbits;         /* Number of bits.  */
+       unsigned int fips:1; /* True if this is a FIPS140-2 approved curve */
+
+       /* The model describing this curve.  This is mainly used to select
+        * the group equation.
+        */
+       enum gcry_mpi_ec_models model;
+
+       /* The actual ECC dialect used.  This is used for curve specific
+        * optimizations and to select encodings etc.
+        */
+       enum ecc_dialects dialect;
+
+       const char *p;              /* The prime defining the field.  */
+       const char *a, *b;          /* The coefficients.  For Twisted Edwards
+                                    * Curves b is used for d.  For Montgomery
+                                    * Curves (a,b) has ((A-2)/4,B^-1).
+                                    */
+       const char *n;              /* The order of the base point.  */
+       const char *g_x, *g_y;      /* Base point.  */
+       unsigned int h;             /* Cofactor.  */
+};
+
+static const struct ecc_domain_parms sm2_ecp = {
+       .desc = "sm2p256v1",
+       .nbits = 256,
+       .fips = 0,
+       .model = MPI_EC_WEIERSTRASS,
+       .dialect = ECC_DIALECT_STANDARD,
+       .p   = "0xfffffffeffffffffffffffffffffffffffffffff00000000ffffffffffffffff",
+       .a   = "0xfffffffeffffffffffffffffffffffffffffffff00000000fffffffffffffffc",
+       .b   = "0x28e9fa9e9d9f5e344d5a9e4bcf6509a7f39789f515ab8f92ddbcbd414d940e93",
+       .n   = "0xfffffffeffffffffffffffffffffffff7203df6b21c6052b53bbf40939d54123",
+       .g_x = "0x32c4ae2c1f1981195f9904466a39c9948fe30bbff2660be1715a4589334c74c7",
+       .g_y = "0xbc3736a2f4f6779c59bdcee36b692153d0a9877cc62a474002df32e52139f0a0",
+       .h = 1
+};
+
+static int sm2_ec_ctx_init(struct mpi_ec_ctx *ec)
+{
+       const struct ecc_domain_parms *ecp = &sm2_ecp;
+       MPI p, a, b;
+       MPI x, y;
+       int rc = -EINVAL;
+
+       p = mpi_scanval(ecp->p);
+       a = mpi_scanval(ecp->a);
+       b = mpi_scanval(ecp->b);
+       if (!p || !a || !b)
+               goto free_p;
+
+       x = mpi_scanval(ecp->g_x);
+       y = mpi_scanval(ecp->g_y);
+       if (!x || !y)
+               goto free;
+
+       rc = -ENOMEM;
+       /* mpi_ec_setup_elliptic_curve */
+       ec->G = mpi_point_new(0);
+       if (!ec->G)
+               goto free;
+
+       mpi_set(ec->G->x, x);
+       mpi_set(ec->G->y, y);
+       mpi_set_ui(ec->G->z, 1);
+
+       rc = -EINVAL;
+       ec->n = mpi_scanval(ecp->n);
+       if (!ec->n) {
+               mpi_point_release(ec->G);
+               goto free;
+       }
+
+       ec->h = ecp->h;
+       ec->name = ecp->desc;
+       mpi_ec_init(ec, ecp->model, ecp->dialect, 0, p, a, b);
+
+       rc = 0;
+
+free:
+       mpi_free(x);
+       mpi_free(y);
+free_p:
+       mpi_free(p);
+       mpi_free(a);
+       mpi_free(b);
+
+       return rc;
+}
+
+static void sm2_ec_ctx_deinit(struct mpi_ec_ctx *ec)
+{
+       mpi_ec_deinit(ec);
+
+       memset(ec, 0, sizeof(*ec));
+}
+
+static int sm2_ec_ctx_reset(struct mpi_ec_ctx *ec)
+{
+       sm2_ec_ctx_deinit(ec);
+       return sm2_ec_ctx_init(ec);
+}
+
+/* RESULT must have been initialized and is set on success to the
+ * point given by VALUE.
+ */
+static int sm2_ecc_os2ec(MPI_POINT result, MPI value)
+{
+       int rc;
+       size_t n;
+       const unsigned char *buf;
+       unsigned char *buf_memory;
+       MPI x, y;
+
+       n = (mpi_get_nbits(value)+7)/8;
+       buf_memory = kmalloc(n, GFP_KERNEL);
+       rc = mpi_print(GCRYMPI_FMT_USG, buf_memory, n, &n, value);
+       if (rc) {
+               kfree(buf_memory);
+               return rc;
+       }
+       buf = buf_memory;
+
+       if (n < 1) {
+               kfree(buf_memory);
+               return -EINVAL;
+       }
+       if (*buf != 4) {
+               kfree(buf_memory);
+               return -EINVAL; /* No support for point compression.  */
+       }
+       if (((n-1)%2)) {
+               kfree(buf_memory);
+               return -EINVAL;
+       }
+       n = (n-1)/2;
+       x = mpi_read_raw_data(buf + 1, n);
+       if (!x) {
+               kfree(buf_memory);
+               return -ENOMEM;
+       }
+       y = mpi_read_raw_data(buf + 1 + n, n);
+       kfree(buf_memory);
+       if (!y) {
+               mpi_free(x);
+               return -ENOMEM;
+       }
+
+       mpi_normalize(x);
+       mpi_normalize(y);
+
+       mpi_set(result->x, x);
+       mpi_set(result->y, y);
+       mpi_set_ui(result->z, 1);
+
+       mpi_free(x);
+       mpi_free(y);
+
+       return 0;
+}
+
+struct sm2_signature_ctx {
+       MPI sig_r;
+       MPI sig_s;
+};
+
+int sm2_get_signature_r(void *context, size_t hdrlen, unsigned char tag,
+                               const void *value, size_t vlen)
+{
+       struct sm2_signature_ctx *sig = context;
+
+       if (!value || !vlen)
+               return -EINVAL;
+
+       sig->sig_r = mpi_read_raw_data(value, vlen);
+       if (!sig->sig_r)
+               return -ENOMEM;
+
+       return 0;
+}
+
+int sm2_get_signature_s(void *context, size_t hdrlen, unsigned char tag,
+                               const void *value, size_t vlen)
+{
+       struct sm2_signature_ctx *sig = context;
+
+       if (!value || !vlen)
+               return -EINVAL;
+
+       sig->sig_s = mpi_read_raw_data(value, vlen);
+       if (!sig->sig_s)
+               return -ENOMEM;
+
+       return 0;
+}
+
+static int sm2_z_digest_update(struct shash_desc *desc,
+                       MPI m, unsigned int pbytes)
+{
+       static const unsigned char zero[32];
+       unsigned char *in;
+       unsigned int inlen;
+
+       in = mpi_get_buffer(m, &inlen, NULL);
+       if (!in)
+               return -EINVAL;
+
+       if (inlen < pbytes) {
+               /* padding with zero */
+               crypto_sm3_update(desc, zero, pbytes - inlen);
+               crypto_sm3_update(desc, in, inlen);
+       } else if (inlen > pbytes) {
+               /* skip the starting zero */
+               crypto_sm3_update(desc, in + inlen - pbytes, pbytes);
+       } else {
+               crypto_sm3_update(desc, in, inlen);
+       }
+
+       kfree(in);
+       return 0;
+}
+
+static int sm2_z_digest_update_point(struct shash_desc *desc,
+               MPI_POINT point, struct mpi_ec_ctx *ec, unsigned int pbytes)
+{
+       MPI x, y;
+       int ret = -EINVAL;
+
+       x = mpi_new(0);
+       y = mpi_new(0);
+
+       if (!mpi_ec_get_affine(x, y, point, ec) &&
+               !sm2_z_digest_update(desc, x, pbytes) &&
+               !sm2_z_digest_update(desc, y, pbytes))
+               ret = 0;
+
+       mpi_free(x);
+       mpi_free(y);
+       return ret;
+}
+
+int sm2_compute_z_digest(struct crypto_akcipher *tfm,
+                       const unsigned char *id, size_t id_len,
+                       unsigned char dgst[SM3_DIGEST_SIZE])
+{
+       struct mpi_ec_ctx *ec = akcipher_tfm_ctx(tfm);
+       uint16_t bits_len;
+       unsigned char entl[2];
+       SHASH_DESC_ON_STACK(desc, NULL);
+       unsigned int pbytes;
+
+       if (id_len > (USHRT_MAX / 8) || !ec->Q)
+               return -EINVAL;
+
+       bits_len = (uint16_t)(id_len * 8);
+       entl[0] = bits_len >> 8;
+       entl[1] = bits_len & 0xff;
+
+       pbytes = MPI_NBYTES(ec->p);
+
+       /* ZA = H256(ENTLA | IDA | a | b | xG | yG | xA | yA) */
+       sm3_base_init(desc);
+       crypto_sm3_update(desc, entl, 2);
+       crypto_sm3_update(desc, id, id_len);
+
+       if (sm2_z_digest_update(desc, ec->a, pbytes) ||
+               sm2_z_digest_update(desc, ec->b, pbytes) ||
+               sm2_z_digest_update_point(desc, ec->G, ec, pbytes) ||
+               sm2_z_digest_update_point(desc, ec->Q, ec, pbytes))
+               return -EINVAL;
+
+       crypto_sm3_final(desc, dgst);
+       return 0;
+}
+EXPORT_SYMBOL(sm2_compute_z_digest);
+
+static int _sm2_verify(struct mpi_ec_ctx *ec, MPI hash, MPI sig_r, MPI sig_s)
+{
+       int rc = -EINVAL;
+       struct gcry_mpi_point sG, tP;
+       MPI t = NULL;
+       MPI x1 = NULL, y1 = NULL;
+
+       mpi_point_init(&sG);
+       mpi_point_init(&tP);
+       x1 = mpi_new(0);
+       y1 = mpi_new(0);
+       t = mpi_new(0);
+
+       /* r, s in [1, n-1] */
+       if (mpi_cmp_ui(sig_r, 1) < 0 || mpi_cmp(sig_r, ec->n) > 0 ||
+               mpi_cmp_ui(sig_s, 1) < 0 || mpi_cmp(sig_s, ec->n) > 0) {
+               goto leave;
+       }
+
+       /* t = (r + s) % n, t == 0 */
+       mpi_addm(t, sig_r, sig_s, ec->n);
+       if (mpi_cmp_ui(t, 0) == 0)
+               goto leave;
+
+       /* sG + tP = (x1, y1) */
+       rc = -EBADMSG;
+       mpi_ec_mul_point(&sG, sig_s, ec->G, ec);
+       mpi_ec_mul_point(&tP, t, ec->Q, ec);
+       mpi_ec_add_points(&sG, &sG, &tP, ec);
+       if (mpi_ec_get_affine(x1, y1, &sG, ec))
+               goto leave;
+
+       /* R = (e + x1) % n */
+       mpi_addm(t, hash, x1, ec->n);
+
+       /* check R == r */
+       rc = -EKEYREJECTED;
+       if (mpi_cmp(t, sig_r))
+               goto leave;
+
+       rc = 0;
+
+leave:
+       mpi_point_free_parts(&sG);
+       mpi_point_free_parts(&tP);
+       mpi_free(x1);
+       mpi_free(y1);
+       mpi_free(t);
+
+       return rc;
+}
+
+static int sm2_verify(struct akcipher_request *req)
+{
+       struct crypto_akcipher *tfm = crypto_akcipher_reqtfm(req);
+       struct mpi_ec_ctx *ec = akcipher_tfm_ctx(tfm);
+       unsigned char *buffer;
+       struct sm2_signature_ctx sig;
+       MPI hash;
+       int ret;
+
+       if (unlikely(!ec->Q))
+               return -EINVAL;
+
+       buffer = kmalloc(req->src_len + req->dst_len, GFP_KERNEL);
+       if (!buffer)
+               return -ENOMEM;
+
+       sg_pcopy_to_buffer(req->src,
+               sg_nents_for_len(req->src, req->src_len + req->dst_len),
+               buffer, req->src_len + req->dst_len, 0);
+
+       sig.sig_r = NULL;
+       sig.sig_s = NULL;
+       ret = asn1_ber_decoder(&sm2signature_decoder, &sig,
+                               buffer, req->src_len);
+       if (ret)
+               goto error;
+
+       ret = -ENOMEM;
+       hash = mpi_read_raw_data(buffer + req->src_len, req->dst_len);
+       if (!hash)
+               goto error;
+
+       ret = _sm2_verify(ec, hash, sig.sig_r, sig.sig_s);
+
+       mpi_free(hash);
+error:
+       mpi_free(sig.sig_r);
+       mpi_free(sig.sig_s);
+       kfree(buffer);
+       return ret;
+}
+
+static int sm2_set_pub_key(struct crypto_akcipher *tfm,
+                       const void *key, unsigned int keylen)
+{
+       struct mpi_ec_ctx *ec = akcipher_tfm_ctx(tfm);
+       MPI a;
+       int rc;
+
+       rc = sm2_ec_ctx_reset(ec);
+       if (rc)
+               return rc;
+
+       ec->Q = mpi_point_new(0);
+       if (!ec->Q)
+               return -ENOMEM;
+
+       /* include the uncompressed flag '0x04' */
+       rc = -ENOMEM;
+       a = mpi_read_raw_data(key, keylen);
+       if (!a)
+               goto error;
+
+       mpi_normalize(a);
+       rc = sm2_ecc_os2ec(ec->Q, a);
+       mpi_free(a);
+       if (rc)
+               goto error;
+
+       return 0;
+
+error:
+       mpi_point_release(ec->Q);
+       ec->Q = NULL;
+       return rc;
+}
+
+static unsigned int sm2_max_size(struct crypto_akcipher *tfm)
+{
+       /* Unlimited max size */
+       return PAGE_SIZE;
+}
+
+static int sm2_init_tfm(struct crypto_akcipher *tfm)
+{
+       struct mpi_ec_ctx *ec = akcipher_tfm_ctx(tfm);
+
+       return sm2_ec_ctx_init(ec);
+}
+
+static void sm2_exit_tfm(struct crypto_akcipher *tfm)
+{
+       struct mpi_ec_ctx *ec = akcipher_tfm_ctx(tfm);
+
+       sm2_ec_ctx_deinit(ec);
+}
+
+static struct akcipher_alg sm2 = {
+       .verify = sm2_verify,
+       .set_pub_key = sm2_set_pub_key,
+       .max_size = sm2_max_size,
+       .init = sm2_init_tfm,
+       .exit = sm2_exit_tfm,
+       .base = {
+               .cra_name = "sm2",
+               .cra_driver_name = "sm2-generic",
+               .cra_priority = 100,
+               .cra_module = THIS_MODULE,
+               .cra_ctxsize = sizeof(struct mpi_ec_ctx),
+       },
+};
+
+static int sm2_init(void)
+{
+       return crypto_register_akcipher(&sm2);
+}
+
+static void sm2_exit(void)
+{
+       crypto_unregister_akcipher(&sm2);
+}
+
+subsys_initcall(sm2_init);
+module_exit(sm2_exit);
+
+MODULE_LICENSE("GPL");
+MODULE_AUTHOR("Tianjia Zhang <tianjia.zhang@linux.alibaba.com>");
+MODULE_DESCRIPTION("SM2 generic algorithm");
+MODULE_ALIAS_CRYPTO("sm2-generic");
diff --git a/crypto/sm2signature.asn1 b/crypto/sm2signature.asn1
new file mode 100644 (file)
index 0000000..ab8c0b7
--- /dev/null
@@ -0,0 +1,4 @@
+Sm2Signature ::= SEQUENCE {
+       sig_r   INTEGER ({ sm2_get_signature_r }),
+       sig_s   INTEGER ({ sm2_get_signature_s })
+}
index 3468975..193c458 100644 (file)
@@ -149,17 +149,18 @@ int crypto_sm3_update(struct shash_desc *desc, const u8 *data,
 }
 EXPORT_SYMBOL(crypto_sm3_update);
 
-static int sm3_final(struct shash_desc *desc, u8 *out)
+int crypto_sm3_final(struct shash_desc *desc, u8 *out)
 {
        sm3_base_do_finalize(desc, sm3_generic_block_fn);
        return sm3_base_finish(desc, out);
 }
+EXPORT_SYMBOL(crypto_sm3_final);
 
 int crypto_sm3_finup(struct shash_desc *desc, const u8 *data,
                        unsigned int len, u8 *hash)
 {
        sm3_base_do_update(desc, data, len, sm3_generic_block_fn);
-       return sm3_final(desc, hash);
+       return crypto_sm3_final(desc, hash);
 }
 EXPORT_SYMBOL(crypto_sm3_finup);
 
@@ -167,7 +168,7 @@ static struct shash_alg sm3_alg = {
        .digestsize     =       SM3_DIGEST_SIZE,
        .init           =       sm3_base_init,
        .update         =       crypto_sm3_update,
-       .final          =       sm3_final,
+       .final          =       crypto_sm3_final,
        .finup          =       crypto_sm3_finup,
        .descsize       =       sizeof(struct sm3_state),
        .base           =       {
index 12e82a6..eea0f45 100644 (file)
@@ -63,6 +63,7 @@ static u32 type;
 static u32 mask;
 static int mode;
 static u32 num_mb = 8;
+static unsigned int klen;
 static char *tvmem[TVMEMSIZE];
 
 static const char *check[] = {
@@ -398,7 +399,7 @@ static void test_mb_aead_speed(const char *algo, int enc, int secs,
                                        ret = do_one_aead_op(cur->req, ret);
 
                                        if (ret) {
-                                               pr_err("calculating auth failed failed (%d)\n",
+                                               pr_err("calculating auth failed (%d)\n",
                                                       ret);
                                                break;
                                        }
@@ -648,7 +649,7 @@ static void test_aead_speed(const char *algo, int enc, unsigned int secs,
                                                     crypto_aead_encrypt(req));
 
                                if (ret) {
-                                       pr_err("calculating auth failed failed (%d)\n",
+                                       pr_err("calculating auth failed (%d)\n",
                                               ret);
                                        break;
                                }
@@ -864,8 +865,8 @@ static void test_mb_ahash_speed(const char *algo, unsigned int secs,
                        goto out;
                }
 
-               if (speed[i].klen)
-                       crypto_ahash_setkey(tfm, tvmem[0], speed[i].klen);
+               if (klen)
+                       crypto_ahash_setkey(tfm, tvmem[0], klen);
 
                for (k = 0; k < num_mb; k++)
                        ahash_request_set_crypt(data[k].req, data[k].sg,
@@ -1099,8 +1100,8 @@ static void test_ahash_speed_common(const char *algo, unsigned int secs,
                        break;
                }
 
-               if (speed[i].klen)
-                       crypto_ahash_setkey(tfm, tvmem[0], speed[i].klen);
+               if (klen)
+                       crypto_ahash_setkey(tfm, tvmem[0], klen);
 
                pr_info("test%3u "
                        "(%5u byte blocks,%5u bytes per update,%4u updates): ",
@@ -2418,7 +2419,8 @@ static int do_test(const char *alg, u32 type, u32 mask, int m, u32 num_mb)
                if (mode > 300 && mode < 400) break;
                fallthrough;
        case 318:
-               test_hash_speed("ghash-generic", sec, hash_speed_template_16);
+               klen = 16;
+               test_hash_speed("ghash", sec, generic_hash_speed_template);
                if (mode > 300 && mode < 400) break;
                fallthrough;
        case 319:
@@ -3076,6 +3078,8 @@ MODULE_PARM_DESC(sec, "Length in seconds of speed tests "
                      "(defaults to zero which uses CPU cycles instead)");
 module_param(num_mb, uint, 0000);
 MODULE_PARM_DESC(num_mb, "Number of concurrent requests to be used in mb speed tests (defaults to 8)");
+module_param(klen, uint, 0);
+MODULE_PARM_DESC(klen, "Key length (defaults to 0)");
 
 MODULE_LICENSE("GPL");
 MODULE_DESCRIPTION("Quick & dirty crypto testing module");
index 7e5fea8..9f65467 100644 (file)
@@ -25,7 +25,6 @@ struct aead_speed_template {
 struct hash_speed {
        unsigned int blen;      /* buffer length */
        unsigned int plen;      /* per-update length */
-       unsigned int klen;      /* key length */
 };
 
 /*
@@ -97,34 +96,6 @@ static struct hash_speed generic_hash_speed_template[] = {
        {  .blen = 0,   .plen = 0, }
 };
 
-static struct hash_speed hash_speed_template_16[] = {
-       { .blen = 16,   .plen = 16,     .klen = 16, },
-       { .blen = 64,   .plen = 16,     .klen = 16, },
-       { .blen = 64,   .plen = 64,     .klen = 16, },
-       { .blen = 256,  .plen = 16,     .klen = 16, },
-       { .blen = 256,  .plen = 64,     .klen = 16, },
-       { .blen = 256,  .plen = 256,    .klen = 16, },
-       { .blen = 1024, .plen = 16,     .klen = 16, },
-       { .blen = 1024, .plen = 256,    .klen = 16, },
-       { .blen = 1024, .plen = 1024,   .klen = 16, },
-       { .blen = 2048, .plen = 16,     .klen = 16, },
-       { .blen = 2048, .plen = 256,    .klen = 16, },
-       { .blen = 2048, .plen = 1024,   .klen = 16, },
-       { .blen = 2048, .plen = 2048,   .klen = 16, },
-       { .blen = 4096, .plen = 16,     .klen = 16, },
-       { .blen = 4096, .plen = 256,    .klen = 16, },
-       { .blen = 4096, .plen = 1024,   .klen = 16, },
-       { .blen = 4096, .plen = 4096,   .klen = 16, },
-       { .blen = 8192, .plen = 16,     .klen = 16, },
-       { .blen = 8192, .plen = 256,    .klen = 16, },
-       { .blen = 8192, .plen = 1024,   .klen = 16, },
-       { .blen = 8192, .plen = 4096,   .klen = 16, },
-       { .blen = 8192, .plen = 8192,   .klen = 16, },
-
-       /* End marker */
-       {  .blen = 0,   .plen = 0,      .klen = 0, }
-};
-
 static struct hash_speed poly1305_speed_template[] = {
        { .blen = 96,   .plen = 16, },
        { .blen = 96,   .plen = 32, },
index 23c27fc..a64a639 100644 (file)
@@ -27,6 +27,7 @@
 #include <linux/scatterlist.h>
 #include <linux/slab.h>
 #include <linux/string.h>
+#include <linux/uio.h>
 #include <crypto/rng.h>
 #include <crypto/drbg.h>
 #include <crypto/akcipher.h>
@@ -3954,7 +3955,7 @@ static int test_akcipher_one(struct crypto_akcipher *tfm,
        key = kmalloc(vecs->key_len + sizeof(u32) * 2 + vecs->param_len,
                      GFP_KERNEL);
        if (!key)
-               goto free_xbuf;
+               goto free_req;
        memcpy(key, vecs->key, vecs->key_len);
        ptr = key + vecs->key_len;
        ptr = test_pack_u32(ptr, vecs->algo);
@@ -3966,7 +3967,7 @@ static int test_akcipher_one(struct crypto_akcipher *tfm,
        else
                err = crypto_akcipher_set_priv_key(tfm, key, vecs->key_len);
        if (err)
-               goto free_req;
+               goto free_key;
 
        /*
         * First run test which do not require a private key, such as
@@ -3976,7 +3977,7 @@ static int test_akcipher_one(struct crypto_akcipher *tfm,
        out_len_max = crypto_akcipher_maxsize(tfm);
        outbuf_enc = kzalloc(out_len_max, GFP_KERNEL);
        if (!outbuf_enc)
-               goto free_req;
+               goto free_key;
 
        if (!vecs->siggen_sigver_test) {
                m = vecs->m;
@@ -3995,6 +3996,7 @@ static int test_akcipher_one(struct crypto_akcipher *tfm,
                op = "verify";
        }
 
+       err = -E2BIG;
        if (WARN_ON(m_size > PAGE_SIZE))
                goto free_all;
        memcpy(xbuf[0], m, m_size);
@@ -4025,7 +4027,7 @@ static int test_akcipher_one(struct crypto_akcipher *tfm,
                pr_err("alg: akcipher: %s test failed. err %d\n", op, err);
                goto free_all;
        }
-       if (!vecs->siggen_sigver_test) {
+       if (!vecs->siggen_sigver_test && c) {
                if (req->dst_len != c_size) {
                        pr_err("alg: akcipher: %s test failed. Invalid output len\n",
                               op);
@@ -4056,6 +4058,12 @@ static int test_akcipher_one(struct crypto_akcipher *tfm,
                goto free_all;
        }
 
+       if (!vecs->siggen_sigver_test && !c) {
+               c = outbuf_enc;
+               c_size = req->dst_len;
+       }
+
+       err = -E2BIG;
        op = vecs->siggen_sigver_test ? "sign" : "decrypt";
        if (WARN_ON(c_size > PAGE_SIZE))
                goto free_all;
@@ -4092,9 +4100,10 @@ static int test_akcipher_one(struct crypto_akcipher *tfm,
 free_all:
        kfree(outbuf_dec);
        kfree(outbuf_enc);
+free_key:
+       kfree(key);
 free_req:
        akcipher_request_free(req);
-       kfree(key);
 free_xbuf:
        testmgr_free_buf(xbuf);
        return err;
@@ -5377,6 +5386,12 @@ static const struct alg_test_desc alg_test_descs[] = {
                        .hash = __VECS(sha512_tv_template)
                }
        }, {
+               .alg = "sm2",
+               .test = alg_test_akcipher,
+               .suite = {
+                       .akcipher = __VECS(sm2_tv_template)
+               }
+       }, {
                .alg = "sm3",
                .test = alg_test_hash,
                .suite = {
index b9a2d73..8c83811 100644 (file)
@@ -3792,6 +3792,65 @@ static const struct hash_testvec hmac_streebog512_tv_template[] = {
        },
 };
 
+/*
+ * SM2 test vectors.
+ */
+static const struct akcipher_testvec sm2_tv_template[] = {
+       { /* Generated from openssl */
+       .key =
+       "\x04"
+       "\x8e\xa0\x33\x69\x91\x7e\x3d\xec\xad\x8e\xf0\x45\x5e\x13\x3e\x68"
+       "\x5b\x8c\xab\x5c\xc6\xc8\x50\xdf\x91\x00\xe0\x24\x73\x4d\x31\xf2"
+       "\x2e\xc0\xd5\x6b\xee\xda\x98\x93\xec\xd8\x36\xaa\xb9\xcf\x63\x82"
+       "\xef\xa7\x1a\x03\xed\x16\xba\x74\xb8\x8b\xf9\xe5\x70\x39\xa4\x70",
+       .key_len = 65,
+       .param_len = 0,
+       .c =
+       "\x30\x45"
+       "\x02\x20"
+       "\x70\xab\xb6\x7d\xd6\x54\x80\x64\x42\x7e\x2d\x05\x08\x36\xc9\x96"
+       "\x25\xc2\xbb\xff\x08\xe5\x43\x15\x5e\xf3\x06\xd9\x2b\x2f\x0a\x9f"
+       "\x02\x21"
+       "\x00"
+       "\xbf\x21\x5f\x7e\x5d\x3f\x1a\x4d\x8f\x84\xc2\xe9\xa6\x4c\xa4\x18"
+       "\xb2\xb8\x46\xf4\x32\x96\xfa\x57\xc6\x29\xd4\x89\xae\xcc\xda\xdb",
+       .c_size = 71,
+       .algo = OID_SM2_with_SM3,
+       .m =
+       "\x47\xa7\xbf\xd3\xda\xc4\x79\xee\xda\x8b\x4f\xe8\x40\x94\xd4\x32"
+       "\x8f\xf1\xcd\x68\x4d\xbd\x9b\x1d\xe0\xd8\x9a\x5d\xad\x85\x47\x5c",
+       .m_size = 32,
+       .public_key_vec = true,
+       .siggen_sigver_test = true,
+       },
+       { /* From libgcrypt */
+       .key =
+       "\x04"
+       "\x87\x59\x38\x9a\x34\xaa\xad\x07\xec\xf4\xe0\xc8\xc2\x65\x0a\x44"
+       "\x59\xc8\xd9\x26\xee\x23\x78\x32\x4e\x02\x61\xc5\x25\x38\xcb\x47"
+       "\x75\x28\x10\x6b\x1e\x0b\x7c\x8d\xd5\xff\x29\xa9\xc8\x6a\x89\x06"
+       "\x56\x56\xeb\x33\x15\x4b\xc0\x55\x60\x91\xef\x8a\xc9\xd1\x7d\x78",
+       .key_len = 65,
+       .param_len = 0,
+       .c =
+       "\x30\x44"
+       "\x02\x20"
+       "\xd9\xec\xef\xe8\x5f\xee\x3c\x59\x57\x8e\x5b\xab\xb3\x02\xe1\x42"
+       "\x4b\x67\x2c\x0b\x26\xb6\x51\x2c\x3e\xfc\xc6\x49\xec\xfe\x89\xe5"
+       "\x02\x20"
+       "\x43\x45\xd0\xa5\xff\xe5\x13\x27\x26\xd0\xec\x37\xad\x24\x1e\x9a"
+       "\x71\x9a\xa4\x89\xb0\x7e\x0f\xc4\xbb\x2d\x50\xd0\xe5\x7f\x7a\x68",
+       .c_size = 70,
+       .algo = OID_SM2_with_SM3,
+       .m =
+       "\x11\x22\x33\x44\x55\x66\x77\x88\x99\xaa\xbb\xcc\xdd\xee\xff\x00"
+       "\x12\x34\x56\x78\x9a\xbc\xde\xf0\x12\x34\x56\x78\x9a\xbc\xde\xf0",
+       .m_size = 32,
+       .public_key_vec = true,
+       .siggen_sigver_test = true,
+       },
+};
+
 /* Example vectors below taken from
  * http://www.oscca.gov.cn/UpFile/20101222141857786.pdf
  *
index ea7349e..eacbf4f 100644 (file)
@@ -54,49 +54,63 @@ EXPORT_SYMBOL(xor_blocks);
 /* Set of all registered templates.  */
 static struct xor_block_template *__initdata template_list;
 
-#define BENCH_SIZE (PAGE_SIZE)
+#ifndef MODULE
+static void __init do_xor_register(struct xor_block_template *tmpl)
+{
+       tmpl->next = template_list;
+       template_list = tmpl;
+}
+
+static int __init register_xor_blocks(void)
+{
+       active_template = XOR_SELECT_TEMPLATE(NULL);
+
+       if (!active_template) {
+#define xor_speed      do_xor_register
+               // register all the templates and pick the first as the default
+               XOR_TRY_TEMPLATES;
+#undef xor_speed
+               active_template = template_list;
+       }
+       return 0;
+}
+#endif
+
+#define BENCH_SIZE     4096
+#define REPS           800U
 
 static void __init
 do_xor_speed(struct xor_block_template *tmpl, void *b1, void *b2)
 {
        int speed;
-       unsigned long now, j;
-       int i, count, max;
+       int i, j;
+       ktime_t min, start, diff;
 
        tmpl->next = template_list;
        template_list = tmpl;
 
        preempt_disable();
 
-       /*
-        * Count the number of XORs done during a whole jiffy, and use
-        * this to calculate the speed of checksumming.  We use a 2-page
-        * allocation to have guaranteed color L1-cache layout.
-        */
-       max = 0;
-       for (i = 0; i < 5; i++) {
-               j = jiffies;
-               count = 0;
-               while ((now = jiffies) == j)
-                       cpu_relax();
-               while (time_before(jiffies, now + 1)) {
+       min = (ktime_t)S64_MAX;
+       for (i = 0; i < 3; i++) {
+               start = ktime_get();
+               for (j = 0; j < REPS; j++) {
                        mb(); /* prevent loop optimzation */
                        tmpl->do_2(BENCH_SIZE, b1, b2);
                        mb();
-                       count++;
-                       mb();
                }
-               if (count > max)
-                       max = count;
+               diff = ktime_sub(ktime_get(), start);
+               if (diff < min)
+                       min = diff;
        }
 
        preempt_enable();
 
-       speed = max * (HZ * BENCH_SIZE / 1024);
+       // bytes/ns == GB/s, multiply by 1000 to get MB/s [not MiB/s]
+       speed = (1000 * REPS * BENCH_SIZE) / (unsigned int)ktime_to_ns(min);
        tmpl->speed = speed;
 
-       printk(KERN_INFO "   %-10s: %5d.%03d MB/sec\n", tmpl->name,
-              speed / 1000, speed % 1000);
+       pr_info("   %-16s: %5d MB/sec\n", tmpl->name, speed);
 }
 
 static int __init
@@ -129,14 +143,15 @@ calibrate_xor_blocks(void)
 #define xor_speed(templ)       do_xor_speed((templ), b1, b2)
 
        printk(KERN_INFO "xor: measuring software checksum speed\n");
+       template_list = NULL;
        XOR_TRY_TEMPLATES;
        fastest = template_list;
        for (f = fastest; f; f = f->next)
                if (f->speed > fastest->speed)
                        fastest = f;
 
-       printk(KERN_INFO "xor: using function: %s (%d.%03d MB/sec)\n",
-              fastest->name, fastest->speed / 1000, fastest->speed % 1000);
+       pr_info("xor: using function: %s (%d MB/sec)\n",
+              fastest->name, fastest->speed);
 
 #undef xor_speed
 
@@ -150,6 +165,10 @@ static __exit void xor_exit(void) { }
 
 MODULE_LICENSE("GPL");
 
+#ifndef MODULE
 /* when built-in xor.o must initialize before drivers/md/md.o */
-core_initcall(calibrate_xor_blocks);
+core_initcall(register_xor_blocks);
+#endif
+
+module_init(calibrate_xor_blocks);
 module_exit(xor_exit);
index ec782e4..e670785 100644 (file)
@@ -811,8 +811,7 @@ static inline const struct iommu_ops *iort_fwspec_iommu_ops(struct device *dev)
        return (fwspec && fwspec->ops) ? fwspec->ops : NULL;
 }
 
-static inline int iort_add_device_replay(const struct iommu_ops *ops,
-                                        struct device *dev)
+static inline int iort_add_device_replay(struct device *dev)
 {
        int err = 0;
 
@@ -1072,7 +1071,7 @@ const struct iommu_ops *iort_iommu_configure_id(struct device *dev,
         */
        if (!err) {
                ops = iort_fwspec_iommu_ops(dev);
-               err = iort_add_device_replay(ops, dev);
+               err = iort_add_device_replay(dev);
        }
 
        /* Ignore all other errors apart from EPROBE_DEFER */
@@ -1087,11 +1086,6 @@ const struct iommu_ops *iort_iommu_configure_id(struct device *dev,
 }
 
 #else
-static inline const struct iommu_ops *iort_fwspec_iommu_ops(struct device *dev)
-{ return NULL; }
-static inline int iort_add_device_replay(const struct iommu_ops *ops,
-                                        struct device *dev)
-{ return 0; }
 int iort_iommu_msi_get_resv_regions(struct device *dev, struct list_head *head)
 { return 0; }
 const struct iommu_ops *iort_iommu_configure_id(struct device *dev,
index 04b6bde..573dbf6 100644 (file)
@@ -1553,7 +1553,7 @@ static int _drbd_send_page(struct drbd_peer_device *peer_device, struct page *pa
         * put_page(); and would cause either a VM_BUG directly, or
         * __page_cache_release a page that would actually still be referenced
         * by someone, leading to some obscure delayed Oops somewhere else. */
-       if (drbd_disable_sendpage || (page_count(page) < 1) || PageSlab(page))
+       if (drbd_disable_sendpage || !sendpage_ok(page))
                return _drbd_no_send_page(peer_device, page, offset, size, msg_flags);
 
        msg_flags |= MSG_NOSIGNAL;
index f976a49..e92c4d9 100644 (file)
@@ -282,6 +282,20 @@ config HW_RANDOM_INGENIC_RNG
 
          If unsure, say Y.
 
+config HW_RANDOM_INGENIC_TRNG
+       tristate "Ingenic True Random Number Generator support"
+       depends on HW_RANDOM
+       depends on MACH_X1830
+       default HW_RANDOM
+       help
+         This driver provides kernel-side support for the True Random Number Generator
+         hardware found in ingenic X1830 SoC. YSH & ATIL CU1830-Neo uses X1830 SoC.
+
+         To compile this driver as a module, choose M here: the
+         module will be called ingenic-trng.
+
+         If unsure, say Y.
+
 config HW_RANDOM_NOMADIK
        tristate "ST-Ericsson Nomadik Random Number Generator support"
        depends on ARCH_NOMADIK
@@ -512,6 +526,16 @@ config HW_RANDOM_CCTRNG
          will be called cctrng.
          If unsure, say 'N'.
 
+config HW_RANDOM_XIPHERA
+       tristate "Xiphera FPGA based True Random Number Generator support"
+       depends on HAS_IOMEM
+       help
+         This driver provides kernel-side support for Xiphera True Random
+         Number Generator Intellectual Property Core.
+
+         To compile this driver as a module, choose M here: the
+         module will be called xiphera-trng.
+
 endif # HW_RANDOM
 
 config UML_RANDOM
index 26ae068..5da3445 100644 (file)
@@ -24,6 +24,7 @@ obj-$(CONFIG_HW_RANDOM_TX4939) += tx4939-rng.o
 obj-$(CONFIG_HW_RANDOM_MXC_RNGA) += mxc-rnga.o
 obj-$(CONFIG_HW_RANDOM_IMX_RNGC) += imx-rngc.o
 obj-$(CONFIG_HW_RANDOM_INGENIC_RNG) += ingenic-rng.o
+obj-$(CONFIG_HW_RANDOM_INGENIC_TRNG) += ingenic-trng.o
 obj-$(CONFIG_HW_RANDOM_OCTEON) += octeon-rng.o
 obj-$(CONFIG_HW_RANDOM_NOMADIK) += nomadik-rng.o
 obj-$(CONFIG_HW_RANDOM_PSERIES) += pseries-rng.o
@@ -44,3 +45,4 @@ obj-$(CONFIG_HW_RANDOM_KEYSTONE) += ks-sa-rng.o
 obj-$(CONFIG_HW_RANDOM_OPTEE) += optee-rng.o
 obj-$(CONFIG_HW_RANDOM_NPCM) += npcm-rng.o
 obj-$(CONFIG_HW_RANDOM_CCTRNG) += cctrng.o
+obj-$(CONFIG_HW_RANDOM_XIPHERA) += xiphera-trng.o
index 619148f..7a293f2 100644 (file)
@@ -463,11 +463,10 @@ static int cc_trng_clk_init(struct cctrng_drvdata *drvdata)
        int rc = 0;
 
        clk = devm_clk_get_optional(dev, NULL);
-       if (IS_ERR(clk)) {
-               if (PTR_ERR(clk) != -EPROBE_DEFER)
-                       dev_err(dev, "Error getting clock: %pe\n", clk);
-               return PTR_ERR(clk);
-       }
+       if (IS_ERR(clk))
+               return dev_err_probe(dev, PTR_ERR(clk),
+                                    "Error getting clock\n");
+
        drvdata->clk = clk;
 
        rc = clk_prepare_enable(drvdata->clk);
index 9c47e43..61c844b 100644 (file)
@@ -285,6 +285,7 @@ static int imx_rngc_probe(struct platform_device *pdev)
        rngc->rng.init = imx_rngc_init;
        rngc->rng.read = imx_rngc_read;
        rngc->rng.cleanup = imx_rngc_cleanup;
+       rngc->rng.quality = 19;
 
        rngc->dev = &pdev->dev;
        platform_set_drvdata(pdev, rngc);
diff --git a/drivers/char/hw_random/ingenic-trng.c b/drivers/char/hw_random/ingenic-trng.c
new file mode 100644 (file)
index 0000000..954a841
--- /dev/null
@@ -0,0 +1,161 @@
+// SPDX-License-Identifier: GPL-2.0
+/*
+ * Ingenic True Random Number Generator driver
+ * Copyright (c) 2019 漆鹏振 (Qi Pengzhen) <aric.pzqi@ingenic.com>
+ * Copyright (c) 2020 周琰杰 (Zhou Yanjie) <zhouyanjie@wanyeetech.com>
+ */
+
+#include <linux/clk.h>
+#include <linux/err.h>
+#include <linux/kernel.h>
+#include <linux/hw_random.h>
+#include <linux/io.h>
+#include <linux/iopoll.h>
+#include <linux/module.h>
+#include <linux/of_device.h>
+#include <linux/platform_device.h>
+#include <linux/slab.h>
+
+/* DTRNG register offsets */
+#define TRNG_REG_CFG_OFFSET                    0x00
+#define TRNG_REG_RANDOMNUM_OFFSET      0x04
+#define TRNG_REG_STATUS_OFFSET         0x08
+
+/* bits within the CFG register */
+#define CFG_RDY_CLR                                    BIT(12)
+#define CFG_INT_MASK                           BIT(11)
+#define CFG_GEN_EN                                     BIT(0)
+
+/* bits within the STATUS register */
+#define STATUS_RANDOM_RDY                      BIT(0)
+
+struct ingenic_trng {
+       void __iomem *base;
+       struct clk *clk;
+       struct hwrng rng;
+};
+
+static int ingenic_trng_init(struct hwrng *rng)
+{
+       struct ingenic_trng *trng = container_of(rng, struct ingenic_trng, rng);
+       unsigned int ctrl;
+
+       ctrl = readl(trng->base + TRNG_REG_CFG_OFFSET);
+       ctrl |= CFG_GEN_EN;
+       writel(ctrl, trng->base + TRNG_REG_CFG_OFFSET);
+
+       return 0;
+}
+
+static void ingenic_trng_cleanup(struct hwrng *rng)
+{
+       struct ingenic_trng *trng = container_of(rng, struct ingenic_trng, rng);
+       unsigned int ctrl;
+
+       ctrl = readl(trng->base + TRNG_REG_CFG_OFFSET);
+       ctrl &= ~CFG_GEN_EN;
+       writel(ctrl, trng->base + TRNG_REG_CFG_OFFSET);
+}
+
+static int ingenic_trng_read(struct hwrng *rng, void *buf, size_t max, bool wait)
+{
+       struct ingenic_trng *trng = container_of(rng, struct ingenic_trng, rng);
+       u32 *data = buf;
+       u32 status;
+       int ret;
+
+       ret = readl_poll_timeout(trng->base + TRNG_REG_STATUS_OFFSET, status,
+                                status & STATUS_RANDOM_RDY, 10, 1000);
+       if (ret == -ETIMEDOUT) {
+               pr_err("%s: Wait for DTRNG data ready timeout\n", __func__);
+               return ret;
+       }
+
+       *data = readl(trng->base + TRNG_REG_RANDOMNUM_OFFSET);
+
+       return 4;
+}
+
+static int ingenic_trng_probe(struct platform_device *pdev)
+{
+       struct ingenic_trng *trng;
+       int ret;
+
+       trng = devm_kzalloc(&pdev->dev, sizeof(*trng), GFP_KERNEL);
+       if (!trng)
+               return -ENOMEM;
+
+       trng->base = devm_platform_ioremap_resource(pdev, 0);
+       if (IS_ERR(trng->base)) {
+               pr_err("%s: Failed to map DTRNG registers\n", __func__);
+               ret = PTR_ERR(trng->base);
+               return PTR_ERR(trng->base);
+       }
+
+       trng->clk = devm_clk_get(&pdev->dev, NULL);
+       if (IS_ERR(trng->clk)) {
+               ret = PTR_ERR(trng->clk);
+               pr_crit("%s: Cannot get DTRNG clock\n", __func__);
+               return PTR_ERR(trng->clk);
+       }
+
+       ret = clk_prepare_enable(trng->clk);
+       if (ret) {
+               pr_crit("%s: Unable to enable DTRNG clock\n", __func__);
+               return ret;
+       }
+
+       trng->rng.name = pdev->name;
+       trng->rng.init = ingenic_trng_init;
+       trng->rng.cleanup = ingenic_trng_cleanup;
+       trng->rng.read = ingenic_trng_read;
+
+       ret = hwrng_register(&trng->rng);
+       if (ret) {
+               dev_err(&pdev->dev, "Failed to register hwrng\n");
+               return ret;
+       }
+
+       platform_set_drvdata(pdev, trng);
+
+       dev_info(&pdev->dev, "Ingenic DTRNG driver registered\n");
+       return 0;
+}
+
+static int ingenic_trng_remove(struct platform_device *pdev)
+{
+       struct ingenic_trng *trng = platform_get_drvdata(pdev);
+       unsigned int ctrl;
+
+       hwrng_unregister(&trng->rng);
+
+       ctrl = readl(trng->base + TRNG_REG_CFG_OFFSET);
+       ctrl &= ~CFG_GEN_EN;
+       writel(ctrl, trng->base + TRNG_REG_CFG_OFFSET);
+
+       clk_disable_unprepare(trng->clk);
+
+       return 0;
+}
+
+static const struct of_device_id ingenic_trng_of_match[] = {
+       { .compatible = "ingenic,x1830-dtrng" },
+       { /* sentinel */ }
+};
+MODULE_DEVICE_TABLE(of, ingenic_trng_of_match);
+
+static struct platform_driver ingenic_trng_driver = {
+       .probe          = ingenic_trng_probe,
+       .remove         = ingenic_trng_remove,
+       .driver         = {
+               .name   = "ingenic-trng",
+               .of_match_table = ingenic_trng_of_match,
+       },
+};
+
+module_platform_driver(ingenic_trng_driver);
+
+MODULE_LICENSE("GPL");
+MODULE_AUTHOR("漆鹏振 (Qi Pengzhen) <aric.pzqi@ingenic.com>");
+MODULE_AUTHOR("周琰杰 (Zhou Yanjie) <zhouyanjie@wanyeetech.com>");
+MODULE_DESCRIPTION("Ingenic True Random Number Generator driver");
index 9f205bd..eb7db27 100644 (file)
@@ -330,7 +330,7 @@ static int __init mod_init(void)
        int err = -ENODEV;
        int i;
        struct pci_dev *dev = NULL;
-       void __iomem *mem = mem;
+       void __iomem *mem;
        u8 hw_status;
        struct intel_rng_hw *intel_rng_hw;
 
index 32d9fe6..01583fa 100644 (file)
@@ -195,10 +195,10 @@ static int iproc_rng200_probe(struct platform_device *pdev)
                return PTR_ERR(priv->base);
        }
 
-       priv->rng.name = "iproc-rng200",
-       priv->rng.read = iproc_rng200_read,
-       priv->rng.init = iproc_rng200_init,
-       priv->rng.cleanup = iproc_rng200_cleanup,
+       priv->rng.name = "iproc-rng200";
+       priv->rng.read = iproc_rng200_read;
+       priv->rng.init = iproc_rng200_init;
+       priv->rng.cleanup = iproc_rng200_cleanup;
 
        /* Register driver */
        ret = devm_hwrng_register(dev, &priv->rng);
index 025083c..008763c 100644 (file)
@@ -143,9 +143,9 @@ static int __init mxc_rnga_probe(struct platform_device *pdev)
        mxc_rng->dev = &pdev->dev;
        mxc_rng->rng.name = "mxc-rnga";
        mxc_rng->rng.init = mxc_rnga_init;
-       mxc_rng->rng.cleanup = mxc_rnga_cleanup,
-       mxc_rng->rng.data_present = mxc_rnga_data_present,
-       mxc_rng->rng.data_read = mxc_rnga_data_read,
+       mxc_rng->rng.cleanup = mxc_rnga_cleanup;
+       mxc_rng->rng.data_present = mxc_rnga_data_present;
+       mxc_rng->rng.data_read = mxc_rnga_data_read;
 
        mxc_rng->clk = devm_clk_get(&pdev->dev, NULL);
        if (IS_ERR(mxc_rng->clk)) {
index 5d0d13f..1ec5f26 100644 (file)
@@ -58,24 +58,24 @@ static int npcm_rng_read(struct hwrng *rng, void *buf, size_t max, bool wait)
 
        pm_runtime_get_sync((struct device *)priv->rng.priv);
 
-       while (max >= sizeof(u32)) {
+       while (max) {
                if (wait) {
-                       if (readl_poll_timeout(priv->base + NPCM_RNGCS_REG,
+                       if (readb_poll_timeout(priv->base + NPCM_RNGCS_REG,
                                               ready,
                                               ready & NPCM_RNG_DATA_VALID,
                                               NPCM_RNG_POLL_USEC,
                                               NPCM_RNG_TIMEOUT_USEC))
                                break;
                } else {
-                       if ((readl(priv->base + NPCM_RNGCS_REG) &
+                       if ((readb(priv->base + NPCM_RNGCS_REG) &
                            NPCM_RNG_DATA_VALID) == 0)
                                break;
                }
 
-               *(u32 *)buf = readl(priv->base + NPCM_RNGD_REG);
-               retval += sizeof(u32);
-               buf += sizeof(u32);
-               max -= sizeof(u32);
+               *(u8 *)buf = readb(priv->base + NPCM_RNGD_REG);
+               retval++;
+               buf++;
+               max--;
        }
 
        pm_runtime_mark_last_busy((struct device *)priv->rng.priv);
index 49b2e02..a99d829 100644 (file)
@@ -122,14 +122,14 @@ static int optee_rng_read(struct hwrng *rng, void *buf, size_t max, bool wait)
        if (max > MAX_ENTROPY_REQ_SZ)
                max = MAX_ENTROPY_REQ_SZ;
 
-       while (read == 0) {
+       while (read < max) {
                rng_size = get_optee_rng_data(pvt_data, data, (max - read));
 
                data += rng_size;
                read += rng_size;
 
-               if (wait) {
-                       if (timeout-- == 0)
+               if (wait && pvt_data->data_rate) {
+                       if ((timeout-- == 0) || (read == max))
                                return read;
                        msleep((1000 * (max - read)) / pvt_data->data_rate);
                } else {
index 38324c2..bc22178 100644 (file)
@@ -145,12 +145,12 @@ static int stm32_rng_probe(struct platform_device *ofdev)
 
        dev_set_drvdata(dev, priv);
 
-       priv->rng.name = dev_driver_string(dev),
+       priv->rng.name = dev_driver_string(dev);
 #ifndef CONFIG_PM
-       priv->rng.init = stm32_rng_init,
-       priv->rng.cleanup = stm32_rng_cleanup,
+       priv->rng.init = stm32_rng_init;
+       priv->rng.cleanup = stm32_rng_cleanup;
 #endif
-       priv->rng.read = stm32_rng_read,
+       priv->rng.read = stm32_rng_read;
        priv->rng.priv = (unsigned long) dev;
        priv->rng.quality = 900;
 
diff --git a/drivers/char/hw_random/xiphera-trng.c b/drivers/char/hw_random/xiphera-trng.c
new file mode 100644 (file)
index 0000000..7bdab8c
--- /dev/null
@@ -0,0 +1,150 @@
+// SPDX-License-Identifier: GPL-2.0
+/* Copyright (C) 2020 Xiphera Ltd. */
+
+#include <linux/kernel.h>
+#include <linux/module.h>
+#include <linux/mod_devicetable.h>
+#include <linux/err.h>
+#include <linux/io.h>
+#include <linux/hw_random.h>
+#include <linux/of_device.h>
+#include <linux/platform_device.h>
+#include <linux/delay.h>
+
+#define CONTROL_REG                    0x00000000
+#define STATUS_REG                     0x00000004
+#define RAND_REG                       0x00000000
+
+#define HOST_TO_TRNG_RESET             0x00000001
+#define HOST_TO_TRNG_RELEASE_RESET     0x00000002
+#define HOST_TO_TRNG_ENABLE            0x80000000
+#define HOST_TO_TRNG_ZEROIZE           0x80000004
+#define HOST_TO_TRNG_ACK_ZEROIZE       0x80000008
+#define HOST_TO_TRNG_READ              0x8000000F
+
+/* trng statuses */
+#define TRNG_ACK_RESET                 0x000000AC
+#define TRNG_SUCCESSFUL_STARTUP                0x00000057
+#define TRNG_FAILED_STARTUP            0x000000FA
+#define TRNG_NEW_RAND_AVAILABLE                0x000000ED
+
+struct xiphera_trng {
+       void __iomem *mem;
+       struct hwrng rng;
+};
+
+static int xiphera_trng_read(struct hwrng *rng, void *buf, size_t max, bool wait)
+{
+       struct xiphera_trng *trng = container_of(rng, struct xiphera_trng, rng);
+       int ret = 0;
+
+       while (max >= sizeof(u32)) {
+               /* check for data */
+               if (readl(trng->mem + STATUS_REG) == TRNG_NEW_RAND_AVAILABLE) {
+                       *(u32 *)buf = readl(trng->mem + RAND_REG);
+                       /*
+                        * Inform the trng of the read
+                        * and re-enable it to produce a new random number
+                        */
+                       writel(HOST_TO_TRNG_READ, trng->mem + CONTROL_REG);
+                       writel(HOST_TO_TRNG_ENABLE, trng->mem + CONTROL_REG);
+                       ret += sizeof(u32);
+                       buf += sizeof(u32);
+                       max -= sizeof(u32);
+               } else {
+                       break;
+               }
+       }
+       return ret;
+}
+
+static int xiphera_trng_probe(struct platform_device *pdev)
+{
+       int ret;
+       struct xiphera_trng *trng;
+       struct device *dev = &pdev->dev;
+       struct resource *res;
+
+       trng = devm_kzalloc(dev, sizeof(*trng), GFP_KERNEL);
+       if (!trng)
+               return -ENOMEM;
+
+       res = platform_get_resource(pdev, IORESOURCE_MEM, 0);
+       trng->mem = devm_ioremap_resource(dev, res);
+       if (IS_ERR(trng->mem))
+               return PTR_ERR(trng->mem);
+
+       /*
+        * the trng needs to be reset first which might not happen in time,
+        * hence we incorporate a small delay to ensure proper behaviour
+        */
+       writel(HOST_TO_TRNG_RESET, trng->mem + CONTROL_REG);
+       usleep_range(100, 200);
+
+       if (readl(trng->mem + STATUS_REG) != TRNG_ACK_RESET) {
+               /*
+                * there is a small chance the trng is just not ready yet,
+                * so we try one more time. If the second time fails, we give up
+                */
+               usleep_range(100, 200);
+               if (readl(trng->mem + STATUS_REG) != TRNG_ACK_RESET) {
+                       dev_err(dev, "failed to reset the trng ip\n");
+                       return -ENODEV;
+               }
+       }
+
+       /*
+        * once again, to ensure proper behaviour we sleep
+        * for a while after zeroizing the trng
+        */
+       writel(HOST_TO_TRNG_RELEASE_RESET, trng->mem + CONTROL_REG);
+       writel(HOST_TO_TRNG_ENABLE, trng->mem + CONTROL_REG);
+       writel(HOST_TO_TRNG_ZEROIZE, trng->mem + CONTROL_REG);
+       msleep(20);
+
+       if (readl(trng->mem + STATUS_REG) != TRNG_SUCCESSFUL_STARTUP) {
+               /* diagnose the reason for the failure */
+               if (readl(trng->mem + STATUS_REG) == TRNG_FAILED_STARTUP) {
+                       dev_err(dev, "trng ip startup-tests failed\n");
+                       return -ENODEV;
+               }
+               dev_err(dev, "startup-tests yielded no response\n");
+               return -ENODEV;
+       }
+
+       writel(HOST_TO_TRNG_ACK_ZEROIZE, trng->mem + CONTROL_REG);
+
+       trng->rng.name = pdev->name;
+       trng->rng.read = xiphera_trng_read;
+       trng->rng.quality = 900;
+
+       ret = devm_hwrng_register(dev, &trng->rng);
+       if (ret) {
+               dev_err(dev, "failed to register rng device: %d\n", ret);
+               return ret;
+       }
+
+       platform_set_drvdata(pdev, trng);
+
+       return 0;
+}
+
+static const struct of_device_id xiphera_trng_of_match[] = {
+       { .compatible = "xiphera,xip8001b-trng", },
+       {},
+};
+MODULE_DEVICE_TABLE(of, xiphera_trng_of_match);
+
+static struct platform_driver xiphera_trng_driver = {
+       .driver = {
+               .name = "xiphera-trng",
+               .of_match_table = xiphera_trng_of_match,
+       },
+       .probe = xiphera_trng_probe,
+};
+
+module_platform_driver(xiphera_trng_driver);
+
+MODULE_LICENSE("GPL");
+MODULE_AUTHOR("Atte Tommiska");
+MODULE_DESCRIPTION("Xiphera FPGA-based true random number generator driver");
index 58b4c57..a18c314 100644 (file)
@@ -74,6 +74,18 @@ config TCG_TIS_SPI_CR50
          If you have a H1 secure module running Cr50 firmware on SPI bus,
          say Yes and it will be accessible from within Linux.
 
+config TCG_TIS_SYNQUACER
+       tristate "TPM Interface Specification 1.2 Interface / TPM 2.0 FIFO Interface (MMIO - SynQuacer)"
+       depends on ARCH_SYNQUACER
+       select TCG_TIS_CORE
+       help
+         If you have a TPM security chip that is compliant with the
+         TCG TIS 1.2 TPM specification (TPM1.2) or the TCG PTP FIFO
+         specification (TPM2.0) say Yes and it will be accessible from
+         within Linux on Socionext SynQuacer platform.
+         To compile this driver as a module, choose  M here;
+         the module will be called tpm_tis_synquacer.
+
 config TCG_TIS_I2C_ATMEL
        tristate "TPM Interface Specification 1.2 Interface (I2C - Atmel)"
        depends on I2C
index 9567e51..84db4fb 100644 (file)
@@ -21,6 +21,7 @@ tpm-$(CONFIG_EFI) += eventlog/efi.o
 tpm-$(CONFIG_OF) += eventlog/of.o
 obj-$(CONFIG_TCG_TIS_CORE) += tpm_tis_core.o
 obj-$(CONFIG_TCG_TIS) += tpm_tis.o
+obj-$(CONFIG_TCG_TIS_SYNQUACER) += tpm_tis_synquacer.o
 
 obj-$(CONFIG_TCG_TIS_SPI) += tpm_tis_spi.o
 tpm_tis_spi-y := tpm_tis_spi_main.o
index d52bf4d..e2ff0b2 100644 (file)
@@ -56,31 +56,20 @@ static ssize_t pubek_show(struct device *dev, struct device_attribute *attr,
        out = (struct tpm_readpubek_out *)&tpm_buf.data[10];
        str +=
            sprintf(str,
-                   "Algorithm: %02X %02X %02X %02X\n"
-                   "Encscheme: %02X %02X\n"
-                   "Sigscheme: %02X %02X\n"
-                   "Parameters: %02X %02X %02X %02X "
-                   "%02X %02X %02X %02X "
-                   "%02X %02X %02X %02X\n"
+                   "Algorithm: %4ph\n"
+                   "Encscheme: %2ph\n"
+                   "Sigscheme: %2ph\n"
+                   "Parameters: %12ph\n"
                    "Modulus length: %d\n"
                    "Modulus:\n",
-                   out->algorithm[0], out->algorithm[1], out->algorithm[2],
-                   out->algorithm[3],
-                   out->encscheme[0], out->encscheme[1],
-                   out->sigscheme[0], out->sigscheme[1],
-                   out->parameters[0], out->parameters[1],
-                   out->parameters[2], out->parameters[3],
-                   out->parameters[4], out->parameters[5],
-                   out->parameters[6], out->parameters[7],
-                   out->parameters[8], out->parameters[9],
-                   out->parameters[10], out->parameters[11],
+                   out->algorithm,
+                   out->encscheme,
+                   out->sigscheme,
+                   out->parameters,
                    be32_to_cpu(out->keysize));
 
-       for (i = 0; i < 256; i++) {
-               str += sprintf(str, "%02X ", out->modulus[i]);
-               if ((i + 1) % 16 == 0)
-                       str += sprintf(str, "\n");
-       }
+       for (i = 0; i < 256; i += 16)
+               str += sprintf(str, "%16ph\n", &out->modulus[i]);
 
 out_buf:
        tpm_buf_destroy(&tpm_buf);
index 65ab1b0..92c51c6 100644 (file)
@@ -239,6 +239,17 @@ static u8 tpm_tis_status(struct tpm_chip *chip)
        if (rc < 0)
                return 0;
 
+       if (unlikely((status & TPM_STS_READ_ZERO) != 0)) {
+               /*
+                * If this trips, the chances are the read is
+                * returning 0xff because the locality hasn't been
+                * acquired.  Usually because tpm_try_get_ops() hasn't
+                * been called before doing a TPM operation.
+                */
+               WARN_ONCE(1, "TPM returned invalid status\n");
+               return 0;
+       }
+
        return status;
 }
 
index 7337819..9b2d32a 100644 (file)
@@ -34,6 +34,7 @@ enum tis_status {
        TPM_STS_GO = 0x20,
        TPM_STS_DATA_AVAIL = 0x10,
        TPM_STS_DATA_EXPECT = 0x08,
+       TPM_STS_READ_ZERO = 0x23, /* bits that must be zero on read */
 };
 
 enum tis_int_flags {
diff --git a/drivers/char/tpm/tpm_tis_synquacer.c b/drivers/char/tpm/tpm_tis_synquacer.c
new file mode 100644 (file)
index 0000000..e47bdd2
--- /dev/null
@@ -0,0 +1,208 @@
+// SPDX-License-Identifier: GPL-2.0
+/*
+ * Copyright (C) 2020 Linaro Ltd.
+ *
+ * This device driver implements MMIO TPM on SynQuacer Platform.
+ */
+#include <linux/acpi.h>
+#include <linux/init.h>
+#include <linux/module.h>
+#include <linux/slab.h>
+#include <linux/of.h>
+#include <linux/of_device.h>
+#include <linux/kernel.h>
+#include "tpm.h"
+#include "tpm_tis_core.h"
+
+/*
+ * irq > 0 means: use irq $irq;
+ * irq = 0 means: autoprobe for an irq;
+ * irq = -1 means: no irq support
+ */
+struct tpm_tis_synquacer_info {
+       struct resource res;
+       int irq;
+};
+
+struct tpm_tis_synquacer_phy {
+       struct tpm_tis_data priv;
+       void __iomem *iobase;
+};
+
+static inline struct tpm_tis_synquacer_phy *to_tpm_tis_tcg_phy(struct tpm_tis_data *data)
+{
+       return container_of(data, struct tpm_tis_synquacer_phy, priv);
+}
+
+static int tpm_tis_synquacer_read_bytes(struct tpm_tis_data *data, u32 addr,
+                                       u16 len, u8 *result)
+{
+       struct tpm_tis_synquacer_phy *phy = to_tpm_tis_tcg_phy(data);
+
+       while (len--)
+               *result++ = ioread8(phy->iobase + addr);
+
+       return 0;
+}
+
+static int tpm_tis_synquacer_write_bytes(struct tpm_tis_data *data, u32 addr,
+                                        u16 len, const u8 *value)
+{
+       struct tpm_tis_synquacer_phy *phy = to_tpm_tis_tcg_phy(data);
+
+       while (len--)
+               iowrite8(*value++, phy->iobase + addr);
+
+       return 0;
+}
+
+static int tpm_tis_synquacer_read16_bw(struct tpm_tis_data *data,
+                                      u32 addr, u16 *result)
+{
+       struct tpm_tis_synquacer_phy *phy = to_tpm_tis_tcg_phy(data);
+
+       /*
+        * Due to the limitation of SPI controller on SynQuacer,
+        * 16/32 bits access must be done in byte-wise and descending order.
+        */
+       *result = (ioread8(phy->iobase + addr + 1) << 8) |
+                 (ioread8(phy->iobase + addr));
+
+       return 0;
+}
+
+static int tpm_tis_synquacer_read32_bw(struct tpm_tis_data *data,
+                                      u32 addr, u32 *result)
+{
+       struct tpm_tis_synquacer_phy *phy = to_tpm_tis_tcg_phy(data);
+
+       /*
+        * Due to the limitation of SPI controller on SynQuacer,
+        * 16/32 bits access must be done in byte-wise and descending order.
+        */
+       *result = (ioread8(phy->iobase + addr + 3) << 24) |
+                 (ioread8(phy->iobase + addr + 2) << 16) |
+                 (ioread8(phy->iobase + addr + 1) << 8) |
+                 (ioread8(phy->iobase + addr));
+
+       return 0;
+}
+
+static int tpm_tis_synquacer_write32_bw(struct tpm_tis_data *data,
+                                       u32 addr, u32 value)
+{
+       struct tpm_tis_synquacer_phy *phy = to_tpm_tis_tcg_phy(data);
+
+       /*
+        * Due to the limitation of SPI controller on SynQuacer,
+        * 16/32 bits access must be done in byte-wise and descending order.
+        */
+       iowrite8(value >> 24, phy->iobase + addr + 3);
+       iowrite8(value >> 16, phy->iobase + addr + 2);
+       iowrite8(value >> 8, phy->iobase + addr + 1);
+       iowrite8(value, phy->iobase + addr);
+
+       return 0;
+}
+
+static const struct tpm_tis_phy_ops tpm_tcg_bw = {
+       .read_bytes     = tpm_tis_synquacer_read_bytes,
+       .write_bytes    = tpm_tis_synquacer_write_bytes,
+       .read16         = tpm_tis_synquacer_read16_bw,
+       .read32         = tpm_tis_synquacer_read32_bw,
+       .write32        = tpm_tis_synquacer_write32_bw,
+};
+
+static int tpm_tis_synquacer_init(struct device *dev,
+                                 struct tpm_tis_synquacer_info *tpm_info)
+{
+       struct tpm_tis_synquacer_phy *phy;
+
+       phy = devm_kzalloc(dev, sizeof(struct tpm_tis_synquacer_phy), GFP_KERNEL);
+       if (phy == NULL)
+               return -ENOMEM;
+
+       phy->iobase = devm_ioremap_resource(dev, &tpm_info->res);
+       if (IS_ERR(phy->iobase))
+               return PTR_ERR(phy->iobase);
+
+       return tpm_tis_core_init(dev, &phy->priv, tpm_info->irq, &tpm_tcg_bw,
+                                ACPI_HANDLE(dev));
+}
+
+static SIMPLE_DEV_PM_OPS(tpm_tis_synquacer_pm, tpm_pm_suspend, tpm_tis_resume);
+
+static int tpm_tis_synquacer_probe(struct platform_device *pdev)
+{
+       struct tpm_tis_synquacer_info tpm_info = {};
+       struct resource *res;
+
+       res = platform_get_resource(pdev, IORESOURCE_MEM, 0);
+       if (res == NULL) {
+               dev_err(&pdev->dev, "no memory resource defined\n");
+               return -ENODEV;
+       }
+       tpm_info.res = *res;
+
+       tpm_info.irq = -1;
+
+       return tpm_tis_synquacer_init(&pdev->dev, &tpm_info);
+}
+
+static int tpm_tis_synquacer_remove(struct platform_device *pdev)
+{
+       struct tpm_chip *chip = dev_get_drvdata(&pdev->dev);
+
+       tpm_chip_unregister(chip);
+       tpm_tis_remove(chip);
+
+       return 0;
+}
+
+#ifdef CONFIG_OF
+static const struct of_device_id tis_synquacer_of_platform_match[] = {
+       {.compatible = "socionext,synquacer-tpm-mmio"},
+       {},
+};
+MODULE_DEVICE_TABLE(of, tis_synquacer_of_platform_match);
+#endif
+
+#ifdef CONFIG_ACPI
+static const struct acpi_device_id tpm_synquacer_acpi_tbl[] = {
+       { "SCX0009" },
+       {},
+};
+MODULE_DEVICE_TABLE(acpi, tpm_synquacer_acpi_tbl);
+#endif
+
+static struct platform_driver tis_synquacer_drv = {
+       .probe = tpm_tis_synquacer_probe,
+       .remove = tpm_tis_synquacer_remove,
+       .driver = {
+               .name           = "tpm_tis_synquacer",
+               .pm             = &tpm_tis_synquacer_pm,
+               .of_match_table = of_match_ptr(tis_synquacer_of_platform_match),
+               .acpi_match_table = ACPI_PTR(tpm_synquacer_acpi_tbl),
+       },
+};
+
+static int __init tpm_tis_synquacer_module_init(void)
+{
+       int rc;
+
+       rc = platform_driver_register(&tis_synquacer_drv);
+       if (rc)
+               return rc;
+
+       return 0;
+}
+
+static void __exit tpm_tis_synquacer_module_exit(void)
+{
+       platform_driver_unregister(&tis_synquacer_drv);
+}
+
+module_init(tpm_tis_synquacer_module_init);
+module_exit(tpm_tis_synquacer_module_exit);
+MODULE_DESCRIPTION("TPM MMIO Driver for Socionext SynQuacer platform");
+MODULE_LICENSE("GPL");
index 2e64d98..efe8cad 100644 (file)
@@ -149,9 +149,9 @@ static int __init mps2_clockevent_init(struct device_node *np)
        ce->clkevt.rating = 200;
        ce->clkevt.features = CLOCK_EVT_FEAT_PERIODIC | CLOCK_EVT_FEAT_ONESHOT;
        ce->clkevt.cpumask = cpu_possible_mask;
-       ce->clkevt.set_state_shutdown   = mps2_timer_shutdown,
-       ce->clkevt.set_state_periodic   = mps2_timer_set_periodic,
-       ce->clkevt.set_state_oneshot    = mps2_timer_shutdown,
+       ce->clkevt.set_state_shutdown   = mps2_timer_shutdown;
+       ce->clkevt.set_state_periodic   = mps2_timer_set_periodic;
+       ce->clkevt.set_state_oneshot    = mps2_timer_shutdown;
        ce->clkevt.set_next_event       = mps2_timer_set_next_event;
 
        /* Ensure timer is disabled */
index edf1a46..e3acc3c 100644 (file)
@@ -181,12 +181,12 @@ static int armada_370_xp_timer_starting_cpu(unsigned int cpu)
                clr = TIMER0_25MHZ;
        local_timer_ctrl_clrset(clr, set);
 
-       evt->name               = "armada_370_xp_per_cpu_tick",
+       evt->name               = "armada_370_xp_per_cpu_tick";
        evt->features           = CLOCK_EVT_FEAT_ONESHOT |
                                  CLOCK_EVT_FEAT_PERIODIC;
-       evt->shift              = 32,
-       evt->rating             = 300,
-       evt->set_next_event     = armada_370_xp_clkevt_next_event,
+       evt->shift              = 32;
+       evt->rating             = 300;
+       evt->set_next_event     = armada_370_xp_clkevt_next_event;
        evt->set_state_shutdown = armada_370_xp_clkevt_shutdown;
        evt->set_state_periodic = armada_370_xp_clkevt_set_periodic;
        evt->set_state_oneshot  = armada_370_xp_clkevt_shutdown;
index b2037eb..811f840 100644 (file)
@@ -10,6 +10,7 @@
  *
  * Every SP804 contains two identical timers.
  */
+#define NR_TIMERS      2
 #define TIMER_1_BASE   0x00
 #define TIMER_2_BASE   0x20
 
 #define TIMER_RIS      0x10                    /*  CVR ro */
 #define TIMER_MIS      0x14                    /*  CVR ro */
 #define TIMER_BGLOAD   0x18                    /*  CVR rw */
+
+struct sp804_timer {
+       int load;
+       int load_h;
+       int value;
+       int value_h;
+       int ctrl;
+       int intclr;
+       int ris;
+       int mis;
+       int bgload;
+       int bgload_h;
+       int timer_base[NR_TIMERS];
+       int width;
+};
+
+struct sp804_clkevt {
+       void __iomem *base;
+       void __iomem *load;
+       void __iomem *load_h;
+       void __iomem *value;
+       void __iomem *value_h;
+       void __iomem *ctrl;
+       void __iomem *intclr;
+       void __iomem *ris;
+       void __iomem *mis;
+       void __iomem *bgload;
+       void __iomem *bgload_h;
+       unsigned long reload;
+       int width;
+};
index 5cd0abf..6e8ad4a 100644 (file)
 #include <linux/of_irq.h>
 #include <linux/sched_clock.h>
 
-#include <clocksource/timer-sp804.h>
-
 #include "timer-sp.h"
 
-static long __init sp804_get_clock_rate(struct clk *clk)
+/* Hisilicon 64-bit timer(a variant of ARM SP804) */
+#define HISI_TIMER_1_BASE      0x00
+#define HISI_TIMER_2_BASE      0x40
+#define HISI_TIMER_LOAD                0x00
+#define HISI_TIMER_LOAD_H      0x04
+#define HISI_TIMER_VALUE       0x08
+#define HISI_TIMER_VALUE_H     0x0c
+#define HISI_TIMER_CTRL                0x10
+#define HISI_TIMER_INTCLR      0x14
+#define HISI_TIMER_RIS         0x18
+#define HISI_TIMER_MIS         0x1c
+#define HISI_TIMER_BGLOAD      0x20
+#define HISI_TIMER_BGLOAD_H    0x24
+
+
+struct sp804_timer __initdata arm_sp804_timer = {
+       .load           = TIMER_LOAD,
+       .value          = TIMER_VALUE,
+       .ctrl           = TIMER_CTRL,
+       .intclr         = TIMER_INTCLR,
+       .timer_base     = {TIMER_1_BASE, TIMER_2_BASE},
+       .width          = 32,
+};
+
+struct sp804_timer __initdata hisi_sp804_timer = {
+       .load           = HISI_TIMER_LOAD,
+       .load_h         = HISI_TIMER_LOAD_H,
+       .value          = HISI_TIMER_VALUE,
+       .value_h        = HISI_TIMER_VALUE_H,
+       .ctrl           = HISI_TIMER_CTRL,
+       .intclr         = HISI_TIMER_INTCLR,
+       .timer_base     = {HISI_TIMER_1_BASE, HISI_TIMER_2_BASE},
+       .width          = 64,
+};
+
+static struct sp804_clkevt sp804_clkevt[NR_TIMERS];
+
+static long __init sp804_get_clock_rate(struct clk *clk, const char *name)
 {
        long rate;
        int err;
 
+       if (!clk)
+               clk = clk_get_sys("sp804", name);
+       if (IS_ERR(clk)) {
+               pr_err("sp804: %s clock not found: %ld\n", name, PTR_ERR(clk));
+               return PTR_ERR(clk);
+       }
+
        err = clk_prepare(clk);
        if (err) {
                pr_err("sp804: clock failed to prepare: %d\n", err);
@@ -53,50 +95,57 @@ static long __init sp804_get_clock_rate(struct clk *clk)
        return rate;
 }
 
-static void __iomem *sched_clock_base;
-
-static u64 notrace sp804_read(void)
+static struct sp804_clkevt * __init sp804_clkevt_get(void __iomem *base)
 {
-       return ~readl_relaxed(sched_clock_base + TIMER_VALUE);
+       int i;
+
+       for (i = 0; i < NR_TIMERS; i++) {
+               if (sp804_clkevt[i].base == base)
+                       return &sp804_clkevt[i];
+       }
+
+       /* It's impossible to reach here */
+       WARN_ON(1);
+
+       return NULL;
 }
 
-void __init sp804_timer_disable(void __iomem *base)
+static struct sp804_clkevt *sched_clkevt;
+
+static u64 notrace sp804_read(void)
 {
-       writel(0, base + TIMER_CTRL);
+       return ~readl_relaxed(sched_clkevt->value);
 }
 
-int  __init __sp804_clocksource_and_sched_clock_init(void __iomem *base,
-                                                    const char *name,
-                                                    struct clk *clk,
-                                                    int use_sched_clock)
+int __init sp804_clocksource_and_sched_clock_init(void __iomem *base,
+                                                 const char *name,
+                                                 struct clk *clk,
+                                                 int use_sched_clock)
 {
        long rate;
+       struct sp804_clkevt *clkevt;
 
-       if (!clk) {
-               clk = clk_get_sys("sp804", name);
-               if (IS_ERR(clk)) {
-                       pr_err("sp804: clock not found: %d\n",
-                              (int)PTR_ERR(clk));
-                       return PTR_ERR(clk);
-               }
-       }
-
-       rate = sp804_get_clock_rate(clk);
+       rate = sp804_get_clock_rate(clk, name);
        if (rate < 0)
                return -EINVAL;
 
-       /* setup timer 0 as free-running clocksource */
-       writel(0, base + TIMER_CTRL);
-       writel(0xffffffff, base + TIMER_LOAD);
-       writel(0xffffffff, base + TIMER_VALUE);
+       clkevt = sp804_clkevt_get(base);
+
+       writel(0, clkevt->ctrl);
+       writel(0xffffffff, clkevt->load);
+       writel(0xffffffff, clkevt->value);
+       if (clkevt->width == 64) {
+               writel(0xffffffff, clkevt->load_h);
+               writel(0xffffffff, clkevt->value_h);
+       }
        writel(TIMER_CTRL_32BIT | TIMER_CTRL_ENABLE | TIMER_CTRL_PERIODIC,
-               base + TIMER_CTRL);
+               clkevt->ctrl);
 
-       clocksource_mmio_init(base + TIMER_VALUE, name,
+       clocksource_mmio_init(clkevt->value, name,
                rate, 200, 32, clocksource_mmio_readl_down);
 
        if (use_sched_clock) {
-               sched_clock_base = base;
+               sched_clkevt = clkevt;
                sched_clock_register(sp804_read, 32, rate);
        }
 
@@ -104,8 +153,7 @@ int  __init __sp804_clocksource_and_sched_clock_init(void __iomem *base,
 }
 
 
-static void __iomem *clkevt_base;
-static unsigned long clkevt_reload;
+static struct sp804_clkevt *common_clkevt;
 
 /*
  * IRQ handler for the timer
@@ -115,7 +163,7 @@ static irqreturn_t sp804_timer_interrupt(int irq, void *dev_id)
        struct clock_event_device *evt = dev_id;
 
        /* clear the interrupt */
-       writel(1, clkevt_base + TIMER_INTCLR);
+       writel(1, common_clkevt->intclr);
 
        evt->event_handler(evt);
 
@@ -124,7 +172,7 @@ static irqreturn_t sp804_timer_interrupt(int irq, void *dev_id)
 
 static inline void timer_shutdown(struct clock_event_device *evt)
 {
-       writel(0, clkevt_base + TIMER_CTRL);
+       writel(0, common_clkevt->ctrl);
 }
 
 static int sp804_shutdown(struct clock_event_device *evt)
@@ -139,8 +187,8 @@ static int sp804_set_periodic(struct clock_event_device *evt)
                             TIMER_CTRL_PERIODIC | TIMER_CTRL_ENABLE;
 
        timer_shutdown(evt);
-       writel(clkevt_reload, clkevt_base + TIMER_LOAD);
-       writel(ctrl, clkevt_base + TIMER_CTRL);
+       writel(common_clkevt->reload, common_clkevt->load);
+       writel(ctrl, common_clkevt->ctrl);
        return 0;
 }
 
@@ -150,8 +198,8 @@ static int sp804_set_next_event(unsigned long next,
        unsigned long ctrl = TIMER_CTRL_32BIT | TIMER_CTRL_IE |
                             TIMER_CTRL_ONESHOT | TIMER_CTRL_ENABLE;
 
-       writel(next, clkevt_base + TIMER_LOAD);
-       writel(ctrl, clkevt_base + TIMER_CTRL);
+       writel(next, common_clkevt->load);
+       writel(ctrl, common_clkevt->ctrl);
 
        return 0;
 }
@@ -168,30 +216,23 @@ static struct clock_event_device sp804_clockevent = {
        .rating                 = 300,
 };
 
-int __init __sp804_clockevents_init(void __iomem *base, unsigned int irq, struct clk *clk, const char *name)
+int __init sp804_clockevents_init(void __iomem *base, unsigned int irq,
+                                 struct clk *clk, const char *name)
 {
        struct clock_event_device *evt = &sp804_clockevent;
        long rate;
 
-       if (!clk)
-               clk = clk_get_sys("sp804", name);
-       if (IS_ERR(clk)) {
-               pr_err("sp804: %s clock not found: %d\n", name,
-                       (int)PTR_ERR(clk));
-               return PTR_ERR(clk);
-       }
-
-       rate = sp804_get_clock_rate(clk);
+       rate = sp804_get_clock_rate(clk, name);
        if (rate < 0)
                return -EINVAL;
 
-       clkevt_base = base;
-       clkevt_reload = DIV_ROUND_CLOSEST(rate, HZ);
+       common_clkevt = sp804_clkevt_get(base);
+       common_clkevt->reload = DIV_ROUND_CLOSEST(rate, HZ);
        evt->name = name;
        evt->irq = irq;
        evt->cpumask = cpu_possible_mask;
 
-       writel(0, base + TIMER_CTRL);
+       writel(0, common_clkevt->ctrl);
 
        if (request_irq(irq, sp804_timer_interrupt, IRQF_TIMER | IRQF_IRQPOLL,
                        "timer", &sp804_clockevent))
@@ -201,10 +242,33 @@ int __init __sp804_clockevents_init(void __iomem *base, unsigned int irq, struct
        return 0;
 }
 
-static int __init sp804_of_init(struct device_node *np)
+static void __init sp804_clkevt_init(struct sp804_timer *timer, void __iomem *base)
+{
+       int i;
+
+       for (i = 0; i < NR_TIMERS; i++) {
+               void __iomem *timer_base;
+               struct sp804_clkevt *clkevt;
+
+               timer_base = base + timer->timer_base[i];
+               clkevt = &sp804_clkevt[i];
+               clkevt->base    = timer_base;
+               clkevt->load    = timer_base + timer->load;
+               clkevt->load_h  = timer_base + timer->load_h;
+               clkevt->value   = timer_base + timer->value;
+               clkevt->value_h = timer_base + timer->value_h;
+               clkevt->ctrl    = timer_base + timer->ctrl;
+               clkevt->intclr  = timer_base + timer->intclr;
+               clkevt->width   = timer->width;
+       }
+}
+
+static int __init sp804_of_init(struct device_node *np, struct sp804_timer *timer)
 {
        static bool initialized = false;
        void __iomem *base;
+       void __iomem *timer1_base;
+       void __iomem *timer2_base;
        int irq, ret = -EINVAL;
        u32 irq_num = 0;
        struct clk *clk1, *clk2;
@@ -214,9 +278,12 @@ static int __init sp804_of_init(struct device_node *np)
        if (!base)
                return -ENXIO;
 
+       timer1_base = base + timer->timer_base[0];
+       timer2_base = base + timer->timer_base[1];
+
        /* Ensure timers are disabled */
-       writel(0, base + TIMER_CTRL);
-       writel(0, base + TIMER_2_BASE + TIMER_CTRL);
+       writel(0, timer1_base + timer->ctrl);
+       writel(0, timer2_base + timer->ctrl);
 
        if (initialized || !of_device_is_available(np)) {
                ret = -EINVAL;
@@ -242,24 +309,27 @@ static int __init sp804_of_init(struct device_node *np)
        if (irq <= 0)
                goto err;
 
+       sp804_clkevt_init(timer, base);
+
        of_property_read_u32(np, "arm,sp804-has-irq", &irq_num);
        if (irq_num == 2) {
 
-               ret = __sp804_clockevents_init(base + TIMER_2_BASE, irq, clk2, name);
+               ret = sp804_clockevents_init(timer2_base, irq, clk2, name);
                if (ret)
                        goto err;
 
-               ret = __sp804_clocksource_and_sched_clock_init(base, name, clk1, 1);
+               ret = sp804_clocksource_and_sched_clock_init(timer1_base,
+                                                            name, clk1, 1);
                if (ret)
                        goto err;
        } else {
 
-               ret = __sp804_clockevents_init(base, irq, clk1 , name);
+               ret = sp804_clockevents_init(timer1_base, irq, clk1, name);
                if (ret)
                        goto err;
 
-               ret =__sp804_clocksource_and_sched_clock_init(base + TIMER_2_BASE,
-                                                             name, clk2, 1);
+               ret = sp804_clocksource_and_sched_clock_init(timer2_base,
+                                                            name, clk2, 1);
                if (ret)
                        goto err;
        }
@@ -270,7 +340,18 @@ err:
        iounmap(base);
        return ret;
 }
-TIMER_OF_DECLARE(sp804, "arm,sp804", sp804_of_init);
+
+static int __init arm_sp804_of_init(struct device_node *np)
+{
+       return sp804_of_init(np, &arm_sp804_timer);
+}
+TIMER_OF_DECLARE(sp804, "arm,sp804", arm_sp804_of_init);
+
+static int __init hisi_sp804_of_init(struct device_node *np)
+{
+       return sp804_of_init(np, &hisi_sp804_timer);
+}
+TIMER_OF_DECLARE(hisi_sp804, "hisilicon,sp804", hisi_sp804_of_init);
 
 static int __init integrator_cp_of_init(struct device_node *np)
 {
@@ -293,13 +374,16 @@ static int __init integrator_cp_of_init(struct device_node *np)
        }
 
        /* Ensure timer is disabled */
-       writel(0, base + TIMER_CTRL);
+       writel(0, base + arm_sp804_timer.ctrl);
 
        if (init_count == 2 || !of_device_is_available(np))
                goto err;
 
+       sp804_clkevt_init(&arm_sp804_timer, base);
+
        if (!init_count) {
-               ret = __sp804_clocksource_and_sched_clock_init(base, name, clk, 0);
+               ret = sp804_clocksource_and_sched_clock_init(base,
+                                                            name, clk, 0);
                if (ret)
                        goto err;
        } else {
@@ -307,7 +391,7 @@ static int __init integrator_cp_of_init(struct device_node *np)
                if (irq <= 0)
                        goto err;
 
-               ret = __sp804_clockevents_init(base, irq, clk, name);
+               ret = sp804_clockevents_init(base, irq, clk, name);
                if (ret)
                        goto err;
        }
index 52a9b7c..3759338 100644 (file)
@@ -873,6 +873,7 @@ config CRYPTO_DEV_SA2UL
        select CRYPTO_AES
        select CRYPTO_AES_ARM64
        select CRYPTO_ALGAPI
+       select CRYPTO_AUTHENC
        select CRYPTO_SHA1
        select CRYPTO_SHA256
        select CRYPTO_SHA512
index 12e7c6a..0cdfe0e 100644 (file)
@@ -59,6 +59,32 @@ config CRYPTO_DEV_SUN8I_CE_DEBUG
          This will create /sys/kernel/debug/sun8i-ce/stats for displaying
          the number of requests per flow and per algorithm.
 
+config CRYPTO_DEV_SUN8I_CE_HASH
+       bool "Enable support for hash on sun8i-ce"
+       depends on CRYPTO_DEV_SUN8I_CE
+       select MD5
+       select SHA1
+       select SHA256
+       select SHA512
+       help
+         Say y to enable support for hash algorithms.
+
+config CRYPTO_DEV_SUN8I_CE_PRNG
+       bool "Support for Allwinner Crypto Engine PRNG"
+       depends on CRYPTO_DEV_SUN8I_CE
+       select CRYPTO_RNG
+       help
+         Select this option if you want to provide kernel-side support for
+         the Pseudo-Random Number Generator found in the Crypto Engine.
+
+config CRYPTO_DEV_SUN8I_CE_TRNG
+       bool "Support for Allwinner Crypto Engine TRNG"
+       depends on CRYPTO_DEV_SUN8I_CE
+       select HW_RANDOM
+       help
+         Select this option if you want to provide kernel-side support for
+         the True Random Number Generator found in the Crypto Engine.
+
 config CRYPTO_DEV_SUN8I_SS
        tristate "Support for Allwinner Security System cryptographic offloader"
        select CRYPTO_SKCIPHER
@@ -85,3 +111,20 @@ config CRYPTO_DEV_SUN8I_SS_DEBUG
          Say y to enable sun8i-ss debug stats.
          This will create /sys/kernel/debug/sun8i-ss/stats for displaying
          the number of requests per flow and per algorithm.
+
+config CRYPTO_DEV_SUN8I_SS_PRNG
+       bool "Support for Allwinner Security System PRNG"
+       depends on CRYPTO_DEV_SUN8I_SS
+       select CRYPTO_RNG
+       help
+         Select this option if you want to provide kernel-side support for
+         the Pseudo-Random Number Generator found in the Security System.
+
+config CRYPTO_DEV_SUN8I_SS_HASH
+       bool "Enable support for hash on sun8i-ss"
+       depends on CRYPTO_DEV_SUN8I_SS
+       select MD5
+       select SHA1
+       select SHA256
+       help
+         Say y to enable support for hash algorithms.
index dc35edd..1dff485 100644 (file)
@@ -9,6 +9,7 @@
  * You could find the datasheet in Documentation/arm/sunxi.rst
  */
 #include "sun4i-ss.h"
+#include <asm/unaligned.h>
 #include <linux/scatterlist.h>
 
 /* This is a totally arbitrary value */
@@ -196,7 +197,7 @@ static int sun4i_hash(struct ahash_request *areq)
        struct sg_mapping_iter mi;
        int in_r, err = 0;
        size_t copied = 0;
-       __le32 wb = 0;
+       u32 wb = 0;
 
        dev_dbg(ss->dev, "%s %s bc=%llu len=%u mode=%x wl=%u h0=%0x",
                __func__, crypto_tfm_alg_name(areq->base.tfm),
@@ -408,7 +409,7 @@ hash_final:
 
                nbw = op->len - 4 * nwait;
                if (nbw) {
-                       wb = cpu_to_le32(*(u32 *)(op->buf + nwait * 4));
+                       wb = le32_to_cpup((__le32 *)(op->buf + nwait * 4));
                        wb &= GENMASK((nbw * 8) - 1, 0);
 
                        op->byte_count += nbw;
@@ -417,7 +418,7 @@ hash_final:
 
        /* write the remaining bytes of the nbw buffer */
        wb |= ((1 << 7) << (nbw * 8));
-       bf[j++] = le32_to_cpu(wb);
+       ((__le32 *)bf)[j++] = cpu_to_le32(wb);
 
        /*
         * number of space to pad to obtain 64o minus 8(size) minus 4 (final 1)
@@ -479,16 +480,16 @@ hash_final:
        /* Get the hash from the device */
        if (op->mode == SS_OP_SHA1) {
                for (i = 0; i < 5; i++) {
+                       v = readl(ss->base + SS_MD0 + i * 4);
                        if (ss->variant->sha1_in_be)
-                               v = cpu_to_le32(readl(ss->base + SS_MD0 + i * 4));
+                               put_unaligned_le32(v, areq->result + i * 4);
                        else
-                               v = cpu_to_be32(readl(ss->base + SS_MD0 + i * 4));
-                       memcpy(areq->result + i * 4, &v, 4);
+                               put_unaligned_be32(v, areq->result + i * 4);
                }
        } else {
                for (i = 0; i < 4; i++) {
-                       v = cpu_to_le32(readl(ss->base + SS_MD0 + i * 4));
-                       memcpy(areq->result + i * 4, &v, 4);
+                       v = readl(ss->base + SS_MD0 + i * 4);
+                       put_unaligned_le32(v, areq->result + i * 4);
                }
        }
 
index 08b68c3..0842eb2 100644 (file)
@@ -1,2 +1,5 @@
 obj-$(CONFIG_CRYPTO_DEV_SUN8I_CE) += sun8i-ce.o
 sun8i-ce-y += sun8i-ce-core.o sun8i-ce-cipher.o
+sun8i-ce-$(CONFIG_CRYPTO_DEV_SUN8I_CE_HASH) += sun8i-ce-hash.o
+sun8i-ce-$(CONFIG_CRYPTO_DEV_SUN8I_CE_PRNG) += sun8i-ce-prng.o
+sun8i-ce-$(CONFIG_CRYPTO_DEV_SUN8I_CE_TRNG) += sun8i-ce-trng.o
index b4d5fea..33707a2 100644 (file)
@@ -75,8 +75,9 @@ static int sun8i_ce_cipher_fallback(struct skcipher_request *areq)
        return err;
 }
 
-static int sun8i_ce_cipher(struct skcipher_request *areq)
+static int sun8i_ce_cipher_prepare(struct crypto_engine *engine, void *async_req)
 {
+       struct skcipher_request *areq = container_of(async_req, struct skcipher_request, base);
        struct crypto_skcipher *tfm = crypto_skcipher_reqtfm(areq);
        struct sun8i_cipher_tfm_ctx *op = crypto_skcipher_ctx(tfm);
        struct sun8i_ce_dev *ce = op->ce;
@@ -87,8 +88,6 @@ static int sun8i_ce_cipher(struct skcipher_request *areq)
        struct ce_task *cet;
        struct scatterlist *sg;
        unsigned int todo, len, offset, ivsize;
-       dma_addr_t addr_iv = 0, addr_key = 0;
-       void *backup_iv = NULL;
        u32 common, sym;
        int flow, i;
        int nr_sgs = 0;
@@ -119,7 +118,7 @@ static int sun8i_ce_cipher(struct skcipher_request *areq)
        common |= rctx->op_dir | CE_COMM_INT;
        cet->t_common_ctl = cpu_to_le32(common);
        /* CTS and recent CE (H6) need length in bytes, in word otherwise */
-       if (ce->variant->has_t_dlen_in_bytes)
+       if (ce->variant->cipher_t_dlen_in_bytes)
                cet->t_dlen = cpu_to_le32(areq->cryptlen);
        else
                cet->t_dlen = cpu_to_le32(areq->cryptlen / 4);
@@ -141,41 +140,41 @@ static int sun8i_ce_cipher(struct skcipher_request *areq)
        cet->t_sym_ctl = cpu_to_le32(sym);
        cet->t_asym_ctl = 0;
 
-       addr_key = dma_map_single(ce->dev, op->key, op->keylen, DMA_TO_DEVICE);
-       cet->t_key = cpu_to_le32(addr_key);
-       if (dma_mapping_error(ce->dev, addr_key)) {
+       rctx->addr_key = dma_map_single(ce->dev, op->key, op->keylen, DMA_TO_DEVICE);
+       if (dma_mapping_error(ce->dev, rctx->addr_key)) {
                dev_err(ce->dev, "Cannot DMA MAP KEY\n");
                err = -EFAULT;
                goto theend;
        }
+       cet->t_key = cpu_to_le32(rctx->addr_key);
 
        ivsize = crypto_skcipher_ivsize(tfm);
        if (areq->iv && crypto_skcipher_ivsize(tfm) > 0) {
-               chan->ivlen = ivsize;
-               chan->bounce_iv = kzalloc(ivsize, GFP_KERNEL | GFP_DMA);
-               if (!chan->bounce_iv) {
+               rctx->ivlen = ivsize;
+               rctx->bounce_iv = kzalloc(ivsize, GFP_KERNEL | GFP_DMA);
+               if (!rctx->bounce_iv) {
                        err = -ENOMEM;
                        goto theend_key;
                }
                if (rctx->op_dir & CE_DECRYPTION) {
-                       backup_iv = kzalloc(ivsize, GFP_KERNEL);
-                       if (!backup_iv) {
+                       rctx->backup_iv = kzalloc(ivsize, GFP_KERNEL);
+                       if (!rctx->backup_iv) {
                                err = -ENOMEM;
                                goto theend_key;
                        }
                        offset = areq->cryptlen - ivsize;
-                       scatterwalk_map_and_copy(backup_iv, areq->src, offset,
-                                                ivsize, 0);
+                       scatterwalk_map_and_copy(rctx->backup_iv, areq->src,
+                                                offset, ivsize, 0);
                }
-               memcpy(chan->bounce_iv, areq->iv, ivsize);
-               addr_iv = dma_map_single(ce->dev, chan->bounce_iv, chan->ivlen,
-                                        DMA_TO_DEVICE);
-               cet->t_iv = cpu_to_le32(addr_iv);
-               if (dma_mapping_error(ce->dev, addr_iv)) {
+               memcpy(rctx->bounce_iv, areq->iv, ivsize);
+               rctx->addr_iv = dma_map_single(ce->dev, rctx->bounce_iv, rctx->ivlen,
+                                              DMA_TO_DEVICE);
+               if (dma_mapping_error(ce->dev, rctx->addr_iv)) {
                        dev_err(ce->dev, "Cannot DMA MAP IV\n");
                        err = -ENOMEM;
                        goto theend_iv;
                }
+               cet->t_iv = cpu_to_le32(rctx->addr_iv);
        }
 
        if (areq->src == areq->dst) {
@@ -235,7 +234,9 @@ static int sun8i_ce_cipher(struct skcipher_request *areq)
        }
 
        chan->timeout = areq->cryptlen;
-       err = sun8i_ce_run_task(ce, flow, crypto_tfm_alg_name(areq->base.tfm));
+       rctx->nr_sgs = nr_sgs;
+       rctx->nr_sgd = nr_sgd;
+       return 0;
 
 theend_sgs:
        if (areq->src == areq->dst) {
@@ -248,34 +249,83 @@ theend_sgs:
 
 theend_iv:
        if (areq->iv && ivsize > 0) {
-               if (addr_iv)
-                       dma_unmap_single(ce->dev, addr_iv, chan->ivlen,
-                                        DMA_TO_DEVICE);
+               if (rctx->addr_iv)
+                       dma_unmap_single(ce->dev, rctx->addr_iv, rctx->ivlen, DMA_TO_DEVICE);
                offset = areq->cryptlen - ivsize;
                if (rctx->op_dir & CE_DECRYPTION) {
-                       memcpy(areq->iv, backup_iv, ivsize);
-                       kfree_sensitive(backup_iv);
+                       memcpy(areq->iv, rctx->backup_iv, ivsize);
+                       kfree_sensitive(rctx->backup_iv);
                } else {
                        scatterwalk_map_and_copy(areq->iv, areq->dst, offset,
                                                 ivsize, 0);
                }
-               kfree(chan->bounce_iv);
+               kfree(rctx->bounce_iv);
        }
 
 theend_key:
-       dma_unmap_single(ce->dev, addr_key, op->keylen, DMA_TO_DEVICE);
+       dma_unmap_single(ce->dev, rctx->addr_key, op->keylen, DMA_TO_DEVICE);
 
 theend:
        return err;
 }
 
-static int sun8i_ce_handle_cipher_request(struct crypto_engine *engine, void *areq)
+static int sun8i_ce_cipher_run(struct crypto_engine *engine, void *areq)
 {
-       int err;
        struct skcipher_request *breq = container_of(areq, struct skcipher_request, base);
+       struct crypto_skcipher *tfm = crypto_skcipher_reqtfm(breq);
+       struct sun8i_cipher_tfm_ctx *op = crypto_skcipher_ctx(tfm);
+       struct sun8i_ce_dev *ce = op->ce;
+       struct sun8i_cipher_req_ctx *rctx = skcipher_request_ctx(breq);
+       int flow, err;
 
-       err = sun8i_ce_cipher(breq);
+       flow = rctx->flow;
+       err = sun8i_ce_run_task(ce, flow, crypto_tfm_alg_name(breq->base.tfm));
        crypto_finalize_skcipher_request(engine, breq, err);
+       return 0;
+}
+
+static int sun8i_ce_cipher_unprepare(struct crypto_engine *engine, void *async_req)
+{
+       struct skcipher_request *areq = container_of(async_req, struct skcipher_request, base);
+       struct crypto_skcipher *tfm = crypto_skcipher_reqtfm(areq);
+       struct sun8i_cipher_tfm_ctx *op = crypto_skcipher_ctx(tfm);
+       struct sun8i_ce_dev *ce = op->ce;
+       struct sun8i_cipher_req_ctx *rctx = skcipher_request_ctx(areq);
+       struct sun8i_ce_flow *chan;
+       struct ce_task *cet;
+       unsigned int ivsize, offset;
+       int nr_sgs = rctx->nr_sgs;
+       int nr_sgd = rctx->nr_sgd;
+       int flow;
+
+       flow = rctx->flow;
+       chan = &ce->chanlist[flow];
+       cet = chan->tl;
+       ivsize = crypto_skcipher_ivsize(tfm);
+
+       if (areq->src == areq->dst) {
+               dma_unmap_sg(ce->dev, areq->src, nr_sgs, DMA_BIDIRECTIONAL);
+       } else {
+               if (nr_sgs > 0)
+                       dma_unmap_sg(ce->dev, areq->src, nr_sgs, DMA_TO_DEVICE);
+               dma_unmap_sg(ce->dev, areq->dst, nr_sgd, DMA_FROM_DEVICE);
+       }
+
+       if (areq->iv && ivsize > 0) {
+               if (cet->t_iv)
+                       dma_unmap_single(ce->dev, rctx->addr_iv, rctx->ivlen, DMA_TO_DEVICE);
+               offset = areq->cryptlen - ivsize;
+               if (rctx->op_dir & CE_DECRYPTION) {
+                       memcpy(areq->iv, rctx->backup_iv, ivsize);
+                       kfree_sensitive(rctx->backup_iv);
+               } else {
+                       scatterwalk_map_and_copy(areq->iv, areq->dst, offset,
+                                                ivsize, 0);
+               }
+               kfree(rctx->bounce_iv);
+       }
+
+       dma_unmap_single(ce->dev, rctx->addr_key, op->keylen, DMA_TO_DEVICE);
 
        return 0;
 }
@@ -347,9 +397,9 @@ int sun8i_ce_cipher_init(struct crypto_tfm *tfm)
                 crypto_tfm_alg_driver_name(&sktfm->base),
                 crypto_tfm_alg_driver_name(crypto_skcipher_tfm(op->fallback_tfm)));
 
-       op->enginectx.op.do_one_request = sun8i_ce_handle_cipher_request;
-       op->enginectx.op.prepare_request = NULL;
-       op->enginectx.op.unprepare_request = NULL;
+       op->enginectx.op.do_one_request = sun8i_ce_cipher_run;
+       op->enginectx.op.prepare_request = sun8i_ce_cipher_prepare;
+       op->enginectx.op.unprepare_request = sun8i_ce_cipher_unprepare;
 
        err = pm_runtime_get_sync(op->ce->dev);
        if (err < 0)
@@ -366,10 +416,7 @@ void sun8i_ce_cipher_exit(struct crypto_tfm *tfm)
 {
        struct sun8i_cipher_tfm_ctx *op = crypto_tfm_ctx(tfm);
 
-       if (op->key) {
-               memzero_explicit(op->key, op->keylen);
-               kfree(op->key);
-       }
+       kfree_sensitive(op->key);
        crypto_free_skcipher(op->fallback_tfm);
        pm_runtime_put_sync_suspend(op->ce->dev);
 }
@@ -391,10 +438,7 @@ int sun8i_ce_aes_setkey(struct crypto_skcipher *tfm, const u8 *key,
                dev_dbg(ce->dev, "ERROR: Invalid keylen %u\n", keylen);
                return -EINVAL;
        }
-       if (op->key) {
-               memzero_explicit(op->key, op->keylen);
-               kfree(op->key);
-       }
+       kfree_sensitive(op->key);
        op->keylen = keylen;
        op->key = kmemdup(key, keylen, GFP_KERNEL | GFP_DMA);
        if (!op->key)
@@ -416,10 +460,7 @@ int sun8i_ce_des3_setkey(struct crypto_skcipher *tfm, const u8 *key,
        if (err)
                return err;
 
-       if (op->key) {
-               memzero_explicit(op->key, op->keylen);
-               kfree(op->key);
-       }
+       kfree_sensitive(op->key);
        op->keylen = keylen;
        op->key = kmemdup(key, keylen, GFP_KERNEL | GFP_DMA);
        if (!op->key)
index 138759d..158422f 100644 (file)
@@ -22,6 +22,7 @@
 #include <linux/platform_device.h>
 #include <linux/pm_runtime.h>
 #include <linux/reset.h>
+#include <crypto/internal/rng.h>
 #include <crypto/internal/skcipher.h>
 
 #include "sun8i-ce.h"
 static const struct ce_variant ce_h3_variant = {
        .alg_cipher = { CE_ALG_AES, CE_ALG_DES, CE_ALG_3DES,
        },
+       .alg_hash = { CE_ALG_MD5, CE_ALG_SHA1, CE_ALG_SHA224, CE_ALG_SHA256,
+               CE_ALG_SHA384, CE_ALG_SHA512
+       },
        .op_mode = { CE_OP_ECB, CE_OP_CBC
        },
        .ce_clks = {
                { "bus", 0, 200000000 },
                { "mod", 50000000, 0 },
-               }
+               },
+       .esr = ESR_H3,
+       .prng = CE_ALG_PRNG,
+       .trng = CE_ID_NOTSUPP,
 };
 
 static const struct ce_variant ce_h5_variant = {
        .alg_cipher = { CE_ALG_AES, CE_ALG_DES, CE_ALG_3DES,
        },
+       .alg_hash = { CE_ALG_MD5, CE_ALG_SHA1, CE_ALG_SHA224, CE_ALG_SHA256,
+               CE_ID_NOTSUPP, CE_ID_NOTSUPP
+       },
        .op_mode = { CE_OP_ECB, CE_OP_CBC
        },
        .ce_clks = {
                { "bus", 0, 200000000 },
                { "mod", 300000000, 0 },
-               }
+               },
+       .esr = ESR_H5,
+       .prng = CE_ALG_PRNG,
+       .trng = CE_ID_NOTSUPP,
 };
 
 static const struct ce_variant ce_h6_variant = {
        .alg_cipher = { CE_ALG_AES, CE_ALG_DES, CE_ALG_3DES,
        },
+       .alg_hash = { CE_ALG_MD5, CE_ALG_SHA1, CE_ALG_SHA224, CE_ALG_SHA256,
+               CE_ALG_SHA384, CE_ALG_SHA512
+       },
        .op_mode = { CE_OP_ECB, CE_OP_CBC
        },
-       .has_t_dlen_in_bytes = true,
+       .cipher_t_dlen_in_bytes = true,
+       .hash_t_dlen_in_bits = true,
+       .prng_t_dlen_in_bytes = true,
+       .trng_t_dlen_in_bytes = true,
        .ce_clks = {
                { "bus", 0, 200000000 },
                { "mod", 300000000, 0 },
                { "ram", 0, 400000000 },
-               }
+               },
+       .esr = ESR_H6,
+       .prng = CE_ALG_PRNG_V2,
+       .trng = CE_ALG_TRNG_V2,
 };
 
 static const struct ce_variant ce_a64_variant = {
        .alg_cipher = { CE_ALG_AES, CE_ALG_DES, CE_ALG_3DES,
        },
+       .alg_hash = { CE_ALG_MD5, CE_ALG_SHA1, CE_ALG_SHA224, CE_ALG_SHA256,
+               CE_ID_NOTSUPP, CE_ID_NOTSUPP
+       },
        .op_mode = { CE_OP_ECB, CE_OP_CBC
        },
        .ce_clks = {
                { "bus", 0, 200000000 },
                { "mod", 300000000, 0 },
-               }
+               },
+       .esr = ESR_A64,
+       .prng = CE_ALG_PRNG,
+       .trng = CE_ID_NOTSUPP,
 };
 
 static const struct ce_variant ce_r40_variant = {
        .alg_cipher = { CE_ALG_AES, CE_ALG_DES, CE_ALG_3DES,
        },
+       .alg_hash = { CE_ALG_MD5, CE_ALG_SHA1, CE_ALG_SHA224, CE_ALG_SHA256,
+               CE_ID_NOTSUPP, CE_ID_NOTSUPP
+       },
        .op_mode = { CE_OP_ECB, CE_OP_CBC
        },
        .ce_clks = {
                { "bus", 0, 200000000 },
                { "mod", 300000000, 0 },
-               }
+               },
+       .esr = ESR_R40,
+       .prng = CE_ALG_PRNG,
+       .trng = CE_ID_NOTSUPP,
 };
 
 /*
  * sun8i_ce_get_engine_number() get the next channel slot
  * This is a simple round-robin way of getting the next channel
+ * The flow 3 is reserve for xRNG operations
  */
 int sun8i_ce_get_engine_number(struct sun8i_ce_dev *ce)
 {
-       return atomic_inc_return(&ce->flow) % MAXFLOW;
+       return atomic_inc_return(&ce->flow) % (MAXFLOW - 1);
 }
 
 int sun8i_ce_run_task(struct sun8i_ce_dev *ce, int flow, const char *name)
 {
        u32 v;
        int err = 0;
+       struct ce_task *cet = ce->chanlist[flow].tl;
 
 #ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_DEBUG
        ce->chanlist[flow].stat_req++;
@@ -120,7 +156,10 @@ int sun8i_ce_run_task(struct sun8i_ce_dev *ce, int flow, const char *name)
        /* Be sure all data is written before enabling the task */
        wmb();
 
-       v = 1 | (ce->chanlist[flow].tl->t_common_ctl & 0x7F) << 8;
+       /* Only H6 needs to write a part of t_common_ctl along with "1", but since it is ignored
+        * on older SoCs, we have no reason to complicate things.
+        */
+       v = 1 | ((le32_to_cpu(ce->chanlist[flow].tl->t_common_ctl) & 0x7F) << 8);
        writel(v, ce->base + CE_TLR);
        mutex_unlock(&ce->mlock);
 
@@ -128,19 +167,56 @@ int sun8i_ce_run_task(struct sun8i_ce_dev *ce, int flow, const char *name)
                        msecs_to_jiffies(ce->chanlist[flow].timeout));
 
        if (ce->chanlist[flow].status == 0) {
-               dev_err(ce->dev, "DMA timeout for %s\n", name);
+               dev_err(ce->dev, "DMA timeout for %s (tm=%d) on flow %d\n", name,
+                       ce->chanlist[flow].timeout, flow);
                err = -EFAULT;
        }
        /* No need to lock for this read, the channel is locked so
         * nothing could modify the error value for this channel
         */
        v = readl(ce->base + CE_ESR);
-       if (v) {
+       switch (ce->variant->esr) {
+       case ESR_H3:
+               /* Sadly, the error bit is not per flow */
+               if (v) {
+                       dev_err(ce->dev, "CE ERROR: %x for flow %x\n", v, flow);
+                       err = -EFAULT;
+                       print_hex_dump(KERN_INFO, "TASK: ", DUMP_PREFIX_NONE, 16, 4,
+                                      cet, sizeof(struct ce_task), false);
+               }
+               if (v & CE_ERR_ALGO_NOTSUP)
+                       dev_err(ce->dev, "CE ERROR: algorithm not supported\n");
+               if (v & CE_ERR_DATALEN)
+                       dev_err(ce->dev, "CE ERROR: data length error\n");
+               if (v & CE_ERR_KEYSRAM)
+                       dev_err(ce->dev, "CE ERROR: keysram access error for AES\n");
+               break;
+       case ESR_A64:
+       case ESR_H5:
+       case ESR_R40:
                v >>= (flow * 4);
+               v &= 0xF;
+               if (v) {
+                       dev_err(ce->dev, "CE ERROR: %x for flow %x\n", v, flow);
+                       err = -EFAULT;
+                       print_hex_dump(KERN_INFO, "TASK: ", DUMP_PREFIX_NONE, 16, 4,
+                                      cet, sizeof(struct ce_task), false);
+               }
+               if (v & CE_ERR_ALGO_NOTSUP)
+                       dev_err(ce->dev, "CE ERROR: algorithm not supported\n");
+               if (v & CE_ERR_DATALEN)
+                       dev_err(ce->dev, "CE ERROR: data length error\n");
+               if (v & CE_ERR_KEYSRAM)
+                       dev_err(ce->dev, "CE ERROR: keysram access error for AES\n");
+               break;
+       case ESR_H6:
+               v >>= (flow * 8);
                v &= 0xFF;
                if (v) {
                        dev_err(ce->dev, "CE ERROR: %x for flow %x\n", v, flow);
                        err = -EFAULT;
+                       print_hex_dump(KERN_INFO, "TASK: ", DUMP_PREFIX_NONE, 16, 4,
+                                      cet, sizeof(struct ce_task), false);
                }
                if (v & CE_ERR_ALGO_NOTSUP)
                        dev_err(ce->dev, "CE ERROR: algorithm not supported\n");
@@ -150,7 +226,10 @@ int sun8i_ce_run_task(struct sun8i_ce_dev *ce, int flow, const char *name)
                        dev_err(ce->dev, "CE ERROR: keysram access error for AES\n");
                if (v & CE_ERR_ADDR_INVALID)
                        dev_err(ce->dev, "CE ERROR: address invalid\n");
-               }
+               if (v & CE_ERR_KEYLADDER)
+                       dev_err(ce->dev, "CE ERROR: key ladder configuration error\n");
+               break;
+       }
 
        return err;
 }
@@ -280,13 +359,214 @@ static struct sun8i_ce_alg_template ce_algs[] = {
                .decrypt        = sun8i_ce_skdecrypt,
        }
 },
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_HASH
+{      .type = CRYPTO_ALG_TYPE_AHASH,
+       .ce_algo_id = CE_ID_HASH_MD5,
+       .alg.hash = {
+               .init = sun8i_ce_hash_init,
+               .update = sun8i_ce_hash_update,
+               .final = sun8i_ce_hash_final,
+               .finup = sun8i_ce_hash_finup,
+               .digest = sun8i_ce_hash_digest,
+               .export = sun8i_ce_hash_export,
+               .import = sun8i_ce_hash_import,
+               .halg = {
+                       .digestsize = MD5_DIGEST_SIZE,
+                       .statesize = sizeof(struct md5_state),
+                       .base = {
+                               .cra_name = "md5",
+                               .cra_driver_name = "md5-sun8i-ce",
+                               .cra_priority = 300,
+                               .cra_alignmask = 3,
+                               .cra_flags = CRYPTO_ALG_TYPE_AHASH |
+                                       CRYPTO_ALG_ASYNC |
+                                       CRYPTO_ALG_NEED_FALLBACK,
+                               .cra_blocksize = MD5_HMAC_BLOCK_SIZE,
+                               .cra_ctxsize = sizeof(struct sun8i_ce_hash_tfm_ctx),
+                               .cra_module = THIS_MODULE,
+                               .cra_init = sun8i_ce_hash_crainit,
+                               .cra_exit = sun8i_ce_hash_craexit,
+                       }
+               }
+       }
+},
+{      .type = CRYPTO_ALG_TYPE_AHASH,
+       .ce_algo_id = CE_ID_HASH_SHA1,
+       .alg.hash = {
+               .init = sun8i_ce_hash_init,
+               .update = sun8i_ce_hash_update,
+               .final = sun8i_ce_hash_final,
+               .finup = sun8i_ce_hash_finup,
+               .digest = sun8i_ce_hash_digest,
+               .export = sun8i_ce_hash_export,
+               .import = sun8i_ce_hash_import,
+               .halg = {
+                       .digestsize = SHA1_DIGEST_SIZE,
+                       .statesize = sizeof(struct sha1_state),
+                       .base = {
+                               .cra_name = "sha1",
+                               .cra_driver_name = "sha1-sun8i-ce",
+                               .cra_priority = 300,
+                               .cra_alignmask = 3,
+                               .cra_flags = CRYPTO_ALG_TYPE_AHASH |
+                                       CRYPTO_ALG_ASYNC |
+                                       CRYPTO_ALG_NEED_FALLBACK,
+                               .cra_blocksize = SHA1_BLOCK_SIZE,
+                               .cra_ctxsize = sizeof(struct sun8i_ce_hash_tfm_ctx),
+                               .cra_module = THIS_MODULE,
+                               .cra_init = sun8i_ce_hash_crainit,
+                               .cra_exit = sun8i_ce_hash_craexit,
+                       }
+               }
+       }
+},
+{      .type = CRYPTO_ALG_TYPE_AHASH,
+       .ce_algo_id = CE_ID_HASH_SHA224,
+       .alg.hash = {
+               .init = sun8i_ce_hash_init,
+               .update = sun8i_ce_hash_update,
+               .final = sun8i_ce_hash_final,
+               .finup = sun8i_ce_hash_finup,
+               .digest = sun8i_ce_hash_digest,
+               .export = sun8i_ce_hash_export,
+               .import = sun8i_ce_hash_import,
+               .halg = {
+                       .digestsize = SHA224_DIGEST_SIZE,
+                       .statesize = sizeof(struct sha256_state),
+                       .base = {
+                               .cra_name = "sha224",
+                               .cra_driver_name = "sha224-sun8i-ce",
+                               .cra_priority = 300,
+                               .cra_alignmask = 3,
+                               .cra_flags = CRYPTO_ALG_TYPE_AHASH |
+                                       CRYPTO_ALG_ASYNC |
+                                       CRYPTO_ALG_NEED_FALLBACK,
+                               .cra_blocksize = SHA224_BLOCK_SIZE,
+                               .cra_ctxsize = sizeof(struct sun8i_ce_hash_tfm_ctx),
+                               .cra_module = THIS_MODULE,
+                               .cra_init = sun8i_ce_hash_crainit,
+                               .cra_exit = sun8i_ce_hash_craexit,
+                       }
+               }
+       }
+},
+{      .type = CRYPTO_ALG_TYPE_AHASH,
+       .ce_algo_id = CE_ID_HASH_SHA256,
+       .alg.hash = {
+               .init = sun8i_ce_hash_init,
+               .update = sun8i_ce_hash_update,
+               .final = sun8i_ce_hash_final,
+               .finup = sun8i_ce_hash_finup,
+               .digest = sun8i_ce_hash_digest,
+               .export = sun8i_ce_hash_export,
+               .import = sun8i_ce_hash_import,
+               .halg = {
+                       .digestsize = SHA256_DIGEST_SIZE,
+                       .statesize = sizeof(struct sha256_state),
+                       .base = {
+                               .cra_name = "sha256",
+                               .cra_driver_name = "sha256-sun8i-ce",
+                               .cra_priority = 300,
+                               .cra_alignmask = 3,
+                               .cra_flags = CRYPTO_ALG_TYPE_AHASH |
+                                       CRYPTO_ALG_ASYNC |
+                                       CRYPTO_ALG_NEED_FALLBACK,
+                               .cra_blocksize = SHA256_BLOCK_SIZE,
+                               .cra_ctxsize = sizeof(struct sun8i_ce_hash_tfm_ctx),
+                               .cra_module = THIS_MODULE,
+                               .cra_init = sun8i_ce_hash_crainit,
+                               .cra_exit = sun8i_ce_hash_craexit,
+                       }
+               }
+       }
+},
+{      .type = CRYPTO_ALG_TYPE_AHASH,
+       .ce_algo_id = CE_ID_HASH_SHA384,
+       .alg.hash = {
+               .init = sun8i_ce_hash_init,
+               .update = sun8i_ce_hash_update,
+               .final = sun8i_ce_hash_final,
+               .finup = sun8i_ce_hash_finup,
+               .digest = sun8i_ce_hash_digest,
+               .export = sun8i_ce_hash_export,
+               .import = sun8i_ce_hash_import,
+               .halg = {
+                       .digestsize = SHA384_DIGEST_SIZE,
+                       .statesize = sizeof(struct sha512_state),
+                       .base = {
+                               .cra_name = "sha384",
+                               .cra_driver_name = "sha384-sun8i-ce",
+                               .cra_priority = 300,
+                               .cra_alignmask = 3,
+                               .cra_flags = CRYPTO_ALG_TYPE_AHASH |
+                                       CRYPTO_ALG_ASYNC |
+                                       CRYPTO_ALG_NEED_FALLBACK,
+                               .cra_blocksize = SHA384_BLOCK_SIZE,
+                               .cra_ctxsize = sizeof(struct sun8i_ce_hash_tfm_ctx),
+                               .cra_module = THIS_MODULE,
+                               .cra_init = sun8i_ce_hash_crainit,
+                               .cra_exit = sun8i_ce_hash_craexit,
+                       }
+               }
+       }
+},
+{      .type = CRYPTO_ALG_TYPE_AHASH,
+       .ce_algo_id = CE_ID_HASH_SHA512,
+       .alg.hash = {
+               .init = sun8i_ce_hash_init,
+               .update = sun8i_ce_hash_update,
+               .final = sun8i_ce_hash_final,
+               .finup = sun8i_ce_hash_finup,
+               .digest = sun8i_ce_hash_digest,
+               .export = sun8i_ce_hash_export,
+               .import = sun8i_ce_hash_import,
+               .halg = {
+                       .digestsize = SHA512_DIGEST_SIZE,
+                       .statesize = sizeof(struct sha512_state),
+                       .base = {
+                               .cra_name = "sha512",
+                               .cra_driver_name = "sha512-sun8i-ce",
+                               .cra_priority = 300,
+                               .cra_alignmask = 3,
+                               .cra_flags = CRYPTO_ALG_TYPE_AHASH |
+                                       CRYPTO_ALG_ASYNC |
+                                       CRYPTO_ALG_NEED_FALLBACK,
+                               .cra_blocksize = SHA512_BLOCK_SIZE,
+                               .cra_ctxsize = sizeof(struct sun8i_ce_hash_tfm_ctx),
+                               .cra_module = THIS_MODULE,
+                               .cra_init = sun8i_ce_hash_crainit,
+                               .cra_exit = sun8i_ce_hash_craexit,
+                       }
+               }
+       }
+},
+#endif
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_PRNG
+{
+       .type = CRYPTO_ALG_TYPE_RNG,
+       .alg.rng = {
+               .base = {
+                       .cra_name               = "stdrng",
+                       .cra_driver_name        = "sun8i-ce-prng",
+                       .cra_priority           = 300,
+                       .cra_ctxsize            = sizeof(struct sun8i_ce_rng_tfm_ctx),
+                       .cra_module             = THIS_MODULE,
+                       .cra_init               = sun8i_ce_prng_init,
+                       .cra_exit               = sun8i_ce_prng_exit,
+               },
+               .generate               = sun8i_ce_prng_generate,
+               .seed                   = sun8i_ce_prng_seed,
+               .seedsize               = PRNG_SEED_SIZE,
+       }
+},
+#endif
 };
 
 #ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_DEBUG
-static int sun8i_ce_dbgfs_read(struct seq_file *seq, void *v)
+static int sun8i_ce_debugfs_show(struct seq_file *seq, void *v)
 {
        struct sun8i_ce_dev *ce = seq->private;
-       int i;
+       unsigned int i;
 
        for (i = 0; i < MAXFLOW; i++)
                seq_printf(seq, "Channel %d: nreq %lu\n", i, ce->chanlist[i].stat_req);
@@ -301,23 +581,28 @@ static int sun8i_ce_dbgfs_read(struct seq_file *seq, void *v)
                                   ce_algs[i].alg.skcipher.base.cra_name,
                                   ce_algs[i].stat_req, ce_algs[i].stat_fb);
                        break;
+               case CRYPTO_ALG_TYPE_AHASH:
+                       seq_printf(seq, "%s %s %lu %lu\n",
+                                  ce_algs[i].alg.hash.halg.base.cra_driver_name,
+                                  ce_algs[i].alg.hash.halg.base.cra_name,
+                                  ce_algs[i].stat_req, ce_algs[i].stat_fb);
+                       break;
+               case CRYPTO_ALG_TYPE_RNG:
+                       seq_printf(seq, "%s %s %lu %lu\n",
+                                  ce_algs[i].alg.rng.base.cra_driver_name,
+                                  ce_algs[i].alg.rng.base.cra_name,
+                                  ce_algs[i].stat_req, ce_algs[i].stat_bytes);
+                       break;
                }
        }
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_TRNG
+       seq_printf(seq, "HWRNG %lu %lu\n",
+                  ce->hwrng_stat_req, ce->hwrng_stat_bytes);
+#endif
        return 0;
 }
 
-static int sun8i_ce_dbgfs_open(struct inode *inode, struct file *file)
-{
-       return single_open(file, sun8i_ce_dbgfs_read, inode->i_private);
-}
-
-static const struct file_operations sun8i_ce_debugfs_fops = {
-       .owner = THIS_MODULE,
-       .open = sun8i_ce_dbgfs_open,
-       .read = seq_read,
-       .llseek = seq_lseek,
-       .release = single_release,
-};
+DEFINE_SHOW_ATTRIBUTE(sun8i_ce_debugfs);
 #endif
 
 static void sun8i_ce_free_chanlist(struct sun8i_ce_dev *ce, int i)
@@ -482,7 +767,8 @@ static int sun8i_ce_get_clks(struct sun8i_ce_dev *ce)
 
 static int sun8i_ce_register_algs(struct sun8i_ce_dev *ce)
 {
-       int ce_method, err, id, i;
+       int ce_method, err, id;
+       unsigned int i;
 
        for (i = 0; i < ARRAY_SIZE(ce_algs); i++) {
                ce_algs[i].ce = ce;
@@ -515,6 +801,43 @@ static int sun8i_ce_register_algs(struct sun8i_ce_dev *ce)
                                return err;
                        }
                        break;
+               case CRYPTO_ALG_TYPE_AHASH:
+                       id = ce_algs[i].ce_algo_id;
+                       ce_method = ce->variant->alg_hash[id];
+                       if (ce_method == CE_ID_NOTSUPP) {
+                               dev_info(ce->dev,
+                                        "DEBUG: Algo of %s not supported\n",
+                                        ce_algs[i].alg.hash.halg.base.cra_name);
+                               ce_algs[i].ce = NULL;
+                               break;
+                       }
+                       dev_info(ce->dev, "Register %s\n",
+                                ce_algs[i].alg.hash.halg.base.cra_name);
+                       err = crypto_register_ahash(&ce_algs[i].alg.hash);
+                       if (err) {
+                               dev_err(ce->dev, "ERROR: Fail to register %s\n",
+                                       ce_algs[i].alg.hash.halg.base.cra_name);
+                               ce_algs[i].ce = NULL;
+                               return err;
+                       }
+                       break;
+               case CRYPTO_ALG_TYPE_RNG:
+                       if (ce->variant->prng == CE_ID_NOTSUPP) {
+                               dev_info(ce->dev,
+                                        "DEBUG: Algo of %s not supported\n",
+                                        ce_algs[i].alg.rng.base.cra_name);
+                               ce_algs[i].ce = NULL;
+                               break;
+                       }
+                       dev_info(ce->dev, "Register %s\n",
+                                ce_algs[i].alg.rng.base.cra_name);
+                       err = crypto_register_rng(&ce_algs[i].alg.rng);
+                       if (err) {
+                               dev_err(ce->dev, "Fail to register %s\n",
+                                       ce_algs[i].alg.rng.base.cra_name);
+                               ce_algs[i].ce = NULL;
+                       }
+                       break;
                default:
                        ce_algs[i].ce = NULL;
                        dev_err(ce->dev, "ERROR: tried to register an unknown algo\n");
@@ -525,7 +848,7 @@ static int sun8i_ce_register_algs(struct sun8i_ce_dev *ce)
 
 static void sun8i_ce_unregister_algs(struct sun8i_ce_dev *ce)
 {
-       int i;
+       unsigned int i;
 
        for (i = 0; i < ARRAY_SIZE(ce_algs); i++) {
                if (!ce_algs[i].ce)
@@ -536,6 +859,16 @@ static void sun8i_ce_unregister_algs(struct sun8i_ce_dev *ce)
                                 ce_algs[i].alg.skcipher.base.cra_name);
                        crypto_unregister_skcipher(&ce_algs[i].alg.skcipher);
                        break;
+               case CRYPTO_ALG_TYPE_AHASH:
+                       dev_info(ce->dev, "Unregister %d %s\n", i,
+                                ce_algs[i].alg.hash.halg.base.cra_name);
+                       crypto_unregister_ahash(&ce_algs[i].alg.hash);
+                       break;
+               case CRYPTO_ALG_TYPE_RNG:
+                       dev_info(ce->dev, "Unregister %d %s\n", i,
+                                ce_algs[i].alg.rng.base.cra_name);
+                       crypto_unregister_rng(&ce_algs[i].alg.rng);
+                       break;
                }
        }
 }
@@ -573,14 +906,12 @@ static int sun8i_ce_probe(struct platform_device *pdev)
                return irq;
 
        ce->reset = devm_reset_control_get(&pdev->dev, NULL);
-       if (IS_ERR(ce->reset)) {
-               if (PTR_ERR(ce->reset) == -EPROBE_DEFER)
-                       return PTR_ERR(ce->reset);
-               dev_err(&pdev->dev, "No reset control found\n");
-               return PTR_ERR(ce->reset);
-       }
+       if (IS_ERR(ce->reset))
+               return dev_err_probe(&pdev->dev, PTR_ERR(ce->reset),
+                                    "No reset control found\n");
 
        mutex_init(&ce->mlock);
+       mutex_init(&ce->rnglock);
 
        err = sun8i_ce_allocate_chanlist(ce);
        if (err)
@@ -605,6 +936,10 @@ static int sun8i_ce_probe(struct platform_device *pdev)
        if (err < 0)
                goto error_alg;
 
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_TRNG
+       sun8i_ce_hwrng_register(ce);
+#endif
+
        v = readl(ce->base + CE_CTR);
        v >>= CE_DIE_ID_SHIFT;
        v &= CE_DIE_ID_MASK;
@@ -634,6 +969,10 @@ static int sun8i_ce_remove(struct platform_device *pdev)
 {
        struct sun8i_ce_dev *ce = platform_get_drvdata(pdev);
 
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_TRNG
+       sun8i_ce_hwrng_unregister(ce);
+#endif
+
        sun8i_ce_unregister_algs(ce);
 
 #ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_DEBUG
diff --git a/drivers/crypto/allwinner/sun8i-ce/sun8i-ce-hash.c b/drivers/crypto/allwinner/sun8i-ce/sun8i-ce-hash.c
new file mode 100644 (file)
index 0000000..fa2f1b4
--- /dev/null
@@ -0,0 +1,413 @@
+// SPDX-License-Identifier: GPL-2.0
+/*
+ * sun8i-ce-hash.c - hardware cryptographic offloader for
+ * Allwinner H3/A64/H5/H2+/H6/R40 SoC
+ *
+ * Copyright (C) 2015-2020 Corentin Labbe <clabbe@baylibre.com>
+ *
+ * This file add support for MD5 and SHA1/SHA224/SHA256/SHA384/SHA512.
+ *
+ * You could find the datasheet in Documentation/arm/sunxi/README
+ */
+#include <linux/dma-mapping.h>
+#include <linux/pm_runtime.h>
+#include <linux/scatterlist.h>
+#include <crypto/internal/hash.h>
+#include <crypto/sha.h>
+#include <crypto/md5.h>
+#include "sun8i-ce.h"
+
+int sun8i_ce_hash_crainit(struct crypto_tfm *tfm)
+{
+       struct sun8i_ce_hash_tfm_ctx *op = crypto_tfm_ctx(tfm);
+       struct ahash_alg *alg = __crypto_ahash_alg(tfm->__crt_alg);
+       struct sun8i_ce_alg_template *algt;
+       int err;
+
+       memset(op, 0, sizeof(struct sun8i_ce_hash_tfm_ctx));
+
+       algt = container_of(alg, struct sun8i_ce_alg_template, alg.hash);
+       op->ce = algt->ce;
+
+       op->enginectx.op.do_one_request = sun8i_ce_hash_run;
+       op->enginectx.op.prepare_request = NULL;
+       op->enginectx.op.unprepare_request = NULL;
+
+       /* FALLBACK */
+       op->fallback_tfm = crypto_alloc_ahash(crypto_tfm_alg_name(tfm), 0,
+                                             CRYPTO_ALG_NEED_FALLBACK);
+       if (IS_ERR(op->fallback_tfm)) {
+               dev_err(algt->ce->dev, "Fallback driver could no be loaded\n");
+               return PTR_ERR(op->fallback_tfm);
+       }
+
+       if (algt->alg.hash.halg.statesize < crypto_ahash_statesize(op->fallback_tfm))
+               algt->alg.hash.halg.statesize = crypto_ahash_statesize(op->fallback_tfm);
+
+       crypto_ahash_set_reqsize(__crypto_ahash_cast(tfm),
+                                sizeof(struct sun8i_ce_hash_reqctx) +
+                                crypto_ahash_reqsize(op->fallback_tfm));
+
+       dev_info(op->ce->dev, "Fallback for %s is %s\n",
+                crypto_tfm_alg_driver_name(tfm),
+                crypto_tfm_alg_driver_name(&op->fallback_tfm->base));
+       err = pm_runtime_get_sync(op->ce->dev);
+       if (err < 0)
+               goto error_pm;
+       return 0;
+error_pm:
+       pm_runtime_put_noidle(op->ce->dev);
+       crypto_free_ahash(op->fallback_tfm);
+       return err;
+}
+
+void sun8i_ce_hash_craexit(struct crypto_tfm *tfm)
+{
+       struct sun8i_ce_hash_tfm_ctx *tfmctx = crypto_tfm_ctx(tfm);
+
+       crypto_free_ahash(tfmctx->fallback_tfm);
+       pm_runtime_put_sync_suspend(tfmctx->ce->dev);
+}
+
+int sun8i_ce_hash_init(struct ahash_request *areq)
+{
+       struct sun8i_ce_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct sun8i_ce_hash_tfm_ctx *tfmctx = crypto_ahash_ctx(tfm);
+
+       memset(rctx, 0, sizeof(struct sun8i_ce_hash_reqctx));
+
+       ahash_request_set_tfm(&rctx->fallback_req, tfmctx->fallback_tfm);
+       rctx->fallback_req.base.flags = areq->base.flags & CRYPTO_TFM_REQ_MAY_SLEEP;
+
+       return crypto_ahash_init(&rctx->fallback_req);
+}
+
+int sun8i_ce_hash_export(struct ahash_request *areq, void *out)
+{
+       struct sun8i_ce_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct sun8i_ce_hash_tfm_ctx *tfmctx = crypto_ahash_ctx(tfm);
+
+       ahash_request_set_tfm(&rctx->fallback_req, tfmctx->fallback_tfm);
+       rctx->fallback_req.base.flags = areq->base.flags & CRYPTO_TFM_REQ_MAY_SLEEP;
+
+       return crypto_ahash_export(&rctx->fallback_req, out);
+}
+
+int sun8i_ce_hash_import(struct ahash_request *areq, const void *in)
+{
+       struct sun8i_ce_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct sun8i_ce_hash_tfm_ctx *tfmctx = crypto_ahash_ctx(tfm);
+
+       ahash_request_set_tfm(&rctx->fallback_req, tfmctx->fallback_tfm);
+       rctx->fallback_req.base.flags = areq->base.flags & CRYPTO_TFM_REQ_MAY_SLEEP;
+
+       return crypto_ahash_import(&rctx->fallback_req, in);
+}
+
+int sun8i_ce_hash_final(struct ahash_request *areq)
+{
+       struct sun8i_ce_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct sun8i_ce_hash_tfm_ctx *tfmctx = crypto_ahash_ctx(tfm);
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_DEBUG
+       struct ahash_alg *alg = __crypto_ahash_alg(tfm->base.__crt_alg);
+       struct sun8i_ce_alg_template *algt;
+#endif
+
+       ahash_request_set_tfm(&rctx->fallback_req, tfmctx->fallback_tfm);
+       rctx->fallback_req.base.flags = areq->base.flags &
+                                       CRYPTO_TFM_REQ_MAY_SLEEP;
+       rctx->fallback_req.result = areq->result;
+
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_DEBUG
+       algt = container_of(alg, struct sun8i_ce_alg_template, alg.hash);
+       algt->stat_fb++;
+#endif
+
+       return crypto_ahash_final(&rctx->fallback_req);
+}
+
+int sun8i_ce_hash_update(struct ahash_request *areq)
+{
+       struct sun8i_ce_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct sun8i_ce_hash_tfm_ctx *tfmctx = crypto_ahash_ctx(tfm);
+
+       ahash_request_set_tfm(&rctx->fallback_req, tfmctx->fallback_tfm);
+       rctx->fallback_req.base.flags = areq->base.flags &
+                                       CRYPTO_TFM_REQ_MAY_SLEEP;
+       rctx->fallback_req.nbytes = areq->nbytes;
+       rctx->fallback_req.src = areq->src;
+
+       return crypto_ahash_update(&rctx->fallback_req);
+}
+
+int sun8i_ce_hash_finup(struct ahash_request *areq)
+{
+       struct sun8i_ce_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct sun8i_ce_hash_tfm_ctx *tfmctx = crypto_ahash_ctx(tfm);
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_DEBUG
+       struct ahash_alg *alg = __crypto_ahash_alg(tfm->base.__crt_alg);
+       struct sun8i_ce_alg_template *algt;
+#endif
+
+       ahash_request_set_tfm(&rctx->fallback_req, tfmctx->fallback_tfm);
+       rctx->fallback_req.base.flags = areq->base.flags &
+                                       CRYPTO_TFM_REQ_MAY_SLEEP;
+
+       rctx->fallback_req.nbytes = areq->nbytes;
+       rctx->fallback_req.src = areq->src;
+       rctx->fallback_req.result = areq->result;
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_DEBUG
+       algt = container_of(alg, struct sun8i_ce_alg_template, alg.hash);
+       algt->stat_fb++;
+#endif
+
+       return crypto_ahash_finup(&rctx->fallback_req);
+}
+
+static int sun8i_ce_hash_digest_fb(struct ahash_request *areq)
+{
+       struct sun8i_ce_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct sun8i_ce_hash_tfm_ctx *tfmctx = crypto_ahash_ctx(tfm);
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_DEBUG
+       struct ahash_alg *alg = __crypto_ahash_alg(tfm->base.__crt_alg);
+       struct sun8i_ce_alg_template *algt;
+#endif
+
+       ahash_request_set_tfm(&rctx->fallback_req, tfmctx->fallback_tfm);
+       rctx->fallback_req.base.flags = areq->base.flags &
+                                       CRYPTO_TFM_REQ_MAY_SLEEP;
+
+       rctx->fallback_req.nbytes = areq->nbytes;
+       rctx->fallback_req.src = areq->src;
+       rctx->fallback_req.result = areq->result;
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_DEBUG
+       algt = container_of(alg, struct sun8i_ce_alg_template, alg.hash);
+       algt->stat_fb++;
+#endif
+
+       return crypto_ahash_digest(&rctx->fallback_req);
+}
+
+static bool sun8i_ce_hash_need_fallback(struct ahash_request *areq)
+{
+       struct scatterlist *sg;
+
+       if (areq->nbytes == 0)
+               return true;
+       /* we need to reserve one SG for padding one */
+       if (sg_nents(areq->src) > MAX_SG - 1)
+               return true;
+       sg = areq->src;
+       while (sg) {
+               if (sg->length % 4 || !IS_ALIGNED(sg->offset, sizeof(u32)))
+                       return true;
+               sg = sg_next(sg);
+       }
+       return false;
+}
+
+int sun8i_ce_hash_digest(struct ahash_request *areq)
+{
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct ahash_alg *alg = __crypto_ahash_alg(tfm->base.__crt_alg);
+       struct sun8i_ce_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct sun8i_ce_alg_template *algt;
+       struct sun8i_ce_dev *ce;
+       struct crypto_engine *engine;
+       struct scatterlist *sg;
+       int nr_sgs, e, i;
+
+       if (sun8i_ce_hash_need_fallback(areq))
+               return sun8i_ce_hash_digest_fb(areq);
+
+       nr_sgs = sg_nents(areq->src);
+       if (nr_sgs > MAX_SG - 1)
+               return sun8i_ce_hash_digest_fb(areq);
+
+       for_each_sg(areq->src, sg, nr_sgs, i) {
+               if (sg->length % 4 || !IS_ALIGNED(sg->offset, sizeof(u32)))
+                       return sun8i_ce_hash_digest_fb(areq);
+       }
+
+       algt = container_of(alg, struct sun8i_ce_alg_template, alg.hash);
+       ce = algt->ce;
+
+       e = sun8i_ce_get_engine_number(ce);
+       rctx->flow = e;
+       engine = ce->chanlist[e].engine;
+
+       return crypto_transfer_hash_request_to_engine(engine, areq);
+}
+
+int sun8i_ce_hash_run(struct crypto_engine *engine, void *breq)
+{
+       struct ahash_request *areq = container_of(breq, struct ahash_request, base);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct ahash_alg *alg = __crypto_ahash_alg(tfm->base.__crt_alg);
+       struct sun8i_ce_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct sun8i_ce_alg_template *algt;
+       struct sun8i_ce_dev *ce;
+       struct sun8i_ce_flow *chan;
+       struct ce_task *cet;
+       struct scatterlist *sg;
+       int nr_sgs, flow, err;
+       unsigned int len;
+       u32 common;
+       u64 byte_count;
+       __le32 *bf;
+       void *buf;
+       int j, i, todo;
+       int nbw = 0;
+       u64 fill, min_fill;
+       __be64 *bebits;
+       __le64 *lebits;
+       void *result;
+       u64 bs;
+       int digestsize;
+       dma_addr_t addr_res, addr_pad;
+
+       algt = container_of(alg, struct sun8i_ce_alg_template, alg.hash);
+       ce = algt->ce;
+
+       bs = algt->alg.hash.halg.base.cra_blocksize;
+       digestsize = algt->alg.hash.halg.digestsize;
+       if (digestsize == SHA224_DIGEST_SIZE)
+               digestsize = SHA256_DIGEST_SIZE;
+       if (digestsize == SHA384_DIGEST_SIZE)
+               digestsize = SHA512_DIGEST_SIZE;
+
+       /* the padding could be up to two block. */
+       buf = kzalloc(bs * 2, GFP_KERNEL | GFP_DMA);
+       if (!buf)
+               return -ENOMEM;
+       bf = (__le32 *)buf;
+
+       result = kzalloc(digestsize, GFP_KERNEL | GFP_DMA);
+       if (!result)
+               return -ENOMEM;
+
+       flow = rctx->flow;
+       chan = &ce->chanlist[flow];
+
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_DEBUG
+       algt->stat_req++;
+#endif
+       dev_dbg(ce->dev, "%s %s len=%d\n", __func__, crypto_tfm_alg_name(areq->base.tfm), areq->nbytes);
+
+       cet = chan->tl;
+       memset(cet, 0, sizeof(struct ce_task));
+
+       cet->t_id = cpu_to_le32(flow);
+       common = ce->variant->alg_hash[algt->ce_algo_id];
+       common |= CE_COMM_INT;
+       cet->t_common_ctl = cpu_to_le32(common);
+
+       cet->t_sym_ctl = 0;
+       cet->t_asym_ctl = 0;
+
+       nr_sgs = dma_map_sg(ce->dev, areq->src, sg_nents(areq->src), DMA_TO_DEVICE);
+       if (nr_sgs <= 0 || nr_sgs > MAX_SG) {
+               dev_err(ce->dev, "Invalid sg number %d\n", nr_sgs);
+               err = -EINVAL;
+               goto theend;
+       }
+
+       len = areq->nbytes;
+       for_each_sg(areq->src, sg, nr_sgs, i) {
+               cet->t_src[i].addr = cpu_to_le32(sg_dma_address(sg));
+               todo = min(len, sg_dma_len(sg));
+               cet->t_src[i].len = cpu_to_le32(todo / 4);
+               len -= todo;
+       }
+       if (len > 0) {
+               dev_err(ce->dev, "remaining len %d\n", len);
+               err = -EINVAL;
+               goto theend;
+       }
+       addr_res = dma_map_single(ce->dev, result, digestsize, DMA_FROM_DEVICE);
+       cet->t_dst[0].addr = cpu_to_le32(addr_res);
+       cet->t_dst[0].len = cpu_to_le32(digestsize / 4);
+       if (dma_mapping_error(ce->dev, addr_res)) {
+               dev_err(ce->dev, "DMA map dest\n");
+               err = -EINVAL;
+               goto theend;
+       }
+
+       byte_count = areq->nbytes;
+       j = 0;
+       bf[j++] = cpu_to_le32(0x80);
+
+       if (bs == 64) {
+               fill = 64 - (byte_count % 64);
+               min_fill = 2 * sizeof(u32) + (nbw ? 0 : sizeof(u32));
+       } else {
+               fill = 128 - (byte_count % 128);
+               min_fill = 4 * sizeof(u32) + (nbw ? 0 : sizeof(u32));
+       }
+
+       if (fill < min_fill)
+               fill += bs;
+
+       j += (fill - min_fill) / sizeof(u32);
+
+       switch (algt->ce_algo_id) {
+       case CE_ID_HASH_MD5:
+               lebits = (__le64 *)&bf[j];
+               *lebits = cpu_to_le64(byte_count << 3);
+               j += 2;
+               break;
+       case CE_ID_HASH_SHA1:
+       case CE_ID_HASH_SHA224:
+       case CE_ID_HASH_SHA256:
+               bebits = (__be64 *)&bf[j];
+               *bebits = cpu_to_be64(byte_count << 3);
+               j += 2;
+               break;
+       case CE_ID_HASH_SHA384:
+       case CE_ID_HASH_SHA512:
+               bebits = (__be64 *)&bf[j];
+               *bebits = cpu_to_be64(byte_count >> 61);
+               j += 2;
+               bebits = (__be64 *)&bf[j];
+               *bebits = cpu_to_be64(byte_count << 3);
+               j += 2;
+               break;
+       }
+
+       addr_pad = dma_map_single(ce->dev, buf, j * 4, DMA_TO_DEVICE);
+       cet->t_src[i].addr = cpu_to_le32(addr_pad);
+       cet->t_src[i].len = cpu_to_le32(j);
+       if (dma_mapping_error(ce->dev, addr_pad)) {
+               dev_err(ce->dev, "DMA error on padding SG\n");
+               err = -EINVAL;
+               goto theend;
+       }
+
+       if (ce->variant->hash_t_dlen_in_bits)
+               cet->t_dlen = cpu_to_le32((areq->nbytes + j * 4) * 8);
+       else
+               cet->t_dlen = cpu_to_le32(areq->nbytes / 4 + j);
+
+       chan->timeout = areq->nbytes;
+
+       err = sun8i_ce_run_task(ce, flow, crypto_tfm_alg_name(areq->base.tfm));
+
+       dma_unmap_single(ce->dev, addr_pad, j * 4, DMA_TO_DEVICE);
+       dma_unmap_sg(ce->dev, areq->src, nr_sgs, DMA_TO_DEVICE);
+       dma_unmap_single(ce->dev, addr_res, digestsize, DMA_FROM_DEVICE);
+
+       kfree(buf);
+
+       memcpy(areq->result, result, algt->alg.hash.halg.digestsize);
+       kfree(result);
+theend:
+       crypto_finalize_hash_request(engine, breq, err);
+       return 0;
+}
diff --git a/drivers/crypto/allwinner/sun8i-ce/sun8i-ce-prng.c b/drivers/crypto/allwinner/sun8i-ce/sun8i-ce-prng.c
new file mode 100644 (file)
index 0000000..7850300
--- /dev/null
@@ -0,0 +1,164 @@
+// SPDX-License-Identifier: GPL-2.0
+/*
+ * sun8i-ce-prng.c - hardware cryptographic offloader for
+ * Allwinner H3/A64/H5/H2+/H6/R40 SoC
+ *
+ * Copyright (C) 2015-2020 Corentin Labbe <clabbe@baylibre.com>
+ *
+ * This file handle the PRNG
+ *
+ * You could find a link for the datasheet in Documentation/arm/sunxi/README
+ */
+#include "sun8i-ce.h"
+#include <linux/dma-mapping.h>
+#include <linux/pm_runtime.h>
+#include <crypto/internal/rng.h>
+
+int sun8i_ce_prng_init(struct crypto_tfm *tfm)
+{
+       struct sun8i_ce_rng_tfm_ctx *ctx = crypto_tfm_ctx(tfm);
+
+       memset(ctx, 0, sizeof(struct sun8i_ce_rng_tfm_ctx));
+       return 0;
+}
+
+void sun8i_ce_prng_exit(struct crypto_tfm *tfm)
+{
+       struct sun8i_ce_rng_tfm_ctx *ctx = crypto_tfm_ctx(tfm);
+
+       memzero_explicit(ctx->seed, ctx->slen);
+       kfree(ctx->seed);
+       ctx->seed = NULL;
+       ctx->slen = 0;
+}
+
+int sun8i_ce_prng_seed(struct crypto_rng *tfm, const u8 *seed,
+                      unsigned int slen)
+{
+       struct sun8i_ce_rng_tfm_ctx *ctx = crypto_rng_ctx(tfm);
+
+       if (ctx->seed && ctx->slen != slen) {
+               memzero_explicit(ctx->seed, ctx->slen);
+               kfree(ctx->seed);
+               ctx->slen = 0;
+               ctx->seed = NULL;
+       }
+       if (!ctx->seed)
+               ctx->seed = kmalloc(slen, GFP_KERNEL | GFP_DMA);
+       if (!ctx->seed)
+               return -ENOMEM;
+
+       memcpy(ctx->seed, seed, slen);
+       ctx->slen = slen;
+
+       return 0;
+}
+
+int sun8i_ce_prng_generate(struct crypto_rng *tfm, const u8 *src,
+                          unsigned int slen, u8 *dst, unsigned int dlen)
+{
+       struct sun8i_ce_rng_tfm_ctx *ctx = crypto_rng_ctx(tfm);
+       struct rng_alg *alg = crypto_rng_alg(tfm);
+       struct sun8i_ce_alg_template *algt;
+       struct sun8i_ce_dev *ce;
+       dma_addr_t dma_iv, dma_dst;
+       int err = 0;
+       int flow = 3;
+       unsigned int todo;
+       struct sun8i_ce_flow *chan;
+       struct ce_task *cet;
+       u32 common, sym;
+       void *d;
+
+       algt = container_of(alg, struct sun8i_ce_alg_template, alg.rng);
+       ce = algt->ce;
+
+       if (ctx->slen == 0) {
+               dev_err(ce->dev, "not seeded\n");
+               return -EINVAL;
+       }
+
+       /* we want dlen + seedsize rounded up to a multiple of PRNG_DATA_SIZE */
+       todo = dlen + ctx->slen + PRNG_DATA_SIZE * 2;
+       todo -= todo % PRNG_DATA_SIZE;
+
+       d = kzalloc(todo, GFP_KERNEL | GFP_DMA);
+       if (!d) {
+               err = -ENOMEM;
+               goto err_mem;
+       }
+
+       dev_dbg(ce->dev, "%s PRNG slen=%u dlen=%u todo=%u multi=%u\n", __func__,
+               slen, dlen, todo, todo / PRNG_DATA_SIZE);
+
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_DEBUG
+       algt->stat_req++;
+       algt->stat_bytes += todo;
+#endif
+
+       dma_iv = dma_map_single(ce->dev, ctx->seed, ctx->slen, DMA_TO_DEVICE);
+       if (dma_mapping_error(ce->dev, dma_iv)) {
+               dev_err(ce->dev, "Cannot DMA MAP IV\n");
+               goto err_iv;
+       }
+
+       dma_dst = dma_map_single(ce->dev, d, todo, DMA_FROM_DEVICE);
+       if (dma_mapping_error(ce->dev, dma_dst)) {
+               dev_err(ce->dev, "Cannot DMA MAP DST\n");
+               err = -EFAULT;
+               goto err_dst;
+       }
+
+       err = pm_runtime_get_sync(ce->dev);
+       if (err < 0) {
+               pm_runtime_put_noidle(ce->dev);
+               goto err_pm;
+       }
+
+       mutex_lock(&ce->rnglock);
+       chan = &ce->chanlist[flow];
+
+       cet = &chan->tl[0];
+       memset(cet, 0, sizeof(struct ce_task));
+
+       cet->t_id = cpu_to_le32(flow);
+       common = ce->variant->prng | CE_COMM_INT;
+       cet->t_common_ctl = cpu_to_le32(common);
+
+       /* recent CE (H6) need length in bytes, in word otherwise */
+       if (ce->variant->prng_t_dlen_in_bytes)
+               cet->t_dlen = cpu_to_le32(todo);
+       else
+               cet->t_dlen = cpu_to_le32(todo / 4);
+
+       sym = PRNG_LD;
+       cet->t_sym_ctl = cpu_to_le32(sym);
+       cet->t_asym_ctl = 0;
+
+       cet->t_key = cpu_to_le32(dma_iv);
+       cet->t_iv = cpu_to_le32(dma_iv);
+
+       cet->t_dst[0].addr = cpu_to_le32(dma_dst);
+       cet->t_dst[0].len = cpu_to_le32(todo / 4);
+       ce->chanlist[flow].timeout = 2000;
+
+       err = sun8i_ce_run_task(ce, 3, "PRNG");
+       mutex_unlock(&ce->rnglock);
+
+       pm_runtime_put(ce->dev);
+
+err_pm:
+       dma_unmap_single(ce->dev, dma_dst, todo, DMA_FROM_DEVICE);
+err_dst:
+       dma_unmap_single(ce->dev, dma_iv, ctx->slen, DMA_TO_DEVICE);
+
+       if (!err) {
+               memcpy(dst, d, dlen);
+               memcpy(ctx->seed, d + dlen, ctx->slen);
+       }
+       memzero_explicit(d, todo);
+err_iv:
+       kfree(d);
+err_mem:
+       return err;
+}
diff --git a/drivers/crypto/allwinner/sun8i-ce/sun8i-ce-trng.c b/drivers/crypto/allwinner/sun8i-ce/sun8i-ce-trng.c
new file mode 100644 (file)
index 0000000..6543281
--- /dev/null
@@ -0,0 +1,127 @@
+// SPDX-License-Identifier: GPL-2.0
+/*
+ * sun8i-ce-trng.c - hardware cryptographic offloader for
+ * Allwinner H3/A64/H5/H2+/H6/R40 SoC
+ *
+ * Copyright (C) 2015-2020 Corentin Labbe <clabbe@baylibre.com>
+ *
+ * This file handle the TRNG
+ *
+ * You could find a link for the datasheet in Documentation/arm/sunxi/README
+ */
+#include "sun8i-ce.h"
+#include <linux/dma-mapping.h>
+#include <linux/pm_runtime.h>
+#include <linux/hw_random.h>
+/*
+ * Note that according to the algorithm ID, 2 versions of the TRNG exists,
+ * The first present in H3/H5/R40/A64 and the second present in H6.
+ * This file adds support for both, but only the second is working
+ * reliabily according to rngtest.
+ **/
+
+static int sun8i_ce_trng_read(struct hwrng *rng, void *data, size_t max, bool wait)
+{
+       struct sun8i_ce_dev *ce;
+       dma_addr_t dma_dst;
+       int err = 0;
+       int flow = 3;
+       unsigned int todo;
+       struct sun8i_ce_flow *chan;
+       struct ce_task *cet;
+       u32 common;
+       void *d;
+
+       ce = container_of(rng, struct sun8i_ce_dev, trng);
+
+       /* round the data length to a multiple of 32*/
+       todo = max + 32;
+       todo -= todo % 32;
+
+       d = kzalloc(todo, GFP_KERNEL | GFP_DMA);
+       if (!d)
+               return -ENOMEM;
+
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_DEBUG
+       ce->hwrng_stat_req++;
+       ce->hwrng_stat_bytes += todo;
+#endif
+
+       dma_dst = dma_map_single(ce->dev, d, todo, DMA_FROM_DEVICE);
+       if (dma_mapping_error(ce->dev, dma_dst)) {
+               dev_err(ce->dev, "Cannot DMA MAP DST\n");
+               err = -EFAULT;
+               goto err_dst;
+       }
+
+       err = pm_runtime_get_sync(ce->dev);
+       if (err < 0) {
+               pm_runtime_put_noidle(ce->dev);
+               goto err_pm;
+       }
+
+       mutex_lock(&ce->rnglock);
+       chan = &ce->chanlist[flow];
+
+       cet = &chan->tl[0];
+       memset(cet, 0, sizeof(struct ce_task));
+
+       cet->t_id = cpu_to_le32(flow);
+       common = ce->variant->trng | CE_COMM_INT;
+       cet->t_common_ctl = cpu_to_le32(common);
+
+       /* recent CE (H6) need length in bytes, in word otherwise */
+       if (ce->variant->trng_t_dlen_in_bytes)
+               cet->t_dlen = cpu_to_le32(todo);
+       else
+               cet->t_dlen = cpu_to_le32(todo / 4);
+
+       cet->t_sym_ctl = 0;
+       cet->t_asym_ctl = 0;
+
+       cet->t_dst[0].addr = cpu_to_le32(dma_dst);
+       cet->t_dst[0].len = cpu_to_le32(todo / 4);
+       ce->chanlist[flow].timeout = todo;
+
+       err = sun8i_ce_run_task(ce, 3, "TRNG");
+       mutex_unlock(&ce->rnglock);
+
+       pm_runtime_put(ce->dev);
+
+err_pm:
+       dma_unmap_single(ce->dev, dma_dst, todo, DMA_FROM_DEVICE);
+
+       if (!err) {
+               memcpy(data, d, max);
+               err = max;
+       }
+       memzero_explicit(d, todo);
+err_dst:
+       kfree(d);
+       return err;
+}
+
+int sun8i_ce_hwrng_register(struct sun8i_ce_dev *ce)
+{
+       int ret;
+
+       if (ce->variant->trng == CE_ID_NOTSUPP) {
+               dev_info(ce->dev, "TRNG not supported\n");
+               return 0;
+       }
+       ce->trng.name = "sun8i Crypto Engine TRNG";
+       ce->trng.read = sun8i_ce_trng_read;
+       ce->trng.quality = 1000;
+
+       ret = hwrng_register(&ce->trng);
+       if (ret)
+               dev_err(ce->dev, "Fail to register the TRNG\n");
+       return ret;
+}
+
+void sun8i_ce_hwrng_unregister(struct sun8i_ce_dev *ce)
+{
+       if (ce->variant->trng == CE_ID_NOTSUPP)
+               return;
+       hwrng_unregister(&ce->trng);
+}
index 963645f..5580275 100644 (file)
 #include <linux/atomic.h>
 #include <linux/debugfs.h>
 #include <linux/crypto.h>
+#include <linux/hw_random.h>
+#include <crypto/internal/hash.h>
+#include <crypto/md5.h>
+#include <crypto/rng.h>
+#include <crypto/sha.h>
 
 /* CE Registers */
 #define CE_TDQ 0x00
 #define CE_ALG_AES             0
 #define CE_ALG_DES             1
 #define CE_ALG_3DES            2
+#define CE_ALG_MD5              16
+#define CE_ALG_SHA1             17
+#define CE_ALG_SHA224           18
+#define CE_ALG_SHA256           19
+#define CE_ALG_SHA384           20
+#define CE_ALG_SHA512           21
+#define CE_ALG_TRNG            48
+#define CE_ALG_PRNG            49
+#define CE_ALG_TRNG_V2         0x1c
+#define CE_ALG_PRNG_V2         0x1d
 
 /* Used in ce_variant */
 #define CE_ID_NOTSUPP          0xFF
 #define CE_ID_CIPHER_DES3      2
 #define CE_ID_CIPHER_MAX       3
 
+#define CE_ID_HASH_MD5         0
+#define CE_ID_HASH_SHA1                1
+#define CE_ID_HASH_SHA224      2
+#define CE_ID_HASH_SHA256      3
+#define CE_ID_HASH_SHA384      4
+#define CE_ID_HASH_SHA512      5
+#define CE_ID_HASH_MAX         6
+
 #define CE_ID_OP_ECB   0
 #define CE_ID_OP_CBC   1
 #define CE_ID_OP_MAX   2
 #define CE_ERR_ADDR_INVALID    BIT(5)
 #define CE_ERR_KEYLADDER       BIT(6)
 
+#define ESR_H3 0
+#define ESR_A64        1
+#define ESR_R40        2
+#define ESR_H5 3
+#define ESR_H6 4
+
+#define PRNG_DATA_SIZE (160 / 8)
+#define PRNG_SEED_SIZE DIV_ROUND_UP(175, 8)
+#define PRNG_LD BIT(17)
+
 #define CE_DIE_ID_SHIFT        16
 #define CE_DIE_ID_MASK 0x07
 
@@ -90,16 +123,34 @@ struct ce_clock {
  * struct ce_variant - Describe CE capability for each variant hardware
  * @alg_cipher:        list of supported ciphers. for each CE_ID_ this will give the
  *              coresponding CE_ALG_XXX value
+ * @alg_hash:  list of supported hashes. for each CE_ID_ this will give the
+ *              corresponding CE_ALG_XXX value
  * @op_mode:   list of supported block modes
- * @has_t_dlen_in_bytes:       Does the request size for cipher is in
+ * @cipher_t_dlen_in_bytes:    Does the request size for cipher is in
+ *                             bytes or words
+ * @hash_t_dlen_in_bytes:      Does the request size for hash is in
+ *                             bits or words
+ * @prng_t_dlen_in_bytes:      Does the request size for PRNG is in
+ *                             bytes or words
+ * @trng_t_dlen_in_bytes:      Does the request size for TRNG is in
  *                             bytes or words
  * @ce_clks:   list of clocks needed by this variant
+ * @esr:       The type of error register
+ * @prng:      The CE_ALG_XXX value for the PRNG
+ * @trng:      The CE_ALG_XXX value for the TRNG
  */
 struct ce_variant {
        char alg_cipher[CE_ID_CIPHER_MAX];
+       char alg_hash[CE_ID_HASH_MAX];
        u32 op_mode[CE_ID_OP_MAX];
-       bool has_t_dlen_in_bytes;
+       bool cipher_t_dlen_in_bytes;
+       bool hash_t_dlen_in_bits;
+       bool prng_t_dlen_in_bytes;
+       bool trng_t_dlen_in_bytes;
        struct ce_clock ce_clks[CE_MAX_CLOCKS];
+       int esr;
+       unsigned char prng;
+       unsigned char trng;
 };
 
 struct sginfo {
@@ -129,8 +180,6 @@ struct ce_task {
 /*
  * struct sun8i_ce_flow - Information used by each flow
  * @engine:    ptr to the crypto_engine for this flow
- * @bounce_iv: buffer which contain the IV
- * @ivlen:     size of bounce_iv
  * @complete:  completion for the current task on this flow
  * @status:    set to 1 by interrupt if task is done
  * @t_phy:     Physical address of task
@@ -139,8 +188,6 @@ struct ce_task {
  */
 struct sun8i_ce_flow {
        struct crypto_engine *engine;
-       void *bounce_iv;
-       unsigned int ivlen;
        struct completion complete;
        int status;
        dma_addr_t t_phy;
@@ -158,6 +205,7 @@ struct sun8i_ce_flow {
  * @reset:     pointer to reset controller
  * @dev:       the platform device
  * @mlock:     Control access to device registers
+ * @rnglock:   Control access to the RNG (dedicated channel 3)
  * @chanlist:  array of all flow
  * @flow:      flow to use in next request
  * @variant:   pointer to variant specific data
@@ -170,6 +218,7 @@ struct sun8i_ce_dev {
        struct reset_control *reset;
        struct device *dev;
        struct mutex mlock;
+       struct mutex rnglock;
        struct sun8i_ce_flow *chanlist;
        atomic_t flow;
        const struct ce_variant *variant;
@@ -177,17 +226,38 @@ struct sun8i_ce_dev {
        struct dentry *dbgfs_dir;
        struct dentry *dbgfs_stats;
 #endif
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_TRNG
+       struct hwrng trng;
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_DEBUG
+       unsigned long hwrng_stat_req;
+       unsigned long hwrng_stat_bytes;
+#endif
+#endif
 };
 
 /*
  * struct sun8i_cipher_req_ctx - context for a skcipher request
  * @op_dir:            direction (encrypt vs decrypt) for this request
  * @flow:              the flow to use for this request
+ * @backup_iv:         buffer which contain the next IV to store
+ * @bounce_iv:         buffer which contain the IV
+ * @ivlen:             size of bounce_iv
+ * @nr_sgs:            The number of source SG (as given by dma_map_sg())
+ * @nr_sgd:            The number of destination SG (as given by dma_map_sg())
+ * @addr_iv:           The IV addr returned by dma_map_single, need to unmap later
+ * @addr_key:          The key addr returned by dma_map_single, need to unmap later
  * @fallback_req:      request struct for invoking the fallback skcipher TFM
  */
 struct sun8i_cipher_req_ctx {
        u32 op_dir;
        int flow;
+       void *backup_iv;
+       void *bounce_iv;
+       unsigned int ivlen;
+       int nr_sgs;
+       int nr_sgd;
+       dma_addr_t addr_iv;
+       dma_addr_t addr_key;
        struct skcipher_request fallback_req;   // keep at the end
 };
 
@@ -208,6 +278,38 @@ struct sun8i_cipher_tfm_ctx {
 };
 
 /*
+ * struct sun8i_ce_hash_tfm_ctx - context for an ahash TFM
+ * @enginectx:         crypto_engine used by this TFM
+ * @ce:                        pointer to the private data of driver handling this TFM
+ * @fallback_tfm:      pointer to the fallback TFM
+ */
+struct sun8i_ce_hash_tfm_ctx {
+       struct crypto_engine_ctx enginectx;
+       struct sun8i_ce_dev *ce;
+       struct crypto_ahash *fallback_tfm;
+};
+
+/*
+ * struct sun8i_ce_hash_reqctx - context for an ahash request
+ * @fallback_req:      pre-allocated fallback request
+ * @flow:      the flow to use for this request
+ */
+struct sun8i_ce_hash_reqctx {
+       struct ahash_request fallback_req;
+       int flow;
+};
+
+/*
+ * struct sun8i_ce_prng_ctx - context for PRNG TFM
+ * @seed:      The seed to use
+ * @slen:      The size of the seed
+ */
+struct sun8i_ce_rng_tfm_ctx {
+       void *seed;
+       unsigned int slen;
+};
+
+/*
  * struct sun8i_ce_alg_template - crypto_alg template
  * @type:              the CRYPTO_ALG_TYPE for this template
  * @ce_algo_id:                the CE_ID for this template
@@ -217,6 +319,7 @@ struct sun8i_cipher_tfm_ctx {
  * @alg:               one of sub struct must be used
  * @stat_req:          number of request done on this template
  * @stat_fb:           number of request which has fallbacked
+ * @stat_bytes:                total data size done by this template
  */
 struct sun8i_ce_alg_template {
        u32 type;
@@ -225,10 +328,13 @@ struct sun8i_ce_alg_template {
        struct sun8i_ce_dev *ce;
        union {
                struct skcipher_alg skcipher;
+               struct ahash_alg hash;
+               struct rng_alg rng;
        } alg;
 #ifdef CONFIG_CRYPTO_DEV_SUN8I_CE_DEBUG
        unsigned long stat_req;
        unsigned long stat_fb;
+       unsigned long stat_bytes;
 #endif
 };
 
@@ -246,3 +352,24 @@ int sun8i_ce_skencrypt(struct skcipher_request *areq);
 int sun8i_ce_get_engine_number(struct sun8i_ce_dev *ce);
 
 int sun8i_ce_run_task(struct sun8i_ce_dev *ce, int flow, const char *name);
+
+int sun8i_ce_hash_crainit(struct crypto_tfm *tfm);
+void sun8i_ce_hash_craexit(struct crypto_tfm *tfm);
+int sun8i_ce_hash_init(struct ahash_request *areq);
+int sun8i_ce_hash_export(struct ahash_request *areq, void *out);
+int sun8i_ce_hash_import(struct ahash_request *areq, const void *in);
+int sun8i_ce_hash(struct ahash_request *areq);
+int sun8i_ce_hash_final(struct ahash_request *areq);
+int sun8i_ce_hash_update(struct ahash_request *areq);
+int sun8i_ce_hash_finup(struct ahash_request *areq);
+int sun8i_ce_hash_digest(struct ahash_request *areq);
+int sun8i_ce_hash_run(struct crypto_engine *engine, void *breq);
+
+int sun8i_ce_prng_generate(struct crypto_rng *tfm, const u8 *src,
+                          unsigned int slen, u8 *dst, unsigned int dlen);
+int sun8i_ce_prng_seed(struct crypto_rng *tfm, const u8 *seed, unsigned int slen);
+void sun8i_ce_prng_exit(struct crypto_tfm *tfm);
+int sun8i_ce_prng_init(struct crypto_tfm *tfm);
+
+int sun8i_ce_hwrng_register(struct sun8i_ce_dev *ce);
+void sun8i_ce_hwrng_unregister(struct sun8i_ce_dev *ce);
index add7b05..aabfd89 100644 (file)
@@ -1,2 +1,4 @@
 obj-$(CONFIG_CRYPTO_DEV_SUN8I_SS) += sun8i-ss.o
 sun8i-ss-y += sun8i-ss-core.o sun8i-ss-cipher.o
+sun8i-ss-$(CONFIG_CRYPTO_DEV_SUN8I_SS_PRNG) += sun8i-ss-prng.o
+sun8i-ss-$(CONFIG_CRYPTO_DEV_SUN8I_SS_HASH) += sun8i-ss-hash.o
index 7b39b44..ed2a69f 100644 (file)
@@ -248,7 +248,6 @@ theend_iv:
                        offset = areq->cryptlen - ivsize;
                        if (rctx->op_dir & SS_DECRYPTION) {
                                memcpy(areq->iv, backup_iv, ivsize);
-                               memzero_explicit(backup_iv, ivsize);
                                kfree_sensitive(backup_iv);
                        } else {
                                scatterwalk_map_and_copy(areq->iv, areq->dst, offset,
@@ -368,10 +367,7 @@ void sun8i_ss_cipher_exit(struct crypto_tfm *tfm)
 {
        struct sun8i_cipher_tfm_ctx *op = crypto_tfm_ctx(tfm);
 
-       if (op->key) {
-               memzero_explicit(op->key, op->keylen);
-               kfree(op->key);
-       }
+       kfree_sensitive(op->key);
        crypto_free_skcipher(op->fallback_tfm);
        pm_runtime_put_sync(op->ss->dev);
 }
@@ -393,10 +389,7 @@ int sun8i_ss_aes_setkey(struct crypto_skcipher *tfm, const u8 *key,
                dev_dbg(ss->dev, "ERROR: Invalid keylen %u\n", keylen);
                return -EINVAL;
        }
-       if (op->key) {
-               memzero_explicit(op->key, op->keylen);
-               kfree(op->key);
-       }
+       kfree_sensitive(op->key);
        op->keylen = keylen;
        op->key = kmemdup(key, keylen, GFP_KERNEL | GFP_DMA);
        if (!op->key)
@@ -419,10 +412,7 @@ int sun8i_ss_des3_setkey(struct crypto_skcipher *tfm, const u8 *key,
                return -EINVAL;
        }
 
-       if (op->key) {
-               memzero_explicit(op->key, op->keylen);
-               kfree(op->key);
-       }
+       kfree_sensitive(op->key);
        op->keylen = keylen;
        op->key = kmemdup(key, keylen, GFP_KERNEL | GFP_DMA);
        if (!op->key)
index 9a23515..e0ddc68 100644 (file)
@@ -22,6 +22,7 @@
 #include <linux/platform_device.h>
 #include <linux/pm_runtime.h>
 #include <linux/reset.h>
+#include <crypto/internal/rng.h>
 #include <crypto/internal/skcipher.h>
 
 #include "sun8i-ss.h"
@@ -40,6 +41,8 @@ static const struct ss_variant ss_a80_variant = {
 static const struct ss_variant ss_a83t_variant = {
        .alg_cipher = { SS_ALG_AES, SS_ALG_DES, SS_ALG_3DES,
        },
+       .alg_hash = { SS_ALG_MD5, SS_ALG_SHA1, SS_ALG_SHA224, SS_ALG_SHA256,
+       },
        .op_mode = { SS_OP_ECB, SS_OP_CBC,
        },
        .ss_clks = {
@@ -61,7 +64,7 @@ int sun8i_ss_run_task(struct sun8i_ss_dev *ss, struct sun8i_cipher_req_ctx *rctx
                      const char *name)
 {
        int flow = rctx->flow;
-       u32 v = 1;
+       u32 v = SS_START;
        int i;
 
 #ifdef CONFIG_CRYPTO_DEV_SUN8I_SS_DEBUG
@@ -264,13 +267,154 @@ static struct sun8i_ss_alg_template ss_algs[] = {
                .decrypt        = sun8i_ss_skdecrypt,
        }
 },
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_SS_PRNG
+{
+       .type = CRYPTO_ALG_TYPE_RNG,
+       .alg.rng = {
+               .base = {
+                       .cra_name               = "stdrng",
+                       .cra_driver_name        = "sun8i-ss-prng",
+                       .cra_priority           = 300,
+                       .cra_ctxsize = sizeof(struct sun8i_ss_rng_tfm_ctx),
+                       .cra_module             = THIS_MODULE,
+                       .cra_init               = sun8i_ss_prng_init,
+                       .cra_exit               = sun8i_ss_prng_exit,
+               },
+               .generate               = sun8i_ss_prng_generate,
+               .seed                   = sun8i_ss_prng_seed,
+               .seedsize               = PRNG_SEED_SIZE,
+       }
+},
+#endif
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_SS_HASH
+{      .type = CRYPTO_ALG_TYPE_AHASH,
+       .ss_algo_id = SS_ID_HASH_MD5,
+       .alg.hash = {
+               .init = sun8i_ss_hash_init,
+               .update = sun8i_ss_hash_update,
+               .final = sun8i_ss_hash_final,
+               .finup = sun8i_ss_hash_finup,
+               .digest = sun8i_ss_hash_digest,
+               .export = sun8i_ss_hash_export,
+               .import = sun8i_ss_hash_import,
+               .halg = {
+                       .digestsize = MD5_DIGEST_SIZE,
+                       .statesize = sizeof(struct md5_state),
+                       .base = {
+                               .cra_name = "md5",
+                               .cra_driver_name = "md5-sun8i-ss",
+                               .cra_priority = 300,
+                               .cra_alignmask = 3,
+                               .cra_flags = CRYPTO_ALG_TYPE_AHASH |
+                                       CRYPTO_ALG_ASYNC |
+                                       CRYPTO_ALG_NEED_FALLBACK,
+                               .cra_blocksize = MD5_HMAC_BLOCK_SIZE,
+                               .cra_ctxsize = sizeof(struct sun8i_ss_hash_tfm_ctx),
+                               .cra_module = THIS_MODULE,
+                               .cra_init = sun8i_ss_hash_crainit,
+                               .cra_exit = sun8i_ss_hash_craexit,
+                       }
+               }
+       }
+},
+{      .type = CRYPTO_ALG_TYPE_AHASH,
+       .ss_algo_id = SS_ID_HASH_SHA1,
+       .alg.hash = {
+               .init = sun8i_ss_hash_init,
+               .update = sun8i_ss_hash_update,
+               .final = sun8i_ss_hash_final,
+               .finup = sun8i_ss_hash_finup,
+               .digest = sun8i_ss_hash_digest,
+               .export = sun8i_ss_hash_export,
+               .import = sun8i_ss_hash_import,
+               .halg = {
+                       .digestsize = SHA1_DIGEST_SIZE,
+                       .statesize = sizeof(struct sha1_state),
+                       .base = {
+                               .cra_name = "sha1",
+                               .cra_driver_name = "sha1-sun8i-ss",
+                               .cra_priority = 300,
+                               .cra_alignmask = 3,
+                               .cra_flags = CRYPTO_ALG_TYPE_AHASH |
+                                       CRYPTO_ALG_ASYNC |
+                                       CRYPTO_ALG_NEED_FALLBACK,
+                               .cra_blocksize = SHA1_BLOCK_SIZE,
+                               .cra_ctxsize = sizeof(struct sun8i_ss_hash_tfm_ctx),
+                               .cra_module = THIS_MODULE,
+                               .cra_init = sun8i_ss_hash_crainit,
+                               .cra_exit = sun8i_ss_hash_craexit,
+                       }
+               }
+       }
+},
+{      .type = CRYPTO_ALG_TYPE_AHASH,
+       .ss_algo_id = SS_ID_HASH_SHA224,
+       .alg.hash = {
+               .init = sun8i_ss_hash_init,
+               .update = sun8i_ss_hash_update,
+               .final = sun8i_ss_hash_final,
+               .finup = sun8i_ss_hash_finup,
+               .digest = sun8i_ss_hash_digest,
+               .export = sun8i_ss_hash_export,
+               .import = sun8i_ss_hash_import,
+               .halg = {
+                       .digestsize = SHA224_DIGEST_SIZE,
+                       .statesize = sizeof(struct sha256_state),
+                       .base = {
+                               .cra_name = "sha224",
+                               .cra_driver_name = "sha224-sun8i-ss",
+                               .cra_priority = 300,
+                               .cra_alignmask = 3,
+                               .cra_flags = CRYPTO_ALG_TYPE_AHASH |
+                                       CRYPTO_ALG_ASYNC |
+                                       CRYPTO_ALG_NEED_FALLBACK,
+                               .cra_blocksize = SHA224_BLOCK_SIZE,
+                               .cra_ctxsize = sizeof(struct sun8i_ss_hash_tfm_ctx),
+                               .cra_module = THIS_MODULE,
+                               .cra_init = sun8i_ss_hash_crainit,
+                               .cra_exit = sun8i_ss_hash_craexit,
+                       }
+               }
+       }
+},
+{      .type = CRYPTO_ALG_TYPE_AHASH,
+       .ss_algo_id = SS_ID_HASH_SHA256,
+       .alg.hash = {
+               .init = sun8i_ss_hash_init,
+               .update = sun8i_ss_hash_update,
+               .final = sun8i_ss_hash_final,
+               .finup = sun8i_ss_hash_finup,
+               .digest = sun8i_ss_hash_digest,
+               .export = sun8i_ss_hash_export,
+               .import = sun8i_ss_hash_import,
+               .halg = {
+                       .digestsize = SHA256_DIGEST_SIZE,
+                       .statesize = sizeof(struct sha256_state),
+                       .base = {
+                               .cra_name = "sha256",
+                               .cra_driver_name = "sha256-sun8i-ss",
+                               .cra_priority = 300,
+                               .cra_alignmask = 3,
+                               .cra_flags = CRYPTO_ALG_TYPE_AHASH |
+                                       CRYPTO_ALG_ASYNC |
+                                       CRYPTO_ALG_NEED_FALLBACK,
+                               .cra_blocksize = SHA256_BLOCK_SIZE,
+                               .cra_ctxsize = sizeof(struct sun8i_ss_hash_tfm_ctx),
+                               .cra_module = THIS_MODULE,
+                               .cra_init = sun8i_ss_hash_crainit,
+                               .cra_exit = sun8i_ss_hash_craexit,
+                       }
+               }
+       }
+},
+#endif
 };
 
 #ifdef CONFIG_CRYPTO_DEV_SUN8I_SS_DEBUG
-static int sun8i_ss_dbgfs_read(struct seq_file *seq, void *v)
+static int sun8i_ss_debugfs_show(struct seq_file *seq, void *v)
 {
        struct sun8i_ss_dev *ss = seq->private;
-       int i;
+       unsigned int i;
 
        for (i = 0; i < MAXFLOW; i++)
                seq_printf(seq, "Channel %d: nreq %lu\n", i, ss->flows[i].stat_req);
@@ -280,28 +424,29 @@ static int sun8i_ss_dbgfs_read(struct seq_file *seq, void *v)
                        continue;
                switch (ss_algs[i].type) {
                case CRYPTO_ALG_TYPE_SKCIPHER:
-                       seq_printf(seq, "%s %s %lu %lu\n",
+                       seq_printf(seq, "%s %s reqs=%lu fallback=%lu\n",
                                   ss_algs[i].alg.skcipher.base.cra_driver_name,
                                   ss_algs[i].alg.skcipher.base.cra_name,
                                   ss_algs[i].stat_req, ss_algs[i].stat_fb);
                        break;
+               case CRYPTO_ALG_TYPE_RNG:
+                       seq_printf(seq, "%s %s reqs=%lu tsize=%lu\n",
+                                  ss_algs[i].alg.rng.base.cra_driver_name,
+                                  ss_algs[i].alg.rng.base.cra_name,
+                                  ss_algs[i].stat_req, ss_algs[i].stat_bytes);
+                       break;
+               case CRYPTO_ALG_TYPE_AHASH:
+                       seq_printf(seq, "%s %s reqs=%lu fallback=%lu\n",
+                                  ss_algs[i].alg.hash.halg.base.cra_driver_name,
+                                  ss_algs[i].alg.hash.halg.base.cra_name,
+                                  ss_algs[i].stat_req, ss_algs[i].stat_fb);
+                       break;
                }
        }
        return 0;
 }
 
-static int sun8i_ss_dbgfs_open(struct inode *inode, struct file *file)
-{
-       return single_open(file, sun8i_ss_dbgfs_read, inode->i_private);
-}
-
-static const struct file_operations sun8i_ss_debugfs_fops = {
-       .owner = THIS_MODULE,
-       .open = sun8i_ss_dbgfs_open,
-       .read = seq_read,
-       .llseek = seq_lseek,
-       .release = single_release,
-};
+DEFINE_SHOW_ATTRIBUTE(sun8i_ss_debugfs);
 #endif
 
 static void sun8i_ss_free_flows(struct sun8i_ss_dev *ss, int i)
@@ -415,7 +560,8 @@ static void sun8i_ss_pm_exit(struct sun8i_ss_dev *ss)
 
 static int sun8i_ss_register_algs(struct sun8i_ss_dev *ss)
 {
-       int ss_method, err, id, i;
+       int ss_method, err, id;
+       unsigned int i;
 
        for (i = 0; i < ARRAY_SIZE(ss_algs); i++) {
                ss_algs[i].ss = ss;
@@ -448,6 +594,34 @@ static int sun8i_ss_register_algs(struct sun8i_ss_dev *ss)
                                return err;
                        }
                        break;
+               case CRYPTO_ALG_TYPE_RNG:
+                       err = crypto_register_rng(&ss_algs[i].alg.rng);
+                       if (err) {
+                               dev_err(ss->dev, "Fail to register %s\n",
+                                       ss_algs[i].alg.rng.base.cra_name);
+                               ss_algs[i].ss = NULL;
+                       }
+                       break;
+               case CRYPTO_ALG_TYPE_AHASH:
+                       id = ss_algs[i].ss_algo_id;
+                       ss_method = ss->variant->alg_hash[id];
+                       if (ss_method == SS_ID_NOTSUPP) {
+                               dev_info(ss->dev,
+                                       "DEBUG: Algo of %s not supported\n",
+                                       ss_algs[i].alg.hash.halg.base.cra_name);
+                               ss_algs[i].ss = NULL;
+                               break;
+                       }
+                       dev_info(ss->dev, "Register %s\n",
+                                ss_algs[i].alg.hash.halg.base.cra_name);
+                       err = crypto_register_ahash(&ss_algs[i].alg.hash);
+                       if (err) {
+                               dev_err(ss->dev, "ERROR: Fail to register %s\n",
+                                       ss_algs[i].alg.hash.halg.base.cra_name);
+                               ss_algs[i].ss = NULL;
+                               return err;
+                       }
+                       break;
                default:
                        ss_algs[i].ss = NULL;
                        dev_err(ss->dev, "ERROR: tried to register an unknown algo\n");
@@ -458,7 +632,7 @@ static int sun8i_ss_register_algs(struct sun8i_ss_dev *ss)
 
 static void sun8i_ss_unregister_algs(struct sun8i_ss_dev *ss)
 {
-       int i;
+       unsigned int i;
 
        for (i = 0; i < ARRAY_SIZE(ss_algs); i++) {
                if (!ss_algs[i].ss)
@@ -469,6 +643,16 @@ static void sun8i_ss_unregister_algs(struct sun8i_ss_dev *ss)
                                 ss_algs[i].alg.skcipher.base.cra_name);
                        crypto_unregister_skcipher(&ss_algs[i].alg.skcipher);
                        break;
+               case CRYPTO_ALG_TYPE_RNG:
+                       dev_info(ss->dev, "Unregister %d %s\n", i,
+                                ss_algs[i].alg.rng.base.cra_name);
+                       crypto_unregister_rng(&ss_algs[i].alg.rng);
+                       break;
+               case CRYPTO_ALG_TYPE_AHASH:
+                       dev_info(ss->dev, "Unregister %d %s\n", i,
+                                ss_algs[i].alg.hash.halg.base.cra_name);
+                       crypto_unregister_ahash(&ss_algs[i].alg.hash);
+                       break;
                }
        }
 }
@@ -545,12 +729,9 @@ static int sun8i_ss_probe(struct platform_device *pdev)
                return irq;
 
        ss->reset = devm_reset_control_get(&pdev->dev, NULL);
-       if (IS_ERR(ss->reset)) {
-               if (PTR_ERR(ss->reset) == -EPROBE_DEFER)
-                       return PTR_ERR(ss->reset);
-               dev_err(&pdev->dev, "No reset control found\n");
-               return PTR_ERR(ss->reset);
-       }
+       if (IS_ERR(ss->reset))
+               return dev_err_probe(&pdev->dev, PTR_ERR(ss->reset),
+                                    "No reset control found\n");
 
        mutex_init(&ss->mlock);
 
diff --git a/drivers/crypto/allwinner/sun8i-ss/sun8i-ss-hash.c b/drivers/crypto/allwinner/sun8i-ss/sun8i-ss-hash.c
new file mode 100644 (file)
index 0000000..b6ab205
--- /dev/null
@@ -0,0 +1,444 @@
+// SPDX-License-Identifier: GPL-2.0
+/*
+ * sun8i-ss-hash.c - hardware cryptographic offloader for
+ * Allwinner A80/A83T SoC
+ *
+ * Copyright (C) 2015-2020 Corentin Labbe <clabbe@baylibre.com>
+ *
+ * This file add support for MD5 and SHA1/SHA224/SHA256.
+ *
+ * You could find the datasheet in Documentation/arm/sunxi.rst
+ */
+#include <linux/dma-mapping.h>
+#include <linux/pm_runtime.h>
+#include <linux/scatterlist.h>
+#include <crypto/internal/hash.h>
+#include <crypto/sha.h>
+#include <crypto/md5.h>
+#include "sun8i-ss.h"
+
+int sun8i_ss_hash_crainit(struct crypto_tfm *tfm)
+{
+       struct sun8i_ss_hash_tfm_ctx *op = crypto_tfm_ctx(tfm);
+       struct ahash_alg *alg = __crypto_ahash_alg(tfm->__crt_alg);
+       struct sun8i_ss_alg_template *algt;
+       int err;
+
+       memset(op, 0, sizeof(struct sun8i_ss_hash_tfm_ctx));
+
+       algt = container_of(alg, struct sun8i_ss_alg_template, alg.hash);
+       op->ss = algt->ss;
+
+       op->enginectx.op.do_one_request = sun8i_ss_hash_run;
+       op->enginectx.op.prepare_request = NULL;
+       op->enginectx.op.unprepare_request = NULL;
+
+       /* FALLBACK */
+       op->fallback_tfm = crypto_alloc_ahash(crypto_tfm_alg_name(tfm), 0,
+                                             CRYPTO_ALG_NEED_FALLBACK);
+       if (IS_ERR(op->fallback_tfm)) {
+               dev_err(algt->ss->dev, "Fallback driver could no be loaded\n");
+               return PTR_ERR(op->fallback_tfm);
+       }
+
+       if (algt->alg.hash.halg.statesize < crypto_ahash_statesize(op->fallback_tfm))
+               algt->alg.hash.halg.statesize = crypto_ahash_statesize(op->fallback_tfm);
+
+       crypto_ahash_set_reqsize(__crypto_ahash_cast(tfm),
+                                sizeof(struct sun8i_ss_hash_reqctx) +
+                                crypto_ahash_reqsize(op->fallback_tfm));
+
+       dev_info(op->ss->dev, "Fallback for %s is %s\n",
+                crypto_tfm_alg_driver_name(tfm),
+                crypto_tfm_alg_driver_name(&op->fallback_tfm->base));
+       err = pm_runtime_get_sync(op->ss->dev);
+       if (err < 0)
+               goto error_pm;
+       return 0;
+error_pm:
+       pm_runtime_put_noidle(op->ss->dev);
+       crypto_free_ahash(op->fallback_tfm);
+       return err;
+}
+
+void sun8i_ss_hash_craexit(struct crypto_tfm *tfm)
+{
+       struct sun8i_ss_hash_tfm_ctx *tfmctx = crypto_tfm_ctx(tfm);
+
+       crypto_free_ahash(tfmctx->fallback_tfm);
+       pm_runtime_put_sync_suspend(tfmctx->ss->dev);
+}
+
+int sun8i_ss_hash_init(struct ahash_request *areq)
+{
+       struct sun8i_ss_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct sun8i_ss_hash_tfm_ctx *tfmctx = crypto_ahash_ctx(tfm);
+
+       memset(rctx, 0, sizeof(struct sun8i_ss_hash_reqctx));
+
+       ahash_request_set_tfm(&rctx->fallback_req, tfmctx->fallback_tfm);
+       rctx->fallback_req.base.flags = areq->base.flags & CRYPTO_TFM_REQ_MAY_SLEEP;
+
+       return crypto_ahash_init(&rctx->fallback_req);
+}
+
+int sun8i_ss_hash_export(struct ahash_request *areq, void *out)
+{
+       struct sun8i_ss_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct sun8i_ss_hash_tfm_ctx *tfmctx = crypto_ahash_ctx(tfm);
+
+       ahash_request_set_tfm(&rctx->fallback_req, tfmctx->fallback_tfm);
+       rctx->fallback_req.base.flags = areq->base.flags & CRYPTO_TFM_REQ_MAY_SLEEP;
+
+       return crypto_ahash_export(&rctx->fallback_req, out);
+}
+
+int sun8i_ss_hash_import(struct ahash_request *areq, const void *in)
+{
+       struct sun8i_ss_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct sun8i_ss_hash_tfm_ctx *tfmctx = crypto_ahash_ctx(tfm);
+
+       ahash_request_set_tfm(&rctx->fallback_req, tfmctx->fallback_tfm);
+       rctx->fallback_req.base.flags = areq->base.flags & CRYPTO_TFM_REQ_MAY_SLEEP;
+
+       return crypto_ahash_import(&rctx->fallback_req, in);
+}
+
+int sun8i_ss_hash_final(struct ahash_request *areq)
+{
+       struct sun8i_ss_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct sun8i_ss_hash_tfm_ctx *tfmctx = crypto_ahash_ctx(tfm);
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_SS_DEBUG
+       struct ahash_alg *alg = __crypto_ahash_alg(tfm->base.__crt_alg);
+       struct sun8i_ss_alg_template *algt;
+#endif
+
+       ahash_request_set_tfm(&rctx->fallback_req, tfmctx->fallback_tfm);
+       rctx->fallback_req.base.flags = areq->base.flags &
+                                       CRYPTO_TFM_REQ_MAY_SLEEP;
+       rctx->fallback_req.result = areq->result;
+
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_SS_DEBUG
+       algt = container_of(alg, struct sun8i_ss_alg_template, alg.hash);
+       algt->stat_fb++;
+#endif
+
+       return crypto_ahash_final(&rctx->fallback_req);
+}
+
+int sun8i_ss_hash_update(struct ahash_request *areq)
+{
+       struct sun8i_ss_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct sun8i_ss_hash_tfm_ctx *tfmctx = crypto_ahash_ctx(tfm);
+
+       ahash_request_set_tfm(&rctx->fallback_req, tfmctx->fallback_tfm);
+       rctx->fallback_req.base.flags = areq->base.flags &
+                                       CRYPTO_TFM_REQ_MAY_SLEEP;
+       rctx->fallback_req.nbytes = areq->nbytes;
+       rctx->fallback_req.src = areq->src;
+
+       return crypto_ahash_update(&rctx->fallback_req);
+}
+
+int sun8i_ss_hash_finup(struct ahash_request *areq)
+{
+       struct sun8i_ss_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct sun8i_ss_hash_tfm_ctx *tfmctx = crypto_ahash_ctx(tfm);
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_SS_DEBUG
+       struct ahash_alg *alg = __crypto_ahash_alg(tfm->base.__crt_alg);
+       struct sun8i_ss_alg_template *algt;
+#endif
+
+       ahash_request_set_tfm(&rctx->fallback_req, tfmctx->fallback_tfm);
+       rctx->fallback_req.base.flags = areq->base.flags &
+                                       CRYPTO_TFM_REQ_MAY_SLEEP;
+
+       rctx->fallback_req.nbytes = areq->nbytes;
+       rctx->fallback_req.src = areq->src;
+       rctx->fallback_req.result = areq->result;
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_SS_DEBUG
+       algt = container_of(alg, struct sun8i_ss_alg_template, alg.hash);
+       algt->stat_fb++;
+#endif
+
+       return crypto_ahash_finup(&rctx->fallback_req);
+}
+
+static int sun8i_ss_hash_digest_fb(struct ahash_request *areq)
+{
+       struct sun8i_ss_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct sun8i_ss_hash_tfm_ctx *tfmctx = crypto_ahash_ctx(tfm);
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_SS_DEBUG
+       struct ahash_alg *alg = __crypto_ahash_alg(tfm->base.__crt_alg);
+       struct sun8i_ss_alg_template *algt;
+#endif
+
+       ahash_request_set_tfm(&rctx->fallback_req, tfmctx->fallback_tfm);
+       rctx->fallback_req.base.flags = areq->base.flags &
+                                       CRYPTO_TFM_REQ_MAY_SLEEP;
+
+       rctx->fallback_req.nbytes = areq->nbytes;
+       rctx->fallback_req.src = areq->src;
+       rctx->fallback_req.result = areq->result;
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_SS_DEBUG
+       algt = container_of(alg, struct sun8i_ss_alg_template, alg.hash);
+       algt->stat_fb++;
+#endif
+
+       return crypto_ahash_digest(&rctx->fallback_req);
+}
+
+static int sun8i_ss_run_hash_task(struct sun8i_ss_dev *ss,
+                                 struct sun8i_ss_hash_reqctx *rctx,
+                                 const char *name)
+{
+       int flow = rctx->flow;
+       u32 v = SS_START;
+       int i;
+
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_SS_DEBUG
+       ss->flows[flow].stat_req++;
+#endif
+
+       /* choose between stream0/stream1 */
+       if (flow)
+               v |= SS_FLOW1;
+       else
+               v |= SS_FLOW0;
+
+       v |= rctx->method;
+
+       for (i = 0; i < MAX_SG; i++) {
+               if (!rctx->t_dst[i].addr)
+                       break;
+
+               mutex_lock(&ss->mlock);
+               if (i > 0) {
+                       v |= BIT(17);
+                       writel(rctx->t_dst[i - 1].addr, ss->base + SS_KEY_ADR_REG);
+                       writel(rctx->t_dst[i - 1].addr, ss->base + SS_IV_ADR_REG);
+               }
+
+               dev_dbg(ss->dev,
+                       "Processing SG %d on flow %d %s ctl=%x %d to %d method=%x src=%x dst=%x\n",
+                       i, flow, name, v,
+                       rctx->t_src[i].len, rctx->t_dst[i].len,
+                       rctx->method, rctx->t_src[i].addr, rctx->t_dst[i].addr);
+
+               writel(rctx->t_src[i].addr, ss->base + SS_SRC_ADR_REG);
+               writel(rctx->t_dst[i].addr, ss->base + SS_DST_ADR_REG);
+               writel(rctx->t_src[i].len, ss->base + SS_LEN_ADR_REG);
+               writel(BIT(0) | BIT(1), ss->base + SS_INT_CTL_REG);
+
+               reinit_completion(&ss->flows[flow].complete);
+               ss->flows[flow].status = 0;
+               wmb();
+
+               writel(v, ss->base + SS_CTL_REG);
+               mutex_unlock(&ss->mlock);
+               wait_for_completion_interruptible_timeout(&ss->flows[flow].complete,
+                                                         msecs_to_jiffies(2000));
+               if (ss->flows[flow].status == 0) {
+                       dev_err(ss->dev, "DMA timeout for %s\n", name);
+                       return -EFAULT;
+               }
+       }
+
+       return 0;
+}
+
+static bool sun8i_ss_hash_need_fallback(struct ahash_request *areq)
+{
+       struct scatterlist *sg;
+
+       if (areq->nbytes == 0)
+               return true;
+       /* we need to reserve one SG for the padding one */
+       if (sg_nents(areq->src) > MAX_SG - 1)
+               return true;
+       sg = areq->src;
+       while (sg) {
+               /* SS can operate hash only on full block size
+                * since SS support only MD5,sha1,sha224 and sha256, blocksize
+                * is always 64
+                * TODO: handle request if last SG is not len%64
+                * but this will need to copy data on a new SG of size=64
+                */
+               if (sg->length % 64 || !IS_ALIGNED(sg->offset, sizeof(u32)))
+                       return true;
+               sg = sg_next(sg);
+       }
+       return false;
+}
+
+int sun8i_ss_hash_digest(struct ahash_request *areq)
+{
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct ahash_alg *alg = __crypto_ahash_alg(tfm->base.__crt_alg);
+       struct sun8i_ss_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct sun8i_ss_alg_template *algt;
+       struct sun8i_ss_dev *ss;
+       struct crypto_engine *engine;
+       struct scatterlist *sg;
+       int nr_sgs, e, i;
+
+       if (sun8i_ss_hash_need_fallback(areq))
+               return sun8i_ss_hash_digest_fb(areq);
+
+       nr_sgs = sg_nents(areq->src);
+       if (nr_sgs > MAX_SG - 1)
+               return sun8i_ss_hash_digest_fb(areq);
+
+       for_each_sg(areq->src, sg, nr_sgs, i) {
+               if (sg->length % 4 || !IS_ALIGNED(sg->offset, sizeof(u32)))
+                       return sun8i_ss_hash_digest_fb(areq);
+       }
+
+       algt = container_of(alg, struct sun8i_ss_alg_template, alg.hash);
+       ss = algt->ss;
+
+       e = sun8i_ss_get_engine_number(ss);
+       rctx->flow = e;
+       engine = ss->flows[e].engine;
+
+       return crypto_transfer_hash_request_to_engine(engine, areq);
+}
+
+/* sun8i_ss_hash_run - run an ahash request
+ * Send the data of the request to the SS along with an extra SG with padding
+ */
+int sun8i_ss_hash_run(struct crypto_engine *engine, void *breq)
+{
+       struct ahash_request *areq = container_of(breq, struct ahash_request, base);
+       struct crypto_ahash *tfm = crypto_ahash_reqtfm(areq);
+       struct ahash_alg *alg = __crypto_ahash_alg(tfm->base.__crt_alg);
+       struct sun8i_ss_hash_reqctx *rctx = ahash_request_ctx(areq);
+       struct sun8i_ss_alg_template *algt;
+       struct sun8i_ss_dev *ss;
+       struct scatterlist *sg;
+       int nr_sgs, err, digestsize;
+       unsigned int len;
+       u64 fill, min_fill, byte_count;
+       void *pad, *result;
+       int j, i, todo;
+       __be64 *bebits;
+       __le64 *lebits;
+       dma_addr_t addr_res, addr_pad;
+       __le32 *bf;
+
+       algt = container_of(alg, struct sun8i_ss_alg_template, alg.hash);
+       ss = algt->ss;
+
+       digestsize = algt->alg.hash.halg.digestsize;
+       if (digestsize == SHA224_DIGEST_SIZE)
+               digestsize = SHA256_DIGEST_SIZE;
+
+       /* the padding could be up to two block. */
+       pad = kzalloc(algt->alg.hash.halg.base.cra_blocksize * 2, GFP_KERNEL | GFP_DMA);
+       if (!pad)
+               return -ENOMEM;
+       bf = (__le32 *)pad;
+
+       result = kzalloc(digestsize, GFP_KERNEL | GFP_DMA);
+       if (!result)
+               return -ENOMEM;
+
+       for (i = 0; i < MAX_SG; i++) {
+               rctx->t_dst[i].addr = 0;
+               rctx->t_dst[i].len = 0;
+       }
+
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_SS_DEBUG
+       algt->stat_req++;
+#endif
+
+       rctx->method = ss->variant->alg_hash[algt->ss_algo_id];
+
+       nr_sgs = dma_map_sg(ss->dev, areq->src, sg_nents(areq->src), DMA_TO_DEVICE);
+       if (nr_sgs <= 0 || nr_sgs > MAX_SG) {
+               dev_err(ss->dev, "Invalid sg number %d\n", nr_sgs);
+               err = -EINVAL;
+               goto theend;
+       }
+
+       addr_res = dma_map_single(ss->dev, result, digestsize, DMA_FROM_DEVICE);
+       if (dma_mapping_error(ss->dev, addr_res)) {
+               dev_err(ss->dev, "DMA map dest\n");
+               err = -EINVAL;
+               goto theend;
+       }
+
+       len = areq->nbytes;
+       for_each_sg(areq->src, sg, nr_sgs, i) {
+               rctx->t_src[i].addr = sg_dma_address(sg);
+               todo = min(len, sg_dma_len(sg));
+               rctx->t_src[i].len = todo / 4;
+               len -= todo;
+               rctx->t_dst[i].addr = addr_res;
+               rctx->t_dst[i].len = digestsize / 4;
+       }
+       if (len > 0) {
+               dev_err(ss->dev, "remaining len %d\n", len);
+               err = -EINVAL;
+               goto theend;
+       }
+
+       byte_count = areq->nbytes;
+       j = 0;
+       bf[j++] = cpu_to_le32(0x80);
+
+       fill = 64 - (byte_count % 64);
+       min_fill = 3 * sizeof(u32);
+
+       if (fill < min_fill)
+               fill += 64;
+
+       j += (fill - min_fill) / sizeof(u32);
+
+       switch (algt->ss_algo_id) {
+       case SS_ID_HASH_MD5:
+               lebits = (__le64 *)&bf[j];
+               *lebits = cpu_to_le64(byte_count << 3);
+               j += 2;
+               break;
+       case SS_ID_HASH_SHA1:
+       case SS_ID_HASH_SHA224:
+       case SS_ID_HASH_SHA256:
+               bebits = (__be64 *)&bf[j];
+               *bebits = cpu_to_be64(byte_count << 3);
+               j += 2;
+               break;
+       }
+
+       addr_pad = dma_map_single(ss->dev, pad, j * 4, DMA_TO_DEVICE);
+       rctx->t_src[i].addr = addr_pad;
+       rctx->t_src[i].len = j;
+       rctx->t_dst[i].addr = addr_res;
+       rctx->t_dst[i].len = digestsize / 4;
+       if (dma_mapping_error(ss->dev, addr_pad)) {
+               dev_err(ss->dev, "DMA error on padding SG\n");
+               err = -EINVAL;
+               goto theend;
+       }
+
+       err = sun8i_ss_run_hash_task(ss, rctx, crypto_tfm_alg_name(areq->base.tfm));
+
+       dma_unmap_single(ss->dev, addr_pad, j * 4, DMA_TO_DEVICE);
+       dma_unmap_sg(ss->dev, areq->src, nr_sgs, DMA_TO_DEVICE);
+       dma_unmap_single(ss->dev, addr_res, digestsize, DMA_FROM_DEVICE);
+
+       kfree(pad);
+
+       memcpy(areq->result, result, algt->alg.hash.halg.digestsize);
+       kfree(result);
+theend:
+       crypto_finalize_hash_request(engine, breq, err);
+       return 0;
+}
diff --git a/drivers/crypto/allwinner/sun8i-ss/sun8i-ss-prng.c b/drivers/crypto/allwinner/sun8i-ss/sun8i-ss-prng.c
new file mode 100644 (file)
index 0000000..08a1473
--- /dev/null
@@ -0,0 +1,173 @@
+// SPDX-License-Identifier: GPL-2.0
+/*
+ * sun8i-ss-prng.c - hardware cryptographic offloader for
+ * Allwinner A80/A83T SoC
+ *
+ * Copyright (C) 2015-2020 Corentin Labbe <clabbe@baylibre.com>
+ *
+ * This file handle the PRNG found in the SS
+ *
+ * You could find a link for the datasheet in Documentation/arm/sunxi.rst
+ */
+#include "sun8i-ss.h"
+#include <linux/dma-mapping.h>
+#include <linux/pm_runtime.h>
+#include <crypto/internal/rng.h>
+
+int sun8i_ss_prng_seed(struct crypto_rng *tfm, const u8 *seed,
+                      unsigned int slen)
+{
+       struct sun8i_ss_rng_tfm_ctx *ctx = crypto_rng_ctx(tfm);
+
+       if (ctx->seed && ctx->slen != slen) {
+               memzero_explicit(ctx->seed, ctx->slen);
+               kfree(ctx->seed);
+               ctx->slen = 0;
+               ctx->seed = NULL;
+       }
+       if (!ctx->seed)
+               ctx->seed = kmalloc(slen, GFP_KERNEL | GFP_DMA);
+       if (!ctx->seed)
+               return -ENOMEM;
+
+       memcpy(ctx->seed, seed, slen);
+       ctx->slen = slen;
+
+       return 0;
+}
+
+int sun8i_ss_prng_init(struct crypto_tfm *tfm)
+{
+       struct sun8i_ss_rng_tfm_ctx *ctx = crypto_tfm_ctx(tfm);
+
+       memset(ctx, 0, sizeof(struct sun8i_ss_rng_tfm_ctx));
+       return 0;
+}
+
+void sun8i_ss_prng_exit(struct crypto_tfm *tfm)
+{
+       struct sun8i_ss_rng_tfm_ctx *ctx = crypto_tfm_ctx(tfm);
+
+       memzero_explicit(ctx->seed, ctx->slen);
+       kfree(ctx->seed);
+       ctx->seed = NULL;
+       ctx->slen = 0;
+}
+
+int sun8i_ss_prng_generate(struct crypto_rng *tfm, const u8 *src,
+                          unsigned int slen, u8 *dst, unsigned int dlen)
+{
+       struct sun8i_ss_rng_tfm_ctx *ctx = crypto_rng_ctx(tfm);
+       struct rng_alg *alg = crypto_rng_alg(tfm);
+       struct sun8i_ss_alg_template *algt;
+       struct sun8i_ss_dev *ss;
+       dma_addr_t dma_iv, dma_dst;
+       unsigned int todo;
+       int err = 0;
+       int flow;
+       void *d;
+       u32 v;
+
+       algt = container_of(alg, struct sun8i_ss_alg_template, alg.rng);
+       ss = algt->ss;
+
+       if (ctx->slen == 0) {
+               dev_err(ss->dev, "The PRNG is not seeded\n");
+               return -EINVAL;
+       }
+
+       /* The SS does not give an updated seed, so we need to get a new one.
+        * So we will ask for an extra PRNG_SEED_SIZE data.
+        * We want dlen + seedsize rounded up to a multiple of PRNG_DATA_SIZE
+        */
+       todo = dlen + PRNG_SEED_SIZE + PRNG_DATA_SIZE;
+       todo -= todo % PRNG_DATA_SIZE;
+
+       d = kzalloc(todo, GFP_KERNEL | GFP_DMA);
+       if (!d)
+               return -ENOMEM;
+
+       flow = sun8i_ss_get_engine_number(ss);
+
+#ifdef CONFIG_CRYPTO_DEV_SUN8I_SS_DEBUG
+       algt->stat_req++;
+       algt->stat_bytes += todo;
+#endif
+
+       v = SS_ALG_PRNG | SS_PRNG_CONTINUE | SS_START;
+       if (flow)
+               v |= SS_FLOW1;
+       else
+               v |= SS_FLOW0;
+
+       dma_iv = dma_map_single(ss->dev, ctx->seed, ctx->slen, DMA_TO_DEVICE);
+       if (dma_mapping_error(ss->dev, dma_iv)) {
+               dev_err(ss->dev, "Cannot DMA MAP IV\n");
+               return -EFAULT;
+       }
+
+       dma_dst = dma_map_single(ss->dev, d, todo, DMA_FROM_DEVICE);
+       if (dma_mapping_error(ss->dev, dma_dst)) {
+               dev_err(ss->dev, "Cannot DMA MAP DST\n");
+               err = -EFAULT;
+               goto err_iv;
+       }
+
+       err = pm_runtime_get_sync(ss->dev);
+       if (err < 0) {
+               pm_runtime_put_noidle(ss->dev);
+               goto err_pm;
+       }
+       err = 0;
+
+       mutex_lock(&ss->mlock);
+       writel(dma_iv, ss->base + SS_IV_ADR_REG);
+       /* the PRNG act badly (failing rngtest) without SS_KEY_ADR_REG set */
+       writel(dma_iv, ss->base + SS_KEY_ADR_REG);
+       writel(dma_dst, ss->base + SS_DST_ADR_REG);
+       writel(todo / 4, ss->base + SS_LEN_ADR_REG);
+
+       reinit_completion(&ss->flows[flow].complete);
+       ss->flows[flow].status = 0;
+       /* Be sure all data is written before enabling the task */
+       wmb();
+
+       writel(v, ss->base + SS_CTL_REG);
+
+       wait_for_completion_interruptible_timeout(&ss->flows[flow].complete,
+                                                 msecs_to_jiffies(todo));
+       if (ss->flows[flow].status == 0) {
+               dev_err(ss->dev, "DMA timeout for PRNG (size=%u)\n", todo);
+               err = -EFAULT;
+       }
+       /* Since cipher and hash use the linux/cryptoengine and that we have
+        * a cryptoengine per flow, we are sure that they will issue only one
+        * request per flow.
+        * Since the cryptoengine wait for completion before submitting a new
+        * one, the mlock could be left just after the final writel.
+        * But cryptoengine cannot handle crypto_rng, so we need to be sure
+        * nothing will use our flow.
+        * The easiest way is to grab mlock until the hardware end our requests.
+        * We could have used a per flow lock, but this would increase
+        * complexity.
+        * The drawback is that no request could be handled for the other flow.
+        */
+       mutex_unlock(&ss->mlock);
+
+       pm_runtime_put(ss->dev);
+
+err_pm:
+       dma_unmap_single(ss->dev, dma_dst, todo, DMA_FROM_DEVICE);
+err_iv:
+       dma_unmap_single(ss->dev, dma_iv, ctx->slen, DMA_TO_DEVICE);
+
+       if (!err) {
+               memcpy(dst, d, dlen);
+               /* Update seed */
+               memcpy(ctx->seed, d + dlen, ctx->slen);
+       }
+       memzero_explicit(d, todo);
+       kfree(d);
+
+       return err;
+}
index 0405767..1a66457 100644 (file)
@@ -8,10 +8,16 @@
 #include <crypto/aes.h>
 #include <crypto/des.h>
 #include <crypto/engine.h>
+#include <crypto/rng.h>
 #include <crypto/skcipher.h>
 #include <linux/atomic.h>
 #include <linux/debugfs.h>
 #include <linux/crypto.h>
+#include <crypto/internal/hash.h>
+#include <crypto/md5.h>
+#include <crypto/sha.h>
+
+#define SS_START       1
 
 #define SS_ENCRYPTION          0
 #define SS_DECRYPTION          BIT(6)
 #define SS_ALG_AES             0
 #define SS_ALG_DES             (1 << 2)
 #define SS_ALG_3DES            (2 << 2)
+#define SS_ALG_MD5             (3 << 2)
+#define SS_ALG_PRNG            (4 << 2)
+#define SS_ALG_SHA1            (6 << 2)
+#define SS_ALG_SHA224          (7 << 2)
+#define SS_ALG_SHA256          (8 << 2)
 
 #define SS_CTL_REG             0x00
 #define SS_INT_CTL_REG         0x04
 #define SS_OP_ECB      0
 #define SS_OP_CBC      (1 << 13)
 
+#define SS_ID_HASH_MD5 0
+#define SS_ID_HASH_SHA1        1
+#define SS_ID_HASH_SHA224      2
+#define SS_ID_HASH_SHA256      3
+#define SS_ID_HASH_MAX 4
+
 #define SS_FLOW0       BIT(30)
 #define SS_FLOW1       BIT(31)
 
+#define SS_PRNG_CONTINUE       BIT(18)
+
 #define MAX_SG 8
 
 #define MAXFLOW 2
@@ -59,6 +78,9 @@
 #define SS_DIE_ID_SHIFT        20
 #define SS_DIE_ID_MASK 0x07
 
+#define PRNG_DATA_SIZE (160 / 8)
+#define PRNG_SEED_SIZE DIV_ROUND_UP(175, 8)
+
 /*
  * struct ss_clock - Describe clocks used by sun8i-ss
  * @name:       Name of clock needed by this variant
@@ -75,11 +97,14 @@ struct ss_clock {
  * struct ss_variant - Describe SS capability for each variant hardware
  * @alg_cipher:        list of supported ciphers. for each SS_ID_ this will give the
  *              coresponding SS_ALG_XXX value
+ * @alg_hash:  list of supported hashes. for each SS_ID_ this will give the
+ *              corresponding SS_ALG_XXX value
  * @op_mode:   list of supported block modes
- * @ss_clks!   list of clock needed by this variant
+ * @ss_clks:   list of clock needed by this variant
  */
 struct ss_variant {
        char alg_cipher[SS_ID_CIPHER_MAX];
+       char alg_hash[SS_ID_HASH_MAX];
        u32 op_mode[SS_ID_OP_MAX];
        struct ss_clock ss_clks[SS_MAX_CLOCKS];
 };
@@ -170,6 +195,8 @@ struct sun8i_cipher_req_ctx {
  * @keylen:            len of the key
  * @ss:                        pointer to the private data of driver handling this TFM
  * @fallback_tfm:      pointer to the fallback TFM
+ *
+ * enginectx must be the first element
  */
 struct sun8i_cipher_tfm_ctx {
        struct crypto_engine_ctx enginectx;
@@ -180,6 +207,46 @@ struct sun8i_cipher_tfm_ctx {
 };
 
 /*
+ * struct sun8i_ss_prng_ctx - context for PRNG TFM
+ * @seed:      The seed to use
+ * @slen:      The size of the seed
+ */
+struct sun8i_ss_rng_tfm_ctx {
+       void *seed;
+       unsigned int slen;
+};
+
+/*
+ * struct sun8i_ss_hash_tfm_ctx - context for an ahash TFM
+ * @enginectx:         crypto_engine used by this TFM
+ * @fallback_tfm:      pointer to the fallback TFM
+ * @ss:                        pointer to the private data of driver handling this TFM
+ *
+ * enginectx must be the first element
+ */
+struct sun8i_ss_hash_tfm_ctx {
+       struct crypto_engine_ctx enginectx;
+       struct crypto_ahash *fallback_tfm;
+       struct sun8i_ss_dev *ss;
+};
+
+/*
+ * struct sun8i_ss_hash_reqctx - context for an ahash request
+ * @t_src:     list of DMA address and size for source SGs
+ * @t_dst:     list of DMA address and size for destination SGs
+ * @fallback_req:      pre-allocated fallback request
+ * @method:    the register value for the algorithm used by this request
+ * @flow:      the flow to use for this request
+ */
+struct sun8i_ss_hash_reqctx {
+       struct sginfo t_src[MAX_SG];
+       struct sginfo t_dst[MAX_SG];
+       struct ahash_request fallback_req;
+       u32 method;
+       int flow;
+};
+
+/*
  * struct sun8i_ss_alg_template - crypto_alg template
  * @type:              the CRYPTO_ALG_TYPE for this template
  * @ss_algo_id:                the SS_ID for this template
@@ -189,6 +256,7 @@ struct sun8i_cipher_tfm_ctx {
  * @alg:               one of sub struct must be used
  * @stat_req:          number of request done on this template
  * @stat_fb:           number of request which has fallbacked
+ * @stat_bytes:                total data size done by this template
  */
 struct sun8i_ss_alg_template {
        u32 type;
@@ -197,10 +265,13 @@ struct sun8i_ss_alg_template {
        struct sun8i_ss_dev *ss;
        union {
                struct skcipher_alg skcipher;
+               struct rng_alg rng;
+               struct ahash_alg hash;
        } alg;
 #ifdef CONFIG_CRYPTO_DEV_SUN8I_SS_DEBUG
        unsigned long stat_req;
        unsigned long stat_fb;
+       unsigned long stat_bytes;
 #endif
 };
 
@@ -218,3 +289,19 @@ int sun8i_ss_skencrypt(struct skcipher_request *areq);
 int sun8i_ss_get_engine_number(struct sun8i_ss_dev *ss);
 
 int sun8i_ss_run_task(struct sun8i_ss_dev *ss, struct sun8i_cipher_req_ctx *rctx, const char *name);
+int sun8i_ss_prng_generate(struct crypto_rng *tfm, const u8 *src,
+                          unsigned int slen, u8 *dst, unsigned int dlen);
+int sun8i_ss_prng_seed(struct crypto_rng *tfm, const u8 *seed, unsigned int slen);
+int sun8i_ss_prng_init(struct crypto_tfm *tfm);
+void sun8i_ss_prng_exit(struct crypto_tfm *tfm);
+
+int sun8i_ss_hash_crainit(struct crypto_tfm *tfm);
+void sun8i_ss_hash_craexit(struct crypto_tfm *tfm);
+int sun8i_ss_hash_init(struct ahash_request *areq);
+int sun8i_ss_hash_export(struct ahash_request *areq, void *out);
+int sun8i_ss_hash_import(struct ahash_request *areq, const void *in);
+int sun8i_ss_hash_final(struct ahash_request *areq);
+int sun8i_ss_hash_update(struct ahash_request *areq);
+int sun8i_ss_hash_finup(struct ahash_request *areq);
+int sun8i_ss_hash_digest(struct ahash_request *areq);
+int sun8i_ss_hash_run(struct crypto_engine *engine, void *breq);
index f7fc0c4..7729a63 100644 (file)
@@ -55,7 +55,7 @@ static void set_dynamic_sa_command_1(struct dynamic_sa_ctl *sa, u32 cm,
        sa->sa_command_1.w = 0;
        sa->sa_command_1.bf.crypto_mode31 = (cm & 4) >> 2;
        sa->sa_command_1.bf.crypto_mode9_8 = cm & 3;
-       sa->sa_command_1.bf.feedback_mode = cfb,
+       sa->sa_command_1.bf.feedback_mode = cfb;
        sa->sa_command_1.bf.sa_rev = 1;
        sa->sa_command_1.bf.hmac_muting = hmac_mc;
        sa->sa_command_1.bf.extended_seq_num = esn;
index 6b68413..a4e25b4 100644 (file)
@@ -15,6 +15,7 @@
 
 #include <linux/ratelimit.h>
 #include <linux/mutex.h>
+#include <linux/scatterlist.h>
 #include <crypto/internal/hash.h>
 #include <crypto/internal/aead.h>
 #include <crypto/internal/rng.h>
index d932107..8b5e073 100644 (file)
@@ -99,7 +99,7 @@ static int meson_cipher(struct skcipher_request *areq)
        unsigned int keyivlen, ivsize, offset, tloffset;
        dma_addr_t phykeyiv;
        void *backup_iv = NULL, *bkeyiv;
-       __le32 v;
+       u32 v;
 
        algt = container_of(alg, struct meson_alg_template, alg.skcipher);
 
@@ -340,10 +340,7 @@ void meson_cipher_exit(struct crypto_tfm *tfm)
 {
        struct meson_cipher_tfm_ctx *op = crypto_tfm_ctx(tfm);
 
-       if (op->key) {
-               memzero_explicit(op->key, op->keylen);
-               kfree(op->key);
-       }
+       kfree_sensitive(op->key);
        crypto_free_skcipher(op->fallback_tfm);
 }
 
@@ -367,10 +364,7 @@ int meson_aes_setkey(struct crypto_skcipher *tfm, const u8 *key,
                dev_dbg(mc->dev, "ERROR: Invalid keylen %u\n", keylen);
                return -EINVAL;
        }
-       if (op->key) {
-               memzero_explicit(op->key, op->keylen);
-               kfree(op->key);
-       }
+       kfree_sensitive(op->key);
        op->keylen = keylen;
        op->key = kmemdup(key, keylen, GFP_KERNEL | GFP_DMA);
        if (!op->key)
index 466552a..5bbeff4 100644 (file)
@@ -98,7 +98,7 @@ static struct meson_alg_template mc_algs[] = {
 };
 
 #ifdef CONFIG_CRYPTO_DEV_AMLOGIC_GXL_DEBUG
-static int meson_dbgfs_read(struct seq_file *seq, void *v)
+static int meson_debugfs_show(struct seq_file *seq, void *v)
 {
        struct meson_dev *mc = seq->private;
        int i;
@@ -118,19 +118,7 @@ static int meson_dbgfs_read(struct seq_file *seq, void *v)
        }
        return 0;
 }
-
-static int meson_dbgfs_open(struct inode *inode, struct file *file)
-{
-       return single_open(file, meson_dbgfs_read, inode->i_private);
-}
-
-static const struct file_operations meson_debugfs_fops = {
-       .owner = THIS_MODULE,
-       .open = meson_dbgfs_open,
-       .read = seq_read,
-       .llseek = seq_lseek,
-       .release = single_release,
-};
+DEFINE_SHOW_ATTRIBUTE(meson_debugfs);
 #endif
 
 static void meson_free_chanlist(struct meson_dev *mc, int i)
index a6e1449..b1d2860 100644 (file)
@@ -1539,7 +1539,7 @@ static int atmel_aes_gcm_length(struct atmel_aes_dev *dd)
 
        /* Write incr32(J0) into IV. */
        j0_lsw = j0[3];
-       j0[3] = cpu_to_be32(be32_to_cpu(j0[3]) + 1);
+       be32_add_cpu(&j0[3], 1);
        atmel_aes_write_block(dd, AES_IVR(0), j0);
        j0[3] = j0_lsw;
 
index ed40dbb..4d63cb1 100644 (file)
@@ -912,7 +912,7 @@ static void atmel_tdes_skcipher_alg_init(struct skcipher_alg *alg)
 {
        alg->base.cra_priority = ATMEL_TDES_PRIORITY;
        alg->base.cra_flags = CRYPTO_ALG_ASYNC;
-       alg->base.cra_ctxsize = sizeof(struct atmel_tdes_ctx),
+       alg->base.cra_ctxsize = sizeof(struct atmel_tdes_ctx);
        alg->base.cra_module = THIS_MODULE;
 
        alg->init = atmel_tdes_init_tfm;
index 8a7fa1a..50d169e 100644 (file)
@@ -165,10 +165,6 @@ spu_skcipher_rx_sg_create(struct brcm_message *mssg,
                return -EFAULT;
        }
 
-       if (ctx->cipher.alg == CIPHER_ALG_RC4)
-               /* Add buffer to catch 260-byte SUPDT field for RC4 */
-               sg_set_buf(sg++, rctx->msg_buf.c.supdt_tweak, SPU_SUPDT_LEN);
-
        if (stat_pad_len)
                sg_set_buf(sg++, rctx->msg_buf.rx_stat_pad, stat_pad_len);
 
@@ -317,7 +313,6 @@ static int handle_skcipher_req(struct iproc_reqctx_s *rctx)
        u8 local_iv_ctr[MAX_IV_SIZE];
        u32 stat_pad_len;       /* num bytes to align status field */
        u32 pad_len;            /* total length of all padding */
-       bool update_key = false;
        struct brcm_message *mssg;      /* mailbox message */
 
        /* number of entries in src and dst sg in mailbox message. */
@@ -391,28 +386,6 @@ static int handle_skcipher_req(struct iproc_reqctx_s *rctx)
                }
        }
 
-       if (ctx->cipher.alg == CIPHER_ALG_RC4) {
-               rx_frag_num++;
-               if (chunk_start) {
-                       /*
-                        * for non-first RC4 chunks, use SUPDT from previous
-                        * response as key for this chunk.
-                        */
-                       cipher_parms.key_buf = rctx->msg_buf.c.supdt_tweak;
-                       update_key = true;
-                       cipher_parms.type = CIPHER_TYPE_UPDT;
-               } else if (!rctx->is_encrypt) {
-                       /*
-                        * First RC4 chunk. For decrypt, key in pre-built msg
-                        * header may have been changed if encrypt required
-                        * multiple chunks. So revert the key to the
-                        * ctx->enckey value.
-                        */
-                       update_key = true;
-                       cipher_parms.type = CIPHER_TYPE_INIT;
-               }
-       }
-
        if (ctx->max_payload == SPU_MAX_PAYLOAD_INF)
                flow_log("max_payload infinite\n");
        else
@@ -425,14 +398,9 @@ static int handle_skcipher_req(struct iproc_reqctx_s *rctx)
        memcpy(rctx->msg_buf.bcm_spu_req_hdr, ctx->bcm_spu_req_hdr,
               sizeof(rctx->msg_buf.bcm_spu_req_hdr));
 
-       /*
-        * Pass SUPDT field as key. Key field in finish() call is only used
-        * when update_key has been set above for RC4. Will be ignored in
-        * all other cases.
-        */
        spu->spu_cipher_req_finish(rctx->msg_buf.bcm_spu_req_hdr + BCM_HDR_LEN,
                                   ctx->spu_req_hdr_len, !(rctx->is_encrypt),
-                                  &cipher_parms, update_key, chunksize);
+                                  &cipher_parms, chunksize);
 
        atomic64_add(chunksize, &iproc_priv.bytes_out);
 
@@ -527,9 +495,6 @@ static void handle_skcipher_resp(struct iproc_reqctx_s *rctx)
                 __func__, rctx->total_received, payload_len);
 
        dump_sg(req->dst, rctx->total_received, payload_len);
-       if (ctx->cipher.alg == CIPHER_ALG_RC4)
-               packet_dump("  supdt ", rctx->msg_buf.c.supdt_tweak,
-                           SPU_SUPDT_LEN);
 
        rctx->total_received += payload_len;
        if (rctx->total_received == rctx->total_todo) {
@@ -1853,26 +1818,6 @@ static int aes_setkey(struct crypto_skcipher *cipher, const u8 *key,
        return 0;
 }
 
-static int rc4_setkey(struct crypto_skcipher *cipher, const u8 *key,
-                     unsigned int keylen)
-{
-       struct iproc_ctx_s *ctx = crypto_skcipher_ctx(cipher);
-       int i;
-
-       ctx->enckeylen = ARC4_MAX_KEY_SIZE + ARC4_STATE_SIZE;
-
-       ctx->enckey[0] = 0x00;  /* 0x00 */
-       ctx->enckey[1] = 0x00;  /* i    */
-       ctx->enckey[2] = 0x00;  /* 0x00 */
-       ctx->enckey[3] = 0x00;  /* j    */
-       for (i = 0; i < ARC4_MAX_KEY_SIZE; i++)
-               ctx->enckey[i + ARC4_STATE_SIZE] = key[i % keylen];
-
-       ctx->cipher_type = CIPHER_TYPE_INIT;
-
-       return 0;
-}
-
 static int skcipher_setkey(struct crypto_skcipher *cipher, const u8 *key,
                             unsigned int keylen)
 {
@@ -1895,9 +1840,6 @@ static int skcipher_setkey(struct crypto_skcipher *cipher, const u8 *key,
        case CIPHER_ALG_AES:
                err = aes_setkey(cipher, key, keylen);
                break;
-       case CIPHER_ALG_RC4:
-               err = rc4_setkey(cipher, key, keylen);
-               break;
        default:
                pr_err("%s() Error: unknown cipher alg\n", __func__);
                err = -EINVAL;
@@ -1905,11 +1847,9 @@ static int skcipher_setkey(struct crypto_skcipher *cipher, const u8 *key,
        if (err)
                return err;
 
-       /* RC4 already populated ctx->enkey */
-       if (ctx->cipher.alg != CIPHER_ALG_RC4) {
-               memcpy(ctx->enckey, key, keylen);
-               ctx->enckeylen = keylen;
-       }
+       memcpy(ctx->enckey, key, keylen);
+       ctx->enckeylen = keylen;
+
        /* SPU needs XTS keys in the reverse order the crypto API presents */
        if ((ctx->cipher.alg == CIPHER_ALG_AES) &&
            (ctx->cipher.mode == CIPHER_MODE_XTS)) {
@@ -2872,9 +2812,6 @@ static int aead_authenc_setkey(struct crypto_aead *cipher,
                        goto badkey;
                }
                break;
-       case CIPHER_ALG_RC4:
-               ctx->cipher_type = CIPHER_TYPE_INIT;
-               break;
        default:
                pr_err("%s() Error: Unknown cipher alg\n", __func__);
                return -EINVAL;
@@ -2930,7 +2867,6 @@ static int aead_gcm_ccm_setkey(struct crypto_aead *cipher,
 
        ctx->enckeylen = keylen;
        ctx->authkeylen = 0;
-       memcpy(ctx->enckey, key, ctx->enckeylen);
 
        switch (ctx->enckeylen) {
        case AES_KEYSIZE_128:
@@ -2946,6 +2882,8 @@ static int aead_gcm_ccm_setkey(struct crypto_aead *cipher,
                goto badkey;
        }
 
+       memcpy(ctx->enckey, key, ctx->enckeylen);
+
        flow_log("  enckeylen:%u authkeylen:%u\n", ctx->enckeylen,
                 ctx->authkeylen);
        flow_dump("  enc: ", ctx->enckey, ctx->enckeylen);
@@ -3000,6 +2938,10 @@ static int aead_gcm_esp_setkey(struct crypto_aead *cipher,
        struct iproc_ctx_s *ctx = crypto_aead_ctx(cipher);
 
        flow_log("%s\n", __func__);
+
+       if (keylen < GCM_ESP_SALT_SIZE)
+               return -EINVAL;
+
        ctx->salt_len = GCM_ESP_SALT_SIZE;
        ctx->salt_offset = GCM_ESP_SALT_OFFSET;
        memcpy(ctx->salt, key + keylen - GCM_ESP_SALT_SIZE, GCM_ESP_SALT_SIZE);
@@ -3028,6 +2970,10 @@ static int rfc4543_gcm_esp_setkey(struct crypto_aead *cipher,
        struct iproc_ctx_s *ctx = crypto_aead_ctx(cipher);
 
        flow_log("%s\n", __func__);
+
+       if (keylen < GCM_ESP_SALT_SIZE)
+               return -EINVAL;
+
        ctx->salt_len = GCM_ESP_SALT_SIZE;
        ctx->salt_offset = GCM_ESP_SALT_OFFSET;
        memcpy(ctx->salt, key + keylen - GCM_ESP_SALT_SIZE, GCM_ESP_SALT_SIZE);
@@ -3057,6 +3003,10 @@ static int aead_ccm_esp_setkey(struct crypto_aead *cipher,
        struct iproc_ctx_s *ctx = crypto_aead_ctx(cipher);
 
        flow_log("%s\n", __func__);
+
+       if (keylen < CCM_ESP_SALT_SIZE)
+               return -EINVAL;
+
        ctx->salt_len = CCM_ESP_SALT_SIZE;
        ctx->salt_offset = CCM_ESP_SALT_OFFSET;
        memcpy(ctx->salt, key + keylen - CCM_ESP_SALT_SIZE, CCM_ESP_SALT_SIZE);
@@ -3606,25 +3556,6 @@ static struct iproc_alg_s driver_algs[] = {
        {
         .type = CRYPTO_ALG_TYPE_SKCIPHER,
         .alg.skcipher = {
-                       .base.cra_name = "ecb(arc4)",
-                       .base.cra_driver_name = "ecb-arc4-iproc",
-                       .base.cra_blocksize = ARC4_BLOCK_SIZE,
-                       .min_keysize = ARC4_MIN_KEY_SIZE,
-                       .max_keysize = ARC4_MAX_KEY_SIZE,
-                       .ivsize = 0,
-                       },
-        .cipher_info = {
-                        .alg = CIPHER_ALG_RC4,
-                        .mode = CIPHER_MODE_NONE,
-                        },
-        .auth_info = {
-                      .alg = HASH_ALG_NONE,
-                      .mode = HASH_MODE_NONE,
-                      },
-        },
-       {
-        .type = CRYPTO_ALG_TYPE_SKCIPHER,
-        .alg.skcipher = {
                        .base.cra_name = "ofb(des)",
                        .base.cra_driver_name = "ofb-des-iproc",
                        .base.cra_blocksize = DES_BLOCK_SIZE,
@@ -4526,15 +4457,9 @@ static void spu_counters_init(void)
 
 static int spu_register_skcipher(struct iproc_alg_s *driver_alg)
 {
-       struct spu_hw *spu = &iproc_priv.spu;
        struct skcipher_alg *crypto = &driver_alg->alg.skcipher;
        int err;
 
-       /* SPU2 does not support RC4 */
-       if ((driver_alg->cipher_info.alg == CIPHER_ALG_RC4) &&
-           (spu->spu_type == SPU_TYPE_SPU2))
-               return 0;
-
        crypto->base.cra_module = THIS_MODULE;
        crypto->base.cra_priority = cipher_pri;
        crypto->base.cra_alignmask = 0;
index b6d83e3..035c838 100644 (file)
@@ -388,7 +388,6 @@ struct spu_hw {
                                      u16 spu_req_hdr_len,
                                      unsigned int is_inbound,
                                      struct spu_cipher_parms *cipher_parms,
-                                     bool update_key,
                                      unsigned int data_size);
        void (*spu_request_pad)(u8 *pad_start, u32 gcm_padding,
                                u32 hash_pad_len, enum hash_alg auth_alg,
index e7562e9..fe126f9 100644 (file)
@@ -222,10 +222,6 @@ void spum_dump_msg_hdr(u8 *buf, unsigned int buf_len)
                                cipher_key_len = 24;
                                name = "3DES";
                                break;
-                       case CIPHER_ALG_RC4:
-                               cipher_key_len = 260;
-                               name = "ARC4";
-                               break;
                        case CIPHER_ALG_AES:
                                switch (cipher_type) {
                                case CIPHER_TYPE_AES128:
@@ -919,21 +915,16 @@ u16 spum_cipher_req_init(u8 *spu_hdr, struct spu_cipher_parms *cipher_parms)
  * @spu_req_hdr_len: Length in bytes of the SPU request header
  * @isInbound:       0 encrypt, 1 decrypt
  * @cipher_parms:    Parameters describing cipher operation to be performed
- * @update_key:      If true, rewrite the cipher key in SCTX
  * @data_size:       Length of the data in the BD field
  *
  * Assumes much of the header was already filled in at setkey() time in
  * spum_cipher_req_init().
- * spum_cipher_req_init() fills in the encryption key. For RC4, when submitting
- * a request for a non-first chunk, we use the 260-byte SUPDT field from the
- * previous response as the key. update_key is true for this case. Unused in all
- * other cases.
+ * spum_cipher_req_init() fills in the encryption key.
  */
 void spum_cipher_req_finish(u8 *spu_hdr,
                            u16 spu_req_hdr_len,
                            unsigned int is_inbound,
                            struct spu_cipher_parms *cipher_parms,
-                           bool update_key,
                            unsigned int data_size)
 {
        struct SPUHEADER *spuh;
@@ -948,11 +939,6 @@ void spum_cipher_req_finish(u8 *spu_hdr,
        flow_log(" in: %u\n", is_inbound);
        flow_log(" cipher alg: %u, cipher_type: %u\n", cipher_parms->alg,
                 cipher_parms->type);
-       if (update_key) {
-               flow_log(" cipher key len: %u\n", cipher_parms->key_len);
-               flow_dump("  key: ", cipher_parms->key_buf,
-                         cipher_parms->key_len);
-       }
 
        /*
         * In XTS mode, API puts "i" parameter (block tweak) in IV.  For
@@ -981,13 +967,6 @@ void spum_cipher_req_finish(u8 *spu_hdr,
        else
                cipher_bits &= ~CIPHER_INBOUND;
 
-       /* update encryption key for RC4 on non-first chunk */
-       if (update_key) {
-               spuh->sa.cipher_flags |=
-                       cipher_parms->type << CIPHER_TYPE_SHIFT;
-               memcpy(spuh + 1, cipher_parms->key_buf, cipher_parms->key_len);
-       }
-
        if (cipher_parms->alg && cipher_parms->iv_buf && cipher_parms->iv_len)
                /* cipher iv provided so put it in here */
                memcpy(bdesc_ptr - cipher_parms->iv_len, cipher_parms->iv_buf,
index b247bc5..dd13238 100644 (file)
@@ -251,7 +251,6 @@ void spum_cipher_req_finish(u8 *spu_hdr,
                            u16 spu_req_hdr_len,
                            unsigned int is_inbound,
                            struct spu_cipher_parms *cipher_parms,
-                           bool update_key,
                            unsigned int data_size);
 
 void spum_request_pad(u8 *pad_start,
index 59abb5e..c860ffb 100644 (file)
@@ -1170,21 +1170,16 @@ u16 spu2_cipher_req_init(u8 *spu_hdr, struct spu_cipher_parms *cipher_parms)
  * @spu_req_hdr_len: Length in bytes of the SPU request header
  * @isInbound:       0 encrypt, 1 decrypt
  * @cipher_parms:    Parameters describing cipher operation to be performed
- * @update_key:      If true, rewrite the cipher key in SCTX
  * @data_size:       Length of the data in the BD field
  *
  * Assumes much of the header was already filled in at setkey() time in
  * spu_cipher_req_init().
- * spu_cipher_req_init() fills in the encryption key. For RC4, when submitting a
- * request for a non-first chunk, we use the 260-byte SUPDT field from the
- * previous response as the key. update_key is true for this case. Unused in all
- * other cases.
+ * spu_cipher_req_init() fills in the encryption key.
  */
 void spu2_cipher_req_finish(u8 *spu_hdr,
                            u16 spu_req_hdr_len,
                            unsigned int is_inbound,
                            struct spu_cipher_parms *cipher_parms,
-                           bool update_key,
                            unsigned int data_size)
 {
        struct SPU2_FMD *fmd;
@@ -1196,11 +1191,6 @@ void spu2_cipher_req_finish(u8 *spu_hdr,
        flow_log(" in: %u\n", is_inbound);
        flow_log(" cipher alg: %u, cipher_type: %u\n", cipher_parms->alg,
                 cipher_parms->type);
-       if (update_key) {
-               flow_log(" cipher key len: %u\n", cipher_parms->key_len);
-               flow_dump("  key: ", cipher_parms->key_buf,
-                         cipher_parms->key_len);
-       }
        flow_log(" iv len: %d\n", cipher_parms->iv_len);
        flow_dump("    iv: ", cipher_parms->iv_buf, cipher_parms->iv_len);
        flow_log(" data_size: %u\n", data_size);
index 03af6c3..6e666bf 100644 (file)
@@ -200,7 +200,6 @@ void spu2_cipher_req_finish(u8 *spu_hdr,
                            u16 spu_req_hdr_len,
                            unsigned int is_inbound,
                            struct spu_cipher_parms *cipher_parms,
-                           bool update_key,
                            unsigned int data_size);
 void spu2_request_pad(u8 *pad_start, u32 gcm_padding, u32 hash_pad_len,
                      enum hash_alg auth_alg, enum hash_mode auth_mode,
index bc35aa0..84ea7cb 100644 (file)
@@ -101,6 +101,7 @@ config CRYPTO_DEV_FSL_CAAM_CRYPTO_API
        select CRYPTO_AUTHENC
        select CRYPTO_SKCIPHER
        select CRYPTO_LIB_DES
+       select CRYPTO_XTS
        help
          Selecting this will offload crypto for users of the
          scatterlist crypto API (such as the linux native IPSec
@@ -114,6 +115,7 @@ config CRYPTO_DEV_FSL_CAAM_CRYPTO_API_QI
        select CRYPTO_AUTHENC
        select CRYPTO_SKCIPHER
        select CRYPTO_DES
+       select CRYPTO_XTS
        help
          Selecting this will use CAAM Queue Interface (QI) for sending
          & receiving crypto jobs to/from CAAM. This gives better performance
@@ -165,6 +167,7 @@ config CRYPTO_DEV_FSL_DPAA2_CAAM
        select CRYPTO_AEAD
        select CRYPTO_HASH
        select CRYPTO_DES
+       select CRYPTO_XTS
        help
          CAAM driver for QorIQ Data Path Acceleration Architecture 2.
          It handles DPSECI DPAA2 objects that sit on the Management Complex
index 68d5cc0..3570286 100644 (file)
@@ -27,6 +27,8 @@ ifneq ($(CONFIG_CRYPTO_DEV_FSL_CAAM_CRYPTO_API_QI),)
        ccflags-y += -DCONFIG_CAAM_QI
 endif
 
+caam-$(CONFIG_DEBUG_FS) += debugfs.o
+
 obj-$(CONFIG_CRYPTO_DEV_FSL_DPAA2_CAAM) += dpaa2_caam.o
 
 dpaa2_caam-y    := caamalg_qi2.o dpseci.o
index 91feda5..cf5bd76 100644 (file)
@@ -57,6 +57,8 @@
 #include "key_gen.h"
 #include "caamalg_desc.h"
 #include <crypto/engine.h>
+#include <crypto/xts.h>
+#include <asm/unaligned.h>
 
 /*
  * crypto alg
@@ -114,10 +116,13 @@ struct caam_ctx {
        struct alginfo adata;
        struct alginfo cdata;
        unsigned int authsize;
+       bool xts_key_fallback;
+       struct crypto_skcipher *fallback;
 };
 
 struct caam_skcipher_req_ctx {
        struct skcipher_edesc *edesc;
+       struct skcipher_request fallback_req;
 };
 
 struct caam_aead_req_ctx {
@@ -829,11 +834,23 @@ static int xts_skcipher_setkey(struct crypto_skcipher *skcipher, const u8 *key,
 {
        struct caam_ctx *ctx = crypto_skcipher_ctx(skcipher);
        struct device *jrdev = ctx->jrdev;
+       struct caam_drv_private *ctrlpriv = dev_get_drvdata(jrdev->parent);
        u32 *desc;
+       int err;
 
-       if (keylen != 2 * AES_MIN_KEY_SIZE  && keylen != 2 * AES_MAX_KEY_SIZE) {
+       err = xts_verify_key(skcipher, key, keylen);
+       if (err) {
                dev_dbg(jrdev, "key size mismatch\n");
-               return -EINVAL;
+               return err;
+       }
+
+       if (keylen != 2 * AES_KEYSIZE_128 && keylen != 2 * AES_KEYSIZE_256)
+               ctx->xts_key_fallback = true;
+
+       if (ctrlpriv->era <= 8 || ctx->xts_key_fallback) {
+               err = crypto_skcipher_setkey(ctx->fallback, key, keylen);
+               if (err)
+                       return err;
        }
 
        ctx->cdata.keylen = keylen;
@@ -1755,6 +1772,14 @@ static int skcipher_do_one_req(struct crypto_engine *engine, void *areq)
        return ret;
 }
 
+static inline bool xts_skcipher_ivsize(struct skcipher_request *req)
+{
+       struct crypto_skcipher *skcipher = crypto_skcipher_reqtfm(req);
+       unsigned int ivsize = crypto_skcipher_ivsize(skcipher);
+
+       return !!get_unaligned((u64 *)(req->iv + (ivsize / 2)));
+}
+
 static inline int skcipher_crypt(struct skcipher_request *req, bool encrypt)
 {
        struct skcipher_edesc *edesc;
@@ -1762,12 +1787,34 @@ static inline int skcipher_crypt(struct skcipher_request *req, bool encrypt)
        struct caam_ctx *ctx = crypto_skcipher_ctx(skcipher);
        struct device *jrdev = ctx->jrdev;
        struct caam_drv_private_jr *jrpriv = dev_get_drvdata(jrdev);
+       struct caam_drv_private *ctrlpriv = dev_get_drvdata(jrdev->parent);
        u32 *desc;
        int ret = 0;
 
-       if (!req->cryptlen)
+       /*
+        * XTS is expected to return an error even for input length = 0
+        * Note that the case input length < block size will be caught during
+        * HW offloading and return an error.
+        */
+       if (!req->cryptlen && !ctx->fallback)
                return 0;
 
+       if (ctx->fallback && ((ctrlpriv->era <= 8 && xts_skcipher_ivsize(req)) ||
+                             ctx->xts_key_fallback)) {
+               struct caam_skcipher_req_ctx *rctx = skcipher_request_ctx(req);
+
+               skcipher_request_set_tfm(&rctx->fallback_req, ctx->fallback);
+               skcipher_request_set_callback(&rctx->fallback_req,
+                                             req->base.flags,
+                                             req->base.complete,
+                                             req->base.data);
+               skcipher_request_set_crypt(&rctx->fallback_req, req->src,
+                                          req->dst, req->cryptlen, req->iv);
+
+               return encrypt ? crypto_skcipher_encrypt(&rctx->fallback_req) :
+                                crypto_skcipher_decrypt(&rctx->fallback_req);
+       }
+
        /* allocate extended descriptor */
        edesc = skcipher_edesc_alloc(req, DESC_JOB_IO_LEN * CAAM_CMD_SZ);
        if (IS_ERR(edesc))
@@ -1905,6 +1952,7 @@ static struct caam_skcipher_alg driver_algs[] = {
                        .base = {
                                .cra_name = "xts(aes)",
                                .cra_driver_name = "xts-aes-caam",
+                               .cra_flags = CRYPTO_ALG_NEED_FALLBACK,
                                .cra_blocksize = AES_BLOCK_SIZE,
                        },
                        .setkey = xts_skcipher_setkey,
@@ -3344,13 +3392,35 @@ static int caam_cra_init(struct crypto_skcipher *tfm)
        struct caam_skcipher_alg *caam_alg =
                container_of(alg, typeof(*caam_alg), skcipher);
        struct caam_ctx *ctx = crypto_skcipher_ctx(tfm);
-
-       crypto_skcipher_set_reqsize(tfm, sizeof(struct caam_skcipher_req_ctx));
+       u32 alg_aai = caam_alg->caam.class1_alg_type & OP_ALG_AAI_MASK;
+       int ret = 0;
 
        ctx->enginectx.op.do_one_request = skcipher_do_one_req;
 
-       return caam_init_common(crypto_skcipher_ctx(tfm), &caam_alg->caam,
-                               false);
+       if (alg_aai == OP_ALG_AAI_XTS) {
+               const char *tfm_name = crypto_tfm_alg_name(&tfm->base);
+               struct crypto_skcipher *fallback;
+
+               fallback = crypto_alloc_skcipher(tfm_name, 0,
+                                                CRYPTO_ALG_NEED_FALLBACK);
+               if (IS_ERR(fallback)) {
+                       dev_err(ctx->jrdev, "Failed to allocate %s fallback: %ld\n",
+                               tfm_name, PTR_ERR(fallback));
+                       return PTR_ERR(fallback);
+               }
+
+               ctx->fallback = fallback;
+               crypto_skcipher_set_reqsize(tfm, sizeof(struct caam_skcipher_req_ctx) +
+                                           crypto_skcipher_reqsize(fallback));
+       } else {
+               crypto_skcipher_set_reqsize(tfm, sizeof(struct caam_skcipher_req_ctx));
+       }
+
+       ret = caam_init_common(ctx, &caam_alg->caam, false);
+       if (ret && ctx->fallback)
+               crypto_free_skcipher(ctx->fallback);
+
+       return ret;
 }
 
 static int caam_aead_init(struct crypto_aead *tfm)
@@ -3378,7 +3448,11 @@ static void caam_exit_common(struct caam_ctx *ctx)
 
 static void caam_cra_exit(struct crypto_skcipher *tfm)
 {
-       caam_exit_common(crypto_skcipher_ctx(tfm));
+       struct caam_ctx *ctx = crypto_skcipher_ctx(tfm);
+
+       if (ctx->fallback)
+               crypto_free_skcipher(ctx->fallback);
+       caam_exit_common(ctx);
 }
 
 static void caam_aead_exit(struct crypto_aead *tfm)
@@ -3412,8 +3486,8 @@ static void caam_skcipher_alg_init(struct caam_skcipher_alg *t_alg)
        alg->base.cra_module = THIS_MODULE;
        alg->base.cra_priority = CAAM_CRA_PRIORITY;
        alg->base.cra_ctxsize = sizeof(struct caam_ctx);
-       alg->base.cra_flags CRYPTO_ALG_ASYNC | CRYPTO_ALG_ALLOCATES_MEMORY |
-                             CRYPTO_ALG_KERN_DRIVER_ONLY;
+       alg->base.cra_flags |= (CRYPTO_ALG_ASYNC | CRYPTO_ALG_ALLOCATES_MEMORY |
+                             CRYPTO_ALG_KERN_DRIVER_ONLY);
 
        alg->init = caam_cra_init;
        alg->exit = caam_cra_exit;
index d6c5818..7571e1a 100644 (file)
@@ -373,6 +373,7 @@ EXPORT_SYMBOL(cnstr_shdsc_aead_encap);
  *         with OP_ALG_AAI_HMAC_PRECOMP.
  * @ivsize: initialization vector size
  * @icvsize: integrity check value (ICV) size (truncated or full)
+ * @geniv: whether to generate Encrypted Chain IV
  * @is_rfc3686: true when ctr(aes) is wrapped by rfc3686 template
  * @nonce: pointer to rfc3686 nonce
  * @ctx1_iv_off: IV offset in CONTEXT1 register
@@ -1550,13 +1551,14 @@ void cnstr_shdsc_xts_skcipher_encap(u32 * const desc, struct alginfo *cdata)
        set_jump_tgt_here(desc, key_jump_cmd);
 
        /*
-        * create sequence for loading the sector index
-        * Upper 8B of IV - will be used as sector index
-        * Lower 8B of IV - will be discarded
+        * create sequence for loading the sector index / 16B tweak value
+        * Lower 8B of IV - sector index / tweak lower half
+        * Upper 8B of IV - upper half of 16B tweak
         */
        append_seq_load(desc, 8, LDST_SRCDST_BYTE_CONTEXT | LDST_CLASS_1_CCB |
                        (0x20 << LDST_OFFSET_SHIFT));
-       append_seq_fifo_load(desc, 8, FIFOLD_CLASS_SKIP);
+       append_seq_load(desc, 8, LDST_SRCDST_BYTE_CONTEXT | LDST_CLASS_1_CCB |
+                       (0x30 << LDST_OFFSET_SHIFT));
 
        /* Load operation */
        append_operation(desc, cdata->algtype | OP_ALG_AS_INITFINAL |
@@ -1565,9 +1567,11 @@ void cnstr_shdsc_xts_skcipher_encap(u32 * const desc, struct alginfo *cdata)
        /* Perform operation */
        skcipher_append_src_dst(desc);
 
-       /* Store upper 8B of IV */
+       /* Store lower 8B and upper 8B of IV */
        append_seq_store(desc, 8, LDST_SRCDST_BYTE_CONTEXT | LDST_CLASS_1_CCB |
                         (0x20 << LDST_OFFSET_SHIFT));
+       append_seq_store(desc, 8, LDST_SRCDST_BYTE_CONTEXT | LDST_CLASS_1_CCB |
+                        (0x30 << LDST_OFFSET_SHIFT));
 
        print_hex_dump_debug("xts skcipher enc shdesc@" __stringify(__LINE__)
                             ": ", DUMP_PREFIX_ADDRESS, 16, 4,
@@ -1609,23 +1613,25 @@ void cnstr_shdsc_xts_skcipher_decap(u32 * const desc, struct alginfo *cdata)
        set_jump_tgt_here(desc, key_jump_cmd);
 
        /*
-        * create sequence for loading the sector index
-        * Upper 8B of IV - will be used as sector index
-        * Lower 8B of IV - will be discarded
+        * create sequence for loading the sector index / 16B tweak value
+        * Lower 8B of IV - sector index / tweak lower half
+        * Upper 8B of IV - upper half of 16B tweak
         */
        append_seq_load(desc, 8, LDST_SRCDST_BYTE_CONTEXT | LDST_CLASS_1_CCB |
                        (0x20 << LDST_OFFSET_SHIFT));
-       append_seq_fifo_load(desc, 8, FIFOLD_CLASS_SKIP);
-
+       append_seq_load(desc, 8, LDST_SRCDST_BYTE_CONTEXT | LDST_CLASS_1_CCB |
+                       (0x30 << LDST_OFFSET_SHIFT));
        /* Load operation */
        append_dec_op1(desc, cdata->algtype);
 
        /* Perform operation */
        skcipher_append_src_dst(desc);
 
-       /* Store upper 8B of IV */
+       /* Store lower 8B and upper 8B of IV */
        append_seq_store(desc, 8, LDST_SRCDST_BYTE_CONTEXT | LDST_CLASS_1_CCB |
                         (0x20 << LDST_OFFSET_SHIFT));
+       append_seq_store(desc, 8, LDST_SRCDST_BYTE_CONTEXT | LDST_CLASS_1_CCB |
+                        (0x30 << LDST_OFFSET_SHIFT));
 
        print_hex_dump_debug("xts skcipher dec shdesc@" __stringify(__LINE__)
                             ": ", DUMP_PREFIX_ADDRESS, 16, 4, desc,
index bb1c010..66f60d7 100644 (file)
@@ -18,6 +18,8 @@
 #include "qi.h"
 #include "jr.h"
 #include "caamalg_desc.h"
+#include <crypto/xts.h>
+#include <asm/unaligned.h>
 
 /*
  * crypto alg
@@ -67,6 +69,12 @@ struct caam_ctx {
        struct device *qidev;
        spinlock_t lock;        /* Protects multiple init of driver context */
        struct caam_drv_ctx *drv_ctx[NUM_OP];
+       bool xts_key_fallback;
+       struct crypto_skcipher *fallback;
+};
+
+struct caam_skcipher_req_ctx {
+       struct skcipher_request fallback_req;
 };
 
 static int aead_set_sh_desc(struct crypto_aead *aead)
@@ -725,11 +733,23 @@ static int xts_skcipher_setkey(struct crypto_skcipher *skcipher, const u8 *key,
 {
        struct caam_ctx *ctx = crypto_skcipher_ctx(skcipher);
        struct device *jrdev = ctx->jrdev;
+       struct caam_drv_private *ctrlpriv = dev_get_drvdata(jrdev->parent);
        int ret = 0;
+       int err;
 
-       if (keylen != 2 * AES_MIN_KEY_SIZE  && keylen != 2 * AES_MAX_KEY_SIZE) {
+       err = xts_verify_key(skcipher, key, keylen);
+       if (err) {
                dev_dbg(jrdev, "key size mismatch\n");
-               return -EINVAL;
+               return err;
+       }
+
+       if (keylen != 2 * AES_KEYSIZE_128 && keylen != 2 * AES_KEYSIZE_256)
+               ctx->xts_key_fallback = true;
+
+       if (ctrlpriv->era <= 8 || ctx->xts_key_fallback) {
+               err = crypto_skcipher_setkey(ctx->fallback, key, keylen);
+               if (err)
+                       return err;
        }
 
        ctx->cdata.keylen = keylen;
@@ -1373,16 +1393,46 @@ static struct skcipher_edesc *skcipher_edesc_alloc(struct skcipher_request *req,
        return edesc;
 }
 
+static inline bool xts_skcipher_ivsize(struct skcipher_request *req)
+{
+       struct crypto_skcipher *skcipher = crypto_skcipher_reqtfm(req);
+       unsigned int ivsize = crypto_skcipher_ivsize(skcipher);
+
+       return !!get_unaligned((u64 *)(req->iv + (ivsize / 2)));
+}
+
 static inline int skcipher_crypt(struct skcipher_request *req, bool encrypt)
 {
        struct skcipher_edesc *edesc;
        struct crypto_skcipher *skcipher = crypto_skcipher_reqtfm(req);
        struct caam_ctx *ctx = crypto_skcipher_ctx(skcipher);
+       struct caam_drv_private *ctrlpriv = dev_get_drvdata(ctx->jrdev->parent);
        int ret;
 
-       if (!req->cryptlen)
+       /*
+        * XTS is expected to return an error even for input length = 0
+        * Note that the case input length < block size will be caught during
+        * HW offloading and return an error.
+        */
+       if (!req->cryptlen && !ctx->fallback)
                return 0;
 
+       if (ctx->fallback && ((ctrlpriv->era <= 8 && xts_skcipher_ivsize(req)) ||
+                             ctx->xts_key_fallback)) {
+               struct caam_skcipher_req_ctx *rctx = skcipher_request_ctx(req);
+
+               skcipher_request_set_tfm(&rctx->fallback_req, ctx->fallback);
+               skcipher_request_set_callback(&rctx->fallback_req,
+                                             req->base.flags,
+                                             req->base.complete,
+                                             req->base.data);
+               skcipher_request_set_crypt(&rctx->fallback_req, req->src,
+                                          req->dst, req->cryptlen, req->iv);
+
+               return encrypt ? crypto_skcipher_encrypt(&rctx->fallback_req) :
+                                crypto_skcipher_decrypt(&rctx->fallback_req);
+       }
+
        if (unlikely(caam_congested))
                return -EAGAIN;
 
@@ -1507,6 +1557,7 @@ static struct caam_skcipher_alg driver_algs[] = {
                        .base = {
                                .cra_name = "xts(aes)",
                                .cra_driver_name = "xts-aes-caam-qi",
+                               .cra_flags = CRYPTO_ALG_NEED_FALLBACK,
                                .cra_blocksize = AES_BLOCK_SIZE,
                        },
                        .setkey = xts_skcipher_setkey,
@@ -2440,9 +2491,32 @@ static int caam_cra_init(struct crypto_skcipher *tfm)
        struct skcipher_alg *alg = crypto_skcipher_alg(tfm);
        struct caam_skcipher_alg *caam_alg =
                container_of(alg, typeof(*caam_alg), skcipher);
+       struct caam_ctx *ctx = crypto_skcipher_ctx(tfm);
+       u32 alg_aai = caam_alg->caam.class1_alg_type & OP_ALG_AAI_MASK;
+       int ret = 0;
+
+       if (alg_aai == OP_ALG_AAI_XTS) {
+               const char *tfm_name = crypto_tfm_alg_name(&tfm->base);
+               struct crypto_skcipher *fallback;
+
+               fallback = crypto_alloc_skcipher(tfm_name, 0,
+                                                CRYPTO_ALG_NEED_FALLBACK);
+               if (IS_ERR(fallback)) {
+                       dev_err(ctx->jrdev, "Failed to allocate %s fallback: %ld\n",
+                               tfm_name, PTR_ERR(fallback));
+                       return PTR_ERR(fallback);
+               }
+
+               ctx->fallback = fallback;
+               crypto_skcipher_set_reqsize(tfm, sizeof(struct caam_skcipher_req_ctx) +
+                                           crypto_skcipher_reqsize(fallback));
+       }
+
+       ret = caam_init_common(ctx, &caam_alg->caam, false);
+       if (ret && ctx->fallback)
+               crypto_free_skcipher(ctx->fallback);
 
-       return caam_init_common(crypto_skcipher_ctx(tfm), &caam_alg->caam,
-                               false);
+       return ret;
 }
 
 static int caam_aead_init(struct crypto_aead *tfm)
@@ -2468,7 +2542,11 @@ static void caam_exit_common(struct caam_ctx *ctx)
 
 static void caam_cra_exit(struct crypto_skcipher *tfm)
 {
-       caam_exit_common(crypto_skcipher_ctx(tfm));
+       struct caam_ctx *ctx = crypto_skcipher_ctx(tfm);
+
+       if (ctx->fallback)
+               crypto_free_skcipher(ctx->fallback);
+       caam_exit_common(ctx);
 }
 
 static void caam_aead_exit(struct crypto_aead *tfm)
@@ -2502,8 +2580,8 @@ static void caam_skcipher_alg_init(struct caam_skcipher_alg *t_alg)
        alg->base.cra_module = THIS_MODULE;
        alg->base.cra_priority = CAAM_CRA_PRIORITY;
        alg->base.cra_ctxsize = sizeof(struct caam_ctx);
-       alg->base.cra_flags CRYPTO_ALG_ASYNC | CRYPTO_ALG_ALLOCATES_MEMORY |
-                             CRYPTO_ALG_KERN_DRIVER_ONLY;
+       alg->base.cra_flags |= (CRYPTO_ALG_ASYNC | CRYPTO_ALG_ALLOCATES_MEMORY |
+                               CRYPTO_ALG_KERN_DRIVER_ONLY);
 
        alg->init = caam_cra_init;
        alg->exit = caam_cra_exit;
index 66ae1d5..98c1ff1 100644 (file)
@@ -19,6 +19,8 @@
 #include <linux/fsl/mc.h>
 #include <soc/fsl/dpaa2-io.h>
 #include <soc/fsl/dpaa2-fd.h>
+#include <crypto/xts.h>
+#include <asm/unaligned.h>
 
 #define CAAM_CRA_PRIORITY      2000
 
@@ -59,7 +61,7 @@ struct caam_skcipher_alg {
 };
 
 /**
- * caam_ctx - per-session context
+ * struct caam_ctx - per-session context
  * @flc: Flow Contexts array
  * @key:  [authentication key], encryption key
  * @flc_dma: I/O virtual addresses of the Flow Contexts
@@ -80,6 +82,8 @@ struct caam_ctx {
        struct alginfo adata;
        struct alginfo cdata;
        unsigned int authsize;
+       bool xts_key_fallback;
+       struct crypto_skcipher *fallback;
 };
 
 static void *dpaa2_caam_iova_to_virt(struct dpaa2_caam_priv *priv,
@@ -1054,12 +1058,24 @@ static int xts_skcipher_setkey(struct crypto_skcipher *skcipher, const u8 *key,
 {
        struct caam_ctx *ctx = crypto_skcipher_ctx(skcipher);
        struct device *dev = ctx->dev;
+       struct dpaa2_caam_priv *priv = dev_get_drvdata(dev);
        struct caam_flc *flc;
        u32 *desc;
+       int err;
 
-       if (keylen != 2 * AES_MIN_KEY_SIZE  && keylen != 2 * AES_MAX_KEY_SIZE) {
+       err = xts_verify_key(skcipher, key, keylen);
+       if (err) {
                dev_dbg(dev, "key size mismatch\n");
-               return -EINVAL;
+               return err;
+       }
+
+       if (keylen != 2 * AES_KEYSIZE_128 && keylen != 2 * AES_KEYSIZE_256)
+               ctx->xts_key_fallback = true;
+
+       if (priv->sec_attr.era <= 8 || ctx->xts_key_fallback) {
+               err = crypto_skcipher_setkey(ctx->fallback, key, keylen);
+               if (err)
+                       return err;
        }
 
        ctx->cdata.keylen = keylen;
@@ -1443,17 +1459,44 @@ static void skcipher_decrypt_done(void *cbk_ctx, u32 status)
        skcipher_request_complete(req, ecode);
 }
 
+static inline bool xts_skcipher_ivsize(struct skcipher_request *req)
+{
+       struct crypto_skcipher *skcipher = crypto_skcipher_reqtfm(req);
+       unsigned int ivsize = crypto_skcipher_ivsize(skcipher);
+
+       return !!get_unaligned((u64 *)(req->iv + (ivsize / 2)));
+}
+
 static int skcipher_encrypt(struct skcipher_request *req)
 {
        struct skcipher_edesc *edesc;
        struct crypto_skcipher *skcipher = crypto_skcipher_reqtfm(req);
        struct caam_ctx *ctx = crypto_skcipher_ctx(skcipher);
        struct caam_request *caam_req = skcipher_request_ctx(req);
+       struct dpaa2_caam_priv *priv = dev_get_drvdata(ctx->dev);
        int ret;
 
-       if (!req->cryptlen)
+       /*
+        * XTS is expected to return an error even for input length = 0
+        * Note that the case input length < block size will be caught during
+        * HW offloading and return an error.
+        */
+       if (!req->cryptlen && !ctx->fallback)
                return 0;
 
+       if (ctx->fallback && ((priv->sec_attr.era <= 8 && xts_skcipher_ivsize(req)) ||
+                             ctx->xts_key_fallback)) {
+               skcipher_request_set_tfm(&caam_req->fallback_req, ctx->fallback);
+               skcipher_request_set_callback(&caam_req->fallback_req,
+                                             req->base.flags,
+                                             req->base.complete,
+                                             req->base.data);
+               skcipher_request_set_crypt(&caam_req->fallback_req, req->src,
+                                          req->dst, req->cryptlen, req->iv);
+
+               return crypto_skcipher_encrypt(&caam_req->fallback_req);
+       }
+
        /* allocate extended descriptor */
        edesc = skcipher_edesc_alloc(req);
        if (IS_ERR(edesc))
@@ -1480,10 +1523,30 @@ static int skcipher_decrypt(struct skcipher_request *req)
        struct crypto_skcipher *skcipher = crypto_skcipher_reqtfm(req);
        struct caam_ctx *ctx = crypto_skcipher_ctx(skcipher);
        struct caam_request *caam_req = skcipher_request_ctx(req);
+       struct dpaa2_caam_priv *priv = dev_get_drvdata(ctx->dev);
        int ret;
 
-       if (!req->cryptlen)
+       /*
+        * XTS is expected to return an error even for input length = 0
+        * Note that the case input length < block size will be caught during
+        * HW offloading and return an error.
+        */
+       if (!req->cryptlen && !ctx->fallback)
                return 0;
+
+       if (ctx->fallback && ((priv->sec_attr.era <= 8 && xts_skcipher_ivsize(req)) ||
+                             ctx->xts_key_fallback)) {
+               skcipher_request_set_tfm(&caam_req->fallback_req, ctx->fallback);
+               skcipher_request_set_callback(&caam_req->fallback_req,
+                                             req->base.flags,
+                                             req->base.complete,
+                                             req->base.data);
+               skcipher_request_set_crypt(&caam_req->fallback_req, req->src,
+                                          req->dst, req->cryptlen, req->iv);
+
+               return crypto_skcipher_decrypt(&caam_req->fallback_req);
+       }
+
        /* allocate extended descriptor */
        edesc = skcipher_edesc_alloc(req);
        if (IS_ERR(edesc))
@@ -1537,9 +1600,34 @@ static int caam_cra_init_skcipher(struct crypto_skcipher *tfm)
        struct skcipher_alg *alg = crypto_skcipher_alg(tfm);
        struct caam_skcipher_alg *caam_alg =
                container_of(alg, typeof(*caam_alg), skcipher);
+       struct caam_ctx *ctx = crypto_skcipher_ctx(tfm);
+       u32 alg_aai = caam_alg->caam.class1_alg_type & OP_ALG_AAI_MASK;
+       int ret = 0;
 
-       crypto_skcipher_set_reqsize(tfm, sizeof(struct caam_request));
-       return caam_cra_init(crypto_skcipher_ctx(tfm), &caam_alg->caam, false);
+       if (alg_aai == OP_ALG_AAI_XTS) {
+               const char *tfm_name = crypto_tfm_alg_name(&tfm->base);
+               struct crypto_skcipher *fallback;
+
+               fallback = crypto_alloc_skcipher(tfm_name, 0,
+                                                CRYPTO_ALG_NEED_FALLBACK);
+               if (IS_ERR(fallback)) {
+                       dev_err(ctx->dev, "Failed to allocate %s fallback: %ld\n",
+                               tfm_name, PTR_ERR(fallback));
+                       return PTR_ERR(fallback);
+               }
+
+               ctx->fallback = fallback;
+               crypto_skcipher_set_reqsize(tfm, sizeof(struct caam_request) +
+                                           crypto_skcipher_reqsize(fallback));
+       } else {
+               crypto_skcipher_set_reqsize(tfm, sizeof(struct caam_request));
+       }
+
+       ret = caam_cra_init(ctx, &caam_alg->caam, false);
+       if (ret && ctx->fallback)
+               crypto_free_skcipher(ctx->fallback);
+
+       return ret;
 }
 
 static int caam_cra_init_aead(struct crypto_aead *tfm)
@@ -1562,7 +1650,11 @@ static void caam_exit_common(struct caam_ctx *ctx)
 
 static void caam_cra_exit(struct crypto_skcipher *tfm)
 {
-       caam_exit_common(crypto_skcipher_ctx(tfm));
+       struct caam_ctx *ctx = crypto_skcipher_ctx(tfm);
+
+       if (ctx->fallback)
+               crypto_free_skcipher(ctx->fallback);
+       caam_exit_common(ctx);
 }
 
 static void caam_cra_exit_aead(struct crypto_aead *tfm)
@@ -1665,6 +1757,7 @@ static struct caam_skcipher_alg driver_algs[] = {
                        .base = {
                                .cra_name = "xts(aes)",
                                .cra_driver_name = "xts-aes-caam-qi2",
+                               .cra_flags = CRYPTO_ALG_NEED_FALLBACK,
                                .cra_blocksize = AES_BLOCK_SIZE,
                        },
                        .setkey = xts_skcipher_setkey,
@@ -2912,8 +3005,8 @@ static void caam_skcipher_alg_init(struct caam_skcipher_alg *t_alg)
        alg->base.cra_module = THIS_MODULE;
        alg->base.cra_priority = CAAM_CRA_PRIORITY;
        alg->base.cra_ctxsize = sizeof(struct caam_ctx);
-       alg->base.cra_flags CRYPTO_ALG_ASYNC | CRYPTO_ALG_ALLOCATES_MEMORY |
-                             CRYPTO_ALG_KERN_DRIVER_ONLY;
+       alg->base.cra_flags |= (CRYPTO_ALG_ASYNC | CRYPTO_ALG_ALLOCATES_MEMORY |
+                             CRYPTO_ALG_KERN_DRIVER_ONLY);
 
        alg->init = caam_cra_init_skcipher;
        alg->exit = caam_cra_exit;
@@ -2951,7 +3044,7 @@ enum hash_optype {
 };
 
 /**
- * caam_hash_ctx - ahash per-session context
+ * struct caam_hash_ctx - ahash per-session context
  * @flc: Flow Contexts array
  * @key: authentication key
  * @flc_dma: I/O virtual addresses of the Flow Contexts
@@ -5115,8 +5208,7 @@ static int dpaa2_caam_probe(struct fsl_mc_device *dpseci_dev)
        /* DPIO */
        err = dpaa2_dpseci_dpio_setup(priv);
        if (err) {
-               if (err != -EPROBE_DEFER)
-                       dev_err(dev, "dpaa2_dpseci_dpio_setup() failed\n");
+               dev_err_probe(dev, err, "dpaa2_dpseci_dpio_setup() failed\n");
                goto err_dpio_setup;
        }
 
index f29cb7b..d352534 100644 (file)
@@ -13,6 +13,7 @@
 #include <linux/netdevice.h>
 #include "dpseci.h"
 #include "desc_constr.h"
+#include <crypto/skcipher.h>
 
 #define DPAA2_CAAM_STORE_SIZE  16
 /* NAPI weight *must* be a multiple of the store size. */
@@ -186,6 +187,7 @@ struct caam_request {
        void (*cbk)(void *ctx, u32 err);
        void *ctx;
        void *edesc;
+       struct skcipher_request fallback_req;
 };
 
 /**
index 94502f1..ca0361b 100644 (file)
@@ -13,6 +13,7 @@
 #include <linux/fsl/mc.h>
 
 #include "compat.h"
+#include "debugfs.h"
 #include "regs.h"
 #include "intern.h"
 #include "jr.h"
@@ -332,11 +333,10 @@ static int instantiate_rng(struct device *ctrldev, int state_handle_mask,
 
        kfree(desc);
 
-       if (!ret)
-               ret = devm_add_action_or_reset(ctrldev, devm_deinstantiate_rng,
-                                              ctrldev);
+       if (ret)
+               return ret;
 
-       return ret;
+       return devm_add_action_or_reset(ctrldev, devm_deinstantiate_rng, ctrldev);
 }
 
 /*
@@ -443,7 +443,9 @@ static int caam_get_era_from_hw(struct caam_ctrl __iomem *ctrl)
  * by u-boot.
  * In case this property is not passed an attempt to retrieve the CAAM
  * era via register reads will be made.
- **/
+ *
+ * @ctrl:      controller region
+ */
 static int caam_get_era(struct caam_ctrl __iomem *ctrl)
 {
        struct device_node *caam_node;
@@ -582,12 +584,10 @@ static int init_clocks(struct device *dev, const struct caam_imx_data *data)
        return devm_add_action_or_reset(dev, disable_clocks, ctrlpriv);
 }
 
-#ifdef CONFIG_DEBUG_FS
 static void caam_remove_debugfs(void *root)
 {
        debugfs_remove_recursive(root);
 }
-#endif
 
 #ifdef CONFIG_FSL_MC_BUS
 static bool check_version(struct fsl_mc_version *mc_version, u32 major,
@@ -619,10 +619,7 @@ static int caam_probe(struct platform_device *pdev)
        struct device_node *nprop, *np;
        struct caam_ctrl __iomem *ctrl;
        struct caam_drv_private *ctrlpriv;
-#ifdef CONFIG_DEBUG_FS
-       struct caam_perfmon *perfmon;
        struct dentry *dfs_root;
-#endif
        u32 scfgr, comp_params;
        u8 rng_vid;
        int pg_size;
@@ -777,21 +774,15 @@ static int caam_probe(struct platform_device *pdev)
        ctrlpriv->era = caam_get_era(ctrl);
        ctrlpriv->domain = iommu_get_domain_for_dev(dev);
 
-#ifdef CONFIG_DEBUG_FS
-       /*
-        * FIXME: needs better naming distinction, as some amalgamation of
-        * "caam" and nprop->full_name. The OF name isn't distinctive,
-        * but does separate instances
-        */
-       perfmon = (struct caam_perfmon __force *)&ctrl->perfmon;
-
        dfs_root = debugfs_create_dir(dev_name(dev), NULL);
-       ret = devm_add_action_or_reset(dev, caam_remove_debugfs, dfs_root);
-       if (ret)
-               return ret;
+       if (IS_ENABLED(CONFIG_DEBUG_FS)) {
+               ret = devm_add_action_or_reset(dev, caam_remove_debugfs,
+                                              dfs_root);
+               if (ret)
+                       return ret;
+       }
 
-       ctrlpriv->ctl = debugfs_create_dir("ctl", dfs_root);
-#endif
+       caam_debugfs_init(ctrlpriv, dfs_root);
 
        /* Check to see if (DPAA 1.x) QI present. If so, enable */
        if (ctrlpriv->qi_present && !caam_dpaa2) {
@@ -912,57 +903,6 @@ static int caam_probe(struct platform_device *pdev)
        dev_info(dev, "job rings = %d, qi = %d\n",
                 ctrlpriv->total_jobrs, ctrlpriv->qi_present);
 
-#ifdef CONFIG_DEBUG_FS
-       debugfs_create_file("rq_dequeued", S_IRUSR | S_IRGRP | S_IROTH,
-                           ctrlpriv->ctl, &perfmon->req_dequeued,
-                           &caam_fops_u64_ro);
-       debugfs_create_file("ob_rq_encrypted", S_IRUSR | S_IRGRP | S_IROTH,
-                           ctrlpriv->ctl, &perfmon->ob_enc_req,
-                           &caam_fops_u64_ro);
-       debugfs_create_file("ib_rq_decrypted", S_IRUSR | S_IRGRP | S_IROTH,
-                           ctrlpriv->ctl, &perfmon->ib_dec_req,
-                           &caam_fops_u64_ro);
-       debugfs_create_file("ob_bytes_encrypted", S_IRUSR | S_IRGRP | S_IROTH,
-                           ctrlpriv->ctl, &perfmon->ob_enc_bytes,
-                           &caam_fops_u64_ro);
-       debugfs_create_file("ob_bytes_protected", S_IRUSR | S_IRGRP | S_IROTH,
-                           ctrlpriv->ctl, &perfmon->ob_prot_bytes,
-                           &caam_fops_u64_ro);
-       debugfs_create_file("ib_bytes_decrypted", S_IRUSR | S_IRGRP | S_IROTH,
-                           ctrlpriv->ctl, &perfmon->ib_dec_bytes,
-                           &caam_fops_u64_ro);
-       debugfs_create_file("ib_bytes_validated", S_IRUSR | S_IRGRP | S_IROTH,
-                           ctrlpriv->ctl, &perfmon->ib_valid_bytes,
-                           &caam_fops_u64_ro);
-
-       /* Controller level - global status values */
-       debugfs_create_file("fault_addr", S_IRUSR | S_IRGRP | S_IROTH,
-                           ctrlpriv->ctl, &perfmon->faultaddr,
-                           &caam_fops_u32_ro);
-       debugfs_create_file("fault_detail", S_IRUSR | S_IRGRP | S_IROTH,
-                           ctrlpriv->ctl, &perfmon->faultdetail,
-                           &caam_fops_u32_ro);
-       debugfs_create_file("fault_status", S_IRUSR | S_IRGRP | S_IROTH,
-                           ctrlpriv->ctl, &perfmon->status,
-                           &caam_fops_u32_ro);
-
-       /* Internal covering keys (useful in non-secure mode only) */
-       ctrlpriv->ctl_kek_wrap.data = (__force void *)&ctrlpriv->ctrl->kek[0];
-       ctrlpriv->ctl_kek_wrap.size = KEK_KEY_SIZE * sizeof(u32);
-       debugfs_create_blob("kek", S_IRUSR | S_IRGRP | S_IROTH, ctrlpriv->ctl,
-                           &ctrlpriv->ctl_kek_wrap);
-
-       ctrlpriv->ctl_tkek_wrap.data = (__force void *)&ctrlpriv->ctrl->tkek[0];
-       ctrlpriv->ctl_tkek_wrap.size = KEK_KEY_SIZE * sizeof(u32);
-       debugfs_create_blob("tkek", S_IRUSR | S_IRGRP | S_IROTH, ctrlpriv->ctl,
-                           &ctrlpriv->ctl_tkek_wrap);
-
-       ctrlpriv->ctl_tdsk_wrap.data = (__force void *)&ctrlpriv->ctrl->tdsk[0];
-       ctrlpriv->ctl_tdsk_wrap.size = KEK_KEY_SIZE * sizeof(u32);
-       debugfs_create_blob("tdsk", S_IRUSR | S_IRGRP | S_IROTH, ctrlpriv->ctl,
-                           &ctrlpriv->ctl_tdsk_wrap);
-#endif
-
        ret = devm_of_platform_populate(dev);
        if (ret)
                dev_err(dev, "JR platform devices creation error\n");
diff --git a/drivers/crypto/caam/debugfs.c b/drivers/crypto/caam/debugfs.c
new file mode 100644 (file)
index 0000000..8ebf183
--- /dev/null
@@ -0,0 +1,96 @@
+// SPDX-License-Identifier: (GPL-2.0+ OR BSD-3-Clause)
+/* Copyright 2019 NXP */
+
+#include <linux/debugfs.h>
+#include "compat.h"
+#include "debugfs.h"
+#include "regs.h"
+#include "intern.h"
+
+static int caam_debugfs_u64_get(void *data, u64 *val)
+{
+       *val = caam64_to_cpu(*(u64 *)data);
+       return 0;
+}
+
+static int caam_debugfs_u32_get(void *data, u64 *val)
+{
+       *val = caam32_to_cpu(*(u32 *)data);
+       return 0;
+}
+
+DEFINE_SIMPLE_ATTRIBUTE(caam_fops_u32_ro, caam_debugfs_u32_get, NULL, "%llu\n");
+DEFINE_SIMPLE_ATTRIBUTE(caam_fops_u64_ro, caam_debugfs_u64_get, NULL, "%llu\n");
+
+#ifdef CONFIG_CAAM_QI
+/*
+ * This is a counter for the number of times the congestion group (where all
+ * the request and response queueus are) reached congestion. Incremented
+ * each time the congestion callback is called with congested == true.
+ */
+static u64 times_congested;
+
+void caam_debugfs_qi_congested(void)
+{
+       times_congested++;
+}
+
+void caam_debugfs_qi_init(struct caam_drv_private *ctrlpriv)
+{
+       debugfs_create_file("qi_congested", 0444, ctrlpriv->ctl,
+                           &times_congested, &caam_fops_u64_ro);
+}
+#endif
+
+void caam_debugfs_init(struct caam_drv_private *ctrlpriv, struct dentry *root)
+{
+       struct caam_perfmon *perfmon;
+
+       /*
+        * FIXME: needs better naming distinction, as some amalgamation of
+        * "caam" and nprop->full_name. The OF name isn't distinctive,
+        * but does separate instances
+        */
+       perfmon = (struct caam_perfmon __force *)&ctrlpriv->ctrl->perfmon;
+
+       ctrlpriv->ctl = debugfs_create_dir("ctl", root);
+
+       debugfs_create_file("rq_dequeued", 0444, ctrlpriv->ctl,
+                           &perfmon->req_dequeued, &caam_fops_u64_ro);
+       debugfs_create_file("ob_rq_encrypted", 0444, ctrlpriv->ctl,
+                           &perfmon->ob_enc_req, &caam_fops_u64_ro);
+       debugfs_create_file("ib_rq_decrypted", 0444, ctrlpriv->ctl,
+                           &perfmon->ib_dec_req, &caam_fops_u64_ro);
+       debugfs_create_file("ob_bytes_encrypted", 0444, ctrlpriv->ctl,
+                           &perfmon->ob_enc_bytes, &caam_fops_u64_ro);
+       debugfs_create_file("ob_bytes_protected", 0444, ctrlpriv->ctl,
+                           &perfmon->ob_prot_bytes, &caam_fops_u64_ro);
+       debugfs_create_file("ib_bytes_decrypted", 0444, ctrlpriv->ctl,
+                           &perfmon->ib_dec_bytes, &caam_fops_u64_ro);
+       debugfs_create_file("ib_bytes_validated", 0444, ctrlpriv->ctl,
+                           &perfmon->ib_valid_bytes, &caam_fops_u64_ro);
+
+       /* Controller level - global status values */
+       debugfs_create_file("fault_addr", 0444, ctrlpriv->ctl,
+                           &perfmon->faultaddr, &caam_fops_u32_ro);
+       debugfs_create_file("fault_detail", 0444, ctrlpriv->ctl,
+                           &perfmon->faultdetail, &caam_fops_u32_ro);
+       debugfs_create_file("fault_status", 0444, ctrlpriv->ctl,
+                           &perfmon->status, &caam_fops_u32_ro);
+
+       /* Internal covering keys (useful in non-secure mode only) */
+       ctrlpriv->ctl_kek_wrap.data = (__force void *)&ctrlpriv->ctrl->kek[0];
+       ctrlpriv->ctl_kek_wrap.size = KEK_KEY_SIZE * sizeof(u32);
+       debugfs_create_blob("kek", 0444, ctrlpriv->ctl,
+                           &ctrlpriv->ctl_kek_wrap);
+
+       ctrlpriv->ctl_tkek_wrap.data = (__force void *)&ctrlpriv->ctrl->tkek[0];
+       ctrlpriv->ctl_tkek_wrap.size = KEK_KEY_SIZE * sizeof(u32);
+       debugfs_create_blob("tkek", 0444, ctrlpriv->ctl,
+                           &ctrlpriv->ctl_tkek_wrap);
+
+       ctrlpriv->ctl_tdsk_wrap.data = (__force void *)&ctrlpriv->ctrl->tdsk[0];
+       ctrlpriv->ctl_tdsk_wrap.size = KEK_KEY_SIZE * sizeof(u32);
+       debugfs_create_blob("tdsk", 0444, ctrlpriv->ctl,
+                           &ctrlpriv->ctl_tdsk_wrap);
+}
diff --git a/drivers/crypto/caam/debugfs.h b/drivers/crypto/caam/debugfs.h
new file mode 100644 (file)
index 0000000..661d768
--- /dev/null
@@ -0,0 +1,26 @@
+/* SPDX-License-Identifier: (GPL-2.0+ OR BSD-3-Clause) */
+/* Copyright 2019 NXP */
+
+#ifndef CAAM_DEBUGFS_H
+#define CAAM_DEBUGFS_H
+
+struct dentry;
+struct caam_drv_private;
+
+#ifdef CONFIG_DEBUG_FS
+void caam_debugfs_init(struct caam_drv_private *ctrlpriv, struct dentry *root);
+#else
+static inline void caam_debugfs_init(struct caam_drv_private *ctrlpriv,
+                                    struct dentry *root)
+{}
+#endif
+
+#if defined(CONFIG_DEBUG_FS) && defined(CONFIG_CAAM_QI)
+void caam_debugfs_qi_congested(void);
+void caam_debugfs_qi_init(struct caam_drv_private *ctrlpriv);
+#else
+static inline void caam_debugfs_qi_congested(void) {}
+static inline void caam_debugfs_qi_init(struct caam_drv_private *ctrlpriv) {}
+#endif
+
+#endif /* CAAM_DEBUGFS_H */
index c5bfc92..0eca8c2 100644 (file)
@@ -44,33 +44,14 @@ static int dpseci_dbg_fqs_show(struct seq_file *file, void *offset)
        return 0;
 }
 
-static int dpseci_dbg_fqs_open(struct inode *inode, struct file *file)
-{
-       int err;
-       struct dpaa2_caam_priv *priv;
-
-       priv = (struct dpaa2_caam_priv *)inode->i_private;
-
-       err = single_open(file, dpseci_dbg_fqs_show, priv);
-       if (err < 0)
-               dev_err(priv->dev, "single_open() failed\n");
-
-       return err;
-}
-
-static const struct file_operations dpseci_dbg_fq_ops = {
-       .open = dpseci_dbg_fqs_open,
-       .read = seq_read,
-       .llseek = seq_lseek,
-       .release = single_release,
-};
+DEFINE_SHOW_ATTRIBUTE(dpseci_dbg_fqs);
 
 void dpaa2_dpseci_debugfs_init(struct dpaa2_caam_priv *priv)
 {
        priv->dfs_root = debugfs_create_dir(dev_name(priv->dev), NULL);
 
        debugfs_create_file("fq_stats", 0444, priv->dfs_root, priv,
-                           &dpseci_dbg_fq_ops);
+                           &dpseci_dbg_fqs_fops);
 }
 
 void dpaa2_dpseci_debugfs_exit(struct dpaa2_caam_priv *priv)
index 402d6a3..9112279 100644 (file)
@@ -195,23 +195,6 @@ static inline void caam_qi_algapi_exit(void)
 
 #endif /* CONFIG_CAAM_QI */
 
-#ifdef CONFIG_DEBUG_FS
-static int caam_debugfs_u64_get(void *data, u64 *val)
-{
-       *val = caam64_to_cpu(*(u64 *)data);
-       return 0;
-}
-
-static int caam_debugfs_u32_get(void *data, u64 *val)
-{
-       *val = caam32_to_cpu(*(u32 *)data);
-       return 0;
-}
-
-DEFINE_SIMPLE_ATTRIBUTE(caam_fops_u32_ro, caam_debugfs_u32_get, NULL, "%llu\n");
-DEFINE_SIMPLE_ATTRIBUTE(caam_fops_u64_ro, caam_debugfs_u64_get, NULL, "%llu\n");
-#endif
-
 static inline u64 caam_get_dma_mask(struct device *dev)
 {
        struct device_node *nprop = dev->of_node;
index bf6b03b..6f66996 100644 (file)
@@ -324,7 +324,7 @@ EXPORT_SYMBOL(caam_jr_alloc);
 
 /**
  * caam_jr_free() - Free the Job Ring
- * @rdev     - points to the dev that identifies the Job ring to
+ * @rdev:      points to the dev that identifies the Job ring to
  *             be released.
  **/
 void caam_jr_free(struct device *rdev)
@@ -349,15 +349,15 @@ EXPORT_SYMBOL(caam_jr_free);
  *        of this request. This has the form:
  *        callback(struct device *dev, u32 *desc, u32 stat, void *arg)
  *        where:
- *        @dev:    contains the job ring device that processed this
+ *        dev:     contains the job ring device that processed this
  *                 response.
- *        @desc:   descriptor that initiated the request, same as
+ *        desc:    descriptor that initiated the request, same as
  *                 "desc" being argued to caam_jr_enqueue().
- *        @status: untranslated status received from CAAM. See the
+ *        status:  untranslated status received from CAAM. See the
  *                 reference manual for a detailed description of
  *                 error meaning, or see the JRSTA definitions in the
  *                 register header file
- *        @areq:   optional pointer to an argument passed with the
+ *        areq:    optional pointer to an argument passed with the
  *                 original request
  * @areq: optional pointer to a user argument for use at callback
  *        time.
index b390b93..ec53528 100644 (file)
@@ -11,6 +11,7 @@
 #include <linux/kthread.h>
 #include <soc/fsl/qman.h>
 
+#include "debugfs.h"
 #include "regs.h"
 #include "qi.h"
 #include "desc.h"
@@ -73,15 +74,6 @@ static struct caam_qi_priv qipriv ____cacheline_aligned;
 bool caam_congested __read_mostly;
 EXPORT_SYMBOL(caam_congested);
 
-#ifdef CONFIG_DEBUG_FS
-/*
- * This is a counter for the number of times the congestion group (where all
- * the request and response queueus are) reached congestion. Incremented
- * each time the congestion callback is called with congested == true.
- */
-static u64 times_congested;
-#endif
-
 /*
  * This is a a cache of buffers, from which the users of CAAM QI driver
  * can allocate short (CAAM_QI_MEMCACHE_SIZE) buffers. It's faster than
@@ -544,9 +536,8 @@ static void cgr_cb(struct qman_portal *qm, struct qman_cgr *cgr, int congested)
        caam_congested = congested;
 
        if (congested) {
-#ifdef CONFIG_DEBUG_FS
-               times_congested++;
-#endif
+               caam_debugfs_qi_congested();
+
                pr_debug_ratelimited("CAAM entered congestion\n");
 
        } else {
@@ -775,10 +766,7 @@ int caam_qi_init(struct platform_device *caam_pdev)
                return -ENOMEM;
        }
 
-#ifdef CONFIG_DEBUG_FS
-       debugfs_create_file("qi_congested", 0444, ctrlpriv->ctl,
-                           &times_congested, &caam_fops_u64_ro);
-#endif
+       caam_debugfs_qi_init(ctrlpriv);
 
        err = devm_add_action_or_reset(qidev, caam_qi_shutdown, ctrlpriv);
        if (err)
index 5af0dc2..ce3b91c 100644 (file)
@@ -451,13 +451,7 @@ static struct skcipher_alg algs[] = { {
 
 static inline int cav_register_algs(void)
 {
-       int err = 0;
-
-       err = crypto_register_skciphers(algs, ARRAY_SIZE(algs));
-       if (err)
-               return err;
-
-       return 0;
+       return crypto_register_skciphers(algs, ARRAY_SIZE(algs));
 }
 
 static inline void cav_unregister_algs(void)
index cee2a27..9d14be9 100644 (file)
@@ -451,6 +451,7 @@ static int nitrox_probe(struct pci_dev *pdev,
        err = pci_request_mem_regions(pdev, nitrox_driver_name);
        if (err) {
                pci_disable_device(pdev);
+               dev_err(&pdev->dev, "Failed to request mem regions!\n");
                return err;
        }
        pci_set_master(pdev);
index 194624b..d35216e 100644 (file)
@@ -460,7 +460,7 @@ static void zip_unregister_compression_device(void)
 #include <linux/debugfs.h>
 
 /* Displays ZIP device statistics */
-static int zip_show_stats(struct seq_file *s, void *unused)
+static int zip_stats_show(struct seq_file *s, void *unused)
 {
        u64 val = 0ull;
        u64 avg_chunk = 0ull, avg_cr = 0ull;
@@ -523,7 +523,7 @@ static int zip_show_stats(struct seq_file *s, void *unused)
 }
 
 /* Clears stats data */
-static int zip_clear_stats(struct seq_file *s, void *unused)
+static int zip_clear_show(struct seq_file *s, void *unused)
 {
        int index = 0;
 
@@ -558,7 +558,7 @@ static struct zip_registers zipregs[64] = {
 };
 
 /* Prints registers' contents */
-static int zip_print_regs(struct seq_file *s, void *unused)
+static int zip_regs_show(struct seq_file *s, void *unused)
 {
        u64 val = 0;
        int i = 0, index = 0;
@@ -584,41 +584,9 @@ static int zip_print_regs(struct seq_file *s, void *unused)
        return 0;
 }
 
-static int zip_stats_open(struct inode *inode, struct file *file)
-{
-       return single_open(file, zip_show_stats, NULL);
-}
-
-static const struct file_operations zip_stats_fops = {
-       .owner = THIS_MODULE,
-       .open  = zip_stats_open,
-       .read  = seq_read,
-       .release = single_release,
-};
-
-static int zip_clear_open(struct inode *inode, struct file *file)
-{
-       return single_open(file, zip_clear_stats, NULL);
-}
-
-static const struct file_operations zip_clear_fops = {
-       .owner = THIS_MODULE,
-       .open  = zip_clear_open,
-       .read  = seq_read,
-       .release = single_release,
-};
-
-static int zip_regs_open(struct inode *inode, struct file *file)
-{
-       return single_open(file, zip_print_regs, NULL);
-}
-
-static const struct file_operations zip_regs_fops = {
-       .owner = THIS_MODULE,
-       .open  = zip_regs_open,
-       .read  = seq_read,
-       .release = single_release,
-};
+DEFINE_SHOW_ATTRIBUTE(zip_stats);
+DEFINE_SHOW_ATTRIBUTE(zip_clear);
+DEFINE_SHOW_ATTRIBUTE(zip_regs);
 
 /* Root directory for thunderx_zip debugfs entry */
 static struct dentry *zip_debugfs_root;
index bd270e6..d6a8f4e 100644 (file)
@@ -8,6 +8,7 @@
  * Author: Gary R Hook <gary.hook@amd.com>
  */
 
+#include <linux/dma-mapping.h>
 #include <linux/module.h>
 #include <linux/kernel.h>
 #include <linux/interrupt.h>
@@ -1744,7 +1745,7 @@ ccp_run_sha_cmd(struct ccp_cmd_queue *cmd_q, struct ccp_cmd *cmd)
                        break;
                default:
                        ret = -EINVAL;
-                       goto e_ctx;
+                       goto e_data;
                }
        } else {
                /* Stash the context */
index d77ae98..dafa657 100644 (file)
@@ -75,8 +75,7 @@ static int validate_keys_sizes(struct cc_cipher_ctx *ctx_p, u32 size)
                switch (size) {
                case CC_AES_128_BIT_KEY_SIZE:
                case CC_AES_192_BIT_KEY_SIZE:
-                       if (ctx_p->cipher_mode != DRV_CIPHER_XTS &&
-                           ctx_p->cipher_mode != DRV_CIPHER_BITLOCKER)
+                       if (ctx_p->cipher_mode != DRV_CIPHER_XTS)
                                return 0;
                        break;
                case CC_AES_256_BIT_KEY_SIZE:
@@ -84,8 +83,7 @@ static int validate_keys_sizes(struct cc_cipher_ctx *ctx_p, u32 size)
                case (CC_AES_192_BIT_KEY_SIZE * 2):
                case (CC_AES_256_BIT_KEY_SIZE * 2):
                        if (ctx_p->cipher_mode == DRV_CIPHER_XTS ||
-                           ctx_p->cipher_mode == DRV_CIPHER_ESSIV ||
-                           ctx_p->cipher_mode == DRV_CIPHER_BITLOCKER)
+                           ctx_p->cipher_mode == DRV_CIPHER_ESSIV)
                                return 0;
                        break;
                default:
@@ -122,7 +120,6 @@ static int validate_data_size(struct cc_cipher_ctx *ctx_p,
                case DRV_CIPHER_ECB:
                case DRV_CIPHER_CBC:
                case DRV_CIPHER_ESSIV:
-               case DRV_CIPHER_BITLOCKER:
                        if (IS_ALIGNED(size, AES_BLOCK_SIZE))
                                return 0;
                        break;
@@ -348,8 +345,7 @@ static int cc_cipher_sethkey(struct crypto_skcipher *sktfm, const u8 *key,
                }
 
                if (ctx_p->cipher_mode == DRV_CIPHER_XTS ||
-                   ctx_p->cipher_mode == DRV_CIPHER_ESSIV ||
-                   ctx_p->cipher_mode == DRV_CIPHER_BITLOCKER) {
+                   ctx_p->cipher_mode == DRV_CIPHER_ESSIV) {
                        if (hki.hw_key1 == hki.hw_key2) {
                                dev_err(dev, "Illegal hw key numbers (%d,%d)\n",
                                        hki.hw_key1, hki.hw_key2);
@@ -547,7 +543,6 @@ static void cc_setup_readiv_desc(struct crypto_tfm *tfm,
                break;
        case DRV_CIPHER_XTS:
        case DRV_CIPHER_ESSIV:
-       case DRV_CIPHER_BITLOCKER:
                /*  IV */
                hw_desc_init(&desc[*seq_size]);
                set_setup_mode(&desc[*seq_size], SETUP_WRITE_STATE1);
@@ -602,7 +597,6 @@ static void cc_setup_state_desc(struct crypto_tfm *tfm,
                break;
        case DRV_CIPHER_XTS:
        case DRV_CIPHER_ESSIV:
-       case DRV_CIPHER_BITLOCKER:
                break;
        default:
                dev_err(dev, "Unsupported cipher mode (%d)\n", cipher_mode);
@@ -624,16 +618,8 @@ static void cc_setup_xex_state_desc(struct crypto_tfm *tfm,
        dma_addr_t key_dma_addr = ctx_p->user.key_dma_addr;
        unsigned int key_len = (ctx_p->keylen / 2);
        dma_addr_t iv_dma_addr = req_ctx->gen_ctx.iv_dma_addr;
-       unsigned int du_size = nbytes;
        unsigned int key_offset = key_len;
 
-       struct cc_crypto_alg *cc_alg =
-               container_of(tfm->__crt_alg, struct cc_crypto_alg,
-                            skcipher_alg.base);
-
-       if (cc_alg->data_unit)
-               du_size = cc_alg->data_unit;
-
        switch (cipher_mode) {
        case DRV_CIPHER_ECB:
                break;
@@ -644,7 +630,6 @@ static void cc_setup_xex_state_desc(struct crypto_tfm *tfm,
                break;
        case DRV_CIPHER_XTS:
        case DRV_CIPHER_ESSIV:
-       case DRV_CIPHER_BITLOCKER:
 
                if (cipher_mode == DRV_CIPHER_ESSIV)
                        key_len = SHA256_DIGEST_SIZE;
@@ -661,7 +646,7 @@ static void cc_setup_xex_state_desc(struct crypto_tfm *tfm,
                                     (key_dma_addr + key_offset),
                                     key_len, NS_BIT);
                }
-               set_xex_data_unit_size(&desc[*seq_size], du_size);
+               set_xex_data_unit_size(&desc[*seq_size], nbytes);
                set_flow_mode(&desc[*seq_size], S_DIN_to_AES2);
                set_key_size_aes(&desc[*seq_size], key_len);
                set_setup_mode(&desc[*seq_size], SETUP_LOAD_XEX_KEY);
@@ -758,7 +743,6 @@ static void cc_setup_key_desc(struct crypto_tfm *tfm,
                break;
        case DRV_CIPHER_XTS:
        case DRV_CIPHER_ESSIV:
-       case DRV_CIPHER_BITLOCKER:
                /* Load AES key */
                hw_desc_init(&desc[*seq_size]);
                set_cipher_mode(&desc[*seq_size], cipher_mode);
@@ -1039,44 +1023,6 @@ static const struct cc_alg_template skcipher_algs[] = {
                .sec_func = true,
        },
        {
-               .name = "xts512(paes)",
-               .driver_name = "xts-paes-du512-ccree",
-               .blocksize = 1,
-               .template_skcipher = {
-                       .setkey = cc_cipher_sethkey,
-                       .encrypt = cc_cipher_encrypt,
-                       .decrypt = cc_cipher_decrypt,
-                       .min_keysize = CC_HW_KEY_SIZE,
-                       .max_keysize = CC_HW_KEY_SIZE,
-                       .ivsize = AES_BLOCK_SIZE,
-                       },
-               .cipher_mode = DRV_CIPHER_XTS,
-               .flow_mode = S_DIN_to_AES,
-               .data_unit = 512,
-               .min_hw_rev = CC_HW_REV_712,
-               .std_body = CC_STD_NIST,
-               .sec_func = true,
-       },
-       {
-               .name = "xts4096(paes)",
-               .driver_name = "xts-paes-du4096-ccree",
-               .blocksize = 1,
-               .template_skcipher = {
-                       .setkey = cc_cipher_sethkey,
-                       .encrypt = cc_cipher_encrypt,
-                       .decrypt = cc_cipher_decrypt,
-                       .min_keysize = CC_HW_KEY_SIZE,
-                       .max_keysize = CC_HW_KEY_SIZE,
-                       .ivsize = AES_BLOCK_SIZE,
-                       },
-               .cipher_mode = DRV_CIPHER_XTS,
-               .flow_mode = S_DIN_to_AES,
-               .data_unit = 4096,
-               .min_hw_rev = CC_HW_REV_712,
-               .std_body = CC_STD_NIST,
-               .sec_func = true,
-       },
-       {
                .name = "essiv(cbc(paes),sha256)",
                .driver_name = "essiv-paes-ccree",
                .blocksize = AES_BLOCK_SIZE,
@@ -1095,100 +1041,6 @@ static const struct cc_alg_template skcipher_algs[] = {
                .sec_func = true,
        },
        {
-               .name = "essiv512(cbc(paes),sha256)",
-               .driver_name = "essiv-paes-du512-ccree",
-               .blocksize = AES_BLOCK_SIZE,
-               .template_skcipher = {
-                       .setkey = cc_cipher_sethkey,
-                       .encrypt = cc_cipher_encrypt,
-                       .decrypt = cc_cipher_decrypt,
-                       .min_keysize = CC_HW_KEY_SIZE,
-                       .max_keysize = CC_HW_KEY_SIZE,
-                       .ivsize = AES_BLOCK_SIZE,
-                       },
-               .cipher_mode = DRV_CIPHER_ESSIV,
-               .flow_mode = S_DIN_to_AES,
-               .data_unit = 512,
-               .min_hw_rev = CC_HW_REV_712,
-               .std_body = CC_STD_NIST,
-               .sec_func = true,
-       },
-       {
-               .name = "essiv4096(cbc(paes),sha256)",
-               .driver_name = "essiv-paes-du4096-ccree",
-               .blocksize = AES_BLOCK_SIZE,
-               .template_skcipher = {
-                       .setkey = cc_cipher_sethkey,
-                       .encrypt = cc_cipher_encrypt,
-                       .decrypt = cc_cipher_decrypt,
-                       .min_keysize = CC_HW_KEY_SIZE,
-                       .max_keysize = CC_HW_KEY_SIZE,
-                       .ivsize = AES_BLOCK_SIZE,
-                       },
-               .cipher_mode = DRV_CIPHER_ESSIV,
-               .flow_mode = S_DIN_to_AES,
-               .data_unit = 4096,
-               .min_hw_rev = CC_HW_REV_712,
-               .std_body = CC_STD_NIST,
-               .sec_func = true,
-       },
-       {
-               .name = "bitlocker(paes)",
-               .driver_name = "bitlocker-paes-ccree",
-               .blocksize = AES_BLOCK_SIZE,
-               .template_skcipher = {
-                       .setkey = cc_cipher_sethkey,
-                       .encrypt = cc_cipher_encrypt,
-                       .decrypt = cc_cipher_decrypt,
-                       .min_keysize = CC_HW_KEY_SIZE,
-                       .max_keysize = CC_HW_KEY_SIZE,
-                       .ivsize = AES_BLOCK_SIZE,
-                       },
-               .cipher_mode = DRV_CIPHER_BITLOCKER,
-               .flow_mode = S_DIN_to_AES,
-               .min_hw_rev = CC_HW_REV_712,
-               .std_body = CC_STD_NIST,
-               .sec_func = true,
-       },
-       {
-               .name = "bitlocker512(paes)",
-               .driver_name = "bitlocker-paes-du512-ccree",
-               .blocksize = AES_BLOCK_SIZE,
-               .template_skcipher = {
-                       .setkey = cc_cipher_sethkey,
-                       .encrypt = cc_cipher_encrypt,
-                       .decrypt = cc_cipher_decrypt,
-                       .min_keysize = CC_HW_KEY_SIZE,
-                       .max_keysize = CC_HW_KEY_SIZE,
-                       .ivsize = AES_BLOCK_SIZE,
-                       },
-               .cipher_mode = DRV_CIPHER_BITLOCKER,
-               .flow_mode = S_DIN_to_AES,
-               .data_unit = 512,
-               .min_hw_rev = CC_HW_REV_712,
-               .std_body = CC_STD_NIST,
-               .sec_func = true,
-       },
-       {
-               .name = "bitlocker4096(paes)",
-               .driver_name = "bitlocker-paes-du4096-ccree",
-               .blocksize = AES_BLOCK_SIZE,
-               .template_skcipher = {
-                       .setkey = cc_cipher_sethkey,
-                       .encrypt = cc_cipher_encrypt,
-                       .decrypt = cc_cipher_decrypt,
-                       .min_keysize = CC_HW_KEY_SIZE,
-                       .max_keysize =  CC_HW_KEY_SIZE,
-                       .ivsize = AES_BLOCK_SIZE,
-                       },
-               .cipher_mode = DRV_CIPHER_BITLOCKER,
-               .flow_mode = S_DIN_to_AES,
-               .data_unit = 4096,
-               .min_hw_rev = CC_HW_REV_712,
-               .std_body = CC_STD_NIST,
-               .sec_func = true,
-       },
-       {
                .name = "ecb(paes)",
                .driver_name = "ecb-paes-ccree",
                .blocksize = AES_BLOCK_SIZE,
@@ -1300,42 +1152,6 @@ static const struct cc_alg_template skcipher_algs[] = {
                .std_body = CC_STD_NIST,
        },
        {
-               .name = "xts512(aes)",
-               .driver_name = "xts-aes-du512-ccree",
-               .blocksize = 1,
-               .template_skcipher = {
-                       .setkey = cc_cipher_setkey,
-                       .encrypt = cc_cipher_encrypt,
-                       .decrypt = cc_cipher_decrypt,
-                       .min_keysize = AES_MIN_KEY_SIZE * 2,
-                       .max_keysize = AES_MAX_KEY_SIZE * 2,
-                       .ivsize = AES_BLOCK_SIZE,
-                       },
-               .cipher_mode = DRV_CIPHER_XTS,
-               .flow_mode = S_DIN_to_AES,
-               .data_unit = 512,
-               .min_hw_rev = CC_HW_REV_712,
-               .std_body = CC_STD_NIST,
-       },
-       {
-               .name = "xts4096(aes)",
-               .driver_name = "xts-aes-du4096-ccree",
-               .blocksize = 1,
-               .template_skcipher = {
-                       .setkey = cc_cipher_setkey,
-                       .encrypt = cc_cipher_encrypt,
-                       .decrypt = cc_cipher_decrypt,
-                       .min_keysize = AES_MIN_KEY_SIZE * 2,
-                       .max_keysize = AES_MAX_KEY_SIZE * 2,
-                       .ivsize = AES_BLOCK_SIZE,
-                       },
-               .cipher_mode = DRV_CIPHER_XTS,
-               .flow_mode = S_DIN_to_AES,
-               .data_unit = 4096,
-               .min_hw_rev = CC_HW_REV_712,
-               .std_body = CC_STD_NIST,
-       },
-       {
                .name = "essiv(cbc(aes),sha256)",
                .driver_name = "essiv-aes-ccree",
                .blocksize = AES_BLOCK_SIZE,
@@ -1353,95 +1169,6 @@ static const struct cc_alg_template skcipher_algs[] = {
                .std_body = CC_STD_NIST,
        },
        {
-               .name = "essiv512(cbc(aes),sha256)",
-               .driver_name = "essiv-aes-du512-ccree",
-               .blocksize = AES_BLOCK_SIZE,
-               .template_skcipher = {
-                       .setkey = cc_cipher_setkey,
-                       .encrypt = cc_cipher_encrypt,
-                       .decrypt = cc_cipher_decrypt,
-                       .min_keysize = AES_MIN_KEY_SIZE,
-                       .max_keysize = AES_MAX_KEY_SIZE,
-                       .ivsize = AES_BLOCK_SIZE,
-                       },
-               .cipher_mode = DRV_CIPHER_ESSIV,
-               .flow_mode = S_DIN_to_AES,
-               .data_unit = 512,
-               .min_hw_rev = CC_HW_REV_712,
-               .std_body = CC_STD_NIST,
-       },
-       {
-               .name = "essiv4096(cbc(aes),sha256)",
-               .driver_name = "essiv-aes-du4096-ccree",
-               .blocksize = AES_BLOCK_SIZE,
-               .template_skcipher = {
-                       .setkey = cc_cipher_setkey,
-                       .encrypt = cc_cipher_encrypt,
-                       .decrypt = cc_cipher_decrypt,
-                       .min_keysize = AES_MIN_KEY_SIZE,
-                       .max_keysize = AES_MAX_KEY_SIZE,
-                       .ivsize = AES_BLOCK_SIZE,
-                       },
-               .cipher_mode = DRV_CIPHER_ESSIV,
-               .flow_mode = S_DIN_to_AES,
-               .data_unit = 4096,
-               .min_hw_rev = CC_HW_REV_712,
-               .std_body = CC_STD_NIST,
-       },
-       {
-               .name = "bitlocker(aes)",
-               .driver_name = "bitlocker-aes-ccree",
-               .blocksize = AES_BLOCK_SIZE,
-               .template_skcipher = {
-                       .setkey = cc_cipher_setkey,
-                       .encrypt = cc_cipher_encrypt,
-                       .decrypt = cc_cipher_decrypt,
-                       .min_keysize = AES_MIN_KEY_SIZE * 2,
-                       .max_keysize = AES_MAX_KEY_SIZE * 2,
-                       .ivsize = AES_BLOCK_SIZE,
-                       },
-               .cipher_mode = DRV_CIPHER_BITLOCKER,
-               .flow_mode = S_DIN_to_AES,
-               .min_hw_rev = CC_HW_REV_712,
-               .std_body = CC_STD_NIST,
-       },
-       {
-               .name = "bitlocker512(aes)",
-               .driver_name = "bitlocker-aes-du512-ccree",
-               .blocksize = AES_BLOCK_SIZE,
-               .template_skcipher = {
-                       .setkey = cc_cipher_setkey,
-                       .encrypt = cc_cipher_encrypt,
-                       .decrypt = cc_cipher_decrypt,
-                       .min_keysize = AES_MIN_KEY_SIZE * 2,
-                       .max_keysize = AES_MAX_KEY_SIZE * 2,
-                       .ivsize = AES_BLOCK_SIZE,
-                       },
-               .cipher_mode = DRV_CIPHER_BITLOCKER,
-               .flow_mode = S_DIN_to_AES,
-               .data_unit = 512,
-               .min_hw_rev = CC_HW_REV_712,
-               .std_body = CC_STD_NIST,
-       },
-       {
-               .name = "bitlocker4096(aes)",
-               .driver_name = "bitlocker-aes-du4096-ccree",
-               .blocksize = AES_BLOCK_SIZE,
-               .template_skcipher = {
-                       .setkey = cc_cipher_setkey,
-                       .encrypt = cc_cipher_encrypt,
-                       .decrypt = cc_cipher_decrypt,
-                       .min_keysize = AES_MIN_KEY_SIZE * 2,
-                       .max_keysize = AES_MAX_KEY_SIZE * 2,
-                       .ivsize = AES_BLOCK_SIZE,
-                       },
-               .cipher_mode = DRV_CIPHER_BITLOCKER,
-               .flow_mode = S_DIN_to_AES,
-               .data_unit = 4096,
-               .min_hw_rev = CC_HW_REV_712,
-               .std_body = CC_STD_NIST,
-       },
-       {
                .name = "ecb(aes)",
                .driver_name = "ecb-aes-ccree",
                .blocksize = AES_BLOCK_SIZE,
@@ -1712,7 +1439,6 @@ static struct cc_crypto_alg *cc_create_alg(const struct cc_alg_template *tmpl,
 
        t_alg->cipher_mode = tmpl->cipher_mode;
        t_alg->flow_mode = tmpl->flow_mode;
-       t_alg->data_unit = tmpl->data_unit;
 
        return t_alg;
 }
index ccf960a..bd9a1c0 100644 (file)
@@ -108,7 +108,6 @@ enum drv_cipher_mode {
        DRV_CIPHER_CBC_CTS = 11,
        DRV_CIPHER_GCTR = 12,
        DRV_CIPHER_ESSIV = 13,
-       DRV_CIPHER_BITLOCKER = 14,
        DRV_CIPHER_RESERVE32B = S32_MAX
 };
 
index 2d50991..6f519d3 100644 (file)
@@ -300,11 +300,8 @@ static int init_cc_resources(struct platform_device *plat_dev)
        new_drvdata->plat_dev = plat_dev;
 
        clk = devm_clk_get_optional(dev, NULL);
-       if (IS_ERR(clk)) {
-               if (PTR_ERR(clk) != -EPROBE_DEFER)
-                       dev_err(dev, "Error getting clock: %pe\n", clk);
-               return PTR_ERR(clk);
-       }
+       if (IS_ERR(clk))
+               return dev_err_probe(dev, PTR_ERR(clk), "Error getting clock\n");
        new_drvdata->clk = clk;
 
        new_drvdata->coherent = of_dma_is_coherent(np);
index d938886..af77b20 100644 (file)
@@ -162,7 +162,6 @@ struct cc_crypto_alg {
        int cipher_mode;
        int flow_mode; /* Note: currently, refers to the cipher mode only. */
        int auth_mode;
-       unsigned int data_unit;
        struct cc_drvdata *drvdata;
        struct skcipher_alg skcipher_alg;
        struct aead_alg aead_alg;
index d39e166..3c65bf0 100644 (file)
@@ -65,8 +65,12 @@ const struct dev_pm_ops ccree_pm = {
 int cc_pm_get(struct device *dev)
 {
        int rc = pm_runtime_get_sync(dev);
+       if (rc < 0) {
+               pm_runtime_put_noidle(dev);
+               return rc;
+       }
 
-       return (rc == 1 ? 0 : rc);
+       return 0;
 }
 
 void cc_pm_put_suspend(struct device *dev)
index bd8dac8..ed7989c 100644 (file)
@@ -148,7 +148,7 @@ static void chcr_dev_init(struct uld_ctx *u_ctx)
 
 static int chcr_dev_move(struct uld_ctx *u_ctx)
 {
-        mutex_lock(&drv_data.drv_mutex);
+       mutex_lock(&drv_data.drv_mutex);
        if (drv_data.last_dev == u_ctx) {
                if (list_is_last(&drv_data.last_dev->entry, &drv_data.act_dev))
                        drv_data.last_dev = list_first_entry(&drv_data.act_dev,
index 3548364..7e7a8f0 100644 (file)
@@ -780,8 +780,8 @@ static int hifn_register_rng(struct hifn_device *dev)
                                                   dev->pk_clk_freq) * 256;
 
        dev->rng.name           = dev->name;
-       dev->rng.data_present   = hifn_rng_data_present,
-       dev->rng.data_read      = hifn_rng_data_read,
+       dev->rng.data_present   = hifn_rng_data_present;
+       dev->rng.data_read      = hifn_rng_data_read;
        dev->rng.priv           = (unsigned long)dev;
 
        return hwrng_register(&dev->rng);
@@ -1235,7 +1235,8 @@ static int hifn_setup_src_desc(struct hifn_device *dev, struct page *page,
        int idx;
        dma_addr_t addr;
 
-       addr = pci_map_page(dev->pdev, page, offset, size, PCI_DMA_TODEVICE);
+       addr = dma_map_page(&dev->pdev->dev, page, offset, size,
+                           DMA_TO_DEVICE);
 
        idx = dma->srci;
 
@@ -1293,7 +1294,8 @@ static void hifn_setup_dst_desc(struct hifn_device *dev, struct page *page,
        int idx;
        dma_addr_t addr;
 
-       addr = pci_map_page(dev->pdev, page, offset, size, PCI_DMA_FROMDEVICE);
+       addr = dma_map_page(&dev->pdev->dev, page, offset, size,
+                           DMA_FROM_DEVICE);
 
        idx = dma->dsti;
        dma->dstr[idx].p = __cpu_to_le32(addr);
@@ -2470,7 +2472,7 @@ static int hifn_probe(struct pci_dev *pdev, const struct pci_device_id *id)
                return err;
        pci_set_master(pdev);
 
-       err = pci_set_dma_mask(pdev, DMA_BIT_MASK(32));
+       err = dma_set_mask(&pdev->dev, DMA_BIT_MASK(32));
        if (err)
                goto err_out_disable_pci_device;
 
@@ -2514,8 +2516,9 @@ static int hifn_probe(struct pci_dev *pdev, const struct pci_device_id *id)
                }
        }
 
-       dev->desc_virt = pci_zalloc_consistent(pdev, sizeof(struct hifn_dma),
-                                              &dev->desc_dma);
+       dev->desc_virt = dma_alloc_coherent(&pdev->dev,
+                                           sizeof(struct hifn_dma),
+                                           &dev->desc_dma, GFP_KERNEL);
        if (!dev->desc_virt) {
                dev_err(&pdev->dev, "Failed to allocate descriptor rings.\n");
                err = -ENOMEM;
@@ -2572,8 +2575,8 @@ err_out_free_irq:
        free_irq(dev->irq, dev);
        tasklet_kill(&dev->tasklet);
 err_out_free_desc:
-       pci_free_consistent(pdev, sizeof(struct hifn_dma),
-                       dev->desc_virt, dev->desc_dma);
+       dma_free_coherent(&pdev->dev, sizeof(struct hifn_dma), dev->desc_virt,
+                         dev->desc_dma);
 
 err_out_unmap_bars:
        for (i = 0; i < 3; ++i)
@@ -2610,8 +2613,8 @@ static void hifn_remove(struct pci_dev *pdev)
 
                hifn_flush(dev);
 
-               pci_free_consistent(pdev, sizeof(struct hifn_dma),
-                               dev->desc_virt, dev->desc_dma);
+               dma_free_coherent(&pdev->dev, sizeof(struct hifn_dma),
+                                 dev->desc_virt, dev->desc_dma);
                for (i = 0; i < 3; ++i)
                        if (dev->bar[i])
                                iounmap(dev->bar[i]);
@@ -2642,9 +2645,6 @@ static int __init hifn_init(void)
        unsigned int freq;
        int err;
 
-       /* HIFN supports only 32-bit addresses */
-       BUILD_BUG_ON(sizeof(dma_addr_t) != 4);
-
        if (strncmp(hifn_pll_ref, "ext", 3) &&
            strncmp(hifn_pll_ref, "pci", 3)) {
                pr_err("hifn795x: invalid hifn_pll_ref clock, must be pci or ext");
index ed730d1..f69252b 100644 (file)
@@ -56,7 +56,6 @@ struct hpre_dfx {
  * Just relevant for PF.
  */
 struct hpre_debug {
-       struct dentry *debug_root;
        struct hpre_dfx dfx[HPRE_DFX_FILE_NUM];
        struct hpre_debugfs_file files[HPRE_DEBUGFS_FILE_NUM];
 };
index 7b5cb27..a87f990 100644 (file)
@@ -98,9 +98,6 @@ struct hpre_asym_request {
        struct timespec64 req_time;
 };
 
-static DEFINE_MUTEX(hpre_alg_lock);
-static unsigned int hpre_active_devs;
-
 static int hpre_alloc_req_id(struct hpre_ctx *ctx)
 {
        unsigned long flags;
@@ -191,8 +188,7 @@ static int hpre_get_data_dma_addr(struct hpre_asym_request *hpre_req,
                hpre_req->dst = NULL;
                dma_dir = DMA_FROM_DEVICE;
        }
-       *tmp = dma_map_single(dev, sg_virt(data),
-                             len, dma_dir);
+       *tmp = dma_map_single(dev, sg_virt(data), len, dma_dir);
        if (unlikely(dma_mapping_error(dev, *tmp))) {
                dev_err(dev, "dma map data err!\n");
                return -ENOMEM;
@@ -242,8 +238,8 @@ static int hpre_hw_data_init(struct hpre_asym_request *hpre_req,
            ((is_dh && !is_src) || !is_dh))
                ret = hpre_get_data_dma_addr(hpre_req, data, len, is_src, &tmp);
        else
-               ret = hpre_prepare_dma_buf(hpre_req, data, len,
-                                         is_src, &tmp);
+               ret = hpre_prepare_dma_buf(hpre_req, data, len, is_src, &tmp);
+
        if (unlikely(ret))
                return ret;
 
@@ -270,11 +266,9 @@ static void hpre_hw_data_clr_all(struct hpre_ctx *ctx,
 
        if (src) {
                if (req->src)
-                       dma_free_coherent(dev, ctx->key_sz,
-                                         req->src, tmp);
+                       dma_free_coherent(dev, ctx->key_sz, req->src, tmp);
                else
-                       dma_unmap_single(dev, tmp,
-                                        ctx->key_sz, DMA_TO_DEVICE);
+                       dma_unmap_single(dev, tmp, ctx->key_sz, DMA_TO_DEVICE);
        }
 
        tmp = le64_to_cpu(sqe->out);
@@ -477,7 +471,7 @@ static int hpre_msg_request_set(struct hpre_ctx *ctx, void *req, bool is_rsa)
                h_req->areq.dh = kreq;
                msg = &h_req->req;
                memset(msg, 0, sizeof(*msg));
-               msg->key = cpu_to_le64((u64)ctx->dh.dma_xa_p);
+               msg->key = cpu_to_le64(ctx->dh.dma_xa_p);
        }
 
        msg->dw0 |= cpu_to_le32(0x1 << HPRE_SQE_DONE_SHIFT);
@@ -534,6 +528,8 @@ static int hpre_dh_compute_value(struct kpp_request *req)
                ret = hpre_hw_data_init(hpre_req, req->src, req->src_len, 1, 1);
                if (unlikely(ret))
                        goto clear_all;
+       } else {
+               msg->in = cpu_to_le64(ctx->dh.dma_g);
        }
 
        ret = hpre_hw_data_init(hpre_req, req->dst, req->dst_len, 0, 1);
@@ -743,7 +739,7 @@ static int hpre_rsa_enc(struct akcipher_request *req)
                return ret;
 
        msg->dw0 |= cpu_to_le32(HPRE_ALG_NC_NCRT);
-       msg->key = cpu_to_le64((u64)ctx->rsa.dma_pubkey);
+       msg->key = cpu_to_le64(ctx->rsa.dma_pubkey);
 
        ret = hpre_hw_data_init(hpre_req, req->src, req->src_len, 1, 0);
        if (unlikely(ret))
@@ -791,11 +787,11 @@ static int hpre_rsa_dec(struct akcipher_request *req)
                return ret;
 
        if (ctx->crt_g2_mode) {
-               msg->key = cpu_to_le64((u64)ctx->rsa.dma_crt_prikey);
+               msg->key = cpu_to_le64(ctx->rsa.dma_crt_prikey);
                msg->dw0 = cpu_to_le32(le32_to_cpu(msg->dw0) |
                                       HPRE_ALG_NC_CRT);
        } else {
-               msg->key = cpu_to_le64((u64)ctx->rsa.dma_prikey);
+               msg->key = cpu_to_le64(ctx->rsa.dma_prikey);
                msg->dw0 = cpu_to_le32(le32_to_cpu(msg->dw0) |
                                       HPRE_ALG_NC_NCRT);
        }
@@ -1160,36 +1156,25 @@ static struct kpp_alg dh = {
 
 int hpre_algs_register(void)
 {
-       int ret = 0;
-
-       mutex_lock(&hpre_alg_lock);
-       if (++hpre_active_devs == 1) {
-               rsa.base.cra_flags = 0;
-               ret = crypto_register_akcipher(&rsa);
-               if (ret)
-                       goto unlock;
+       int ret;
+
+       rsa.base.cra_flags = 0;
+       ret = crypto_register_akcipher(&rsa);
+       if (ret)
+               return ret;
 #ifdef CONFIG_CRYPTO_DH
-               ret = crypto_register_kpp(&dh);
-               if (ret) {
-                       crypto_unregister_akcipher(&rsa);
-                       goto unlock;
-               }
+       ret = crypto_register_kpp(&dh);
+       if (ret)
+               crypto_unregister_akcipher(&rsa);
 #endif
-       }
 
-unlock:
-       mutex_unlock(&hpre_alg_lock);
        return ret;
 }
 
 void hpre_algs_unregister(void)
 {
-       mutex_lock(&hpre_alg_lock);
-       if (--hpre_active_devs == 0) {
-               crypto_unregister_akcipher(&rsa);
+       crypto_unregister_akcipher(&rsa);
 #ifdef CONFIG_CRYPTO_DH
-               crypto_unregister_kpp(&dh);
+       crypto_unregister_kpp(&dh);
 #endif
-       }
-       mutex_unlock(&hpre_alg_lock);
 }
index b135c74..a33394d 100644 (file)
@@ -90,7 +90,6 @@
 #define HPRE_SQE_MASK_OFFSET           8
 #define HPRE_SQE_MASK_LEN              24
 
-static struct hisi_qm_list hpre_devices;
 static const char hpre_name[] = "hisi_hpre";
 static struct dentry *hpre_debugfs_root;
 static const struct pci_device_id hpre_dev_ids[] = {
@@ -106,6 +105,11 @@ struct hpre_hw_error {
        const char *msg;
 };
 
+static struct hisi_qm_list hpre_devices = {
+       .register_to_crypto     = hpre_algs_register,
+       .unregister_from_crypto = hpre_algs_unregister,
+};
+
 static const char * const hpre_debug_file_name[] = {
        [HPRE_CURRENT_QM]   = "current_qm",
        [HPRE_CLEAR_ENABLE] = "rdclr_en",
@@ -186,7 +190,7 @@ static const struct kernel_param_ops hpre_pf_q_num_ops = {
 
 static u32 pf_q_num = HPRE_PF_DEF_Q_NUM;
 module_param_cb(pf_q_num, &hpre_pf_q_num_ops, &pf_q_num, 0444);
-MODULE_PARM_DESC(pf_q_num, "Number of queues in PF of CS(1-1024)");
+MODULE_PARM_DESC(pf_q_num, "Number of queues in PF of CS(2-1024)");
 
 static const struct kernel_param_ops vfs_num_ops = {
        .set = vfs_num_set,
@@ -864,9 +868,7 @@ static int hpre_probe(struct pci_dev *pdev, const struct pci_device_id *id)
        if (ret)
                dev_warn(&pdev->dev, "init debugfs fail!\n");
 
-       hisi_qm_add_to_list(qm, &hpre_devices);
-
-       ret = hpre_algs_register();
+       ret = hisi_qm_alg_register(qm, &hpre_devices);
        if (ret < 0) {
                pci_err(pdev, "fail to register algs to crypto!\n");
                goto err_with_qm_start;
@@ -875,18 +877,17 @@ static int hpre_probe(struct pci_dev *pdev, const struct pci_device_id *id)
        if (qm->fun_type == QM_HW_PF && vfs_num) {
                ret = hisi_qm_sriov_enable(pdev, vfs_num);
                if (ret < 0)
-                       goto err_with_crypto_register;
+                       goto err_with_alg_register;
        }
 
        return 0;
 
-err_with_crypto_register:
-       hpre_algs_unregister();
+err_with_alg_register:
+       hisi_qm_alg_unregister(qm, &hpre_devices);
 
 err_with_qm_start:
-       hisi_qm_del_from_list(qm, &hpre_devices);
        hpre_debugfs_exit(qm);
-       hisi_qm_stop(qm);
+       hisi_qm_stop(qm, QM_NORMAL);
 
 err_with_err_init:
        hisi_qm_dev_err_uninit(qm);
@@ -899,14 +900,13 @@ err_with_qm_init:
 
 static void hpre_remove(struct pci_dev *pdev)
 {
-       struct hpre *hpre = pci_get_drvdata(pdev);
-       struct hisi_qm *qm = &hpre->qm;
+       struct hisi_qm *qm = pci_get_drvdata(pdev);
        int ret;
 
-       hpre_algs_unregister();
-       hisi_qm_del_from_list(qm, &hpre_devices);
+       hisi_qm_wait_task_finish(qm, &hpre_devices);
+       hisi_qm_alg_unregister(qm, &hpre_devices);
        if (qm->fun_type == QM_HW_PF && qm->vfs_num) {
-               ret = hisi_qm_sriov_disable(pdev);
+               ret = hisi_qm_sriov_disable(pdev, qm->is_frozen);
                if (ret) {
                        pci_err(pdev, "Disable SRIOV fail!\n");
                        return;
@@ -918,7 +918,7 @@ static void hpre_remove(struct pci_dev *pdev)
        }
 
        hpre_debugfs_exit(qm);
-       hisi_qm_stop(qm);
+       hisi_qm_stop(qm, QM_NORMAL);
        hisi_qm_dev_err_uninit(qm);
        hisi_qm_uninit(qm);
 }
@@ -939,6 +939,7 @@ static struct pci_driver hpre_pci_driver = {
        .sriov_configure        = IS_ENABLED(CONFIG_PCI_IOV) ?
                                  hisi_qm_sriov_configure : NULL,
        .err_handler            = &hpre_err_handler,
+       .shutdown               = hisi_qm_dev_shutdown,
 };
 
 static void hpre_register_debugfs(void)
index 6527c53..530f231 100644 (file)
 #define QM_DBG_TMP_BUF_LEN             22
 #define QM_PCI_COMMAND_INVALID         ~0
 
+#define WAIT_PERIOD                    20
+#define REMOVE_WAIT_DELAY              10
 #define QM_SQE_ADDR_MASK               GENMASK(7, 0)
+#define QM_EQ_DEPTH                    (1024 * 2)
 
 #define QM_MK_CQC_DW3_V1(hop_num, pg_sz, buf_sz, cqe_sz) \
        (((hop_num) << QM_CQ_HOP_NUM_SHIFT)     | \
@@ -652,7 +655,7 @@ static void qm_work_process(struct work_struct *work)
                qp = qm_to_hisi_qp(qm, eqe);
                qm_poll_qp(qp, qm);
 
-               if (qm->status.eq_head == QM_Q_DEPTH - 1) {
+               if (qm->status.eq_head == QM_EQ_DEPTH - 1) {
                        qm->status.eqc_phase = !qm->status.eqc_phase;
                        eqe = qm->eqe;
                        qm->status.eq_head = 0;
@@ -661,7 +664,7 @@ static void qm_work_process(struct work_struct *work)
                        qm->status.eq_head++;
                }
 
-               if (eqe_num == QM_Q_DEPTH / 2 - 1) {
+               if (eqe_num == QM_EQ_DEPTH / 2 - 1) {
                        eqe_num = 0;
                        qm_db(qm, 0, QM_DOORBELL_CMD_EQ, qm->status.eq_head, 0);
                }
@@ -754,7 +757,7 @@ static void qm_init_qp_status(struct hisi_qp *qp)
        qp_status->sq_tail = 0;
        qp_status->cq_head = 0;
        qp_status->cqc_phase = true;
-       atomic_set(&qp_status->flags, 0);
+       atomic_set(&qp_status->used, 0);
 }
 
 static void qm_vft_data_cfg(struct hisi_qm *qm, enum vft_type type, u32 base,
@@ -1046,17 +1049,7 @@ static int qm_regs_show(struct seq_file *s, void *unused)
        return 0;
 }
 
-static int qm_regs_open(struct inode *inode, struct file *file)
-{
-       return single_open(file, qm_regs_show, inode->i_private);
-}
-
-static const struct file_operations qm_regs_fops = {
-       .owner = THIS_MODULE,
-       .open = qm_regs_open,
-       .read = seq_read,
-       .release = single_release,
-};
+DEFINE_SHOW_ATTRIBUTE(qm_regs);
 
 static ssize_t qm_cmd_read(struct file *filp, char __user *buffer,
                           size_t count, loff_t *pos)
@@ -1370,7 +1363,13 @@ static int qm_eq_aeq_dump(struct hisi_qm *qm, const char *s,
                return -EINVAL;
 
        ret = kstrtou32(s, 0, &xeqe_id);
-       if (ret || xeqe_id >= QM_Q_DEPTH) {
+       if (ret)
+               return -EINVAL;
+
+       if (!strcmp(name, "EQE") && xeqe_id >= QM_EQ_DEPTH) {
+               dev_err(dev, "Please input eqe num (0-%d)", QM_EQ_DEPTH - 1);
+               return -EINVAL;
+       } else if (!strcmp(name, "AEQE") && xeqe_id >= QM_Q_DEPTH) {
                dev_err(dev, "Please input aeqe num (0-%d)", QM_Q_DEPTH - 1);
                return -EINVAL;
        }
@@ -1420,17 +1419,18 @@ static int qm_dbg_help(struct hisi_qm *qm, char *s)
 static int qm_cmd_write_dump(struct hisi_qm *qm, const char *cmd_buf)
 {
        struct device *dev = &qm->pdev->dev;
-       char *presult, *s;
+       char *presult, *s, *s_tmp;
        int ret;
 
        s = kstrdup(cmd_buf, GFP_KERNEL);
        if (!s)
                return -ENOMEM;
 
+       s_tmp = s;
        presult = strsep(&s, " ");
        if (!presult) {
-               kfree(s);
-               return -EINVAL;
+               ret = -EINVAL;
+               goto err_buffer_free;
        }
 
        if (!strcmp(presult, "sqc"))
@@ -1459,7 +1459,8 @@ static int qm_cmd_write_dump(struct hisi_qm *qm, const char *cmd_buf)
        if (ret)
                dev_info(dev, "Please echo help\n");
 
-       kfree(s);
+err_buffer_free:
+       kfree(s_tmp);
 
        return ret;
 }
@@ -1644,7 +1645,7 @@ static void *qm_get_avail_sqe(struct hisi_qp *qp)
        struct hisi_qp_status *qp_status = &qp->qp_status;
        u16 sq_tail = qp_status->sq_tail;
 
-       if (unlikely(atomic_read(&qp->qp_status.used) == QM_Q_DEPTH))
+       if (unlikely(atomic_read(&qp->qp_status.used) == QM_Q_DEPTH - 1))
                return NULL;
 
        return qp->sqe + sq_tail * qp->qm->sqe_size;
@@ -1981,7 +1982,7 @@ int hisi_qp_send(struct hisi_qp *qp, const void *msg)
        if (unlikely(atomic_read(&qp->qp_status.flags) == QP_STOP ||
                     atomic_read(&qp->qm->status.flags) == QM_STOP ||
                     qp->is_resetting)) {
-               dev_info(&qp->qm->pdev->dev, "QP is stopped or resetting\n");
+               dev_info_ratelimited(&qp->qm->pdev->dev, "QP is stopped or resetting\n");
                return -EAGAIN;
        }
 
@@ -2215,6 +2216,82 @@ static int qm_alloc_uacce(struct hisi_qm *qm)
 }
 
 /**
+ * qm_frozen() - Try to froze QM to cut continuous queue request. If
+ * there is user on the QM, return failure without doing anything.
+ * @qm: The qm needed to be fronzen.
+ *
+ * This function frozes QM, then we can do SRIOV disabling.
+ */
+static int qm_frozen(struct hisi_qm *qm)
+{
+       down_write(&qm->qps_lock);
+
+       if (qm->is_frozen) {
+               up_write(&qm->qps_lock);
+               return 0;
+       }
+
+       if (!qm->qp_in_used) {
+               qm->qp_in_used = qm->qp_num;
+               qm->is_frozen = true;
+               up_write(&qm->qps_lock);
+               return 0;
+       }
+
+       up_write(&qm->qps_lock);
+
+       return -EBUSY;
+}
+
+static int qm_try_frozen_vfs(struct pci_dev *pdev,
+                            struct hisi_qm_list *qm_list)
+{
+       struct hisi_qm *qm, *vf_qm;
+       struct pci_dev *dev;
+       int ret = 0;
+
+       if (!qm_list || !pdev)
+               return -EINVAL;
+
+       /* Try to frozen all the VFs as disable SRIOV */
+       mutex_lock(&qm_list->lock);
+       list_for_each_entry(qm, &qm_list->list, list) {
+               dev = qm->pdev;
+               if (dev == pdev)
+                       continue;
+               if (pci_physfn(dev) == pdev) {
+                       vf_qm = pci_get_drvdata(dev);
+                       ret = qm_frozen(vf_qm);
+                       if (ret)
+                               goto frozen_fail;
+               }
+       }
+
+frozen_fail:
+       mutex_unlock(&qm_list->lock);
+
+       return ret;
+}
+
+/**
+ * hisi_qm_wait_task_finish() - Wait until the task is finished
+ * when removing the driver.
+ * @qm: The qm needed to wait for the task to finish.
+ * @qm_list: The list of all available devices.
+ */
+void hisi_qm_wait_task_finish(struct hisi_qm *qm, struct hisi_qm_list *qm_list)
+{
+       while (qm_frozen(qm) ||
+              ((qm->fun_type == QM_HW_PF) &&
+              qm_try_frozen_vfs(qm->pdev, qm_list))) {
+               msleep(WAIT_PERIOD);
+       }
+
+       udelay(REMOVE_WAIT_DELAY);
+}
+EXPORT_SYMBOL_GPL(hisi_qm_wait_task_finish);
+
+/**
  * hisi_qm_get_free_qp_num() - Get free number of qp in qm.
  * @qm: The qm which want to get free qp.
  *
@@ -2282,7 +2359,7 @@ static int hisi_qm_memory_init(struct hisi_qm *qm)
 } while (0)
 
        idr_init(&qm->qp_idr);
-       qm->qdma.size = QMC_ALIGN(sizeof(struct qm_eqe) * QM_Q_DEPTH) +
+       qm->qdma.size = QMC_ALIGN(sizeof(struct qm_eqe) * QM_EQ_DEPTH) +
                        QMC_ALIGN(sizeof(struct qm_aeqe) * QM_Q_DEPTH) +
                        QMC_ALIGN(sizeof(struct qm_sqc) * qm->qp_num) +
                        QMC_ALIGN(sizeof(struct qm_cqc) * qm->qp_num);
@@ -2292,7 +2369,7 @@ static int hisi_qm_memory_init(struct hisi_qm *qm)
        if (!qm->qdma.va)
                return -ENOMEM;
 
-       QM_INIT_BUF(qm, eqe, QM_Q_DEPTH);
+       QM_INIT_BUF(qm, eqe, QM_EQ_DEPTH);
        QM_INIT_BUF(qm, aeqe, QM_Q_DEPTH);
        QM_INIT_BUF(qm, sqc, qm->qp_num);
        QM_INIT_BUF(qm, cqc, qm->qp_num);
@@ -2338,6 +2415,7 @@ static void hisi_qm_pre_init(struct hisi_qm *qm)
        mutex_init(&qm->mailbox_lock);
        init_rwsem(&qm->qps_lock);
        qm->qp_in_used = 0;
+       qm->is_frozen = false;
 }
 
 /**
@@ -2462,7 +2540,7 @@ static int qm_eq_ctx_cfg(struct hisi_qm *qm)
        eqc->base_h = cpu_to_le32(upper_32_bits(qm->eqe_dma));
        if (qm->ver == QM_HW_V1)
                eqc->dw3 = cpu_to_le32(QM_EQE_AEQE_SIZE);
-       eqc->dw6 = cpu_to_le32((QM_Q_DEPTH - 1) | (1 << QM_EQC_PHASE_SHIFT));
+       eqc->dw6 = cpu_to_le32((QM_EQ_DEPTH - 1) | (1 << QM_EQC_PHASE_SHIFT));
        ret = qm_mb(qm, QM_MB_CMD_EQC, eqc_dma, 0, 0);
        dma_unmap_single(dev, eqc_dma, sizeof(struct qm_eqc), DMA_TO_DEVICE);
        kfree(eqc);
@@ -2633,18 +2711,20 @@ static void qm_clear_queues(struct hisi_qm *qm)
 /**
  * hisi_qm_stop() - Stop a qm.
  * @qm: The qm which will be stopped.
+ * @r: The reason to stop qm.
  *
  * This function stops qm and its qps, then qm can not accept request.
  * Related resources are not released at this state, we can use hisi_qm_start
  * to let qm start again.
  */
-int hisi_qm_stop(struct hisi_qm *qm)
+int hisi_qm_stop(struct hisi_qm *qm, enum qm_stop_reason r)
 {
        struct device *dev = &qm->pdev->dev;
        int ret = 0;
 
        down_write(&qm->qps_lock);
 
+       qm->status.stop_reason = r;
        if (!qm_avail_state(qm, QM_STOP)) {
                ret = -EPERM;
                goto err_unlock;
@@ -3081,11 +3161,12 @@ EXPORT_SYMBOL_GPL(hisi_qm_sriov_enable);
 
 /**
  * hisi_qm_sriov_disable - disable virtual functions
- * @pdev: the PCI device
+ * @pdev: the PCI device.
+ * @is_frozen: true when all the VFs are frozen.
  *
- * Return failure if there are VFs assigned already.
+ * Return failure if there are VFs assigned already or VF is in used.
  */
-int hisi_qm_sriov_disable(struct pci_dev *pdev)
+int hisi_qm_sriov_disable(struct pci_dev *pdev, bool is_frozen)
 {
        struct hisi_qm *qm = pci_get_drvdata(pdev);
 
@@ -3094,7 +3175,12 @@ int hisi_qm_sriov_disable(struct pci_dev *pdev)
                return -EPERM;
        }
 
-       /* remove in hpre_pci_driver will be called to free VF resources */
+       /* While VF is in used, SRIOV cannot be disabled. */
+       if (!is_frozen && qm_try_frozen_vfs(pdev, qm->qm_list)) {
+               pci_err(pdev, "Task is using its VF!\n");
+               return -EBUSY;
+       }
+
        pci_disable_sriov(pdev);
        return qm_clear_vft_config(qm);
 }
@@ -3110,7 +3196,7 @@ EXPORT_SYMBOL_GPL(hisi_qm_sriov_disable);
 int hisi_qm_sriov_configure(struct pci_dev *pdev, int num_vfs)
 {
        if (num_vfs == 0)
-               return hisi_qm_sriov_disable(pdev);
+               return hisi_qm_sriov_disable(pdev, 0);
        else
                return hisi_qm_sriov_enable(pdev, num_vfs);
 }
@@ -3290,10 +3376,10 @@ static int qm_set_msi(struct hisi_qm *qm, bool set)
        return 0;
 }
 
-static int qm_vf_reset_prepare(struct hisi_qm *qm)
+static int qm_vf_reset_prepare(struct hisi_qm *qm,
+                              enum qm_stop_reason stop_reason)
 {
        struct hisi_qm_list *qm_list = qm->qm_list;
-       int stop_reason = qm->status.stop_reason;
        struct pci_dev *pdev = qm->pdev;
        struct pci_dev *virtfn;
        struct hisi_qm *vf_qm;
@@ -3306,8 +3392,10 @@ static int qm_vf_reset_prepare(struct hisi_qm *qm)
                        continue;
 
                if (pci_physfn(virtfn) == pdev) {
-                       vf_qm->status.stop_reason = stop_reason;
-                       ret = hisi_qm_stop(vf_qm);
+                       /* save VFs PCIE BAR configuration */
+                       pci_save_state(virtfn);
+
+                       ret = hisi_qm_stop(vf_qm, stop_reason);
                        if (ret)
                                goto stop_fail;
                }
@@ -3346,15 +3434,14 @@ static int qm_controller_reset_prepare(struct hisi_qm *qm)
        }
 
        if (qm->vfs_num) {
-               ret = qm_vf_reset_prepare(qm);
+               ret = qm_vf_reset_prepare(qm, QM_SOFT_RESET);
                if (ret) {
                        pci_err(pdev, "Fails to stop VFs!\n");
                        return ret;
                }
        }
 
-       qm->status.stop_reason = QM_SOFT_RESET;
-       ret = hisi_qm_stop(qm);
+       ret = hisi_qm_stop(qm, QM_SOFT_RESET);
        if (ret) {
                pci_err(pdev, "Fails to stop QM!\n");
                return ret;
@@ -3471,6 +3558,9 @@ static int qm_vf_reset_done(struct hisi_qm *qm)
                        continue;
 
                if (pci_physfn(virtfn) == pdev) {
+                       /* enable VFs PCIE BAR configuration */
+                       pci_restore_state(virtfn);
+
                        ret = qm_restart(vf_qm);
                        if (ret)
                                goto restart_fail;
@@ -3695,7 +3785,7 @@ void hisi_qm_reset_prepare(struct pci_dev *pdev)
        }
 
        if (qm->vfs_num) {
-               ret = qm_vf_reset_prepare(qm);
+               ret = qm_vf_reset_prepare(qm, QM_FLR);
                if (ret) {
                        pci_err(pdev, "Failed to prepare reset, ret = %d.\n",
                                ret);
@@ -3703,7 +3793,7 @@ void hisi_qm_reset_prepare(struct pci_dev *pdev)
                }
        }
 
-       ret = hisi_qm_stop(qm);
+       ret = hisi_qm_stop(qm, QM_FLR);
        if (ret) {
                pci_err(pdev, "Failed to stop QM, ret = %d.\n", ret);
                return;
@@ -3821,6 +3911,23 @@ err_aeq_irq:
        return ret;
 }
 
+/**
+ * hisi_qm_dev_shutdown() - Shutdown device.
+ * @pdev: The device will be shutdown.
+ *
+ * This function will stop qm when OS shutdown or rebooting.
+ */
+void hisi_qm_dev_shutdown(struct pci_dev *pdev)
+{
+       struct hisi_qm *qm = pci_get_drvdata(pdev);
+       int ret;
+
+       ret = hisi_qm_stop(qm, QM_NORMAL);
+       if (ret)
+               dev_err(&pdev->dev, "Fail to stop qm in shutdown!\n");
+}
+EXPORT_SYMBOL_GPL(hisi_qm_dev_shutdown);
+
 static void hisi_qm_controller_reset(struct work_struct *rst_work)
 {
        struct hisi_qm *qm = container_of(rst_work, struct hisi_qm, rst_work);
@@ -3834,6 +3941,58 @@ static void hisi_qm_controller_reset(struct work_struct *rst_work)
 }
 
 /**
+ * hisi_qm_alg_register() - Register alg to crypto and add qm to qm_list.
+ * @qm: The qm needs add.
+ * @qm_list: The qm list.
+ *
+ * This function adds qm to qm list, and will register algorithm to
+ * crypto when the qm list is empty.
+ */
+int hisi_qm_alg_register(struct hisi_qm *qm, struct hisi_qm_list *qm_list)
+{
+       int flag = 0;
+       int ret = 0;
+
+       mutex_lock(&qm_list->lock);
+       if (list_empty(&qm_list->list))
+               flag = 1;
+       list_add_tail(&qm->list, &qm_list->list);
+       mutex_unlock(&qm_list->lock);
+
+       if (flag) {
+               ret = qm_list->register_to_crypto();
+               if (ret) {
+                       mutex_lock(&qm_list->lock);
+                       list_del(&qm->list);
+                       mutex_unlock(&qm_list->lock);
+               }
+       }
+
+       return ret;
+}
+EXPORT_SYMBOL_GPL(hisi_qm_alg_register);
+
+/**
+ * hisi_qm_alg_unregister() - Unregister alg from crypto and delete qm from
+ * qm list.
+ * @qm: The qm needs delete.
+ * @qm_list: The qm list.
+ *
+ * This function deletes qm from qm list, and will unregister algorithm
+ * from crypto when the qm list is empty.
+ */
+void hisi_qm_alg_unregister(struct hisi_qm *qm, struct hisi_qm_list *qm_list)
+{
+       mutex_lock(&qm_list->lock);
+       list_del(&qm->list);
+       mutex_unlock(&qm_list->lock);
+
+       if (list_empty(&qm_list->list))
+               qm_list->unregister_from_crypto();
+}
+EXPORT_SYMBOL_GPL(hisi_qm_alg_unregister);
+
+/**
  * hisi_qm_init() - Initialize configures about qm.
  * @qm: The qm needing init.
  *
index 6c1d3c7..0420f4c 100644 (file)
@@ -79,7 +79,7 @@
 #define QM_BASE_CE                     QM_ECC_1BIT
 
 #define QM_Q_DEPTH                     1024
-
+#define QM_MIN_QNUM                     2
 #define HISI_ACC_SGL_SGE_NR_MAX                255
 
 /* page number for queue file region */
@@ -193,6 +193,8 @@ struct hisi_qm_err_ini {
 struct hisi_qm_list {
        struct mutex lock;
        struct list_head list;
+       int (*register_to_crypto)(void);
+       void (*unregister_from_crypto)(void);
 };
 
 struct hisi_qm {
@@ -243,6 +245,7 @@ struct hisi_qm {
 
        const char *algs;
        bool use_sva;
+       bool is_frozen;
        resource_size_t phys_base;
        resource_size_t phys_size;
        struct uacce_device *uacce;
@@ -306,7 +309,7 @@ static inline int q_num_set(const char *val, const struct kernel_param *kp,
        }
 
        ret = kstrtou32(val, 10, &n);
-       if (ret || !n || n > q_num)
+       if (ret || n < QM_MIN_QNUM || n > q_num)
                return -EINVAL;
 
        return param_set_int(val, kp);
@@ -336,26 +339,10 @@ static inline void hisi_qm_init_list(struct hisi_qm_list *qm_list)
        mutex_init(&qm_list->lock);
 }
 
-static inline void hisi_qm_add_to_list(struct hisi_qm *qm,
-                                      struct hisi_qm_list *qm_list)
-{
-       mutex_lock(&qm_list->lock);
-       list_add_tail(&qm->list, &qm_list->list);
-       mutex_unlock(&qm_list->lock);
-}
-
-static inline void hisi_qm_del_from_list(struct hisi_qm *qm,
-                                        struct hisi_qm_list *qm_list)
-{
-       mutex_lock(&qm_list->lock);
-       list_del(&qm->list);
-       mutex_unlock(&qm_list->lock);
-}
-
 int hisi_qm_init(struct hisi_qm *qm);
 void hisi_qm_uninit(struct hisi_qm *qm);
 int hisi_qm_start(struct hisi_qm *qm);
-int hisi_qm_stop(struct hisi_qm *qm);
+int hisi_qm_stop(struct hisi_qm *qm, enum qm_stop_reason r);
 struct hisi_qp *hisi_qm_create_qp(struct hisi_qm *qm, u8 alg_type);
 int hisi_qm_start_qp(struct hisi_qp *qp, unsigned long arg);
 int hisi_qm_stop_qp(struct hisi_qp *qp);
@@ -367,7 +354,7 @@ int hisi_qm_debug_init(struct hisi_qm *qm);
 enum qm_hw_ver hisi_qm_get_hw_version(struct pci_dev *pdev);
 void hisi_qm_debug_regs_clear(struct hisi_qm *qm);
 int hisi_qm_sriov_enable(struct pci_dev *pdev, int max_vfs);
-int hisi_qm_sriov_disable(struct pci_dev *pdev);
+int hisi_qm_sriov_disable(struct pci_dev *pdev, bool is_frozen);
 int hisi_qm_sriov_configure(struct pci_dev *pdev, int num_vfs);
 void hisi_qm_dev_err_init(struct hisi_qm *qm);
 void hisi_qm_dev_err_uninit(struct hisi_qm *qm);
@@ -390,4 +377,8 @@ void hisi_acc_free_sgl_pool(struct device *dev,
 int hisi_qm_alloc_qps_node(struct hisi_qm_list *qm_list, int qp_num,
                           u8 alg_type, int node, struct hisi_qp **qps);
 void hisi_qm_free_qps(struct hisi_qp **qps, int qp_num);
+void hisi_qm_dev_shutdown(struct pci_dev *pdev);
+void hisi_qm_wait_task_finish(struct hisi_qm *qm, struct hisi_qm_list *qm_list);
+int hisi_qm_alg_register(struct hisi_qm *qm, struct hisi_qm_list *qm_list);
+void hisi_qm_alg_unregister(struct hisi_qm *qm, struct hisi_qm_list *qm_list);
 #endif
index 497969a..bb49342 100644 (file)
@@ -66,8 +66,6 @@
 #define SEC_SQE_AEAD_FLAG      3
 #define SEC_SQE_DONE           0x1
 
-static atomic_t sec_active_devs;
-
 /* Get an en/de-cipher queue cyclically to balance load over queues of TFM */
 static inline int sec_alloc_queue_id(struct sec_ctx *ctx, struct sec_req *req)
 {
@@ -342,11 +340,14 @@ static int sec_alg_resource_alloc(struct sec_ctx *ctx,
                ret = sec_alloc_pbuf_resource(dev, res);
                if (ret) {
                        dev_err(dev, "fail to alloc pbuf dma resource!\n");
-                       goto alloc_fail;
+                       goto alloc_pbuf_fail;
                }
        }
 
        return 0;
+alloc_pbuf_fail:
+       if (ctx->alg_type == SEC_AEAD)
+               sec_free_mac_resource(dev, qp_ctx->res);
 alloc_fail:
        sec_free_civ_resource(dev, res);
 
@@ -457,8 +458,10 @@ static int sec_ctx_base_init(struct sec_ctx *ctx)
        ctx->fake_req_limit = QM_Q_DEPTH >> 1;
        ctx->qp_ctx = kcalloc(sec->ctx_q_num, sizeof(struct sec_qp_ctx),
                              GFP_KERNEL);
-       if (!ctx->qp_ctx)
-               return -ENOMEM;
+       if (!ctx->qp_ctx) {
+               ret = -ENOMEM;
+               goto err_destroy_qps;
+       }
 
        for (i = 0; i < sec->ctx_q_num; i++) {
                ret = sec_create_qp_ctx(&sec->qm, ctx, i, 0);
@@ -467,12 +470,15 @@ static int sec_ctx_base_init(struct sec_ctx *ctx)
        }
 
        return 0;
+
 err_sec_release_qp_ctx:
        for (i = i - 1; i >= 0; i--)
                sec_release_qp_ctx(ctx, &ctx->qp_ctx[i]);
 
-       sec_destroy_qps(ctx->qps, sec->ctx_q_num);
        kfree(ctx->qp_ctx);
+err_destroy_qps:
+       sec_destroy_qps(ctx->qps, sec->ctx_q_num);
+
        return ret;
 }
 
@@ -1633,33 +1639,24 @@ static struct aead_alg sec_aeads[] = {
 
 int sec_register_to_crypto(void)
 {
-       int ret = 0;
+       int ret;
 
        /* To avoid repeat register */
-       if (atomic_add_return(1, &sec_active_devs) == 1) {
-               ret = crypto_register_skciphers(sec_skciphers,
-                                               ARRAY_SIZE(sec_skciphers));
-               if (ret)
-                       return ret;
-
-               ret = crypto_register_aeads(sec_aeads, ARRAY_SIZE(sec_aeads));
-               if (ret)
-                       goto reg_aead_fail;
-       }
-
-       return ret;
-
-reg_aead_fail:
-       crypto_unregister_skciphers(sec_skciphers, ARRAY_SIZE(sec_skciphers));
+       ret = crypto_register_skciphers(sec_skciphers,
+                                       ARRAY_SIZE(sec_skciphers));
+       if (ret)
+               return ret;
 
+       ret = crypto_register_aeads(sec_aeads, ARRAY_SIZE(sec_aeads));
+       if (ret)
+               crypto_unregister_skciphers(sec_skciphers,
+                                           ARRAY_SIZE(sec_skciphers));
        return ret;
 }
 
 void sec_unregister_from_crypto(void)
 {
-       if (atomic_sub_return(1, &sec_active_devs) == 0) {
-               crypto_unregister_skciphers(sec_skciphers,
-                                           ARRAY_SIZE(sec_skciphers));
-               crypto_unregister_aeads(sec_aeads, ARRAY_SIZE(sec_aeads));
-       }
+       crypto_unregister_skciphers(sec_skciphers,
+                                   ARRAY_SIZE(sec_skciphers));
+       crypto_unregister_aeads(sec_aeads, ARRAY_SIZE(sec_aeads));
 }
index 2297425..5488963 100644 (file)
@@ -99,7 +99,11 @@ struct sec_dfx_item {
 
 static const char sec_name[] = "hisi_sec2";
 static struct dentry *sec_debugfs_root;
-static struct hisi_qm_list sec_devices;
+
+static struct hisi_qm_list sec_devices = {
+       .register_to_crypto     = sec_register_to_crypto,
+       .unregister_from_crypto = sec_unregister_from_crypto,
+};
 
 static const struct sec_hw_error sec_hw_errors[] = {
        {.int_msk = BIT(0), .msg = "sec_axi_rresp_err_rint"},
@@ -165,7 +169,7 @@ static const struct kernel_param_ops sec_pf_q_num_ops = {
 
 static u32 pf_q_num = SEC_PF_DEF_Q_NUM;
 module_param_cb(pf_q_num, &sec_pf_q_num_ops, &pf_q_num, 0444);
-MODULE_PARM_DESC(pf_q_num, "Number of queues in PF(v1 0-4096, v2 0-1024)");
+MODULE_PARM_DESC(pf_q_num, "Number of queues in PF(v1 2-4096, v2 2-1024)");
 
 static int sec_ctx_q_num_set(const char *val, const struct kernel_param *kp)
 {
@@ -879,29 +883,26 @@ static int sec_probe(struct pci_dev *pdev, const struct pci_device_id *id)
        if (ret)
                pci_warn(pdev, "Failed to init debugfs!\n");
 
-       hisi_qm_add_to_list(qm, &sec_devices);
-
-       ret = sec_register_to_crypto();
+       ret = hisi_qm_alg_register(qm, &sec_devices);
        if (ret < 0) {
                pr_err("Failed to register driver to crypto.\n");
-               goto err_remove_from_list;
+               goto err_qm_stop;
        }
 
        if (qm->fun_type == QM_HW_PF && vfs_num) {
                ret = hisi_qm_sriov_enable(pdev, vfs_num);
                if (ret < 0)
-                       goto err_crypto_unregister;
+                       goto err_alg_unregister;
        }
 
        return 0;
 
-err_crypto_unregister:
-       sec_unregister_from_crypto();
+err_alg_unregister:
+       hisi_qm_alg_unregister(qm, &sec_devices);
 
-err_remove_from_list:
-       hisi_qm_del_from_list(qm, &sec_devices);
+err_qm_stop:
        sec_debugfs_exit(qm);
-       hisi_qm_stop(qm);
+       hisi_qm_stop(qm, QM_NORMAL);
 
 err_probe_uninit:
        sec_probe_uninit(qm);
@@ -914,19 +915,16 @@ err_qm_uninit:
 
 static void sec_remove(struct pci_dev *pdev)
 {
-       struct sec_dev *sec = pci_get_drvdata(pdev);
-       struct hisi_qm *qm = &sec->qm;
-
-       sec_unregister_from_crypto();
-
-       hisi_qm_del_from_list(qm, &sec_devices);
+       struct hisi_qm *qm = pci_get_drvdata(pdev);
 
+       hisi_qm_wait_task_finish(qm, &sec_devices);
+       hisi_qm_alg_unregister(qm, &sec_devices);
        if (qm->fun_type == QM_HW_PF && qm->vfs_num)
-               hisi_qm_sriov_disable(pdev);
+               hisi_qm_sriov_disable(pdev, qm->is_frozen);
 
        sec_debugfs_exit(qm);
 
-       (void)hisi_qm_stop(qm);
+       (void)hisi_qm_stop(qm, QM_NORMAL);
 
        if (qm->fun_type == QM_HW_PF)
                sec_debug_regs_clear(qm);
@@ -950,6 +948,7 @@ static struct pci_driver sec_pci_driver = {
        .remove = sec_remove,
        .err_handler = &sec_err_handler,
        .sriov_configure = hisi_qm_sriov_configure,
+       .shutdown = hisi_qm_dev_shutdown,
 };
 
 static void sec_register_debugfs(void)
index 4484be1..92397f9 100644 (file)
@@ -9,20 +9,6 @@
 #include <linux/list.h>
 #include "../qm.h"
 
-/* hisi_zip_sqe dw3 */
-#define HZIP_BD_STATUS_M                       GENMASK(7, 0)
-/* hisi_zip_sqe dw7 */
-#define HZIP_IN_SGE_DATA_OFFSET_M              GENMASK(23, 0)
-/* hisi_zip_sqe dw8 */
-#define HZIP_OUT_SGE_DATA_OFFSET_M             GENMASK(23, 0)
-/* hisi_zip_sqe dw9 */
-#define HZIP_REQ_TYPE_M                                GENMASK(7, 0)
-#define HZIP_ALG_TYPE_ZLIB                     0x02
-#define HZIP_ALG_TYPE_GZIP                     0x03
-#define HZIP_BUF_TYPE_M                                GENMASK(11, 8)
-#define HZIP_PBUFFER                           0x0
-#define HZIP_SGL                               0x1
-
 enum hisi_zip_error_type {
        /* negative compression */
        HZIP_NC_ERR = 0x0d,
@@ -39,7 +25,6 @@ struct hisi_zip_ctrl;
 
 struct hisi_zip {
        struct hisi_qm qm;
-       struct list_head list;
        struct hisi_zip_ctrl *ctrl;
        struct hisi_zip_dfx dfx;
 };
index 01fd6a7..08b4660 100644 (file)
@@ -6,6 +6,20 @@
 #include <linux/scatterlist.h>
 #include "zip.h"
 
+/* hisi_zip_sqe dw3 */
+#define HZIP_BD_STATUS_M                       GENMASK(7, 0)
+/* hisi_zip_sqe dw7 */
+#define HZIP_IN_SGE_DATA_OFFSET_M              GENMASK(23, 0)
+/* hisi_zip_sqe dw8 */
+#define HZIP_OUT_SGE_DATA_OFFSET_M             GENMASK(23, 0)
+/* hisi_zip_sqe dw9 */
+#define HZIP_REQ_TYPE_M                                GENMASK(7, 0)
+#define HZIP_ALG_TYPE_ZLIB                     0x02
+#define HZIP_ALG_TYPE_GZIP                     0x03
+#define HZIP_BUF_TYPE_M                                GENMASK(11, 8)
+#define HZIP_PBUFFER                           0x0
+#define HZIP_SGL                               0x1
+
 #define HZIP_ZLIB_HEAD_SIZE                    2
 #define HZIP_GZIP_HEAD_SIZE                    10
 
 
 #define GZIP_HEAD_FLG_SHIFT                    3
 #define GZIP_HEAD_FEXTRA_SHIFT                 10
-#define GZIP_HEAD_FEXTRA_XLEN                  2
+#define GZIP_HEAD_FEXTRA_XLEN                  2UL
 #define GZIP_HEAD_FHCRC_SIZE                   2
 
-#define HZIP_CTX_Q_NUM                         2
 #define HZIP_GZIP_HEAD_BUF                     256
 #define HZIP_ALG_PRIORITY                      300
 #define HZIP_SGL_SGE_NR                                10
 
 static const u8 zlib_head[HZIP_ZLIB_HEAD_SIZE] = {0x78, 0x9c};
-static const u8 gzip_head[HZIP_GZIP_HEAD_SIZE] = {0x1f, 0x8b, 0x08, 0x0, 0x0,
-                                                 0x0, 0x0, 0x0, 0x0, 0x03};
+static const u8 gzip_head[HZIP_GZIP_HEAD_SIZE] = {
+       0x1f, 0x8b, 0x08, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0, 0x03
+};
+
 enum hisi_zip_alg_type {
        HZIP_ALG_TYPE_COMP = 0,
        HZIP_ALG_TYPE_DECOMP = 1,
 };
 
+enum {
+       HZIP_QPC_COMP,
+       HZIP_QPC_DECOMP,
+       HZIP_CTX_Q_NUM
+};
+
 #define COMP_NAME_TO_TYPE(alg_name)                                    \
        (!strcmp((alg_name), "zlib-deflate") ? HZIP_ALG_TYPE_ZLIB :     \
         !strcmp((alg_name), "gzip") ? HZIP_ALG_TYPE_GZIP : 0)          \
@@ -46,13 +67,13 @@ enum hisi_zip_alg_type {
 
 struct hisi_zip_req {
        struct acomp_req *req;
-       int sskip;
-       int dskip;
+       u32 sskip;
+       u32 dskip;
        struct hisi_acc_hw_sgl *hw_src;
        struct hisi_acc_hw_sgl *hw_dst;
        dma_addr_t dma_src;
        dma_addr_t dma_dst;
-       int req_id;
+       u16 req_id;
 };
 
 struct hisi_zip_req_q {
@@ -71,8 +92,6 @@ struct hisi_zip_qp_ctx {
 };
 
 struct hisi_zip_ctx {
-#define QPC_COMP       0
-#define QPC_DECOMP     1
        struct hisi_zip_qp_ctx qp_ctx[HZIP_CTX_Q_NUM];
 };
 
@@ -116,7 +135,7 @@ static void hisi_zip_config_tag(struct hisi_zip_sqe *sqe, u32 tag)
 
 static void hisi_zip_fill_sqe(struct hisi_zip_sqe *sqe, u8 req_type,
                              dma_addr_t s_addr, dma_addr_t d_addr, u32 slen,
-                             u32 dlen, int sskip, int dskip)
+                             u32 dlen, u32 sskip, u32 dskip)
 {
        memset(sqe, 0, sizeof(struct hisi_zip_sqe));
 
@@ -143,7 +162,7 @@ static int hisi_zip_start_qp(struct hisi_qp *qp, struct hisi_zip_qp_ctx *ctx,
 
        ret = hisi_qm_start_qp(qp, 0);
        if (ret < 0) {
-               dev_err(dev, "start qp failed!\n");
+               dev_err(dev, "failed to start qp (%d)!\n", ret);
                return ret;
        }
 
@@ -166,7 +185,7 @@ static int hisi_zip_ctx_init(struct hisi_zip_ctx *hisi_zip_ctx, u8 req_type, int
 
        ret = zip_create_qps(qps, HZIP_CTX_Q_NUM, node);
        if (ret) {
-               pr_err("Can not create zip qps!\n");
+               pr_err("failed to create zip qps (%d)!\n", ret);
                return -ENODEV;
        }
 
@@ -264,11 +283,11 @@ static int hisi_zip_create_req_q(struct hisi_zip_ctx *ctx)
        return 0;
 
 err_free_loop1:
-       kfree(ctx->qp_ctx[QPC_DECOMP].req_q.req_bitmap);
+       kfree(ctx->qp_ctx[HZIP_QPC_DECOMP].req_q.req_bitmap);
 err_free_loop0:
-       kfree(ctx->qp_ctx[QPC_COMP].req_q.q);
+       kfree(ctx->qp_ctx[HZIP_QPC_COMP].req_q.q);
 err_free_bitmap:
-       kfree(ctx->qp_ctx[QPC_COMP].req_q.req_bitmap);
+       kfree(ctx->qp_ctx[HZIP_QPC_COMP].req_q.req_bitmap);
        return ret;
 }
 
@@ -303,8 +322,8 @@ static int hisi_zip_create_sgl_pool(struct hisi_zip_ctx *ctx)
        return 0;
 
 err_free_sgl_pool0:
-       hisi_acc_free_sgl_pool(&ctx->qp_ctx[QPC_COMP].qp->qm->pdev->dev,
-                              ctx->qp_ctx[QPC_COMP].sgl_pool);
+       hisi_acc_free_sgl_pool(&ctx->qp_ctx[HZIP_QPC_COMP].qp->qm->pdev->dev,
+                              ctx->qp_ctx[HZIP_QPC_COMP].sgl_pool);
        return -ENOMEM;
 }
 
@@ -342,7 +361,6 @@ static void hisi_zip_acomp_cb(struct hisi_qp *qp, void *data)
 
        atomic64_inc(&dfx->recv_cnt);
        status = sqe->dw3 & HZIP_BD_STATUS_M;
-
        if (status != 0 && status != HZIP_NC_ERR) {
                dev_err(dev, "%scompress fail in qp%u: %u, output: %u\n",
                        (qp->alg_type == 0) ? "" : "de", qp->qp_id, status,
@@ -377,19 +395,28 @@ static int hisi_zip_acomp_init(struct crypto_acomp *tfm)
 {
        const char *alg_name = crypto_tfm_alg_name(&tfm->base);
        struct hisi_zip_ctx *ctx = crypto_tfm_ctx(&tfm->base);
+       struct device *dev;
        int ret;
 
        ret = hisi_zip_ctx_init(ctx, COMP_NAME_TO_TYPE(alg_name), tfm->base.node);
-       if (ret)
+       if (ret) {
+               pr_err("failed to init ctx (%d)!\n", ret);
                return ret;
+       }
+
+       dev = &ctx->qp_ctx[0].qp->qm->pdev->dev;
 
        ret = hisi_zip_create_req_q(ctx);
-       if (ret)
+       if (ret) {
+               dev_err(dev, "failed to create request queue (%d)!\n", ret);
                goto err_ctx_exit;
+       }
 
        ret = hisi_zip_create_sgl_pool(ctx);
-       if (ret)
+       if (ret) {
+               dev_err(dev, "failed to create sgl pool (%d)!\n", ret);
                goto err_release_req_q;
+       }
 
        hisi_zip_set_acomp_cb(ctx, hisi_zip_acomp_cb);
 
@@ -419,13 +446,15 @@ static int add_comp_head(struct scatterlist *dst, u8 req_type)
        int ret;
 
        ret = sg_copy_from_buffer(dst, sg_nents(dst), head, head_size);
-       if (ret != head_size)
+       if (ret != head_size) {
+               pr_err("the head size of buffer is wrong (%d)!\n", ret);
                return -ENOMEM;
+       }
 
        return head_size;
 }
 
-static size_t get_gzip_head_size(struct scatterlist *sgl)
+static size_t __maybe_unused get_gzip_head_size(struct scatterlist *sgl)
 {
        char buf[HZIP_GZIP_HEAD_BUF];
 
@@ -434,13 +463,20 @@ static size_t get_gzip_head_size(struct scatterlist *sgl)
        return __get_gzip_head_size(buf);
 }
 
-static size_t get_comp_head_size(struct scatterlist *src, u8 req_type)
+static int  get_comp_head_size(struct acomp_req *acomp_req, u8 req_type)
 {
+       if (!acomp_req->src || !acomp_req->slen)
+               return -EINVAL;
+
+       if ((req_type == HZIP_ALG_TYPE_GZIP) &&
+           (acomp_req->slen < GZIP_HEAD_FEXTRA_SHIFT))
+               return -EINVAL;
+
        switch (req_type) {
        case HZIP_ALG_TYPE_ZLIB:
                return TO_HEAD_SIZE(HZIP_ALG_TYPE_ZLIB);
        case HZIP_ALG_TYPE_GZIP:
-               return get_gzip_head_size(src);
+               return TO_HEAD_SIZE(HZIP_ALG_TYPE_GZIP);
        default:
                pr_err("request type does not support!\n");
                return -EINVAL;
@@ -462,7 +498,7 @@ static struct hisi_zip_req *hisi_zip_create_req(struct acomp_req *req,
        if (req_id >= req_q->size) {
                write_unlock(&req_q->req_lock);
                dev_dbg(&qp_ctx->qp->qm->pdev->dev, "req cache is full!\n");
-               return ERR_PTR(-EBUSY);
+               return ERR_PTR(-EAGAIN);
        }
        set_bit(req_id, req_q->req_bitmap);
 
@@ -492,8 +528,7 @@ static int hisi_zip_do_work(struct hisi_zip_req *req,
        struct hisi_acc_sgl_pool *pool = qp_ctx->sgl_pool;
        struct hisi_zip_dfx *dfx = &qp_ctx->zip_dev->dfx;
        struct hisi_zip_sqe zip_sqe;
-       dma_addr_t input;
-       dma_addr_t output;
+       dma_addr_t input, output;
        int ret;
 
        if (!a_req->src || !a_req->slen || !a_req->dst || !a_req->dlen)
@@ -501,8 +536,11 @@ static int hisi_zip_do_work(struct hisi_zip_req *req,
 
        req->hw_src = hisi_acc_sg_buf_map_to_hw_sgl(dev, a_req->src, pool,
                                                    req->req_id << 1, &input);
-       if (IS_ERR(req->hw_src))
+       if (IS_ERR(req->hw_src)) {
+               dev_err(dev, "failed to map the src buffer to hw sgl (%ld)!\n",
+                       PTR_ERR(req->hw_src));
                return PTR_ERR(req->hw_src);
+       }
        req->dma_src = input;
 
        req->hw_dst = hisi_acc_sg_buf_map_to_hw_sgl(dev, a_req->dst, pool,
@@ -510,6 +548,8 @@ static int hisi_zip_do_work(struct hisi_zip_req *req,
                                                    &output);
        if (IS_ERR(req->hw_dst)) {
                ret = PTR_ERR(req->hw_dst);
+               dev_err(dev, "failed to map the dst buffer to hw slg (%d)!\n",
+                       ret);
                goto err_unmap_input;
        }
        req->dma_dst = output;
@@ -524,6 +564,8 @@ static int hisi_zip_do_work(struct hisi_zip_req *req,
        ret = hisi_qp_send(qp, &zip_sqe);
        if (ret < 0) {
                atomic64_inc(&dfx->send_busy_cnt);
+               ret = -EAGAIN;
+               dev_dbg_ratelimited(dev, "failed to send request!\n");
                goto err_unmap_output;
        }
 
@@ -539,23 +581,29 @@ err_unmap_input:
 static int hisi_zip_acompress(struct acomp_req *acomp_req)
 {
        struct hisi_zip_ctx *ctx = crypto_tfm_ctx(acomp_req->base.tfm);
-       struct hisi_zip_qp_ctx *qp_ctx = &ctx->qp_ctx[QPC_COMP];
+       struct hisi_zip_qp_ctx *qp_ctx = &ctx->qp_ctx[HZIP_QPC_COMP];
+       struct device *dev = &qp_ctx->qp->qm->pdev->dev;
        struct hisi_zip_req *req;
        int head_size;
        int ret;
 
        /* let's output compression head now */
        head_size = add_comp_head(acomp_req->dst, qp_ctx->qp->req_type);
-       if (head_size < 0)
-               return -ENOMEM;
+       if (head_size < 0) {
+               dev_err_ratelimited(dev, "failed to add comp head (%d)!\n",
+                                   head_size);
+               return head_size;
+       }
 
-       req = hisi_zip_create_req(acomp_req, qp_ctx, (size_t)head_size, true);
+       req = hisi_zip_create_req(acomp_req, qp_ctx, head_size, true);
        if (IS_ERR(req))
                return PTR_ERR(req);
 
        ret = hisi_zip_do_work(req, qp_ctx);
-       if (ret != -EINPROGRESS)
+       if (ret != -EINPROGRESS) {
+               dev_info_ratelimited(dev, "failed to do compress (%d)!\n", ret);
                hisi_zip_remove_req(qp_ctx, req);
+       }
 
        return ret;
 }
@@ -563,20 +611,28 @@ static int hisi_zip_acompress(struct acomp_req *acomp_req)
 static int hisi_zip_adecompress(struct acomp_req *acomp_req)
 {
        struct hisi_zip_ctx *ctx = crypto_tfm_ctx(acomp_req->base.tfm);
-       struct hisi_zip_qp_ctx *qp_ctx = &ctx->qp_ctx[QPC_DECOMP];
+       struct hisi_zip_qp_ctx *qp_ctx = &ctx->qp_ctx[HZIP_QPC_DECOMP];
+       struct device *dev = &qp_ctx->qp->qm->pdev->dev;
        struct hisi_zip_req *req;
-       size_t head_size;
-       int ret;
+       int head_size, ret;
 
-       head_size = get_comp_head_size(acomp_req->src, qp_ctx->qp->req_type);
+       head_size = get_comp_head_size(acomp_req, qp_ctx->qp->req_type);
+       if (head_size < 0) {
+               dev_err_ratelimited(dev, "failed to get comp head size (%d)!\n",
+                                   head_size);
+               return head_size;
+       }
 
        req = hisi_zip_create_req(acomp_req, qp_ctx, head_size, false);
        if (IS_ERR(req))
                return PTR_ERR(req);
 
        ret = hisi_zip_do_work(req, qp_ctx);
-       if (ret != -EINPROGRESS)
+       if (ret != -EINPROGRESS) {
+               dev_info_ratelimited(dev, "failed to do decompress (%d)!\n",
+                                    ret);
                hisi_zip_remove_req(qp_ctx, req);
+       }
 
        return ret;
 }
@@ -611,17 +667,17 @@ static struct acomp_alg hisi_zip_acomp_gzip = {
 
 int hisi_zip_register_to_crypto(void)
 {
-       int ret = 0;
+       int ret;
 
        ret = crypto_register_acomp(&hisi_zip_acomp_zlib);
        if (ret) {
-               pr_err("Zlib acomp algorithm registration failed\n");
+               pr_err("failed to register to zlib (%d)!\n", ret);
                return ret;
        }
 
        ret = crypto_register_acomp(&hisi_zip_acomp_gzip);
        if (ret) {
-               pr_err("Gzip acomp algorithm registration failed\n");
+               pr_err("failed to register to gzip (%d)!\n", ret);
                crypto_unregister_acomp(&hisi_zip_acomp_zlib);
        }
 
index e2845b2..4bd2c81 100644 (file)
@@ -17,7 +17,6 @@
 #define PCI_DEVICE_ID_ZIP_PF           0xa250
 #define PCI_DEVICE_ID_ZIP_VF           0xa251
 
-#define HZIP_VF_NUM                    63
 #define HZIP_QUEUE_NUM_V1              4096
 #define HZIP_QUEUE_NUM_V2              1024
 
 #define DECOMP3_ENABLE                 BIT(5)
 #define DECOMP4_ENABLE                 BIT(6)
 #define DECOMP5_ENABLE                 BIT(7)
-#define ALL_COMP_DECOMP_EN             (COMP0_ENABLE | COMP1_ENABLE |  \
+#define HZIP_ALL_COMP_DECOMP_EN                (COMP0_ENABLE | COMP1_ENABLE | \
                                         DECOMP0_ENABLE | DECOMP1_ENABLE | \
                                         DECOMP2_ENABLE | DECOMP3_ENABLE | \
                                         DECOMP4_ENABLE | DECOMP5_ENABLE)
-#define DECOMP_CHECK_ENABLE            BIT(16)
+#define HZIP_DECOMP_CHECK_ENABLE       BIT(16)
 #define HZIP_FSM_MAX_CNT               0x301008
 
 #define HZIP_PORT_ARCA_CHE_0           0x301040
 #define HZIP_PORT_ARCA_CHE_1           0x301044
 #define HZIP_PORT_AWCA_CHE_0           0x301060
 #define HZIP_PORT_AWCA_CHE_1           0x301064
-#define CACHE_ALL_EN                   0xffffffff
+#define HZIP_CACHE_ALL_EN              0xffffffff
 
 #define HZIP_BD_RUSER_32_63            0x301110
 #define HZIP_SGL_RUSER_32_63           0x30111c
@@ -83,7 +82,7 @@
 #define HZIP_PF_DEF_Q_BASE             0
 
 #define HZIP_SOFT_CTRL_CNT_CLR_CE      0x301000
-#define SOFT_CTRL_CNT_CLR_CE_BIT       BIT(0)
+#define HZIP_SOFT_CTRL_CNT_CLR_CE_BIT  BIT(0)
 #define HZIP_SOFT_CTRL_ZIP_CONTROL     0x30100C
 #define HZIP_AXI_SHUTDOWN_ENABLE       BIT(14)
 #define HZIP_WR_PORT                   BIT(11)
 #define HZIP_SQE_MASK_OFFSET           64
 #define HZIP_SQE_MASK_LEN              48
 
+#define HZIP_CNT_CLR_CE_EN             BIT(0)
+#define HZIP_RO_CNT_CLR_CE_EN          BIT(2)
+#define HZIP_RD_CNT_CLR_CE_EN          (HZIP_CNT_CLR_CE_EN | \
+                                        HZIP_RO_CNT_CLR_CE_EN)
+
 static const char hisi_zip_name[] = "hisi_zip";
 static struct dentry *hzip_debugfs_root;
-static struct hisi_qm_list zip_devices;
 
 struct hisi_zip_hw_error {
        u32 int_msk;
@@ -106,6 +109,11 @@ struct zip_dfx_item {
        u32 offset;
 };
 
+static struct hisi_qm_list zip_devices = {
+       .register_to_crypto     = hisi_zip_register_to_crypto,
+       .unregister_from_crypto = hisi_zip_unregister_from_crypto,
+};
+
 static struct zip_dfx_item zip_dfx_files[] = {
        {"send_cnt", offsetof(struct hisi_zip_dfx, send_cnt)},
        {"recv_cnt", offsetof(struct hisi_zip_dfx, recv_cnt)},
@@ -153,7 +161,6 @@ struct ctrl_debug_file {
  */
 struct hisi_zip_ctrl {
        struct hisi_zip *hisi_zip;
-       struct dentry *debug_root;
        struct ctrl_debug_file files[HZIP_DEBUG_FILE_NUM];
 };
 
@@ -216,7 +223,7 @@ static const struct kernel_param_ops pf_q_num_ops = {
 
 static u32 pf_q_num = HZIP_PF_DEF_Q_NUM;
 module_param_cb(pf_q_num, &pf_q_num_ops, &pf_q_num, 0444);
-MODULE_PARM_DESC(pf_q_num, "Number of queues in PF(v1 1-4096, v2 1-1024)");
+MODULE_PARM_DESC(pf_q_num, "Number of queues in PF(v1 2-4096, v2 2-1024)");
 
 static const struct kernel_param_ops vfs_num_ops = {
        .set = vfs_num_set,
@@ -256,15 +263,16 @@ static int hisi_zip_set_user_domain_and_cache(struct hisi_qm *qm)
        /* qm cache */
        writel(AXI_M_CFG, base + QM_AXI_M_CFG);
        writel(AXI_M_CFG_ENABLE, base + QM_AXI_M_CFG_ENABLE);
+
        /* disable FLR triggered by BME(bus master enable) */
        writel(PEH_AXUSER_CFG, base + QM_PEH_AXUSER_CFG);
        writel(PEH_AXUSER_CFG_ENABLE, base + QM_PEH_AXUSER_CFG_ENABLE);
 
        /* cache */
-       writel(CACHE_ALL_EN, base + HZIP_PORT_ARCA_CHE_0);
-       writel(CACHE_ALL_EN, base + HZIP_PORT_ARCA_CHE_1);
-       writel(CACHE_ALL_EN, base + HZIP_PORT_AWCA_CHE_0);
-       writel(CACHE_ALL_EN, base + HZIP_PORT_AWCA_CHE_1);
+       writel(HZIP_CACHE_ALL_EN, base + HZIP_PORT_ARCA_CHE_0);
+       writel(HZIP_CACHE_ALL_EN, base + HZIP_PORT_ARCA_CHE_1);
+       writel(HZIP_CACHE_ALL_EN, base + HZIP_PORT_AWCA_CHE_0);
+       writel(HZIP_CACHE_ALL_EN, base + HZIP_PORT_AWCA_CHE_1);
 
        /* user domain configurations */
        writel(AXUSER_BASE, base + HZIP_BD_RUSER_32_63);
@@ -280,10 +288,10 @@ static int hisi_zip_set_user_domain_and_cache(struct hisi_qm *qm)
        }
 
        /* let's open all compression/decompression cores */
-       writel(DECOMP_CHECK_ENABLE | ALL_COMP_DECOMP_EN,
+       writel(HZIP_DECOMP_CHECK_ENABLE | HZIP_ALL_COMP_DECOMP_EN,
               base + HZIP_CLOCK_GATE_CTRL);
 
-       /* enable sqc writeback */
+       /* enable sqc,cqc writeback */
        writel(SQC_CACHE_ENABLE | CQC_CACHE_ENABLE | SQC_CACHE_WB_ENABLE |
               CQC_CACHE_WB_ENABLE | FIELD_PREP(SQC_CACHE_WB_THRD, 1) |
               FIELD_PREP(CQC_CACHE_WB_THRD, 1), base + QM_CACHE_CTL);
@@ -309,7 +317,7 @@ static void hisi_zip_hw_error_enable(struct hisi_qm *qm)
        writel(0x1, qm->io_base + HZIP_CORE_INT_RAS_CE_ENB);
        writel(0x0, qm->io_base + HZIP_CORE_INT_RAS_FE_ENB);
        writel(HZIP_CORE_INT_RAS_NFE_ENABLE,
-               qm->io_base + HZIP_CORE_INT_RAS_NFE_ENB);
+              qm->io_base + HZIP_CORE_INT_RAS_NFE_ENB);
 
        /* enable ZIP hw error interrupts */
        writel(0, qm->io_base + HZIP_CORE_INT_MASK_REG);
@@ -356,7 +364,7 @@ static int current_qm_write(struct ctrl_debug_file *file, u32 val)
        if (val > qm->vfs_num)
                return -EINVAL;
 
-       /* Calculate curr_qm_qp_num and store */
+       /* According PF or VF Dev ID to calculation curr_qm_qp_num and store */
        if (val == 0) {
                qm->debug.curr_qm_qp_num = qm->qp_num;
        } else {
@@ -387,7 +395,7 @@ static u32 clear_enable_read(struct ctrl_debug_file *file)
        struct hisi_qm *qm = file_to_qm(file);
 
        return readl(qm->io_base + HZIP_SOFT_CTRL_CNT_CLR_CE) &
-              SOFT_CTRL_CNT_CLR_CE_BIT;
+                    HZIP_SOFT_CTRL_CNT_CLR_CE_BIT;
 }
 
 static int clear_enable_write(struct ctrl_debug_file *file, u32 val)
@@ -399,14 +407,14 @@ static int clear_enable_write(struct ctrl_debug_file *file, u32 val)
                return -EINVAL;
 
        tmp = (readl(qm->io_base + HZIP_SOFT_CTRL_CNT_CLR_CE) &
-              ~SOFT_CTRL_CNT_CLR_CE_BIT) | val;
+              ~HZIP_SOFT_CTRL_CNT_CLR_CE_BIT) | val;
        writel(tmp, qm->io_base + HZIP_SOFT_CTRL_CNT_CLR_CE);
 
        return  0;
 }
 
-static ssize_t ctrl_debug_read(struct file *filp, char __user *buf,
-                              size_t count, loff_t *pos)
+static ssize_t hisi_zip_ctrl_debug_read(struct file *filp, char __user *buf,
+                                       size_t count, loff_t *pos)
 {
        struct ctrl_debug_file *file = filp->private_data;
        char tbuf[HZIP_BUF_SIZE];
@@ -426,12 +434,13 @@ static ssize_t ctrl_debug_read(struct file *filp, char __user *buf,
                return -EINVAL;
        }
        spin_unlock_irq(&file->lock);
-       ret = sprintf(tbuf, "%u\n", val);
+       ret = scnprintf(tbuf, sizeof(tbuf), "%u\n", val);
        return simple_read_from_buffer(buf, count, pos, tbuf, ret);
 }
 
-static ssize_t ctrl_debug_write(struct file *filp, const char __user *buf,
-                               size_t count, loff_t *pos)
+static ssize_t hisi_zip_ctrl_debug_write(struct file *filp,
+                                        const char __user *buf,
+                                        size_t count, loff_t *pos)
 {
        struct ctrl_debug_file *file = filp->private_data;
        char tbuf[HZIP_BUF_SIZE];
@@ -480,11 +489,10 @@ err_input:
 static const struct file_operations ctrl_debug_fops = {
        .owner = THIS_MODULE,
        .open = simple_open,
-       .read = ctrl_debug_read,
-       .write = ctrl_debug_write,
+       .read = hisi_zip_ctrl_debug_read,
+       .write = hisi_zip_ctrl_debug_write,
 };
 
-
 static int zip_debugfs_atomic64_set(void *data, u64 val)
 {
        if (val)
@@ -505,10 +513,8 @@ static int zip_debugfs_atomic64_get(void *data, u64 *val)
 DEFINE_DEBUGFS_ATTRIBUTE(zip_atomic64_ops, zip_debugfs_atomic64_get,
                         zip_debugfs_atomic64_set, "%llu\n");
 
-static int hisi_zip_core_debug_init(struct hisi_zip_ctrl *ctrl)
+static int hisi_zip_core_debug_init(struct hisi_qm *qm)
 {
-       struct hisi_zip *hisi_zip = ctrl->hisi_zip;
-       struct hisi_qm *qm = &hisi_zip->qm;
        struct device *dev = &qm->pdev->dev;
        struct debugfs_regset32 *regset;
        struct dentry *tmp_d;
@@ -517,9 +523,10 @@ static int hisi_zip_core_debug_init(struct hisi_zip_ctrl *ctrl)
 
        for (i = 0; i < HZIP_CORE_NUM; i++) {
                if (i < HZIP_COMP_CORE_NUM)
-                       sprintf(buf, "comp_core%d", i);
+                       scnprintf(buf, sizeof(buf), "comp_core%d", i);
                else
-                       sprintf(buf, "decomp_core%d", i - HZIP_COMP_CORE_NUM);
+                       scnprintf(buf, sizeof(buf), "decomp_core%d",
+                                 i - HZIP_COMP_CORE_NUM);
 
                regset = devm_kzalloc(dev, sizeof(*regset), GFP_KERNEL);
                if (!regset)
@@ -529,7 +536,7 @@ static int hisi_zip_core_debug_init(struct hisi_zip_ctrl *ctrl)
                regset->nregs = ARRAY_SIZE(hzip_dfx_regs);
                regset->base = qm->io_base + core_offsets[i];
 
-               tmp_d = debugfs_create_dir(buf, ctrl->debug_root);
+               tmp_d = debugfs_create_dir(buf, qm->debug.debug_root);
                debugfs_create_regset32("regs", 0444, tmp_d, regset);
        }
 
@@ -548,33 +555,32 @@ static void hisi_zip_dfx_debug_init(struct hisi_qm *qm)
        for (i = 0; i < ARRAY_SIZE(zip_dfx_files); i++) {
                data = (atomic64_t *)((uintptr_t)dfx + zip_dfx_files[i].offset);
                debugfs_create_file(zip_dfx_files[i].name,
-                       0644,
-                       tmp_dir,
-                       data,
-                       &zip_atomic64_ops);
+                                   0644, tmp_dir, data,
+                                   &zip_atomic64_ops);
        }
 }
 
-static int hisi_zip_ctrl_debug_init(struct hisi_zip_ctrl *ctrl)
+static int hisi_zip_ctrl_debug_init(struct hisi_qm *qm)
 {
+       struct hisi_zip *zip = container_of(qm, struct hisi_zip, qm);
        int i;
 
        for (i = HZIP_CURRENT_QM; i < HZIP_DEBUG_FILE_NUM; i++) {
-               spin_lock_init(&ctrl->files[i].lock);
-               ctrl->files[i].ctrl = ctrl;
-               ctrl->files[i].index = i;
+               spin_lock_init(&zip->ctrl->files[i].lock);
+               zip->ctrl->files[i].ctrl = zip->ctrl;
+               zip->ctrl->files[i].index = i;
 
                debugfs_create_file(ctrl_debug_file_name[i], 0600,
-                                   ctrl->debug_root, ctrl->files + i,
+                                   qm->debug.debug_root,
+                                   zip->ctrl->files + i,
                                    &ctrl_debug_fops);
        }
 
-       return hisi_zip_core_debug_init(ctrl);
+       return hisi_zip_core_debug_init(qm);
 }
 
-static int hisi_zip_debugfs_init(struct hisi_zip *hisi_zip)
+static int hisi_zip_debugfs_init(struct hisi_qm *qm)
 {
-       struct hisi_qm *qm = &hisi_zip->qm;
        struct device *dev = &qm->pdev->dev;
        struct dentry *dev_d;
        int ret;
@@ -589,8 +595,7 @@ static int hisi_zip_debugfs_init(struct hisi_zip *hisi_zip)
                goto failed_to_create;
 
        if (qm->fun_type == QM_HW_PF) {
-               hisi_zip->ctrl->debug_root = dev_d;
-               ret = hisi_zip_ctrl_debug_init(hisi_zip->ctrl);
+               ret = hisi_zip_ctrl_debug_init(qm);
                if (ret)
                        goto failed_to_create;
        }
@@ -604,25 +609,36 @@ failed_to_create:
        return ret;
 }
 
-static void hisi_zip_debug_regs_clear(struct hisi_zip *hisi_zip)
+/* hisi_zip_debug_regs_clear() - clear the zip debug regs */
+static void hisi_zip_debug_regs_clear(struct hisi_qm *qm)
 {
-       struct hisi_qm *qm = &hisi_zip->qm;
+       int i, j;
 
+       /* clear current_qm */
        writel(0x0, qm->io_base + QM_DFX_MB_CNT_VF);
        writel(0x0, qm->io_base + QM_DFX_DB_CNT_VF);
+
+       /* enable register read_clear bit */
+       writel(HZIP_RD_CNT_CLR_CE_EN, qm->io_base + HZIP_SOFT_CTRL_CNT_CLR_CE);
+       for (i = 0; i < ARRAY_SIZE(core_offsets); i++)
+               for (j = 0; j < ARRAY_SIZE(hzip_dfx_regs); j++)
+                       readl(qm->io_base + core_offsets[i] +
+                             hzip_dfx_regs[j].offset);
+
+       /* disable register read_clear bit */
        writel(0x0, qm->io_base + HZIP_SOFT_CTRL_CNT_CLR_CE);
 
        hisi_qm_debug_regs_clear(qm);
 }
 
-static void hisi_zip_debugfs_exit(struct hisi_zip *hisi_zip)
+static void hisi_zip_debugfs_exit(struct hisi_qm *qm)
 {
-       struct hisi_qm *qm = &hisi_zip->qm;
-
        debugfs_remove_recursive(qm->debug.debug_root);
 
-       if (qm->fun_type == QM_HW_PF)
-               hisi_zip_debug_regs_clear(hisi_zip);
+       if (qm->fun_type == QM_HW_PF) {
+               hisi_zip_debug_regs_clear(qm);
+               qm->debug.curr_qm_qp_num = 0;
+       }
 }
 
 static void hisi_zip_log_hw_error(struct hisi_qm *qm, u32 err_sts)
@@ -634,7 +650,7 @@ static void hisi_zip_log_hw_error(struct hisi_qm *qm, u32 err_sts)
        while (err->msg) {
                if (err->int_msk & err_sts) {
                        dev_err(dev, "%s [error status=0x%x] found\n",
-                                err->msg, err->int_msk);
+                               err->msg, err->int_msk);
 
                        if (err->int_msk & HZIP_CORE_INT_STATUS_M_ECC) {
                                err_val = readl(qm->io_base +
@@ -642,9 +658,6 @@ static void hisi_zip_log_hw_error(struct hisi_qm *qm, u32 err_sts)
                                dev_err(dev, "hisi-zip multi ecc sram num=0x%x\n",
                                        ((err_val >>
                                        HZIP_SRAM_ECC_ERR_NUM_SHIFT) & 0xFF));
-                               dev_err(dev, "hisi-zip multi ecc sram addr=0x%x\n",
-                                       (err_val >>
-                                       HZIP_SRAM_ECC_ERR_ADDR_SHIFT));
                        }
                }
                err++;
@@ -729,7 +742,7 @@ static int hisi_zip_pf_probe_init(struct hisi_zip *hisi_zip)
 
        hisi_zip_set_user_domain_and_cache(qm);
        hisi_qm_dev_err_init(qm);
-       hisi_zip_debug_regs_clear(hisi_zip);
+       hisi_zip_debug_regs_clear(qm);
 
        return 0;
 }
@@ -747,6 +760,7 @@ static int hisi_zip_qm_init(struct hisi_qm *qm, struct pci_dev *pdev)
        if (qm->fun_type == QM_HW_PF) {
                qm->qp_base = HZIP_PF_DEF_Q_BASE;
                qm->qp_num = pf_q_num;
+               qm->debug.curr_qm_qp_num = pf_q_num;
                qm->qm_list = &zip_devices;
        } else if (qm->fun_type == QM_HW_VF && qm->ver == QM_HW_V1) {
                /*
@@ -803,32 +817,44 @@ static int hisi_zip_probe(struct pci_dev *pdev, const struct pci_device_id *id)
 
        ret = hisi_qm_start(qm);
        if (ret)
-               goto err_qm_uninit;
+               goto err_dev_err_uninit;
 
-       ret = hisi_zip_debugfs_init(hisi_zip);
+       ret = hisi_zip_debugfs_init(qm);
        if (ret)
-               dev_err(&pdev->dev, "Failed to init debugfs (%d)!\n", ret);
+               pci_err(pdev, "failed to init debugfs (%d)!\n", ret);
 
-       hisi_qm_add_to_list(qm, &zip_devices);
+       ret = hisi_qm_alg_register(qm, &zip_devices);
+       if (ret < 0) {
+               pci_err(pdev, "failed to register driver to crypto!\n");
+               goto err_qm_stop;
+       }
 
        if (qm->uacce) {
                ret = uacce_register(qm->uacce);
-               if (ret)
-                       goto err_qm_uninit;
+               if (ret) {
+                       pci_err(pdev, "failed to register uacce (%d)!\n", ret);
+                       goto err_qm_alg_unregister;
+               }
        }
 
        if (qm->fun_type == QM_HW_PF && vfs_num > 0) {
                ret = hisi_qm_sriov_enable(pdev, vfs_num);
                if (ret < 0)
-                       goto err_remove_from_list;
+                       goto err_qm_alg_unregister;
        }
 
        return 0;
 
-err_remove_from_list:
-       hisi_qm_del_from_list(qm, &zip_devices);
-       hisi_zip_debugfs_exit(hisi_zip);
-       hisi_qm_stop(qm);
+err_qm_alg_unregister:
+       hisi_qm_alg_unregister(qm, &zip_devices);
+
+err_qm_stop:
+       hisi_zip_debugfs_exit(qm);
+       hisi_qm_stop(qm, QM_NORMAL);
+
+err_dev_err_uninit:
+       hisi_qm_dev_err_uninit(qm);
+
 err_qm_uninit:
        hisi_qm_uninit(qm);
 
@@ -837,18 +863,18 @@ err_qm_uninit:
 
 static void hisi_zip_remove(struct pci_dev *pdev)
 {
-       struct hisi_zip *hisi_zip = pci_get_drvdata(pdev);
-       struct hisi_qm *qm = &hisi_zip->qm;
+       struct hisi_qm *qm = pci_get_drvdata(pdev);
 
-       if (qm->fun_type == QM_HW_PF && qm->vfs_num)
-               hisi_qm_sriov_disable(pdev);
+       hisi_qm_wait_task_finish(qm, &zip_devices);
+       hisi_qm_alg_unregister(qm, &zip_devices);
 
-       hisi_zip_debugfs_exit(hisi_zip);
-       hisi_qm_stop(qm);
+       if (qm->fun_type == QM_HW_PF && qm->vfs_num)
+               hisi_qm_sriov_disable(pdev, qm->is_frozen);
 
+       hisi_zip_debugfs_exit(qm);
+       hisi_qm_stop(qm, QM_NORMAL);
        hisi_qm_dev_err_uninit(qm);
        hisi_qm_uninit(qm);
-       hisi_qm_del_from_list(qm, &zip_devices);
 }
 
 static const struct pci_error_handlers hisi_zip_err_handler = {
@@ -866,6 +892,7 @@ static struct pci_driver hisi_zip_pci_driver = {
        .sriov_configure        = IS_ENABLED(CONFIG_PCI_IOV) ?
                                        hisi_qm_sriov_configure : NULL,
        .err_handler            = &hisi_zip_err_handler,
+       .shutdown               = hisi_qm_dev_shutdown,
 };
 
 static void hisi_zip_register_debugfs(void)
@@ -890,29 +917,15 @@ static int __init hisi_zip_init(void)
 
        ret = pci_register_driver(&hisi_zip_pci_driver);
        if (ret < 0) {
+               hisi_zip_unregister_debugfs();
                pr_err("Failed to register pci driver.\n");
-               goto err_pci;
        }
 
-       ret = hisi_zip_register_to_crypto();
-       if (ret < 0) {
-               pr_err("Failed to register driver to crypto.\n");
-               goto err_crypto;
-       }
-
-       return 0;
-
-err_crypto:
-       pci_unregister_driver(&hisi_zip_pci_driver);
-err_pci:
-       hisi_zip_unregister_debugfs();
-
        return ret;
 }
 
 static void __exit hisi_zip_exit(void)
 {
-       hisi_zip_unregister_from_crypto();
        pci_unregister_driver(&hisi_zip_pci_driver);
        hisi_zip_unregister_debugfs();
 }
index 87226b7..91f555c 100644 (file)
@@ -7,6 +7,7 @@
  */
 
 #include <linux/clk.h>
+#include <linux/dma-mapping.h>
 #include <linux/dmaengine.h>
 #include <linux/interrupt.h>
 #include <linux/io.h>
index fa7398e..eb24184 100644 (file)
@@ -304,6 +304,11 @@ static void eip197_init_firmware(struct safexcel_crypto_priv *priv)
                /* Enable access to all IFPP program memories */
                writel(EIP197_PE_ICE_RAM_CTRL_FPP_PROG_EN,
                       EIP197_PE(priv) + EIP197_PE_ICE_RAM_CTRL(pe));
+
+               /* bypass the OCE, if present */
+               if (priv->flags & EIP197_OCE)
+                       writel(EIP197_DEBUG_OCE_BYPASS, EIP197_PE(priv) +
+                                                       EIP197_PE_DEBUG(pe));
        }
 
 }
@@ -1495,6 +1500,9 @@ static int safexcel_probe_generic(void *pdev,
        hwopt = readl(EIP197_GLOBAL(priv) + EIP197_OPTIONS);
        hiaopt = readl(EIP197_HIA_AIC(priv) + EIP197_HIA_OPTIONS);
 
+       priv->hwconfig.icever = 0;
+       priv->hwconfig.ocever = 0;
+       priv->hwconfig.psever = 0;
        if (priv->flags & SAFEXCEL_HW_EIP197) {
                /* EIP197 */
                peopt = readl(EIP197_PE(priv) + EIP197_PE_OPTIONS(0));
@@ -1513,8 +1521,37 @@ static int safexcel_probe_generic(void *pdev,
                                            EIP197_N_RINGS_MASK;
                if (hiaopt & EIP197_HIA_OPT_HAS_PE_ARB)
                        priv->flags |= EIP197_PE_ARB;
-               if (EIP206_OPT_ICE_TYPE(peopt) == 1)
+               if (EIP206_OPT_ICE_TYPE(peopt) == 1) {
                        priv->flags |= EIP197_ICE;
+                       /* Detect ICE EIP207 class. engine and version */
+                       version = readl(EIP197_PE(priv) +
+                                 EIP197_PE_ICE_VERSION(0));
+                       if (EIP197_REG_LO16(version) != EIP207_VERSION_LE) {
+                               dev_err(dev, "EIP%d: ICE EIP207 not detected.\n",
+                                       peid);
+                               return -ENODEV;
+                       }
+                       priv->hwconfig.icever = EIP197_VERSION_MASK(version);
+               }
+               if (EIP206_OPT_OCE_TYPE(peopt) == 1) {
+                       priv->flags |= EIP197_OCE;
+                       /* Detect EIP96PP packet stream editor and version */
+                       version = readl(EIP197_PE(priv) + EIP197_PE_PSE_VERSION(0));
+                       if (EIP197_REG_LO16(version) != EIP96_VERSION_LE) {
+                               dev_err(dev, "EIP%d: EIP96PP not detected.\n", peid);
+                               return -ENODEV;
+                       }
+                       priv->hwconfig.psever = EIP197_VERSION_MASK(version);
+                       /* Detect OCE EIP207 class. engine and version */
+                       version = readl(EIP197_PE(priv) +
+                                 EIP197_PE_ICE_VERSION(0));
+                       if (EIP197_REG_LO16(version) != EIP207_VERSION_LE) {
+                               dev_err(dev, "EIP%d: OCE EIP207 not detected.\n",
+                                       peid);
+                               return -ENODEV;
+                       }
+                       priv->hwconfig.ocever = EIP197_VERSION_MASK(version);
+               }
                /* If not a full TRC, then assume simple TRC */
                if (!(hwopt & EIP197_OPT_HAS_TRC))
                        priv->flags |= EIP197_SIMPLE_TRC;
@@ -1552,13 +1589,14 @@ static int safexcel_probe_generic(void *pdev,
                                    EIP197_PE_EIP96_OPTIONS(0));
 
        /* Print single info line describing what we just detected */
-       dev_info(priv->dev, "EIP%d:%x(%d,%d,%d,%d)-HIA:%x(%d,%d,%d),PE:%x/%x,alg:%08x\n",
+       dev_info(priv->dev, "EIP%d:%x(%d,%d,%d,%d)-HIA:%x(%d,%d,%d),PE:%x/%x(alg:%08x)/%x/%x/%x\n",
                 peid, priv->hwconfig.hwver, hwctg, priv->hwconfig.hwnumpes,
                 priv->hwconfig.hwnumrings, priv->hwconfig.hwnumraic,
                 priv->hwconfig.hiaver, priv->hwconfig.hwdataw,
                 priv->hwconfig.hwcfsize, priv->hwconfig.hwrfsize,
                 priv->hwconfig.ppver, priv->hwconfig.pever,
-                priv->hwconfig.algo_flags);
+                priv->hwconfig.algo_flags, priv->hwconfig.icever,
+                priv->hwconfig.ocever, priv->hwconfig.psever);
 
        safexcel_configure(priv);
 
index 7c5fe38..9045f2d 100644 (file)
@@ -12,7 +12,9 @@
 #include <crypto/algapi.h>
 #include <crypto/internal/hash.h>
 #include <crypto/sha.h>
+#include <crypto/sha3.h>
 #include <crypto/skcipher.h>
+#include <linux/types.h>
 
 #define EIP197_HIA_VERSION_BE                  0xca35
 #define EIP197_HIA_VERSION_LE                  0x35ca
@@ -22,6 +24,7 @@
 #define EIP96_VERSION_LE                       0x9f60
 #define EIP201_VERSION_LE                      0x36c9
 #define EIP206_VERSION_LE                      0x31ce
+#define EIP207_VERSION_LE                      0x30cf
 #define EIP197_REG_LO16(reg)                   (reg & 0xffff)
 #define EIP197_REG_HI16(reg)                   ((reg >> 16) & 0xffff)
 #define EIP197_VERSION_MASK(reg)               ((reg >> 16) & 0xfff)
@@ -34,6 +37,7 @@
 
 /* EIP206 OPTIONS ENCODING */
 #define EIP206_OPT_ICE_TYPE(n)                 ((n>>8)&3)
+#define EIP206_OPT_OCE_TYPE(n)                 ((n>>10)&3)
 
 /* EIP197 OPTIONS ENCODING */
 #define EIP197_OPT_HAS_TRC                     BIT(31)
 #define EIP197_PE_ICE_FPP_CTRL(n)              (0x0d80 + (0x2000 * (n)))
 #define EIP197_PE_ICE_PPTF_CTRL(n)             (0x0e00 + (0x2000 * (n)))
 #define EIP197_PE_ICE_RAM_CTRL(n)              (0x0ff0 + (0x2000 * (n)))
+#define EIP197_PE_ICE_VERSION(n)               (0x0ffc + (0x2000 * (n)))
 #define EIP197_PE_EIP96_TOKEN_CTRL(n)          (0x1000 + (0x2000 * (n)))
 #define EIP197_PE_EIP96_FUNCTION_EN(n)         (0x1004 + (0x2000 * (n)))
 #define EIP197_PE_EIP96_CONTEXT_CTRL(n)                (0x1008 + (0x2000 * (n)))
 #define EIP197_PE_EIP96_FUNCTION2_EN(n)                (0x1030 + (0x2000 * (n)))
 #define EIP197_PE_EIP96_OPTIONS(n)             (0x13f8 + (0x2000 * (n)))
 #define EIP197_PE_EIP96_VERSION(n)             (0x13fc + (0x2000 * (n)))
+#define EIP197_PE_OCE_VERSION(n)               (0x1bfc + (0x2000 * (n)))
 #define EIP197_PE_OUT_DBUF_THRES(n)            (0x1c00 + (0x2000 * (n)))
 #define EIP197_PE_OUT_TBUF_THRES(n)            (0x1d00 + (0x2000 * (n)))
+#define EIP197_PE_PSE_VERSION(n)               (0x1efc + (0x2000 * (n)))
+#define EIP197_PE_DEBUG(n)                     (0x1ff4 + (0x2000 * (n)))
 #define EIP197_PE_OPTIONS(n)                   (0x1ff8 + (0x2000 * (n)))
 #define EIP197_PE_VERSION(n)                   (0x1ffc + (0x2000 * (n)))
 #define EIP197_MST_CTRL                                0xfff4
 /* EIP197_PE_EIP96_TOKEN_CTRL2 */
 #define EIP197_PE_EIP96_TOKEN_CTRL2_CTX_DONE   BIT(3)
 
+/* EIP197_PE_DEBUG */
+#define EIP197_DEBUG_OCE_BYPASS                        BIT(1)
+
 /* EIP197_STRC_CONFIG */
 #define EIP197_STRC_CONFIG_INIT                        BIT(31)
 #define EIP197_STRC_CONFIG_LARGE_REC(s)                (s<<8)
@@ -776,6 +787,7 @@ enum safexcel_flags {
        EIP197_PE_ARB           = BIT(2),
        EIP197_ICE              = BIT(3),
        EIP197_SIMPLE_TRC       = BIT(4),
+       EIP197_OCE              = BIT(5),
 };
 
 struct safexcel_hwconfig {
@@ -783,7 +795,10 @@ struct safexcel_hwconfig {
        int hwver;
        int hiaver;
        int ppver;
+       int icever;
        int pever;
+       int ocever;
+       int psever;
        int hwdataw;
        int hwcfsize;
        int hwrfsize;
@@ -819,8 +834,16 @@ struct safexcel_context {
                             struct crypto_async_request *req, bool *complete,
                             int *ret);
        struct safexcel_context_record *ctxr;
+       struct safexcel_crypto_priv *priv;
        dma_addr_t ctxr_dma;
 
+       union {
+               __le32 le[SHA3_512_BLOCK_SIZE / 4];
+               __be32 be[SHA3_512_BLOCK_SIZE / 4];
+               u32 word[SHA3_512_BLOCK_SIZE / 4];
+               u8 byte[SHA3_512_BLOCK_SIZE];
+       } ipad, opad;
+
        int ring;
        bool needs_inv;
        bool exit_inv;
@@ -898,8 +921,9 @@ void safexcel_rdr_req_set(struct safexcel_crypto_priv *priv,
 inline struct crypto_async_request *
 safexcel_rdr_req_get(struct safexcel_crypto_priv *priv, int ring);
 void safexcel_inv_complete(struct crypto_async_request *req, int error);
-int safexcel_hmac_setkey(const char *alg, const u8 *key, unsigned int keylen,
-                        void *istate, void *ostate);
+int safexcel_hmac_setkey(struct safexcel_context *base, const u8 *key,
+                        unsigned int keylen, const char *alg,
+                        unsigned int state_sz);
 
 /* available algorithms */
 extern struct safexcel_alg_template safexcel_alg_ecb_des;
index 1ac3253..9bcfb79 100644 (file)
@@ -61,8 +61,6 @@ struct safexcel_cipher_ctx {
        /* All the below is AEAD specific */
        u32 hash_alg;
        u32 state_sz;
-       __be32 ipad[SHA512_DIGEST_SIZE / sizeof(u32)];
-       __be32 opad[SHA512_DIGEST_SIZE / sizeof(u32)];
 
        struct crypto_cipher *hkaes;
        struct crypto_aead *fback;
@@ -375,7 +373,7 @@ static int safexcel_skcipher_aes_setkey(struct crypto_skcipher *ctfm,
 {
        struct crypto_tfm *tfm = crypto_skcipher_tfm(ctfm);
        struct safexcel_cipher_ctx *ctx = crypto_tfm_ctx(tfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        struct crypto_aes_ctx aes;
        int ret, i;
 
@@ -406,11 +404,11 @@ static int safexcel_aead_setkey(struct crypto_aead *ctfm, const u8 *key,
 {
        struct crypto_tfm *tfm = crypto_aead_tfm(ctfm);
        struct safexcel_cipher_ctx *ctx = crypto_tfm_ctx(tfm);
-       struct safexcel_ahash_export_state istate, ostate;
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        struct crypto_authenc_keys keys;
        struct crypto_aes_ctx aes;
        int err = -EINVAL, i;
+       const char *alg;
 
        if (unlikely(crypto_authenc_extractkeys(&keys, key, len)))
                goto badkey;
@@ -465,53 +463,37 @@ static int safexcel_aead_setkey(struct crypto_aead *ctfm, const u8 *key,
        /* Auth key */
        switch (ctx->hash_alg) {
        case CONTEXT_CONTROL_CRYPTO_ALG_SHA1:
-               if (safexcel_hmac_setkey("safexcel-sha1", keys.authkey,
-                                        keys.authkeylen, &istate, &ostate))
-                       goto badkey;
+               alg = "safexcel-sha1";
                break;
        case CONTEXT_CONTROL_CRYPTO_ALG_SHA224:
-               if (safexcel_hmac_setkey("safexcel-sha224", keys.authkey,
-                                        keys.authkeylen, &istate, &ostate))
-                       goto badkey;
+               alg = "safexcel-sha224";
                break;
        case CONTEXT_CONTROL_CRYPTO_ALG_SHA256:
-               if (safexcel_hmac_setkey("safexcel-sha256", keys.authkey,
-                                        keys.authkeylen, &istate, &ostate))
-                       goto badkey;
+               alg = "safexcel-sha256";
                break;
        case CONTEXT_CONTROL_CRYPTO_ALG_SHA384:
-               if (safexcel_hmac_setkey("safexcel-sha384", keys.authkey,
-                                        keys.authkeylen, &istate, &ostate))
-                       goto badkey;
+               alg = "safexcel-sha384";
                break;
        case CONTEXT_CONTROL_CRYPTO_ALG_SHA512:
-               if (safexcel_hmac_setkey("safexcel-sha512", keys.authkey,
-                                        keys.authkeylen, &istate, &ostate))
-                       goto badkey;
+               alg = "safexcel-sha512";
                break;
        case CONTEXT_CONTROL_CRYPTO_ALG_SM3:
-               if (safexcel_hmac_setkey("safexcel-sm3", keys.authkey,
-                                        keys.authkeylen, &istate, &ostate))
-                       goto badkey;
+               alg = "safexcel-sm3";
                break;
        default:
                dev_err(priv->dev, "aead: unsupported hash algorithm\n");
                goto badkey;
        }
 
-       if (priv->flags & EIP197_TRC_CACHE && ctx->base.ctxr_dma &&
-           (memcmp(ctx->ipad, istate.state, ctx->state_sz) ||
-            memcmp(ctx->opad, ostate.state, ctx->state_sz)))
-               ctx->base.needs_inv = true;
+       if (safexcel_hmac_setkey(&ctx->base, keys.authkey, keys.authkeylen,
+                                alg, ctx->state_sz))
+               goto badkey;
 
        /* Now copy the keys into the context */
        for (i = 0; i < keys.enckeylen / sizeof(u32); i++)
                ctx->key[i] = cpu_to_le32(((u32 *)keys.enckey)[i]);
        ctx->key_len = keys.enckeylen;
 
-       memcpy(ctx->ipad, &istate.state, ctx->state_sz);
-       memcpy(ctx->opad, &ostate.state, ctx->state_sz);
-
        memzero_explicit(&keys, sizeof(keys));
        return 0;
 
@@ -525,7 +507,7 @@ static int safexcel_context_control(struct safexcel_cipher_ctx *ctx,
                                    struct safexcel_cipher_req *sreq,
                                    struct safexcel_command_desc *cdesc)
 {
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        int ctrl_size = ctx->key_len / sizeof(u32);
 
        cdesc->control_data.control1 = ctx->mode;
@@ -692,7 +674,7 @@ static int safexcel_send_req(struct crypto_async_request *base, int ring,
        struct skcipher_request *areq = skcipher_request_cast(base);
        struct crypto_skcipher *skcipher = crypto_skcipher_reqtfm(areq);
        struct safexcel_cipher_ctx *ctx = crypto_tfm_ctx(base->tfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        struct safexcel_command_desc *cdesc;
        struct safexcel_command_desc *first_cdesc = NULL;
        struct safexcel_result_desc *rdesc, *first_rdesc = NULL;
@@ -718,10 +700,10 @@ static int safexcel_send_req(struct crypto_async_request *base, int ring,
                        totlen_dst += digestsize;
 
                memcpy(ctx->base.ctxr->data + ctx->key_len / sizeof(u32),
-                      ctx->ipad, ctx->state_sz);
+                      &ctx->base.ipad, ctx->state_sz);
                if (!ctx->xcm)
                        memcpy(ctx->base.ctxr->data + (ctx->key_len +
-                              ctx->state_sz) / sizeof(u32), ctx->opad,
+                              ctx->state_sz) / sizeof(u32), &ctx->base.opad,
                               ctx->state_sz);
        } else if ((ctx->mode == CONTEXT_CONTROL_CRYPTO_MODE_CBC) &&
                   (sreq->direction == SAFEXCEL_DECRYPT)) {
@@ -1020,7 +1002,7 @@ static int safexcel_cipher_send_inv(struct crypto_async_request *base,
                                    int ring, int *commands, int *results)
 {
        struct safexcel_cipher_ctx *ctx = crypto_tfm_ctx(base->tfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        int ret;
 
        ret = safexcel_invalidate_cache(base, priv, ctx->base.ctxr_dma, ring);
@@ -1039,7 +1021,7 @@ static int safexcel_skcipher_send(struct crypto_async_request *async, int ring,
        struct skcipher_request *req = skcipher_request_cast(async);
        struct safexcel_cipher_ctx *ctx = crypto_tfm_ctx(req->base.tfm);
        struct safexcel_cipher_req *sreq = skcipher_request_ctx(req);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        int ret;
 
        BUG_ON(!(priv->flags & EIP197_TRC_CACHE) && sreq->needs_inv);
@@ -1072,7 +1054,7 @@ static int safexcel_aead_send(struct crypto_async_request *async, int ring,
        struct crypto_aead *tfm = crypto_aead_reqtfm(req);
        struct safexcel_cipher_ctx *ctx = crypto_tfm_ctx(req->base.tfm);
        struct safexcel_cipher_req *sreq = aead_request_ctx(req);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        int ret;
 
        BUG_ON(!(priv->flags & EIP197_TRC_CACHE) && sreq->needs_inv);
@@ -1094,7 +1076,7 @@ static int safexcel_cipher_exit_inv(struct crypto_tfm *tfm,
                                    struct safexcel_inv_result *result)
 {
        struct safexcel_cipher_ctx *ctx = crypto_tfm_ctx(tfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        int ring = ctx->base.ring;
 
        init_completion(&result->completion);
@@ -1157,7 +1139,7 @@ static int safexcel_queue_req(struct crypto_async_request *base,
                        enum safexcel_cipher_direction dir)
 {
        struct safexcel_cipher_ctx *ctx = crypto_tfm_ctx(base->tfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        int ret, ring;
 
        sreq->needs_inv = false;
@@ -1211,7 +1193,7 @@ static int safexcel_skcipher_cra_init(struct crypto_tfm *tfm)
        crypto_skcipher_set_reqsize(__crypto_skcipher_cast(tfm),
                                    sizeof(struct safexcel_cipher_req));
 
-       ctx->priv = tmpl->priv;
+       ctx->base.priv = tmpl->priv;
 
        ctx->base.send = safexcel_skcipher_send;
        ctx->base.handle_result = safexcel_skcipher_handle_result;
@@ -1237,7 +1219,7 @@ static int safexcel_cipher_cra_exit(struct crypto_tfm *tfm)
 static void safexcel_skcipher_cra_exit(struct crypto_tfm *tfm)
 {
        struct safexcel_cipher_ctx *ctx = crypto_tfm_ctx(tfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        int ret;
 
        if (safexcel_cipher_cra_exit(tfm))
@@ -1257,7 +1239,7 @@ static void safexcel_skcipher_cra_exit(struct crypto_tfm *tfm)
 static void safexcel_aead_cra_exit(struct crypto_tfm *tfm)
 {
        struct safexcel_cipher_ctx *ctx = crypto_tfm_ctx(tfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        int ret;
 
        if (safexcel_cipher_cra_exit(tfm))
@@ -1431,7 +1413,7 @@ static int safexcel_skcipher_aesctr_setkey(struct crypto_skcipher *ctfm,
 {
        struct crypto_tfm *tfm = crypto_skcipher_tfm(ctfm);
        struct safexcel_cipher_ctx *ctx = crypto_tfm_ctx(tfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        struct crypto_aes_ctx aes;
        int ret, i;
        unsigned int keylen;
@@ -1505,7 +1487,7 @@ static int safexcel_des_setkey(struct crypto_skcipher *ctfm, const u8 *key,
                               unsigned int len)
 {
        struct safexcel_cipher_ctx *ctx = crypto_skcipher_ctx(ctfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        int ret;
 
        ret = verify_skcipher_des_key(ctfm, key);
@@ -1604,7 +1586,7 @@ static int safexcel_des3_ede_setkey(struct crypto_skcipher *ctfm,
                                   const u8 *key, unsigned int len)
 {
        struct safexcel_cipher_ctx *ctx = crypto_skcipher_ctx(ctfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        int err;
 
        err = verify_skcipher_des3_key(ctfm, key);
@@ -1723,7 +1705,7 @@ static int safexcel_aead_cra_init(struct crypto_tfm *tfm)
        crypto_aead_set_reqsize(__crypto_aead_cast(tfm),
                                sizeof(struct safexcel_cipher_req));
 
-       ctx->priv = tmpl->priv;
+       ctx->base.priv = tmpl->priv;
 
        ctx->alg  = SAFEXCEL_AES; /* default */
        ctx->blocksz = AES_BLOCK_SIZE;
@@ -2466,7 +2448,7 @@ static int safexcel_skcipher_aesxts_setkey(struct crypto_skcipher *ctfm,
 {
        struct crypto_tfm *tfm = crypto_skcipher_tfm(ctfm);
        struct safexcel_cipher_ctx *ctx = crypto_tfm_ctx(tfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        struct crypto_aes_ctx aes;
        int ret, i;
        unsigned int keylen;
@@ -2580,7 +2562,7 @@ static int safexcel_aead_gcm_setkey(struct crypto_aead *ctfm, const u8 *key,
 {
        struct crypto_tfm *tfm = crypto_aead_tfm(ctfm);
        struct safexcel_cipher_ctx *ctx = crypto_tfm_ctx(tfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        struct crypto_aes_ctx aes;
        u32 hashkey[AES_BLOCK_SIZE >> 2];
        int ret, i;
@@ -2618,7 +2600,7 @@ static int safexcel_aead_gcm_setkey(struct crypto_aead *ctfm, const u8 *key,
 
        if (priv->flags & EIP197_TRC_CACHE && ctx->base.ctxr_dma) {
                for (i = 0; i < AES_BLOCK_SIZE / sizeof(u32); i++) {
-                       if (be32_to_cpu(ctx->ipad[i]) != hashkey[i]) {
+                       if (be32_to_cpu(ctx->base.ipad.be[i]) != hashkey[i]) {
                                ctx->base.needs_inv = true;
                                break;
                        }
@@ -2626,7 +2608,7 @@ static int safexcel_aead_gcm_setkey(struct crypto_aead *ctfm, const u8 *key,
        }
 
        for (i = 0; i < AES_BLOCK_SIZE / sizeof(u32); i++)
-               ctx->ipad[i] = cpu_to_be32(hashkey[i]);
+               ctx->base.ipad.be[i] = cpu_to_be32(hashkey[i]);
 
        memzero_explicit(hashkey, AES_BLOCK_SIZE);
        memzero_explicit(&aes, sizeof(aes));
@@ -2693,7 +2675,7 @@ static int safexcel_aead_ccm_setkey(struct crypto_aead *ctfm, const u8 *key,
 {
        struct crypto_tfm *tfm = crypto_aead_tfm(ctfm);
        struct safexcel_cipher_ctx *ctx = crypto_tfm_ctx(tfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        struct crypto_aes_ctx aes;
        int ret, i;
 
@@ -2714,7 +2696,7 @@ static int safexcel_aead_ccm_setkey(struct crypto_aead *ctfm, const u8 *key,
 
        for (i = 0; i < len / sizeof(u32); i++) {
                ctx->key[i] = cpu_to_le32(aes.key_enc[i]);
-               ctx->ipad[i + 2 * AES_BLOCK_SIZE / sizeof(u32)] =
+               ctx->base.ipad.be[i + 2 * AES_BLOCK_SIZE / sizeof(u32)] =
                        cpu_to_be32(aes.key_enc[i]);
        }
 
@@ -2815,7 +2797,7 @@ struct safexcel_alg_template safexcel_alg_ccm = {
 static void safexcel_chacha20_setkey(struct safexcel_cipher_ctx *ctx,
                                     const u8 *key)
 {
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
 
        if (priv->flags & EIP197_TRC_CACHE && ctx->base.ctxr_dma)
                if (memcmp(ctx->key, key, CHACHA_KEY_SIZE))
@@ -3084,7 +3066,7 @@ static int safexcel_skcipher_sm4_setkey(struct crypto_skcipher *ctfm,
 {
        struct crypto_tfm *tfm = crypto_skcipher_tfm(ctfm);
        struct safexcel_cipher_ctx *ctx = crypto_tfm_ctx(tfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
 
        if (len != SM4_KEY_SIZE)
                return -EINVAL;
index 16a4679..56d5ccb 100644 (file)
@@ -20,7 +20,6 @@
 
 struct safexcel_ahash_ctx {
        struct safexcel_context base;
-       struct safexcel_crypto_priv *priv;
 
        u32 alg;
        u8  key_sz;
@@ -29,9 +28,6 @@ struct safexcel_ahash_ctx {
        bool fb_init_done;
        bool fb_do_setkey;
 
-       __le32 ipad[SHA3_512_BLOCK_SIZE / sizeof(__le32)];
-       __le32 opad[SHA3_512_BLOCK_SIZE / sizeof(__le32)];
-
        struct crypto_cipher *kaes;
        struct crypto_ahash *fback;
        struct crypto_shash *shpre;
@@ -111,7 +107,7 @@ static void safexcel_context_control(struct safexcel_ahash_ctx *ctx,
                                     struct safexcel_ahash_req *req,
                                     struct safexcel_command_desc *cdesc)
 {
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        u64 count = 0;
 
        cdesc->control_data.control0 = ctx->alg;
@@ -124,7 +120,7 @@ static void safexcel_context_control(struct safexcel_ahash_ctx *ctx,
         */
        if (unlikely(req->digest == CONTEXT_CONTROL_DIGEST_XCM)) {
                if (req->xcbcmac)
-                       memcpy(ctx->base.ctxr->data, ctx->ipad, ctx->key_sz);
+                       memcpy(ctx->base.ctxr->data, &ctx->base.ipad, ctx->key_sz);
                else
                        memcpy(ctx->base.ctxr->data, req->state, req->state_sz);
 
@@ -206,7 +202,7 @@ static void safexcel_context_control(struct safexcel_ahash_ctx *ctx,
                } else { /* HMAC */
                        /* Need outer digest for HMAC finalization */
                        memcpy(ctx->base.ctxr->data + (req->state_sz >> 2),
-                              ctx->opad, req->state_sz);
+                              &ctx->base.opad, req->state_sz);
 
                        /* Single pass HMAC - no digest count */
                        cdesc->control_data.control0 |=
@@ -275,7 +271,7 @@ static int safexcel_handle_req_result(struct safexcel_crypto_priv *priv,
                        memcpy(sreq->cache, sreq->state,
                               crypto_ahash_digestsize(ahash));
 
-                       memcpy(sreq->state, ctx->opad, sreq->digest_sz);
+                       memcpy(sreq->state, &ctx->base.opad, sreq->digest_sz);
 
                        sreq->len = sreq->block_sz +
                                    crypto_ahash_digestsize(ahash);
@@ -316,7 +312,7 @@ static int safexcel_ahash_send_req(struct crypto_async_request *async, int ring,
        struct ahash_request *areq = ahash_request_cast(async);
        struct safexcel_ahash_req *req = ahash_request_ctx(areq);
        struct safexcel_ahash_ctx *ctx = crypto_ahash_ctx(crypto_ahash_reqtfm(areq));
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        struct safexcel_command_desc *cdesc, *first_cdesc = NULL;
        struct safexcel_result_desc *rdesc;
        struct scatterlist *sg;
@@ -379,10 +375,14 @@ static int safexcel_ahash_send_req(struct crypto_async_request *async, int ring,
                                // 10- padding for XCBCMAC & CMAC
                                req->cache[cache_len + skip] = 0x80;
                                // HW will use K2 iso K3 - compensate!
-                               for (i = 0; i < AES_BLOCK_SIZE / sizeof(u32); i++)
-                                       ((__be32 *)req->cache)[i] ^=
-                                         cpu_to_be32(le32_to_cpu(
-                                           ctx->ipad[i] ^ ctx->ipad[i + 4]));
+                               for (i = 0; i < AES_BLOCK_SIZE / 4; i++) {
+                                       u32 *cache = (void *)req->cache;
+                                       u32 *ipad = ctx->base.ipad.word;
+                                       u32 x;
+
+                                       x = ipad[i] ^ ipad[i + 4];
+                                       cache[i] ^= swab(x);
+                               }
                        }
                        cache_len = AES_BLOCK_SIZE;
                        queued = queued + extra;
@@ -591,7 +591,7 @@ static int safexcel_ahash_send_inv(struct crypto_async_request *async,
        struct safexcel_ahash_ctx *ctx = crypto_ahash_ctx(crypto_ahash_reqtfm(areq));
        int ret;
 
-       ret = safexcel_invalidate_cache(async, ctx->priv,
+       ret = safexcel_invalidate_cache(async, ctx->base.priv,
                                        ctx->base.ctxr_dma, ring);
        if (unlikely(ret))
                return ret;
@@ -620,7 +620,7 @@ static int safexcel_ahash_send(struct crypto_async_request *async,
 static int safexcel_ahash_exit_inv(struct crypto_tfm *tfm)
 {
        struct safexcel_ahash_ctx *ctx = crypto_tfm_ctx(tfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        EIP197_REQUEST_ON_STACK(req, ahash, EIP197_AHASH_REQ_SIZE);
        struct safexcel_ahash_req *rctx = ahash_request_ctx(req);
        struct safexcel_inv_result result = {};
@@ -688,7 +688,7 @@ static int safexcel_ahash_enqueue(struct ahash_request *areq)
 {
        struct safexcel_ahash_ctx *ctx = crypto_ahash_ctx(crypto_ahash_reqtfm(areq));
        struct safexcel_ahash_req *req = ahash_request_ctx(areq);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        int ret, ring;
 
        req->needs_inv = false;
@@ -702,7 +702,7 @@ static int safexcel_ahash_enqueue(struct ahash_request *areq)
                     /* invalidate for HMAC finish with odigest changed */
                     (req->finish && req->hmac &&
                      memcmp(ctx->base.ctxr->data + (req->state_sz>>2),
-                            ctx->opad, req->state_sz))))
+                            &ctx->base.opad, req->state_sz))))
                        /*
                         * We're still setting needs_inv here, even though it is
                         * cleared right away, because the needs_inv flag can be
@@ -803,7 +803,7 @@ static int safexcel_ahash_final(struct ahash_request *areq)
                            ctx->alg == CONTEXT_CONTROL_CRYPTO_ALG_MD5 &&
                            req->len == sizeof(u32) && !areq->nbytes)) {
                /* Zero length CRC32 */
-               memcpy(areq->result, ctx->ipad, sizeof(u32));
+               memcpy(areq->result, &ctx->base.ipad, sizeof(u32));
                return 0;
        } else if (unlikely(ctx->cbcmac && req->len == AES_BLOCK_SIZE &&
                            !areq->nbytes)) {
@@ -815,9 +815,12 @@ static int safexcel_ahash_final(struct ahash_request *areq)
                /* Zero length (X)CBC/CMAC */
                int i;
 
-               for (i = 0; i < AES_BLOCK_SIZE / sizeof(u32); i++)
-                       ((__be32 *)areq->result)[i] =
-                               cpu_to_be32(le32_to_cpu(ctx->ipad[i + 4]));//K3
+               for (i = 0; i < AES_BLOCK_SIZE / sizeof(u32); i++) {
+                       u32 *result = (void *)areq->result;
+
+                       /* K3 */
+                       result[i] = swab(ctx->base.ipad.word[i + 4]);
+               }
                areq->result[0] ^= 0x80;                        // 10- padding
                crypto_cipher_encrypt_one(ctx->kaes, areq->result, areq->result);
                return 0;
@@ -917,7 +920,7 @@ static int safexcel_ahash_cra_init(struct crypto_tfm *tfm)
                container_of(__crypto_ahash_alg(tfm->__crt_alg),
                             struct safexcel_alg_template, alg.ahash);
 
-       ctx->priv = tmpl->priv;
+       ctx->base.priv = tmpl->priv;
        ctx->base.send = safexcel_ahash_send;
        ctx->base.handle_result = safexcel_handle_result;
        ctx->fb_do_setkey = false;
@@ -956,7 +959,7 @@ static int safexcel_sha1_digest(struct ahash_request *areq)
 static void safexcel_ahash_cra_exit(struct crypto_tfm *tfm)
 {
        struct safexcel_ahash_ctx *ctx = crypto_tfm_ctx(tfm);
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = ctx->base.priv;
        int ret;
 
        /* context not allocated, skip invalidation */
@@ -1012,7 +1015,7 @@ static int safexcel_hmac_sha1_init(struct ahash_request *areq)
        memset(req, 0, sizeof(*req));
 
        /* Start from ipad precompute */
-       memcpy(req->state, ctx->ipad, SHA1_DIGEST_SIZE);
+       memcpy(req->state, &ctx->base.ipad, SHA1_DIGEST_SIZE);
        /* Already processed the key^ipad part now! */
        req->len        = SHA1_BLOCK_SIZE;
        req->processed  = SHA1_BLOCK_SIZE;
@@ -1082,8 +1085,7 @@ static int safexcel_hmac_init_pad(struct ahash_request *areq,
                }
 
                /* Avoid leaking */
-               memzero_explicit(keydup, keylen);
-               kfree(keydup);
+               kfree_sensitive(keydup);
 
                if (ret)
                        return ret;
@@ -1135,8 +1137,9 @@ static int safexcel_hmac_init_iv(struct ahash_request *areq,
        return crypto_ahash_export(areq, state);
 }
 
-int safexcel_hmac_setkey(const char *alg, const u8 *key, unsigned int keylen,
-                        void *istate, void *ostate)
+static int __safexcel_hmac_setkey(const char *alg, const u8 *key,
+                                 unsigned int keylen,
+                                 void *istate, void *ostate)
 {
        struct ahash_request *areq;
        struct crypto_ahash *tfm;
@@ -1185,30 +1188,38 @@ free_ahash:
        return ret;
 }
 
-static int safexcel_hmac_alg_setkey(struct crypto_ahash *tfm, const u8 *key,
-                                   unsigned int keylen, const char *alg,
-                                   unsigned int state_sz)
+int safexcel_hmac_setkey(struct safexcel_context *base, const u8 *key,
+                        unsigned int keylen, const char *alg,
+                        unsigned int state_sz)
 {
-       struct safexcel_ahash_ctx *ctx = crypto_tfm_ctx(crypto_ahash_tfm(tfm));
-       struct safexcel_crypto_priv *priv = ctx->priv;
+       struct safexcel_crypto_priv *priv = base->priv;
        struct safexcel_ahash_export_state istate, ostate;
        int ret;
 
-       ret = safexcel_hmac_setkey(alg, key, keylen, &istate, &ostate);
+       ret = __safexcel_hmac_setkey(alg, key, keylen, &istate, &ostate);
        if (ret)
                return ret;
 
-       if (priv->flags & EIP197_TRC_CACHE && ctx->base.ctxr &&
-           (memcmp(ctx->ipad, istate.state, state_sz) ||
-            memcmp(ctx->opad, ostate.state, state_sz)))
-               ctx->base.needs_inv = true;
+       if (priv->flags & EIP197_TRC_CACHE && base->ctxr &&
+           (memcmp(&base->ipad, istate.state, state_sz) ||
+            memcmp(&base->opad, ostate.state, state_sz)))
+               base->needs_inv = true;
 
-       memcpy(ctx->ipad, &istate.state, state_sz);
-       memcpy(ctx->opad, &ostate.state, state_sz);
+       memcpy(&base->ipad, &istate.state, state_sz);
+       memcpy(&base->opad, &ostate.state, state_sz);
 
        return 0;
 }
 
+static int safexcel_hmac_alg_setkey(struct crypto_ahash *tfm, const u8 *key,
+                                   unsigned int keylen, const char *alg,
+                                   unsigned int state_sz)
+{
+       struct safexcel_ahash_ctx *ctx = crypto_ahash_ctx(tfm);
+
+       return safexcel_hmac_setkey(&ctx->base, key, keylen, alg, state_sz);
+}
+
 static int safexcel_hmac_sha1_setkey(struct crypto_ahash *tfm, const u8 *key,
                                     unsigned int keylen)
 {
@@ -1377,7 +1388,7 @@ static int safexcel_hmac_sha224_init(struct ahash_request *areq)
        memset(req, 0, sizeof(*req));
 
        /* Start from ipad precompute */
-       memcpy(req->state, ctx->ipad, SHA256_DIGEST_SIZE);
+       memcpy(req->state, &ctx->base.ipad, SHA256_DIGEST_SIZE);
        /* Already processed the key^ipad part now! */
        req->len        = SHA256_BLOCK_SIZE;
        req->processed  = SHA256_BLOCK_SIZE;
@@ -1449,7 +1460,7 @@ static int safexcel_hmac_sha256_init(struct ahash_request *areq)
        memset(req, 0, sizeof(*req));
 
        /* Start from ipad precompute */
-       memcpy(req->state, ctx->ipad, SHA256_DIGEST_SIZE);
+       memcpy(req->state, &ctx->base.ipad, SHA256_DIGEST_SIZE);
        /* Already processed the key^ipad part now! */
        req->len        = SHA256_BLOCK_SIZE;
        req->processed  = SHA256_BLOCK_SIZE;
@@ -1635,7 +1646,7 @@ static int safexcel_hmac_sha512_init(struct ahash_request *areq)
        memset(req, 0, sizeof(*req));
 
        /* Start from ipad precompute */
-       memcpy(req->state, ctx->ipad, SHA512_DIGEST_SIZE);
+       memcpy(req->state, &ctx->base.ipad, SHA512_DIGEST_SIZE);
        /* Already processed the key^ipad part now! */
        req->len        = SHA512_BLOCK_SIZE;
        req->processed  = SHA512_BLOCK_SIZE;
@@ -1707,7 +1718,7 @@ static int safexcel_hmac_sha384_init(struct ahash_request *areq)
        memset(req, 0, sizeof(*req));
 
        /* Start from ipad precompute */
-       memcpy(req->state, ctx->ipad, SHA512_DIGEST_SIZE);
+       memcpy(req->state, &ctx->base.ipad, SHA512_DIGEST_SIZE);
        /* Already processed the key^ipad part now! */
        req->len        = SHA512_BLOCK_SIZE;
        req->processed  = SHA512_BLOCK_SIZE;
@@ -1829,7 +1840,7 @@ static int safexcel_hmac_md5_init(struct ahash_request *areq)
        memset(req, 0, sizeof(*req));
 
        /* Start from ipad precompute */
-       memcpy(req->state, ctx->ipad, MD5_DIGEST_SIZE);
+       memcpy(req->state, &ctx->base.ipad, MD5_DIGEST_SIZE);
        /* Already processed the key^ipad part now! */
        req->len        = MD5_HMAC_BLOCK_SIZE;
        req->processed  = MD5_HMAC_BLOCK_SIZE;
@@ -1900,7 +1911,7 @@ static int safexcel_crc32_cra_init(struct crypto_tfm *tfm)
        int ret = safexcel_ahash_cra_init(tfm);
 
        /* Default 'key' is all zeroes */
-       memset(ctx->ipad, 0, sizeof(u32));
+       memset(&ctx->base.ipad, 0, sizeof(u32));
        return ret;
 }
 
@@ -1912,7 +1923,7 @@ static int safexcel_crc32_init(struct ahash_request *areq)
        memset(req, 0, sizeof(*req));
 
        /* Start from loaded key */
-       req->state[0]   = (__force __le32)le32_to_cpu(~ctx->ipad[0]);
+       req->state[0]   = cpu_to_le32(~ctx->base.ipad.word[0]);
        /* Set processed to non-zero to enable invalidation detection */
        req->len        = sizeof(u32);
        req->processed  = sizeof(u32);
@@ -1934,7 +1945,7 @@ static int safexcel_crc32_setkey(struct crypto_ahash *tfm, const u8 *key,
        if (keylen != sizeof(u32))
                return -EINVAL;
 
-       memcpy(ctx->ipad, key, sizeof(u32));
+       memcpy(&ctx->base.ipad, key, sizeof(u32));
        return 0;
 }
 
@@ -1984,7 +1995,7 @@ static int safexcel_cbcmac_init(struct ahash_request *areq)
        memset(req, 0, sizeof(*req));
 
        /* Start from loaded keys */
-       memcpy(req->state, ctx->ipad, ctx->key_sz);
+       memcpy(req->state, &ctx->base.ipad, ctx->key_sz);
        /* Set processed to non-zero to enable invalidation detection */
        req->len        = AES_BLOCK_SIZE;
        req->processed  = AES_BLOCK_SIZE;
@@ -2009,9 +2020,9 @@ static int safexcel_cbcmac_setkey(struct crypto_ahash *tfm, const u8 *key,
        if (ret)
                return ret;
 
-       memset(ctx->ipad, 0, 2 * AES_BLOCK_SIZE);
+       memset(&ctx->base.ipad, 0, 2 * AES_BLOCK_SIZE);
        for (i = 0; i < len / sizeof(u32); i++)
-               ctx->ipad[i + 8] = (__force __le32)cpu_to_be32(aes.key_enc[i]);
+               ctx->base.ipad.be[i + 8] = cpu_to_be32(aes.key_enc[i]);
 
        if (len == AES_KEYSIZE_192) {
                ctx->alg    = CONTEXT_CONTROL_CRYPTO_ALG_XCBC192;
@@ -2093,8 +2104,7 @@ static int safexcel_xcbcmac_setkey(struct crypto_ahash *tfm, const u8 *key,
        crypto_cipher_encrypt_one(ctx->kaes, (u8 *)key_tmp + AES_BLOCK_SIZE,
                "\x3\x3\x3\x3\x3\x3\x3\x3\x3\x3\x3\x3\x3\x3\x3\x3");
        for (i = 0; i < 3 * AES_BLOCK_SIZE / sizeof(u32); i++)
-               ctx->ipad[i] =
-                       cpu_to_le32((__force u32)cpu_to_be32(key_tmp[i]));
+               ctx->base.ipad.word[i] = swab(key_tmp[i]);
 
        crypto_cipher_clear_flags(ctx->kaes, CRYPTO_TFM_REQ_MASK);
        crypto_cipher_set_flags(ctx->kaes, crypto_ahash_get_flags(tfm) &
@@ -2177,8 +2187,7 @@ static int safexcel_cmac_setkey(struct crypto_ahash *tfm, const u8 *key,
                return ret;
 
        for (i = 0; i < len / sizeof(u32); i++)
-               ctx->ipad[i + 8] =
-                       cpu_to_le32((__force u32)cpu_to_be32(aes.key_enc[i]));
+               ctx->base.ipad.word[i + 8] = swab(aes.key_enc[i]);
 
        /* precompute the CMAC key material */
        crypto_cipher_clear_flags(ctx->kaes, CRYPTO_TFM_REQ_MASK);
@@ -2209,7 +2218,7 @@ static int safexcel_cmac_setkey(struct crypto_ahash *tfm, const u8 *key,
        /* end of code borrowed from crypto/cmac.c */
 
        for (i = 0; i < 2 * AES_BLOCK_SIZE / sizeof(u32); i++)
-               ctx->ipad[i] = (__force __le32)cpu_to_be32(((u32 *)consts)[i]);
+               ctx->base.ipad.be[i] = cpu_to_be32(((u32 *)consts)[i]);
 
        if (len == AES_KEYSIZE_192) {
                ctx->alg    = CONTEXT_CONTROL_CRYPTO_ALG_XCBC192;
@@ -2331,7 +2340,7 @@ static int safexcel_hmac_sm3_init(struct ahash_request *areq)
        memset(req, 0, sizeof(*req));
 
        /* Start from ipad precompute */
-       memcpy(req->state, ctx->ipad, SM3_DIGEST_SIZE);
+       memcpy(req->state, &ctx->base.ipad, SM3_DIGEST_SIZE);
        /* Already processed the key^ipad part now! */
        req->len        = SM3_BLOCK_SIZE;
        req->processed  = SM3_BLOCK_SIZE;
@@ -2424,11 +2433,11 @@ static int safexcel_sha3_fbcheck(struct ahash_request *req)
                                /* Set fallback cipher HMAC key */
                                u8 key[SHA3_224_BLOCK_SIZE];
 
-                               memcpy(key, ctx->ipad,
+                               memcpy(key, &ctx->base.ipad,
                                       crypto_ahash_blocksize(ctx->fback) / 2);
                                memcpy(key +
                                       crypto_ahash_blocksize(ctx->fback) / 2,
-                                      ctx->opad,
+                                      &ctx->base.opad,
                                       crypto_ahash_blocksize(ctx->fback) / 2);
                                ret = crypto_ahash_setkey(ctx->fback, key,
                                        crypto_ahash_blocksize(ctx->fback));
@@ -2801,7 +2810,7 @@ static int safexcel_hmac_sha3_setkey(struct crypto_ahash *tfm, const u8 *key,
                 * first using our fallback cipher
                 */
                ret = crypto_shash_digest(ctx->shdesc, key, keylen,
-                                         (u8 *)ctx->ipad);
+                                         ctx->base.ipad.byte);
                keylen = crypto_shash_digestsize(ctx->shpre);
 
                /*
@@ -2810,8 +2819,8 @@ static int safexcel_hmac_sha3_setkey(struct crypto_ahash *tfm, const u8 *key,
                 */
                if (keylen > crypto_ahash_blocksize(tfm) / 2)
                        /* Buffers overlap, need to use memmove iso memcpy! */
-                       memmove(ctx->opad,
-                               (u8 *)ctx->ipad +
+                       memmove(&ctx->base.opad,
+                               ctx->base.ipad.byte +
                                        crypto_ahash_blocksize(tfm) / 2,
                                keylen - crypto_ahash_blocksize(tfm) / 2);
        } else {
@@ -2821,11 +2830,11 @@ static int safexcel_hmac_sha3_setkey(struct crypto_ahash *tfm, const u8 *key,
                 * to match the existing HMAC driver infrastructure.
                 */
                if (keylen <= crypto_ahash_blocksize(tfm) / 2) {
-                       memcpy(ctx->ipad, key, keylen);
+                       memcpy(&ctx->base.ipad, key, keylen);
                } else {
-                       memcpy(ctx->ipad, key,
+                       memcpy(&ctx->base.ipad, key,
                               crypto_ahash_blocksize(tfm) / 2);
-                       memcpy(ctx->opad,
+                       memcpy(&ctx->base.opad,
                               key + crypto_ahash_blocksize(tfm) / 2,
                               keylen - crypto_ahash_blocksize(tfm) / 2);
                }
@@ -2833,11 +2842,11 @@ static int safexcel_hmac_sha3_setkey(struct crypto_ahash *tfm, const u8 *key,
 
        /* Pad key with zeroes */
        if (keylen <= crypto_ahash_blocksize(tfm) / 2) {
-               memset((u8 *)ctx->ipad + keylen, 0,
+               memset(ctx->base.ipad.byte + keylen, 0,
                       crypto_ahash_blocksize(tfm) / 2 - keylen);
-               memset(ctx->opad, 0, crypto_ahash_blocksize(tfm) / 2);
+               memset(&ctx->base.opad, 0, crypto_ahash_blocksize(tfm) / 2);
        } else {
-               memset((u8 *)ctx->opad + keylen -
+               memset(ctx->base.opad.byte + keylen -
                       crypto_ahash_blocksize(tfm) / 2, 0,
                       crypto_ahash_blocksize(tfm) - keylen);
        }
@@ -2856,7 +2865,7 @@ static int safexcel_hmac_sha3_224_init(struct ahash_request *areq)
        memset(req, 0, sizeof(*req));
 
        /* Copy (half of) the key */
-       memcpy(req->state, ctx->ipad, SHA3_224_BLOCK_SIZE / 2);
+       memcpy(req->state, &ctx->base.ipad, SHA3_224_BLOCK_SIZE / 2);
        /* Start of HMAC should have len == processed == blocksize */
        req->len        = SHA3_224_BLOCK_SIZE;
        req->processed  = SHA3_224_BLOCK_SIZE;
@@ -2927,7 +2936,7 @@ static int safexcel_hmac_sha3_256_init(struct ahash_request *areq)
        memset(req, 0, sizeof(*req));
 
        /* Copy (half of) the key */
-       memcpy(req->state, ctx->ipad, SHA3_256_BLOCK_SIZE / 2);
+       memcpy(req->state, &ctx->base.ipad, SHA3_256_BLOCK_SIZE / 2);
        /* Start of HMAC should have len == processed == blocksize */
        req->len        = SHA3_256_BLOCK_SIZE;
        req->processed  = SHA3_256_BLOCK_SIZE;
@@ -2998,7 +3007,7 @@ static int safexcel_hmac_sha3_384_init(struct ahash_request *areq)
        memset(req, 0, sizeof(*req));
 
        /* Copy (half of) the key */
-       memcpy(req->state, ctx->ipad, SHA3_384_BLOCK_SIZE / 2);
+       memcpy(req->state, &ctx->base.ipad, SHA3_384_BLOCK_SIZE / 2);
        /* Start of HMAC should have len == processed == blocksize */
        req->len        = SHA3_384_BLOCK_SIZE;
        req->processed  = SHA3_384_BLOCK_SIZE;
@@ -3069,7 +3078,7 @@ static int safexcel_hmac_sha3_512_init(struct ahash_request *areq)
        memset(req, 0, sizeof(*req));
 
        /* Copy (half of) the key */
-       memcpy(req->state, ctx->ipad, SHA3_512_BLOCK_SIZE / 2);
+       memcpy(req->state, &ctx->base.ipad, SHA3_512_BLOCK_SIZE / 2);
        /* Start of HMAC should have len == processed == blocksize */
        req->len        = SHA3_512_BLOCK_SIZE;
        req->processed  = SHA3_512_BLOCK_SIZE;
index e454c3d..90f1503 100644 (file)
@@ -236,8 +236,8 @@ struct safexcel_result_desc *safexcel_add_rdesc(struct safexcel_crypto_priv *pri
 
        rdesc->particle_size = len;
        rdesc->rsvd0 = 0;
-       rdesc->descriptor_overflow = 0;
-       rdesc->buffer_overflow = 0;
+       rdesc->descriptor_overflow = 1; /* assume error */
+       rdesc->buffer_overflow = 1;     /* assume error */
        rdesc->last_seg = last;
        rdesc->first_seg = first;
        rdesc->result_size = EIP197_RD64_RESULT_SIZE;
@@ -245,9 +245,10 @@ struct safexcel_result_desc *safexcel_add_rdesc(struct safexcel_crypto_priv *pri
        rdesc->data_lo = lower_32_bits(data);
        rdesc->data_hi = upper_32_bits(data);
 
-       /* Clear length & error code in result token */
+       /* Clear length in result token */
        rtoken->packet_length = 0;
-       rtoken->error_code = 0;
+       /* Assume errors - HW will clear if not the case */
+       rtoken->error_code = 0x7fff;
 
        return rdesc;
 }
index f478bb0..276012e 100644 (file)
@@ -528,7 +528,7 @@ static void release_ixp_crypto(struct device *dev)
 
        if (crypt_virt) {
                dma_free_coherent(dev,
-                       NPE_QLEN_TOTAL * sizeof( struct crypt_ctl),
+                       NPE_QLEN * sizeof(struct crypt_ctl),
                        crypt_virt, crypt_phys);
        }
 }
index d63bca9..0621185 100644 (file)
@@ -437,7 +437,6 @@ static int mv_cesa_probe(struct platform_device *pdev)
        struct device *dev = &pdev->dev;
        struct mv_cesa_dev *cesa;
        struct mv_cesa_engine *engines;
-       struct resource *res;
        int irq, ret, i, cpu;
        u32 sram_size;
 
@@ -475,8 +474,7 @@ static int mv_cesa_probe(struct platform_device *pdev)
 
        spin_lock_init(&cesa->lock);
 
-       res = platform_get_resource_byname(pdev, IORESOURCE_MEM, "regs");
-       cesa->regs = devm_ioremap_resource(dev, res);
+       cesa->regs = devm_platform_ioremap_resource_byname(pdev, "regs");
        if (IS_ERR(cesa->regs))
                return PTR_ERR(cesa->regs);
 
index 0c9cbb6..fabfaac 100644 (file)
@@ -2,12 +2,10 @@
 #ifndef __MARVELL_CESA_H__
 #define __MARVELL_CESA_H__
 
-#include <crypto/algapi.h>
-#include <crypto/hash.h>
 #include <crypto/internal/hash.h>
 #include <crypto/internal/skcipher.h>
 
-#include <linux/crypto.h>
+#include <linux/dma-direction.h>
 #include <linux/dmapool.h>
 
 #define CESA_ENGINE_OFF(i)                     (((i) * 0x2000))
@@ -239,7 +237,7 @@ struct mv_cesa_sec_accel_desc {
  * Context associated to a cipher operation.
  */
 struct mv_cesa_skcipher_op_ctx {
-       u32 key[8];
+       __le32 key[8];
        u32 iv[4];
 };
 
@@ -252,7 +250,7 @@ struct mv_cesa_skcipher_op_ctx {
  */
 struct mv_cesa_hash_op_ctx {
        u32 iv[16];
-       u32 hash[8];
+       __le32 hash[8];
 };
 
 /**
@@ -300,8 +298,14 @@ struct mv_cesa_op_ctx {
  */
 struct mv_cesa_tdma_desc {
        __le32 byte_cnt;
-       __le32 src;
-       __le32 dst;
+       union {
+               __le32 src;
+               dma_addr_t src_dma;
+       };
+       union {
+               __le32 dst;
+               dma_addr_t dst_dma;
+       };
        __le32 next_dma;
 
        /* Software state */
@@ -506,7 +510,7 @@ struct mv_cesa_hash_ctx {
  */
 struct mv_cesa_hmac_ctx {
        struct mv_cesa_ctx base;
-       u32 iv[16];
+       __be32 iv[16];
 };
 
 /**
index 45b4d7a..b4a6ff9 100644 (file)
@@ -11,6 +11,8 @@
 
 #include <crypto/aes.h>
 #include <crypto/internal/des.h>
+#include <linux/device.h>
+#include <linux/dma-mapping.h>
 
 #include "cesa.h"
 
@@ -262,8 +264,7 @@ static int mv_cesa_aes_setkey(struct crypto_skcipher *cipher, const u8 *key,
        remaining = (ctx->aes.key_length - 16) / 4;
        offset = ctx->aes.key_length + 24 - remaining;
        for (i = 0; i < remaining; i++)
-               ctx->aes.key_dec[4 + i] =
-                       cpu_to_le32(ctx->aes.key_enc[offset + i]);
+               ctx->aes.key_dec[4 + i] = ctx->aes.key_enc[offset + i];
 
        return 0;
 }
index f2a2fc1..add7ea0 100644 (file)
@@ -12,6 +12,8 @@
 #include <crypto/hmac.h>
 #include <crypto/md5.h>
 #include <crypto/sha.h>
+#include <linux/device.h>
+#include <linux/dma-mapping.h>
 
 #include "cesa.h"
 
@@ -222,9 +224,11 @@ static void mv_cesa_ahash_std_step(struct ahash_request *req)
                                              CESA_SA_DATA_SRAM_OFFSET + len,
                                              new_cache_ptr);
                        } else {
-                               len += mv_cesa_ahash_pad_req(creq,
-                                               engine->sram + len +
-                                               CESA_SA_DATA_SRAM_OFFSET);
+                               i = mv_cesa_ahash_pad_req(creq, creq->cache);
+                               len += i;
+                               memcpy_toio(engine->sram + len +
+                                           CESA_SA_DATA_SRAM_OFFSET,
+                                           creq->cache, i);
                        }
 
                        if (frag_mode == CESA_SA_DESC_CFG_LAST_FRAG)
@@ -342,7 +346,7 @@ static void mv_cesa_ahash_complete(struct crypto_async_request *req)
                 */
                data = creq->base.chain.last->op->ctx.hash.hash;
                for (i = 0; i < digsize / 4; i++)
-                       creq->state[i] = cpu_to_le32(data[i]);
+                       creq->state[i] = le32_to_cpu(data[i]);
 
                memcpy(ahashreq->result, data, digsize);
        } else {
@@ -1265,10 +1269,10 @@ static int mv_cesa_ahmac_md5_setkey(struct crypto_ahash *tfm, const u8 *key,
                return ret;
 
        for (i = 0; i < ARRAY_SIZE(istate.hash); i++)
-               ctx->iv[i] = be32_to_cpu(istate.hash[i]);
+               ctx->iv[i] = cpu_to_be32(istate.hash[i]);
 
        for (i = 0; i < ARRAY_SIZE(ostate.hash); i++)
-               ctx->iv[i + 8] = be32_to_cpu(ostate.hash[i]);
+               ctx->iv[i + 8] = cpu_to_be32(ostate.hash[i]);
 
        return 0;
 }
@@ -1336,10 +1340,10 @@ static int mv_cesa_ahmac_sha1_setkey(struct crypto_ahash *tfm, const u8 *key,
                return ret;
 
        for (i = 0; i < ARRAY_SIZE(istate.state); i++)
-               ctx->iv[i] = be32_to_cpu(istate.state[i]);
+               ctx->iv[i] = cpu_to_be32(istate.state[i]);
 
        for (i = 0; i < ARRAY_SIZE(ostate.state); i++)
-               ctx->iv[i + 8] = be32_to_cpu(ostate.state[i]);
+               ctx->iv[i + 8] = cpu_to_be32(ostate.state[i]);
 
        return 0;
 }
@@ -1394,10 +1398,10 @@ static int mv_cesa_ahmac_sha256_setkey(struct crypto_ahash *tfm, const u8 *key,
                return ret;
 
        for (i = 0; i < ARRAY_SIZE(istate.state); i++)
-               ctx->iv[i] = be32_to_cpu(istate.state[i]);
+               ctx->iv[i] = cpu_to_be32(istate.state[i]);
 
        for (i = 0; i < ARRAY_SIZE(ostate.state); i++)
-               ctx->iv[i + 8] = be32_to_cpu(ostate.state[i]);
+               ctx->iv[i + 8] = cpu_to_be32(ostate.state[i]);
 
        return 0;
 }
index b81ee27..5d9c48f 100644 (file)
@@ -83,10 +83,10 @@ void mv_cesa_dma_prepare(struct mv_cesa_req *dreq,
 
        for (tdma = dreq->chain.first; tdma; tdma = tdma->next) {
                if (tdma->flags & CESA_TDMA_DST_IN_SRAM)
-                       tdma->dst = cpu_to_le32(tdma->dst + engine->sram_dma);
+                       tdma->dst = cpu_to_le32(tdma->dst_dma + engine->sram_dma);
 
                if (tdma->flags & CESA_TDMA_SRC_IN_SRAM)
-                       tdma->src = cpu_to_le32(tdma->src + engine->sram_dma);
+                       tdma->src = cpu_to_le32(tdma->src_dma + engine->sram_dma);
 
                if ((tdma->flags & CESA_TDMA_TYPE_MSK) == CESA_TDMA_OP)
                        mv_cesa_adjust_op(engine, tdma->op);
@@ -114,7 +114,7 @@ void mv_cesa_tdma_chain(struct mv_cesa_engine *engine,
                 */
                if (!(last->flags & CESA_TDMA_BREAK_CHAIN) &&
                    !(dreq->chain.first->flags & CESA_TDMA_SET_STATE))
-                       last->next_dma = dreq->chain.first->cur_dma;
+                       last->next_dma = cpu_to_le32(dreq->chain.first->cur_dma);
        }
 }
 
@@ -237,8 +237,8 @@ int mv_cesa_dma_add_result_op(struct mv_cesa_tdma_chain *chain, dma_addr_t src,
                return -EIO;
 
        tdma->byte_cnt = cpu_to_le32(size | BIT(31));
-       tdma->src = src;
-       tdma->dst = op_desc->src;
+       tdma->src_dma = src;
+       tdma->dst_dma = op_desc->src_dma;
        tdma->op = op_desc->op;
 
        flags &= (CESA_TDMA_DST_IN_SRAM | CESA_TDMA_SRC_IN_SRAM);
@@ -272,7 +272,7 @@ struct mv_cesa_op_ctx *mv_cesa_dma_add_op(struct mv_cesa_tdma_chain *chain,
        tdma->op = op;
        tdma->byte_cnt = cpu_to_le32(size | BIT(31));
        tdma->src = cpu_to_le32(dma_handle);
-       tdma->dst = CESA_SA_CFG_SRAM_OFFSET;
+       tdma->dst_dma = CESA_SA_CFG_SRAM_OFFSET;
        tdma->flags = CESA_TDMA_DST_IN_SRAM | CESA_TDMA_OP;
 
        return op;
@@ -289,8 +289,8 @@ int mv_cesa_dma_add_data_transfer(struct mv_cesa_tdma_chain *chain,
                return PTR_ERR(tdma);
 
        tdma->byte_cnt = cpu_to_le32(size | BIT(31));
-       tdma->src = src;
-       tdma->dst = dst;
+       tdma->src_dma = src;
+       tdma->dst_dma = dst;
 
        flags &= (CESA_TDMA_DST_IN_SRAM | CESA_TDMA_SRC_IN_SRAM);
        tdma->flags = flags | CESA_TDMA_DATA;
index cc103b1..40b4821 100644 (file)
@@ -824,18 +824,12 @@ static ssize_t eng_grp_info_show(struct device *dev,
 static int create_sysfs_eng_grps_info(struct device *dev,
                                      struct otx_cpt_eng_grp_info *eng_grp)
 {
-       int ret;
-
        eng_grp->info_attr.show = eng_grp_info_show;
        eng_grp->info_attr.store = NULL;
        eng_grp->info_attr.attr.name = eng_grp->sysfs_info_name;
        eng_grp->info_attr.attr.mode = 0440;
        sysfs_attr_init(&eng_grp->info_attr.attr);
-       ret = device_create_file(dev, &eng_grp->info_attr);
-       if (ret)
-               return ret;
-
-       return 0;
+       return device_create_file(dev, &eng_grp->info_attr);
 }
 
 static void ucode_unload(struct device *dev, struct otx_cpt_ucode *ucode)
index 4ad3571..7323066 100644 (file)
@@ -126,7 +126,7 @@ struct mtk_aes_ctx {
 struct mtk_aes_ctr_ctx {
        struct mtk_aes_base_ctx base;
 
-       u32     iv[AES_BLOCK_SIZE / sizeof(u32)];
+       __be32  iv[AES_BLOCK_SIZE / sizeof(u32)];
        size_t offset;
        struct scatterlist src[2];
        struct scatterlist dst[2];
@@ -242,22 +242,6 @@ static inline void mtk_aes_restore_sg(const struct mtk_aes_dma *dma)
        sg->length += dma->remainder;
 }
 
-static inline void mtk_aes_write_state_le(__le32 *dst, const u32 *src, u32 size)
-{
-       int i;
-
-       for (i = 0; i < SIZE_IN_WORDS(size); i++)
-               dst[i] = cpu_to_le32(src[i]);
-}
-
-static inline void mtk_aes_write_state_be(__be32 *dst, const u32 *src, u32 size)
-{
-       int i;
-
-       for (i = 0; i < SIZE_IN_WORDS(size); i++)
-               dst[i] = cpu_to_be32(src[i]);
-}
-
 static inline int mtk_aes_complete(struct mtk_cryp *cryp,
                                   struct mtk_aes_rec *aes,
                                   int err)
@@ -321,7 +305,7 @@ static int mtk_aes_xmit(struct mtk_cryp *cryp, struct mtk_aes_rec *aes)
 
        /* Prepare enough space for authenticated tag */
        if (aes->flags & AES_FLAGS_GCM)
-               res->hdr += AES_BLOCK_SIZE;
+               le32_add_cpu(&res->hdr, AES_BLOCK_SIZE);
 
        /*
         * Make sure that all changes to the DMA ring are done before we
@@ -449,10 +433,10 @@ static void mtk_aes_info_init(struct mtk_cryp *cryp, struct mtk_aes_rec *aes,
                return;
        }
 
-       mtk_aes_write_state_le(info->state + ctx->keylen, (void *)req->iv,
-                              AES_BLOCK_SIZE);
+       memcpy(info->state + ctx->keylen, req->iv, AES_BLOCK_SIZE);
 ctr:
-       info->tfm[0] += AES_TFM_SIZE(SIZE_IN_WORDS(AES_BLOCK_SIZE));
+       le32_add_cpu(&info->tfm[0],
+                    le32_to_cpu(AES_TFM_SIZE(SIZE_IN_WORDS(AES_BLOCK_SIZE))));
        info->tfm[1] |= AES_TFM_FULL_IV;
        info->cmd[cnt++] = AES_CMD2;
 ecb:
@@ -601,8 +585,7 @@ static int mtk_aes_ctr_transfer(struct mtk_cryp *cryp, struct mtk_aes_rec *aes)
               scatterwalk_ffwd(cctx->dst, req->dst, cctx->offset));
 
        /* Write IVs into transform state buffer. */
-       mtk_aes_write_state_le(ctx->info.state + ctx->keylen, cctx->iv,
-                              AES_BLOCK_SIZE);
+       memcpy(ctx->info.state + ctx->keylen, cctx->iv, AES_BLOCK_SIZE);
 
        if (unlikely(fragmented)) {
        /*
@@ -654,7 +637,7 @@ static int mtk_aes_setkey(struct crypto_skcipher *tfm,
        }
 
        ctx->keylen = SIZE_IN_WORDS(keylen);
-       mtk_aes_write_state_le(ctx->key, (const u32 *)key, keylen);
+       memcpy(ctx->key, key, keylen);
 
        return 0;
 }
@@ -848,7 +831,7 @@ mtk_aes_gcm_ctx_cast(struct mtk_aes_base_ctx *ctx)
 static int mtk_aes_gcm_tag_verify(struct mtk_cryp *cryp,
                                  struct mtk_aes_rec *aes)
 {
-       u32 status = cryp->ring[aes->id]->res_prev->ct;
+       __le32 status = cryp->ring[aes->id]->res_prev->ct;
 
        return mtk_aes_complete(cryp, aes, (status & AES_AUTH_TAG_ERR) ?
                                -EBADMSG : 0);
@@ -866,7 +849,7 @@ static void mtk_aes_gcm_info_init(struct mtk_cryp *cryp,
        u32 ivsize = crypto_aead_ivsize(crypto_aead_reqtfm(req));
        u32 cnt = 0;
 
-       ctx->ct_hdr = AES_CT_CTRL_HDR | len;
+       ctx->ct_hdr = AES_CT_CTRL_HDR | cpu_to_le32(len);
 
        info->cmd[cnt++] = AES_GCM_CMD0 | cpu_to_le32(req->assoclen);
        info->cmd[cnt++] = AES_GCM_CMD1 | cpu_to_le32(req->assoclen);
@@ -889,8 +872,8 @@ static void mtk_aes_gcm_info_init(struct mtk_cryp *cryp,
        info->tfm[1] = AES_TFM_CTR_INIT | AES_TFM_IV_CTR_MODE | AES_TFM_3IV |
                       AES_TFM_ENC_HASH;
 
-       mtk_aes_write_state_le(info->state + ctx->keylen + SIZE_IN_WORDS(
-                              AES_BLOCK_SIZE), (const u32 *)req->iv, ivsize);
+       memcpy(info->state + ctx->keylen + SIZE_IN_WORDS(AES_BLOCK_SIZE),
+              req->iv, ivsize);
 }
 
 static int mtk_aes_gcm_dma(struct mtk_cryp *cryp, struct mtk_aes_rec *aes,
@@ -994,9 +977,13 @@ static int mtk_aes_gcm_setkey(struct crypto_aead *aead, const u8 *key,
                              u32 keylen)
 {
        struct mtk_aes_base_ctx *ctx = crypto_aead_ctx(aead);
-       u8 hash[AES_BLOCK_SIZE] __aligned(4) = {};
+       union {
+               u32 x32[SIZE_IN_WORDS(AES_BLOCK_SIZE)];
+               u8 x8[AES_BLOCK_SIZE];
+       } hash = {};
        struct crypto_aes_ctx aes_ctx;
        int err;
+       int i;
 
        switch (keylen) {
        case AES_KEYSIZE_128:
@@ -1019,12 +1006,16 @@ static int mtk_aes_gcm_setkey(struct crypto_aead *aead, const u8 *key,
        if (err)
                return err;
 
-       aes_encrypt(&aes_ctx, hash, hash);
+       aes_encrypt(&aes_ctx, hash.x8, hash.x8);
        memzero_explicit(&aes_ctx, sizeof(aes_ctx));
 
-       mtk_aes_write_state_le(ctx->key, (const u32 *)key, keylen);
-       mtk_aes_write_state_be(ctx->key + ctx->keylen, (const u32 *)hash,
-                              AES_BLOCK_SIZE);
+       memcpy(ctx->key, key, keylen);
+
+       /* Why do we need to do this? */
+       for (i = 0; i < SIZE_IN_WORDS(AES_BLOCK_SIZE); i++)
+               hash.x32[i] = swab32(hash.x32[i]);
+
+       memcpy(ctx->key + ctx->keylen, &hash, AES_BLOCK_SIZE);
 
        return 0;
 }
index 7e3ad08..9d87862 100644 (file)
@@ -185,8 +185,6 @@ static int mtk_dfe_dse_state_check(struct mtk_cryp *cryp)
 
 static int mtk_dfe_dse_reset(struct mtk_cryp *cryp)
 {
-       int err;
-
        /* Reset DSE/DFE and correct system priorities for all rings. */
        writel(MTK_DFSE_THR_CTRL_RESET, cryp->base + DFE_THR_CTRL);
        writel(0, cryp->base + DFE_PRIO_0);
@@ -200,11 +198,7 @@ static int mtk_dfe_dse_reset(struct mtk_cryp *cryp)
        writel(0, cryp->base + DSE_PRIO_2);
        writel(0, cryp->base + DSE_PRIO_3);
 
-       err = mtk_dfe_dse_state_check(cryp);
-       if (err)
-               return err;
-
-       return 0;
+       return mtk_dfe_dse_state_check(cryp);
 }
 
 static void mtk_cmd_desc_ring_setup(struct mtk_cryp *cryp,
@@ -442,7 +436,7 @@ static void mtk_desc_dma_free(struct mtk_cryp *cryp)
 static int mtk_desc_ring_alloc(struct mtk_cryp *cryp)
 {
        struct mtk_ring **ring = cryp->ring;
-       int i, err = ENOMEM;
+       int i;
 
        for (i = 0; i < MTK_RING_MAX; i++) {
                ring[i] = kzalloc(sizeof(**ring), GFP_KERNEL);
@@ -469,14 +463,14 @@ static int mtk_desc_ring_alloc(struct mtk_cryp *cryp)
        return 0;
 
 err_cleanup:
-       for (; i--; ) {
+       do {
                dma_free_coherent(cryp->dev, MTK_DESC_RING_SZ,
                                  ring[i]->res_base, ring[i]->res_dma);
                dma_free_coherent(cryp->dev, MTK_DESC_RING_SZ,
                                  ring[i]->cmd_base, ring[i]->cmd_dma);
                kfree(ring[i]);
-       }
-       return err;
+       } while (i--);
+       return -ENOMEM;
 }
 
 static int mtk_crypto_probe(struct platform_device *pdev)
index da3f0b8..3d5d7d6 100644 (file)
@@ -239,7 +239,7 @@ static int mtk_sha_append_sg(struct mtk_sha_reqctx *ctx)
 static void mtk_sha_fill_padding(struct mtk_sha_reqctx *ctx, u32 len)
 {
        u32 index, padlen;
-       u64 bits[2];
+       __be64 bits[2];
        u64 size = ctx->digcnt;
 
        size += ctx->bufcnt;
index d8aec51..3642bf8 100644 (file)
@@ -249,7 +249,7 @@ static inline bool n2_should_run_async(struct spu_queue *qp, int this_len)
 struct n2_ahash_alg {
        struct list_head        entry;
        const u8                *hash_zero;
-       const u32               *hash_init;
+       const u               *hash_init;
        u8                      hw_op_hashsz;
        u8                      digest_size;
        u8                      auth_type;
@@ -662,7 +662,6 @@ struct n2_skcipher_context {
                u8              aes[AES_MAX_KEY_SIZE];
                u8              des[DES_KEY_SIZE];
                u8              des3[3 * DES_KEY_SIZE];
-               u8              arc4[258]; /* S-box, X, Y */
        } key;
 };
 
@@ -789,36 +788,6 @@ static int n2_3des_setkey(struct crypto_skcipher *skcipher, const u8 *key,
        return 0;
 }
 
-static int n2_arc4_setkey(struct crypto_skcipher *skcipher, const u8 *key,
-                         unsigned int keylen)
-{
-       struct crypto_tfm *tfm = crypto_skcipher_tfm(skcipher);
-       struct n2_skcipher_context *ctx = crypto_tfm_ctx(tfm);
-       struct n2_skcipher_alg *n2alg = n2_skcipher_alg(skcipher);
-       u8 *s = ctx->key.arc4;
-       u8 *x = s + 256;
-       u8 *y = x + 1;
-       int i, j, k;
-
-       ctx->enc_type = n2alg->enc_type;
-
-       j = k = 0;
-       *x = 0;
-       *y = 0;
-       for (i = 0; i < 256; i++)
-               s[i] = i;
-       for (i = 0; i < 256; i++) {
-               u8 a = s[i];
-               j = (j + key[k] + a) & 0xff;
-               s[i] = s[j];
-               s[j] = a;
-               if (++k >= keylen)
-                       k = 0;
-       }
-
-       return 0;
-}
-
 static inline int skcipher_descriptor_len(int nbytes, unsigned int block_size)
 {
        int this_len = nbytes;
@@ -1122,21 +1091,6 @@ struct n2_skcipher_tmpl {
 };
 
 static const struct n2_skcipher_tmpl skcipher_tmpls[] = {
-       /* ARC4: only ECB is supported (chaining bits ignored) */
-       {       .name           = "ecb(arc4)",
-               .drv_name       = "ecb-arc4",
-               .block_size     = 1,
-               .enc_type       = (ENC_TYPE_ALG_RC4_STREAM |
-                                  ENC_TYPE_CHAINING_ECB),
-               .skcipher       = {
-                       .min_keysize    = 1,
-                       .max_keysize    = 256,
-                       .setkey         = n2_arc4_setkey,
-                       .encrypt        = n2_encrypt_ecb,
-                       .decrypt        = n2_decrypt_ecb,
-               },
-       },
-
        /* DES: ECB CBC and CFB are supported */
        {       .name           = "ecb(des)",
                .drv_name       = "ecb-des",
@@ -1271,7 +1225,7 @@ static LIST_HEAD(skcipher_algs);
 struct n2_hash_tmpl {
        const char      *name;
        const u8        *hash_zero;
-       const u32       *hash_init;
+       const u       *hash_init;
        u8              hw_op_hashsz;
        u8              digest_size;
        u8              block_size;
@@ -1279,7 +1233,7 @@ struct n2_hash_tmpl {
        u8              hmac_type;
 };
 
-static const u32 n2_md5_init[MD5_HASH_WORDS] = {
+static const __le32 n2_md5_init[MD5_HASH_WORDS] = {
        cpu_to_le32(MD5_H0),
        cpu_to_le32(MD5_H1),
        cpu_to_le32(MD5_H2),
@@ -1300,7 +1254,7 @@ static const u32 n2_sha224_init[SHA256_DIGEST_SIZE / 4] = {
 static const struct n2_hash_tmpl hash_tmpls[] = {
        { .name         = "md5",
          .hash_zero    = md5_zero_message_hash,
-         .hash_init    = n2_md5_init,
+         .hash_init    = (u8 *)n2_md5_init,
          .auth_type    = AUTH_TYPE_MD5,
          .hmac_type    = AUTH_TYPE_HMAC_MD5,
          .hw_op_hashsz = MD5_DIGEST_SIZE,
@@ -1308,7 +1262,7 @@ static const struct n2_hash_tmpl hash_tmpls[] = {
          .block_size   = MD5_HMAC_BLOCK_SIZE },
        { .name         = "sha1",
          .hash_zero    = sha1_zero_message_hash,
-         .hash_init    = n2_sha1_init,
+         .hash_init    = (u8 *)n2_sha1_init,
          .auth_type    = AUTH_TYPE_SHA1,
          .hmac_type    = AUTH_TYPE_HMAC_SHA1,
          .hw_op_hashsz = SHA1_DIGEST_SIZE,
@@ -1316,7 +1270,7 @@ static const struct n2_hash_tmpl hash_tmpls[] = {
          .block_size   = SHA1_BLOCK_SIZE },
        { .name         = "sha256",
          .hash_zero    = sha256_zero_message_hash,
-         .hash_init    = n2_sha256_init,
+         .hash_init    = (u8 *)n2_sha256_init,
          .auth_type    = AUTH_TYPE_SHA256,
          .hmac_type    = AUTH_TYPE_HMAC_SHA256,
          .hw_op_hashsz = SHA256_DIGEST_SIZE,
@@ -1324,7 +1278,7 @@ static const struct n2_hash_tmpl hash_tmpls[] = {
          .block_size   = SHA256_BLOCK_SIZE },
        { .name         = "sha224",
          .hash_zero    = sha224_zero_message_hash,
-         .hash_init    = n2_sha224_init,
+         .hash_init    = (u8 *)n2_sha224_init,
          .auth_type    = AUTH_TYPE_SHA256,
          .hmac_type    = AUTH_TYPE_RESERVED,
          .hw_op_hashsz = SHA256_DIGEST_SIZE,
index 954d703..a3b38d2 100644 (file)
@@ -39,6 +39,7 @@
 #include <crypto/hash.h>
 #include <crypto/hmac.h>
 #include <crypto/internal/hash.h>
+#include <crypto/engine.h>
 
 #define MD5_DIGEST_SIZE                        16
 
 #define DEFAULT_AUTOSUSPEND_DELAY      1000
 
 /* mostly device flags */
-#define FLAGS_BUSY             0
 #define FLAGS_FINAL            1
 #define FLAGS_DMA_ACTIVE       2
 #define FLAGS_OUTPUT_READY     3
@@ -144,7 +144,7 @@ struct omap_sham_dev;
 struct omap_sham_reqctx {
        struct omap_sham_dev    *dd;
        unsigned long           flags;
-       unsigned long           op;
+       u8                      op;
 
        u8                      digest[SHA512_DIGEST_SIZE] OMAP_ALIGNED;
        size_t                  digcnt;
@@ -168,6 +168,7 @@ struct omap_sham_hmac_ctx {
 };
 
 struct omap_sham_ctx {
+       struct crypto_engine_ctx        enginectx;
        unsigned long           flags;
 
        /* fallback stuff */
@@ -219,7 +220,6 @@ struct omap_sham_dev {
        struct device           *dev;
        void __iomem            *io_base;
        int                     irq;
-       spinlock_t              lock;
        int                     err;
        struct dma_chan         *dma_lch;
        struct tasklet_struct   done_task;
@@ -230,6 +230,7 @@ struct omap_sham_dev {
        int                     fallback_sz;
        struct crypto_queue     queue;
        struct ahash_request    *req;
+       struct crypto_engine    *engine;
 
        const struct omap_sham_pdata    *pdata;
 };
@@ -245,6 +246,9 @@ static struct omap_sham_drv sham = {
        .lock = __SPIN_LOCK_UNLOCKED(sham.lock),
 };
 
+static int omap_sham_enqueue(struct ahash_request *req, unsigned int op);
+static void omap_sham_finish_req(struct ahash_request *req, int err);
+
 static inline u32 omap_sham_read(struct omap_sham_dev *dd, u32 offset)
 {
        return __raw_readl(dd->io_base + offset);
@@ -456,6 +460,9 @@ static void omap_sham_write_ctrl_omap4(struct omap_sham_dev *dd, size_t length,
        struct omap_sham_reqctx *ctx = ahash_request_ctx(dd->req);
        u32 val, mask;
 
+       if (likely(ctx->digcnt))
+               omap_sham_write(dd, SHA_REG_DIGCNT(dd), ctx->digcnt);
+
        /*
         * Setting ALGO_CONST only for the first iteration and
         * CLOSE_HASH only for the last one. Note that flags mode bits
@@ -854,13 +861,16 @@ static int omap_sham_align_sgs(struct scatterlist *sg,
        return 0;
 }
 
-static int omap_sham_prepare_request(struct ahash_request *req, bool update)
+static int omap_sham_prepare_request(struct crypto_engine *engine, void *areq)
 {
+       struct ahash_request *req = container_of(areq, struct ahash_request,
+                                                base);
        struct omap_sham_reqctx *rctx = ahash_request_ctx(req);
        int bs;
        int ret;
        unsigned int nbytes;
        bool final = rctx->flags & BIT(FLAGS_FINUP);
+       bool update = rctx->op == OP_UPDATE;
        int hash_later;
 
        bs = get_block_size(rctx);
@@ -1021,7 +1031,7 @@ static int omap_sham_update_req(struct omap_sham_dev *dd)
        struct omap_sham_reqctx *ctx = ahash_request_ctx(req);
        int err;
        bool final = (ctx->flags & BIT(FLAGS_FINUP)) &&
-                       !(dd->flags & BIT(FLAGS_HUGE));
+               !(dd->flags & BIT(FLAGS_HUGE));
 
        dev_dbg(dd->dev, "update_req: total: %u, digcnt: %zd, final: %d",
                ctx->total, ctx->digcnt, final);
@@ -1069,6 +1079,39 @@ static int omap_sham_final_req(struct omap_sham_dev *dd)
        return err;
 }
 
+static int omap_sham_hash_one_req(struct crypto_engine *engine, void *areq)
+{
+       struct ahash_request *req = container_of(areq, struct ahash_request,
+                                                base);
+       struct omap_sham_reqctx *ctx = ahash_request_ctx(req);
+       struct omap_sham_dev *dd = ctx->dd;
+       int err;
+       bool final = (ctx->flags & BIT(FLAGS_FINUP)) &&
+                       !(dd->flags & BIT(FLAGS_HUGE));
+
+       dev_dbg(dd->dev, "hash-one: op: %u, total: %u, digcnt: %zd, final: %d",
+               ctx->op, ctx->total, ctx->digcnt, final);
+
+       dd->req = req;
+
+       err = omap_sham_hw_init(dd);
+       if (err)
+               return err;
+
+       if (ctx->digcnt)
+               dd->pdata->copy_hash(req, 0);
+
+       if (ctx->op == OP_UPDATE)
+               err = omap_sham_update_req(dd);
+       else if (ctx->op == OP_FINAL)
+               err = omap_sham_final_req(dd);
+
+       if (err != -EINPROGRESS)
+               omap_sham_finish_req(req, err);
+
+       return 0;
+}
+
 static int omap_sham_finish_hmac(struct ahash_request *req)
 {
        struct omap_sham_ctx *tctx = crypto_tfm_ctx(req->base.tfm);
@@ -1116,25 +1159,20 @@ static void omap_sham_finish_req(struct ahash_request *req, int err)
 
        ctx->sg = NULL;
 
-       dd->flags &= ~(BIT(FLAGS_SGS_ALLOCED) | BIT(FLAGS_SGS_COPIED));
+       dd->flags &= ~(BIT(FLAGS_SGS_ALLOCED) | BIT(FLAGS_SGS_COPIED) |
+                      BIT(FLAGS_CPU) | BIT(FLAGS_DMA_READY) |
+                      BIT(FLAGS_OUTPUT_READY));
+
+       if (!err)
+               dd->pdata->copy_hash(req, 1);
 
        if (dd->flags & BIT(FLAGS_HUGE)) {
-               dd->flags &= ~(BIT(FLAGS_CPU) | BIT(FLAGS_DMA_READY) |
-                               BIT(FLAGS_OUTPUT_READY) | BIT(FLAGS_HUGE));
-               omap_sham_prepare_request(req, ctx->op == OP_UPDATE);
-               if (ctx->op == OP_UPDATE || (dd->flags & BIT(FLAGS_HUGE))) {
-                       err = omap_sham_update_req(dd);
-                       if (err != -EINPROGRESS &&
-                           (ctx->flags & BIT(FLAGS_FINUP)))
-                               err = omap_sham_final_req(dd);
-               } else if (ctx->op == OP_FINAL) {
-                       omap_sham_final_req(dd);
-               }
+               /* Re-enqueue the request */
+               omap_sham_enqueue(req, ctx->op);
                return;
        }
 
        if (!err) {
-               dd->pdata->copy_hash(req, 1);
                if (test_bit(FLAGS_FINAL, &dd->flags))
                        err = omap_sham_finish(req);
        } else {
@@ -1142,7 +1180,7 @@ static void omap_sham_finish_req(struct ahash_request *req, int err)
        }
 
        /* atomic operation is not needed here */
-       dd->flags &= ~(BIT(FLAGS_BUSY) | BIT(FLAGS_FINAL) | BIT(FLAGS_CPU) |
+       dd->flags &= ~(BIT(FLAGS_FINAL) | BIT(FLAGS_CPU) |
                        BIT(FLAGS_DMA_READY) | BIT(FLAGS_OUTPUT_READY));
 
        pm_runtime_mark_last_busy(dd->dev);
@@ -1150,81 +1188,13 @@ static void omap_sham_finish_req(struct ahash_request *req, int err)
 
        ctx->offset = 0;
 
-       if (req->base.complete)
-               req->base.complete(&req->base, err);
+       crypto_finalize_hash_request(dd->engine, req, err);
 }
 
 static int omap_sham_handle_queue(struct omap_sham_dev *dd,
                                  struct ahash_request *req)
 {
-       struct crypto_async_request *async_req, *backlog;
-       struct omap_sham_reqctx *ctx;
-       unsigned long flags;
-       int err = 0, ret = 0;
-
-retry:
-       spin_lock_irqsave(&dd->lock, flags);
-       if (req)
-               ret = ahash_enqueue_request(&dd->queue, req);
-       if (test_bit(FLAGS_BUSY, &dd->flags)) {
-               spin_unlock_irqrestore(&dd->lock, flags);
-               return ret;
-       }
-       backlog = crypto_get_backlog(&dd->queue);
-       async_req = crypto_dequeue_request(&dd->queue);
-       if (async_req)
-               set_bit(FLAGS_BUSY, &dd->flags);
-       spin_unlock_irqrestore(&dd->lock, flags);
-
-       if (!async_req)
-               return ret;
-
-       if (backlog)
-               backlog->complete(backlog, -EINPROGRESS);
-
-       req = ahash_request_cast(async_req);
-       dd->req = req;
-       ctx = ahash_request_ctx(req);
-
-       err = omap_sham_prepare_request(req, ctx->op == OP_UPDATE);
-       if (err || !ctx->total)
-               goto err1;
-
-       dev_dbg(dd->dev, "handling new req, op: %lu, nbytes: %d\n",
-                                               ctx->op, req->nbytes);
-
-       err = omap_sham_hw_init(dd);
-       if (err)
-               goto err1;
-
-       if (ctx->digcnt)
-               /* request has changed - restore hash */
-               dd->pdata->copy_hash(req, 0);
-
-       if (ctx->op == OP_UPDATE || (dd->flags & BIT(FLAGS_HUGE))) {
-               err = omap_sham_update_req(dd);
-               if (err != -EINPROGRESS && (ctx->flags & BIT(FLAGS_FINUP)))
-                       /* no final() after finup() */
-                       err = omap_sham_final_req(dd);
-       } else if (ctx->op == OP_FINAL) {
-               err = omap_sham_final_req(dd);
-       }
-err1:
-       dev_dbg(dd->dev, "exit, err: %d\n", err);
-
-       if (err != -EINPROGRESS) {
-               /* done_task will not finish it, so do it here */
-               omap_sham_finish_req(req, err);
-               req = NULL;
-
-               /*
-                * Execute next request immediately if there is anything
-                * in queue.
-                */
-               goto retry;
-       }
-
-       return ret;
+       return crypto_transfer_hash_request_to_engine(dd->engine, req);
 }
 
 static int omap_sham_enqueue(struct ahash_request *req, unsigned int op)
@@ -1394,6 +1364,10 @@ static int omap_sham_cra_init_alg(struct crypto_tfm *tfm, const char *alg_base)
 
        }
 
+       tctx->enginectx.op.do_one_request = omap_sham_hash_one_req;
+       tctx->enginectx.op.prepare_request = omap_sham_prepare_request;
+       tctx->enginectx.op.unprepare_request = NULL;
+
        return 0;
 }
 
@@ -1757,11 +1731,6 @@ static void omap_sham_done_task(unsigned long data)
 
        dev_dbg(dd->dev, "%s: flags=%lx\n", __func__, dd->flags);
 
-       if (!test_bit(FLAGS_BUSY, &dd->flags)) {
-               omap_sham_handle_queue(dd, NULL);
-               return;
-       }
-
        if (test_bit(FLAGS_CPU, &dd->flags)) {
                if (test_and_clear_bit(FLAGS_OUTPUT_READY, &dd->flags))
                        goto finish;
@@ -1786,20 +1755,12 @@ finish:
        dev_dbg(dd->dev, "update done: err: %d\n", err);
        /* finish curent request */
        omap_sham_finish_req(dd->req, err);
-
-       /* If we are not busy, process next req */
-       if (!test_bit(FLAGS_BUSY, &dd->flags))
-               omap_sham_handle_queue(dd, NULL);
 }
 
 static irqreturn_t omap_sham_irq_common(struct omap_sham_dev *dd)
 {
-       if (!test_bit(FLAGS_BUSY, &dd->flags)) {
-               dev_warn(dd->dev, "Interrupt when no active requests.\n");
-       } else {
-               set_bit(FLAGS_OUTPUT_READY, &dd->flags);
-               tasklet_schedule(&dd->done_task);
-       }
+       set_bit(FLAGS_OUTPUT_READY, &dd->flags);
+       tasklet_schedule(&dd->done_task);
 
        return IRQ_HANDLED;
 }
@@ -2072,7 +2033,6 @@ static ssize_t queue_len_store(struct device *dev,
        struct omap_sham_dev *dd = dev_get_drvdata(dev);
        ssize_t status;
        long value;
-       unsigned long flags;
 
        status = kstrtol(buf, 0, &value);
        if (status)
@@ -2086,9 +2046,7 @@ static ssize_t queue_len_store(struct device *dev,
         * than current size, it will just not accept new entries until
         * it has shrank enough.
         */
-       spin_lock_irqsave(&dd->lock, flags);
        dd->queue.max_qlen = value;
-       spin_unlock_irqrestore(&dd->lock, flags);
 
        return size;
 }
@@ -2125,7 +2083,6 @@ static int omap_sham_probe(struct platform_device *pdev)
        platform_set_drvdata(pdev, dd);
 
        INIT_LIST_HEAD(&dd->list);
-       spin_lock_init(&dd->lock);
        tasklet_init(&dd->done_task, omap_sham_done_task, (unsigned long)dd);
        crypto_init_queue(&dd->queue, OMAP_SHAM_QUEUE_LENGTH);
 
@@ -2190,6 +2147,16 @@ static int omap_sham_probe(struct platform_device *pdev)
        list_add_tail(&dd->list, &sham.dev_list);
        spin_unlock(&sham.lock);
 
+       dd->engine = crypto_engine_alloc_init(dev, 1);
+       if (!dd->engine) {
+               err = -ENOMEM;
+               goto err_engine;
+       }
+
+       err = crypto_engine_start(dd->engine);
+       if (err)
+               goto err_engine_start;
+
        for (i = 0; i < dd->pdata->algs_info_size; i++) {
                if (dd->pdata->algs_info[i].registered)
                        break;
@@ -2223,6 +2190,12 @@ err_algs:
                for (j = dd->pdata->algs_info[i].registered - 1; j >= 0; j--)
                        crypto_unregister_ahash(
                                        &dd->pdata->algs_info[i].algs_list[j]);
+err_engine_start:
+       crypto_engine_exit(dd->engine);
+err_engine:
+       spin_lock(&sham.lock);
+       list_del(&dd->list);
+       spin_unlock(&sham.lock);
 err_pm:
        pm_runtime_disable(dev);
        if (!dd->polling_mode)
index 62c6fe8..1be549a 100644 (file)
@@ -18,6 +18,7 @@
 #include <linux/errno.h>
 #include <linux/interrupt.h>
 #include <linux/kernel.h>
+#include <linux/mm.h>
 #include <linux/percpu.h>
 #include <linux/smp.h>
 #include <linux/slab.h>
index dac6eb3..fb34bf9 100644 (file)
@@ -1685,11 +1685,6 @@ static int spacc_probe(struct platform_device *pdev)
                goto err_clk_put;
        }
 
-       ret = device_create_file(&pdev->dev, &dev_attr_stat_irq_thresh);
-       if (ret)
-               goto err_clk_disable;
-
-
        /*
         * Use an IRQ threshold of 50% as a default. This seems to be a
         * reasonable trade off of latency against throughput but can be
@@ -1697,6 +1692,10 @@ static int spacc_probe(struct platform_device *pdev)
         */
        engine->stat_irq_thresh = (engine->fifo_sz / 2);
 
+       ret = device_create_file(&pdev->dev, &dev_attr_stat_irq_thresh);
+       if (ret)
+               goto err_clk_disable;
+
        /*
         * Configure the interrupts. We only use the STAT_CNT interrupt as we
         * only submit a new packet for processing when we complete another in
index 020d099..ed0e8e3 100644 (file)
 #include <adf_cfg.h>
 #include "adf_c3xxx_hw_data.h"
 
-#define ADF_SYSTEM_DEVICE(device_id) \
-       {PCI_DEVICE(PCI_VENDOR_ID_INTEL, device_id)}
-
 static const struct pci_device_id adf_pci_tbl[] = {
-       ADF_SYSTEM_DEVICE(ADF_C3XXX_PCI_DEVICE_ID),
-       {0,}
+       { PCI_VDEVICE(INTEL, PCI_DEVICE_ID_INTEL_QAT_C3XXX), },
+       { }
 };
 MODULE_DEVICE_TABLE(pci, adf_pci_tbl);
 
@@ -58,7 +55,7 @@ static void adf_cleanup_accel(struct adf_accel_dev *accel_dev)
 
        if (accel_dev->hw_device) {
                switch (accel_pci_dev->pci_dev->device) {
-               case ADF_C3XXX_PCI_DEVICE_ID:
+               case PCI_DEVICE_ID_INTEL_QAT_C3XXX:
                        adf_clean_hw_data_c3xxx(accel_dev->hw_device);
                        break;
                default:
@@ -83,7 +80,7 @@ static int adf_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
        int ret;
 
        switch (ent->device) {
-       case ADF_C3XXX_PCI_DEVICE_ID:
+       case PCI_DEVICE_ID_INTEL_QAT_C3XXX:
                break;
        default:
                dev_err(&pdev->dev, "Invalid device 0x%x.\n", ent->device);
@@ -143,10 +140,8 @@ static int adf_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
        }
 
        /* Create dev top level debugfs entry */
-       snprintf(name, sizeof(name), "%s%s_%02x:%02d.%d",
-                ADF_DEVICE_NAME_PREFIX, hw_data->dev_class->name,
-                pdev->bus->number, PCI_SLOT(pdev->devfn),
-                PCI_FUNC(pdev->devfn));
+       snprintf(name, sizeof(name), "%s%s_%s", ADF_DEVICE_NAME_PREFIX,
+                hw_data->dev_class->name, pci_name(pdev));
 
        accel_dev->debugfs_dir = debugfs_create_dir(name, NULL);
 
@@ -203,7 +198,7 @@ static int adf_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
        }
        pci_set_master(pdev);
 
-       if (adf_enable_aer(accel_dev, &adf_driver)) {
+       if (adf_enable_aer(accel_dev)) {
                dev_err(&pdev->dev, "Failed to enable aer\n");
                ret = -EFAULT;
                goto out_err_free_reg;
index 11039fe..456979b 100644 (file)
 #include <adf_cfg.h>
 #include "adf_c3xxxvf_hw_data.h"
 
-#define ADF_SYSTEM_DEVICE(device_id) \
-       {PCI_DEVICE(PCI_VENDOR_ID_INTEL, device_id)}
-
 static const struct pci_device_id adf_pci_tbl[] = {
-       ADF_SYSTEM_DEVICE(ADF_C3XXXIOV_PCI_DEVICE_ID),
-       {0,}
+       { PCI_VDEVICE(INTEL, PCI_DEVICE_ID_INTEL_QAT_C3XXX_VF), },
+       { }
 };
 MODULE_DEVICE_TABLE(pci, adf_pci_tbl);
 
@@ -58,7 +55,7 @@ static void adf_cleanup_accel(struct adf_accel_dev *accel_dev)
 
        if (accel_dev->hw_device) {
                switch (accel_pci_dev->pci_dev->device) {
-               case ADF_C3XXXIOV_PCI_DEVICE_ID:
+               case PCI_DEVICE_ID_INTEL_QAT_C3XXX_VF:
                        adf_clean_hw_data_c3xxxiov(accel_dev->hw_device);
                        break;
                default:
@@ -85,7 +82,7 @@ static int adf_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
        int ret;
 
        switch (ent->device) {
-       case ADF_C3XXXIOV_PCI_DEVICE_ID:
+       case PCI_DEVICE_ID_INTEL_QAT_C3XXX_VF:
                break;
        default:
                dev_err(&pdev->dev, "Invalid device 0x%x.\n", ent->device);
@@ -127,10 +124,8 @@ static int adf_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
        accel_pci_dev->sku = hw_data->get_sku(hw_data);
 
        /* Create dev top level debugfs entry */
-       snprintf(name, sizeof(name), "%s%s_%02x:%02d.%d",
-                ADF_DEVICE_NAME_PREFIX, hw_data->dev_class->name,
-                pdev->bus->number, PCI_SLOT(pdev->devfn),
-                PCI_FUNC(pdev->devfn));
+       snprintf(name, sizeof(name), "%s%s_%s", ADF_DEVICE_NAME_PREFIX,
+                hw_data->dev_class->name, pci_name(pdev));
 
        accel_dev->debugfs_dir = debugfs_create_dir(name, NULL);
 
index 4ba9c14..d8e7c9c 100644 (file)
 #include <adf_cfg.h>
 #include "adf_c62x_hw_data.h"
 
-#define ADF_SYSTEM_DEVICE(device_id) \
-       {PCI_DEVICE(PCI_VENDOR_ID_INTEL, device_id)}
-
 static const struct pci_device_id adf_pci_tbl[] = {
-       ADF_SYSTEM_DEVICE(ADF_C62X_PCI_DEVICE_ID),
-       {0,}
+       { PCI_VDEVICE(INTEL, PCI_DEVICE_ID_INTEL_QAT_C62X), },
+       { }
 };
 MODULE_DEVICE_TABLE(pci, adf_pci_tbl);
 
@@ -58,7 +55,7 @@ static void adf_cleanup_accel(struct adf_accel_dev *accel_dev)
 
        if (accel_dev->hw_device) {
                switch (accel_pci_dev->pci_dev->device) {
-               case ADF_C62X_PCI_DEVICE_ID:
+               case PCI_DEVICE_ID_INTEL_QAT_C62X:
                        adf_clean_hw_data_c62x(accel_dev->hw_device);
                        break;
                default:
@@ -83,7 +80,7 @@ static int adf_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
        int ret;
 
        switch (ent->device) {
-       case ADF_C62X_PCI_DEVICE_ID:
+       case PCI_DEVICE_ID_INTEL_QAT_C62X:
                break;
        default:
                dev_err(&pdev->dev, "Invalid device 0x%x.\n", ent->device);
@@ -143,10 +140,8 @@ static int adf_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
        }
 
        /* Create dev top level debugfs entry */
-       snprintf(name, sizeof(name), "%s%s_%02x:%02d.%d",
-                ADF_DEVICE_NAME_PREFIX, hw_data->dev_class->name,
-                pdev->bus->number, PCI_SLOT(pdev->devfn),
-                PCI_FUNC(pdev->devfn));
+       snprintf(name, sizeof(name), "%s%s_%s", ADF_DEVICE_NAME_PREFIX,
+                hw_data->dev_class->name, pci_name(pdev));
 
        accel_dev->debugfs_dir = debugfs_create_dir(name, NULL);
 
@@ -203,7 +198,7 @@ static int adf_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
        }
        pci_set_master(pdev);
 
-       if (adf_enable_aer(accel_dev, &adf_driver)) {
+       if (adf_enable_aer(accel_dev)) {
                dev_err(&pdev->dev, "Failed to enable aer\n");
                ret = -EFAULT;
                goto out_err_free_reg;
index b8b021d..b9810f7 100644 (file)
 #include <adf_cfg.h>
 #include "adf_c62xvf_hw_data.h"
 
-#define ADF_SYSTEM_DEVICE(device_id) \
-       {PCI_DEVICE(PCI_VENDOR_ID_INTEL, device_id)}
-
 static const struct pci_device_id adf_pci_tbl[] = {
-       ADF_SYSTEM_DEVICE(ADF_C62XIOV_PCI_DEVICE_ID),
-       {0,}
+       { PCI_VDEVICE(INTEL, PCI_DEVICE_ID_INTEL_QAT_C62X_VF), },
+       { }
 };
 MODULE_DEVICE_TABLE(pci, adf_pci_tbl);
 
@@ -58,7 +55,7 @@ static void adf_cleanup_accel(struct adf_accel_dev *accel_dev)
 
        if (accel_dev->hw_device) {
                switch (accel_pci_dev->pci_dev->device) {
-               case ADF_C62XIOV_PCI_DEVICE_ID:
+               case PCI_DEVICE_ID_INTEL_QAT_C62X_VF:
                        adf_clean_hw_data_c62xiov(accel_dev->hw_device);
                        break;
                default:
@@ -85,7 +82,7 @@ static int adf_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
        int ret;
 
        switch (ent->device) {
-       case ADF_C62XIOV_PCI_DEVICE_ID:
+       case PCI_DEVICE_ID_INTEL_QAT_C62X_VF:
                break;
        default:
                dev_err(&pdev->dev, "Invalid device 0x%x.\n", ent->device);
@@ -127,10 +124,8 @@ static int adf_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
        accel_pci_dev->sku = hw_data->get_sku(hw_data);
 
        /* Create dev top level debugfs entry */
-       snprintf(name, sizeof(name), "%s%s_%02x:%02d.%d",
-                ADF_DEVICE_NAME_PREFIX, hw_data->dev_class->name,
-                pdev->bus->number, PCI_SLOT(pdev->devfn),
-                PCI_FUNC(pdev->devfn));
+       snprintf(name, sizeof(name), "%s%s_%s", ADF_DEVICE_NAME_PREFIX,
+                hw_data->dev_class->name, pci_name(pdev));
 
        accel_dev->debugfs_dir = debugfs_create_dir(name, NULL);
 
index c1db8c2..06952ec 100644 (file)
 #define ADF_C62XVF_DEVICE_NAME "c6xxvf"
 #define ADF_C3XXX_DEVICE_NAME "c3xxx"
 #define ADF_C3XXXVF_DEVICE_NAME "c3xxxvf"
-#define ADF_DH895XCC_PCI_DEVICE_ID 0x435
-#define ADF_DH895XCCIOV_PCI_DEVICE_ID 0x443
-#define ADF_C62X_PCI_DEVICE_ID 0x37c8
-#define ADF_C62XIOV_PCI_DEVICE_ID 0x37c9
-#define ADF_C3XXX_PCI_DEVICE_ID 0x19e2
-#define ADF_C3XXXIOV_PCI_DEVICE_ID 0x19e3
 #define ADF_ERRSOU3 (0x3A000 + 0x0C)
 #define ADF_ERRSOU5 (0x3A000 + 0xD8)
 #define ADF_DEVICE_FUSECTL_OFFSET 0x40
index 32102e2..d2ae293 100644 (file)
@@ -175,7 +175,6 @@ static const struct pci_error_handlers adf_err_handler = {
 /**
  * adf_enable_aer() - Enable Advance Error Reporting for acceleration device
  * @accel_dev:  Pointer to acceleration device.
- * @adf:        PCI device driver owning the given acceleration device.
  *
  * Function enables PCI Advance Error Reporting for the
  * QAT acceleration device accel_dev.
@@ -183,11 +182,12 @@ static const struct pci_error_handlers adf_err_handler = {
  *
  * Return: 0 on success, error code otherwise.
  */
-int adf_enable_aer(struct adf_accel_dev *accel_dev, struct pci_driver *adf)
+int adf_enable_aer(struct adf_accel_dev *accel_dev)
 {
        struct pci_dev *pdev = accel_to_pci_dev(accel_dev);
+       struct pci_driver *pdrv = pdev->driver;
 
-       adf->err_handler = &adf_err_handler;
+       pdrv->err_handler = &adf_err_handler;
        pci_enable_pcie_error_reporting(pdev);
        return 0;
 }
index ac46279..22ae328 100644 (file)
@@ -52,24 +52,7 @@ static const struct seq_operations qat_dev_cfg_sops = {
        .show = qat_dev_cfg_show
 };
 
-static int qat_dev_cfg_open(struct inode *inode, struct file *file)
-{
-       int ret = seq_open(file, &qat_dev_cfg_sops);
-
-       if (!ret) {
-               struct seq_file *seq_f = file->private_data;
-
-               seq_f->private = inode->i_private;
-       }
-       return ret;
-}
-
-static const struct file_operations qat_dev_cfg_fops = {
-       .open = qat_dev_cfg_open,
-       .read = seq_read,
-       .llseek = seq_lseek,
-       .release = seq_release
-};
+DEFINE_SEQ_ATTRIBUTE(qat_dev_cfg);
 
 /**
  * adf_cfg_dev_add() - Create an acceleration device configuration table.
index ebfcb4e..f22342f 100644 (file)
@@ -95,7 +95,7 @@ void adf_ae_fw_release(struct adf_accel_dev *accel_dev);
 int adf_ae_start(struct adf_accel_dev *accel_dev);
 int adf_ae_stop(struct adf_accel_dev *accel_dev);
 
-int adf_enable_aer(struct adf_accel_dev *accel_dev, struct pci_driver *adf);
+int adf_enable_aer(struct adf_accel_dev *accel_dev);
 void adf_disable_aer(struct adf_accel_dev *accel_dev);
 void adf_reset_sbr(struct adf_accel_dev *accel_dev);
 void adf_reset_flr(struct adf_accel_dev *accel_dev);
index 71d0c44..eb9b3be 100644 (file)
@@ -416,8 +416,6 @@ static long adf_ctl_ioctl(struct file *fp, unsigned int cmd, unsigned long arg)
 
 static int __init adf_register_ctl_device_driver(void)
 {
-       mutex_init(&adf_ctl_lock);
-
        if (adf_chr_drv_create())
                goto err_chr_dev;
 
index 72753af..92ec035 100644 (file)
@@ -285,7 +285,7 @@ struct adf_accel_dev *adf_devmgr_get_first(void)
 
 /**
  * adf_devmgr_pci_to_accel_dev() - Get accel_dev associated with the pci_dev.
- * @accel_dev:  Pointer to pci device.
+ * @pci_dev:  Pointer to pci device.
  *
  * Function returns acceleration device associated with the given pci device.
  * To be used by QAT device specific drivers.
index 8827aa1..963b2be 100644 (file)
@@ -173,10 +173,14 @@ EXPORT_SYMBOL_GPL(adf_disable_sriov);
 /**
  * adf_sriov_configure() - Enable SRIOV for the device
  * @pdev:  Pointer to pci device.
+ * @numvfs: Number of virtual functions (VFs) to enable.
+ *
+ * Note that the @numvfs parameter is ignored and all VFs supported by the
+ * device are enabled due to the design of the hardware.
  *
  * Function enables SRIOV for the pci device.
  *
- * Return: 0 on success, error code otherwise.
+ * Return: number of VFs enabled on success, error code otherwise.
  */
 int adf_sriov_configure(struct pci_dev *pdev, int numvfs)
 {
index 2a2eccb..dac25ba 100644 (file)
@@ -77,31 +77,14 @@ static void adf_ring_stop(struct seq_file *sfile, void *v)
        mutex_unlock(&ring_read_lock);
 }
 
-static const struct seq_operations adf_ring_sops = {
+static const struct seq_operations adf_ring_debug_sops = {
        .start = adf_ring_start,
        .next = adf_ring_next,
        .stop = adf_ring_stop,
        .show = adf_ring_show
 };
 
-static int adf_ring_open(struct inode *inode, struct file *file)
-{
-       int ret = seq_open(file, &adf_ring_sops);
-
-       if (!ret) {
-               struct seq_file *seq_f = file->private_data;
-
-               seq_f->private = inode->i_private;
-       }
-       return ret;
-}
-
-static const struct file_operations adf_ring_debug_fops = {
-       .open = adf_ring_open,
-       .read = seq_read,
-       .llseek = seq_lseek,
-       .release = seq_release
-};
+DEFINE_SEQ_ATTRIBUTE(adf_ring_debug);
 
 int adf_ring_debugfs_add(struct adf_etr_ring_data *ring, const char *name)
 {
@@ -188,31 +171,14 @@ static void adf_bank_stop(struct seq_file *sfile, void *v)
        mutex_unlock(&bank_read_lock);
 }
 
-static const struct seq_operations adf_bank_sops = {
+static const struct seq_operations adf_bank_debug_sops = {
        .start = adf_bank_start,
        .next = adf_bank_next,
        .stop = adf_bank_stop,
        .show = adf_bank_show
 };
 
-static int adf_bank_open(struct inode *inode, struct file *file)
-{
-       int ret = seq_open(file, &adf_bank_sops);
-
-       if (!ret) {
-               struct seq_file *seq_f = file->private_data;
-
-               seq_f->private = inode->i_private;
-       }
-       return ret;
-}
-
-static const struct file_operations adf_bank_debug_fops = {
-       .open = adf_bank_open,
-       .read = seq_read,
-       .llseek = seq_lseek,
-       .release = seq_release
-};
+DEFINE_SEQ_ATTRIBUTE(adf_bank_debug);
 
 int adf_bank_debugfs_add(struct adf_etr_bank_data *bank)
 {
index 72753b8..d552dbc 100644 (file)
@@ -828,6 +828,11 @@ static int qat_alg_aead_dec(struct aead_request *areq)
        struct icp_qat_fw_la_bulk_req *msg;
        int digst_size = crypto_aead_authsize(aead_tfm);
        int ret, ctr = 0;
+       u32 cipher_len;
+
+       cipher_len = areq->cryptlen - digst_size;
+       if (cipher_len % AES_BLOCK_SIZE != 0)
+               return -EINVAL;
 
        ret = qat_alg_sgl_to_bufl(ctx->inst, areq->src, areq->dst, qat_req);
        if (unlikely(ret))
@@ -842,7 +847,7 @@ static int qat_alg_aead_dec(struct aead_request *areq)
        qat_req->req.comn_mid.src_data_addr = qat_req->buf.blp;
        qat_req->req.comn_mid.dest_data_addr = qat_req->buf.bloutp;
        cipher_param = (void *)&qat_req->req.serv_specif_rqpars;
-       cipher_param->cipher_length = areq->cryptlen - digst_size;
+       cipher_param->cipher_length = cipher_len;
        cipher_param->cipher_offset = areq->assoclen;
        memcpy(cipher_param->u.cipher_IV_array, areq->iv, AES_BLOCK_SIZE);
        auth_param = (void *)((u8 *)cipher_param + sizeof(*cipher_param));
@@ -871,6 +876,9 @@ static int qat_alg_aead_enc(struct aead_request *areq)
        u8 *iv = areq->iv;
        int ret, ctr = 0;
 
+       if (areq->cryptlen % AES_BLOCK_SIZE != 0)
+               return -EINVAL;
+
        ret = qat_alg_sgl_to_bufl(ctx->inst, areq->src, areq->dst, qat_req);
        if (unlikely(ret))
                return ret;
index fa467e0..6b9d476 100644 (file)
@@ -2,6 +2,7 @@
 /* Copyright(c) 2014 - 2020 Intel Corporation */
 #include <linux/slab.h>
 #include <linux/delay.h>
+#include <linux/pci_ids.h>
 
 #include "adf_accel_devices.h"
 #include "adf_common_drv.h"
@@ -412,7 +413,7 @@ static int qat_hal_init_esram(struct icp_qat_fw_loader_handle *handle)
        unsigned int csr_val;
        int times = 30;
 
-       if (handle->pci_dev->device != ADF_DH895XCC_PCI_DEVICE_ID)
+       if (handle->pci_dev->device != PCI_DEVICE_ID_INTEL_QAT_DH895XCC)
                return 0;
 
        csr_val = ADF_CSR_RD(csr_addr, 0);
@@ -672,13 +673,13 @@ int qat_hal_init(struct adf_accel_dev *accel_dev)
                (void __iomem *)((uintptr_t)handle->hal_cap_ae_xfer_csr_addr_v +
                                 LOCAL_TO_XFER_REG_OFFSET);
        handle->pci_dev = pci_info->pci_dev;
-       if (handle->pci_dev->device == ADF_DH895XCC_PCI_DEVICE_ID) {
+       if (handle->pci_dev->device == PCI_DEVICE_ID_INTEL_QAT_DH895XCC) {
                sram_bar =
                        &pci_info->pci_bars[hw_data->get_sram_bar_id(hw_data)];
                handle->hal_sram_addr_v = sram_bar->virt_addr;
        }
        handle->fw_auth = (handle->pci_dev->device ==
-                          ADF_DH895XCC_PCI_DEVICE_ID) ? false : true;
+                          PCI_DEVICE_ID_INTEL_QAT_DH895XCC) ? false : true;
        handle->hal_handle = kzalloc(sizeof(*handle->hal_handle), GFP_KERNEL);
        if (!handle->hal_handle)
                goto out_hal_handle;
index 00c615f..5d1f28c 100644 (file)
@@ -4,6 +4,7 @@
 #include <linux/ctype.h>
 #include <linux/kernel.h>
 #include <linux/delay.h>
+#include <linux/pci_ids.h>
 #include "adf_accel_devices.h"
 #include "adf_common_drv.h"
 #include "icp_qat_uclo.h"
@@ -711,11 +712,11 @@ static unsigned int
 qat_uclo_get_dev_type(struct icp_qat_fw_loader_handle *handle)
 {
        switch (handle->pci_dev->device) {
-       case ADF_DH895XCC_PCI_DEVICE_ID:
+       case PCI_DEVICE_ID_INTEL_QAT_DH895XCC:
                return ICP_QAT_AC_895XCC_DEV_TYPE;
-       case ADF_C62X_PCI_DEVICE_ID:
+       case PCI_DEVICE_ID_INTEL_QAT_C62X:
                return ICP_QAT_AC_C62X_DEV_TYPE;
-       case ADF_C3XXX_PCI_DEVICE_ID:
+       case PCI_DEVICE_ID_INTEL_QAT_C3XXX:
                return ICP_QAT_AC_C3XXX_DEV_TYPE;
        default:
                pr_err("QAT: unsupported device 0x%x\n",
@@ -1391,7 +1392,7 @@ int qat_uclo_wr_mimage(struct icp_qat_fw_loader_handle *handle,
                        status = qat_uclo_auth_fw(handle, desc);
                qat_uclo_ummap_auth_fw(handle, &desc);
        } else {
-               if (handle->pci_dev->device == ADF_C3XXX_PCI_DEVICE_ID) {
+               if (handle->pci_dev->device == PCI_DEVICE_ID_INTEL_QAT_C3XXX) {
                        pr_err("QAT: C3XXX doesn't support unsigned MMP\n");
                        return -EINVAL;
                }
index 4e877b7..ecb4f6f 100644 (file)
 #include <adf_cfg.h>
 #include "adf_dh895xcc_hw_data.h"
 
-#define ADF_SYSTEM_DEVICE(device_id) \
-       {PCI_DEVICE(PCI_VENDOR_ID_INTEL, device_id)}
-
 static const struct pci_device_id adf_pci_tbl[] = {
-       ADF_SYSTEM_DEVICE(ADF_DH895XCC_PCI_DEVICE_ID),
-       {0,}
+       { PCI_VDEVICE(INTEL, PCI_DEVICE_ID_INTEL_QAT_DH895XCC), },
+       { }
 };
 MODULE_DEVICE_TABLE(pci, adf_pci_tbl);
 
@@ -58,7 +55,7 @@ static void adf_cleanup_accel(struct adf_accel_dev *accel_dev)
 
        if (accel_dev->hw_device) {
                switch (accel_pci_dev->pci_dev->device) {
-               case ADF_DH895XCC_PCI_DEVICE_ID:
+               case PCI_DEVICE_ID_INTEL_QAT_DH895XCC:
                        adf_clean_hw_data_dh895xcc(accel_dev->hw_device);
                        break;
                default:
@@ -83,7 +80,7 @@ static int adf_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
        int ret;
 
        switch (ent->device) {
-       case ADF_DH895XCC_PCI_DEVICE_ID:
+       case PCI_DEVICE_ID_INTEL_QAT_DH895XCC:
                break;
        default:
                dev_err(&pdev->dev, "Invalid device 0x%x.\n", ent->device);
@@ -143,10 +140,8 @@ static int adf_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
        }
 
        /* Create dev top level debugfs entry */
-       snprintf(name, sizeof(name), "%s%s_%02x:%02d.%d",
-                ADF_DEVICE_NAME_PREFIX, hw_data->dev_class->name,
-                pdev->bus->number, PCI_SLOT(pdev->devfn),
-                PCI_FUNC(pdev->devfn));
+       snprintf(name, sizeof(name), "%s%s_%s", ADF_DEVICE_NAME_PREFIX,
+                hw_data->dev_class->name, pci_name(pdev));
 
        accel_dev->debugfs_dir = debugfs_create_dir(name, NULL);
 
@@ -205,7 +200,7 @@ static int adf_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
        }
        pci_set_master(pdev);
 
-       if (adf_enable_aer(accel_dev, &adf_driver)) {
+       if (adf_enable_aer(accel_dev)) {
                dev_err(&pdev->dev, "Failed to enable aer\n");
                ret = -EFAULT;
                goto out_err_free_reg;
index 7d6e1db..404cf9d 100644 (file)
 #include <adf_cfg.h>
 #include "adf_dh895xccvf_hw_data.h"
 
-#define ADF_SYSTEM_DEVICE(device_id) \
-       {PCI_DEVICE(PCI_VENDOR_ID_INTEL, device_id)}
-
 static const struct pci_device_id adf_pci_tbl[] = {
-       ADF_SYSTEM_DEVICE(ADF_DH895XCCIOV_PCI_DEVICE_ID),
-       {0,}
+       { PCI_VDEVICE(INTEL, PCI_DEVICE_ID_INTEL_QAT_DH895XCC_VF), },
+       { }
 };
 MODULE_DEVICE_TABLE(pci, adf_pci_tbl);
 
@@ -58,7 +55,7 @@ static void adf_cleanup_accel(struct adf_accel_dev *accel_dev)
 
        if (accel_dev->hw_device) {
                switch (accel_pci_dev->pci_dev->device) {
-               case ADF_DH895XCCIOV_PCI_DEVICE_ID:
+               case PCI_DEVICE_ID_INTEL_QAT_DH895XCC_VF:
                        adf_clean_hw_data_dh895xcciov(accel_dev->hw_device);
                        break;
                default:
@@ -85,7 +82,7 @@ static int adf_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
        int ret;
 
        switch (ent->device) {
-       case ADF_DH895XCCIOV_PCI_DEVICE_ID:
+       case PCI_DEVICE_ID_INTEL_QAT_DH895XCC_VF:
                break;
        default:
                dev_err(&pdev->dev, "Invalid device 0x%x.\n", ent->device);
@@ -127,10 +124,8 @@ static int adf_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
        accel_pci_dev->sku = hw_data->get_sku(hw_data);
 
        /* Create dev top level debugfs entry */
-       snprintf(name, sizeof(name), "%s%s_%02x:%02d.%d",
-                ADF_DEVICE_NAME_PREFIX, hw_data->dev_class->name,
-                pdev->bus->number, PCI_SLOT(pdev->devfn),
-                PCI_FUNC(pdev->devfn));
+       snprintf(name, sizeof(name), "%s%s_%s", ADF_DEVICE_NAME_PREFIX,
+                hw_data->dev_class->name, pci_name(pdev));
 
        accel_dev->debugfs_dir = debugfs_create_dir(name, NULL);
 
index cb6d61e..ea616b7 100644 (file)
@@ -4,6 +4,7 @@
  */
 
 #include <linux/clk.h>
+#include <linux/dma-mapping.h>
 #include <linux/interrupt.h>
 #include <linux/module.h>
 #include <linux/mod_devicetable.h>
index c230843..87be96a 100644 (file)
@@ -4,6 +4,7 @@
  */
 
 #include <linux/device.h>
+#include <linux/dma-mapping.h>
 #include <linux/interrupt.h>
 #include <crypto/internal/hash.h>
 
index 5630c5a..a2d3da0 100644 (file)
@@ -4,6 +4,7 @@
  */
 
 #include <linux/device.h>
+#include <linux/dma-mapping.h>
 #include <linux/interrupt.h>
 #include <linux/moduleparam.h>
 #include <linux/types.h>
index 4730f84..99ba8d5 100644 (file)
@@ -7,6 +7,7 @@
 #include <linux/acpi.h>
 #include <linux/clk.h>
 #include <linux/crypto.h>
+#include <linux/io.h>
 #include <linux/module.h>
 #include <linux/of.h>
 #include <linux/platform_device.h>
index f385587..35d7306 100644 (file)
@@ -10,6 +10,7 @@
  */
 
 #include "rk3288_crypto.h"
+#include <linux/dma-mapping.h>
 #include <linux/module.h>
 #include <linux/platform_device.h>
 #include <linux/of.h>
index 2b49c67..3db5955 100644 (file)
@@ -7,6 +7,7 @@
 #include <crypto/algapi.h>
 #include <linux/interrupt.h>
 #include <linux/delay.h>
+#include <linux/scatterlist.h>
 #include <crypto/internal/hash.h>
 #include <crypto/internal/skcipher.h>
 
index 6b7ecbe..81befe7 100644 (file)
@@ -8,6 +8,7 @@
  *
  * Some ideas are from marvell/cesa.c and s5p-sss.c driver.
  */
+#include <linux/device.h>
 #include "rk3288_crypto.h"
 
 /*
index 4a75c8e..1cece1a 100644 (file)
@@ -8,6 +8,7 @@
  *
  * Some ideas are from marvell-cesa.c and s5p-sss.c driver.
  */
+#include <linux/device.h>
 #include "rk3288_crypto.h"
 
 #define RK_CRYPTO_DEC                  BIT(0)
index 341433f..88a6c85 100644 (file)
@@ -260,6 +260,7 @@ struct s5p_aes_ctx {
  * struct s5p_aes_dev - Crypto device state container
  * @dev:       Associated device
  * @clk:       Clock for accessing hardware
+ * @pclk:      APB bus clock necessary to access the hardware
  * @ioaddr:    Mapped IO memory region
  * @aes_ioaddr:        Per-varian offset for AES block IO memory
  * @irq_fc:    Feed control interrupt line
@@ -342,13 +343,13 @@ struct s5p_aes_dev {
  * @engine:    Bits for selecting type of HASH in SSS block
  * @sg:                sg for DMA transfer
  * @sg_len:    Length of sg for DMA transfer
- * @sgl[]:     sg for joining buffer and req->src scatterlist
+ * @sgl:       sg for joining buffer and req->src scatterlist
  * @skip:      Skip offset in req->src for current op
  * @total:     Total number of bytes for current request
  * @finup:     Keep state for finup or final.
  * @error:     Keep track of error.
  * @bufcnt:    Number of bytes holded in buffer[]
- * @buffer[]:  For byte(s) from end of req->src in UPDATE op
+ * @buffer:    For byte(s) from end of req->src in UPDATE op
  */
 struct s5p_hash_reqctx {
        struct s5p_aes_dev      *dd;
@@ -1125,7 +1126,7 @@ static int s5p_hash_copy_sg_lists(struct s5p_hash_reqctx *ctx,
  * s5p_hash_prepare_sgs() - prepare sg for processing
  * @ctx:       request context
  * @sg:                source scatterlist request
- * @nbytes:    number of bytes to process from sg
+ * @new_len:   number of bytes to process from sg
  * @final:     final flag
  *
  * Check two conditions: (1) if buffers in sg have len aligned data, and (2)
@@ -2200,11 +2201,10 @@ static int s5p_aes_probe(struct platform_device *pdev)
        }
 
        pdata->clk = devm_clk_get(dev, variant->clk_names[0]);
-       if (IS_ERR(pdata->clk)) {
-               dev_err(dev, "failed to find secss clock %s\n",
-                       variant->clk_names[0]);
-               return -ENOENT;
-       }
+       if (IS_ERR(pdata->clk))
+               return dev_err_probe(dev, PTR_ERR(pdata->clk),
+                                    "failed to find secss clock %s\n",
+                                    variant->clk_names[0]);
 
        err = clk_prepare_enable(pdata->clk);
        if (err < 0) {
@@ -2216,9 +2216,9 @@ static int s5p_aes_probe(struct platform_device *pdev)
        if (variant->clk_names[1]) {
                pdata->pclk = devm_clk_get(dev, variant->clk_names[1]);
                if (IS_ERR(pdata->pclk)) {
-                       dev_err(dev, "failed to find clock %s\n",
-                               variant->clk_names[1]);
-                       err = -ENOENT;
+                       err = dev_err_probe(dev, PTR_ERR(pdata->pclk),
+                                           "failed to find clock %s\n",
+                                           variant->clk_names[1]);
                        goto err_clk;
                }
 
@@ -2307,8 +2307,7 @@ err_algs:
        tasklet_kill(&pdata->tasklet);
 
 err_irq:
-       if (pdata->pclk)
-               clk_disable_unprepare(pdata->pclk);
+       clk_disable_unprepare(pdata->pclk);
 
 err_clk:
        clk_disable_unprepare(pdata->clk);
@@ -2338,8 +2337,7 @@ static int s5p_aes_remove(struct platform_device *pdev)
                pdata->use_hash = false;
        }
 
-       if (pdata->pclk)
-               clk_disable_unprepare(pdata->pclk);
+       clk_disable_unprepare(pdata->pclk);
 
        clk_disable_unprepare(pdata->clk);
        s5p_dev = NULL;
index 5bc0990..eda93fa 100644 (file)
@@ -143,33 +143,38 @@ struct sa_alg_tmpl {
 };
 
 /**
+ * struct sa_mapped_sg: scatterlist information for tx and rx
+ * @mapped: Set to true if the @sgt is mapped
+ * @dir: mapping direction used for @sgt
+ * @split_sg: Set if the sg is split and needs to be freed up
+ * @static_sg: Static scatterlist entry for overriding data
+ * @sgt: scatterlist table for DMA API use
+ */
+struct sa_mapped_sg {
+       bool mapped;
+       enum dma_data_direction dir;
+       struct scatterlist static_sg;
+       struct scatterlist *split_sg;
+       struct sg_table sgt;
+};
+/**
  * struct sa_rx_data: RX Packet miscellaneous data place holder
  * @req: crypto request data pointer
  * @ddev: pointer to the DMA device
  * @tx_in: dma_async_tx_descriptor pointer for rx channel
- * @split_src_sg: Set if the src sg is split and needs to be freed up
- * @split_dst_sg: Set if the dst sg is split and needs to be freed up
+ * @mapped_sg: Information on tx (0) and rx (1) scatterlist DMA mapping
  * @enc: Flag indicating either encryption or decryption
  * @enc_iv_size: Initialisation vector size
  * @iv_idx: Initialisation vector index
- * @rx_sg: Static scatterlist entry for overriding RX data
- * @tx_sg: Static scatterlist entry for overriding TX data
- * @src: Source data pointer
- * @dst: Destination data pointer
  */
 struct sa_rx_data {
        void *req;
        struct device *ddev;
        struct dma_async_tx_descriptor *tx_in;
-       struct scatterlist *split_src_sg;
-       struct scatterlist *split_dst_sg;
+       struct sa_mapped_sg mapped_sg[2];
        u8 enc;
        u8 enc_iv_size;
        u8 iv_idx;
-       struct scatterlist rx_sg;
-       struct scatterlist tx_sg;
-       struct scatterlist *src;
-       struct scatterlist *dst;
 };
 
 /**
@@ -976,23 +981,46 @@ static int sa_3des_ecb_setkey(struct crypto_skcipher *tfm, const u8 *key,
        return sa_cipher_setkey(tfm, key, keylen, &ad);
 }
 
+static void sa_sync_from_device(struct sa_rx_data *rxd)
+{
+       struct sg_table *sgt;
+
+       if (rxd->mapped_sg[0].dir == DMA_BIDIRECTIONAL)
+               sgt = &rxd->mapped_sg[0].sgt;
+       else
+               sgt = &rxd->mapped_sg[1].sgt;
+
+       dma_sync_sgtable_for_cpu(rxd->ddev, sgt, DMA_FROM_DEVICE);
+}
+
+static void sa_free_sa_rx_data(struct sa_rx_data *rxd)
+{
+       int i;
+
+       for (i = 0; i < ARRAY_SIZE(rxd->mapped_sg); i++) {
+               struct sa_mapped_sg *mapped_sg = &rxd->mapped_sg[i];
+
+               if (mapped_sg->mapped) {
+                       dma_unmap_sgtable(rxd->ddev, &mapped_sg->sgt,
+                                         mapped_sg->dir, 0);
+                       kfree(mapped_sg->split_sg);
+               }
+       }
+
+       kfree(rxd);
+}
+
 static void sa_aes_dma_in_callback(void *data)
 {
        struct sa_rx_data *rxd = (struct sa_rx_data *)data;
        struct skcipher_request *req;
-       int sglen;
        u32 *result;
        __be32 *mdptr;
        size_t ml, pl;
        int i;
-       enum dma_data_direction dir_src;
-       bool diff_dst;
 
+       sa_sync_from_device(rxd);
        req = container_of(rxd->req, struct skcipher_request, base);
-       sglen = sg_nents_for_len(req->src, req->cryptlen);
-
-       diff_dst = (req->src != req->dst) ? true : false;
-       dir_src = diff_dst ? DMA_TO_DEVICE : DMA_BIDIRECTIONAL;
 
        if (req->iv) {
                mdptr = (__be32 *)dmaengine_desc_get_metadata_ptr(rxd->tx_in, &pl,
@@ -1003,18 +1031,7 @@ static void sa_aes_dma_in_callback(void *data)
                        result[i] = be32_to_cpu(mdptr[i + rxd->iv_idx]);
        }
 
-       dma_unmap_sg(rxd->ddev, req->src, sglen, dir_src);
-       kfree(rxd->split_src_sg);
-
-       if (diff_dst) {
-               sglen = sg_nents_for_len(req->dst, req->cryptlen);
-
-               dma_unmap_sg(rxd->ddev, req->dst, sglen,
-                            DMA_FROM_DEVICE);
-               kfree(rxd->split_dst_sg);
-       }
-
-       kfree(rxd);
+       sa_free_sa_rx_data(rxd);
 
        skcipher_request_complete(req, 0);
 }
@@ -1043,7 +1060,6 @@ static int sa_run(struct sa_req *req)
        struct device *ddev;
        struct dma_chan *dma_rx;
        int sg_nents, src_nents, dst_nents;
-       int mapped_src_nents, mapped_dst_nents;
        struct scatterlist *src, *dst;
        size_t pl, ml, split_size;
        struct sa_ctx_info *sa_ctx = req->enc ? &req->ctx->enc : &req->ctx->dec;
@@ -1052,6 +1068,7 @@ static int sa_run(struct sa_req *req)
        u32 *mdptr;
        bool diff_dst;
        enum dma_data_direction dir_src;
+       struct sa_mapped_sg *mapped_sg;
 
        gfp_flags = req->base->flags & CRYPTO_TFM_REQ_MAY_SLEEP ?
                GFP_KERNEL : GFP_ATOMIC;
@@ -1082,6 +1099,7 @@ static int sa_run(struct sa_req *req)
                dma_rx = pdata->dma_rx1;
 
        ddev = dma_rx->device->dev;
+       rxd->ddev = ddev;
 
        memcpy(cmdl, sa_ctx->cmdl, sa_ctx->cmdl_size);
 
@@ -1109,60 +1127,90 @@ static int sa_run(struct sa_req *req)
 
        split_size = req->size;
 
+       mapped_sg = &rxd->mapped_sg[0];
        if (sg_nents == 1 && split_size <= req->src->length) {
-               src = &rxd->rx_sg;
+               src = &mapped_sg->static_sg;
+               src_nents = 1;
                sg_init_table(src, 1);
                sg_set_page(src, sg_page(req->src), split_size,
                            req->src->offset);
-               src_nents = 1;
-               dma_map_sg(ddev, src, sg_nents, dir_src);
+
+               mapped_sg->sgt.sgl = src;
+               mapped_sg->sgt.orig_nents = src_nents;
+               ret = dma_map_sgtable(ddev, &mapped_sg->sgt, dir_src, 0);
+               if (ret)
+                       return ret;
+
+               mapped_sg->dir = dir_src;
+               mapped_sg->mapped = true;
        } else {
-               mapped_src_nents = dma_map_sg(ddev, req->src, sg_nents,
-                                             dir_src);
-               ret = sg_split(req->src, mapped_src_nents, 0, 1, &split_size,
-                              &src, &src_nents, gfp_flags);
+               mapped_sg->sgt.sgl = req->src;
+               mapped_sg->sgt.orig_nents = sg_nents;
+               ret = dma_map_sgtable(ddev, &mapped_sg->sgt, dir_src, 0);
+               if (ret)
+                       return ret;
+
+               mapped_sg->dir = dir_src;
+               mapped_sg->mapped = true;
+
+               ret = sg_split(mapped_sg->sgt.sgl, mapped_sg->sgt.nents, 0, 1,
+                              &split_size, &src, &src_nents, gfp_flags);
                if (ret) {
-                       src_nents = sg_nents;
-                       src = req->src;
+                       src_nents = mapped_sg->sgt.nents;
+                       src = mapped_sg->sgt.sgl;
                } else {
-                       rxd->split_src_sg = src;
+                       mapped_sg->split_sg = src;
                }
        }
 
+       dma_sync_sgtable_for_device(ddev, &mapped_sg->sgt, DMA_TO_DEVICE);
+
        if (!diff_dst) {
                dst_nents = src_nents;
                dst = src;
        } else {
                dst_nents = sg_nents_for_len(req->dst, req->size);
+               mapped_sg = &rxd->mapped_sg[1];
 
                if (dst_nents == 1 && split_size <= req->dst->length) {
-                       dst = &rxd->tx_sg;
+                       dst = &mapped_sg->static_sg;
+                       dst_nents = 1;
                        sg_init_table(dst, 1);
                        sg_set_page(dst, sg_page(req->dst), split_size,
                                    req->dst->offset);
-                       dst_nents = 1;
-                       dma_map_sg(ddev, dst, dst_nents, DMA_FROM_DEVICE);
+
+                       mapped_sg->sgt.sgl = dst;
+                       mapped_sg->sgt.orig_nents = dst_nents;
+                       ret = dma_map_sgtable(ddev, &mapped_sg->sgt,
+                                             DMA_FROM_DEVICE, 0);
+                       if (ret)
+                               goto err_cleanup;
+
+                       mapped_sg->dir = DMA_FROM_DEVICE;
+                       mapped_sg->mapped = true;
                } else {
-                       mapped_dst_nents = dma_map_sg(ddev, req->dst, dst_nents,
-                                                     DMA_FROM_DEVICE);
-                       ret = sg_split(req->dst, mapped_dst_nents, 0, 1,
-                                      &split_size, &dst, &dst_nents,
+                       mapped_sg->sgt.sgl = req->dst;
+                       mapped_sg->sgt.orig_nents = dst_nents;
+                       ret = dma_map_sgtable(ddev, &mapped_sg->sgt,
+                                             DMA_FROM_DEVICE, 0);
+                       if (ret)
+                               goto err_cleanup;
+
+                       mapped_sg->dir = DMA_FROM_DEVICE;
+                       mapped_sg->mapped = true;
+
+                       ret = sg_split(mapped_sg->sgt.sgl, mapped_sg->sgt.nents,
+                                      0, 1, &split_size, &dst, &dst_nents,
                                       gfp_flags);
                        if (ret) {
-                               dst_nents = dst_nents;
-                               dst = req->dst;
+                               dst_nents = mapped_sg->sgt.nents;
+                               dst = mapped_sg->sgt.sgl;
                        } else {
-                               rxd->split_dst_sg = dst;
+                               mapped_sg->split_sg = dst;
                        }
                }
        }
 
-       if (unlikely(src_nents != sg_nents)) {
-               dev_warn_ratelimited(sa_k3_dev, "failed to map tx pkt\n");
-               ret = -EIO;
-               goto err_cleanup;
-       }
-
        rxd->tx_in = dmaengine_prep_slave_sg(dma_rx, dst, dst_nents,
                                             DMA_DEV_TO_MEM,
                                             DMA_PREP_INTERRUPT | DMA_CTRL_ACK);
@@ -1174,9 +1222,6 @@ static int sa_run(struct sa_req *req)
 
        rxd->req = (void *)req->base;
        rxd->enc = req->enc;
-       rxd->ddev = ddev;
-       rxd->src = src;
-       rxd->dst = dst;
        rxd->iv_idx = req->ctx->iv_idx;
        rxd->enc_iv_size = sa_ctx->cmdl_upd_info.enc_iv.size;
        rxd->tx_in->callback = req->callback;
@@ -1214,16 +1259,7 @@ static int sa_run(struct sa_req *req)
        return -EINPROGRESS;
 
 err_cleanup:
-       dma_unmap_sg(ddev, req->src, sg_nents, DMA_TO_DEVICE);
-       kfree(rxd->split_src_sg);
-
-       if (req->src != req->dst) {
-               dst_nents = sg_nents_for_len(req->dst, req->size);
-               dma_unmap_sg(ddev, req->dst, dst_nents, DMA_FROM_DEVICE);
-               kfree(rxd->split_dst_sg);
-       }
-
-       kfree(rxd);
+       sa_free_sa_rx_data(rxd);
 
        return ret;
 }
@@ -1293,11 +1329,12 @@ static void sa_sha_dma_in_callback(void *data)
        struct ahash_request *req;
        struct crypto_ahash *tfm;
        unsigned int authsize;
-       int i, sg_nents;
+       int i;
        size_t ml, pl;
        u32 *result;
        __be32 *mdptr;
 
+       sa_sync_from_device(rxd);
        req = container_of(rxd->req, struct ahash_request, base);
        tfm = crypto_ahash_reqtfm(req);
        authsize = crypto_ahash_digestsize(tfm);
@@ -1308,12 +1345,7 @@ static void sa_sha_dma_in_callback(void *data)
        for (i = 0; i < (authsize / 4); i++)
                result[i] = be32_to_cpu(mdptr[i + 4]);
 
-       sg_nents = sg_nents_for_len(req->src, req->nbytes);
-       dma_unmap_sg(rxd->ddev, req->src, sg_nents, DMA_FROM_DEVICE);
-
-       kfree(rxd->split_src_sg);
-
-       kfree(rxd);
+       sa_free_sa_rx_data(rxd);
 
        ahash_request_complete(req, 0);
 }
@@ -1482,8 +1514,8 @@ static int sa_sha_init(struct ahash_request *req)
        struct sa_sha_req_ctx *rctx = ahash_request_ctx(req);
        struct sa_tfm_ctx *ctx = crypto_ahash_ctx(tfm);
 
-       dev_dbg(sa_k3_dev, "init: digest size: %d, rctx=%llx\n",
-               crypto_ahash_digestsize(tfm), (u64)rctx);
+       dev_dbg(sa_k3_dev, "init: digest size: %u, rctx=%p\n",
+               crypto_ahash_digestsize(tfm), rctx);
 
        ahash_request_set_tfm(&rctx->fallback_req, ctx->fallback.ahash);
        rctx->fallback_req.base.flags =
@@ -1637,43 +1669,28 @@ static void sa_aead_dma_in_callback(void *data)
        unsigned int authsize;
        u8 auth_tag[SA_MAX_AUTH_TAG_SZ];
        size_t pl, ml;
-       int i, sglen;
+       int i;
        int err = 0;
        u16 auth_len;
        u32 *mdptr;
-       bool diff_dst;
-       enum dma_data_direction dir_src;
 
+       sa_sync_from_device(rxd);
        req = container_of(rxd->req, struct aead_request, base);
        tfm = crypto_aead_reqtfm(req);
        start = req->assoclen + req->cryptlen;
        authsize = crypto_aead_authsize(tfm);
 
-       diff_dst = (req->src != req->dst) ? true : false;
-       dir_src = diff_dst ? DMA_TO_DEVICE : DMA_BIDIRECTIONAL;
-
        mdptr = (u32 *)dmaengine_desc_get_metadata_ptr(rxd->tx_in, &pl, &ml);
        for (i = 0; i < (authsize / 4); i++)
                mdptr[i + 4] = swab32(mdptr[i + 4]);
 
        auth_len = req->assoclen + req->cryptlen;
-       if (!rxd->enc)
-               auth_len -= authsize;
-
-       sglen =  sg_nents_for_len(rxd->src, auth_len);
-       dma_unmap_sg(rxd->ddev, rxd->src, sglen, dir_src);
-       kfree(rxd->split_src_sg);
-
-       if (diff_dst) {
-               sglen = sg_nents_for_len(rxd->dst, auth_len);
-               dma_unmap_sg(rxd->ddev, rxd->dst, sglen, DMA_FROM_DEVICE);
-               kfree(rxd->split_dst_sg);
-       }
 
        if (rxd->enc) {
                scatterwalk_map_and_copy(&mdptr[4], req->dst, start, authsize,
                                         1);
        } else {
+               auth_len -= authsize;
                start -= authsize;
                scatterwalk_map_and_copy(auth_tag, req->src, start, authsize,
                                         0);
@@ -1681,7 +1698,7 @@ static void sa_aead_dma_in_callback(void *data)
                err = memcmp(&mdptr[4], auth_tag, authsize) ? -EBADMSG : 0;
        }
 
-       kfree(rxd);
+       sa_free_sa_rx_data(rxd);
 
        aead_request_complete(req, err);
 }
@@ -2243,25 +2260,21 @@ static int sa_dma_init(struct sa_crypto_data *dd)
                return ret;
 
        dd->dma_rx1 = dma_request_chan(dd->dev, "rx1");
-       if (IS_ERR(dd->dma_rx1)) {
-               if (PTR_ERR(dd->dma_rx1) != -EPROBE_DEFER)
-                       dev_err(dd->dev, "Unable to request rx1 DMA channel\n");
-               return PTR_ERR(dd->dma_rx1);
-       }
+       if (IS_ERR(dd->dma_rx1))
+               return dev_err_probe(dd->dev, PTR_ERR(dd->dma_rx1),
+                                    "Unable to request rx1 DMA channel\n");
 
        dd->dma_rx2 = dma_request_chan(dd->dev, "rx2");
        if (IS_ERR(dd->dma_rx2)) {
                dma_release_channel(dd->dma_rx1);
-               if (PTR_ERR(dd->dma_rx2) != -EPROBE_DEFER)
-                       dev_err(dd->dev, "Unable to request rx2 DMA channel\n");
-               return PTR_ERR(dd->dma_rx2);
+               return dev_err_probe(dd->dev, PTR_ERR(dd->dma_rx2),
+                                    "Unable to request rx2 DMA channel\n");
        }
 
        dd->dma_tx = dma_request_chan(dd->dev, "tx");
        if (IS_ERR(dd->dma_tx)) {
-               if (PTR_ERR(dd->dma_tx) != -EPROBE_DEFER)
-                       dev_err(dd->dev, "Unable to request tx DMA channel\n");
-               ret = PTR_ERR(dd->dma_tx);
+               ret = dev_err_probe(dd->dev, PTR_ERR(dd->dma_tx),
+                                   "Unable to request tx DMA channel\n");
                goto err_dma_tx;
        }
 
@@ -2333,7 +2346,7 @@ static int sa_ul_probe(struct platform_device *pdev)
 
        pm_runtime_enable(dev);
        ret = pm_runtime_get_sync(dev);
-       if (ret) {
+       if (ret < 0) {
                dev_err(&pdev->dev, "%s: failed to get sync: %d\n", __func__,
                        ret);
                return ret;
index 0c8cb23..d60679c 100644 (file)
@@ -18,7 +18,7 @@
 #include <crypto/sha.h>
 
 #include <linux/clk.h>
-#include <linux/crypto.h>
+#include <linux/dma-mapping.h>
 #include <linux/interrupt.h>
 #include <linux/io.h>
 #include <linux/irq.h>
index 4ef3eb1..4a4c328 100644 (file)
@@ -3,6 +3,7 @@ config CRYPTO_DEV_STM32_CRC
        tristate "Support for STM32 crc accelerators"
        depends on ARCH_STM32
        select CRYPTO_HASH
+       select CRC32
        help
          This enables support for the CRC32 hw accelerator which can be found
          on STMicroelectronics STM32 SOC.
index 3ba4114..75867c0 100644 (file)
@@ -6,7 +6,10 @@
 
 #include <linux/bitrev.h>
 #include <linux/clk.h>
+#include <linux/crc32.h>
 #include <linux/crc32poly.h>
+#include <linux/io.h>
+#include <linux/kernel.h>
 #include <linux/module.h>
 #include <linux/mod_devicetable.h>
 #include <linux/platform_device.h>
@@ -147,7 +150,6 @@ static int burst_update(struct shash_desc *desc, const u8 *d8,
        struct stm32_crc_desc_ctx *ctx = shash_desc_ctx(desc);
        struct stm32_crc_ctx *mctx = crypto_shash_ctx(desc->tfm);
        struct stm32_crc *crc;
-       unsigned long flags;
 
        crc = stm32_crc_get_next_crc();
        if (!crc)
@@ -155,7 +157,15 @@ static int burst_update(struct shash_desc *desc, const u8 *d8,
 
        pm_runtime_get_sync(crc->dev);
 
-       spin_lock_irqsave(&crc->lock, flags);
+       if (!spin_trylock(&crc->lock)) {
+               /* Hardware is busy, calculate crc32 by software */
+               if (mctx->poly == CRC32_POLY_LE)
+                       ctx->partial = crc32_le(ctx->partial, d8, length);
+               else
+                       ctx->partial = __crc32c_le(ctx->partial, d8, length);
+
+               goto pm_out;
+       }
 
        /*
         * Restore previously calculated CRC for this context as init value
@@ -195,8 +205,9 @@ static int burst_update(struct shash_desc *desc, const u8 *d8,
        /* Store partial result */
        ctx->partial = readl_relaxed(crc->regs + CRC_DR);
 
-       spin_unlock_irqrestore(&crc->lock, flags);
+       spin_unlock(&crc->lock);
 
+pm_out:
        pm_runtime_mark_last_busy(crc->dev);
        pm_runtime_put_autosuspend(crc->dev);
 
@@ -216,9 +227,8 @@ static int stm32_crc_update(struct shash_desc *desc, const u8 *d8,
                return burst_update(desc, d8, length);
 
        /* Digest first bytes not 32bit aligned at first pass in the loop */
-       size = min(length,
-                  burst_sz + (unsigned int)d8 - ALIGN_DOWN((unsigned int)d8,
-                                                           sizeof(u32)));
+       size = min_t(size_t, length, burst_sz + (size_t)d8 -
+                                    ALIGN_DOWN((size_t)d8, sizeof(u32)));
        for (rem_sz = length, cur = d8; rem_sz;
             rem_sz -= size, cur += size, size = min(rem_sz, burst_sz)) {
                ret = burst_update(desc, cur, size);
index d347a1d..2670c30 100644 (file)
@@ -118,7 +118,7 @@ struct stm32_cryp_ctx {
        struct crypto_engine_ctx enginectx;
        struct stm32_cryp       *cryp;
        int                     keylen;
-       u32                     key[AES_KEYSIZE_256 / sizeof(u32)];
+       __be32                  key[AES_KEYSIZE_256 / sizeof(u32)];
        unsigned long           flags;
 };
 
@@ -380,24 +380,24 @@ static int stm32_cryp_copy_sgs(struct stm32_cryp *cryp)
        return 0;
 }
 
-static void stm32_cryp_hw_write_iv(struct stm32_cryp *cryp, u32 *iv)
+static void stm32_cryp_hw_write_iv(struct stm32_cryp *cryp, __be32 *iv)
 {
        if (!iv)
                return;
 
-       stm32_cryp_write(cryp, CRYP_IV0LR, cpu_to_be32(*iv++));
-       stm32_cryp_write(cryp, CRYP_IV0RR, cpu_to_be32(*iv++));
+       stm32_cryp_write(cryp, CRYP_IV0LR, be32_to_cpu(*iv++));
+       stm32_cryp_write(cryp, CRYP_IV0RR, be32_to_cpu(*iv++));
 
        if (is_aes(cryp)) {
-               stm32_cryp_write(cryp, CRYP_IV1LR, cpu_to_be32(*iv++));
-               stm32_cryp_write(cryp, CRYP_IV1RR, cpu_to_be32(*iv++));
+               stm32_cryp_write(cryp, CRYP_IV1LR, be32_to_cpu(*iv++));
+               stm32_cryp_write(cryp, CRYP_IV1RR, be32_to_cpu(*iv++));
        }
 }
 
 static void stm32_cryp_get_iv(struct stm32_cryp *cryp)
 {
        struct skcipher_request *req = cryp->req;
-       u32 *tmp = (void *)req->iv;
+       __be32 *tmp = (void *)req->iv;
 
        if (!tmp)
                return;
@@ -417,13 +417,13 @@ static void stm32_cryp_hw_write_key(struct stm32_cryp *c)
        int r_id;
 
        if (is_des(c)) {
-               stm32_cryp_write(c, CRYP_K1LR, cpu_to_be32(c->ctx->key[0]));
-               stm32_cryp_write(c, CRYP_K1RR, cpu_to_be32(c->ctx->key[1]));
+               stm32_cryp_write(c, CRYP_K1LR, be32_to_cpu(c->ctx->key[0]));
+               stm32_cryp_write(c, CRYP_K1RR, be32_to_cpu(c->ctx->key[1]));
        } else {
                r_id = CRYP_K3RR;
                for (i = c->ctx->keylen / sizeof(u32); i > 0; i--, r_id -= 4)
                        stm32_cryp_write(c, r_id,
-                                        cpu_to_be32(c->ctx->key[i - 1]));
+                                        be32_to_cpu(c->ctx->key[i - 1]));
        }
 }
 
@@ -469,7 +469,7 @@ static unsigned int stm32_cryp_get_input_text_len(struct stm32_cryp *cryp)
 static int stm32_cryp_gcm_init(struct stm32_cryp *cryp, u32 cfg)
 {
        int ret;
-       u32 iv[4];
+       __be32 iv[4];
 
        /* Phase 1 : init */
        memcpy(iv, cryp->areq->iv, 12);
@@ -491,6 +491,7 @@ static int stm32_cryp_ccm_init(struct stm32_cryp *cryp, u32 cfg)
 {
        int ret;
        u8 iv[AES_BLOCK_SIZE], b0[AES_BLOCK_SIZE];
+       __be32 *bd;
        u32 *d;
        unsigned int i, textlen;
 
@@ -498,7 +499,7 @@ static int stm32_cryp_ccm_init(struct stm32_cryp *cryp, u32 cfg)
        memcpy(iv, cryp->areq->iv, AES_BLOCK_SIZE);
        memset(iv + AES_BLOCK_SIZE - 1 - iv[0], 0, iv[0] + 1);
        iv[AES_BLOCK_SIZE - 1] = 1;
-       stm32_cryp_hw_write_iv(cryp, (u32 *)iv);
+       stm32_cryp_hw_write_iv(cryp, (__be32 *)iv);
 
        /* Build B0 */
        memcpy(b0, iv, AES_BLOCK_SIZE);
@@ -518,11 +519,14 @@ static int stm32_cryp_ccm_init(struct stm32_cryp *cryp, u32 cfg)
 
        /* Write B0 */
        d = (u32 *)b0;
+       bd = (__be32 *)b0;
 
        for (i = 0; i < AES_BLOCK_32; i++) {
+               u32 xd = d[i];
+
                if (!cryp->caps->padding_wa)
-                       *d = cpu_to_be32(*d);
-               stm32_cryp_write(cryp, CRYP_DIN, *d++);
+                       xd = be32_to_cpu(bd[i]);
+               stm32_cryp_write(cryp, CRYP_DIN, xd);
        }
 
        /* Wait for end of processing */
@@ -617,7 +621,7 @@ static int stm32_cryp_hw_init(struct stm32_cryp *cryp)
        case CR_TDES_CBC:
        case CR_AES_CBC:
        case CR_AES_CTR:
-               stm32_cryp_hw_write_iv(cryp, (u32 *)cryp->req->iv);
+               stm32_cryp_hw_write_iv(cryp, (__be32 *)cryp->req->iv);
                break;
 
        default:
@@ -1120,7 +1124,7 @@ static int stm32_cryp_read_auth_tag(struct stm32_cryp *cryp)
                /* GCM: write aad and payload size (in bits) */
                size_bit = cryp->areq->assoclen * 8;
                if (cryp->caps->swap_final)
-                       size_bit = cpu_to_be32(size_bit);
+                       size_bit = (__force u32)cpu_to_be32(size_bit);
 
                stm32_cryp_write(cryp, CRYP_DIN, 0);
                stm32_cryp_write(cryp, CRYP_DIN, size_bit);
@@ -1129,7 +1133,7 @@ static int stm32_cryp_read_auth_tag(struct stm32_cryp *cryp)
                                cryp->areq->cryptlen - AES_BLOCK_SIZE;
                size_bit *= 8;
                if (cryp->caps->swap_final)
-                       size_bit = cpu_to_be32(size_bit);
+                       size_bit = (__force u32)cpu_to_be32(size_bit);
 
                stm32_cryp_write(cryp, CRYP_DIN, 0);
                stm32_cryp_write(cryp, CRYP_DIN, size_bit);
@@ -1137,14 +1141,19 @@ static int stm32_cryp_read_auth_tag(struct stm32_cryp *cryp)
                /* CCM: write CTR0 */
                u8 iv[AES_BLOCK_SIZE];
                u32 *iv32 = (u32 *)iv;
+               __be32 *biv;
+
+               biv = (void *)iv;
 
                memcpy(iv, cryp->areq->iv, AES_BLOCK_SIZE);
                memset(iv + AES_BLOCK_SIZE - 1 - iv[0], 0, iv[0] + 1);
 
                for (i = 0; i < AES_BLOCK_32; i++) {
+                       u32 xiv = iv32[i];
+
                        if (!cryp->caps->padding_wa)
-                               *iv32 = cpu_to_be32(*iv32);
-                       stm32_cryp_write(cryp, CRYP_DIN, *iv32++);
+                               xiv = be32_to_cpu(biv[i]);
+                       stm32_cryp_write(cryp, CRYP_DIN, xiv);
                }
        }
 
index 03c5e66..e3e2527 100644 (file)
@@ -9,6 +9,7 @@
 #include <linux/clk.h>
 #include <linux/crypto.h>
 #include <linux/delay.h>
+#include <linux/dma-mapping.h>
 #include <linux/dmaengine.h>
 #include <linux/interrupt.h>
 #include <linux/io.h>
@@ -748,7 +749,7 @@ static int stm32_hash_final_req(struct stm32_hash_dev *hdev)
 static void stm32_hash_copy_hash(struct ahash_request *req)
 {
        struct stm32_hash_request_ctx *rctx = ahash_request_ctx(req);
-       u32 *hash = (u32 *)rctx->digest;
+       __be32 *hash = (void *)rctx->digest;
        unsigned int i, hashsize;
 
        switch (rctx->flags & HASH_FLAGS_ALGO_MASK) {
@@ -769,7 +770,7 @@ static void stm32_hash_copy_hash(struct ahash_request *req)
        }
 
        for (i = 0; i < hashsize / sizeof(u32); i++)
-               hash[i] = be32_to_cpu(stm32_hash_read(rctx->hdev,
+               hash[i] = cpu_to_be32(stm32_hash_read(rctx->hdev,
                                                      HASH_HREG(i)));
 }
 
@@ -1463,14 +1464,9 @@ static int stm32_hash_probe(struct platform_device *pdev)
        }
 
        hdev->clk = devm_clk_get(&pdev->dev, NULL);
-       if (IS_ERR(hdev->clk)) {
-               if (PTR_ERR(hdev->clk) != -EPROBE_DEFER) {
-                       dev_err(dev, "failed to get clock for hash (%lu)\n",
-                               PTR_ERR(hdev->clk));
-               }
-
-               return PTR_ERR(hdev->clk);
-       }
+       if (IS_ERR(hdev->clk))
+               return dev_err_probe(dev, PTR_ERR(hdev->clk),
+                                    "failed to get clock for hash\n");
 
        ret = clk_prepare_enable(hdev->clk);
        if (ret) {
index 7c54735..6677389 100644 (file)
@@ -806,10 +806,10 @@ static int talitos_register_rng(struct device *dev)
        struct talitos_private *priv = dev_get_drvdata(dev);
        int err;
 
-       priv->rng.name          = dev_driver_string(dev),
-       priv->rng.init          = talitos_rng_init,
-       priv->rng.data_present  = talitos_rng_data_present,
-       priv->rng.data_read     = talitos_rng_data_read,
+       priv->rng.name          = dev_driver_string(dev);
+       priv->rng.init          = talitos_rng_init;
+       priv->rng.data_present  = talitos_rng_data_present;
+       priv->rng.data_read     = talitos_rng_data_read;
        priv->rng.priv          = (unsigned long)dev;
 
        err = hwrng_register(&priv->rng);
index 800dfc4..c3adeb2 100644 (file)
 
 #include <linux/clk.h>
 #include <linux/completion.h>
-#include <linux/crypto.h>
+#include <linux/device.h>
+#include <linux/dma-mapping.h>
 #include <linux/dmaengine.h>
 #include <linux/err.h>
 #include <linux/errno.h>
 #include <linux/interrupt.h>
 #include <linux/io.h>
 #include <linux/irqreturn.h>
+#include <linux/kernel.h>
 #include <linux/klist.h>
 #include <linux/module.h>
 #include <linux/mod_devicetable.h>
@@ -27,7 +29,6 @@
 #include <linux/platform_data/dma-ste-dma40.h>
 
 #include <crypto/aes.h>
-#include <crypto/algapi.h>
 #include <crypto/ctr.h>
 #include <crypto/internal/des.h>
 #include <crypto/internal/skcipher.h>
@@ -92,17 +93,6 @@ struct cryp_ctx {
 static struct cryp_driver_data driver_data;
 
 /**
- * uint8p_to_uint32_be - 4*uint8 to uint32 big endian
- * @in: Data to convert.
- */
-static inline u32 uint8p_to_uint32_be(u8 *in)
-{
-       u32 *data = (u32 *)in;
-
-       return cpu_to_be32p(data);
-}
-
-/**
  * swap_bits_in_byte - mirror the bits in a byte
  * @b: the byte to be mirrored
  *
@@ -284,6 +274,7 @@ static int cfg_ivs(struct cryp_device_data *device_data, struct cryp_ctx *ctx)
        int i;
        int status = 0;
        int num_of_regs = ctx->blocksize / 8;
+       __be32 *civ = (__be32 *)ctx->iv;
        u32 iv[AES_BLOCK_SIZE / 4];
 
        dev_dbg(device_data->dev, "[%s]", __func__);
@@ -300,7 +291,7 @@ static int cfg_ivs(struct cryp_device_data *device_data, struct cryp_ctx *ctx)
        }
 
        for (i = 0; i < ctx->blocksize / 4; i++)
-               iv[i] = uint8p_to_uint32_be(ctx->iv + i*4);
+               iv[i] = be32_to_cpup(civ + i);
 
        for (i = 0; i < num_of_regs; i++) {
                status = cfg_iv(device_data, iv[i*2], iv[i*2+1],
@@ -339,23 +330,24 @@ static int cfg_keys(struct cryp_ctx *ctx)
        int i;
        int num_of_regs = ctx->keylen / 8;
        u32 swapped_key[CRYP_MAX_KEY_SIZE / 4];
+       __be32 *ckey = (__be32 *)ctx->key;
        int cryp_error = 0;
 
        dev_dbg(ctx->device->dev, "[%s]", __func__);
 
        if (mode_is_aes(ctx->config.algomode)) {
-               swap_words_in_key_and_bits_in_byte((u8 *)ctx->key,
+               swap_words_in_key_and_bits_in_byte((u8 *)ckey,
                                                   (u8 *)swapped_key,
                                                   ctx->keylen);
        } else {
                for (i = 0; i < ctx->keylen / 4; i++)
-                       swapped_key[i] = uint8p_to_uint32_be(ctx->key + i*4);
+                       swapped_key[i] = be32_to_cpup(ckey + i);
        }
 
        for (i = 0; i < num_of_regs; i++) {
                cryp_error = set_key(ctx->device,
-                                    *(((u32 *)swapped_key)+i*2),
-                                    *(((u32 *)swapped_key)+i*2+1),
+                                    swapped_key[i * 2],
+                                    swapped_key[i * 2 + 1],
                                     (enum cryp_key_reg_index) i);
 
                if (cryp_error != 0) {
index a5ee8c2..3d407ee 100644 (file)
@@ -15,6 +15,7 @@
 
 #include <linux/clk.h>
 #include <linux/device.h>
+#include <linux/dma-mapping.h>
 #include <linux/err.h>
 #include <linux/init.h>
 #include <linux/io.h>
@@ -1071,27 +1072,32 @@ int hash_hw_update(struct ahash_request *req)
        struct hash_ctx *ctx = crypto_ahash_ctx(tfm);
        struct hash_req_ctx *req_ctx = ahash_request_ctx(req);
        struct crypto_hash_walk walk;
-       int msg_length = crypto_hash_walk_first(req, &walk);
-
-       /* Empty message ("") is correct indata */
-       if (msg_length == 0)
-               return ret;
+       int msg_length;
 
        index = req_ctx->state.index;
        buffer = (u8 *)req_ctx->state.buffer;
 
+       ret = hash_get_device_data(ctx, &device_data);
+       if (ret)
+               return ret;
+
+       msg_length = crypto_hash_walk_first(req, &walk);
+
+       /* Empty message ("") is correct indata */
+       if (msg_length == 0) {
+               ret = 0;
+               goto release_dev;
+       }
+
        /* Check if ctx->state.length + msg_length
           overflows */
        if (msg_length > (req_ctx->state.length.low_word + msg_length) &&
            HASH_HIGH_WORD_MAX_VAL == req_ctx->state.length.high_word) {
                pr_err("%s: HASH_MSG_LENGTH_OVERFLOW!\n", __func__);
-               return -EPERM;
+               ret = crypto_hash_walk_done(&walk, -EPERM);
+               goto release_dev;
        }
 
-       ret = hash_get_device_data(ctx, &device_data);
-       if (ret)
-               return ret;
-
        /* Main loop */
        while (0 != msg_length) {
                data_buffer = walk.data;
@@ -1101,7 +1107,8 @@ int hash_hw_update(struct ahash_request *req)
                if (ret) {
                        dev_err(device_data->dev, "%s: hash_internal_hw_update() failed!\n",
                                __func__);
-                       goto out;
+                       crypto_hash_walk_done(&walk, ret);
+                       goto release_dev;
                }
 
                msg_length = crypto_hash_walk_done(&walk, 0);
@@ -1111,7 +1118,7 @@ int hash_hw_update(struct ahash_request *req)
        dev_dbg(device_data->dev, "%s: indata length=%d, bin=%d\n",
                __func__, req_ctx->state.index, req_ctx->state.bit_index);
 
-out:
+release_dev:
        release_hash_device(device_data);
 
        return ret;
index fb29417..b894e3a 100644 (file)
@@ -5,7 +5,6 @@ config CRYPTO_DEV_VIRTIO
        select CRYPTO_AEAD
        select CRYPTO_SKCIPHER
        select CRYPTO_ENGINE
-       default m
        help
          This driver provides support for virtio crypto device. If you
          choose 'M' here, this module will be called virtio_crypto.
index 2707935..bf1f421 100644 (file)
@@ -10,6 +10,7 @@
 #include <crypto/internal/aead.h>
 #include <crypto/scatterwalk.h>
 
+#include <linux/dma-mapping.h>
 #include <linux/module.h>
 #include <linux/of_device.h>
 #include <linux/platform_device.h>
index 7b6ec30..7a47680 100644 (file)
@@ -100,6 +100,13 @@ config EDAC_AMD64_ERROR_INJECTION
          In addition, there are two control files, inject_read and inject_write,
          which trigger the DRAM ECC Read and Write respectively.
 
+config EDAC_AL_MC
+       tristate "Amazon's Annapurna Lab Memory Controller"
+       depends on (ARCH_ALPINE || COMPILE_TEST)
+       help
+         Support for error detection and correction for Amazon's Annapurna
+         Labs Alpine chips which allow 1 bit correction and 2 bits detection.
+
 config EDAC_AMD76X
        tristate "AMD 76x (760, 762, 768)"
        depends on PCI && X86_32
index 269e151..3a84916 100644 (file)
@@ -22,6 +22,7 @@ obj-$(CONFIG_EDAC_GHES)                       += ghes_edac.o
 edac_mce_amd-y                         := mce_amd.o
 obj-$(CONFIG_EDAC_DECODE_MCE)          += edac_mce_amd.o
 
+obj-$(CONFIG_EDAC_AL_MC)               += al_mc_edac.o
 obj-$(CONFIG_EDAC_AMD76X)              += amd76x_edac.o
 obj-$(CONFIG_EDAC_CPC925)              += cpc925_edac.o
 obj-$(CONFIG_EDAC_I5000)               += i5000_edac.o
diff --git a/drivers/edac/al_mc_edac.c b/drivers/edac/al_mc_edac.c
new file mode 100644 (file)
index 0000000..7d4f396
--- /dev/null
@@ -0,0 +1,354 @@
+// SPDX-License-Identifier: GPL-2.0
+/*
+ * Copyright 2019 Amazon.com, Inc. or its affiliates. All Rights Reserved.
+ */
+#include <linux/bitfield.h>
+#include <linux/bitops.h>
+#include <linux/edac.h>
+#include <linux/of_irq.h>
+#include <linux/platform_device.h>
+#include <linux/spinlock.h>
+#include "edac_module.h"
+
+/* Registers Offset */
+#define AL_MC_ECC_CFG          0x70
+#define AL_MC_ECC_CLEAR                0x7c
+#define AL_MC_ECC_ERR_COUNT    0x80
+#define AL_MC_ECC_CE_ADDR0     0x84
+#define AL_MC_ECC_CE_ADDR1     0x88
+#define AL_MC_ECC_UE_ADDR0     0xa4
+#define AL_MC_ECC_UE_ADDR1     0xa8
+#define AL_MC_ECC_CE_SYND0     0x8c
+#define AL_MC_ECC_CE_SYND1     0x90
+#define AL_MC_ECC_CE_SYND2     0x94
+#define AL_MC_ECC_UE_SYND0     0xac
+#define AL_MC_ECC_UE_SYND1     0xb0
+#define AL_MC_ECC_UE_SYND2     0xb4
+
+/* Registers Fields */
+#define AL_MC_ECC_CFG_SCRUB_DISABLED   BIT(4)
+
+#define AL_MC_ECC_CLEAR_UE_COUNT       BIT(3)
+#define AL_MC_ECC_CLEAR_CE_COUNT       BIT(2)
+#define AL_MC_ECC_CLEAR_UE_ERR         BIT(1)
+#define AL_MC_ECC_CLEAR_CE_ERR         BIT(0)
+
+#define AL_MC_ECC_ERR_COUNT_UE         GENMASK(31, 16)
+#define AL_MC_ECC_ERR_COUNT_CE         GENMASK(15, 0)
+
+#define AL_MC_ECC_CE_ADDR0_RANK                GENMASK(25, 24)
+#define AL_MC_ECC_CE_ADDR0_ROW         GENMASK(17, 0)
+
+#define AL_MC_ECC_CE_ADDR1_BG          GENMASK(25, 24)
+#define AL_MC_ECC_CE_ADDR1_BANK                GENMASK(18, 16)
+#define AL_MC_ECC_CE_ADDR1_COLUMN      GENMASK(11, 0)
+
+#define AL_MC_ECC_UE_ADDR0_RANK                GENMASK(25, 24)
+#define AL_MC_ECC_UE_ADDR0_ROW         GENMASK(17, 0)
+
+#define AL_MC_ECC_UE_ADDR1_BG          GENMASK(25, 24)
+#define AL_MC_ECC_UE_ADDR1_BANK                GENMASK(18, 16)
+#define AL_MC_ECC_UE_ADDR1_COLUMN      GENMASK(11, 0)
+
+#define DRV_NAME "al_mc_edac"
+#define AL_MC_EDAC_MSG_MAX 256
+
+struct al_mc_edac {
+       void __iomem *mmio_base;
+       spinlock_t lock;
+       int irq_ce;
+       int irq_ue;
+};
+
+static void prepare_msg(char *message, size_t buffer_size,
+                       enum hw_event_mc_err_type type,
+                       u8 rank, u32 row, u8 bg, u8 bank, u16 column,
+                       u32 syn0, u32 syn1, u32 syn2)
+{
+       snprintf(message, buffer_size,
+                "%s rank=0x%x row=0x%x bg=0x%x bank=0x%x col=0x%x syn0: 0x%x syn1: 0x%x syn2: 0x%x",
+                type == HW_EVENT_ERR_UNCORRECTED ? "UE" : "CE",
+                rank, row, bg, bank, column, syn0, syn1, syn2);
+}
+
+static int handle_ce(struct mem_ctl_info *mci)
+{
+       u32 eccerrcnt, ecccaddr0, ecccaddr1, ecccsyn0, ecccsyn1, ecccsyn2, row;
+       struct al_mc_edac *al_mc = mci->pvt_info;
+       char msg[AL_MC_EDAC_MSG_MAX];
+       u16 ce_count, column;
+       unsigned long flags;
+       u8 rank, bg, bank;
+
+       eccerrcnt = readl_relaxed(al_mc->mmio_base + AL_MC_ECC_ERR_COUNT);
+       ce_count = FIELD_GET(AL_MC_ECC_ERR_COUNT_CE, eccerrcnt);
+       if (!ce_count)
+               return 0;
+
+       ecccaddr0 = readl_relaxed(al_mc->mmio_base + AL_MC_ECC_CE_ADDR0);
+       ecccaddr1 = readl_relaxed(al_mc->mmio_base + AL_MC_ECC_CE_ADDR1);
+       ecccsyn0 = readl_relaxed(al_mc->mmio_base + AL_MC_ECC_CE_SYND0);
+       ecccsyn1 = readl_relaxed(al_mc->mmio_base + AL_MC_ECC_CE_SYND1);
+       ecccsyn2 = readl_relaxed(al_mc->mmio_base + AL_MC_ECC_CE_SYND2);
+
+       writel_relaxed(AL_MC_ECC_CLEAR_CE_COUNT | AL_MC_ECC_CLEAR_CE_ERR,
+                      al_mc->mmio_base + AL_MC_ECC_CLEAR);
+
+       dev_dbg(mci->pdev, "eccuaddr0=0x%08x eccuaddr1=0x%08x\n",
+               ecccaddr0, ecccaddr1);
+
+       rank = FIELD_GET(AL_MC_ECC_CE_ADDR0_RANK, ecccaddr0);
+       row = FIELD_GET(AL_MC_ECC_CE_ADDR0_ROW, ecccaddr0);
+
+       bg = FIELD_GET(AL_MC_ECC_CE_ADDR1_BG, ecccaddr1);
+       bank = FIELD_GET(AL_MC_ECC_CE_ADDR1_BANK, ecccaddr1);
+       column = FIELD_GET(AL_MC_ECC_CE_ADDR1_COLUMN, ecccaddr1);
+
+       prepare_msg(msg, sizeof(msg), HW_EVENT_ERR_CORRECTED,
+                   rank, row, bg, bank, column,
+                   ecccsyn0, ecccsyn1, ecccsyn2);
+
+       spin_lock_irqsave(&al_mc->lock, flags);
+       edac_mc_handle_error(HW_EVENT_ERR_CORRECTED, mci,
+                            ce_count, 0, 0, 0, 0, 0, -1, mci->ctl_name, msg);
+       spin_unlock_irqrestore(&al_mc->lock, flags);
+
+       return ce_count;
+}
+
+static int handle_ue(struct mem_ctl_info *mci)
+{
+       u32 eccerrcnt, eccuaddr0, eccuaddr1, eccusyn0, eccusyn1, eccusyn2, row;
+       struct al_mc_edac *al_mc = mci->pvt_info;
+       char msg[AL_MC_EDAC_MSG_MAX];
+       u16 ue_count, column;
+       unsigned long flags;
+       u8 rank, bg, bank;
+
+       eccerrcnt = readl_relaxed(al_mc->mmio_base + AL_MC_ECC_ERR_COUNT);
+       ue_count = FIELD_GET(AL_MC_ECC_ERR_COUNT_UE, eccerrcnt);
+       if (!ue_count)
+               return 0;
+
+       eccuaddr0 = readl_relaxed(al_mc->mmio_base + AL_MC_ECC_UE_ADDR0);
+       eccuaddr1 = readl_relaxed(al_mc->mmio_base + AL_MC_ECC_UE_ADDR1);
+       eccusyn0 = readl_relaxed(al_mc->mmio_base + AL_MC_ECC_UE_SYND0);
+       eccusyn1 = readl_relaxed(al_mc->mmio_base + AL_MC_ECC_UE_SYND1);
+       eccusyn2 = readl_relaxed(al_mc->mmio_base + AL_MC_ECC_UE_SYND2);
+
+       writel_relaxed(AL_MC_ECC_CLEAR_UE_COUNT | AL_MC_ECC_CLEAR_UE_ERR,
+                      al_mc->mmio_base + AL_MC_ECC_CLEAR);
+
+       dev_dbg(mci->pdev, "eccuaddr0=0x%08x eccuaddr1=0x%08x\n",
+               eccuaddr0, eccuaddr1);
+
+       rank = FIELD_GET(AL_MC_ECC_UE_ADDR0_RANK, eccuaddr0);
+       row = FIELD_GET(AL_MC_ECC_UE_ADDR0_ROW, eccuaddr0);
+
+       bg = FIELD_GET(AL_MC_ECC_UE_ADDR1_BG, eccuaddr1);
+       bank = FIELD_GET(AL_MC_ECC_UE_ADDR1_BANK, eccuaddr1);
+       column = FIELD_GET(AL_MC_ECC_UE_ADDR1_COLUMN, eccuaddr1);
+
+       prepare_msg(msg, sizeof(msg), HW_EVENT_ERR_UNCORRECTED,
+                   rank, row, bg, bank, column,
+                   eccusyn0, eccusyn1, eccusyn2);
+
+       spin_lock_irqsave(&al_mc->lock, flags);
+       edac_mc_handle_error(HW_EVENT_ERR_UNCORRECTED, mci,
+                            ue_count, 0, 0, 0, 0, 0, -1, mci->ctl_name, msg);
+       spin_unlock_irqrestore(&al_mc->lock, flags);
+
+       return ue_count;
+}
+
+static void al_mc_edac_check(struct mem_ctl_info *mci)
+{
+       struct al_mc_edac *al_mc = mci->pvt_info;
+
+       if (al_mc->irq_ue <= 0)
+               handle_ue(mci);
+
+       if (al_mc->irq_ce <= 0)
+               handle_ce(mci);
+}
+
+static irqreturn_t al_mc_edac_irq_handler_ue(int irq, void *info)
+{
+       struct platform_device *pdev = info;
+       struct mem_ctl_info *mci = platform_get_drvdata(pdev);
+
+       if (handle_ue(mci))
+               return IRQ_HANDLED;
+       return IRQ_NONE;
+}
+
+static irqreturn_t al_mc_edac_irq_handler_ce(int irq, void *info)
+{
+       struct platform_device *pdev = info;
+       struct mem_ctl_info *mci = platform_get_drvdata(pdev);
+
+       if (handle_ce(mci))
+               return IRQ_HANDLED;
+       return IRQ_NONE;
+}
+
+static enum scrub_type get_scrub_mode(void __iomem *mmio_base)
+{
+       u32 ecccfg0;
+
+       ecccfg0 = readl(mmio_base + AL_MC_ECC_CFG);
+
+       if (FIELD_GET(AL_MC_ECC_CFG_SCRUB_DISABLED, ecccfg0))
+               return SCRUB_NONE;
+       else
+               return SCRUB_HW_SRC;
+}
+
+static void devm_al_mc_edac_free(void *data)
+{
+       edac_mc_free(data);
+}
+
+static void devm_al_mc_edac_del(void *data)
+{
+       edac_mc_del_mc(data);
+}
+
+static int al_mc_edac_probe(struct platform_device *pdev)
+{
+       struct edac_mc_layer layers[1];
+       struct mem_ctl_info *mci;
+       struct al_mc_edac *al_mc;
+       void __iomem *mmio_base;
+       struct dimm_info *dimm;
+       int ret;
+
+       mmio_base = devm_platform_ioremap_resource(pdev, 0);
+       if (IS_ERR(mmio_base)) {
+               dev_err(&pdev->dev, "failed to ioremap memory (%ld)\n",
+                       PTR_ERR(mmio_base));
+               return PTR_ERR(mmio_base);
+       }
+
+       layers[0].type = EDAC_MC_LAYER_CHIP_SELECT;
+       layers[0].size = 1;
+       layers[0].is_virt_csrow = false;
+       mci = edac_mc_alloc(0, ARRAY_SIZE(layers), layers,
+                           sizeof(struct al_mc_edac));
+       if (!mci)
+               return -ENOMEM;
+
+       ret = devm_add_action(&pdev->dev, devm_al_mc_edac_free, mci);
+       if (ret) {
+               edac_mc_free(mci);
+               return ret;
+       }
+
+       platform_set_drvdata(pdev, mci);
+       al_mc = mci->pvt_info;
+
+       al_mc->mmio_base = mmio_base;
+
+       al_mc->irq_ue = of_irq_get_byname(pdev->dev.of_node, "ue");
+       if (al_mc->irq_ue <= 0)
+               dev_dbg(&pdev->dev,
+                       "no IRQ defined for UE - falling back to polling\n");
+
+       al_mc->irq_ce = of_irq_get_byname(pdev->dev.of_node, "ce");
+       if (al_mc->irq_ce <= 0)
+               dev_dbg(&pdev->dev,
+                       "no IRQ defined for CE - falling back to polling\n");
+
+       /*
+        * In case both interrupts (ue/ce) are to be found, use interrupt mode.
+        * In case none of the interrupt are foud, use polling mode.
+        * In case only one interrupt is found, use interrupt mode for it but
+        * keep polling mode enable for the other.
+        */
+       if (al_mc->irq_ue <= 0 || al_mc->irq_ce <= 0) {
+               edac_op_state = EDAC_OPSTATE_POLL;
+               mci->edac_check = al_mc_edac_check;
+       } else {
+               edac_op_state = EDAC_OPSTATE_INT;
+       }
+
+       spin_lock_init(&al_mc->lock);
+
+       mci->mtype_cap = MEM_FLAG_DDR3 | MEM_FLAG_DDR4;
+       mci->edac_ctl_cap = EDAC_FLAG_NONE | EDAC_FLAG_SECDED;
+       mci->edac_cap = EDAC_FLAG_SECDED;
+       mci->mod_name = DRV_NAME;
+       mci->ctl_name = "al_mc";
+       mci->pdev = &pdev->dev;
+       mci->scrub_mode = get_scrub_mode(mmio_base);
+
+       dimm = *mci->dimms;
+       dimm->grain = 1;
+
+       ret = edac_mc_add_mc(mci);
+       if (ret < 0) {
+               dev_err(&pdev->dev,
+                       "fail to add memory controller device (%d)\n",
+                       ret);
+               return ret;
+       }
+
+       ret = devm_add_action(&pdev->dev, devm_al_mc_edac_del, &pdev->dev);
+       if (ret) {
+               edac_mc_del_mc(&pdev->dev);
+               return ret;
+       }
+
+       if (al_mc->irq_ue > 0) {
+               ret = devm_request_irq(&pdev->dev,
+                                      al_mc->irq_ue,
+                                      al_mc_edac_irq_handler_ue,
+                                      IRQF_SHARED,
+                                      pdev->name,
+                                      pdev);
+               if (ret != 0) {
+                       dev_err(&pdev->dev,
+                               "failed to request UE IRQ %d (%d)\n",
+                               al_mc->irq_ue, ret);
+                       return ret;
+               }
+       }
+
+       if (al_mc->irq_ce > 0) {
+               ret = devm_request_irq(&pdev->dev,
+                                      al_mc->irq_ce,
+                                      al_mc_edac_irq_handler_ce,
+                                      IRQF_SHARED,
+                                      pdev->name,
+                                      pdev);
+               if (ret != 0) {
+                       dev_err(&pdev->dev,
+                               "failed to request CE IRQ %d (%d)\n",
+                               al_mc->irq_ce, ret);
+                       return ret;
+               }
+       }
+
+       return 0;
+}
+
+static const struct of_device_id al_mc_edac_of_match[] = {
+       { .compatible = "amazon,al-mc-edac", },
+       {},
+};
+
+MODULE_DEVICE_TABLE(of, al_mc_edac_of_match);
+
+static struct platform_driver al_mc_edac_driver = {
+       .probe = al_mc_edac_probe,
+       .driver = {
+               .name = DRV_NAME,
+               .of_match_table = al_mc_edac_of_match,
+       },
+};
+
+module_platform_driver(al_mc_edac_driver);
+
+MODULE_LICENSE("GPL v2");
+MODULE_AUTHOR("Talel Shenhar");
+MODULE_DESCRIPTION("Amazon's Annapurna Lab's Memory Controller EDAC Driver");
index fcc08bb..1362274 100644 (file)
@@ -3385,6 +3385,12 @@ static struct amd64_family_type *per_family_init(struct amd64_pvt *pvt)
                break;
 
        case 0x19:
+               if (pvt->model >= 0x20 && pvt->model <= 0x2f) {
+                       fam_type = &family_types[F17_M70H_CPUS];
+                       pvt->ops = &family_types[F17_M70H_CPUS].ops;
+                       fam_type->ctl_name = "F19h_M20h";
+                       break;
+               }
                fam_type        = &family_types[F19_CPUS];
                pvt->ops        = &family_types[F19_CPUS].ops;
                family_types[F19_CPUS].ctl_name = "F19h";
index b194658..fde809e 100644 (file)
@@ -209,8 +209,8 @@ static int config_irq(void *ctx, struct platform_device *pdev)
        /* register interrupt handler */
        irq = platform_get_irq(pdev, 0);
        dev_dbg(&pdev->dev, "got irq %d\n", irq);
-       if (!irq)
-               return -ENODEV;
+       if (irq < 0)
+               return irq;
 
        rc = devm_request_irq(&pdev->dev, irq, mcr_isr, IRQF_TRIGGER_HIGH,
                              DRV_NAME, ctx);
@@ -388,23 +388,7 @@ static struct platform_driver aspeed_driver = {
        .probe          = aspeed_probe,
        .remove         = aspeed_remove
 };
-
-
-static int __init aspeed_init(void)
-{
-       return platform_driver_register(&aspeed_driver);
-}
-
-
-static void __exit aspeed_exit(void)
-{
-       platform_driver_unregister(&aspeed_driver);
-}
-
-
-module_init(aspeed_init);
-module_exit(aspeed_exit);
-
+module_platform_driver(aspeed_driver);
 
 MODULE_LICENSE("GPL");
 MODULE_AUTHOR("Stefan Schaeckeler <sschaeck@cisco.com>");
index de732dc..313d080 100644 (file)
@@ -7,7 +7,7 @@
  * Implement support for the e7520, E7525, e7320 and i3100 memory controllers.
  *
  * Datasheets:
- *     http://www.intel.in/content/www/in/en/chipsets/e7525-memory-controller-hub-datasheet.html
+ *     https://www.intel.in/content/www/in/en/chipsets/e7525-memory-controller-hub-datasheet.html
  *     ftp://download.intel.com/design/intarch/datashts/31345803.pdf
  *
  * Written by Tom Zimmerman
index 4e6aca5..2f9f1e7 100644 (file)
@@ -474,8 +474,12 @@ static ssize_t dimmdev_location_show(struct device *dev,
                                     struct device_attribute *mattr, char *data)
 {
        struct dimm_info *dimm = to_dimm(dev);
+       ssize_t count;
 
-       return edac_dimm_info_location(dimm, data, PAGE_SIZE);
+       count = edac_dimm_info_location(dimm, data, PAGE_SIZE);
+       count += scnprintf(data + count, PAGE_SIZE - count, "\n");
+
+       return count;
 }
 
 static ssize_t dimmdev_label_show(struct device *dev,
@@ -813,15 +817,23 @@ static ssize_t mci_max_location_show(struct device *dev,
                                     char *data)
 {
        struct mem_ctl_info *mci = to_mci(dev);
-       int i;
+       int len = PAGE_SIZE;
        char *p = data;
+       int i, n;
 
        for (i = 0; i < mci->n_layers; i++) {
-               p += sprintf(p, "%s %d ",
-                            edac_layer_name[mci->layers[i].type],
-                            mci->layers[i].size - 1);
+               n = scnprintf(p, len, "%s %d ",
+                             edac_layer_name[mci->layers[i].type],
+                             mci->layers[i].size - 1);
+               len -= n;
+               if (len <= 0)
+                       goto out;
+
+               p += n;
        }
 
+       p += scnprintf(p, len, "\n");
+out:
        return p - data;
 }
 
index 94d1e31..a918ca9 100644 (file)
@@ -4,7 +4,7 @@
  *
  * Copyright (c) 2013 by Mauro Carvalho Chehab
  *
- * Red Hat Inc. http://www.redhat.com
+ * Red Hat Inc. https://www.redhat.com
  */
 
 #define pr_fmt(fmt) KBUILD_MODNAME ": " fmt
@@ -372,8 +372,18 @@ void ghes_edac_report_mem_error(int sev, struct cper_sec_mem_err *mem_err)
                p += sprintf(p, "rank:%d ", mem_err->rank);
        if (mem_err->validation_bits & CPER_MEM_VALID_BANK)
                p += sprintf(p, "bank:%d ", mem_err->bank);
-       if (mem_err->validation_bits & CPER_MEM_VALID_ROW)
-               p += sprintf(p, "row:%d ", mem_err->row);
+       if (mem_err->validation_bits & CPER_MEM_VALID_BANK_GROUP)
+               p += sprintf(p, "bank_group:%d ",
+                            mem_err->bank >> CPER_MEM_BANK_GROUP_SHIFT);
+       if (mem_err->validation_bits & CPER_MEM_VALID_BANK_ADDRESS)
+               p += sprintf(p, "bank_address:%d ",
+                            mem_err->bank & CPER_MEM_BANK_ADDRESS_MASK);
+       if (mem_err->validation_bits & (CPER_MEM_VALID_ROW | CPER_MEM_VALID_ROW_EXT)) {
+               u32 row = mem_err->row;
+
+               row |= cper_get_mem_extension(mem_err->validation_bits, mem_err->extended);
+               p += sprintf(p, "row:%d ", row);
+       }
        if (mem_err->validation_bits & CPER_MEM_VALID_COLUMN)
                p += sprintf(p, "col:%d ", mem_err->column);
        if (mem_err->validation_bits & CPER_MEM_VALID_BIT_POSITION)
@@ -395,6 +405,9 @@ void ghes_edac_report_mem_error(int sev, struct cper_sec_mem_err *mem_err)
                        strcpy(e->label, dimm->label);
                }
        }
+       if (mem_err->validation_bits & CPER_MEM_VALID_CHIP_ID)
+               p += sprintf(p, "chipID: %d ",
+                            mem_err->extended >> CPER_MEM_CHIP_ID_SHIFT);
        if (p > e->location)
                *(p - 1) = '\0';
 
index 191aa7c..324a46b 100644 (file)
@@ -1061,16 +1061,15 @@ static int i5100_init_one(struct pci_dev *pdev, const struct pci_device_id *id)
                                    PCI_DEVICE_ID_INTEL_5100_19, 0);
        if (!einj) {
                ret = -ENODEV;
-               goto bail_einj;
+               goto bail_mc_free;
        }
 
        rc = pci_enable_device(einj);
        if (rc < 0) {
                ret = rc;
-               goto bail_disable_einj;
+               goto bail_einj;
        }
 
-
        mci->pdev = &pdev->dev;
 
        priv = mci->pvt_info;
@@ -1136,14 +1135,14 @@ static int i5100_init_one(struct pci_dev *pdev, const struct pci_device_id *id)
 bail_scrub:
        priv->scrub_enable = 0;
        cancel_delayed_work_sync(&(priv->i5100_scrubbing));
-       edac_mc_free(mci);
-
-bail_disable_einj:
        pci_disable_device(einj);
 
 bail_einj:
        pci_dev_put(einj);
 
+bail_mc_free:
+       edac_mc_free(mci);
+
 bail_disable_ch1:
        pci_disable_device(ch1mm);
 
index f131c05..92d63eb 100644 (file)
@@ -8,7 +8,7 @@
  *      Ben Woodard <woodard@redhat.com>
  *      Mauro Carvalho Chehab
  *
- * Red Hat Inc. http://www.redhat.com
+ * Red Hat Inc. https://www.redhat.com
  *
  * Forked and adapted from the i5000_edac driver which was
  * written by Douglas Thompson Linux Networx <norsk5@xmission.com>
@@ -1460,7 +1460,7 @@ module_exit(i5400_exit);
 MODULE_LICENSE("GPL");
 MODULE_AUTHOR("Ben Woodard <woodard@redhat.com>");
 MODULE_AUTHOR("Mauro Carvalho Chehab");
-MODULE_AUTHOR("Red Hat Inc. (http://www.redhat.com)");
+MODULE_AUTHOR("Red Hat Inc. (https://www.redhat.com)");
 MODULE_DESCRIPTION("MC Driver for Intel I5400 memory controllers - "
                   I5400_REVISION);
 
index 2e9bbe5..4f28b8c 100644 (file)
@@ -5,7 +5,7 @@
  * Copyright (c) 2010 by:
  *      Mauro Carvalho Chehab
  *
- * Red Hat Inc. http://www.redhat.com
+ * Red Hat Inc. https://www.redhat.com
  *
  * Intel 7300 Chipset Memory Controller Hub (MCH) - Datasheet
  *     http://www.intel.com/Assets/PDF/datasheet/318082.pdf
@@ -1206,7 +1206,7 @@ module_exit(i7300_exit);
 
 MODULE_LICENSE("GPL");
 MODULE_AUTHOR("Mauro Carvalho Chehab");
-MODULE_AUTHOR("Red Hat Inc. (http://www.redhat.com)");
+MODULE_AUTHOR("Red Hat Inc. (https://www.redhat.com)");
 MODULE_DESCRIPTION("MC Driver for Intel I7300 memory controllers - "
                   I7300_REVISION);
 
index 2acd9f9..23d2572 100644 (file)
@@ -9,7 +9,7 @@
  * Copyright (c) 2009-2010 by:
  *      Mauro Carvalho Chehab
  *
- * Red Hat Inc. http://www.redhat.com
+ * Red Hat Inc. https://www.redhat.com
  *
  * Forked and adapted from the i5400_edac driver
  *
@@ -2391,7 +2391,7 @@ module_exit(i7core_exit);
 
 MODULE_LICENSE("GPL");
 MODULE_AUTHOR("Mauro Carvalho Chehab");
-MODULE_AUTHOR("Red Hat Inc. (http://www.redhat.com)");
+MODULE_AUTHOR("Red Hat Inc. (https://www.redhat.com)");
 MODULE_DESCRIPTION("MC Driver for Intel i7 Core memory controllers - "
                   I7CORE_REVISION);
 
index ebe5099..c479632 100644 (file)
@@ -9,7 +9,7 @@
  * Since the DRAM controller is on the cpu chip, we can use its PCI device
  * id to identify these processors.
  *
- * PCI DRAM controller device ids (Taken from The PCI ID Repository - http://pci-ids.ucw.cz/)
+ * PCI DRAM controller device ids (Taken from The PCI ID Repository - https://pci-ids.ucw.cz/)
  *
  * 0108: Xeon E3-1200 Processor Family DRAM Controller
  * 010c: Xeon E3-1200/2nd Generation Core Processor Family DRAM Controller
@@ -23,9 +23,9 @@
  * 3e..: 8th/9th Gen Core Processor Host Bridge/DRAM Registers
  *
  * Based on Intel specification:
- * http://www.intel.com/content/dam/www/public/us/en/documents/datasheets/xeon-e3-1200v3-vol-2-datasheet.pdf
+ * https://www.intel.com/content/dam/www/public/us/en/documents/datasheets/xeon-e3-1200v3-vol-2-datasheet.pdf
  * http://www.intel.com/content/www/us/en/processors/xeon/xeon-e3-1200-family-vol-2-datasheet.html
- * http://www.intel.com/content/www/us/en/processors/core/7th-gen-core-family-mobile-h-processor-lines-datasheet-vol-2.html
+ * https://www.intel.com/content/www/us/en/processors/core/7th-gen-core-family-mobile-h-processor-lines-datasheet-vol-2.html
  * https://www.intel.com/content/www/us/en/products/docs/processors/core/8th-gen-core-family-datasheet-vol-2.html
  *
  * According to the above datasheet (p.16):
index 325aedf..7f28edb 100644 (file)
@@ -210,6 +210,11 @@ static const char * const smca_if_mce_desc[] = {
        "L2 BTB Multi-Match Error",
        "L2 Cache Response Poison Error",
        "System Read Data Error",
+       "Hardware Assertion Error",
+       "L1-TLB Multi-Hit",
+       "L2-TLB Multi-Hit",
+       "BSR Parity Error",
+       "CT MCE",
 };
 
 static const char * const smca_l2_mce_desc[] = {
@@ -228,7 +233,8 @@ static const char * const smca_de_mce_desc[] = {
        "Fetch address FIFO parity error",
        "Patch RAM data parity error",
        "Patch RAM sequencer parity error",
-       "Micro-op buffer parity error"
+       "Micro-op buffer parity error",
+       "Hardware Assertion MCA Error",
 };
 
 static const char * const smca_ex_mce_desc[] = {
@@ -244,6 +250,8 @@ static const char * const smca_ex_mce_desc[] = {
        "Scheduling queue parity error",
        "Branch buffer queue parity error",
        "Hardware Assertion error",
+       "Spec Map parity error",
+       "Retire Map parity error",
 };
 
 static const char * const smca_fp_mce_desc[] = {
@@ -360,6 +368,7 @@ static const char * const smca_smu2_mce_desc[] = {
        "Instruction Tag Cache Bank A ECC or parity error",
        "Instruction Tag Cache Bank B ECC or parity error",
        "System Hub Read Buffer ECC or parity error",
+       "PHY RAM ECC error",
 };
 
 static const char * const smca_mp5_mce_desc[] = {
@@ -990,10 +999,8 @@ static void decode_smca_error(struct mce *m)
        pr_emerg(HW_ERR "%s Ext. Error Code: %d", ip_name, xec);
 
        /* Only print the decode of valid error codes */
-       if (xec < smca_mce_descs[bank_type].num_descs &&
-                       (hwid->xec_bitmap & BIT_ULL(xec))) {
+       if (xec < smca_mce_descs[bank_type].num_descs)
                pr_cont(", %s.\n", smca_mce_descs[bank_type].descs[xec]);
-       }
 
        if (bank_type == SMCA_UMC && xec == 0 && decode_dram_ecc)
                decode_dram_ecc(cpu_to_node(m->extcpu), m);
index c5ab634..93daa42 100644 (file)
@@ -939,12 +939,9 @@ static enum dev_type sbridge_get_width(struct sbridge_pvt *pvt, u32 mtr)
 
 static enum dev_type __ibridge_get_width(u32 mtr)
 {
-       enum dev_type type;
+       enum dev_type type = DEV_UNKNOWN;
 
        switch (mtr) {
-       case 3:
-               type = DEV_UNKNOWN;
-               break;
        case 2:
                type = DEV_X16;
                break;
@@ -3552,6 +3549,6 @@ MODULE_PARM_DESC(edac_op_state, "EDAC Error Reporting state: 0=Poll,1=NMI");
 
 MODULE_LICENSE("GPL");
 MODULE_AUTHOR("Mauro Carvalho Chehab");
-MODULE_AUTHOR("Red Hat Inc. (http://www.redhat.com)");
+MODULE_AUTHOR("Red Hat Inc. (https://www.redhat.com)");
 MODULE_DESCRIPTION("MC Driver for Intel Sandy Bridge and Ivy Bridge memory controllers - "
                   SBRIDGE_REVISION);
index 4af9744..0eb5eb9 100644 (file)
@@ -454,7 +454,7 @@ DEBUGFS_STRUCT(inject_int, 0200, thunderx_lmc_inject_int_write, NULL);
 DEBUGFS_STRUCT(inject_ecc, 0200, thunderx_lmc_inject_ecc_write, NULL);
 DEBUGFS_STRUCT(int_w1c, 0400, NULL, thunderx_lmc_int_read);
 
-struct debugfs_entry *lmc_dfs_ents[] = {
+static struct debugfs_entry *lmc_dfs_ents[] = {
        &debugfs_mask0,
        &debugfs_mask2,
        &debugfs_parity_test,
index 8be3e89..e7eae20 100644 (file)
@@ -1,6 +1,6 @@
 // SPDX-License-Identifier: GPL-2.0
 /*
- * Copyright (C) 2017 Texas Instruments Incorporated - http://www.ti.com/
+ * Copyright (C) 2017 Texas Instruments Incorporated - https://www.ti.com/
  *
  * Texas Instruments DDR3 ECC error correction and detection driver
  *
@@ -278,7 +278,8 @@ static int ti_edac_probe(struct platform_device *pdev)
 
        /* add EMIF ECC error handler */
        error_irq = platform_get_irq(pdev, 0);
-       if (!error_irq) {
+       if (error_irq < 0) {
+               ret = error_irq;
                edac_printk(KERN_ERR, EDAC_MOD_NAME,
                            "EMIF irq number not defined.\n");
                goto err;
index b4b9ce9..840754d 100644 (file)
@@ -78,11 +78,26 @@ struct sdei_crosscall_args {
        int first_error;
 };
 
-#define CROSSCALL_INIT(arg, event)     (arg.event = event, \
-                                        arg.first_error = 0, \
-                                        atomic_set(&arg.errors, 0))
+#define CROSSCALL_INIT(arg, event)             \
+       do {                                    \
+               arg.event = event;              \
+               arg.first_error = 0;            \
+               atomic_set(&arg.errors, 0);     \
+       } while (0)
+
+static inline int sdei_do_local_call(smp_call_func_t fn,
+                                    struct sdei_event *event)
+{
+       struct sdei_crosscall_args arg;
+
+       CROSSCALL_INIT(arg, event);
+       fn(&arg);
 
-static inline int sdei_do_cross_call(void *fn, struct sdei_event * event)
+       return arg.first_error;
+}
+
+static inline int sdei_do_cross_call(smp_call_func_t fn,
+                                    struct sdei_event *event)
 {
        struct sdei_crosscall_args arg;
 
@@ -114,26 +129,7 @@ static int sdei_to_linux_errno(unsigned long sdei_err)
                return -ENOMEM;
        }
 
-       /* Not an error value ... */
-       return sdei_err;
-}
-
-/*
- * If x0 is any of these values, then the call failed, use sdei_to_linux_errno()
- * to translate.
- */
-static int sdei_is_err(struct arm_smccc_res *res)
-{
-       switch (res->a0) {
-       case SDEI_NOT_SUPPORTED:
-       case SDEI_INVALID_PARAMETERS:
-       case SDEI_DENIED:
-       case SDEI_PENDING:
-       case SDEI_OUT_OF_RESOURCE:
-               return true;
-       }
-
-       return false;
+       return 0;
 }
 
 static int invoke_sdei_fn(unsigned long function_id, unsigned long arg0,
@@ -141,14 +137,13 @@ static int invoke_sdei_fn(unsigned long function_id, unsigned long arg0,
                          unsigned long arg3, unsigned long arg4,
                          u64 *result)
 {
-       int err = 0;
+       int err;
        struct arm_smccc_res res;
 
        if (sdei_firmware_call) {
                sdei_firmware_call(function_id, arg0, arg1, arg2, arg3, arg4,
                                   &res);
-               if (sdei_is_err(&res))
-                       err = sdei_to_linux_errno(res.a0);
+               err = sdei_to_linux_errno(res.a0);
        } else {
                /*
                 * !sdei_firmware_call means we failed to probe or called
@@ -210,36 +205,34 @@ static struct sdei_event *sdei_event_create(u32 event_num,
        lockdep_assert_held(&sdei_events_lock);
 
        event = kzalloc(sizeof(*event), GFP_KERNEL);
-       if (!event)
-               return ERR_PTR(-ENOMEM);
+       if (!event) {
+               err = -ENOMEM;
+               goto fail;
+       }
 
        INIT_LIST_HEAD(&event->list);
        event->event_num = event_num;
 
        err = sdei_api_event_get_info(event_num, SDEI_EVENT_INFO_EV_PRIORITY,
                                      &result);
-       if (err) {
-               kfree(event);
-               return ERR_PTR(err);
-       }
+       if (err)
+               goto fail;
        event->priority = result;
 
        err = sdei_api_event_get_info(event_num, SDEI_EVENT_INFO_EV_TYPE,
                                      &result);
-       if (err) {
-               kfree(event);
-               return ERR_PTR(err);
-       }
+       if (err)
+               goto fail;
        event->type = result;
 
        if (event->type == SDEI_EVENT_TYPE_SHARED) {
                reg = kzalloc(sizeof(*reg), GFP_KERNEL);
                if (!reg) {
-                       kfree(event);
-                       return ERR_PTR(-ENOMEM);
+                       err = -ENOMEM;
+                       goto fail;
                }
 
-               reg->event_num = event_num;
+               reg->event_num = event->event_num;
                reg->priority = event->priority;
 
                reg->callback = cb;
@@ -251,8 +244,8 @@ static struct sdei_event *sdei_event_create(u32 event_num,
 
                regs = alloc_percpu(struct sdei_registered_event);
                if (!regs) {
-                       kfree(event);
-                       return ERR_PTR(-ENOMEM);
+                       err = -ENOMEM;
+                       goto fail;
                }
 
                for_each_possible_cpu(cpu) {
@@ -272,6 +265,10 @@ static struct sdei_event *sdei_event_create(u32 event_num,
        spin_unlock(&sdei_list_lock);
 
        return event;
+
+fail:
+       kfree(event);
+       return ERR_PTR(err);
 }
 
 static void sdei_event_destroy_llocked(struct sdei_event *event)
@@ -490,16 +487,6 @@ static void _local_event_unregister(void *data)
        sdei_cross_call_return(arg, err);
 }
 
-static int _sdei_event_unregister(struct sdei_event *event)
-{
-       lockdep_assert_held(&sdei_events_lock);
-
-       if (event->type == SDEI_EVENT_TYPE_SHARED)
-               return sdei_api_event_unregister(event->event_num);
-
-       return sdei_do_cross_call(_local_event_unregister, event);
-}
-
 int sdei_event_unregister(u32 event_num)
 {
        int err;
@@ -509,24 +496,27 @@ int sdei_event_unregister(u32 event_num)
 
        mutex_lock(&sdei_events_lock);
        event = sdei_event_find(event_num);
-       do {
-               if (!event) {
-                       pr_warn("Event %u not registered\n", event_num);
-                       err = -ENOENT;
-                       break;
-               }
+       if (!event) {
+               pr_warn("Event %u not registered\n", event_num);
+               err = -ENOENT;
+               goto unlock;
+       }
 
-               spin_lock(&sdei_list_lock);
-               event->reregister = false;
-               event->reenable = false;
-               spin_unlock(&sdei_list_lock);
+       spin_lock(&sdei_list_lock);
+       event->reregister = false;
+       event->reenable = false;
+       spin_unlock(&sdei_list_lock);
 
-               err = _sdei_event_unregister(event);
-               if (err)
-                       break;
+       if (event->type == SDEI_EVENT_TYPE_SHARED)
+               err = sdei_api_event_unregister(event->event_num);
+       else
+               err = sdei_do_cross_call(_local_event_unregister, event);
 
-               sdei_event_destroy(event);
-       } while (0);
+       if (err)
+               goto unlock;
+
+       sdei_event_destroy(event);
+unlock:
        mutex_unlock(&sdei_events_lock);
 
        return err;
@@ -547,7 +537,7 @@ static int sdei_unregister_shared(void)
                if (event->type != SDEI_EVENT_TYPE_SHARED)
                        continue;
 
-               err = _sdei_event_unregister(event);
+               err = sdei_api_event_unregister(event->event_num);
                if (err)
                        break;
        }
@@ -581,25 +571,6 @@ static void _local_event_register(void *data)
        sdei_cross_call_return(arg, err);
 }
 
-static int _sdei_event_register(struct sdei_event *event)
-{
-       int err;
-
-       lockdep_assert_held(&sdei_events_lock);
-
-       if (event->type == SDEI_EVENT_TYPE_SHARED)
-               return sdei_api_event_register(event->event_num,
-                                              sdei_entry_point,
-                                              event->registered,
-                                              SDEI_EVENT_REGISTER_RM_ANY, 0);
-
-       err = sdei_do_cross_call(_local_event_register, event);
-       if (err)
-               sdei_do_cross_call(_local_event_unregister, event);
-
-       return err;
-}
-
 int sdei_event_register(u32 event_num, sdei_event_callback *cb, void *arg)
 {
        int err;
@@ -608,63 +579,44 @@ int sdei_event_register(u32 event_num, sdei_event_callback *cb, void *arg)
        WARN_ON(in_nmi());
 
        mutex_lock(&sdei_events_lock);
-       do {
-               if (sdei_event_find(event_num)) {
-                       pr_warn("Event %u already registered\n", event_num);
-                       err = -EBUSY;
-                       break;
-               }
-
-               event = sdei_event_create(event_num, cb, arg);
-               if (IS_ERR(event)) {
-                       err = PTR_ERR(event);
-                       pr_warn("Failed to create event %u: %d\n", event_num,
-                               err);
-                       break;
-               }
-
-               cpus_read_lock();
-               err = _sdei_event_register(event);
-               if (err) {
-                       sdei_event_destroy(event);
-                       pr_warn("Failed to register event %u: %d\n", event_num,
-                               err);
-               } else {
-                       spin_lock(&sdei_list_lock);
-                       event->reregister = true;
-                       spin_unlock(&sdei_list_lock);
-               }
-               cpus_read_unlock();
-       } while (0);
-       mutex_unlock(&sdei_events_lock);
-
-       return err;
-}
-
-static int sdei_reregister_event_llocked(struct sdei_event *event)
-{
-       int err;
-
-       lockdep_assert_held(&sdei_events_lock);
-       lockdep_assert_held(&sdei_list_lock);
+       if (sdei_event_find(event_num)) {
+               pr_warn("Event %u already registered\n", event_num);
+               err = -EBUSY;
+               goto unlock;
+       }
 
-       err = _sdei_event_register(event);
-       if (err) {
-               pr_err("Failed to re-register event %u\n", event->event_num);
-               sdei_event_destroy_llocked(event);
-               return err;
+       event = sdei_event_create(event_num, cb, arg);
+       if (IS_ERR(event)) {
+               err = PTR_ERR(event);
+               pr_warn("Failed to create event %u: %d\n", event_num, err);
+               goto unlock;
        }
 
-       if (event->reenable) {
-               if (event->type == SDEI_EVENT_TYPE_SHARED)
-                       err = sdei_api_event_enable(event->event_num);
-               else
-                       err = sdei_do_cross_call(_local_event_enable, event);
+       cpus_read_lock();
+       if (event->type == SDEI_EVENT_TYPE_SHARED) {
+               err = sdei_api_event_register(event->event_num,
+                                             sdei_entry_point,
+                                             event->registered,
+                                             SDEI_EVENT_REGISTER_RM_ANY, 0);
+       } else {
+               err = sdei_do_cross_call(_local_event_register, event);
+               if (err)
+                       sdei_do_cross_call(_local_event_unregister, event);
        }
 
-       if (err)
-               pr_err("Failed to re-enable event %u\n", event->event_num);
+       if (err) {
+               sdei_event_destroy(event);
+               pr_warn("Failed to register event %u: %d\n", event_num, err);
+               goto cpu_unlock;
+       }
 
+       spin_lock(&sdei_list_lock);
+       event->reregister = true;
+       spin_unlock(&sdei_list_lock);
+cpu_unlock:
+       cpus_read_unlock();
+unlock:
+       mutex_unlock(&sdei_events_lock);
        return err;
 }
 
@@ -680,9 +632,24 @@ static int sdei_reregister_shared(void)
                        continue;
 
                if (event->reregister) {
-                       err = sdei_reregister_event_llocked(event);
-                       if (err)
+                       err = sdei_api_event_register(event->event_num,
+                                       sdei_entry_point, event->registered,
+                                       SDEI_EVENT_REGISTER_RM_ANY, 0);
+                       if (err) {
+                               pr_err("Failed to re-register event %u\n",
+                                      event->event_num);
+                               sdei_event_destroy_llocked(event);
                                break;
+                       }
+               }
+
+               if (event->reenable) {
+                       err = sdei_api_event_enable(event->event_num);
+                       if (err) {
+                               pr_err("Failed to re-enable event %u\n",
+                                      event->event_num);
+                               break;
+                       }
                }
        }
        spin_unlock(&sdei_list_lock);
@@ -694,7 +661,7 @@ static int sdei_reregister_shared(void)
 static int sdei_cpuhp_down(unsigned int cpu)
 {
        struct sdei_event *event;
-       struct sdei_crosscall_args arg;
+       int err;
 
        /* un-register private events */
        spin_lock(&sdei_list_lock);
@@ -702,12 +669,11 @@ static int sdei_cpuhp_down(unsigned int cpu)
                if (event->type == SDEI_EVENT_TYPE_SHARED)
                        continue;
 
-               CROSSCALL_INIT(arg, event);
-               /* call the cross-call function locally... */
-               _local_event_unregister(&arg);
-               if (arg.first_error)
+               err = sdei_do_local_call(_local_event_unregister, event);
+               if (err) {
                        pr_err("Failed to unregister event %u: %d\n",
-                              event->event_num, arg.first_error);
+                              event->event_num, err);
+               }
        }
        spin_unlock(&sdei_list_lock);
 
@@ -717,7 +683,7 @@ static int sdei_cpuhp_down(unsigned int cpu)
 static int sdei_cpuhp_up(unsigned int cpu)
 {
        struct sdei_event *event;
-       struct sdei_crosscall_args arg;
+       int err;
 
        /* re-register/enable private events */
        spin_lock(&sdei_list_lock);
@@ -726,20 +692,19 @@ static int sdei_cpuhp_up(unsigned int cpu)
                        continue;
 
                if (event->reregister) {
-                       CROSSCALL_INIT(arg, event);
-                       /* call the cross-call function locally... */
-                       _local_event_register(&arg);
-                       if (arg.first_error)
+                       err = sdei_do_local_call(_local_event_register, event);
+                       if (err) {
                                pr_err("Failed to re-register event %u: %d\n",
-                                      event->event_num, arg.first_error);
+                                      event->event_num, err);
+                       }
                }
 
                if (event->reenable) {
-                       CROSSCALL_INIT(arg, event);
-                       _local_event_enable(&arg);
-                       if (arg.first_error)
+                       err = sdei_do_local_call(_local_event_enable, event);
+                       if (err) {
                                pr_err("Failed to re-enable event %u: %d\n",
-                                      event->event_num, arg.first_error);
+                                      event->event_num, err);
+                       }
                }
        }
        spin_unlock(&sdei_list_lock);
@@ -976,7 +941,7 @@ static int sdei_get_conduit(struct platform_device *pdev)
                }
 
                pr_warn("invalid \"method\" property: %s\n", method);
-       } else if (IS_ENABLED(CONFIG_ACPI) && !acpi_disabled) {
+       } else if (!acpi_disabled) {
                if (acpi_psci_use_hvc()) {
                        sdei_firmware_call = &sdei_smccc_hvc;
                        return SMCCC_CONDUIT_HVC;
@@ -1000,8 +965,6 @@ static int sdei_probe(struct platform_device *pdev)
                return 0;
 
        err = sdei_api_get_version(&ver);
-       if (err == -EOPNOTSUPP)
-               pr_err("advertised but not implemented in platform firmware\n");
        if (err) {
                pr_err("Failed to get SDEI version: %d\n", err);
                sdei_mark_interface_broken();
@@ -1099,16 +1062,20 @@ static bool __init sdei_present_acpi(void)
 
 static int __init sdei_init(void)
 {
-       int ret = platform_driver_register(&sdei_driver);
-
-       if (!ret && sdei_present_acpi()) {
-               struct platform_device *pdev;
-
-               pdev = platform_device_register_simple(sdei_driver.driver.name,
-                                                      0, NULL, 0);
-               if (IS_ERR(pdev))
-                       pr_info("Failed to register ACPI:SDEI platform device %ld\n",
-                               PTR_ERR(pdev));
+       struct platform_device *pdev;
+       int ret;
+
+       ret = platform_driver_register(&sdei_driver);
+       if (ret || !sdei_present_acpi())
+               return ret;
+
+       pdev = platform_device_register_simple(sdei_driver.driver.name,
+                                              0, NULL, 0);
+       if (IS_ERR(pdev)) {
+               ret = PTR_ERR(pdev);
+               platform_driver_unregister(&sdei_driver);
+               pr_info("Failed to register ACPI:SDEI platform device %d\n",
+                       ret);
        }
 
        return ret;
index 3939699..da1887f 100644 (file)
@@ -4,20 +4,15 @@ menu "EFI (Extensible Firmware Interface) Support"
 
 config EFI_VARS
        tristate "EFI Variable Support via sysfs"
-       depends on EFI
+       depends on EFI && (X86 || IA64)
        default n
        help
          If you say Y here, you are able to get EFI (Extensible Firmware
          Interface) variable information via sysfs.  You may read,
          write, create, and destroy EFI variables through this interface.
-
-         Note that using this driver in concert with efibootmgr requires
-         at least test release version 0.5.0-test3 or later, which is
-         available from:
-         <http://linux.dell.com/efibootmgr/testing/efibootmgr-0.5.0-test3.tar.gz>
-
-         Subsequent efibootmgr releases may be found at:
-         <http://github.com/vathpela/efibootmgr>
+         Note that this driver is only retained for compatibility with
+         legacy users: new users should use the efivarfs filesystem
+         instead.
 
 config EFI_ESRT
        bool
@@ -26,7 +21,7 @@ config EFI_ESRT
 
 config EFI_VARS_PSTORE
        tristate "Register efivars backend for pstore"
-       depends on EFI_VARS && PSTORE
+       depends on PSTORE
        default y
        help
          Say Y here to enable use efivars as a backend to pstore. This
@@ -137,7 +132,6 @@ config EFI_GENERIC_STUB_INITRD_CMDLINE_LOADER
 
 config EFI_BOOTLOADER_CONTROL
        tristate "EFI Bootloader Control"
-       depends on EFI_VARS
        default n
        help
          This module installs a reboot hook, such that if reboot() is
@@ -281,7 +275,7 @@ config EFI_EARLYCON
 
 config EFI_CUSTOM_SSDT_OVERLAYS
        bool "Load custom ACPI SSDT overlay from an EFI variable"
-       depends on EFI_VARS && ACPI
+       depends on EFI && ACPI
        default ACPI_TABLE_UPGRADE
        help
          Allow loading of an ACPI SSDT overlay from an EFI variable specified
index 7a21698..e8da782 100644 (file)
@@ -28,11 +28,12 @@ obj-$(CONFIG_EFI_DEV_PATH_PARSER)   += dev-path-parser.o
 obj-$(CONFIG_APPLE_PROPERTIES)         += apple-properties.o
 obj-$(CONFIG_EFI_RCI2_TABLE)           += rci2-table.o
 obj-$(CONFIG_EFI_EMBEDDED_FIRMWARE)    += embedded-firmware.o
+obj-$(CONFIG_LOAD_UEFI_KEYS)           += mokvar-table.o
 
 fake_map-y                             += fake_mem.o
 fake_map-$(CONFIG_X86)                 += x86_fake_mem.o
 
-arm-obj-$(CONFIG_EFI)                  := arm-init.o arm-runtime.o
+arm-obj-$(CONFIG_EFI)                  := efi-init.o arm-runtime.o
 obj-$(CONFIG_ARM)                      += $(arm-obj-y)
 obj-$(CONFIG_ARM64)                    += $(arm-obj-y)
 obj-$(CONFIG_EFI_CAPSULE_LOADER)       += capsule-loader.o
index f564e15..e15d484 100644 (file)
@@ -232,10 +232,20 @@ static int cper_mem_err_location(struct cper_mem_err_compact *mem, char *msg)
                n += scnprintf(msg + n, len - n, "rank: %d ", mem->rank);
        if (mem->validation_bits & CPER_MEM_VALID_BANK)
                n += scnprintf(msg + n, len - n, "bank: %d ", mem->bank);
+       if (mem->validation_bits & CPER_MEM_VALID_BANK_GROUP)
+               n += scnprintf(msg + n, len - n, "bank_group: %d ",
+                              mem->bank >> CPER_MEM_BANK_GROUP_SHIFT);
+       if (mem->validation_bits & CPER_MEM_VALID_BANK_ADDRESS)
+               n += scnprintf(msg + n, len - n, "bank_address: %d ",
+                              mem->bank & CPER_MEM_BANK_ADDRESS_MASK);
        if (mem->validation_bits & CPER_MEM_VALID_DEVICE)
                n += scnprintf(msg + n, len - n, "device: %d ", mem->device);
-       if (mem->validation_bits & CPER_MEM_VALID_ROW)
-               n += scnprintf(msg + n, len - n, "row: %d ", mem->row);
+       if (mem->validation_bits & (CPER_MEM_VALID_ROW | CPER_MEM_VALID_ROW_EXT)) {
+               u32 row = mem->row;
+
+               row |= cper_get_mem_extension(mem->validation_bits, mem->extended);
+               n += scnprintf(msg + n, len - n, "row: %d ", row);
+       }
        if (mem->validation_bits & CPER_MEM_VALID_COLUMN)
                n += scnprintf(msg + n, len - n, "column: %d ", mem->column);
        if (mem->validation_bits & CPER_MEM_VALID_BIT_POSITION)
@@ -250,6 +260,9 @@ static int cper_mem_err_location(struct cper_mem_err_compact *mem, char *msg)
        if (mem->validation_bits & CPER_MEM_VALID_TARGET_ID)
                scnprintf(msg + n, len - n, "target_id: 0x%016llx ",
                          mem->target_id);
+       if (mem->validation_bits & CPER_MEM_VALID_CHIP_ID)
+               scnprintf(msg + n, len - n, "chip_id: %d ",
+                         mem->extended >> CPER_MEM_CHIP_ID_SHIFT);
 
        msg[n] = '\0';
        return n;
@@ -292,6 +305,7 @@ void cper_mem_err_pack(const struct cper_sec_mem_err *mem,
        cmem->requestor_id = mem->requestor_id;
        cmem->responder_id = mem->responder_id;
        cmem->target_id = mem->target_id;
+       cmem->extended = mem->extended;
        cmem->rank = mem->rank;
        cmem->mem_array_handle = mem->mem_array_handle;
        cmem->mem_dev_handle = mem->mem_dev_handle;
similarity index 99%
rename from drivers/firmware/efi/arm-init.c
rename to drivers/firmware/efi/efi-init.c
index 71c445d..f55a92f 100644 (file)
@@ -236,6 +236,7 @@ void __init efi_init(void)
 
        reserve_regions();
        efi_esrt_init();
+       efi_mokvar_table_init();
 
        memblock_reserve(data.phys_map & PAGE_MASK,
                         PAGE_ALIGN(data.size + (data.phys_map & ~PAGE_MASK)));
index feb7fe6..0ef086e 100644 (file)
@@ -8,6 +8,8 @@
 
 #define DUMP_NAME_LEN 66
 
+#define EFIVARS_DATA_SIZE_MAX 1024
+
 static bool efivars_pstore_disable =
        IS_ENABLED(CONFIG_EFI_VARS_PSTORE_DEFAULT_DISABLE);
 
@@ -18,6 +20,9 @@ module_param_named(pstore_disable, efivars_pstore_disable, bool, 0644);
         EFI_VARIABLE_BOOTSERVICE_ACCESS | \
         EFI_VARIABLE_RUNTIME_ACCESS)
 
+static LIST_HEAD(efi_pstore_list);
+static DECLARE_WORK(efivar_work, NULL);
+
 static int efi_pstore_open(struct pstore_info *psi)
 {
        psi->data = NULL;
@@ -126,7 +131,7 @@ static inline int __efi_pstore_scan_sysfs_exit(struct efivar_entry *entry,
        if (entry->deleting) {
                list_del(&entry->list);
                efivar_entry_iter_end();
-               efivar_unregister(entry);
+               kfree(entry);
                if (efivar_entry_iter_begin())
                        return -EINTR;
        } else if (turn_off_scanning)
@@ -169,7 +174,7 @@ static int efi_pstore_sysfs_entry_iter(struct pstore_record *record)
 {
        struct efivar_entry **pos = (struct efivar_entry **)&record->psi->data;
        struct efivar_entry *entry, *n;
-       struct list_head *head = &efivar_sysfs_list;
+       struct list_head *head = &efi_pstore_list;
        int size = 0;
        int ret;
 
@@ -263,8 +268,9 @@ static int efi_pstore_write(struct pstore_record *record)
        ret = efivar_entry_set_safe(efi_name, vendor, PSTORE_EFI_ATTRIBUTES,
                              preemptible(), record->size, record->psi->buf);
 
-       if (record->reason == KMSG_DUMP_OOPS)
-               efivar_run_worker();
+       if (record->reason == KMSG_DUMP_OOPS && try_module_get(THIS_MODULE))
+               if (!schedule_work(&efivar_work))
+                       module_put(THIS_MODULE);
 
        return ret;
 };
@@ -314,12 +320,12 @@ static int efi_pstore_erase_name(const char *name)
        if (efivar_entry_iter_begin())
                return -EINTR;
 
-       found = __efivar_entry_iter(efi_pstore_erase_func, &efivar_sysfs_list,
+       found = __efivar_entry_iter(efi_pstore_erase_func, &efi_pstore_list,
                                    efi_name, &entry);
        efivar_entry_iter_end();
 
        if (found && !entry->scanning)
-               efivar_unregister(entry);
+               kfree(entry);
 
        return found ? 0 : -ENOENT;
 }
@@ -354,14 +360,77 @@ static struct pstore_info efi_pstore_info = {
        .erase          = efi_pstore_erase,
 };
 
+static int efi_pstore_callback(efi_char16_t *name, efi_guid_t vendor,
+                              unsigned long name_size, void *data)
+{
+       struct efivar_entry *entry;
+       int ret;
+
+       entry = kzalloc(sizeof(*entry), GFP_KERNEL);
+       if (!entry)
+               return -ENOMEM;
+
+       memcpy(entry->var.VariableName, name, name_size);
+       entry->var.VendorGuid = vendor;
+
+       ret = efivar_entry_add(entry, &efi_pstore_list);
+       if (ret)
+               kfree(entry);
+
+       return ret;
+}
+
+static int efi_pstore_update_entry(efi_char16_t *name, efi_guid_t vendor,
+                                  unsigned long name_size, void *data)
+{
+       struct efivar_entry *entry = data;
+
+       if (efivar_entry_find(name, vendor, &efi_pstore_list, false))
+               return 0;
+
+       memcpy(entry->var.VariableName, name, name_size);
+       memcpy(&(entry->var.VendorGuid), &vendor, sizeof(efi_guid_t));
+
+       return 1;
+}
+
+static void efi_pstore_update_entries(struct work_struct *work)
+{
+       struct efivar_entry *entry;
+       int err;
+
+       /* Add new sysfs entries */
+       while (1) {
+               entry = kzalloc(sizeof(*entry), GFP_KERNEL);
+               if (!entry)
+                       return;
+
+               err = efivar_init(efi_pstore_update_entry, entry,
+                                 false, &efi_pstore_list);
+               if (!err)
+                       break;
+
+               efivar_entry_add(entry, &efi_pstore_list);
+       }
+
+       kfree(entry);
+       module_put(THIS_MODULE);
+}
+
 static __init int efivars_pstore_init(void)
 {
+       int ret;
+
        if (!efivars_kobject() || !efivar_supports_writes())
                return 0;
 
        if (efivars_pstore_disable)
                return 0;
 
+       ret = efivar_init(efi_pstore_callback, NULL, true, &efi_pstore_list);
+       if (ret)
+               return ret;
+
        efi_pstore_info.buf = kmalloc(4096, GFP_KERNEL);
        if (!efi_pstore_info.buf)
                return -ENOMEM;
@@ -374,6 +443,8 @@ static __init int efivars_pstore_init(void)
                efi_pstore_info.bufsize = 0;
        }
 
+       INIT_WORK(&efivar_work, efi_pstore_update_entries);
+
        return 0;
 }
 
index 3aa07c3..5e5480a 100644 (file)
@@ -43,6 +43,9 @@ struct efi __read_mostly efi = {
        .esrt                   = EFI_INVALID_TABLE_ADDR,
        .tpm_log                = EFI_INVALID_TABLE_ADDR,
        .tpm_final_log          = EFI_INVALID_TABLE_ADDR,
+#ifdef CONFIG_LOAD_UEFI_KEYS
+       .mokvar_table           = EFI_INVALID_TABLE_ADDR,
+#endif
 };
 EXPORT_SYMBOL(efi);
 
@@ -519,6 +522,9 @@ static const efi_config_table_type_t common_tables[] __initconst = {
 #ifdef CONFIG_EFI_RCI2_TABLE
        {DELLEMC_EFI_RCI2_TABLE_GUID,           &rci2_table_phys                        },
 #endif
+#ifdef CONFIG_LOAD_UEFI_KEYS
+       {LINUX_EFI_MOK_VARIABLE_TABLE_GUID,     &efi.mokvar_table,      "MOKvar"        },
+#endif
        {},
 };
 
@@ -714,7 +720,7 @@ void __init efi_systab_report_header(const efi_table_hdr_t *systab_hdr,
                vendor);
 }
 
-static __initdata char memory_type_name[][20] = {
+static __initdata char memory_type_name[][13] = {
        "Reserved",
        "Loader Code",
        "Loader Data",
@@ -722,14 +728,14 @@ static __initdata char memory_type_name[][20] = {
        "Boot Data",
        "Runtime Code",
        "Runtime Data",
-       "Conventional Memory",
-       "Unusable Memory",
-       "ACPI Reclaim Memory",
-       "ACPI Memory NVS",
-       "Memory Mapped I/O",
-       "MMIO Port Space",
+       "Conventional",
+       "Unusable",
+       "ACPI Reclaim",
+       "ACPI Mem NVS",
+       "MMIO",
+       "MMIO Port",
        "PAL Code",
-       "Persistent Memory",
+       "Persistent",
 };
 
 char * __init efi_md_typeattr_format(char *buf, size_t size,
@@ -756,26 +762,27 @@ char * __init efi_md_typeattr_format(char *buf, size_t size,
        if (attr & ~(EFI_MEMORY_UC | EFI_MEMORY_WC | EFI_MEMORY_WT |
                     EFI_MEMORY_WB | EFI_MEMORY_UCE | EFI_MEMORY_RO |
                     EFI_MEMORY_WP | EFI_MEMORY_RP | EFI_MEMORY_XP |
-                    EFI_MEMORY_NV | EFI_MEMORY_SP |
+                    EFI_MEMORY_NV | EFI_MEMORY_SP | EFI_MEMORY_CPU_CRYPTO |
                     EFI_MEMORY_RUNTIME | EFI_MEMORY_MORE_RELIABLE))
                snprintf(pos, size, "|attr=0x%016llx]",
                         (unsigned long long)attr);
        else
                snprintf(pos, size,
-                        "|%3s|%2s|%2s|%2s|%2s|%2s|%2s|%2s|%3s|%2s|%2s|%2s|%2s]",
-                        attr & EFI_MEMORY_RUNTIME ? "RUN" : "",
-                        attr & EFI_MEMORY_MORE_RELIABLE ? "MR" : "",
-                        attr & EFI_MEMORY_SP      ? "SP"  : "",
-                        attr & EFI_MEMORY_NV      ? "NV"  : "",
-                        attr & EFI_MEMORY_XP      ? "XP"  : "",
-                        attr & EFI_MEMORY_RP      ? "RP"  : "",
-                        attr & EFI_MEMORY_WP      ? "WP"  : "",
-                        attr & EFI_MEMORY_RO      ? "RO"  : "",
-                        attr & EFI_MEMORY_UCE     ? "UCE" : "",
-                        attr & EFI_MEMORY_WB      ? "WB"  : "",
-                        attr & EFI_MEMORY_WT      ? "WT"  : "",
-                        attr & EFI_MEMORY_WC      ? "WC"  : "",
-                        attr & EFI_MEMORY_UC      ? "UC"  : "");
+                        "|%3s|%2s|%2s|%2s|%2s|%2s|%2s|%2s|%2s|%3s|%2s|%2s|%2s|%2s]",
+                        attr & EFI_MEMORY_RUNTIME              ? "RUN" : "",
+                        attr & EFI_MEMORY_MORE_RELIABLE        ? "MR"  : "",
+                        attr & EFI_MEMORY_CPU_CRYPTO           ? "CC"  : "",
+                        attr & EFI_MEMORY_SP                   ? "SP"  : "",
+                        attr & EFI_MEMORY_NV                   ? "NV"  : "",
+                        attr & EFI_MEMORY_XP                   ? "XP"  : "",
+                        attr & EFI_MEMORY_RP                   ? "RP"  : "",
+                        attr & EFI_MEMORY_WP                   ? "WP"  : "",
+                        attr & EFI_MEMORY_RO                   ? "RO"  : "",
+                        attr & EFI_MEMORY_UCE                  ? "UCE" : "",
+                        attr & EFI_MEMORY_WB                   ? "WB"  : "",
+                        attr & EFI_MEMORY_WT                   ? "WT"  : "",
+                        attr & EFI_MEMORY_WC                   ? "WC"  : "",
+                        attr & EFI_MEMORY_UC                   ? "UC"  : "");
        return buf;
 }
 
index dcea137..e6b16b3 100644 (file)
@@ -22,10 +22,8 @@ MODULE_AUTHOR("Matt Domsch <Matt_Domsch@Dell.com>");
 MODULE_DESCRIPTION("sysfs interface to EFI Variables");
 MODULE_LICENSE("GPL");
 MODULE_VERSION(EFIVARS_VERSION);
-MODULE_ALIAS("platform:efivars");
 
-LIST_HEAD(efivar_sysfs_list);
-EXPORT_SYMBOL_GPL(efivar_sysfs_list);
+static LIST_HEAD(efivar_sysfs_list);
 
 static struct kset *efivars_kset;
 
@@ -591,42 +589,6 @@ out_free:
        return error;
 }
 
-static int efivar_update_sysfs_entry(efi_char16_t *name, efi_guid_t vendor,
-                                    unsigned long name_size, void *data)
-{
-       struct efivar_entry *entry = data;
-
-       if (efivar_entry_find(name, vendor, &efivar_sysfs_list, false))
-               return 0;
-
-       memcpy(entry->var.VariableName, name, name_size);
-       memcpy(&(entry->var.VendorGuid), &vendor, sizeof(efi_guid_t));
-
-       return 1;
-}
-
-static void efivar_update_sysfs_entries(struct work_struct *work)
-{
-       struct efivar_entry *entry;
-       int err;
-
-       /* Add new sysfs entries */
-       while (1) {
-               entry = kzalloc(sizeof(*entry), GFP_KERNEL);
-               if (!entry)
-                       return;
-
-               err = efivar_init(efivar_update_sysfs_entry, entry,
-                                 false, &efivar_sysfs_list);
-               if (!err)
-                       break;
-
-               efivar_create_sysfs_entry(entry);
-       }
-
-       kfree(entry);
-}
-
 static int efivars_sysfs_callback(efi_char16_t *name, efi_guid_t vendor,
                                  unsigned long name_size, void *data)
 {
@@ -675,7 +637,7 @@ static void efivars_sysfs_exit(void)
        kset_unregister(efivars_kset);
 }
 
-int efivars_sysfs_init(void)
+static int efivars_sysfs_init(void)
 {
        struct kobject *parent_kobj = efivars_kobject();
        int error = 0;
@@ -701,11 +663,8 @@ int efivars_sysfs_init(void)
                return error;
        }
 
-       INIT_WORK(&efivar_work, efivar_update_sysfs_entries);
-
        return 0;
 }
-EXPORT_SYMBOL_GPL(efivars_sysfs_init);
 
 module_init(efivars_sysfs_init);
 module_exit(efivars_sysfs_exit);
index 296b18f..039a9ac 100644 (file)
@@ -18,7 +18,8 @@ cflags-$(CONFIG_X86)          += -m$(BITS) -D__KERNEL__ \
 # arm64 uses the full KBUILD_CFLAGS so it's necessary to explicitly
 # disable the stackleak plugin
 cflags-$(CONFIG_ARM64)         := $(subst $(CC_FLAGS_FTRACE),,$(KBUILD_CFLAGS)) \
-                                  -fpie $(DISABLE_STACKLEAK_PLUGIN)
+                                  -fpie $(DISABLE_STACKLEAK_PLUGIN) \
+                                  $(call cc-option,-mbranch-protection=none)
 cflags-$(CONFIG_ARM)           := $(subst $(CC_FLAGS_FTRACE),,$(KBUILD_CFLAGS)) \
                                   -fno-builtin -fpic \
                                   $(call cc-option,-mno-single-pic-base)
@@ -26,7 +27,7 @@ cflags-$(CONFIG_ARM)          := $(subst $(CC_FLAGS_FTRACE),,$(KBUILD_CFLAGS)) \
 cflags-$(CONFIG_EFI_GENERIC_STUB) += -I$(srctree)/scripts/dtc/libfdt
 
 KBUILD_CFLAGS                  := $(cflags-y) -Os -DDISABLE_BRANCH_PROFILING \
-                                  -include $(srctree)/drivers/firmware/efi/libstub/hidden.h \
+                                  -include $(srctree)/include/linux/hidden.h \
                                   -D__NO_FORTIFY \
                                   -ffreestanding \
                                   -fno-stack-protector \
@@ -64,7 +65,12 @@ lib-$(CONFIG_ARM)            += arm32-stub.o
 lib-$(CONFIG_ARM64)            += arm64-stub.o
 lib-$(CONFIG_X86)              += x86-stub.o
 CFLAGS_arm32-stub.o            := -DTEXT_OFFSET=$(TEXT_OFFSET)
-CFLAGS_arm64-stub.o            := -DTEXT_OFFSET=$(TEXT_OFFSET)
+
+# Even when -mbranch-protection=none is set, Clang will generate a
+# .note.gnu.property for code-less object files (like lib/ctype.c),
+# so work around this by explicitly removing the unwanted section.
+# https://bugs.llvm.org/show_bug.cgi?id=46480
+STUBCOPY_FLAGS-y               += --remove-section=.note.gnu.property
 
 #
 # For x86, bootloaders like systemd-boot or grub-efi do not zero-initialize the
index d08e5d5..4b5b240 100644 (file)
@@ -113,162 +113,58 @@ void free_screen_info(struct screen_info *si)
        efi_bs_call(free_pool, si);
 }
 
-static efi_status_t reserve_kernel_base(unsigned long dram_base,
-                                       unsigned long *reserve_addr,
-                                       unsigned long *reserve_size)
-{
-       efi_physical_addr_t alloc_addr;
-       efi_memory_desc_t *memory_map;
-       unsigned long nr_pages, map_size, desc_size, buff_size;
-       efi_status_t status;
-       unsigned long l;
-
-       struct efi_boot_memmap map = {
-               .map            = &memory_map,
-               .map_size       = &map_size,
-               .desc_size      = &desc_size,
-               .desc_ver       = NULL,
-               .key_ptr        = NULL,
-               .buff_size      = &buff_size,
-       };
-
-       /*
-        * Reserve memory for the uncompressed kernel image. This is
-        * all that prevents any future allocations from conflicting
-        * with the kernel. Since we can't tell from the compressed
-        * image how much DRAM the kernel actually uses (due to BSS
-        * size uncertainty) we allocate the maximum possible size.
-        * Do this very early, as prints can cause memory allocations
-        * that may conflict with this.
-        */
-       alloc_addr = dram_base + MAX_UNCOMP_KERNEL_SIZE;
-       nr_pages = MAX_UNCOMP_KERNEL_SIZE / EFI_PAGE_SIZE;
-       status = efi_bs_call(allocate_pages, EFI_ALLOCATE_MAX_ADDRESS,
-                            EFI_BOOT_SERVICES_DATA, nr_pages, &alloc_addr);
-       if (status == EFI_SUCCESS) {
-               if (alloc_addr == dram_base) {
-                       *reserve_addr = alloc_addr;
-                       *reserve_size = MAX_UNCOMP_KERNEL_SIZE;
-                       return EFI_SUCCESS;
-               }
-               /*
-                * If we end up here, the allocation succeeded but starts below
-                * dram_base. This can only occur if the real base of DRAM is
-                * not a multiple of 128 MB, in which case dram_base will have
-                * been rounded up. Since this implies that a part of the region
-                * was already occupied, we need to fall through to the code
-                * below to ensure that the existing allocations don't conflict.
-                * For this reason, we use EFI_BOOT_SERVICES_DATA above and not
-                * EFI_LOADER_DATA, which we wouldn't able to distinguish from
-                * allocations that we want to disallow.
-                */
-       }
-
-       /*
-        * If the allocation above failed, we may still be able to proceed:
-        * if the only allocations in the region are of types that will be
-        * released to the OS after ExitBootServices(), the decompressor can
-        * safely overwrite them.
-        */
-       status = efi_get_memory_map(&map);
-       if (status != EFI_SUCCESS) {
-               efi_err("reserve_kernel_base(): Unable to retrieve memory map.\n");
-               return status;
-       }
-
-       for (l = 0; l < map_size; l += desc_size) {
-               efi_memory_desc_t *desc;
-               u64 start, end;
-
-               desc = (void *)memory_map + l;
-               start = desc->phys_addr;
-               end = start + desc->num_pages * EFI_PAGE_SIZE;
-
-               /* Skip if entry does not intersect with region */
-               if (start >= dram_base + MAX_UNCOMP_KERNEL_SIZE ||
-                   end <= dram_base)
-                       continue;
-
-               switch (desc->type) {
-               case EFI_BOOT_SERVICES_CODE:
-               case EFI_BOOT_SERVICES_DATA:
-                       /* Ignore types that are released to the OS anyway */
-                       continue;
-
-               case EFI_CONVENTIONAL_MEMORY:
-                       /* Skip soft reserved conventional memory */
-                       if (efi_soft_reserve_enabled() &&
-                           (desc->attribute & EFI_MEMORY_SP))
-                               continue;
-
-                       /*
-                        * Reserve the intersection between this entry and the
-                        * region.
-                        */
-                       start = max(start, (u64)dram_base);
-                       end = min(end, (u64)dram_base + MAX_UNCOMP_KERNEL_SIZE);
-
-                       status = efi_bs_call(allocate_pages,
-                                            EFI_ALLOCATE_ADDRESS,
-                                            EFI_LOADER_DATA,
-                                            (end - start) / EFI_PAGE_SIZE,
-                                            &start);
-                       if (status != EFI_SUCCESS) {
-                               efi_err("reserve_kernel_base(): alloc failed.\n");
-                               goto out;
-                       }
-                       break;
-
-               case EFI_LOADER_CODE:
-               case EFI_LOADER_DATA:
-                       /*
-                        * These regions may be released and reallocated for
-                        * another purpose (including EFI_RUNTIME_SERVICE_DATA)
-                        * at any time during the execution of the OS loader,
-                        * so we cannot consider them as safe.
-                        */
-               default:
-                       /*
-                        * Treat any other allocation in the region as unsafe */
-                       status = EFI_OUT_OF_RESOURCES;
-                       goto out;
-               }
-       }
-
-       status = EFI_SUCCESS;
-out:
-       efi_bs_call(free_pool, memory_map);
-       return status;
-}
-
 efi_status_t handle_kernel_image(unsigned long *image_addr,
                                 unsigned long *image_size,
                                 unsigned long *reserve_addr,
                                 unsigned long *reserve_size,
-                                unsigned long dram_base,
                                 efi_loaded_image_t *image)
 {
-       unsigned long kernel_base;
+       const int slack = TEXT_OFFSET - 5 * PAGE_SIZE;
+       int alloc_size = MAX_UNCOMP_KERNEL_SIZE + EFI_PHYS_ALIGN;
+       unsigned long alloc_base, kernel_base;
        efi_status_t status;
 
-       /* use a 16 MiB aligned base for the decompressed kernel */
-       kernel_base = round_up(dram_base, SZ_16M) + TEXT_OFFSET;
-
        /*
-        * Note that some platforms (notably, the Raspberry Pi 2) put
-        * spin-tables and other pieces of firmware at the base of RAM,
-        * abusing the fact that the window of TEXT_OFFSET bytes at the
-        * base of the kernel image is only partially used at the moment.
-        * (Up to 5 pages are used for the swapper page tables)
+        * Allocate space for the decompressed kernel as low as possible.
+        * The region should be 16 MiB aligned, but the first 'slack' bytes
+        * are not used by Linux, so we allow those to be occupied by the
+        * firmware.
         */
-       status = reserve_kernel_base(kernel_base - 5 * PAGE_SIZE, reserve_addr,
-                                    reserve_size);
+       status = efi_low_alloc_above(alloc_size, EFI_PAGE_SIZE, &alloc_base, 0x0);
        if (status != EFI_SUCCESS) {
                efi_err("Unable to allocate memory for uncompressed kernel.\n");
                return status;
        }
 
-       *image_addr = kernel_base;
+       if ((alloc_base % EFI_PHYS_ALIGN) > slack) {
+               /*
+                * More than 'slack' bytes are already occupied at the base of
+                * the allocation, so we need to advance to the next 16 MiB block.
+                */
+               kernel_base = round_up(alloc_base, EFI_PHYS_ALIGN);
+               efi_info("Free memory starts at 0x%lx, setting kernel_base to 0x%lx\n",
+                        alloc_base, kernel_base);
+       } else {
+               kernel_base = round_down(alloc_base, EFI_PHYS_ALIGN);
+       }
+
+       *reserve_addr = kernel_base + slack;
+       *reserve_size = MAX_UNCOMP_KERNEL_SIZE;
+
+       /* now free the parts that we will not use */
+       if (*reserve_addr > alloc_base) {
+               efi_bs_call(free_pages, alloc_base,
+                           (*reserve_addr - alloc_base) / EFI_PAGE_SIZE);
+               alloc_size -= *reserve_addr - alloc_base;
+       }
+       efi_bs_call(free_pages, *reserve_addr + MAX_UNCOMP_KERNEL_SIZE,
+                   (alloc_size - MAX_UNCOMP_KERNEL_SIZE) / EFI_PAGE_SIZE);
+
+       *image_addr = kernel_base + TEXT_OFFSET;
        *image_size = 0;
+
+       efi_debug("image addr == 0x%lx, reserve_addr == 0x%lx\n",
+                 *image_addr, *reserve_addr);
+
        return EFI_SUCCESS;
 }
index e5bfac7..22ece1a 100644 (file)
@@ -50,7 +50,6 @@ efi_status_t handle_kernel_image(unsigned long *image_addr,
                                 unsigned long *image_size,
                                 unsigned long *reserve_addr,
                                 unsigned long *reserve_size,
-                                unsigned long dram_base,
                                 efi_loaded_image_t *image)
 {
        efi_status_t status;
@@ -62,10 +61,12 @@ efi_status_t handle_kernel_image(unsigned long *image_addr,
                        status = efi_get_random_bytes(sizeof(phys_seed),
                                                      (u8 *)&phys_seed);
                        if (status == EFI_NOT_FOUND) {
-                               efi_info("EFI_RNG_PROTOCOL unavailable, no randomness supplied\n");
+                               efi_info("EFI_RNG_PROTOCOL unavailable, KASLR will be disabled\n");
+                               efi_nokaslr = true;
                        } else if (status != EFI_SUCCESS) {
-                               efi_err("efi_get_random_bytes() failed\n");
-                               return status;
+                               efi_err("efi_get_random_bytes() failed (0x%lx), KASLR will be disabled\n",
+                                       status);
+                               efi_nokaslr = true;
                        }
                } else {
                        efi_info("KASLR disabled on kernel command line\n");
@@ -77,7 +78,7 @@ efi_status_t handle_kernel_image(unsigned long *image_addr,
 
        kernel_size = _edata - _text;
        kernel_memsize = kernel_size + (_end - _edata);
-       *reserve_size = kernel_memsize + TEXT_OFFSET % min_kimg_align();
+       *reserve_size = kernel_memsize;
 
        if (IS_ENABLED(CONFIG_RANDOMIZE_BASE) && phys_seed != 0) {
                /*
@@ -91,7 +92,7 @@ efi_status_t handle_kernel_image(unsigned long *image_addr,
        }
 
        if (status != EFI_SUCCESS) {
-               if (IS_ALIGNED((u64)_text - TEXT_OFFSET, min_kimg_align())) {
+               if (IS_ALIGNED((u64)_text, min_kimg_align())) {
                        /*
                         * Just execute from wherever we were loaded by the
                         * UEFI PE/COFF loader if the alignment is suitable.
@@ -111,7 +112,7 @@ efi_status_t handle_kernel_image(unsigned long *image_addr,
                }
        }
 
-       *image_addr = *reserve_addr + TEXT_OFFSET % min_kimg_align();
+       *image_addr = *reserve_addr;
        memcpy((void *)*image_addr, _text, kernel_size);
 
        return EFI_SUCCESS;
index f735db5..aa8da0a 100644 (file)
@@ -239,6 +239,102 @@ efi_status_t efi_parse_options(char const *cmdline)
 }
 
 /*
+ * The EFI_LOAD_OPTION descriptor has the following layout:
+ *     u32 Attributes;
+ *     u16 FilePathListLength;
+ *     u16 Description[];
+ *     efi_device_path_protocol_t FilePathList[];
+ *     u8 OptionalData[];
+ *
+ * This function validates and unpacks the variable-size data fields.
+ */
+static
+bool efi_load_option_unpack(efi_load_option_unpacked_t *dest,
+                           const efi_load_option_t *src, size_t size)
+{
+       const void *pos;
+       u16 c;
+       efi_device_path_protocol_t header;
+       const efi_char16_t *description;
+       const efi_device_path_protocol_t *file_path_list;
+
+       if (size < offsetof(efi_load_option_t, variable_data))
+               return false;
+       pos = src->variable_data;
+       size -= offsetof(efi_load_option_t, variable_data);
+
+       if ((src->attributes & ~EFI_LOAD_OPTION_MASK) != 0)
+               return false;
+
+       /* Scan description. */
+       description = pos;
+       do {
+               if (size < sizeof(c))
+                       return false;
+               c = *(const u16 *)pos;
+               pos += sizeof(c);
+               size -= sizeof(c);
+       } while (c != L'\0');
+
+       /* Scan file_path_list. */
+       file_path_list = pos;
+       do {
+               if (size < sizeof(header))
+                       return false;
+               header = *(const efi_device_path_protocol_t *)pos;
+               if (header.length < sizeof(header))
+                       return false;
+               if (size < header.length)
+                       return false;
+               pos += header.length;
+               size -= header.length;
+       } while ((header.type != EFI_DEV_END_PATH && header.type != EFI_DEV_END_PATH2) ||
+                (header.sub_type != EFI_DEV_END_ENTIRE));
+       if (pos != (const void *)file_path_list + src->file_path_list_length)
+               return false;
+
+       dest->attributes = src->attributes;
+       dest->file_path_list_length = src->file_path_list_length;
+       dest->description = description;
+       dest->file_path_list = file_path_list;
+       dest->optional_data_size = size;
+       dest->optional_data = size ? pos : NULL;
+
+       return true;
+}
+
+/*
+ * At least some versions of Dell firmware pass the entire contents of the
+ * Boot#### variable, i.e. the EFI_LOAD_OPTION descriptor, rather than just the
+ * OptionalData field.
+ *
+ * Detect this case and extract OptionalData.
+ */
+void efi_apply_loadoptions_quirk(const void **load_options, int *load_options_size)
+{
+       const efi_load_option_t *load_option = *load_options;
+       efi_load_option_unpacked_t load_option_unpacked;
+
+       if (!IS_ENABLED(CONFIG_X86))
+               return;
+       if (!load_option)
+               return;
+       if (*load_options_size < sizeof(*load_option))
+               return;
+       if ((load_option->attributes & ~EFI_LOAD_OPTION_BOOT_MASK) != 0)
+               return;
+
+       if (!efi_load_option_unpack(&load_option_unpacked, load_option, *load_options_size))
+               return;
+
+       efi_warn_once(FW_BUG "LoadOptions is an EFI_LOAD_OPTION descriptor\n");
+       efi_warn_once(FW_BUG "Using OptionalData as a workaround\n");
+
+       *load_options = load_option_unpacked.optional_data;
+       *load_options_size = load_option_unpacked.optional_data_size;
+}
+
+/*
  * Convert the unicode UEFI command line to ASCII to pass to kernel.
  * Size of memory allocated return in *cmd_line_len.
  * Returns NULL on error.
@@ -247,12 +343,15 @@ char *efi_convert_cmdline(efi_loaded_image_t *image, int *cmd_line_len)
 {
        const u16 *s2;
        unsigned long cmdline_addr = 0;
-       int options_chars = efi_table_attr(image, load_options_size) / 2;
+       int options_chars = efi_table_attr(image, load_options_size);
        const u16 *options = efi_table_attr(image, load_options);
        int options_bytes = 0, safe_options_bytes = 0;  /* UTF-8 bytes */
        bool in_quote = false;
        efi_status_t status;
 
+       efi_apply_loadoptions_quirk((const void **)&options, &options_chars);
+       options_chars /= sizeof(*options);
+
        if (options) {
                s2 = options;
                while (options_bytes < COMMAND_LINE_SIZE && options_chars--) {
index a5a405d..311a168 100644 (file)
@@ -87,40 +87,6 @@ static void install_memreserve_table(void)
                efi_err("Failed to install memreserve config table!\n");
 }
 
-static unsigned long get_dram_base(void)
-{
-       efi_status_t status;
-       unsigned long map_size, buff_size;
-       unsigned long membase  = EFI_ERROR;
-       struct efi_memory_map map;
-       efi_memory_desc_t *md;
-       struct efi_boot_memmap boot_map;
-
-       boot_map.map            = (efi_memory_desc_t **)&map.map;
-       boot_map.map_size       = &map_size;
-       boot_map.desc_size      = &map.desc_size;
-       boot_map.desc_ver       = NULL;
-       boot_map.key_ptr        = NULL;
-       boot_map.buff_size      = &buff_size;
-
-       status = efi_get_memory_map(&boot_map);
-       if (status != EFI_SUCCESS)
-               return membase;
-
-       map.map_end = map.map + map_size;
-
-       for_each_efi_memory_desc_in_map(&map, md) {
-               if (md->attribute & EFI_MEMORY_WB) {
-                       if (membase > md->phys_addr)
-                               membase = md->phys_addr;
-               }
-       }
-
-       efi_bs_call(free_pool, map.map);
-
-       return membase;
-}
-
 /*
  * EFI entry point for the arm/arm64 EFI stubs.  This is the entrypoint
  * that is described in the PE/COFF header.  Most of the code is the same
@@ -134,7 +100,6 @@ efi_status_t __efiapi efi_pe_entry(efi_handle_t handle,
        efi_status_t status;
        unsigned long image_addr;
        unsigned long image_size = 0;
-       unsigned long dram_base;
        /* addr/point and size pairs for memory management*/
        unsigned long initrd_addr = 0;
        unsigned long initrd_size = 0;
@@ -174,13 +139,6 @@ efi_status_t __efiapi efi_pe_entry(efi_handle_t handle,
                goto fail;
        }
 
-       dram_base = get_dram_base();
-       if (dram_base == EFI_ERROR) {
-               efi_err("Failed to find DRAM base\n");
-               status = EFI_LOAD_ERROR;
-               goto fail;
-       }
-
        /*
         * Get the command line from EFI, using the LOADED_IMAGE
         * protocol. We are going to copy the command line into the
@@ -218,7 +176,7 @@ efi_status_t __efiapi efi_pe_entry(efi_handle_t handle,
        status = handle_kernel_image(&image_addr, &image_size,
                                     &reserve_addr,
                                     &reserve_size,
-                                    dram_base, image);
+                                    image);
        if (status != EFI_SUCCESS) {
                efi_err("Failed to relocate kernel\n");
                goto fail_free_screeninfo;
@@ -262,7 +220,7 @@ efi_status_t __efiapi efi_pe_entry(efi_handle_t handle,
                efi_info("Generating empty DTB\n");
 
        if (!efi_noinitrd) {
-               max_addr = efi_get_max_initrd_addr(dram_base, image_addr);
+               max_addr = efi_get_max_initrd_addr(image_addr);
                status = efi_load_initrd(image, &initrd_addr, &initrd_size,
                                         ULONG_MAX, max_addr);
                if (status != EFI_SUCCESS)
@@ -306,7 +264,7 @@ efi_status_t __efiapi efi_pe_entry(efi_handle_t handle,
        install_memreserve_table();
 
        status = allocate_new_fdt_and_exit_boot(handle, &fdt_addr,
-                                               efi_get_max_fdt_addr(dram_base),
+                                               efi_get_max_fdt_addr(image_addr),
                                                initrd_addr, initrd_size,
                                                cmdline_ptr, fdt_addr, fdt_size);
        if (status != EFI_SUCCESS)
index 85050f5..2d7abcd 100644 (file)
@@ -10,9 +10,6 @@
 #include <linux/types.h>
 #include <asm/efi.h>
 
-/* error code which can't be mistaken for valid address */
-#define EFI_ERROR      (~0UL)
-
 /*
  * __init annotations should not be used in the EFI stub, since the code is
  * either included in the decompressor (x86, ARM) where they have no effect,
@@ -55,11 +52,34 @@ efi_status_t __efiapi efi_pe_entry(efi_handle_t handle,
 
 #define efi_info(fmt, ...) \
        efi_printk(KERN_INFO fmt, ##__VA_ARGS__)
+#define efi_warn(fmt, ...) \
+       efi_printk(KERN_WARNING "WARNING: " fmt, ##__VA_ARGS__)
 #define efi_err(fmt, ...) \
        efi_printk(KERN_ERR "ERROR: " fmt, ##__VA_ARGS__)
 #define efi_debug(fmt, ...) \
        efi_printk(KERN_DEBUG "DEBUG: " fmt, ##__VA_ARGS__)
 
+#define efi_printk_once(fmt, ...)              \
+({                                             \
+       static bool __print_once;               \
+       bool __ret_print_once = !__print_once;  \
+                                               \
+       if (!__print_once) {                    \
+               __print_once = true;            \
+               efi_printk(fmt, ##__VA_ARGS__); \
+       }                                       \
+       __ret_print_once;                       \
+})
+
+#define efi_info_once(fmt, ...) \
+       efi_printk_once(KERN_INFO fmt, ##__VA_ARGS__)
+#define efi_warn_once(fmt, ...) \
+       efi_printk_once(KERN_WARNING "WARNING: " fmt, ##__VA_ARGS__)
+#define efi_err_once(fmt, ...) \
+       efi_printk_once(KERN_ERR "ERROR: " fmt, ##__VA_ARGS__)
+#define efi_debug_once(fmt, ...) \
+       efi_printk_once(KERN_DEBUG "DEBUG: " fmt, ##__VA_ARGS__)
+
 /* Helper macros for the usual case of using simple C variables: */
 #ifndef fdt_setprop_inplace_var
 #define fdt_setprop_inplace_var(fdt, node_offset, name, var) \
@@ -688,6 +708,35 @@ union efi_load_file_protocol {
        } mixed_mode;
 };
 
+typedef struct {
+       u32 attributes;
+       u16 file_path_list_length;
+       u8 variable_data[];
+       // efi_char16_t description[];
+       // efi_device_path_protocol_t file_path_list[];
+       // u8 optional_data[];
+} __packed efi_load_option_t;
+
+#define EFI_LOAD_OPTION_ACTIVE         0x0001U
+#define EFI_LOAD_OPTION_FORCE_RECONNECT        0x0002U
+#define EFI_LOAD_OPTION_HIDDEN         0x0008U
+#define EFI_LOAD_OPTION_CATEGORY       0x1f00U
+#define   EFI_LOAD_OPTION_CATEGORY_BOOT        0x0000U
+#define   EFI_LOAD_OPTION_CATEGORY_APP 0x0100U
+
+#define EFI_LOAD_OPTION_BOOT_MASK \
+       (EFI_LOAD_OPTION_ACTIVE|EFI_LOAD_OPTION_HIDDEN|EFI_LOAD_OPTION_CATEGORY)
+#define EFI_LOAD_OPTION_MASK (EFI_LOAD_OPTION_FORCE_RECONNECT|EFI_LOAD_OPTION_BOOT_MASK)
+
+typedef struct {
+       u32 attributes;
+       u16 file_path_list_length;
+       const efi_char16_t *description;
+       const efi_device_path_protocol_t *file_path_list;
+       size_t optional_data_size;
+       const void *optional_data;
+} efi_load_option_unpacked_t;
+
 void efi_pci_disable_bridge_busmaster(void);
 
 typedef efi_status_t (*efi_exit_boot_map_processing)(
@@ -730,6 +779,8 @@ __printf(1, 2) int efi_printk(char const *fmt, ...);
 
 void efi_free(unsigned long size, unsigned long addr);
 
+void efi_apply_loadoptions_quirk(const void **load_options, int *load_options_size);
+
 char *efi_convert_cmdline(efi_loaded_image_t *image, int *cmd_line_len);
 
 efi_status_t efi_get_memory_map(struct efi_boot_memmap *map);
@@ -740,6 +791,9 @@ efi_status_t efi_allocate_pages(unsigned long size, unsigned long *addr,
 efi_status_t efi_allocate_pages_aligned(unsigned long size, unsigned long *addr,
                                        unsigned long max, unsigned long align);
 
+efi_status_t efi_low_alloc_above(unsigned long size, unsigned long align,
+                                unsigned long *addr, unsigned long min);
+
 efi_status_t efi_relocate_kernel(unsigned long *image_addr,
                                 unsigned long image_size,
                                 unsigned long alloc_size,
@@ -786,7 +840,6 @@ efi_status_t handle_kernel_image(unsigned long *image_addr,
                                 unsigned long *image_size,
                                 unsigned long *reserve_addr,
                                 unsigned long *reserve_size,
-                                unsigned long dram_base,
                                 efi_loaded_image_t *image);
 
 asmlinkage void __noreturn efi_enter_kernel(unsigned long entrypoint,
index 11ecf3c..368cd60 100644 (file)
@@ -136,7 +136,7 @@ static efi_status_t update_fdt(void *orig_fdt, unsigned long orig_fdt_size,
        if (status)
                goto fdt_set_fail;
 
-       if (IS_ENABLED(CONFIG_RANDOMIZE_BASE)) {
+       if (IS_ENABLED(CONFIG_RANDOMIZE_BASE) && !efi_nokaslr) {
                efi_status_t efi_status;
 
                efi_status = efi_get_random_bytes(sizeof(fdt_val64),
@@ -145,8 +145,6 @@ static efi_status_t update_fdt(void *orig_fdt, unsigned long orig_fdt_size,
                        status = fdt_setprop_var(fdt, node, "kaslr-seed", fdt_val64);
                        if (status)
                                goto fdt_set_fail;
-               } else if (efi_status != EFI_NOT_FOUND) {
-                       return efi_status;
                }
        }
 
index 630caa6..4e81c60 100644 (file)
@@ -136,7 +136,7 @@ efi_status_t handle_cmdline_files(efi_loaded_image_t *image,
                                  unsigned long *load_size)
 {
        const efi_char16_t *cmdline = image->load_options;
-       int cmdline_len = image->load_options_size / 2;
+       int cmdline_len = image->load_options_size;
        unsigned long efi_chunk_size = ULONG_MAX;
        efi_file_protocol_t *volume = NULL;
        efi_file_protocol_t *file;
@@ -148,6 +148,9 @@ efi_status_t handle_cmdline_files(efi_loaded_image_t *image,
        if (!load_addr || !load_size)
                return EFI_INVALID_PARAMETER;
 
+       efi_apply_loadoptions_quirk((const void **)&cmdline, &cmdline_len);
+       cmdline_len /= sizeof(*cmdline);
+
        if (IS_ENABLED(CONFIG_X86) && !efi_nochunk)
                efi_chunk_size = EFI_READ_CHUNK_SIZE;
 
diff --git a/drivers/firmware/efi/libstub/hidden.h b/drivers/firmware/efi/libstub/hidden.h
deleted file mode 100644 (file)
index 3493b04..0000000
+++ /dev/null
@@ -1,6 +0,0 @@
-/* SPDX-License-Identifier: GPL-2.0 */
-/*
- * To prevent the compiler from emitting GOT-indirected (and thus absolute)
- * references to any global symbols, override their visibility as 'hidden'
- */
-#pragma GCC visibility push(hidden)
index 9b1aaf8..8ee9eb2 100644 (file)
@@ -20,8 +20,8 @@
  *
  * Return:     status code
  */
-static efi_status_t efi_low_alloc_above(unsigned long size, unsigned long align,
-                                       unsigned long *addr, unsigned long min)
+efi_status_t efi_low_alloc_above(unsigned long size, unsigned long align,
+                                unsigned long *addr, unsigned long min)
 {
        unsigned long map_size, desc_size, buff_size;
        efi_memory_desc_t *map;
index 1ac2f87..5d13e43 100644 (file)
@@ -7,6 +7,7 @@
  */
 
 #include <linux/ctype.h>
+#include <linux/kernel.h>
 #include <linux/types.h>
 #include <linux/string.h>
 
index e65ef49..1088e28 100644 (file)
@@ -135,7 +135,7 @@ char *number(char *end, unsigned long long num, int base, char locase)
                break;
        default:
                unreachable();
-       };
+       }
 
        return end;
 }
diff --git a/drivers/firmware/efi/mokvar-table.c b/drivers/firmware/efi/mokvar-table.c
new file mode 100644 (file)
index 0000000..d8bc013
--- /dev/null
@@ -0,0 +1,359 @@
+// SPDX-License-Identifier: GPL-2.0
+/*
+ * mokvar-table.c
+ *
+ * Copyright (c) 2020 Red Hat
+ * Author: Lenny Szubowicz <lszubowi@redhat.com>
+ *
+ * This module contains the kernel support for the Linux EFI Machine
+ * Owner Key (MOK) variable configuration table, which is identified by
+ * the LINUX_EFI_MOK_VARIABLE_TABLE_GUID.
+ *
+ * This EFI configuration table provides a more robust alternative to
+ * EFI volatile variables by which an EFI boot loader can pass the
+ * contents of the Machine Owner Key (MOK) certificate stores to the
+ * kernel during boot. If both the EFI MOK config table and corresponding
+ * EFI MOK variables are present, the table should be considered as
+ * more authoritative.
+ *
+ * This module includes code that validates and maps the EFI MOK table,
+ * if it's presence was detected very early in boot.
+ *
+ * Kernel interface routines are provided to walk through all the
+ * entries in the MOK config table or to search for a specific named
+ * entry.
+ *
+ * The contents of the individual named MOK config table entries are
+ * made available to user space via read-only sysfs binary files under:
+ *
+ * /sys/firmware/efi/mok-variables/
+ *
+ */
+#define pr_fmt(fmt) "mokvar: " fmt
+
+#include <linux/capability.h>
+#include <linux/efi.h>
+#include <linux/init.h>
+#include <linux/io.h>
+#include <linux/kernel.h>
+#include <linux/kobject.h>
+#include <linux/list.h>
+#include <linux/slab.h>
+
+#include <asm/early_ioremap.h>
+
+/*
+ * The LINUX_EFI_MOK_VARIABLE_TABLE_GUID config table is a packed
+ * sequence of struct efi_mokvar_table_entry, one for each named
+ * MOK variable. The sequence is terminated by an entry with a
+ * completely NULL name and 0 data size.
+ *
+ * efi_mokvar_table_size is set to the computed size of the
+ * MOK config table by efi_mokvar_table_init(). This will be
+ * non-zero if and only if the table if present and has been
+ * validated by efi_mokvar_table_init().
+ */
+static size_t efi_mokvar_table_size;
+
+/*
+ * efi_mokvar_table_va is the kernel virtual address at which the
+ * EFI MOK config table has been mapped by efi_mokvar_sysfs_init().
+ */
+static struct efi_mokvar_table_entry *efi_mokvar_table_va;
+
+/*
+ * Each /sys/firmware/efi/mok-variables/ sysfs file is represented by
+ * an instance of struct efi_mokvar_sysfs_attr on efi_mokvar_sysfs_list.
+ * bin_attr.private points to the associated EFI MOK config table entry.
+ *
+ * This list is created during boot and then remains unchanged.
+ * So no synchronization is currently required to walk the list.
+ */
+struct efi_mokvar_sysfs_attr {
+       struct bin_attribute bin_attr;
+       struct list_head node;
+};
+
+static LIST_HEAD(efi_mokvar_sysfs_list);
+static struct kobject *mokvar_kobj;
+
+/*
+ * efi_mokvar_table_init() - Early boot validation of EFI MOK config table
+ *
+ * If present, validate and compute the size of the EFI MOK variable
+ * configuration table. This table may be provided by an EFI boot loader
+ * as an alternative to ordinary EFI variables, due to platform-dependent
+ * limitations. The memory occupied by this table is marked as reserved.
+ *
+ * This routine must be called before efi_free_boot_services() in order
+ * to guarantee that it can mark the table as reserved.
+ *
+ * Implicit inputs:
+ * efi.mokvar_table:   Physical address of EFI MOK variable config table
+ *                     or special value that indicates no such table.
+ *
+ * Implicit outputs:
+ * efi_mokvar_table_size: Computed size of EFI MOK variable config table.
+ *                     The table is considered present and valid if this
+ *                     is non-zero.
+ */
+void __init efi_mokvar_table_init(void)
+{
+       efi_memory_desc_t md;
+       void *va = NULL;
+       unsigned long cur_offset = 0;
+       unsigned long offset_limit;
+       unsigned long map_size = 0;
+       unsigned long map_size_needed = 0;
+       unsigned long size;
+       struct efi_mokvar_table_entry *mokvar_entry;
+       int err;
+
+       if (!efi_enabled(EFI_MEMMAP))
+               return;
+
+       if (efi.mokvar_table == EFI_INVALID_TABLE_ADDR)
+               return;
+       /*
+        * The EFI MOK config table must fit within a single EFI memory
+        * descriptor range.
+        */
+       err = efi_mem_desc_lookup(efi.mokvar_table, &md);
+       if (err) {
+               pr_warn("EFI MOKvar config table is not within the EFI memory map\n");
+               return;
+       }
+
+       offset_limit = efi_mem_desc_end(&md) - efi.mokvar_table;
+
+       /*
+        * Validate the MOK config table. Since there is no table header
+        * from which we could get the total size of the MOK config table,
+        * we compute the total size as we validate each variably sized
+        * entry, remapping as necessary.
+        */
+       err = -EINVAL;
+       while (cur_offset + sizeof(*mokvar_entry) <= offset_limit) {
+               mokvar_entry = va + cur_offset;
+               map_size_needed = cur_offset + sizeof(*mokvar_entry);
+               if (map_size_needed > map_size) {
+                       if (va)
+                               early_memunmap(va, map_size);
+                       /*
+                        * Map a little more than the fixed size entry
+                        * header, anticipating some data. It's safe to
+                        * do so as long as we stay within current memory
+                        * descriptor.
+                        */
+                       map_size = min(map_size_needed + 2*EFI_PAGE_SIZE,
+                                      offset_limit);
+                       va = early_memremap(efi.mokvar_table, map_size);
+                       if (!va) {
+                               pr_err("Failed to map EFI MOKvar config table pa=0x%lx, size=%lu.\n",
+                                      efi.mokvar_table, map_size);
+                               return;
+                       }
+                       mokvar_entry = va + cur_offset;
+               }
+
+               /* Check for last sentinel entry */
+               if (mokvar_entry->name[0] == '\0') {
+                       if (mokvar_entry->data_size != 0)
+                               break;
+                       err = 0;
+                       break;
+               }
+
+               /* Sanity check that the name is null terminated */
+               size = strnlen(mokvar_entry->name,
+                              sizeof(mokvar_entry->name));
+               if (size >= sizeof(mokvar_entry->name))
+                       break;
+
+               /* Advance to the next entry */
+               cur_offset = map_size_needed + mokvar_entry->data_size;
+       }
+
+       if (va)
+               early_memunmap(va, map_size);
+       if (err) {
+               pr_err("EFI MOKvar config table is not valid\n");
+               return;
+       }
+       efi_mem_reserve(efi.mokvar_table, map_size_needed);
+       efi_mokvar_table_size = map_size_needed;
+}
+
+/*
+ * efi_mokvar_entry_next() - Get next entry in the EFI MOK config table
+ *
+ * mokvar_entry:       Pointer to current EFI MOK config table entry
+ *                     or null. Null indicates get first entry.
+ *                     Passed by reference. This is updated to the
+ *                     same value as the return value.
+ *
+ * Returns:            Pointer to next EFI MOK config table entry
+ *                     or null, if there are no more entries.
+ *                     Same value is returned in the mokvar_entry
+ *                     parameter.
+ *
+ * This routine depends on the EFI MOK config table being entirely
+ * mapped with it's starting virtual address in efi_mokvar_table_va.
+ */
+struct efi_mokvar_table_entry *efi_mokvar_entry_next(
+                       struct efi_mokvar_table_entry **mokvar_entry)
+{
+       struct efi_mokvar_table_entry *mokvar_cur;
+       struct efi_mokvar_table_entry *mokvar_next;
+       size_t size_cur;
+
+       mokvar_cur = *mokvar_entry;
+       *mokvar_entry = NULL;
+
+       if (efi_mokvar_table_va == NULL)
+               return NULL;
+
+       if (mokvar_cur == NULL) {
+               mokvar_next = efi_mokvar_table_va;
+       } else {
+               if (mokvar_cur->name[0] == '\0')
+                       return NULL;
+               size_cur = sizeof(*mokvar_cur) + mokvar_cur->data_size;
+               mokvar_next = (void *)mokvar_cur + size_cur;
+       }
+
+       if (mokvar_next->name[0] == '\0')
+               return NULL;
+
+       *mokvar_entry = mokvar_next;
+       return mokvar_next;
+}
+
+/*
+ * efi_mokvar_entry_find() - Find EFI MOK config entry by name
+ *
+ * name:       Name of the entry to look for.
+ *
+ * Returns:    Pointer to EFI MOK config table entry if found;
+ *             null otherwise.
+ *
+ * This routine depends on the EFI MOK config table being entirely
+ * mapped with it's starting virtual address in efi_mokvar_table_va.
+ */
+struct efi_mokvar_table_entry *efi_mokvar_entry_find(const char *name)
+{
+       struct efi_mokvar_table_entry *mokvar_entry = NULL;
+
+       while (efi_mokvar_entry_next(&mokvar_entry)) {
+               if (!strncmp(name, mokvar_entry->name,
+                            sizeof(mokvar_entry->name)))
+                       return mokvar_entry;
+       }
+       return NULL;
+}
+
+/*
+ * efi_mokvar_sysfs_read() - sysfs binary file read routine
+ *
+ * Returns:    Count of bytes read.
+ *
+ * Copy EFI MOK config table entry data for this mokvar sysfs binary file
+ * to the supplied buffer, starting at the specified offset into mokvar table
+ * entry data, for the specified count bytes. The copy is limited by the
+ * amount of data in this mokvar config table entry.
+ */
+static ssize_t efi_mokvar_sysfs_read(struct file *file, struct kobject *kobj,
+                                struct bin_attribute *bin_attr, char *buf,
+                                loff_t off, size_t count)
+{
+       struct efi_mokvar_table_entry *mokvar_entry = bin_attr->private;
+
+       if (!capable(CAP_SYS_ADMIN))
+               return 0;
+
+       if (off >= mokvar_entry->data_size)
+               return 0;
+       if (count >  mokvar_entry->data_size - off)
+               count = mokvar_entry->data_size - off;
+
+       memcpy(buf, mokvar_entry->data + off, count);
+       return count;
+}
+
+/*
+ * efi_mokvar_sysfs_init() - Map EFI MOK config table and create sysfs
+ *
+ * Map the EFI MOK variable config table for run-time use by the kernel
+ * and create the sysfs entries in /sys/firmware/efi/mok-variables/
+ *
+ * This routine just returns if a valid EFI MOK variable config table
+ * was not found earlier during boot.
+ *
+ * This routine must be called during a "middle" initcall phase, i.e.
+ * after efi_mokvar_table_init() but before UEFI certs are loaded
+ * during late init.
+ *
+ * Implicit inputs:
+ * efi.mokvar_table:   Physical address of EFI MOK variable config table
+ *                     or special value that indicates no such table.
+ *
+ * efi_mokvar_table_size: Computed size of EFI MOK variable config table.
+ *                     The table is considered present and valid if this
+ *                     is non-zero.
+ *
+ * Implicit outputs:
+ * efi_mokvar_table_va:        Start virtual address of the EFI MOK config table.
+ */
+static int __init efi_mokvar_sysfs_init(void)
+{
+       void *config_va;
+       struct efi_mokvar_table_entry *mokvar_entry = NULL;
+       struct efi_mokvar_sysfs_attr *mokvar_sysfs = NULL;
+       int err = 0;
+
+       if (efi_mokvar_table_size == 0)
+               return -ENOENT;
+
+       config_va = memremap(efi.mokvar_table, efi_mokvar_table_size,
+                            MEMREMAP_WB);
+       if (!config_va) {
+               pr_err("Failed to map EFI MOKvar config table\n");
+               return -ENOMEM;
+       }
+       efi_mokvar_table_va = config_va;
+
+       mokvar_kobj = kobject_create_and_add("mok-variables", efi_kobj);
+       if (!mokvar_kobj) {
+               pr_err("Failed to create EFI mok-variables sysfs entry\n");
+               return -ENOMEM;
+       }
+
+       while (efi_mokvar_entry_next(&mokvar_entry)) {
+               mokvar_sysfs = kzalloc(sizeof(*mokvar_sysfs), GFP_KERNEL);
+               if (!mokvar_sysfs) {
+                       err = -ENOMEM;
+                       break;
+               }
+
+               sysfs_bin_attr_init(&mokvar_sysfs->bin_attr);
+               mokvar_sysfs->bin_attr.private = mokvar_entry;
+               mokvar_sysfs->bin_attr.attr.name = mokvar_entry->name;
+               mokvar_sysfs->bin_attr.attr.mode = 0400;
+               mokvar_sysfs->bin_attr.size = mokvar_entry->data_size;
+               mokvar_sysfs->bin_attr.read = efi_mokvar_sysfs_read;
+
+               err = sysfs_create_bin_file(mokvar_kobj,
+                                          &mokvar_sysfs->bin_attr);
+               if (err)
+                       break;
+
+               list_add_tail(&mokvar_sysfs->node, &efi_mokvar_sysfs_list);
+       }
+
+       if (err) {
+               pr_err("Failed to create some EFI mok-variables sysfs entries\n");
+               kfree(mokvar_sysfs);
+       }
+       return err;
+}
+device_initcall(efi_mokvar_sysfs_init);
index 973eef2..41c1d00 100644 (file)
@@ -32,10 +32,6 @@ static struct efivars *__efivars;
  */
 static DEFINE_SEMAPHORE(efivars_lock);
 
-static bool efivar_wq_enabled = true;
-DECLARE_WORK(efivar_work, NULL);
-EXPORT_SYMBOL_GPL(efivar_work);
-
 static bool
 validate_device_path(efi_char16_t *var_name, int match, u8 *buffer,
                     unsigned long len)
@@ -391,13 +387,6 @@ static void dup_variable_bug(efi_char16_t *str16, efi_guid_t *vendor_guid,
        size_t i, len8 = len16 / sizeof(efi_char16_t);
        char *str8;
 
-       /*
-        * Disable the workqueue since the algorithm it uses for
-        * detecting new variables won't work with this buggy
-        * implementation of GetNextVariableName().
-        */
-       efivar_wq_enabled = false;
-
        str8 = kzalloc(len8, GFP_KERNEL);
        if (!str8)
                return;
@@ -414,7 +403,6 @@ static void dup_variable_bug(efi_char16_t *str16, efi_guid_t *vendor_guid,
  * efivar_init - build the initial list of EFI variables
  * @func: callback function to invoke for every variable
  * @data: function-specific data to pass to @func
- * @atomic: do we need to execute the @func-loop atomically?
  * @duplicates: error if we encounter duplicates on @head?
  * @head: initialised head of variable list
  *
@@ -1158,16 +1146,6 @@ struct kobject *efivars_kobject(void)
 EXPORT_SYMBOL_GPL(efivars_kobject);
 
 /**
- * efivar_run_worker - schedule the efivar worker thread
- */
-void efivar_run_worker(void)
-{
-       if (efivar_wq_enabled)
-               schedule_work(&efivar_work);
-}
-EXPORT_SYMBOL_GPL(efivar_run_worker);
-
-/**
  * efivars_register - register an efivars
  * @efivars: efivars to register
  * @ops: efivars operations
index a3a6ca6..97968ae 100644 (file)
@@ -15,7 +15,7 @@ config GOOGLE_SMI
        help
          Say Y here if you want to enable SMI callbacks for Google
          platforms.  This provides an interface for writing to and
-         clearing the event log.  If EFI_VARS is also enabled this
+         clearing the event log.  If CONFIG_EFI is also enabled this
          driver provides an interface for reading and writing NVRAM
          variables.
 
index 5b2011e..7d9367b 100644 (file)
@@ -302,7 +302,7 @@ static int gsmi_exec(u8 func, u8 sub)
        return rc;
 }
 
-#ifdef CONFIG_EFI_VARS
+#ifdef CONFIG_EFI
 
 static struct efivars efivars;
 
@@ -483,7 +483,7 @@ static const struct efivar_operations efivar_ops = {
        .get_next_variable = gsmi_get_next_variable,
 };
 
-#endif /* CONFIG_EFI_VARS */
+#endif /* CONFIG_EFI */
 
 static ssize_t eventlog_write(struct file *filp, struct kobject *kobj,
                               struct bin_attribute *bin_attr,
@@ -1007,7 +1007,7 @@ static __init int gsmi_init(void)
                goto out_remove_bin_file;
        }
 
-#ifdef CONFIG_EFI_VARS
+#ifdef CONFIG_EFI
        ret = efivars_register(&efivars, &efivar_ops, gsmi_kobj);
        if (ret) {
                printk(KERN_INFO "gsmi: Failed to register efivars\n");
@@ -1047,7 +1047,7 @@ static void __exit gsmi_exit(void)
        unregister_die_notifier(&gsmi_die_notifier);
        atomic_notifier_chain_unregister(&panic_notifier_list,
                                         &gsmi_panic_notifier);
-#ifdef CONFIG_EFI_VARS
+#ifdef CONFIG_EFI
        efivars_unregister(&efivars);
 #endif
 
index fb61f2f..c2d6121 100644 (file)
@@ -824,8 +824,21 @@ static irqreturn_t pca953x_irq_handler(int irq, void *devid)
        ret = pca953x_irq_pending(chip, pending);
        mutex_unlock(&chip->i2c_lock);
 
-       for_each_set_bit(level, pending, gc->ngpio)
-               handle_nested_irq(irq_find_mapping(gc->irq.domain, level));
+       if (ret) {
+               ret = 0;
+
+               for_each_set_bit(level, pending, gc->ngpio) {
+                       int nested_irq = irq_find_mapping(gc->irq.domain, level);
+
+                       if (unlikely(nested_irq <= 0)) {
+                               dev_warn_ratelimited(gc->parent, "unmapped interrupt %d\n", level);
+                               continue;
+                       }
+
+                       handle_nested_irq(nested_irq);
+                       ret = 1;
+               }
+       }
 
        return IRQ_RETVAL(ret);
 }
index 178e912..9500074 100644 (file)
@@ -430,7 +430,18 @@ static int tegra186_irq_set_type(struct irq_data *data, unsigned int type)
        else
                irq_set_handler_locked(data, handle_edge_irq);
 
-       return irq_chip_set_type_parent(data, type);
+       if (data->parent_data)
+               return irq_chip_set_type_parent(data, type);
+
+       return 0;
+}
+
+static int tegra186_irq_set_wake(struct irq_data *data, unsigned int on)
+{
+       if (data->parent_data)
+               return irq_chip_set_wake_parent(data, on);
+
+       return 0;
 }
 
 static void tegra186_gpio_irq(struct irq_desc *desc)
@@ -678,7 +689,7 @@ static int tegra186_gpio_probe(struct platform_device *pdev)
        gpio->intc.irq_mask = tegra186_irq_mask;
        gpio->intc.irq_unmask = tegra186_irq_unmask;
        gpio->intc.irq_set_type = tegra186_irq_set_type;
-       gpio->intc.irq_set_wake = irq_chip_set_wake_parent;
+       gpio->intc.irq_set_wake = tegra186_irq_set_wake;
 
        irq = &gpio->gpio.irq;
        irq->chip = &gpio->intc;
index 76c36b0..fed5a3b 100644 (file)
@@ -425,7 +425,7 @@ static __poll_t lineevent_poll(struct file *file,
 
 static ssize_t lineevent_get_size(void)
 {
-#ifdef __x86_64__
+#if defined(CONFIG_X86_64) && !defined(CONFIG_UML)
        /* i386 has no padding after 'id' */
        if (in_ia32_syscall()) {
                struct compat_gpioeevent_data {
index ffe149a..dfef5a7 100644 (file)
@@ -207,11 +207,11 @@ uint8_t amdgpu_amdkfd_get_xgmi_hops_count(struct kgd_dev *dst, struct kgd_dev *s
        })
 
 /* GPUVM API */
-int amdgpu_amdkfd_gpuvm_create_process_vm(struct kgd_dev *kgd, unsigned int pasid,
+int amdgpu_amdkfd_gpuvm_create_process_vm(struct kgd_dev *kgd, u32 pasid,
                                        void **vm, void **process_info,
                                        struct dma_fence **ef);
 int amdgpu_amdkfd_gpuvm_acquire_process_vm(struct kgd_dev *kgd,
-                                       struct file *filp, unsigned int pasid,
+                                       struct file *filp, u32 pasid,
                                        void **vm, void **process_info,
                                        struct dma_fence **ef);
 void amdgpu_amdkfd_gpuvm_destroy_cb(struct amdgpu_device *adev,
index bf927f4..ee531c3 100644 (file)
@@ -105,7 +105,7 @@ static void kgd_program_sh_mem_settings(struct kgd_dev *kgd, uint32_t vmid,
        unlock_srbm(kgd);
 }
 
-static int kgd_set_pasid_vmid_mapping(struct kgd_dev *kgd, unsigned int pasid,
+static int kgd_set_pasid_vmid_mapping(struct kgd_dev *kgd, u32 pasid,
                                        unsigned int vmid)
 {
        struct amdgpu_device *adev = get_amdgpu_device(kgd);
index 744366c..4d41317 100644 (file)
@@ -139,7 +139,7 @@ static void kgd_program_sh_mem_settings(struct kgd_dev *kgd, uint32_t vmid,
        unlock_srbm(kgd);
 }
 
-static int kgd_set_pasid_vmid_mapping(struct kgd_dev *kgd, unsigned int pasid,
+static int kgd_set_pasid_vmid_mapping(struct kgd_dev *kgd, u32 pasid,
                                        unsigned int vmid)
 {
        struct amdgpu_device *adev = get_amdgpu_device(kgd);
index feab4cc..35917d4 100644 (file)
@@ -96,7 +96,7 @@ static void kgd_program_sh_mem_settings(struct kgd_dev *kgd, uint32_t vmid,
        unlock_srbm(kgd);
 }
 
-static int kgd_set_pasid_vmid_mapping(struct kgd_dev *kgd, unsigned int pasid,
+static int kgd_set_pasid_vmid_mapping(struct kgd_dev *kgd, u32 pasid,
                                        unsigned int vmid)
 {
        struct amdgpu_device *adev = get_amdgpu_device(kgd);
index 1102de7..1abfe63 100644 (file)
@@ -110,7 +110,7 @@ void kgd_gfx_v9_program_sh_mem_settings(struct kgd_dev *kgd, uint32_t vmid,
        unlock_srbm(kgd);
 }
 
-int kgd_gfx_v9_set_pasid_vmid_mapping(struct kgd_dev *kgd, unsigned int pasid,
+int kgd_gfx_v9_set_pasid_vmid_mapping(struct kgd_dev *kgd, u32 pasid,
                                        unsigned int vmid)
 {
        struct amdgpu_device *adev = get_amdgpu_device(kgd);
index aedf67d..ff2bc72 100644 (file)
@@ -26,7 +26,7 @@ void kgd_gfx_v9_program_sh_mem_settings(struct kgd_dev *kgd, uint32_t vmid,
                uint32_t sh_mem_config,
                uint32_t sh_mem_ape1_base, uint32_t sh_mem_ape1_limit,
                uint32_t sh_mem_bases);
-int kgd_gfx_v9_set_pasid_vmid_mapping(struct kgd_dev *kgd, unsigned int pasid,
+int kgd_gfx_v9_set_pasid_vmid_mapping(struct kgd_dev *kgd, u32 pasid,
                unsigned int vmid);
 int kgd_gfx_v9_init_interrupts(struct kgd_dev *kgd, uint32_t pipe_id);
 int kgd_gfx_v9_hqd_load(struct kgd_dev *kgd, void *mqd, uint32_t pipe_id,
index a58af51..d02c5c1 100644 (file)
@@ -992,7 +992,7 @@ create_evict_fence_fail:
        return ret;
 }
 
-int amdgpu_amdkfd_gpuvm_create_process_vm(struct kgd_dev *kgd, unsigned int pasid,
+int amdgpu_amdkfd_gpuvm_create_process_vm(struct kgd_dev *kgd, u32 pasid,
                                          void **vm, void **process_info,
                                          struct dma_fence **ef)
 {
@@ -1028,7 +1028,7 @@ amdgpu_vm_init_fail:
 }
 
 int amdgpu_amdkfd_gpuvm_acquire_process_vm(struct kgd_dev *kgd,
-                                          struct file *filp, unsigned int pasid,
+                                          struct file *filp, u32 pasid,
                                           void **vm, void **process_info,
                                           struct dma_fence **ef)
 {
index 7521f4a..6e9a9e5 100644 (file)
@@ -43,7 +43,7 @@ static DEFINE_IDA(amdgpu_pasid_ida);
 /* Helper to free pasid from a fence callback */
 struct amdgpu_pasid_cb {
        struct dma_fence_cb cb;
-       unsigned int pasid;
+       u32 pasid;
 };
 
 /**
@@ -79,7 +79,7 @@ int amdgpu_pasid_alloc(unsigned int bits)
  * amdgpu_pasid_free - Free a PASID
  * @pasid: PASID to free
  */
-void amdgpu_pasid_free(unsigned int pasid)
+void amdgpu_pasid_free(u32 pasid)
 {
        trace_amdgpu_pasid_freed(pasid);
        ida_simple_remove(&amdgpu_pasid_ida, pasid);
@@ -105,7 +105,7 @@ static void amdgpu_pasid_free_cb(struct dma_fence *fence,
  * Free the pasid only after all the fences in resv are signaled.
  */
 void amdgpu_pasid_free_delayed(struct dma_resv *resv,
-                              unsigned int pasid)
+                              u32 pasid)
 {
        struct dma_fence *fence, **fences;
        struct amdgpu_pasid_cb *cb;
index 8e58325..0c3b4fa 100644 (file)
@@ -71,9 +71,9 @@ struct amdgpu_vmid_mgr {
 };
 
 int amdgpu_pasid_alloc(unsigned int bits);
-void amdgpu_pasid_free(unsigned int pasid);
+void amdgpu_pasid_free(u32 pasid);
 void amdgpu_pasid_free_delayed(struct dma_resv *resv,
-                              unsigned int pasid);
+                              u32 pasid);
 
 bool amdgpu_vmid_had_gpu_reset(struct amdgpu_device *adev,
                               struct amdgpu_vmid *id);
index 4145480..b403b2a 100644 (file)
@@ -1084,7 +1084,7 @@ void amdgpu_driver_postclose_kms(struct drm_device *dev,
        struct amdgpu_fpriv *fpriv = file_priv->driver_priv;
        struct amdgpu_bo_list *list;
        struct amdgpu_bo *pd;
-       unsigned int pasid;
+       u32 pasid;
        int handle;
 
        if (!fpriv)
index 71e005c..cb1d7cd 100644 (file)
@@ -2785,7 +2785,7 @@ long amdgpu_vm_wait_idle(struct amdgpu_vm *vm, long timeout)
  * 0 for success, error for failure.
  */
 int amdgpu_vm_init(struct amdgpu_device *adev, struct amdgpu_vm *vm,
-                  int vm_context, unsigned int pasid)
+                  int vm_context, u32 pasid)
 {
        struct amdgpu_bo_param bp;
        struct amdgpu_bo *root;
@@ -2956,7 +2956,7 @@ static int amdgpu_vm_check_clean_reserved(struct amdgpu_device *adev,
  * 0 for success, -errno for errors.
  */
 int amdgpu_vm_make_compute(struct amdgpu_device *adev, struct amdgpu_vm *vm,
-                          unsigned int pasid)
+                          u32 pasid)
 {
        bool pte_support_ats = (adev->asic_type == CHIP_RAVEN);
        int r;
@@ -3254,7 +3254,7 @@ int amdgpu_vm_ioctl(struct drm_device *dev, void *data, struct drm_file *filp)
  * @pasid: PASID identifier for VM
  * @task_info: task_info to fill.
  */
-void amdgpu_vm_get_task_info(struct amdgpu_device *adev, unsigned int pasid,
+void amdgpu_vm_get_task_info(struct amdgpu_device *adev, u32 pasid,
                         struct amdgpu_task_info *task_info)
 {
        struct amdgpu_vm *vm;
@@ -3298,7 +3298,7 @@ void amdgpu_vm_set_task_info(struct amdgpu_vm *vm)
  * Try to gracefully handle a VM fault. Return true if the fault was handled and
  * shouldn't be reported any more.
  */
-bool amdgpu_vm_handle_fault(struct amdgpu_device *adev, unsigned int pasid,
+bool amdgpu_vm_handle_fault(struct amdgpu_device *adev, u32 pasid,
                            uint64_t addr)
 {
        struct amdgpu_bo *root;
index 770025a..ffbc0cc 100644 (file)
@@ -372,8 +372,8 @@ void amdgpu_vm_manager_fini(struct amdgpu_device *adev);
 
 long amdgpu_vm_wait_idle(struct amdgpu_vm *vm, long timeout);
 int amdgpu_vm_init(struct amdgpu_device *adev, struct amdgpu_vm *vm,
-                  int vm_context, unsigned int pasid);
-int amdgpu_vm_make_compute(struct amdgpu_device *adev, struct amdgpu_vm *vm, unsigned int pasid);
+                  int vm_context, u32 pasid);
+int amdgpu_vm_make_compute(struct amdgpu_device *adev, struct amdgpu_vm *vm, u32 pasid);
 void amdgpu_vm_release_compute(struct amdgpu_device *adev, struct amdgpu_vm *vm);
 void amdgpu_vm_fini(struct amdgpu_device *adev, struct amdgpu_vm *vm);
 void amdgpu_vm_get_pd_bo(struct amdgpu_vm *vm,
@@ -430,9 +430,9 @@ bool amdgpu_vm_need_pipeline_sync(struct amdgpu_ring *ring,
                                  struct amdgpu_job *job);
 void amdgpu_vm_check_compute_bug(struct amdgpu_device *adev);
 
-void amdgpu_vm_get_task_info(struct amdgpu_device *adev, unsigned int pasid,
+void amdgpu_vm_get_task_info(struct amdgpu_device *adev, u32 pasid,
                             struct amdgpu_task_info *task_info);
-bool amdgpu_vm_handle_fault(struct amdgpu_device *adev, unsigned int pasid,
+bool amdgpu_vm_handle_fault(struct amdgpu_device *adev, u32 pasid,
                            uint64_t addr);
 
 void amdgpu_vm_set_task_info(struct amdgpu_vm *vm);
index 84d811b..c28ebf4 100644 (file)
@@ -694,12 +694,12 @@ static void soc15_reg_base_init(struct amdgpu_device *adev)
                 * it doesn't support SRIOV. */
                if (amdgpu_discovery) {
                        r = amdgpu_discovery_reg_base_init(adev);
-                       if (r) {
-                               DRM_WARN("failed to init reg base from ip discovery table, "
-                                        "fallback to legacy init method\n");
-                               vega10_reg_base_init(adev);
-                       }
+                       if (r == 0)
+                               break;
+                       DRM_WARN("failed to init reg base from ip discovery table, "
+                                "fallback to legacy init method\n");
                }
+               vega10_reg_base_init(adev);
                break;
        case CHIP_VEGA20:
                vega20_reg_base_init(adev);
index 24b4717..dcb1d89 100644 (file)
@@ -91,7 +91,7 @@ static void cik_event_interrupt_wq(struct kfd_dev *dev,
                        (const struct cik_ih_ring_entry *)ih_ring_entry;
        uint32_t context_id = ihre->data & 0xfffffff;
        unsigned int vmid  = (ihre->ring_id & 0x0000ff00) >> 8;
-       unsigned int pasid = (ihre->ring_id & 0xffff0000) >> 16;
+       u32 pasid = (ihre->ring_id & 0xffff0000) >> 16;
 
        if (pasid == 0)
                return;
index 27bcc5b..b258a3d 100644 (file)
@@ -45,7 +45,7 @@ static void dbgdev_address_watch_disable_nodiq(struct kfd_dev *dev)
 }
 
 static int dbgdev_diq_submit_ib(struct kfd_dbgdev *dbgdev,
-                               unsigned int pasid, uint64_t vmid0_address,
+                               u32 pasid, uint64_t vmid0_address,
                                uint32_t *packet_buff, size_t size_in_bytes)
 {
        struct pm4__release_mem *rm_packet;
index a04a1fe..f9c6df1 100644 (file)
@@ -275,7 +275,7 @@ struct kfd_dbgdev {
 };
 
 struct kfd_dbgmgr {
-       unsigned int pasid;
+       u32 pasid;
        struct kfd_dev *dev;
        struct kfd_dbgdev *dbgdev;
 };
index 0f4508b..a8d3167 100644 (file)
@@ -40,7 +40,7 @@
 #define CIK_HPD_EOP_BYTES (1U << CIK_HPD_EOP_BYTES_LOG2)
 
 static int set_pasid_vmid_mapping(struct device_queue_manager *dqm,
-                                       unsigned int pasid, unsigned int vmid);
+                                 u32 pasid, unsigned int vmid);
 
 static int execute_queues_cpsch(struct device_queue_manager *dqm,
                                enum kfd_unmap_queues_filter filter,
@@ -948,7 +948,7 @@ out:
 }
 
 static int
-set_pasid_vmid_mapping(struct device_queue_manager *dqm, unsigned int pasid,
+set_pasid_vmid_mapping(struct device_queue_manager *dqm, u32 pasid,
                        unsigned int vmid)
 {
        return dqm->dev->kfd2kgd->set_pasid_vmid_mapping(
@@ -1981,8 +1981,7 @@ void device_queue_manager_uninit(struct device_queue_manager *dqm)
        kfree(dqm);
 }
 
-int kfd_process_vm_fault(struct device_queue_manager *dqm,
-                        unsigned int pasid)
+int kfd_process_vm_fault(struct device_queue_manager *dqm, u32 pasid)
 {
        struct kfd_process_device *pdd;
        struct kfd_process *p = kfd_lookup_process_by_pasid(pasid);
index a9583b9..ba2c2ce 100644 (file)
@@ -460,7 +460,7 @@ static void set_event_from_interrupt(struct kfd_process *p,
        }
 }
 
-void kfd_signal_event_interrupt(unsigned int pasid, uint32_t partial_id,
+void kfd_signal_event_interrupt(u32 pasid, uint32_t partial_id,
                                uint32_t valid_id_bits)
 {
        struct kfd_event *ev = NULL;
@@ -872,7 +872,7 @@ static void lookup_events_by_type_and_signal(struct kfd_process *p,
 }
 
 #ifdef KFD_SUPPORT_IOMMU_V2
-void kfd_signal_iommu_event(struct kfd_dev *dev, unsigned int pasid,
+void kfd_signal_iommu_event(struct kfd_dev *dev, u32 pasid,
                unsigned long address, bool is_write_requested,
                bool is_execute_requested)
 {
@@ -950,7 +950,7 @@ void kfd_signal_iommu_event(struct kfd_dev *dev, unsigned int pasid,
 }
 #endif /* KFD_SUPPORT_IOMMU_V2 */
 
-void kfd_signal_hw_exception_event(unsigned int pasid)
+void kfd_signal_hw_exception_event(u32 pasid)
 {
        /*
         * Because we are called from arbitrary context (workqueue) as opposed
@@ -971,7 +971,7 @@ void kfd_signal_hw_exception_event(unsigned int pasid)
        kfd_unref_process(p);
 }
 
-void kfd_signal_vm_fault_event(struct kfd_dev *dev, unsigned int pasid,
+void kfd_signal_vm_fault_event(struct kfd_dev *dev, u32 pasid,
                                struct kfd_vm_fault_info *info)
 {
        struct kfd_event *ev;
index c7ac6c7..c8fe5db 100644 (file)
@@ -79,7 +79,7 @@ struct kfd_event {
 #define KFD_EVENT_TYPE_DEBUG 5
 #define KFD_EVENT_TYPE_MEMORY 8
 
-extern void kfd_signal_event_interrupt(unsigned int pasid, uint32_t partial_id,
-                                       uint32_t valid_id_bits);
+extern void kfd_signal_event_interrupt(u32 pasid, uint32_t partial_id,
+                                      uint32_t valid_id_bits);
 
 #endif
index 7c8786b..e8ef388 100644 (file)
@@ -139,7 +139,7 @@ void kfd_iommu_unbind_process(struct kfd_process *p)
 }
 
 /* Callback for process shutdown invoked by the IOMMU driver */
-static void iommu_pasid_shutdown_callback(struct pci_dev *pdev, int pasid)
+static void iommu_pasid_shutdown_callback(struct pci_dev *pdev, u32 pasid)
 {
        struct kfd_dev *dev = kfd_device_by_pci_dev(pdev);
        struct kfd_process *p;
@@ -185,8 +185,8 @@ static void iommu_pasid_shutdown_callback(struct pci_dev *pdev, int pasid)
 }
 
 /* This function called by IOMMU driver on PPR failure */
-static int iommu_invalid_ppr_cb(struct pci_dev *pdev, int pasid,
-               unsigned long address, u16 flags)
+static int iommu_invalid_ppr_cb(struct pci_dev *pdev, u32 pasid,
+                               unsigned long address, u16 flags)
 {
        struct kfd_dev *dev;
 
index 2a07c4f..af5816f 100644 (file)
@@ -51,7 +51,7 @@ unsigned int kfd_get_pasid_limit(void)
        return 1U << pasid_bits;
 }
 
-unsigned int kfd_pasid_alloc(void)
+u32 kfd_pasid_alloc(void)
 {
        int r = amdgpu_pasid_alloc(pasid_bits);
 
@@ -63,7 +63,7 @@ unsigned int kfd_pasid_alloc(void)
        return 0;
 }
 
-void kfd_pasid_free(unsigned int pasid)
+void kfd_pasid_free(u32 pasid)
 {
        amdgpu_pasid_free(pasid);
 }
index 6727e9d..922ae13 100644 (file)
@@ -723,7 +723,7 @@ struct kfd_process {
        /* We want to receive a notification when the mm_struct is destroyed */
        struct mmu_notifier mmu_notifier;
 
-       uint16_t pasid;
+       u32 pasid;
        unsigned int doorbell_index;
 
        /*
@@ -800,7 +800,7 @@ int kfd_process_create_wq(void);
 void kfd_process_destroy_wq(void);
 struct kfd_process *kfd_create_process(struct file *filep);
 struct kfd_process *kfd_get_process(const struct task_struct *);
-struct kfd_process *kfd_lookup_process_by_pasid(unsigned int pasid);
+struct kfd_process *kfd_lookup_process_by_pasid(u32 pasid);
 struct kfd_process *kfd_lookup_process_by_mm(const struct mm_struct *mm);
 void kfd_unref_process(struct kfd_process *p);
 int kfd_process_evict_queues(struct kfd_process *p);
@@ -841,8 +841,8 @@ int kfd_pasid_init(void);
 void kfd_pasid_exit(void);
 bool kfd_set_pasid_limit(unsigned int new_limit);
 unsigned int kfd_get_pasid_limit(void);
-unsigned int kfd_pasid_alloc(void);
-void kfd_pasid_free(unsigned int pasid);
+u32 kfd_pasid_alloc(void);
+void kfd_pasid_free(u32 pasid);
 
 /* Doorbells */
 size_t kfd_doorbell_process_slice(struct kfd_dev *kfd);
@@ -927,7 +927,7 @@ void device_queue_manager_uninit(struct device_queue_manager *dqm);
 struct kernel_queue *kernel_queue_init(struct kfd_dev *dev,
                                        enum kfd_queue_type type);
 void kernel_queue_uninit(struct kernel_queue *kq, bool hanging);
-int kfd_process_vm_fault(struct device_queue_manager *dqm, unsigned int pasid);
+int kfd_process_vm_fault(struct device_queue_manager *dqm, u32 pasid);
 
 /* Process Queue Manager */
 struct process_queue_node {
@@ -1049,12 +1049,12 @@ int kfd_wait_on_events(struct kfd_process *p,
                       uint32_t num_events, void __user *data,
                       bool all, uint32_t user_timeout_ms,
                       uint32_t *wait_result);
-void kfd_signal_event_interrupt(unsigned int pasid, uint32_t partial_id,
+void kfd_signal_event_interrupt(u32 pasid, uint32_t partial_id,
                                uint32_t valid_id_bits);
 void kfd_signal_iommu_event(struct kfd_dev *dev,
-               unsigned int pasid, unsigned long address,
-               bool is_write_requested, bool is_execute_requested);
-void kfd_signal_hw_exception_event(unsigned int pasid);
+                           u32 pasid, unsigned long address,
+                           bool is_write_requested, bool is_execute_requested);
+void kfd_signal_hw_exception_event(u32 pasid);
 int kfd_set_event(struct kfd_process *p, uint32_t event_id);
 int kfd_reset_event(struct kfd_process *p, uint32_t event_id);
 int kfd_event_page_set(struct kfd_process *p, void *kernel_address,
@@ -1065,7 +1065,7 @@ int kfd_event_create(struct file *devkfd, struct kfd_process *p,
                     uint64_t *event_page_offset, uint32_t *event_slot_index);
 int kfd_event_destroy(struct kfd_process *p, uint32_t event_id);
 
-void kfd_signal_vm_fault_event(struct kfd_dev *dev, unsigned int pasid,
+void kfd_signal_vm_fault_event(struct kfd_dev *dev, u32 pasid,
                                struct kfd_vm_fault_info *info);
 
 void kfd_signal_reset_event(struct kfd_dev *dev);
index 40695d5..6277930 100644 (file)
@@ -1306,7 +1306,7 @@ void kfd_process_device_remove_obj_handle(struct kfd_process_device *pdd,
 }
 
 /* This increments the process->ref counter. */
-struct kfd_process *kfd_lookup_process_by_pasid(unsigned int pasid)
+struct kfd_process *kfd_lookup_process_by_pasid(u32 pasid)
 {
        struct kfd_process *p, *ret_p = NULL;
        unsigned int temp;
index 4ba8b54..a717a49 100644 (file)
@@ -1409,7 +1409,7 @@ static int dm_late_init(void *handle)
        if (dmcu)
                ret = dmcu_load_iram(dmcu, params);
        else if (adev->dm.dc->ctx->dmub_srv)
-               ret = dmub_init_abm_config(adev->dm.dc->res_pool->abm, params);
+               ret = dmub_init_abm_config(adev->dm.dc->res_pool, params);
 
        if (!ret)
                return -EINVAL;
index 8597247..6149795 100644 (file)
@@ -657,7 +657,7 @@ void fill_iram_v_2_3(struct iram_table_v_2_2 *ram_table, struct dmcu_iram_parame
                        params, ram_table, big_endian);
 }
 
-bool dmub_init_abm_config(struct abm *abm,
+bool dmub_init_abm_config(struct resource_pool *res_pool,
        struct dmcu_iram_parameters params)
 {
        struct iram_table_v_2_2 ram_table;
@@ -665,8 +665,13 @@ bool dmub_init_abm_config(struct abm *abm,
        bool result = false;
        uint32_t i, j = 0;
 
-       if (abm == NULL)
+#if defined(CONFIG_DRM_AMD_DC_DCN3_0)
+       if (res_pool->abm == NULL && res_pool->multiple_abms[0] == NULL)
                return false;
+#else
+       if (res_pool->abm == NULL)
+               return false;
+#endif
 
        memset(&ram_table, 0, sizeof(ram_table));
        memset(&config, 0, sizeof(config));
@@ -707,8 +712,14 @@ bool dmub_init_abm_config(struct abm *abm,
 
        config.min_abm_backlight = ram_table.min_abm_backlight;
 
-       result = abm->funcs->init_abm_config(
-               abm, (char *)(&config), sizeof(struct abm_config_table));
+#if defined(CONFIG_DRM_AMD_DC_DCN3_0)
+       if (res_pool->multiple_abms[0]) {
+               result = res_pool->multiple_abms[0]->funcs->init_abm_config(
+                       res_pool->multiple_abms[0], (char *)(&config), sizeof(struct abm_config_table));
+       } else
+#endif
+               result = res_pool->abm->funcs->init_abm_config(
+                       res_pool->abm, (char *)(&config), sizeof(struct abm_config_table));
 
        return result;
 }
index 46fbca2..fa4728d 100644 (file)
@@ -28,6 +28,8 @@
 #include "dc/inc/hw/dmcu.h"
 #include "dc/inc/hw/abm.h"
 
+struct resource_pool;
+
 
 enum abm_defines {
        abm_defines_max_level = 4,
@@ -45,7 +47,7 @@ struct dmcu_iram_parameters {
 
 bool dmcu_load_iram(struct dmcu *dmcu,
                struct dmcu_iram_parameters params);
-bool dmub_init_abm_config(struct abm *abm,
+bool dmub_init_abm_config(struct resource_pool *res_pool,
                struct dmcu_iram_parameters params);
 
 #endif /* MODULES_POWER_POWER_HELPERS_H_ */
index a3c238c..301de49 100644 (file)
@@ -226,7 +226,7 @@ struct kfd2kgd_calls {
                        uint32_t sh_mem_config, uint32_t sh_mem_ape1_base,
                        uint32_t sh_mem_ape1_limit, uint32_t sh_mem_bases);
 
-       int (*set_pasid_vmid_mapping)(struct kgd_dev *kgd, unsigned int pasid,
+       int (*set_pasid_vmid_mapping)(struct kgd_dev *kgd, u32 pasid,
                                        unsigned int vmid);
 
        int (*init_interrupts)(struct kgd_dev *kgd, uint32_t pipe_id);
index 3d5eae9..b1547a8 100644 (file)
@@ -2265,8 +2265,6 @@ static void navi10_fill_i2c_req(SwI2cRequest_t  *req, bool write,
 {
        int i;
 
-       BUG_ON(numbytes > MAX_SW_I2C_COMMANDS);
-
        req->I2CcontrollerPort = 0;
        req->I2CSpeed = 2;
        req->SlaveAddress = address;
@@ -2304,6 +2302,12 @@ static int navi10_i2c_read_data(struct i2c_adapter *control,
        struct smu_table_context *smu_table = &adev->smu.smu_table;
        struct smu_table *table = &smu_table->driver_table;
 
+       if (numbytes > MAX_SW_I2C_COMMANDS) {
+               dev_err(adev->dev, "numbytes requested %d is over max allowed %d\n",
+                       numbytes, MAX_SW_I2C_COMMANDS);
+               return -EINVAL;
+       }
+
        memset(&req, 0, sizeof(req));
        navi10_fill_i2c_req(&req, false, address, numbytes, data);
 
@@ -2340,6 +2344,12 @@ static int navi10_i2c_write_data(struct i2c_adapter *control,
        SwI2cRequest_t req;
        struct amdgpu_device *adev = to_amdgpu_device(control);
 
+       if (numbytes > MAX_SW_I2C_COMMANDS) {
+               dev_err(adev->dev, "numbytes requested %d is over max allowed %d\n",
+                       numbytes, MAX_SW_I2C_COMMANDS);
+               return -EINVAL;
+       }
+
        memset(&req, 0, sizeof(req));
        navi10_fill_i2c_req(&req, true, address, numbytes, data);
 
index 61f4dda..ace682f 100644 (file)
@@ -2445,8 +2445,6 @@ static void sienna_cichlid_fill_i2c_req(SwI2cRequest_t  *req, bool write,
 {
        int i;
 
-       BUG_ON(numbytes > MAX_SW_I2C_COMMANDS);
-
        req->I2CcontrollerPort = 0;
        req->I2CSpeed = 2;
        req->SlaveAddress = address;
@@ -2484,6 +2482,12 @@ static int sienna_cichlid_i2c_read_data(struct i2c_adapter *control,
        struct smu_table_context *smu_table = &adev->smu.smu_table;
        struct smu_table *table = &smu_table->driver_table;
 
+       if (numbytes > MAX_SW_I2C_COMMANDS) {
+               dev_err(adev->dev, "numbytes requested %d is over max allowed %d\n",
+                       numbytes, MAX_SW_I2C_COMMANDS);
+               return -EINVAL;
+       }
+
        memset(&req, 0, sizeof(req));
        sienna_cichlid_fill_i2c_req(&req, false, address, numbytes, data);
 
@@ -2520,6 +2524,12 @@ static int sienna_cichlid_i2c_write_data(struct i2c_adapter *control,
        SwI2cRequest_t req;
        struct amdgpu_device *adev = to_amdgpu_device(control);
 
+       if (numbytes > MAX_SW_I2C_COMMANDS) {
+               dev_err(adev->dev, "numbytes requested %d is over max allowed %d\n",
+                       numbytes, MAX_SW_I2C_COMMANDS);
+               return -EINVAL;
+       }
+
        memset(&req, 0, sizeof(req));
        sienna_cichlid_fill_i2c_req(&req, true, address, numbytes, data);
 
index d960d0b..839bd53 100644 (file)
@@ -81,7 +81,7 @@ static void *active_debug_hint(void *addr)
        return (void *)ref->active ?: (void *)ref->retire ?: (void *)ref;
 }
 
-static struct debug_obj_descr active_debug_desc = {
+static const struct debug_obj_descr active_debug_desc = {
        .name = "i915_active",
        .debug_hint = active_debug_hint,
 };
index 4cd2038..038d4c6 100644 (file)
@@ -34,7 +34,7 @@ static void *i915_sw_fence_debug_hint(void *addr)
 
 #ifdef CONFIG_DRM_I915_SW_FENCE_DEBUG_OBJECTS
 
-static struct debug_obj_descr i915_sw_fence_debug_descr = {
+static const struct debug_obj_descr i915_sw_fence_debug_descr = {
        .name = "i915_sw_fence",
        .debug_hint = i915_sw_fence_debug_hint,
 };
index b1bb542..e5fae57 100644 (file)
@@ -176,6 +176,8 @@ void
 nouveau_mem_del(struct ttm_mem_reg *reg)
 {
        struct nouveau_mem *mem = nouveau_mem(reg);
+       if (!mem)
+               return;
        nouveau_mem_fini(mem);
        kfree(reg->mm_node);
        reg->mm_node = NULL;
index 9f4ac26..dcb7067 100644 (file)
@@ -3149,6 +3149,7 @@ nvkm_device_ctor(const struct nvkm_device_func *func,
                case 0x168: device->chip = &nv168_chipset; break;
                default:
                        nvdev_error(device, "unknown chipset (%08x)\n", boot0);
+                       ret = -ENODEV;
                        goto done;
                }
 
index c5dec57..ef73a42 100644 (file)
@@ -5,6 +5,7 @@
  * Copyright (C) 2014 Beniamino Galvani <b.galvani@gmail.com>
  */
 
+#include <linux/bitfield.h>
 #include <linux/clk.h>
 #include <linux/completion.h>
 #include <linux/i2c.h>
 #define REG_CTRL_ACK_IGNORE    BIT(1)
 #define REG_CTRL_STATUS                BIT(2)
 #define REG_CTRL_ERROR         BIT(3)
-#define REG_CTRL_CLKDIV_SHIFT  12
-#define REG_CTRL_CLKDIV_MASK   GENMASK(21, 12)
-#define REG_CTRL_CLKDIVEXT_SHIFT 28
-#define REG_CTRL_CLKDIVEXT_MASK        GENMASK(29, 28)
+#define REG_CTRL_CLKDIV                GENMASK(21, 12)
+#define REG_CTRL_CLKDIVEXT     GENMASK(29, 28)
+
+#define REG_SLV_ADDR           GENMASK(7, 0)
+#define REG_SLV_SDA_FILTER     GENMASK(10, 8)
+#define REG_SLV_SCL_FILTER     GENMASK(13, 11)
+#define REG_SLV_SCL_LOW                GENMASK(27, 16)
+#define REG_SLV_SCL_LOW_EN     BIT(28)
 
 #define I2C_TIMEOUT_MS         500
+#define FILTER_DELAY           15
 
 enum {
        TOKEN_END = 0,
@@ -133,19 +139,24 @@ static void meson_i2c_set_clk_div(struct meson_i2c *i2c, unsigned int freq)
        unsigned long clk_rate = clk_get_rate(i2c->clk);
        unsigned int div;
 
-       div = DIV_ROUND_UP(clk_rate, freq * i2c->data->div_factor);
+       div = DIV_ROUND_UP(clk_rate, freq);
+       div -= FILTER_DELAY;
+       div = DIV_ROUND_UP(div, i2c->data->div_factor);
 
        /* clock divider has 12 bits */
-       if (div >= (1 << 12)) {
+       if (div > GENMASK(11, 0)) {
                dev_err(i2c->dev, "requested bus frequency too low\n");
-               div = (1 << 12) - 1;
+               div = GENMASK(11, 0);
        }
 
-       meson_i2c_set_mask(i2c, REG_CTRL, REG_CTRL_CLKDIV_MASK,
-                          (div & GENMASK(9, 0)) << REG_CTRL_CLKDIV_SHIFT);
+       meson_i2c_set_mask(i2c, REG_CTRL, REG_CTRL_CLKDIV,
+                          FIELD_PREP(REG_CTRL_CLKDIV, div & GENMASK(9, 0)));
+
+       meson_i2c_set_mask(i2c, REG_CTRL, REG_CTRL_CLKDIVEXT,
+                          FIELD_PREP(REG_CTRL_CLKDIVEXT, div >> 10));
 
-       meson_i2c_set_mask(i2c, REG_CTRL, REG_CTRL_CLKDIVEXT_MASK,
-                          (div >> 10) << REG_CTRL_CLKDIVEXT_SHIFT);
+       /* Disable HIGH/LOW mode */
+       meson_i2c_set_mask(i2c, REG_SLAVE_ADDR, REG_SLV_SCL_LOW_EN, 0);
 
        dev_dbg(i2c->dev, "%s: clk %lu, freq %u, div %u\n", __func__,
                clk_rate, freq, div);
@@ -280,7 +291,10 @@ static void meson_i2c_do_start(struct meson_i2c *i2c, struct i2c_msg *msg)
        token = (msg->flags & I2C_M_RD) ? TOKEN_SLAVE_ADDR_READ :
                TOKEN_SLAVE_ADDR_WRITE;
 
-       writel(msg->addr << 1, i2c->regs + REG_SLAVE_ADDR);
+
+       meson_i2c_set_mask(i2c, REG_SLAVE_ADDR, REG_SLV_ADDR,
+                          FIELD_PREP(REG_SLV_ADDR, msg->addr << 1));
+
        meson_i2c_add_token(i2c, TOKEN_START);
        meson_i2c_add_token(i2c, token);
 }
@@ -357,16 +371,12 @@ static int meson_i2c_xfer_messages(struct i2c_adapter *adap,
        struct meson_i2c *i2c = adap->algo_data;
        int i, ret = 0;
 
-       clk_enable(i2c->clk);
-
        for (i = 0; i < num; i++) {
                ret = meson_i2c_xfer_msg(i2c, msgs + i, i == num - 1, atomic);
                if (ret)
                        break;
        }
 
-       clk_disable(i2c->clk);
-
        return ret ?: i;
 }
 
@@ -435,7 +445,7 @@ static int meson_i2c_probe(struct platform_device *pdev)
                return ret;
        }
 
-       ret = clk_prepare(i2c->clk);
+       ret = clk_prepare_enable(i2c->clk);
        if (ret < 0) {
                dev_err(&pdev->dev, "can't prepare clock\n");
                return ret;
@@ -457,10 +467,14 @@ static int meson_i2c_probe(struct platform_device *pdev)
 
        ret = i2c_add_adapter(&i2c->adap);
        if (ret < 0) {
-               clk_unprepare(i2c->clk);
+               clk_disable_unprepare(i2c->clk);
                return ret;
        }
 
+       /* Disable filtering */
+       meson_i2c_set_mask(i2c, REG_SLAVE_ADDR,
+                          REG_SLV_SDA_FILTER | REG_SLV_SCL_FILTER, 0);
+
        meson_i2c_set_clk_div(i2c, timings.bus_freq_hz);
 
        return 0;
@@ -471,7 +485,7 @@ static int meson_i2c_remove(struct platform_device *pdev)
        struct meson_i2c *i2c = platform_get_drvdata(pdev);
 
        i2c_del_adapter(&i2c->adap);
-       clk_unprepare(i2c->clk);
+       clk_disable_unprepare(i2c->clk);
 
        return 0;
 }
index 672f1f2..a163b8f 100644 (file)
@@ -176,6 +176,9 @@ static irqreturn_t owl_i2c_interrupt(int irq, void *_dev)
        fifostat = readl(i2c_dev->base + OWL_I2C_REG_FIFOSTAT);
        if (fifostat & OWL_I2C_FIFOSTAT_RNB) {
                i2c_dev->err = -ENXIO;
+               /* Clear NACK error bit by writing "1" */
+               owl_i2c_update_reg(i2c_dev->base + OWL_I2C_REG_FIFOSTAT,
+                                  OWL_I2C_FIFOSTAT_RNB, true);
                goto stop;
        }
 
@@ -183,6 +186,9 @@ static irqreturn_t owl_i2c_interrupt(int irq, void *_dev)
        stat = readl(i2c_dev->base + OWL_I2C_REG_STAT);
        if (stat & OWL_I2C_STAT_BEB) {
                i2c_dev->err = -EIO;
+               /* Clear BUS error bit by writing "1" */
+               owl_i2c_update_reg(i2c_dev->base + OWL_I2C_REG_STAT,
+                                  OWL_I2C_STAT_BEB, true);
                goto stop;
        }
 
index 973ed4b..19abf11 100644 (file)
@@ -744,9 +744,10 @@ config BLK_DEV_MAC_IDE
        depends on MAC
        help
          This is the IDE driver for the on-board IDE interface on some m68k
-         Macintosh models. It supports both the `Quadra style' (used in
-         Quadra/ Centris 630 and Performa 588 models) and `Powerbook style'
-         (used in the Powerbook 150 and 190 models) IDE interface.
+         Macintosh models, namely Quadra/Centris 630, Performa 588 and
+         Powerbook 150. The IDE interface on the Powerbook 190 is not
+         supported by this driver and requires BLK_DEV_PLATFORM or
+         PATA_PLATFORM.
 
          Say Y if you have such an Macintosh model and want to use IDE
          devices (hard disks, CD-ROM drives, etc.) that are connected to the
index adc5fe9..8d2bf73 100644 (file)
 #include <linux/delay.h>
 #include <linux/ide.h>
 #include <linux/module.h>
+#include <linux/platform_device.h>
 
 #include <asm/macintosh.h>
-#include <asm/macints.h>
-#include <asm/mac_baboon.h>
+
+#define DRV_NAME "mac_ide"
 
 #define IDE_BASE 0x50F1A000    /* Base address of IDE controller */
 
@@ -100,42 +101,61 @@ static const char *mac_ide_name[] =
  * Probe for a Macintosh IDE interface
  */
 
-static int __init macide_init(void)
+static int mac_ide_probe(struct platform_device *pdev)
 {
-       unsigned long base;
-       int irq;
+       struct resource *mem, *irq;
        struct ide_hw hw, *hws[] = { &hw };
        struct ide_port_info d = macide_port_info;
+       struct ide_host *host;
+       int rc;
 
        if (!MACH_IS_MAC)
                return -ENODEV;
 
-       switch (macintosh_config->ide_type) {
-       case MAC_IDE_QUADRA:
-               base = IDE_BASE;
-               irq = IRQ_NUBUS_F;
-               break;
-       case MAC_IDE_PB:
-               base = IDE_BASE;
-               irq = IRQ_NUBUS_C;
-               break;
-       case MAC_IDE_BABOON:
-               base = BABOON_BASE;
-               d.port_ops = NULL;
-               irq = IRQ_BABOON_1;
-               break;
-       default:
+       mem = platform_get_resource(pdev, IORESOURCE_MEM, 0);
+       if (!mem)
+               return -ENODEV;
+
+       irq = platform_get_resource(pdev, IORESOURCE_IRQ, 0);
+       if (!irq)
                return -ENODEV;
+
+       if (!devm_request_mem_region(&pdev->dev, mem->start,
+                                    resource_size(mem), DRV_NAME)) {
+               dev_err(&pdev->dev, "resources busy\n");
+               return -EBUSY;
        }
 
        printk(KERN_INFO "ide: Macintosh %s IDE controller\n",
                         mac_ide_name[macintosh_config->ide_type - 1]);
 
-       macide_setup_ports(&hw, base, irq);
+       macide_setup_ports(&hw, mem->start, irq->start);
 
-       return ide_host_add(&d, hws, 1, NULL);
+       rc = ide_host_add(&d, hws, 1, &host);
+       if (rc)
+               return rc;
+
+       platform_set_drvdata(pdev, host);
+       return 0;
 }
 
-module_init(macide_init);
+static int mac_ide_remove(struct platform_device *pdev)
+{
+       struct ide_host *host = platform_get_drvdata(pdev);
+
+       ide_host_remove(host);
+       return 0;
+}
+
+static struct platform_driver mac_ide_driver = {
+       .driver = {
+               .name = DRV_NAME,
+       },
+       .probe  = mac_ide_probe,
+       .remove = mac_ide_remove,
+};
+
+module_platform_driver(mac_ide_driver);
 
+MODULE_ALIAS("platform:" DRV_NAME);
 MODULE_LICENSE("GPL");
index ffad73b..5a76611 100644 (file)
@@ -1320,9 +1320,10 @@ struct net_device *rdma_read_gid_attr_ndev_rcu(const struct ib_gid_attr *attr)
 }
 EXPORT_SYMBOL(rdma_read_gid_attr_ndev_rcu);
 
-static int get_lower_dev_vlan(struct net_device *lower_dev, void *data)
+static int get_lower_dev_vlan(struct net_device *lower_dev,
+                             struct netdev_nested_priv *priv)
 {
-       u16 *vlan_id = data;
+       u16 *vlan_id = (u16 *)priv->data;
 
        if (is_vlan_dev(lower_dev))
                *vlan_id = vlan_dev_vlan_id(lower_dev);
@@ -1348,6 +1349,9 @@ static int get_lower_dev_vlan(struct net_device *lower_dev, void *data)
 int rdma_read_gid_l2_fields(const struct ib_gid_attr *attr,
                            u16 *vlan_id, u8 *smac)
 {
+       struct netdev_nested_priv priv = {
+               .data = (void *)vlan_id,
+       };
        struct net_device *ndev;
 
        rcu_read_lock();
@@ -1368,7 +1372,7 @@ int rdma_read_gid_l2_fields(const struct ib_gid_attr *attr,
                         * the lower vlan device for this gid entry.
                         */
                        netdev_walk_all_lower_dev_rcu(attr->ndev,
-                                       get_lower_dev_vlan, vlan_id);
+                                       get_lower_dev_vlan, &priv);
                }
        }
        rcu_read_unlock();
index 7f0e91e..5888311 100644 (file)
@@ -2865,9 +2865,10 @@ struct iboe_prio_tc_map {
        bool found;
 };
 
-static int get_lower_vlan_dev_tc(struct net_device *dev, void *data)
+static int get_lower_vlan_dev_tc(struct net_device *dev,
+                                struct netdev_nested_priv *priv)
 {
-       struct iboe_prio_tc_map *map = data;
+       struct iboe_prio_tc_map *map = (struct iboe_prio_tc_map *)priv->data;
 
        if (is_vlan_dev(dev))
                map->output_tc = get_vlan_ndev_tc(dev, map->input_prio);
@@ -2886,16 +2887,18 @@ static int iboe_tos_to_sl(struct net_device *ndev, int tos)
 {
        struct iboe_prio_tc_map prio_tc_map = {};
        int prio = rt_tos2priority(tos);
+       struct netdev_nested_priv priv;
 
        /* If VLAN device, get it directly from the VLAN netdev */
        if (is_vlan_dev(ndev))
                return get_vlan_ndev_tc(ndev, prio);
 
        prio_tc_map.input_prio = prio;
+       priv.data = (void *)&prio_tc_map;
        rcu_read_lock();
        netdev_walk_all_lower_dev_rcu(ndev,
                                      get_lower_vlan_dev_tc,
-                                     &prio_tc_map);
+                                     &priv);
        rcu_read_unlock();
        /* If map is found from lower device, use it; Otherwise
         * continue with the current netdevice to get priority to tc map.
index 2860def..6b8364b 100644 (file)
@@ -531,10 +531,11 @@ struct upper_list {
        struct net_device *upper;
 };
 
-static int netdev_upper_walk(struct net_device *upper, void *data)
+static int netdev_upper_walk(struct net_device *upper,
+                            struct netdev_nested_priv *priv)
 {
        struct upper_list *entry = kmalloc(sizeof(*entry), GFP_ATOMIC);
-       struct list_head *upper_list = data;
+       struct list_head *upper_list = (struct list_head *)priv->data;
 
        if (!entry)
                return 0;
@@ -553,12 +554,14 @@ static void handle_netdev_upper(struct ib_device *ib_dev, u8 port,
                                                      struct net_device *ndev))
 {
        struct net_device *ndev = cookie;
+       struct netdev_nested_priv priv;
        struct upper_list *upper_iter;
        struct upper_list *upper_temp;
        LIST_HEAD(upper_list);
 
+       priv.data = &upper_list;
        rcu_read_lock();
-       netdev_walk_all_upper_dev_rcu(ndev, netdev_upper_walk, &upper_list);
+       netdev_walk_all_upper_dev_rcu(ndev, netdev_upper_walk, &priv);
        rcu_read_unlock();
 
        handle_netdev(ib_dev, port, ndev);
index ab75b7f..f772fe8 100644 (file)
@@ -342,9 +342,10 @@ struct ipoib_walk_data {
        struct net_device *result;
 };
 
-static int ipoib_upper_walk(struct net_device *upper, void *_data)
+static int ipoib_upper_walk(struct net_device *upper,
+                           struct netdev_nested_priv *priv)
 {
-       struct ipoib_walk_data *data = _data;
+       struct ipoib_walk_data *data = (struct ipoib_walk_data *)priv->data;
        int ret = 0;
 
        if (ipoib_is_dev_match_addr_rcu(data->addr, upper)) {
@@ -368,10 +369,12 @@ static int ipoib_upper_walk(struct net_device *upper, void *_data)
 static struct net_device *ipoib_get_net_dev_match_addr(
                const struct sockaddr *addr, struct net_device *dev)
 {
+       struct netdev_nested_priv priv;
        struct ipoib_walk_data data = {
                .addr = addr,
        };
 
+       priv.data = (void *)&data;
        rcu_read_lock();
        if (ipoib_is_dev_match_addr_rcu(addr, dev)) {
                dev_hold(dev);
@@ -379,7 +382,7 @@ static struct net_device *ipoib_get_net_dev_match_addr(
                goto out;
        }
 
-       netdev_walk_all_upper_dev_rcu(dev, ipoib_upper_walk, &data);
+       netdev_walk_all_upper_dev_rcu(dev, ipoib_upper_walk, &priv);
 out:
        rcu_read_unlock();
        return data.result;
index 5730971..030ee90 100644 (file)
@@ -45,12 +45,12 @@ extern int amd_iommu_register_ppr_notifier(struct notifier_block *nb);
 extern int amd_iommu_unregister_ppr_notifier(struct notifier_block *nb);
 extern void amd_iommu_domain_direct_map(struct iommu_domain *dom);
 extern int amd_iommu_domain_enable_v2(struct iommu_domain *dom, int pasids);
-extern int amd_iommu_flush_page(struct iommu_domain *dom, int pasid,
+extern int amd_iommu_flush_page(struct iommu_domain *dom, u32 pasid,
                                u64 address);
-extern int amd_iommu_flush_tlb(struct iommu_domain *dom, int pasid);
-extern int amd_iommu_domain_set_gcr3(struct iommu_domain *dom, int pasid,
+extern int amd_iommu_flush_tlb(struct iommu_domain *dom, u32 pasid);
+extern int amd_iommu_domain_set_gcr3(struct iommu_domain *dom, u32 pasid,
                                     unsigned long cr3);
-extern int amd_iommu_domain_clear_gcr3(struct iommu_domain *dom, int pasid);
+extern int amd_iommu_domain_clear_gcr3(struct iommu_domain *dom, u32 pasid);
 extern struct iommu_domain *amd_iommu_get_v2_domain(struct pci_dev *pdev);
 
 #ifdef CONFIG_IRQ_REMAP
@@ -66,7 +66,7 @@ static inline int amd_iommu_create_irq_domain(struct amd_iommu *iommu)
 #define PPR_INVALID                    0x1
 #define PPR_FAILURE                    0xf
 
-extern int amd_iommu_complete_ppr(struct pci_dev *pdev, int pasid,
+extern int amd_iommu_complete_ppr(struct pci_dev *pdev, u32 pasid,
                                  int status, int tag);
 
 static inline bool is_rd890_iommu(struct pci_dev *pdev)
index 10e4200..9e231ca 100644 (file)
@@ -513,10 +513,11 @@ static void amd_iommu_report_page_fault(u16 devid, u16 domain_id,
 static void iommu_print_event(struct amd_iommu *iommu, void *__evt)
 {
        struct device *dev = iommu->iommu.dev;
-       int type, devid, pasid, flags, tag;
+       int type, devid, flags, tag;
        volatile u32 *event = __evt;
        int count = 0;
        u64 address;
+       u32 pasid;
 
 retry:
        type    = (event[1] >> EVENT_TYPE_SHIFT)  & EVENT_TYPE_MASK;
@@ -729,7 +730,21 @@ static void iommu_poll_ga_log(struct amd_iommu *iommu)
                }
        }
 }
-#endif /* CONFIG_IRQ_REMAP */
+
+static void
+amd_iommu_set_pci_msi_domain(struct device *dev, struct amd_iommu *iommu)
+{
+       if (!irq_remapping_enabled || !dev_is_pci(dev) ||
+           pci_dev_has_special_msi_domain(to_pci_dev(dev)))
+               return;
+
+       dev_set_msi_domain(dev, iommu->msi_domain);
+}
+
+#else /* CONFIG_IRQ_REMAP */
+static inline void
+amd_iommu_set_pci_msi_domain(struct device *dev, struct amd_iommu *iommu) { }
+#endif /* !CONFIG_IRQ_REMAP */
 
 #define AMD_IOMMU_INT_MASK     \
        (MMIO_STATUS_EVT_INT_MASK | \
@@ -909,7 +924,7 @@ static void build_inv_iotlb_pages(struct iommu_cmd *cmd, u16 devid, int qdep,
                cmd->data[2] |= CMD_INV_IOMMU_PAGES_SIZE_MASK;
 }
 
-static void build_inv_iommu_pasid(struct iommu_cmd *cmd, u16 domid, int pasid,
+static void build_inv_iommu_pasid(struct iommu_cmd *cmd, u16 domid, u32 pasid,
                                  u64 address, bool size)
 {
        memset(cmd, 0, sizeof(*cmd));
@@ -927,7 +942,7 @@ static void build_inv_iommu_pasid(struct iommu_cmd *cmd, u16 domid, int pasid,
        CMD_SET_TYPE(cmd, CMD_INV_IOMMU_PAGES);
 }
 
-static void build_inv_iotlb_pasid(struct iommu_cmd *cmd, u16 devid, int pasid,
+static void build_inv_iotlb_pasid(struct iommu_cmd *cmd, u16 devid, u32 pasid,
                                  int qdep, u64 address, bool size)
 {
        memset(cmd, 0, sizeof(*cmd));
@@ -947,7 +962,7 @@ static void build_inv_iotlb_pasid(struct iommu_cmd *cmd, u16 devid, int pasid,
        CMD_SET_TYPE(cmd, CMD_INV_IOTLB_PAGES);
 }
 
-static void build_complete_ppr(struct iommu_cmd *cmd, u16 devid, int pasid,
+static void build_complete_ppr(struct iommu_cmd *cmd, u16 devid, u32 pasid,
                               int status, int tag, bool gn)
 {
        memset(cmd, 0, sizeof(*cmd));
@@ -2157,6 +2172,7 @@ static struct iommu_device *amd_iommu_probe_device(struct device *dev)
                iommu_dev = ERR_PTR(ret);
                iommu_ignore_device(dev);
        } else {
+               amd_iommu_set_pci_msi_domain(dev, iommu);
                iommu_dev = &iommu->iommu;
        }
 
@@ -2786,7 +2802,7 @@ out:
 }
 EXPORT_SYMBOL(amd_iommu_domain_enable_v2);
 
-static int __flush_pasid(struct protection_domain *domain, int pasid,
+static int __flush_pasid(struct protection_domain *domain, u32 pasid,
                         u64 address, bool size)
 {
        struct iommu_dev_data *dev_data;
@@ -2847,13 +2863,13 @@ out:
        return ret;
 }
 
-static int __amd_iommu_flush_page(struct protection_domain *domain, int pasid,
+static int __amd_iommu_flush_page(struct protection_domain *domain, u32 pasid,
                                  u64 address)
 {
        return __flush_pasid(domain, pasid, address, false);
 }
 
-int amd_iommu_flush_page(struct iommu_domain *dom, int pasid,
+int amd_iommu_flush_page(struct iommu_domain *dom, u32 pasid,
                         u64 address)
 {
        struct protection_domain *domain = to_pdomain(dom);
@@ -2868,13 +2884,13 @@ int amd_iommu_flush_page(struct iommu_domain *dom, int pasid,
 }
 EXPORT_SYMBOL(amd_iommu_flush_page);
 
-static int __amd_iommu_flush_tlb(struct protection_domain *domain, int pasid)
+static int __amd_iommu_flush_tlb(struct protection_domain *domain, u32 pasid)
 {
        return __flush_pasid(domain, pasid, CMD_INV_IOMMU_ALL_PAGES_ADDRESS,
                             true);
 }
 
-int amd_iommu_flush_tlb(struct iommu_domain *dom, int pasid)
+int amd_iommu_flush_tlb(struct iommu_domain *dom, u32 pasid)
 {
        struct protection_domain *domain = to_pdomain(dom);
        unsigned long flags;
@@ -2888,7 +2904,7 @@ int amd_iommu_flush_tlb(struct iommu_domain *dom, int pasid)
 }
 EXPORT_SYMBOL(amd_iommu_flush_tlb);
 
-static u64 *__get_gcr3_pte(u64 *root, int level, int pasid, bool alloc)
+static u64 *__get_gcr3_pte(u64 *root, int level, u32 pasid, bool alloc)
 {
        int index;
        u64 *pte;
@@ -2920,7 +2936,7 @@ static u64 *__get_gcr3_pte(u64 *root, int level, int pasid, bool alloc)
        return pte;
 }
 
-static int __set_gcr3(struct protection_domain *domain, int pasid,
+static int __set_gcr3(struct protection_domain *domain, u32 pasid,
                      unsigned long cr3)
 {
        struct domain_pgtable pgtable;
@@ -2939,7 +2955,7 @@ static int __set_gcr3(struct protection_domain *domain, int pasid,
        return __amd_iommu_flush_tlb(domain, pasid);
 }
 
-static int __clear_gcr3(struct protection_domain *domain, int pasid)
+static int __clear_gcr3(struct protection_domain *domain, u32 pasid)
 {
        struct domain_pgtable pgtable;
        u64 *pte;
@@ -2957,7 +2973,7 @@ static int __clear_gcr3(struct protection_domain *domain, int pasid)
        return __amd_iommu_flush_tlb(domain, pasid);
 }
 
-int amd_iommu_domain_set_gcr3(struct iommu_domain *dom, int pasid,
+int amd_iommu_domain_set_gcr3(struct iommu_domain *dom, u32 pasid,
                              unsigned long cr3)
 {
        struct protection_domain *domain = to_pdomain(dom);
@@ -2972,7 +2988,7 @@ int amd_iommu_domain_set_gcr3(struct iommu_domain *dom, int pasid,
 }
 EXPORT_SYMBOL(amd_iommu_domain_set_gcr3);
 
-int amd_iommu_domain_clear_gcr3(struct iommu_domain *dom, int pasid)
+int amd_iommu_domain_clear_gcr3(struct iommu_domain *dom, u32 pasid)
 {
        struct protection_domain *domain = to_pdomain(dom);
        unsigned long flags;
@@ -2986,7 +3002,7 @@ int amd_iommu_domain_clear_gcr3(struct iommu_domain *dom, int pasid)
 }
 EXPORT_SYMBOL(amd_iommu_domain_clear_gcr3);
 
-int amd_iommu_complete_ppr(struct pci_dev *pdev, int pasid,
+int amd_iommu_complete_ppr(struct pci_dev *pdev, u32 pasid,
                           int status, int tag)
 {
        struct iommu_dev_data *dev_data;
@@ -3519,69 +3535,51 @@ static void irte_ga_clear_allocated(struct irq_remap_table *table, int index)
 
 static int get_devid(struct irq_alloc_info *info)
 {
-       int devid = -1;
-
        switch (info->type) {
        case X86_IRQ_ALLOC_TYPE_IOAPIC:
-               devid     = get_ioapic_devid(info->ioapic_id);
-               break;
+       case X86_IRQ_ALLOC_TYPE_IOAPIC_GET_PARENT:
+               return get_ioapic_devid(info->devid);
        case X86_IRQ_ALLOC_TYPE_HPET:
-               devid     = get_hpet_devid(info->hpet_id);
-               break;
-       case X86_IRQ_ALLOC_TYPE_MSI:
-       case X86_IRQ_ALLOC_TYPE_MSIX:
-               devid = get_device_id(&info->msi_dev->dev);
-               break;
+       case X86_IRQ_ALLOC_TYPE_HPET_GET_PARENT:
+               return get_hpet_devid(info->devid);
+       case X86_IRQ_ALLOC_TYPE_PCI_MSI:
+       case X86_IRQ_ALLOC_TYPE_PCI_MSIX:
+               return get_device_id(msi_desc_to_dev(info->desc));
        default:
-               BUG_ON(1);
-               break;
+               WARN_ON_ONCE(1);
+               return -1;
        }
-
-       return devid;
 }
 
-static struct irq_domain *get_ir_irq_domain(struct irq_alloc_info *info)
+static struct irq_domain *get_irq_domain_for_devid(struct irq_alloc_info *info,
+                                                  int devid)
 {
-       struct amd_iommu *iommu;
-       int devid;
+       struct amd_iommu *iommu = amd_iommu_rlookup_table[devid];
 
-       if (!info)
+       if (!iommu)
                return NULL;
 
-       devid = get_devid(info);
-       if (devid >= 0) {
-               iommu = amd_iommu_rlookup_table[devid];
-               if (iommu)
-                       return iommu->ir_domain;
+       switch (info->type) {
+       case X86_IRQ_ALLOC_TYPE_IOAPIC_GET_PARENT:
+       case X86_IRQ_ALLOC_TYPE_HPET_GET_PARENT:
+               return iommu->ir_domain;
+       default:
+               WARN_ON_ONCE(1);
+               return NULL;
        }
-
-       return NULL;
 }
 
 static struct irq_domain *get_irq_domain(struct irq_alloc_info *info)
 {
-       struct amd_iommu *iommu;
        int devid;
 
        if (!info)
                return NULL;
 
-       switch (info->type) {
-       case X86_IRQ_ALLOC_TYPE_MSI:
-       case X86_IRQ_ALLOC_TYPE_MSIX:
-               devid = get_device_id(&info->msi_dev->dev);
-               if (devid < 0)
-                       return NULL;
-
-               iommu = amd_iommu_rlookup_table[devid];
-               if (iommu)
-                       return iommu->msi_domain;
-               break;
-       default:
-               break;
-       }
-
-       return NULL;
+       devid = get_devid(info);
+       if (devid < 0)
+               return NULL;
+       return get_irq_domain_for_devid(info, devid);
 }
 
 struct irq_remap_ops amd_iommu_irq_ops = {
@@ -3590,7 +3588,6 @@ struct irq_remap_ops amd_iommu_irq_ops = {
        .disable                = amd_iommu_disable,
        .reenable               = amd_iommu_reenable,
        .enable_faulting        = amd_iommu_enable_faulting,
-       .get_ir_irq_domain      = get_ir_irq_domain,
        .get_irq_domain         = get_irq_domain,
 };
 
@@ -3616,21 +3613,21 @@ static void irq_remapping_prepare_irte(struct amd_ir_data *data,
        switch (info->type) {
        case X86_IRQ_ALLOC_TYPE_IOAPIC:
                /* Setup IOAPIC entry */
-               entry = info->ioapic_entry;
-               info->ioapic_entry = NULL;
+               entry = info->ioapic.entry;
+               info->ioapic.entry = NULL;
                memset(entry, 0, sizeof(*entry));
                entry->vector        = index;
                entry->mask          = 0;
-               entry->trigger       = info->ioapic_trigger;
-               entry->polarity      = info->ioapic_polarity;
+               entry->trigger       = info->ioapic.trigger;
+               entry->polarity      = info->ioapic.polarity;
                /* Mask level triggered irqs. */
-               if (info->ioapic_trigger)
+               if (info->ioapic.trigger)
                        entry->mask = 1;
                break;
 
        case X86_IRQ_ALLOC_TYPE_HPET:
-       case X86_IRQ_ALLOC_TYPE_MSI:
-       case X86_IRQ_ALLOC_TYPE_MSIX:
+       case X86_IRQ_ALLOC_TYPE_PCI_MSI:
+       case X86_IRQ_ALLOC_TYPE_PCI_MSIX:
                msg->address_hi = MSI_ADDR_BASE_HI;
                msg->address_lo = MSI_ADDR_BASE_LO;
                msg->data = irte_info->index;
@@ -3674,15 +3671,15 @@ static int irq_remapping_alloc(struct irq_domain *domain, unsigned int virq,
 
        if (!info)
                return -EINVAL;
-       if (nr_irqs > 1 && info->type != X86_IRQ_ALLOC_TYPE_MSI &&
-           info->type != X86_IRQ_ALLOC_TYPE_MSIX)
+       if (nr_irqs > 1 && info->type != X86_IRQ_ALLOC_TYPE_PCI_MSI &&
+           info->type != X86_IRQ_ALLOC_TYPE_PCI_MSIX)
                return -EINVAL;
 
        /*
         * With IRQ remapping enabled, don't need contiguous CPU vectors
         * to support multiple MSI interrupts.
         */
-       if (info->type == X86_IRQ_ALLOC_TYPE_MSI)
+       if (info->type == X86_IRQ_ALLOC_TYPE_PCI_MSI)
                info->flags &= ~X86_IRQ_ALLOC_CONTIGUOUS_VECTORS;
 
        devid = get_devid(info);
@@ -3710,15 +3707,16 @@ static int irq_remapping_alloc(struct irq_domain *domain, unsigned int virq,
                                        iommu->irte_ops->set_allocated(table, i);
                        }
                        WARN_ON(table->min_index != 32);
-                       index = info->ioapic_pin;
+                       index = info->ioapic.pin;
                } else {
                        index = -ENOMEM;
                }
-       } else if (info->type == X86_IRQ_ALLOC_TYPE_MSI ||
-                  info->type == X86_IRQ_ALLOC_TYPE_MSIX) {
-               bool align = (info->type == X86_IRQ_ALLOC_TYPE_MSI);
+       } else if (info->type == X86_IRQ_ALLOC_TYPE_PCI_MSI ||
+                  info->type == X86_IRQ_ALLOC_TYPE_PCI_MSIX) {
+               bool align = (info->type == X86_IRQ_ALLOC_TYPE_PCI_MSI);
 
-               index = alloc_irq_index(devid, nr_irqs, align, info->msi_dev);
+               index = alloc_irq_index(devid, nr_irqs, align,
+                                       msi_desc_to_pci_dev(info->desc));
        } else {
                index = alloc_irq_index(devid, nr_irqs, false, NULL);
        }
@@ -3731,8 +3729,8 @@ static int irq_remapping_alloc(struct irq_domain *domain, unsigned int virq,
 
        for (i = 0; i < nr_irqs; i++) {
                irq_data = irq_domain_get_irq_data(domain, virq + i);
-               cfg = irqd_cfg(irq_data);
-               if (!irq_data || !cfg) {
+               cfg = irq_data ? irqd_cfg(irq_data) : NULL;
+               if (!cfg) {
                        ret = -EINVAL;
                        goto out_free_data;
                }
index 0d175ae..5ecc0bc 100644 (file)
@@ -40,7 +40,7 @@ struct pasid_state {
        struct mmu_notifier mn;                 /* mmu_notifier handle */
        struct pri_queue pri[PRI_QUEUE_SIZE];   /* PRI tag states */
        struct device_state *device_state;      /* Link to our device_state */
-       int pasid;                              /* PASID index */
+       u32 pasid;                              /* PASID index */
        bool invalid;                           /* Used during setup and
                                                   teardown of the pasid */
        spinlock_t lock;                        /* Protect pri_queues and
@@ -70,7 +70,7 @@ struct fault {
        struct mm_struct *mm;
        u64 address;
        u16 devid;
-       u16 pasid;
+       u32 pasid;
        u16 tag;
        u16 finish;
        u16 flags;
@@ -150,7 +150,7 @@ static void put_device_state(struct device_state *dev_state)
 
 /* Must be called under dev_state->lock */
 static struct pasid_state **__get_pasid_state_ptr(struct device_state *dev_state,
-                                                 int pasid, bool alloc)
+                                                 u32 pasid, bool alloc)
 {
        struct pasid_state **root, **ptr;
        int level, index;
@@ -184,7 +184,7 @@ static struct pasid_state **__get_pasid_state_ptr(struct device_state *dev_state
 
 static int set_pasid_state(struct device_state *dev_state,
                           struct pasid_state *pasid_state,
-                          int pasid)
+                          u32 pasid)
 {
        struct pasid_state **ptr;
        unsigned long flags;
@@ -211,7 +211,7 @@ out_unlock:
        return ret;
 }
 
-static void clear_pasid_state(struct device_state *dev_state, int pasid)
+static void clear_pasid_state(struct device_state *dev_state, u32 pasid)
 {
        struct pasid_state **ptr;
        unsigned long flags;
@@ -229,7 +229,7 @@ out_unlock:
 }
 
 static struct pasid_state *get_pasid_state(struct device_state *dev_state,
-                                          int pasid)
+                                          u32 pasid)
 {
        struct pasid_state **ptr, *ret = NULL;
        unsigned long flags;
@@ -594,7 +594,7 @@ static struct notifier_block ppr_nb = {
        .notifier_call = ppr_notifier,
 };
 
-int amd_iommu_bind_pasid(struct pci_dev *pdev, int pasid,
+int amd_iommu_bind_pasid(struct pci_dev *pdev, u32 pasid,
                         struct task_struct *task)
 {
        struct pasid_state *pasid_state;
@@ -615,7 +615,7 @@ int amd_iommu_bind_pasid(struct pci_dev *pdev, int pasid,
                return -EINVAL;
 
        ret = -EINVAL;
-       if (pasid < 0 || pasid >= dev_state->max_pasids)
+       if (pasid >= dev_state->max_pasids)
                goto out;
 
        ret = -ENOMEM;
@@ -679,7 +679,7 @@ out:
 }
 EXPORT_SYMBOL(amd_iommu_bind_pasid);
 
-void amd_iommu_unbind_pasid(struct pci_dev *pdev, int pasid)
+void amd_iommu_unbind_pasid(struct pci_dev *pdev, u32 pasid)
 {
        struct pasid_state *pasid_state;
        struct device_state *dev_state;
@@ -695,7 +695,7 @@ void amd_iommu_unbind_pasid(struct pci_dev *pdev, int pasid)
        if (dev_state == NULL)
                return;
 
-       if (pasid < 0 || pasid >= dev_state->max_pasids)
+       if (pasid >= dev_state->max_pasids)
                goto out;
 
        pasid_state = get_pasid_state(dev_state, pasid);
index 8919c1c..e09e2d7 100644 (file)
@@ -101,7 +101,7 @@ static int hyperv_irq_remapping_alloc(struct irq_domain *domain,
         * in the chip_data and hyperv_irq_remapping_activate()/hyperv_ir_set_
         * affinity() set vector and dest_apicid directly into IO-APIC entry.
         */
-       irq_data->chip_data = info->ioapic_entry;
+       irq_data->chip_data = info->ioapic.entry;
 
        /*
         * Hypver-V IO APIC irq affinity should be in the scope of
@@ -182,9 +182,9 @@ static int __init hyperv_enable_irq_remapping(void)
        return IRQ_REMAP_X2APIC_MODE;
 }
 
-static struct irq_domain *hyperv_get_ir_irq_domain(struct irq_alloc_info *info)
+static struct irq_domain *hyperv_get_irq_domain(struct irq_alloc_info *info)
 {
-       if (info->type == X86_IRQ_ALLOC_TYPE_IOAPIC)
+       if (info->type == X86_IRQ_ALLOC_TYPE_IOAPIC_GET_PARENT)
                return ioapic_ir_domain;
        else
                return NULL;
@@ -193,7 +193,7 @@ static struct irq_domain *hyperv_get_ir_irq_domain(struct irq_alloc_info *info)
 struct irq_remap_ops hyperv_irq_remap_ops = {
        .prepare                = hyperv_prepare_irq_remapping,
        .enable                 = hyperv_enable_irq_remapping,
-       .get_ir_irq_domain      = hyperv_get_ir_irq_domain,
+       .get_irq_domain         = hyperv_get_irq_domain,
 };
 
 #endif
index 93e6345..a8fb82c 100644 (file)
@@ -316,6 +316,9 @@ static int dmar_pci_bus_add_dev(struct dmar_pci_notify_info *info)
        if (ret < 0 && dmar_dev_scope_status == 0)
                dmar_dev_scope_status = ret;
 
+       if (ret >= 0)
+               intel_irq_remap_add_device(info);
+
        return ret;
 }
 
@@ -1482,7 +1485,7 @@ void qi_flush_dev_iotlb_pasid(struct intel_iommu *iommu, u16 sid, u16 pfsid,
 }
 
 void qi_flush_pasid_cache(struct intel_iommu *iommu, u16 did,
-                         u64 granu, int pasid)
+                         u64 granu, u32 pasid)
 {
        struct qi_desc desc = {.qw1 = 0, .qw2 = 0, .qw3 = 0};
 
@@ -1796,7 +1799,7 @@ void dmar_msi_read(int irq, struct msi_msg *msg)
 }
 
 static int dmar_fault_do_one(struct intel_iommu *iommu, int type,
-               u8 fault_reason, int pasid, u16 source_id,
+               u8 fault_reason, u32 pasid, u16 source_id,
                unsigned long long addr)
 {
        const char *reason;
@@ -1846,7 +1849,8 @@ irqreturn_t dmar_fault(int irq, void *dev_id)
                u8 fault_reason;
                u16 source_id;
                u64 guest_addr;
-               int type, pasid;
+               u32 pasid;
+               int type;
                u32 data;
                bool pasid_present;
 
index 2239c21..342e42e 100644 (file)
@@ -2527,7 +2527,7 @@ dmar_search_domain_by_dev_info(int segment, int bus, int devfn)
 static int domain_setup_first_level(struct intel_iommu *iommu,
                                    struct dmar_domain *domain,
                                    struct device *dev,
-                                   int pasid)
+                                   u32 pasid)
 {
        int flags = PASID_FLAG_SUPERVISOR_MODE;
        struct dma_pte *pgd = domain->pgd;
@@ -5173,7 +5173,7 @@ static int aux_domain_add_dev(struct dmar_domain *domain,
                return -ENODEV;
 
        if (domain->default_pasid <= 0) {
-               int pasid;
+               u32 pasid;
 
                /* No private data needed for the default pasid */
                pasid = ioasid_alloc(NULL, PASID_MIN,
index 8f4ce72..0cfce1d 100644 (file)
@@ -204,35 +204,40 @@ static int modify_irte(struct irq_2_iommu *irq_iommu,
        return rc;
 }
 
-static struct intel_iommu *map_hpet_to_ir(u8 hpet_id)
+static struct irq_domain *map_hpet_to_ir(u8 hpet_id)
 {
        int i;
 
-       for (i = 0; i < MAX_HPET_TBS; i++)
+       for (i = 0; i < MAX_HPET_TBS; i++) {
                if (ir_hpet[i].id == hpet_id && ir_hpet[i].iommu)
-                       return ir_hpet[i].iommu;
+                       return ir_hpet[i].iommu->ir_domain;
+       }
        return NULL;
 }
 
-static struct intel_iommu *map_ioapic_to_ir(int apic)
+static struct intel_iommu *map_ioapic_to_iommu(int apic)
 {
        int i;
 
-       for (i = 0; i < MAX_IO_APICS; i++)
+       for (i = 0; i < MAX_IO_APICS; i++) {
                if (ir_ioapic[i].id == apic && ir_ioapic[i].iommu)
                        return ir_ioapic[i].iommu;
+       }
        return NULL;
 }
 
-static struct intel_iommu *map_dev_to_ir(struct pci_dev *dev)
+static struct irq_domain *map_ioapic_to_ir(int apic)
 {
-       struct dmar_drhd_unit *drhd;
+       struct intel_iommu *iommu = map_ioapic_to_iommu(apic);
 
-       drhd = dmar_find_matched_drhd_unit(dev);
-       if (!drhd)
-               return NULL;
+       return iommu ? iommu->ir_domain : NULL;
+}
+
+static struct irq_domain *map_dev_to_ir(struct pci_dev *dev)
+{
+       struct dmar_drhd_unit *drhd = dmar_find_matched_drhd_unit(dev);
 
-       return drhd->iommu;
+       return drhd ? drhd->iommu->ir_msi_domain : NULL;
 }
 
 static int clear_entries(struct irq_2_iommu *irq_iommu)
@@ -1002,7 +1007,7 @@ static int __init parse_ioapics_under_ir(void)
 
        for (ioapic_idx = 0; ioapic_idx < nr_ioapics; ioapic_idx++) {
                int ioapic_id = mpc_ioapic_id(ioapic_idx);
-               if (!map_ioapic_to_ir(ioapic_id)) {
+               if (!map_ioapic_to_iommu(ioapic_id)) {
                        pr_err(FW_BUG "ioapic %d has no mapping iommu, "
                               "interrupt remapping will be disabled\n",
                               ioapic_id);
@@ -1087,6 +1092,22 @@ error:
        return -1;
 }
 
+/*
+ * Store the MSI remapping domain pointer in the device if enabled.
+ *
+ * This is called from dmar_pci_bus_add_dev() so it works even when DMA
+ * remapping is disabled. Only update the pointer if the device is not
+ * already handled by a non default PCI/MSI interrupt domain. This protects
+ * e.g. VMD devices.
+ */
+void intel_irq_remap_add_device(struct dmar_pci_notify_info *info)
+{
+       if (!irq_remapping_enabled || pci_dev_has_special_msi_domain(info->dev))
+               return;
+
+       dev_set_msi_domain(&info->dev->dev, map_dev_to_ir(info->dev));
+}
+
 static void prepare_irte(struct irte *irte, int vector, unsigned int dest)
 {
        memset(irte, 0, sizeof(*irte));
@@ -1107,51 +1128,20 @@ static void prepare_irte(struct irte *irte, int vector, unsigned int dest)
        irte->redir_hint = 1;
 }
 
-static struct irq_domain *intel_get_ir_irq_domain(struct irq_alloc_info *info)
-{
-       struct intel_iommu *iommu = NULL;
-
-       if (!info)
-               return NULL;
-
-       switch (info->type) {
-       case X86_IRQ_ALLOC_TYPE_IOAPIC:
-               iommu = map_ioapic_to_ir(info->ioapic_id);
-               break;
-       case X86_IRQ_ALLOC_TYPE_HPET:
-               iommu = map_hpet_to_ir(info->hpet_id);
-               break;
-       case X86_IRQ_ALLOC_TYPE_MSI:
-       case X86_IRQ_ALLOC_TYPE_MSIX:
-               iommu = map_dev_to_ir(info->msi_dev);
-               break;
-       default:
-               BUG_ON(1);
-               break;
-       }
-
-       return iommu ? iommu->ir_domain : NULL;
-}
-
 static struct irq_domain *intel_get_irq_domain(struct irq_alloc_info *info)
 {
-       struct intel_iommu *iommu;
-
        if (!info)
                return NULL;
 
        switch (info->type) {
-       case X86_IRQ_ALLOC_TYPE_MSI:
-       case X86_IRQ_ALLOC_TYPE_MSIX:
-               iommu = map_dev_to_ir(info->msi_dev);
-               if (iommu)
-                       return iommu->ir_msi_domain;
-               break;
+       case X86_IRQ_ALLOC_TYPE_IOAPIC_GET_PARENT:
+               return map_ioapic_to_ir(info->devid);
+       case X86_IRQ_ALLOC_TYPE_HPET_GET_PARENT:
+               return map_hpet_to_ir(info->devid);
        default:
-               break;
+               WARN_ON_ONCE(1);
+               return NULL;
        }
-
-       return NULL;
 }
 
 struct irq_remap_ops intel_irq_remap_ops = {
@@ -1160,7 +1150,6 @@ struct irq_remap_ops intel_irq_remap_ops = {
        .disable                = disable_irq_remapping,
        .reenable               = reenable_irq_remapping,
        .enable_faulting        = enable_drhd_fault_handling,
-       .get_ir_irq_domain      = intel_get_ir_irq_domain,
        .get_irq_domain         = intel_get_irq_domain,
 };
 
@@ -1284,16 +1273,16 @@ static void intel_irq_remapping_prepare_irte(struct intel_ir_data *data,
        switch (info->type) {
        case X86_IRQ_ALLOC_TYPE_IOAPIC:
                /* Set source-id of interrupt request */
-               set_ioapic_sid(irte, info->ioapic_id);
+               set_ioapic_sid(irte, info->devid);
                apic_printk(APIC_VERBOSE, KERN_DEBUG "IOAPIC[%d]: Set IRTE entry (P:%d FPD:%d Dst_Mode:%d Redir_hint:%d Trig_Mode:%d Dlvry_Mode:%X Avail:%X Vector:%02X Dest:%08X SID:%04X SQ:%X SVT:%X)\n",
-                       info->ioapic_id, irte->present, irte->fpd,
+                       info->devid, irte->present, irte->fpd,
                        irte->dst_mode, irte->redir_hint,
                        irte->trigger_mode, irte->dlvry_mode,
                        irte->avail, irte->vector, irte->dest_id,
                        irte->sid, irte->sq, irte->svt);
 
-               entry = (struct IR_IO_APIC_route_entry *)info->ioapic_entry;
-               info->ioapic_entry = NULL;
+               entry = (struct IR_IO_APIC_route_entry *)info->ioapic.entry;
+               info->ioapic.entry = NULL;
                memset(entry, 0, sizeof(*entry));
                entry->index2   = (index >> 15) & 0x1;
                entry->zero     = 0;
@@ -1303,21 +1292,21 @@ static void intel_irq_remapping_prepare_irte(struct intel_ir_data *data,
                 * IO-APIC RTE will be configured with virtual vector.
                 * irq handler will do the explicit EOI to the io-apic.
                 */
-               entry->vector   = info->ioapic_pin;
+               entry->vector   = info->ioapic.pin;
                entry->mask     = 0;                    /* enable IRQ */
-               entry->trigger  = info->ioapic_trigger;
-               entry->polarity = info->ioapic_polarity;
-               if (info->ioapic_trigger)
+               entry->trigger  = info->ioapic.trigger;
+               entry->polarity = info->ioapic.polarity;
+               if (info->ioapic.trigger)
                        entry->mask = 1; /* Mask level triggered irqs. */
                break;
 
        case X86_IRQ_ALLOC_TYPE_HPET:
-       case X86_IRQ_ALLOC_TYPE_MSI:
-       case X86_IRQ_ALLOC_TYPE_MSIX:
+       case X86_IRQ_ALLOC_TYPE_PCI_MSI:
+       case X86_IRQ_ALLOC_TYPE_PCI_MSIX:
                if (info->type == X86_IRQ_ALLOC_TYPE_HPET)
-                       set_hpet_sid(irte, info->hpet_id);
+                       set_hpet_sid(irte, info->devid);
                else
-                       set_msi_sid(irte, info->msi_dev);
+                       set_msi_sid(irte, msi_desc_to_pci_dev(info->desc));
 
                msg->address_hi = MSI_ADDR_BASE_HI;
                msg->data = sub_handle;
@@ -1368,15 +1357,15 @@ static int intel_irq_remapping_alloc(struct irq_domain *domain,
 
        if (!info || !iommu)
                return -EINVAL;
-       if (nr_irqs > 1 && info->type != X86_IRQ_ALLOC_TYPE_MSI &&
-           info->type != X86_IRQ_ALLOC_TYPE_MSIX)
+       if (nr_irqs > 1 && info->type != X86_IRQ_ALLOC_TYPE_PCI_MSI &&
+           info->type != X86_IRQ_ALLOC_TYPE_PCI_MSIX)
                return -EINVAL;
 
        /*
         * With IRQ remapping enabled, don't need contiguous CPU vectors
         * to support multiple MSI interrupts.
         */
-       if (info->type == X86_IRQ_ALLOC_TYPE_MSI)
+       if (info->type == X86_IRQ_ALLOC_TYPE_PCI_MSI)
                info->flags &= ~X86_IRQ_ALLOC_CONTIGUOUS_VECTORS;
 
        ret = irq_domain_alloc_irqs_parent(domain, virq, nr_irqs, arg);
index e6faedf..b92af83 100644 (file)
@@ -27,7 +27,7 @@
 static DEFINE_SPINLOCK(pasid_lock);
 u32 intel_pasid_max_id = PASID_MAX;
 
-int vcmd_alloc_pasid(struct intel_iommu *iommu, unsigned int *pasid)
+int vcmd_alloc_pasid(struct intel_iommu *iommu, u32 *pasid)
 {
        unsigned long flags;
        u8 status_code;
@@ -58,7 +58,7 @@ int vcmd_alloc_pasid(struct intel_iommu *iommu, unsigned int *pasid)
        return ret;
 }
 
-void vcmd_free_pasid(struct intel_iommu *iommu, unsigned int pasid)
+void vcmd_free_pasid(struct intel_iommu *iommu, u32 pasid)
 {
        unsigned long flags;
        u8 status_code;
@@ -146,7 +146,7 @@ int intel_pasid_alloc_table(struct device *dev)
        struct pasid_table *pasid_table;
        struct pasid_table_opaque data;
        struct page *pages;
-       int max_pasid = 0;
+       u32 max_pasid = 0;
        int ret, order;
        int size;
 
@@ -168,7 +168,7 @@ int intel_pasid_alloc_table(struct device *dev)
        INIT_LIST_HEAD(&pasid_table->dev);
 
        if (info->pasid_supported)
-               max_pasid = min_t(int, pci_max_pasids(to_pci_dev(dev)),
+               max_pasid = min_t(u32, pci_max_pasids(to_pci_dev(dev)),
                                  intel_pasid_max_id);
 
        size = max_pasid >> (PASID_PDE_SHIFT - 3);
@@ -242,7 +242,7 @@ int intel_pasid_get_dev_max_id(struct device *dev)
        return info->pasid_table->max_pasid;
 }
 
-struct pasid_entry *intel_pasid_get_entry(struct device *dev, int pasid)
+struct pasid_entry *intel_pasid_get_entry(struct device *dev, u32 pasid)
 {
        struct device_domain_info *info;
        struct pasid_table *pasid_table;
@@ -251,8 +251,7 @@ struct pasid_entry *intel_pasid_get_entry(struct device *dev, int pasid)
        int dir_index, index;
 
        pasid_table = intel_pasid_get_table(dev);
-       if (WARN_ON(!pasid_table || pasid < 0 ||
-                   pasid >= intel_pasid_get_dev_max_id(dev)))
+       if (WARN_ON(!pasid_table || pasid >= intel_pasid_get_dev_max_id(dev)))
                return NULL;
 
        dir = pasid_table->table;
@@ -305,7 +304,7 @@ static inline void pasid_clear_entry_with_fpd(struct pasid_entry *pe)
 }
 
 static void
-intel_pasid_clear_entry(struct device *dev, int pasid, bool fault_ignore)
+intel_pasid_clear_entry(struct device *dev, u32 pasid, bool fault_ignore)
 {
        struct pasid_entry *pe;
 
@@ -444,7 +443,7 @@ pasid_set_eafe(struct pasid_entry *pe)
 
 static void
 pasid_cache_invalidation_with_pasid(struct intel_iommu *iommu,
-                                   u16 did, int pasid)
+                                   u16 did, u32 pasid)
 {
        struct qi_desc desc;
 
@@ -473,7 +472,7 @@ iotlb_invalidation_with_pasid(struct intel_iommu *iommu, u16 did, u32 pasid)
 
 static void
 devtlb_invalidation_with_pasid(struct intel_iommu *iommu,
-                              struct device *dev, int pasid)
+                              struct device *dev, u32 pasid)
 {
        struct device_domain_info *info;
        u16 sid, qdep, pfsid;
@@ -499,7 +498,7 @@ devtlb_invalidation_with_pasid(struct intel_iommu *iommu,
 }
 
 void intel_pasid_tear_down_entry(struct intel_iommu *iommu, struct device *dev,
-                                int pasid, bool fault_ignore)
+                                u32 pasid, bool fault_ignore)
 {
        struct pasid_entry *pte;
        u16 did;
@@ -524,7 +523,7 @@ void intel_pasid_tear_down_entry(struct intel_iommu *iommu, struct device *dev,
 
 static void pasid_flush_caches(struct intel_iommu *iommu,
                                struct pasid_entry *pte,
-                               int pasid, u16 did)
+                              u32 pasid, u16 did)
 {
        if (!ecap_coherent(iommu->ecap))
                clflush_cache_range(pte, sizeof(*pte));
@@ -543,7 +542,7 @@ static void pasid_flush_caches(struct intel_iommu *iommu,
  */
 int intel_pasid_setup_first_level(struct intel_iommu *iommu,
                                  struct device *dev, pgd_t *pgd,
-                                 int pasid, u16 did, int flags)
+                                 u32 pasid, u16 did, int flags)
 {
        struct pasid_entry *pte;
 
@@ -616,7 +615,7 @@ static inline int iommu_skip_agaw(struct dmar_domain *domain,
  */
 int intel_pasid_setup_second_level(struct intel_iommu *iommu,
                                   struct dmar_domain *domain,
-                                  struct device *dev, int pasid)
+                                  struct device *dev, u32 pasid)
 {
        struct pasid_entry *pte;
        struct dma_pte *pgd;
@@ -674,7 +673,7 @@ int intel_pasid_setup_second_level(struct intel_iommu *iommu,
  */
 int intel_pasid_setup_pass_through(struct intel_iommu *iommu,
                                   struct dmar_domain *domain,
-                                  struct device *dev, int pasid)
+                                  struct device *dev, u32 pasid)
 {
        u16 did = FLPT_DEFAULT_DID;
        struct pasid_entry *pte;
@@ -760,7 +759,7 @@ intel_pasid_setup_bind_data(struct intel_iommu *iommu, struct pasid_entry *pte,
  * @addr_width: Address width of the first level (guest)
  */
 int intel_pasid_setup_nested(struct intel_iommu *iommu, struct device *dev,
-                            pgd_t *gpgd, int pasid,
+                            pgd_t *gpgd, u32 pasid,
                             struct iommu_gpasid_bind_data_vtd *pasid_data,
                             struct dmar_domain *domain, int addr_width)
 {
index c985076..97dfcff 100644 (file)
@@ -72,7 +72,7 @@ struct pasid_entry {
 struct pasid_table {
        void                    *table;         /* pasid table pointer */
        int                     order;          /* page order of pasid table */
-       int                     max_pasid;      /* max pasid */
+       u32                     max_pasid;      /* max pasid */
        struct list_head        dev;            /* device list */
 };
 
@@ -98,31 +98,31 @@ static inline bool pasid_pte_is_present(struct pasid_entry *pte)
        return READ_ONCE(pte->val[0]) & PASID_PTE_PRESENT;
 }
 
-extern u32 intel_pasid_max_id;
+extern unsigned int intel_pasid_max_id;
 int intel_pasid_alloc_id(void *ptr, int start, int end, gfp_t gfp);
-void intel_pasid_free_id(int pasid);
-void *intel_pasid_lookup_id(int pasid);
+void intel_pasid_free_id(u32 pasid);
+void *intel_pasid_lookup_id(u32 pasid);
 int intel_pasid_alloc_table(struct device *dev);
 void intel_pasid_free_table(struct device *dev);
 struct pasid_table *intel_pasid_get_table(struct device *dev);
 int intel_pasid_get_dev_max_id(struct device *dev);
-struct pasid_entry *intel_pasid_get_entry(struct device *dev, int pasid);
+struct pasid_entry *intel_pasid_get_entry(struct device *dev, u32 pasid);
 int intel_pasid_setup_first_level(struct intel_iommu *iommu,
                                  struct device *dev, pgd_t *pgd,
-                                 int pasid, u16 did, int flags);
+                                 u32 pasid, u16 did, int flags);
 int intel_pasid_setup_second_level(struct intel_iommu *iommu,
                                   struct dmar_domain *domain,
-                                  struct device *dev, int pasid);
+                                  struct device *dev, u32 pasid);
 int intel_pasid_setup_pass_through(struct intel_iommu *iommu,
                                   struct dmar_domain *domain,
-                                  struct device *dev, int pasid);
+                                  struct device *dev, u32 pasid);
 int intel_pasid_setup_nested(struct intel_iommu *iommu,
-                            struct device *dev, pgd_t *pgd, int pasid,
+                            struct device *dev, pgd_t *pgd, u32 pasid,
                             struct iommu_gpasid_bind_data_vtd *pasid_data,
                             struct dmar_domain *domain, int addr_width);
 void intel_pasid_tear_down_entry(struct intel_iommu *iommu,
-                                struct device *dev, int pasid,
+                                struct device *dev, u32 pasid,
                                 bool fault_ignore);
-int vcmd_alloc_pasid(struct intel_iommu *iommu, unsigned int *pasid);
-void vcmd_free_pasid(struct intel_iommu *iommu, unsigned int pasid);
+int vcmd_alloc_pasid(struct intel_iommu *iommu, u32 *pasid);
+void vcmd_free_pasid(struct intel_iommu *iommu, u32 pasid);
 #endif /* __INTEL_PASID_H */
index 95c3164..60ffe08 100644 (file)
 #include <linux/mm_types.h>
 #include <linux/ioasid.h>
 #include <asm/page.h>
+#include <asm/fpu/api.h>
 
 #include "pasid.h"
 
 static irqreturn_t prq_event_thread(int irq, void *d);
-static void intel_svm_drain_prq(struct device *dev, int pasid);
+static void intel_svm_drain_prq(struct device *dev, u32 pasid);
 
 #define PRQ_ORDER 0
 
@@ -399,7 +400,7 @@ int intel_svm_bind_gpasid(struct iommu_domain *domain, struct device *dev,
        return ret;
 }
 
-int intel_svm_unbind_gpasid(struct device *dev, int pasid)
+int intel_svm_unbind_gpasid(struct device *dev, u32 pasid)
 {
        struct intel_iommu *iommu = device_to_iommu(dev, NULL, NULL);
        struct intel_svm_dev *sdev;
@@ -444,9 +445,28 @@ out:
        return ret;
 }
 
+static void _load_pasid(void *unused)
+{
+       update_pasid();
+}
+
+static void load_pasid(struct mm_struct *mm, u32 pasid)
+{
+       mutex_lock(&mm->context.lock);
+
+       /* Synchronize with READ_ONCE in update_pasid(). */
+       smp_store_release(&mm->pasid, pasid);
+
+       /* Update PASID MSR on all CPUs running the mm's tasks. */
+       on_each_cpu_mask(mm_cpumask(mm), _load_pasid, NULL, true);
+
+       mutex_unlock(&mm->context.lock);
+}
+
 /* Caller must hold pasid_mutex, mm reference */
 static int
-intel_svm_bind_mm(struct device *dev, int flags, struct svm_dev_ops *ops,
+intel_svm_bind_mm(struct device *dev, unsigned int flags,
+                 struct svm_dev_ops *ops,
                  struct mm_struct *mm, struct intel_svm_dev **sd)
 {
        struct intel_iommu *iommu = device_to_iommu(dev, NULL, NULL);
@@ -590,6 +610,10 @@ intel_svm_bind_mm(struct device *dev, int flags, struct svm_dev_ops *ops,
                }
 
                list_add_tail(&svm->list, &global_svm_list);
+               if (mm) {
+                       /* The newly allocated pasid is loaded to the mm. */
+                       load_pasid(mm, svm->pasid);
+               }
        } else {
                /*
                 * Binding a new device with existing PASID, need to setup
@@ -620,7 +644,7 @@ out:
 }
 
 /* Caller must hold pasid_mutex */
-static int intel_svm_unbind_mm(struct device *dev, int pasid)
+static int intel_svm_unbind_mm(struct device *dev, u32 pasid)
 {
        struct intel_svm_dev *sdev;
        struct intel_iommu *iommu;
@@ -653,8 +677,11 @@ static int intel_svm_unbind_mm(struct device *dev, int pasid)
 
                        if (list_empty(&svm->devs)) {
                                ioasid_free(svm->pasid);
-                               if (svm->mm)
+                               if (svm->mm) {
                                        mmu_notifier_unregister(&svm->notifier, svm->mm);
+                                       /* Clear mm's pasid. */
+                                       load_pasid(svm->mm, PASID_DISABLED);
+                               }
                                list_del(&svm->list);
                                /* We mandate that no page faults may be outstanding
                                 * for the PASID when intel_svm_unbind_mm() is called.
@@ -739,7 +766,7 @@ static bool is_canonical_address(u64 addr)
  * described in VT-d spec CH7.10 to drain all page requests and page
  * responses pending in the hardware.
  */
-static void intel_svm_drain_prq(struct device *dev, int pasid)
+static void intel_svm_drain_prq(struct device *dev, u32 pasid)
 {
        struct device_domain_info *info;
        struct dmar_domain *domain;
@@ -1033,7 +1060,7 @@ intel_svm_bind(struct device *dev, struct mm_struct *mm, void *drvdata)
 {
        struct iommu_sva *sva = ERR_PTR(-EINVAL);
        struct intel_svm_dev *sdev = NULL;
-       int flags = 0;
+       unsigned int flags = 0;
        int ret;
 
        /*
@@ -1042,7 +1069,7 @@ intel_svm_bind(struct device *dev, struct mm_struct *mm, void *drvdata)
         * and intel_svm etc.
         */
        if (drvdata)
-               flags = *(int *)drvdata;
+               flags = *(unsigned int *)drvdata;
        mutex_lock(&pasid_mutex);
        ret = intel_svm_bind_mm(dev, flags, NULL, mm, &sdev);
        if (ret)
@@ -1067,10 +1094,10 @@ void intel_svm_unbind(struct iommu_sva *sva)
        mutex_unlock(&pasid_mutex);
 }
 
-int intel_svm_get_pasid(struct iommu_sva *sva)
+u32 intel_svm_get_pasid(struct iommu_sva *sva)
 {
        struct intel_svm_dev *sdev;
-       int pasid;
+       u32 pasid;
 
        mutex_lock(&pasid_mutex);
        sdev = to_intel_svm_dev(sva);
index 609bd25..0e4fbdc 100644 (file)
@@ -2839,7 +2839,7 @@ void iommu_sva_unbind_device(struct iommu_sva *handle)
 }
 EXPORT_SYMBOL_GPL(iommu_sva_unbind_device);
 
-int iommu_sva_get_pasid(struct iommu_sva *handle)
+u32 iommu_sva_get_pasid(struct iommu_sva *handle)
 {
        const struct iommu_ops *ops = handle->dev->bus->iommu_ops;
 
index 83f36f6..2d84b1e 100644 (file)
@@ -160,33 +160,12 @@ void panic_if_irq_remap(const char *msg)
 }
 
 /**
- * irq_remapping_get_ir_irq_domain - Get the irqdomain associated with the IOMMU
- *                                  device serving request @info
- * @info: interrupt allocation information, used to identify the IOMMU device
- *
- * It's used to get parent irqdomain for HPET and IOAPIC irqdomains.
- * Returns pointer to IRQ domain, or NULL on failure.
- */
-struct irq_domain *
-irq_remapping_get_ir_irq_domain(struct irq_alloc_info *info)
-{
-       if (!remap_ops || !remap_ops->get_ir_irq_domain)
-               return NULL;
-
-       return remap_ops->get_ir_irq_domain(info);
-}
-
-/**
  * irq_remapping_get_irq_domain - Get the irqdomain serving the request @info
  * @info: interrupt allocation information, used to identify the IOMMU device
  *
- * There will be one PCI MSI/MSIX irqdomain associated with each interrupt
- * remapping device, so this interface is used to retrieve the PCI MSI/MSIX
- * irqdomain serving request @info.
  * Returns pointer to IRQ domain, or NULL on failure.
  */
-struct irq_domain *
-irq_remapping_get_irq_domain(struct irq_alloc_info *info)
+struct irq_domain *irq_remapping_get_irq_domain(struct irq_alloc_info *info)
 {
        if (!remap_ops || !remap_ops->get_irq_domain)
                return NULL;
index 6a190d5..1661b3d 100644 (file)
@@ -43,10 +43,7 @@ struct irq_remap_ops {
        /* Enable fault handling */
        int  (*enable_faulting)(void);
 
-       /* Get the irqdomain associated the IOMMU device */
-       struct irq_domain *(*get_ir_irq_domain)(struct irq_alloc_info *);
-
-       /* Get the MSI irqdomain associated with the IOMMU device */
+       /* Get the irqdomain associated to IOMMU device */
        struct irq_domain *(*get_irq_domain)(struct irq_alloc_info *);
 };
 
index bfc9719..570a770 100644 (file)
@@ -148,7 +148,7 @@ config DAVINCI_CP_INTC
 config DW_APB_ICTL
        bool
        select GENERIC_IRQ_CHIP
-       select IRQ_DOMAIN
+       select IRQ_DOMAIN_HIERARCHY
 
 config FARADAY_FTINTC010
        bool
@@ -232,12 +232,12 @@ config RENESAS_INTC_IRQPIN
          interrupt pins, as found on SH/R-Mobile and R-Car Gen1 SoCs.
 
 config RENESAS_IRQC
-       bool "Renesas R-Mobile APE6 and R-Car IRQC support" if COMPILE_TEST
+       bool "Renesas R-Mobile APE6, R-Car Gen{2,3} and RZ/G{1,2} IRQC support" if COMPILE_TEST
        select GENERIC_IRQ_CHIP
        select IRQ_DOMAIN
        help
          Enable support for the Renesas Interrupt Controller for external
-         devices, as found on R-Mobile APE6, R-Car Gen2, and R-Car Gen3 SoCs.
+         devices, as found on R-Mobile APE6, R-Car Gen{2,3} and RZ/G{1,2} SoCs.
 
 config RENESAS_RZA1_IRQC
        bool "Renesas RZ/A1 IRQC support" if COMPILE_TEST
@@ -493,6 +493,16 @@ config TI_SCI_INTA_IRQCHIP
          If you wish to use interrupt aggregator irq resources managed by the
          TI System Controller, say Y here. Otherwise, say N.
 
+config TI_PRUSS_INTC
+       tristate "TI PRU-ICSS Interrupt Controller"
+       depends on ARCH_DAVINCI || SOC_AM33XX || SOC_AM43XX || SOC_DRA7XX || ARCH_KEYSTONE || ARCH_K3
+       select IRQ_DOMAIN
+       help
+         This enables support for the PRU-ICSS Local Interrupt Controller
+         present within a PRU-ICSS subsystem present on various TI SoCs.
+         The PRUSS INTC enables various interrupts to be routed to multiple
+         different processors within the SoC.
+
 config RISCV_INTC
        bool "RISC-V Local Interrupt Controller"
        depends on RISCV
@@ -571,4 +581,12 @@ config LOONGSON_PCH_MSI
        help
          Support for the Loongson PCH MSI Controller.
 
+config MST_IRQ
+       bool "MStar Interrupt Controller"
+       default ARCH_MEDIATEK
+       select IRQ_DOMAIN
+       select IRQ_DOMAIN_HIERARCHY
+       help
+         Support MStar Interrupt Controller.
+
 endmenu
index 133f9c4..f152514 100644 (file)
@@ -7,6 +7,7 @@ obj-$(CONFIG_ATH79)                     += irq-ath79-cpu.o
 obj-$(CONFIG_ATH79)                    += irq-ath79-misc.o
 obj-$(CONFIG_ARCH_BCM2835)             += irq-bcm2835.o
 obj-$(CONFIG_ARCH_BCM2835)             += irq-bcm2836.o
+obj-$(CONFIG_ARCH_ACTIONS)             += irq-owl-sirq.o
 obj-$(CONFIG_DAVINCI_AINTC)            += irq-davinci-aintc.o
 obj-$(CONFIG_DAVINCI_CP_INTC)          += irq-davinci-cp-intc.o
 obj-$(CONFIG_EXYNOS_IRQ_COMBINER)      += exynos-combiner.o
@@ -106,8 +107,10 @@ obj-$(CONFIG_MADERA_IRQ)           += irq-madera.o
 obj-$(CONFIG_LS1X_IRQ)                 += irq-ls1x.o
 obj-$(CONFIG_TI_SCI_INTR_IRQCHIP)      += irq-ti-sci-intr.o
 obj-$(CONFIG_TI_SCI_INTA_IRQCHIP)      += irq-ti-sci-inta.o
+obj-$(CONFIG_TI_PRUSS_INTC)            += irq-pruss-intc.o
 obj-$(CONFIG_LOONGSON_LIOINTC)         += irq-loongson-liointc.o
 obj-$(CONFIG_LOONGSON_HTPIC)           += irq-loongson-htpic.o
 obj-$(CONFIG_LOONGSON_HTVEC)           += irq-loongson-htvec.o
 obj-$(CONFIG_LOONGSON_PCH_PIC)         += irq-loongson-pch-pic.o
 obj-$(CONFIG_LOONGSON_PCH_MSI)         += irq-loongson-pch-msi.o
+obj-$(CONFIG_MST_IRQ)                  += irq-mst-intc.o
index c9bdc52..d7eb2e9 100644 (file)
@@ -310,7 +310,134 @@ static inline int armada_370_xp_msi_init(struct device_node *node,
 }
 #endif
 
+static void armada_xp_mpic_perf_init(void)
+{
+       unsigned long cpuid = cpu_logical_map(smp_processor_id());
+
+       /* Enable Performance Counter Overflow interrupts */
+       writel(ARMADA_370_XP_INT_CAUSE_PERF(cpuid),
+              per_cpu_int_base + ARMADA_370_XP_INT_FABRIC_MASK_OFFS);
+}
+
 #ifdef CONFIG_SMP
+static struct irq_domain *ipi_domain;
+
+static void armada_370_xp_ipi_mask(struct irq_data *d)
+{
+       u32 reg;
+       reg = readl(per_cpu_int_base + ARMADA_370_XP_IN_DRBEL_MSK_OFFS);
+       reg &= ~BIT(d->hwirq);
+       writel(reg, per_cpu_int_base + ARMADA_370_XP_IN_DRBEL_MSK_OFFS);
+}
+
+static void armada_370_xp_ipi_unmask(struct irq_data *d)
+{
+       u32 reg;
+       reg = readl(per_cpu_int_base + ARMADA_370_XP_IN_DRBEL_MSK_OFFS);
+       reg |= BIT(d->hwirq);
+       writel(reg, per_cpu_int_base + ARMADA_370_XP_IN_DRBEL_MSK_OFFS);
+}
+
+static void armada_370_xp_ipi_send_mask(struct irq_data *d,
+                                       const struct cpumask *mask)
+{
+       unsigned long map = 0;
+       int cpu;
+
+       /* Convert our logical CPU mask into a physical one. */
+       for_each_cpu(cpu, mask)
+               map |= 1 << cpu_logical_map(cpu);
+
+       /*
+        * Ensure that stores to Normal memory are visible to the
+        * other CPUs before issuing the IPI.
+        */
+       dsb();
+
+       /* submit softirq */
+       writel((map << 8) | d->hwirq, main_int_base +
+               ARMADA_370_XP_SW_TRIG_INT_OFFS);
+}
+
+static void armada_370_xp_ipi_eoi(struct irq_data *d)
+{
+       writel(~BIT(d->hwirq), per_cpu_int_base + ARMADA_370_XP_IN_DRBEL_CAUSE_OFFS);
+}
+
+static struct irq_chip ipi_irqchip = {
+       .name           = "IPI",
+       .irq_mask       = armada_370_xp_ipi_mask,
+       .irq_unmask     = armada_370_xp_ipi_unmask,
+       .irq_eoi        = armada_370_xp_ipi_eoi,
+       .ipi_send_mask  = armada_370_xp_ipi_send_mask,
+};
+
+static int armada_370_xp_ipi_alloc(struct irq_domain *d,
+                                        unsigned int virq,
+                                        unsigned int nr_irqs, void *args)
+{
+       int i;
+
+       for (i = 0; i < nr_irqs; i++) {
+               irq_set_percpu_devid(virq + i);
+               irq_domain_set_info(d, virq + i, i, &ipi_irqchip,
+                                   d->host_data,
+                                   handle_percpu_devid_fasteoi_ipi,
+                                   NULL, NULL);
+       }
+
+       return 0;
+}
+
+static void armada_370_xp_ipi_free(struct irq_domain *d,
+                                        unsigned int virq,
+                                        unsigned int nr_irqs)
+{
+       /* Not freeing IPIs */
+}
+
+static const struct irq_domain_ops ipi_domain_ops = {
+       .alloc  = armada_370_xp_ipi_alloc,
+       .free   = armada_370_xp_ipi_free,
+};
+
+static void ipi_resume(void)
+{
+       int i;
+
+       for (i = 0; i < IPI_DOORBELL_END; i++) {
+               int irq;
+
+               irq = irq_find_mapping(ipi_domain, i);
+               if (irq <= 0)
+                       continue;
+               if (irq_percpu_is_enabled(irq)) {
+                       struct irq_data *d;
+                       d = irq_domain_get_irq_data(ipi_domain, irq);
+                       armada_370_xp_ipi_unmask(d);
+               }
+       }
+}
+
+static __init void armada_xp_ipi_init(struct device_node *node)
+{
+       int base_ipi;
+
+       ipi_domain = irq_domain_create_linear(of_node_to_fwnode(node),
+                                             IPI_DOORBELL_END,
+                                             &ipi_domain_ops, NULL);
+       if (WARN_ON(!ipi_domain))
+               return;
+
+       irq_domain_update_bus_token(ipi_domain, DOMAIN_BUS_IPI);
+       base_ipi = __irq_domain_alloc_irqs(ipi_domain, -1, IPI_DOORBELL_END,
+                                          NUMA_NO_NODE, NULL, false, NULL);
+       if (WARN_ON(!base_ipi))
+               return;
+
+       set_smp_ipi_range(base_ipi, IPI_DOORBELL_END);
+}
+
 static DEFINE_RAW_SPINLOCK(irq_controller_lock);
 
 static int armada_xp_set_affinity(struct irq_data *d,
@@ -334,43 +461,6 @@ static int armada_xp_set_affinity(struct irq_data *d,
 
        return IRQ_SET_MASK_OK;
 }
-#endif
-
-static struct irq_chip armada_370_xp_irq_chip = {
-       .name           = "MPIC",
-       .irq_mask       = armada_370_xp_irq_mask,
-       .irq_mask_ack   = armada_370_xp_irq_mask,
-       .irq_unmask     = armada_370_xp_irq_unmask,
-#ifdef CONFIG_SMP
-       .irq_set_affinity = armada_xp_set_affinity,
-#endif
-       .flags          = IRQCHIP_SKIP_SET_WAKE | IRQCHIP_MASK_ON_SUSPEND,
-};
-
-static int armada_370_xp_mpic_irq_map(struct irq_domain *h,
-                                     unsigned int virq, irq_hw_number_t hw)
-{
-       armada_370_xp_irq_mask(irq_get_irq_data(virq));
-       if (!is_percpu_irq(hw))
-               writel(hw, per_cpu_int_base +
-                       ARMADA_370_XP_INT_CLEAR_MASK_OFFS);
-       else
-               writel(hw, main_int_base + ARMADA_370_XP_INT_SET_ENABLE_OFFS);
-       irq_set_status_flags(virq, IRQ_LEVEL);
-
-       if (is_percpu_irq(hw)) {
-               irq_set_percpu_devid(virq);
-               irq_set_chip_and_handler(virq, &armada_370_xp_irq_chip,
-                                       handle_percpu_devid_irq);
-       } else {
-               irq_set_chip_and_handler(virq, &armada_370_xp_irq_chip,
-                                       handle_level_irq);
-               irqd_set_single_target(irq_desc_get_irq_data(irq_to_desc(virq)));
-       }
-       irq_set_probe(virq);
-
-       return 0;
-}
 
 static void armada_xp_mpic_smp_cpu_init(void)
 {
@@ -383,48 +473,16 @@ static void armada_xp_mpic_smp_cpu_init(void)
        for (i = 0; i < nr_irqs; i++)
                writel(i, per_cpu_int_base + ARMADA_370_XP_INT_SET_MASK_OFFS);
 
+       /* Disable all IPIs */
+       writel(0, per_cpu_int_base + ARMADA_370_XP_IN_DRBEL_MSK_OFFS);
+
        /* Clear pending IPIs */
        writel(0, per_cpu_int_base + ARMADA_370_XP_IN_DRBEL_CAUSE_OFFS);
 
-       /* Enable first 8 IPIs */
-       writel(IPI_DOORBELL_MASK, per_cpu_int_base +
-               ARMADA_370_XP_IN_DRBEL_MSK_OFFS);
-
        /* Unmask IPI interrupt */
        writel(0, per_cpu_int_base + ARMADA_370_XP_INT_CLEAR_MASK_OFFS);
 }
 
-static void armada_xp_mpic_perf_init(void)
-{
-       unsigned long cpuid = cpu_logical_map(smp_processor_id());
-
-       /* Enable Performance Counter Overflow interrupts */
-       writel(ARMADA_370_XP_INT_CAUSE_PERF(cpuid),
-              per_cpu_int_base + ARMADA_370_XP_INT_FABRIC_MASK_OFFS);
-}
-
-#ifdef CONFIG_SMP
-static void armada_mpic_send_doorbell(const struct cpumask *mask,
-                                     unsigned int irq)
-{
-       int cpu;
-       unsigned long map = 0;
-
-       /* Convert our logical CPU mask into a physical one. */
-       for_each_cpu(cpu, mask)
-               map |= 1 << cpu_logical_map(cpu);
-
-       /*
-        * Ensure that stores to Normal memory are visible to the
-        * other CPUs before issuing the IPI.
-        */
-       dsb();
-
-       /* submit softirq */
-       writel((map << 8) | irq, main_int_base +
-               ARMADA_370_XP_SW_TRIG_INT_OFFS);
-}
-
 static void armada_xp_mpic_reenable_percpu(void)
 {
        unsigned int irq;
@@ -445,6 +503,8 @@ static void armada_xp_mpic_reenable_percpu(void)
 
                armada_370_xp_irq_unmask(data);
        }
+
+       ipi_resume();
 }
 
 static int armada_xp_mpic_starting_cpu(unsigned int cpu)
@@ -462,7 +522,46 @@ static int mpic_cascaded_starting_cpu(unsigned int cpu)
        enable_percpu_irq(parent_irq, IRQ_TYPE_NONE);
        return 0;
 }
+#else
+static void armada_xp_mpic_smp_cpu_init(void) {}
+static void ipi_resume(void) {}
+#endif
+
+static struct irq_chip armada_370_xp_irq_chip = {
+       .name           = "MPIC",
+       .irq_mask       = armada_370_xp_irq_mask,
+       .irq_mask_ack   = armada_370_xp_irq_mask,
+       .irq_unmask     = armada_370_xp_irq_unmask,
+#ifdef CONFIG_SMP
+       .irq_set_affinity = armada_xp_set_affinity,
 #endif
+       .flags          = IRQCHIP_SKIP_SET_WAKE | IRQCHIP_MASK_ON_SUSPEND,
+};
+
+static int armada_370_xp_mpic_irq_map(struct irq_domain *h,
+                                     unsigned int virq, irq_hw_number_t hw)
+{
+       armada_370_xp_irq_mask(irq_get_irq_data(virq));
+       if (!is_percpu_irq(hw))
+               writel(hw, per_cpu_int_base +
+                       ARMADA_370_XP_INT_CLEAR_MASK_OFFS);
+       else
+               writel(hw, main_int_base + ARMADA_370_XP_INT_SET_ENABLE_OFFS);
+       irq_set_status_flags(virq, IRQ_LEVEL);
+
+       if (is_percpu_irq(hw)) {
+               irq_set_percpu_devid(virq);
+               irq_set_chip_and_handler(virq, &armada_370_xp_irq_chip,
+                                       handle_percpu_devid_irq);
+       } else {
+               irq_set_chip_and_handler(virq, &armada_370_xp_irq_chip,
+                                       handle_level_irq);
+               irqd_set_single_target(irq_desc_get_irq_data(irq_to_desc(virq)));
+       }
+       irq_set_probe(virq);
+
+       return 0;
+}
 
 static const struct irq_domain_ops armada_370_xp_mpic_irq_ops = {
        .map = armada_370_xp_mpic_irq_map,
@@ -562,22 +661,15 @@ armada_370_xp_handle_irq(struct pt_regs *regs)
 #ifdef CONFIG_SMP
                /* IPI Handling */
                if (irqnr == 0) {
-                       u32 ipimask, ipinr;
+                       unsigned long ipimask;
+                       int ipi;
 
                        ipimask = readl_relaxed(per_cpu_int_base +
                                                ARMADA_370_XP_IN_DRBEL_CAUSE_OFFS)
                                & IPI_DOORBELL_MASK;
 
-                       writel(~ipimask, per_cpu_int_base +
-                               ARMADA_370_XP_IN_DRBEL_CAUSE_OFFS);
-
-                       /* Handle all pending doorbells */
-                       for (ipinr = IPI_DOORBELL_START;
-                            ipinr < IPI_DOORBELL_END; ipinr++) {
-                               if (ipimask & (0x1 << ipinr))
-                                       handle_IPI(ipinr, regs);
-                       }
-                       continue;
+                       for_each_set_bit(ipi, &ipimask, IPI_DOORBELL_END)
+                               handle_domain_irq(ipi_domain, ipi, regs);
                }
 #endif
 
@@ -636,6 +728,8 @@ static void armada_370_xp_mpic_resume(void)
                writel(0, per_cpu_int_base + ARMADA_370_XP_INT_CLEAR_MASK_OFFS);
        if (doorbell_mask_reg & PCI_MSI_DOORBELL_MASK)
                writel(1, per_cpu_int_base + ARMADA_370_XP_INT_CLEAR_MASK_OFFS);
+
+       ipi_resume();
 }
 
 static struct syscore_ops armada_370_xp_mpic_syscore_ops = {
@@ -691,7 +785,7 @@ static int __init armada_370_xp_mpic_of_init(struct device_node *node,
                irq_set_default_host(armada_370_xp_mpic_domain);
                set_handle_irq(armada_370_xp_handle_irq);
 #ifdef CONFIG_SMP
-               set_smp_cross_call(armada_mpic_send_doorbell);
+               armada_xp_ipi_init(node);
                cpuhp_setup_state_nocalls(CPUHP_AP_IRQ_ARMADA_XP_STARTING,
                                          "irqchip/armada/ipi:starting",
                                          armada_xp_mpic_starting_cpu, NULL);
index 2038693..97838eb 100644 (file)
@@ -10,6 +10,7 @@
 #include <linux/of_irq.h>
 #include <linux/irqchip.h>
 #include <linux/irqdomain.h>
+#include <linux/irqchip/chained_irq.h>
 #include <linux/irqchip/irq-bcm2836.h>
 
 #include <asm/exception.h>
@@ -89,12 +90,24 @@ static struct irq_chip bcm2836_arm_irqchip_gpu = {
        .irq_unmask     = bcm2836_arm_irqchip_unmask_gpu_irq,
 };
 
+static void bcm2836_arm_irqchip_dummy_op(struct irq_data *d)
+{
+}
+
+static struct irq_chip bcm2836_arm_irqchip_dummy = {
+       .name           = "bcm2836-dummy",
+       .irq_eoi        = bcm2836_arm_irqchip_dummy_op,
+};
+
 static int bcm2836_map(struct irq_domain *d, unsigned int irq,
                       irq_hw_number_t hw)
 {
        struct irq_chip *chip;
 
        switch (hw) {
+       case LOCAL_IRQ_MAILBOX0:
+               chip = &bcm2836_arm_irqchip_dummy;
+               break;
        case LOCAL_IRQ_CNTPSIRQ:
        case LOCAL_IRQ_CNTPNSIRQ:
        case LOCAL_IRQ_CNTHPIRQ:
@@ -127,17 +140,7 @@ __exception_irq_entry bcm2836_arm_irqchip_handle_irq(struct pt_regs *regs)
        u32 stat;
 
        stat = readl_relaxed(intc.base + LOCAL_IRQ_PENDING0 + 4 * cpu);
-       if (stat & BIT(LOCAL_IRQ_MAILBOX0)) {
-#ifdef CONFIG_SMP
-               void __iomem *mailbox0 = (intc.base +
-                                         LOCAL_MAILBOX0_CLR0 + 16 * cpu);
-               u32 mbox_val = readl(mailbox0);
-               u32 ipi = ffs(mbox_val) - 1;
-
-               writel(1 << ipi, mailbox0);
-               handle_IPI(ipi, regs);
-#endif
-       } else if (stat) {
+       if (stat) {
                u32 hwirq = ffs(stat) - 1;
 
                handle_domain_irq(intc.domain, hwirq, regs);
@@ -145,8 +148,35 @@ __exception_irq_entry bcm2836_arm_irqchip_handle_irq(struct pt_regs *regs)
 }
 
 #ifdef CONFIG_SMP
-static void bcm2836_arm_irqchip_send_ipi(const struct cpumask *mask,
-                                        unsigned int ipi)
+static struct irq_domain *ipi_domain;
+
+static void bcm2836_arm_irqchip_handle_ipi(struct irq_desc *desc)
+{
+       struct irq_chip *chip = irq_desc_get_chip(desc);
+       int cpu = smp_processor_id();
+       u32 mbox_val;
+
+       chained_irq_enter(chip, desc);
+
+       mbox_val = readl_relaxed(intc.base + LOCAL_MAILBOX0_CLR0 + 16 * cpu);
+       if (mbox_val) {
+               int hwirq = ffs(mbox_val) - 1;
+               generic_handle_irq(irq_find_mapping(ipi_domain, hwirq));
+       }
+
+       chained_irq_exit(chip, desc);
+}
+
+static void bcm2836_arm_irqchip_ipi_eoi(struct irq_data *d)
+{
+       int cpu = smp_processor_id();
+
+       writel_relaxed(BIT(d->hwirq),
+                      intc.base + LOCAL_MAILBOX0_CLR0 + 16 * cpu);
+}
+
+static void bcm2836_arm_irqchip_ipi_send_mask(struct irq_data *d,
+                                             const struct cpumask *mask)
 {
        int cpu;
        void __iomem *mailbox0_base = intc.base + LOCAL_MAILBOX0_SET0;
@@ -157,11 +187,47 @@ static void bcm2836_arm_irqchip_send_ipi(const struct cpumask *mask,
         */
        smp_wmb();
 
-       for_each_cpu(cpu, mask) {
-               writel(1 << ipi, mailbox0_base + 16 * cpu);
+       for_each_cpu(cpu, mask)
+               writel_relaxed(BIT(d->hwirq), mailbox0_base + 16 * cpu);
+}
+
+static struct irq_chip bcm2836_arm_irqchip_ipi = {
+       .name           = "IPI",
+       .irq_mask       = bcm2836_arm_irqchip_dummy_op,
+       .irq_unmask     = bcm2836_arm_irqchip_dummy_op,
+       .irq_eoi        = bcm2836_arm_irqchip_ipi_eoi,
+       .ipi_send_mask  = bcm2836_arm_irqchip_ipi_send_mask,
+};
+
+static int bcm2836_arm_irqchip_ipi_alloc(struct irq_domain *d,
+                                        unsigned int virq,
+                                        unsigned int nr_irqs, void *args)
+{
+       int i;
+
+       for (i = 0; i < nr_irqs; i++) {
+               irq_set_percpu_devid(virq + i);
+               irq_domain_set_info(d, virq + i, i, &bcm2836_arm_irqchip_ipi,
+                                   d->host_data,
+                                   handle_percpu_devid_fasteoi_ipi,
+                                   NULL, NULL);
        }
+
+       return 0;
 }
 
+static void bcm2836_arm_irqchip_ipi_free(struct irq_domain *d,
+                                        unsigned int virq,
+                                        unsigned int nr_irqs)
+{
+       /* Not freeing IPIs */
+}
+
+static const struct irq_domain_ops ipi_domain_ops = {
+       .alloc  = bcm2836_arm_irqchip_ipi_alloc,
+       .free   = bcm2836_arm_irqchip_ipi_free,
+};
+
 static int bcm2836_cpu_starting(unsigned int cpu)
 {
        bcm2836_arm_irqchip_unmask_per_cpu_irq(LOCAL_MAILBOX_INT_CONTROL0, 0,
@@ -175,25 +241,58 @@ static int bcm2836_cpu_dying(unsigned int cpu)
                                             cpu);
        return 0;
 }
-#endif
 
-static const struct irq_domain_ops bcm2836_arm_irqchip_intc_ops = {
-       .xlate = irq_domain_xlate_onetwocell,
-       .map = bcm2836_map,
-};
+#define BITS_PER_MBOX  32
 
-static void
-bcm2836_arm_irqchip_smp_init(void)
+static void bcm2836_arm_irqchip_smp_init(void)
 {
-#ifdef CONFIG_SMP
+       struct irq_fwspec ipi_fwspec = {
+               .fwnode         = intc.domain->fwnode,
+               .param_count    = 1,
+               .param          = {
+                       [0]     = LOCAL_IRQ_MAILBOX0,
+               },
+       };
+       int base_ipi, mux_irq;
+
+       mux_irq = irq_create_fwspec_mapping(&ipi_fwspec);
+       if (WARN_ON(mux_irq <= 0))
+               return;
+
+       ipi_domain = irq_domain_create_linear(intc.domain->fwnode,
+                                             BITS_PER_MBOX, &ipi_domain_ops,
+                                             NULL);
+       if (WARN_ON(!ipi_domain))
+               return;
+
+       ipi_domain->flags |= IRQ_DOMAIN_FLAG_IPI_SINGLE;
+       irq_domain_update_bus_token(ipi_domain, DOMAIN_BUS_IPI);
+
+       base_ipi = __irq_domain_alloc_irqs(ipi_domain, -1, BITS_PER_MBOX,
+                                          NUMA_NO_NODE, NULL,
+                                          false, NULL);
+
+       if (WARN_ON(!base_ipi))
+               return;
+
+       set_smp_ipi_range(base_ipi, BITS_PER_MBOX);
+
+       irq_set_chained_handler_and_data(mux_irq,
+                                        bcm2836_arm_irqchip_handle_ipi, NULL);
+
        /* Unmask IPIs to the boot CPU. */
        cpuhp_setup_state(CPUHP_AP_IRQ_BCM2836_STARTING,
                          "irqchip/bcm2836:starting", bcm2836_cpu_starting,
                          bcm2836_cpu_dying);
-
-       set_smp_cross_call(bcm2836_arm_irqchip_send_ipi);
-#endif
 }
+#else
+#define bcm2836_arm_irqchip_smp_init() do { } while(0)
+#endif
+
+static const struct irq_domain_ops bcm2836_arm_irqchip_intc_ops = {
+       .xlate = irq_domain_xlate_onetwocell,
+       .map = bcm2836_map,
+};
 
 /*
  * The LOCAL_IRQ_CNT* timer firings are based off of the external
@@ -232,6 +331,8 @@ static int __init bcm2836_arm_irqchip_l1_intc_of_init(struct device_node *node,
        if (!intc.domain)
                panic("%pOF: unable to create IRQ domain\n", node);
 
+       irq_domain_update_bus_token(intc.domain, DOMAIN_BUS_WIRED);
+
        bcm2836_arm_irqchip_smp_init();
 
        set_handle_irq(bcm2836_arm_irqchip_handle_irq);
index e4550e9..54b09d6 100644 (file)
@@ -17,6 +17,7 @@
 #include <linux/irqchip/chained_irq.h>
 #include <linux/of_address.h>
 #include <linux/of_irq.h>
+#include <linux/interrupt.h>
 
 #define APB_INT_ENABLE_L       0x00
 #define APB_INT_ENABLE_H       0x04
 #define APB_INT_FINALSTATUS_H  0x34
 #define APB_INT_BASE_OFFSET    0x04
 
-static void dw_apb_ictl_handler(struct irq_desc *desc)
+/* irq domain of the primary interrupt controller. */
+static struct irq_domain *dw_apb_ictl_irq_domain;
+
+static void __irq_entry dw_apb_ictl_handle_irq(struct pt_regs *regs)
+{
+       struct irq_domain *d = dw_apb_ictl_irq_domain;
+       int n;
+
+       for (n = 0; n < d->revmap_size; n += 32) {
+               struct irq_chip_generic *gc = irq_get_domain_generic_chip(d, n);
+               u32 stat = readl_relaxed(gc->reg_base + APB_INT_FINALSTATUS_L);
+
+               while (stat) {
+                       u32 hwirq = ffs(stat) - 1;
+
+                       handle_domain_irq(d, hwirq, regs);
+                       stat &= ~BIT(hwirq);
+               }
+       }
+}
+
+static void dw_apb_ictl_handle_irq_cascaded(struct irq_desc *desc)
 {
        struct irq_domain *d = irq_desc_get_handler_data(desc);
        struct irq_chip *chip = irq_desc_get_chip(desc);
@@ -43,13 +65,37 @@ static void dw_apb_ictl_handler(struct irq_desc *desc)
                        u32 virq = irq_find_mapping(d, gc->irq_base + hwirq);
 
                        generic_handle_irq(virq);
-                       stat &= ~(1 << hwirq);
+                       stat &= ~BIT(hwirq);
                }
        }
 
        chained_irq_exit(chip, desc);
 }
 
+static int dw_apb_ictl_irq_domain_alloc(struct irq_domain *domain, unsigned int virq,
+                               unsigned int nr_irqs, void *arg)
+{
+       int i, ret;
+       irq_hw_number_t hwirq;
+       unsigned int type = IRQ_TYPE_NONE;
+       struct irq_fwspec *fwspec = arg;
+
+       ret = irq_domain_translate_onecell(domain, fwspec, &hwirq, &type);
+       if (ret)
+               return ret;
+
+       for (i = 0; i < nr_irqs; i++)
+               irq_map_generic_chip(domain, virq + i, hwirq + i);
+
+       return 0;
+}
+
+static const struct irq_domain_ops dw_apb_ictl_irq_domain_ops = {
+       .translate = irq_domain_translate_onecell,
+       .alloc = dw_apb_ictl_irq_domain_alloc,
+       .free = irq_domain_free_irqs_top,
+};
+
 #ifdef CONFIG_PM
 static void dw_apb_ictl_resume(struct irq_data *d)
 {
@@ -68,19 +114,27 @@ static void dw_apb_ictl_resume(struct irq_data *d)
 static int __init dw_apb_ictl_init(struct device_node *np,
                                   struct device_node *parent)
 {
+       const struct irq_domain_ops *domain_ops;
        unsigned int clr = IRQ_NOREQUEST | IRQ_NOPROBE | IRQ_NOAUTOEN;
        struct resource r;
        struct irq_domain *domain;
        struct irq_chip_generic *gc;
        void __iomem *iobase;
-       int ret, nrirqs, irq, i;
+       int ret, nrirqs, parent_irq, i;
        u32 reg;
 
-       /* Map the parent interrupt for the chained handler */
-       irq = irq_of_parse_and_map(np, 0);
-       if (irq <= 0) {
-               pr_err("%pOF: unable to parse irq\n", np);
-               return -EINVAL;
+       if (!parent) {
+               /* Used as the primary interrupt controller */
+               parent_irq = 0;
+               domain_ops = &dw_apb_ictl_irq_domain_ops;
+       } else {
+               /* Map the parent interrupt for the chained handler */
+               parent_irq = irq_of_parse_and_map(np, 0);
+               if (parent_irq <= 0) {
+                       pr_err("%pOF: unable to parse irq\n", np);
+                       return -EINVAL;
+               }
+               domain_ops = &irq_generic_chip_ops;
        }
 
        ret = of_address_to_resource(np, 0, &r);
@@ -120,8 +174,7 @@ static int __init dw_apb_ictl_init(struct device_node *np,
        else
                nrirqs = fls(readl_relaxed(iobase + APB_INT_ENABLE_L));
 
-       domain = irq_domain_add_linear(np, nrirqs,
-                                      &irq_generic_chip_ops, NULL);
+       domain = irq_domain_add_linear(np, nrirqs, domain_ops, NULL);
        if (!domain) {
                pr_err("%pOF: unable to add irq domain\n", np);
                ret = -ENOMEM;
@@ -146,7 +199,13 @@ static int __init dw_apb_ictl_init(struct device_node *np,
                gc->chip_types[0].chip.irq_resume = dw_apb_ictl_resume;
        }
 
-       irq_set_chained_handler_and_data(irq, dw_apb_ictl_handler, domain);
+       if (parent_irq) {
+               irq_set_chained_handler_and_data(parent_irq,
+                               dw_apb_ictl_handle_irq_cascaded, domain);
+       } else {
+               dw_apb_ictl_irq_domain = domain;
+               set_handle_irq(dw_apb_ictl_handle_irq);
+       }
 
        return 0;
 
index 8252000..f47b41d 100644 (file)
@@ -152,9 +152,6 @@ void gic_cpu_config(void __iomem *base, int nr, void (*sync_access)(void))
                writel_relaxed(GICD_INT_DEF_PRI_X4,
                                        base + GIC_DIST_PRI + i * 4 / 4);
 
-       /* Ensure all SGI interrupts are now enabled */
-       writel_relaxed(GICD_INT_EN_SET_SGI, base + GIC_DIST_ENABLE_SET);
-
        if (sync_access)
                sync_access();
 }
index 548de75..0418071 100644 (file)
@@ -1720,6 +1720,11 @@ static int its_irq_set_irqchip_state(struct irq_data *d,
        return 0;
 }
 
+static int its_irq_retrigger(struct irq_data *d)
+{
+       return !its_irq_set_irqchip_state(d, IRQCHIP_STATE_PENDING, true);
+}
+
 /*
  * Two favourable cases:
  *
@@ -1971,6 +1976,7 @@ static struct irq_chip its_irq_chip = {
        .irq_set_affinity       = its_set_affinity,
        .irq_compose_msi_msg    = its_irq_compose_msi_msg,
        .irq_set_irqchip_state  = its_irq_set_irqchip_state,
+       .irq_retrigger          = its_irq_retrigger,
        .irq_set_vcpu_affinity  = its_irq_set_vcpu_affinity,
 };
 
index 850842f..16fecc0 100644 (file)
@@ -36,6 +36,8 @@
 #define FLAGS_WORKAROUND_GICR_WAKER_MSM8996    (1ULL << 0)
 #define FLAGS_WORKAROUND_CAVIUM_ERRATUM_38539  (1ULL << 1)
 
+#define GIC_IRQ_TYPE_PARTITION (GIC_IRQ_TYPE_LPI + 1)
+
 struct redist_region {
        void __iomem            *redist_base;
        phys_addr_t             phys_base;
@@ -75,16 +77,14 @@ static DEFINE_STATIC_KEY_TRUE(supports_deactivate_key);
  *
  * If SCR_EL3.FIQ == 1, the values writen to/read from PMR and RPR at non-secure
  * EL1 are subject to a similar operation thus matching the priorities presented
- * from the (re)distributor when security is enabled.
+ * from the (re)distributor when security is enabled. When SCR_EL3.FIQ == 0,
+ * these values are unchanched by the GIC.
  *
  * see GICv3/GICv4 Architecture Specification (IHI0069D):
  * - section 4.8.1 Non-secure accesses to register fields for Secure interrupt
  *   priorities.
  * - Figure 4-7 Secure read of the priority field for a Non-secure Group 1
  *   interrupt.
- *
- * For now, we only support pseudo-NMIs if we have non-secure view of
- * priorities.
  */
 static DEFINE_STATIC_KEY_FALSE(supports_pseudo_nmis);
 
@@ -97,6 +97,9 @@ static DEFINE_STATIC_KEY_FALSE(supports_pseudo_nmis);
 DEFINE_STATIC_KEY_FALSE(gic_pmr_sync);
 EXPORT_SYMBOL(gic_pmr_sync);
 
+DEFINE_STATIC_KEY_FALSE(gic_nonsecure_priorities);
+EXPORT_SYMBOL(gic_nonsecure_priorities);
+
 /* ppi_nmi_refs[n] == number of cpus having ppi[n + 16] set as NMI */
 static refcount_t *ppi_nmi_refs;
 
@@ -112,6 +115,7 @@ static DEFINE_PER_CPU(bool, has_rss);
 #define DEFAULT_PMR_VALUE      0xf0
 
 enum gic_intid_range {
+       SGI_RANGE,
        PPI_RANGE,
        SPI_RANGE,
        EPPI_RANGE,
@@ -123,6 +127,8 @@ enum gic_intid_range {
 static enum gic_intid_range __get_intid_range(irq_hw_number_t hwirq)
 {
        switch (hwirq) {
+       case 0 ... 15:
+               return SGI_RANGE;
        case 16 ... 31:
                return PPI_RANGE;
        case 32 ... 1019:
@@ -148,15 +154,22 @@ static inline unsigned int gic_irq(struct irq_data *d)
        return d->hwirq;
 }
 
-static inline int gic_irq_in_rdist(struct irq_data *d)
+static inline bool gic_irq_in_rdist(struct irq_data *d)
 {
-       enum gic_intid_range range = get_intid_range(d);
-       return range == PPI_RANGE || range == EPPI_RANGE;
+       switch (get_intid_range(d)) {
+       case SGI_RANGE:
+       case PPI_RANGE:
+       case EPPI_RANGE:
+               return true;
+       default:
+               return false;
+       }
 }
 
 static inline void __iomem *gic_dist_base(struct irq_data *d)
 {
        switch (get_intid_range(d)) {
+       case SGI_RANGE:
        case PPI_RANGE:
        case EPPI_RANGE:
                /* SGI+PPI -> SGI_base for this CPU */
@@ -253,6 +266,7 @@ static void gic_enable_redist(bool enable)
 static u32 convert_offset_index(struct irq_data *d, u32 offset, u32 *index)
 {
        switch (get_intid_range(d)) {
+       case SGI_RANGE:
        case PPI_RANGE:
        case SPI_RANGE:
                *index = d->hwirq;
@@ -372,7 +386,7 @@ static int gic_irq_set_irqchip_state(struct irq_data *d,
 {
        u32 reg;
 
-       if (d->hwirq >= 8192) /* PPI/SPI only */
+       if (d->hwirq >= 8192) /* SGI/PPI/SPI only */
                return -EINVAL;
 
        switch (which) {
@@ -539,12 +553,12 @@ static int gic_set_type(struct irq_data *d, unsigned int type)
        u32 offset, index;
        int ret;
 
-       /* Interrupt configuration for SGIs can't be changed */
-       if (irq < 16)
-               return -EINVAL;
-
        range = get_intid_range(d);
 
+       /* Interrupt configuration for SGIs can't be changed */
+       if (range == SGI_RANGE)
+               return type != IRQ_TYPE_EDGE_RISING ? -EINVAL : 0;
+
        /* SPIs have restrictions on the supported types */
        if ((range == SPI_RANGE || range == ESPI_RANGE) &&
            type != IRQ_TYPE_LEVEL_HIGH && type != IRQ_TYPE_EDGE_RISING)
@@ -572,6 +586,9 @@ static int gic_set_type(struct irq_data *d, unsigned int type)
 
 static int gic_irq_set_vcpu_affinity(struct irq_data *d, void *vcpu)
 {
+       if (get_intid_range(d) == SGI_RANGE)
+               return -EINVAL;
+
        if (vcpu)
                irqd_set_forwarded_to_vcpu(d);
        else
@@ -646,38 +663,14 @@ static asmlinkage void __exception_irq_entry gic_handle_irq(struct pt_regs *regs
        if ((irqnr >= 1020 && irqnr <= 1023))
                return;
 
-       /* Treat anything but SGIs in a uniform way */
-       if (likely(irqnr > 15)) {
-               int err;
-
-               if (static_branch_likely(&supports_deactivate_key))
-                       gic_write_eoir(irqnr);
-               else
-                       isb();
-
-               err = handle_domain_irq(gic_data.domain, irqnr, regs);
-               if (err) {
-                       WARN_ONCE(true, "Unexpected interrupt received!\n");
-                       gic_deactivate_unhandled(irqnr);
-               }
-               return;
-       }
-       if (irqnr < 16) {
+       if (static_branch_likely(&supports_deactivate_key))
                gic_write_eoir(irqnr);
-               if (static_branch_likely(&supports_deactivate_key))
-                       gic_write_dir(irqnr);
-#ifdef CONFIG_SMP
-               /*
-                * Unlike GICv2, we don't need an smp_rmb() here.
-                * The control dependency from gic_read_iar to
-                * the ISB in gic_write_eoir is enough to ensure
-                * that any shared data read by handle_IPI will
-                * be read after the ACK.
-                */
-               handle_IPI(irqnr, regs);
-#else
-               WARN_ONCE(true, "Unexpected SGI received!\n");
-#endif
+       else
+               isb();
+
+       if (handle_domain_irq(gic_data.domain, irqnr, regs)) {
+               WARN_ONCE(true, "Unexpected interrupt received!\n");
+               gic_deactivate_unhandled(irqnr);
        }
 }
 
@@ -932,14 +925,20 @@ static void gic_cpu_sys_reg_init(void)
        /* Set priority mask register */
        if (!gic_prio_masking_enabled()) {
                write_gicreg(DEFAULT_PMR_VALUE, ICC_PMR_EL1);
-       } else {
+       } else if (gic_supports_nmi()) {
                /*
                 * Mismatch configuration with boot CPU, the system is likely
                 * to die as interrupt masking will not work properly on all
                 * CPUs
+                *
+                * The boot CPU calls this function before enabling NMI support,
+                * and as a result we'll never see this warning in the boot path
+                * for that CPU.
                 */
-               WARN_ON(gic_supports_nmi() && group0 &&
-                       !gic_dist_security_disabled());
+               if (static_branch_unlikely(&gic_nonsecure_priorities))
+                       WARN_ON(!group0 || gic_dist_security_disabled());
+               else
+                       WARN_ON(group0 && !gic_dist_security_disabled());
        }
 
        /*
@@ -1125,11 +1124,11 @@ static void gic_send_sgi(u64 cluster_id, u16 tlist, unsigned int irq)
        gic_write_sgi1r(val);
 }
 
-static void gic_raise_softirq(const struct cpumask *mask, unsigned int irq)
+static void gic_ipi_send_mask(struct irq_data *d, const struct cpumask *mask)
 {
        int cpu;
 
-       if (WARN_ON(irq >= 16))
+       if (WARN_ON(d->hwirq >= 16))
                return;
 
        /*
@@ -1143,7 +1142,7 @@ static void gic_raise_softirq(const struct cpumask *mask, unsigned int irq)
                u16 tlist;
 
                tlist = gic_compute_target_list(&cpu, mask, cluster_id);
-               gic_send_sgi(cluster_id, tlist, irq);
+               gic_send_sgi(cluster_id, tlist, d->hwirq);
        }
 
        /* Force the above writes to ICC_SGI1R_EL1 to be executed */
@@ -1152,10 +1151,24 @@ static void gic_raise_softirq(const struct cpumask *mask, unsigned int irq)
 
 static void __init gic_smp_init(void)
 {
-       set_smp_cross_call(gic_raise_softirq);
+       struct irq_fwspec sgi_fwspec = {
+               .fwnode         = gic_data.fwnode,
+               .param_count    = 1,
+       };
+       int base_sgi;
+
        cpuhp_setup_state_nocalls(CPUHP_AP_IRQ_GIC_STARTING,
                                  "irqchip/arm/gicv3:starting",
                                  gic_starting_cpu, NULL);
+
+       /* Register all 8 non-secure SGIs */
+       base_sgi = __irq_domain_alloc_irqs(gic_data.domain, -1, 8,
+                                          NUMA_NO_NODE, &sgi_fwspec,
+                                          false, NULL);
+       if (WARN_ON(base_sgi <= 0))
+               return;
+
+       set_smp_ipi_range(base_sgi, 8);
 }
 
 static int gic_set_affinity(struct irq_data *d, const struct cpumask *mask_val,
@@ -1204,9 +1217,15 @@ static int gic_set_affinity(struct irq_data *d, const struct cpumask *mask_val,
 }
 #else
 #define gic_set_affinity       NULL
+#define gic_ipi_send_mask      NULL
 #define gic_smp_init()         do { } while(0)
 #endif
 
+static int gic_retrigger(struct irq_data *data)
+{
+       return !gic_irq_set_irqchip_state(data, IRQCHIP_STATE_PENDING, true);
+}
+
 #ifdef CONFIG_CPU_PM
 static int gic_cpu_pm_notifier(struct notifier_block *self,
                               unsigned long cmd, void *v)
@@ -1242,10 +1261,12 @@ static struct irq_chip gic_chip = {
        .irq_eoi                = gic_eoi_irq,
        .irq_set_type           = gic_set_type,
        .irq_set_affinity       = gic_set_affinity,
+       .irq_retrigger          = gic_retrigger,
        .irq_get_irqchip_state  = gic_irq_get_irqchip_state,
        .irq_set_irqchip_state  = gic_irq_set_irqchip_state,
        .irq_nmi_setup          = gic_irq_nmi_setup,
        .irq_nmi_teardown       = gic_irq_nmi_teardown,
+       .ipi_send_mask          = gic_ipi_send_mask,
        .flags                  = IRQCHIP_SET_TYPE_MASKED |
                                  IRQCHIP_SKIP_SET_WAKE |
                                  IRQCHIP_MASK_ON_SUSPEND,
@@ -1258,11 +1279,13 @@ static struct irq_chip gic_eoimode1_chip = {
        .irq_eoi                = gic_eoimode1_eoi_irq,
        .irq_set_type           = gic_set_type,
        .irq_set_affinity       = gic_set_affinity,
+       .irq_retrigger          = gic_retrigger,
        .irq_get_irqchip_state  = gic_irq_get_irqchip_state,
        .irq_set_irqchip_state  = gic_irq_set_irqchip_state,
        .irq_set_vcpu_affinity  = gic_irq_set_vcpu_affinity,
        .irq_nmi_setup          = gic_irq_nmi_setup,
        .irq_nmi_teardown       = gic_irq_nmi_teardown,
+       .ipi_send_mask          = gic_ipi_send_mask,
        .flags                  = IRQCHIP_SET_TYPE_MASKED |
                                  IRQCHIP_SKIP_SET_WAKE |
                                  IRQCHIP_MASK_ON_SUSPEND,
@@ -1272,11 +1295,19 @@ static int gic_irq_domain_map(struct irq_domain *d, unsigned int irq,
                              irq_hw_number_t hw)
 {
        struct irq_chip *chip = &gic_chip;
+       struct irq_data *irqd = irq_desc_get_irq_data(irq_to_desc(irq));
 
        if (static_branch_likely(&supports_deactivate_key))
                chip = &gic_eoimode1_chip;
 
        switch (__get_intid_range(hw)) {
+       case SGI_RANGE:
+               irq_set_percpu_devid(irq);
+               irq_domain_set_info(d, irq, hw, chip, d->host_data,
+                                   handle_percpu_devid_fasteoi_ipi,
+                                   NULL, NULL);
+               break;
+
        case PPI_RANGE:
        case EPPI_RANGE:
                irq_set_percpu_devid(irq);
@@ -1289,7 +1320,7 @@ static int gic_irq_domain_map(struct irq_domain *d, unsigned int irq,
                irq_domain_set_info(d, irq, hw, chip, d->host_data,
                                    handle_fasteoi_irq, NULL, NULL);
                irq_set_probe(irq);
-               irqd_set_single_target(irq_desc_get_irq_data(irq_to_desc(irq)));
+               irqd_set_single_target(irqd);
                break;
 
        case LPI_RANGE:
@@ -1303,16 +1334,22 @@ static int gic_irq_domain_map(struct irq_domain *d, unsigned int irq,
                return -EPERM;
        }
 
+       /* Prevents SW retriggers which mess up the ACK/EOI ordering */
+       irqd_set_handle_enforce_irqctx(irqd);
        return 0;
 }
 
-#define GIC_IRQ_TYPE_PARTITION (GIC_IRQ_TYPE_LPI + 1)
-
 static int gic_irq_domain_translate(struct irq_domain *d,
                                    struct irq_fwspec *fwspec,
                                    unsigned long *hwirq,
                                    unsigned int *type)
 {
+       if (fwspec->param_count == 1 && fwspec->param[0] < 16) {
+               *hwirq = fwspec->param[0];
+               *type = IRQ_TYPE_EDGE_RISING;
+               return 0;
+       }
+
        if (is_of_node(fwspec->fwnode)) {
                if (fwspec->param_count < 3)
                        return -EINVAL;
@@ -1544,11 +1581,6 @@ static void gic_enable_nmi_support(void)
        if (!gic_prio_masking_enabled())
                return;
 
-       if (gic_has_group0() && !gic_dist_security_disabled()) {
-               pr_warn("SCR_EL3.FIQ is cleared, cannot enable use of pseudo-NMIs\n");
-               return;
-       }
-
        ppi_nmi_refs = kcalloc(gic_data.ppi_nr, sizeof(*ppi_nmi_refs), GFP_KERNEL);
        if (!ppi_nmi_refs)
                return;
@@ -1564,8 +1596,38 @@ static void gic_enable_nmi_support(void)
        if (gic_read_ctlr() & ICC_CTLR_EL1_PMHE_MASK)
                static_branch_enable(&gic_pmr_sync);
 
-       pr_info("%s ICC_PMR_EL1 synchronisation\n",
-               static_branch_unlikely(&gic_pmr_sync) ? "Forcing" : "Relaxing");
+       pr_info("Pseudo-NMIs enabled using %s ICC_PMR_EL1 synchronisation\n",
+               static_branch_unlikely(&gic_pmr_sync) ? "forced" : "relaxed");
+
+       /*
+        * How priority values are used by the GIC depends on two things:
+        * the security state of the GIC (controlled by the GICD_CTRL.DS bit)
+        * and if Group 0 interrupts can be delivered to Linux in the non-secure
+        * world as FIQs (controlled by the SCR_EL3.FIQ bit). These affect the
+        * the ICC_PMR_EL1 register and the priority that software assigns to
+        * interrupts:
+        *
+        * GICD_CTRL.DS | SCR_EL3.FIQ | ICC_PMR_EL1 | Group 1 priority
+        * -----------------------------------------------------------
+        *      1       |      -      |  unchanged  |    unchanged
+        * -----------------------------------------------------------
+        *      0       |      1      |  non-secure |    non-secure
+        * -----------------------------------------------------------
+        *      0       |      0      |  unchanged  |    non-secure
+        *
+        * where non-secure means that the value is right-shifted by one and the
+        * MSB bit set, to make it fit in the non-secure priority range.
+        *
+        * In the first two cases, where ICC_PMR_EL1 and the interrupt priority
+        * are both either modified or unchanged, we can use the same set of
+        * priorities.
+        *
+        * In the last case, where only the interrupt priorities are modified to
+        * be in the non-secure range, we use a different PMR value to mask IRQs
+        * and the rest of the values that we use remain unchanged.
+        */
+       if (gic_has_group0() && !gic_dist_security_disabled())
+               static_branch_enable(&gic_nonsecure_priorities);
 
        static_branch_enable(&supports_pseudo_nmis);
 
@@ -1644,9 +1706,9 @@ static int __init gic_init_bases(void __iomem *dist_base,
 
        gic_update_rdist_properties();
 
-       gic_smp_init();
        gic_dist_init();
        gic_cpu_init();
+       gic_smp_init();
        gic_cpu_pm_init();
 
        if (gic_dist_supports_lpis()) {
index a27ba2c..6053245 100644 (file)
@@ -83,9 +83,6 @@ struct gic_chip_data {
 #endif
        struct irq_domain *domain;
        unsigned int gic_irqs;
-#ifdef CONFIG_GIC_NON_BANKED
-       void __iomem *(*get_base)(union gic_base *);
-#endif
 };
 
 #ifdef CONFIG_BL_SWITCHER
@@ -124,36 +121,30 @@ static struct gic_chip_data gic_data[CONFIG_ARM_GIC_MAX_NR] __read_mostly;
 
 static struct gic_kvm_info gic_v2_kvm_info;
 
+static DEFINE_PER_CPU(u32, sgi_intid);
+
 #ifdef CONFIG_GIC_NON_BANKED
-static void __iomem *gic_get_percpu_base(union gic_base *base)
-{
-       return raw_cpu_read(*base->percpu_base);
-}
+static DEFINE_STATIC_KEY_FALSE(frankengic_key);
 
-static void __iomem *gic_get_common_base(union gic_base *base)
+static void enable_frankengic(void)
 {
-       return base->common_base;
+       static_branch_enable(&frankengic_key);
 }
 
-static inline void __iomem *gic_data_dist_base(struct gic_chip_data *data)
+static inline void __iomem *__get_base(union gic_base *base)
 {
-       return data->get_base(&data->dist_base);
-}
+       if (static_branch_unlikely(&frankengic_key))
+               return raw_cpu_read(*base->percpu_base);
 
-static inline void __iomem *gic_data_cpu_base(struct gic_chip_data *data)
-{
-       return data->get_base(&data->cpu_base);
+       return base->common_base;
 }
 
-static inline void gic_set_base_accessor(struct gic_chip_data *data,
-                                        void __iomem *(*f)(union gic_base *))
-{
-       data->get_base = f;
-}
+#define gic_data_dist_base(d)  __get_base(&(d)->dist_base)
+#define gic_data_cpu_base(d)   __get_base(&(d)->cpu_base)
 #else
 #define gic_data_dist_base(d)  ((d)->dist_base.common_base)
 #define gic_data_cpu_base(d)   ((d)->cpu_base.common_base)
-#define gic_set_base_accessor(d, f)
+#define enable_frankengic()    do { } while(0)
 #endif
 
 static inline void __iomem *gic_dist_base(struct irq_data *d)
@@ -226,16 +217,26 @@ static void gic_unmask_irq(struct irq_data *d)
 
 static void gic_eoi_irq(struct irq_data *d)
 {
-       writel_relaxed(gic_irq(d), gic_cpu_base(d) + GIC_CPU_EOI);
+       u32 hwirq = gic_irq(d);
+
+       if (hwirq < 16)
+               hwirq = this_cpu_read(sgi_intid);
+
+       writel_relaxed(hwirq, gic_cpu_base(d) + GIC_CPU_EOI);
 }
 
 static void gic_eoimode1_eoi_irq(struct irq_data *d)
 {
+       u32 hwirq = gic_irq(d);
+
        /* Do not deactivate an IRQ forwarded to a vcpu. */
        if (irqd_is_forwarded_to_vcpu(d))
                return;
 
-       writel_relaxed(gic_irq(d), gic_cpu_base(d) + GIC_CPU_DEACTIVATE);
+       if (hwirq < 16)
+               hwirq = this_cpu_read(sgi_intid);
+
+       writel_relaxed(hwirq, gic_cpu_base(d) + GIC_CPU_DEACTIVATE);
 }
 
 static int gic_irq_set_irqchip_state(struct irq_data *d,
@@ -295,7 +296,7 @@ static int gic_set_type(struct irq_data *d, unsigned int type)
 
        /* Interrupt configuration for SGIs can't be changed */
        if (gicirq < 16)
-               return -EINVAL;
+               return type != IRQ_TYPE_EDGE_RISING ? -EINVAL : 0;
 
        /* SPIs have restrictions on the supported types */
        if (gicirq >= 32 && type != IRQ_TYPE_LEVEL_HIGH &&
@@ -315,7 +316,7 @@ static int gic_set_type(struct irq_data *d, unsigned int type)
 static int gic_irq_set_vcpu_affinity(struct irq_data *d, void *vcpu)
 {
        /* Only interrupts on the primary GIC can be forwarded to a vcpu. */
-       if (cascading_gic_irq(d))
+       if (cascading_gic_irq(d) || gic_irq(d) < 16)
                return -EINVAL;
 
        if (vcpu)
@@ -325,27 +326,10 @@ static int gic_irq_set_vcpu_affinity(struct irq_data *d, void *vcpu)
        return 0;
 }
 
-#ifdef CONFIG_SMP
-static int gic_set_affinity(struct irq_data *d, const struct cpumask *mask_val,
-                           bool force)
+static int gic_retrigger(struct irq_data *data)
 {
-       void __iomem *reg = gic_dist_base(d) + GIC_DIST_TARGET + gic_irq(d);
-       unsigned int cpu;
-
-       if (!force)
-               cpu = cpumask_any_and(mask_val, cpu_online_mask);
-       else
-               cpu = cpumask_first(mask_val);
-
-       if (cpu >= NR_GIC_CPU_IF || cpu >= nr_cpu_ids)
-               return -EINVAL;
-
-       writeb_relaxed(gic_cpu_map[cpu], reg);
-       irq_data_update_effective_affinity(d, cpumask_of(cpu));
-
-       return IRQ_SET_MASK_OK_DONE;
+       return !gic_irq_set_irqchip_state(data, IRQCHIP_STATE_PENDING, true);
 }
-#endif
 
 static void __exception_irq_entry gic_handle_irq(struct pt_regs *regs)
 {
@@ -357,31 +341,33 @@ static void __exception_irq_entry gic_handle_irq(struct pt_regs *regs)
                irqstat = readl_relaxed(cpu_base + GIC_CPU_INTACK);
                irqnr = irqstat & GICC_IAR_INT_ID_MASK;
 
-               if (likely(irqnr > 15 && irqnr < 1020)) {
-                       if (static_branch_likely(&supports_deactivate_key))
-                               writel_relaxed(irqstat, cpu_base + GIC_CPU_EOI);
-                       isb();
-                       handle_domain_irq(gic->domain, irqnr, regs);
-                       continue;
-               }
-               if (irqnr < 16) {
+               if (unlikely(irqnr >= 1020))
+                       break;
+
+               if (static_branch_likely(&supports_deactivate_key))
                        writel_relaxed(irqstat, cpu_base + GIC_CPU_EOI);
-                       if (static_branch_likely(&supports_deactivate_key))
-                               writel_relaxed(irqstat, cpu_base + GIC_CPU_DEACTIVATE);
-#ifdef CONFIG_SMP
+               isb();
+
+               /*
+                * Ensure any shared data written by the CPU sending the IPI
+                * is read after we've read the ACK register on the GIC.
+                *
+                * Pairs with the write barrier in gic_ipi_send_mask
+                */
+               if (irqnr <= 15) {
+                       smp_rmb();
+
                        /*
-                        * Ensure any shared data written by the CPU sending
-                        * the IPI is read after we've read the ACK register
-                        * on the GIC.
-                        *
-                        * Pairs with the write barrier in gic_raise_softirq
+                        * The GIC encodes the source CPU in GICC_IAR,
+                        * leading to the deactivation to fail if not
+                        * written back as is to GICC_EOI.  Stash the INTID
+                        * away for gic_eoi_irq() to write back.  This only
+                        * works because we don't nest SGIs...
                         */
-                       smp_rmb();
-                       handle_IPI(irqnr, regs);
-#endif
-                       continue;
+                       this_cpu_write(sgi_intid, irqstat);
                }
-               break;
+
+               handle_domain_irq(gic->domain, irqnr, regs);
        } while (1);
 }
 
@@ -417,6 +403,7 @@ static const struct irq_chip gic_chip = {
        .irq_unmask             = gic_unmask_irq,
        .irq_eoi                = gic_eoi_irq,
        .irq_set_type           = gic_set_type,
+       .irq_retrigger          = gic_retrigger,
        .irq_get_irqchip_state  = gic_irq_get_irqchip_state,
        .irq_set_irqchip_state  = gic_irq_set_irqchip_state,
        .flags                  = IRQCHIP_SET_TYPE_MASKED |
@@ -728,11 +715,6 @@ static int gic_notifier(struct notifier_block *self, unsigned long cmd,    void *v)
        int i;
 
        for (i = 0; i < CONFIG_ARM_GIC_MAX_NR; i++) {
-#ifdef CONFIG_GIC_NON_BANKED
-               /* Skip over unused GICs */
-               if (!gic_data[i].get_base)
-                       continue;
-#endif
                switch (cmd) {
                case CPU_PM_ENTER:
                        gic_cpu_save(&gic_data[i]);
@@ -795,14 +777,34 @@ static int gic_pm_init(struct gic_chip_data *gic)
 #endif
 
 #ifdef CONFIG_SMP
-static void gic_raise_softirq(const struct cpumask *mask, unsigned int irq)
+static int gic_set_affinity(struct irq_data *d, const struct cpumask *mask_val,
+                           bool force)
+{
+       void __iomem *reg = gic_dist_base(d) + GIC_DIST_TARGET + gic_irq(d);
+       unsigned int cpu;
+
+       if (!force)
+               cpu = cpumask_any_and(mask_val, cpu_online_mask);
+       else
+               cpu = cpumask_first(mask_val);
+
+       if (cpu >= NR_GIC_CPU_IF || cpu >= nr_cpu_ids)
+               return -EINVAL;
+
+       writeb_relaxed(gic_cpu_map[cpu], reg);
+       irq_data_update_effective_affinity(d, cpumask_of(cpu));
+
+       return IRQ_SET_MASK_OK_DONE;
+}
+
+static void gic_ipi_send_mask(struct irq_data *d, const struct cpumask *mask)
 {
        int cpu;
        unsigned long flags, map = 0;
 
        if (unlikely(nr_cpu_ids == 1)) {
                /* Only one CPU? let's do a self-IPI... */
-               writel_relaxed(2 << 24 | irq,
+               writel_relaxed(2 << 24 | d->hwirq,
                               gic_data_dist_base(&gic_data[0]) + GIC_DIST_SOFTINT);
                return;
        }
@@ -820,10 +822,41 @@ static void gic_raise_softirq(const struct cpumask *mask, unsigned int irq)
        dmb(ishst);
 
        /* this always happens on GIC0 */
-       writel_relaxed(map << 16 | irq, gic_data_dist_base(&gic_data[0]) + GIC_DIST_SOFTINT);
+       writel_relaxed(map << 16 | d->hwirq, gic_data_dist_base(&gic_data[0]) + GIC_DIST_SOFTINT);
 
        gic_unlock_irqrestore(flags);
 }
+
+static int gic_starting_cpu(unsigned int cpu)
+{
+       gic_cpu_init(&gic_data[0]);
+       return 0;
+}
+
+static __init void gic_smp_init(void)
+{
+       struct irq_fwspec sgi_fwspec = {
+               .fwnode         = gic_data[0].domain->fwnode,
+               .param_count    = 1,
+       };
+       int base_sgi;
+
+       cpuhp_setup_state_nocalls(CPUHP_AP_IRQ_GIC_STARTING,
+                                 "irqchip/arm/gic:starting",
+                                 gic_starting_cpu, NULL);
+
+       base_sgi = __irq_domain_alloc_irqs(gic_data[0].domain, -1, 8,
+                                          NUMA_NO_NODE, &sgi_fwspec,
+                                          false, NULL);
+       if (WARN_ON(base_sgi <= 0))
+               return;
+
+       set_smp_ipi_range(base_sgi, 8);
+}
+#else
+#define gic_smp_init()         do { } while(0)
+#define gic_set_affinity       NULL
+#define gic_ipi_send_mask      NULL
 #endif
 
 #ifdef CONFIG_BL_SWITCHER
@@ -969,17 +1002,30 @@ static int gic_irq_domain_map(struct irq_domain *d, unsigned int irq,
                                irq_hw_number_t hw)
 {
        struct gic_chip_data *gic = d->host_data;
+       struct irq_data *irqd = irq_desc_get_irq_data(irq_to_desc(irq));
 
-       if (hw < 32) {
+       switch (hw) {
+       case 0 ... 15:
+               irq_set_percpu_devid(irq);
+               irq_domain_set_info(d, irq, hw, &gic->chip, d->host_data,
+                                   handle_percpu_devid_fasteoi_ipi,
+                                   NULL, NULL);
+               break;
+       case 16 ... 31:
                irq_set_percpu_devid(irq);
                irq_domain_set_info(d, irq, hw, &gic->chip, d->host_data,
                                    handle_percpu_devid_irq, NULL, NULL);
-       } else {
+               break;
+       default:
                irq_domain_set_info(d, irq, hw, &gic->chip, d->host_data,
                                    handle_fasteoi_irq, NULL, NULL);
                irq_set_probe(irq);
-               irqd_set_single_target(irq_desc_get_irq_data(irq_to_desc(irq)));
+               irqd_set_single_target(irqd);
+               break;
        }
+
+       /* Prevents SW retriggers which mess up the ACK/EOI ordering */
+       irqd_set_handle_enforce_irqctx(irqd);
        return 0;
 }
 
@@ -992,19 +1038,26 @@ static int gic_irq_domain_translate(struct irq_domain *d,
                                    unsigned long *hwirq,
                                    unsigned int *type)
 {
+       if (fwspec->param_count == 1 && fwspec->param[0] < 16) {
+               *hwirq = fwspec->param[0];
+               *type = IRQ_TYPE_EDGE_RISING;
+               return 0;
+       }
+
        if (is_of_node(fwspec->fwnode)) {
                if (fwspec->param_count < 3)
                        return -EINVAL;
 
-               /* Get the interrupt number and add 16 to skip over SGIs */
-               *hwirq = fwspec->param[1] + 16;
-
-               /*
-                * For SPIs, we need to add 16 more to get the GIC irq
-                * ID number
-                */
-               if (!fwspec->param[0])
-                       *hwirq += 16;
+               switch (fwspec->param[0]) {
+               case 0:                 /* SPI */
+                       *hwirq = fwspec->param[1] + 32;
+                       break;
+               case 1:                 /* PPI */
+                       *hwirq = fwspec->param[1] + 16;
+                       break;
+               default:
+                       return -EINVAL;
+               }
 
                *type = fwspec->param[2] & IRQ_TYPE_SENSE_MASK;
 
@@ -1027,12 +1080,6 @@ static int gic_irq_domain_translate(struct irq_domain *d,
        return -EINVAL;
 }
 
-static int gic_starting_cpu(unsigned int cpu)
-{
-       gic_cpu_init(&gic_data[0]);
-       return 0;
-}
-
 static int gic_irq_domain_alloc(struct irq_domain *domain, unsigned int virq,
                                unsigned int nr_irqs, void *arg)
 {
@@ -1079,10 +1126,10 @@ static void gic_init_chip(struct gic_chip_data *gic, struct device *dev,
                gic->chip.irq_set_vcpu_affinity = gic_irq_set_vcpu_affinity;
        }
 
-#ifdef CONFIG_SMP
-       if (gic == &gic_data[0])
+       if (gic == &gic_data[0]) {
                gic->chip.irq_set_affinity = gic_set_affinity;
-#endif
+               gic->chip.ipi_send_mask = gic_ipi_send_mask;
+       }
 }
 
 static int gic_init_bases(struct gic_chip_data *gic,
@@ -1112,7 +1159,7 @@ static int gic_init_bases(struct gic_chip_data *gic,
                                gic->raw_cpu_base + offset;
                }
 
-               gic_set_base_accessor(gic, gic_get_percpu_base);
+               enable_frankengic();
        } else {
                /* Normal, sane GIC... */
                WARN(gic->percpu_offset,
@@ -1120,7 +1167,6 @@ static int gic_init_bases(struct gic_chip_data *gic,
                     gic->percpu_offset);
                gic->dist_base.common_base = gic->raw_dist_base;
                gic->cpu_base.common_base = gic->raw_cpu_base;
-               gic_set_base_accessor(gic, gic_get_common_base);
        }
 
        /*
@@ -1199,12 +1245,7 @@ static int __init __gic_init_bases(struct gic_chip_data *gic,
                 */
                for (i = 0; i < NR_GIC_CPU_IF; i++)
                        gic_cpu_map[i] = 0xff;
-#ifdef CONFIG_SMP
-               set_smp_cross_call(gic_raise_softirq);
-#endif
-               cpuhp_setup_state_nocalls(CPUHP_AP_IRQ_GIC_STARTING,
-                                         "irqchip/arm/gic:starting",
-                                         gic_starting_cpu, NULL);
+
                set_handle_irq(gic_handle_irq);
                if (static_branch_likely(&supports_deactivate_key))
                        pr_info("GIC: Using split EOI/Deactivate mode\n");
@@ -1221,6 +1262,8 @@ static int __init __gic_init_bases(struct gic_chip_data *gic,
        ret = gic_init_bases(gic, handle);
        if (ret)
                kfree(name);
+       else if (gic == &gic_data[0])
+               gic_smp_init();
 
        return ret;
 }
index 130caa1..9b73dcf 100644 (file)
@@ -171,6 +171,29 @@ static int hip04_irq_set_affinity(struct irq_data *d,
 
        return IRQ_SET_MASK_OK;
 }
+
+static void hip04_ipi_send_mask(struct irq_data *d, const struct cpumask *mask)
+{
+       int cpu;
+       unsigned long flags, map = 0;
+
+       raw_spin_lock_irqsave(&irq_controller_lock, flags);
+
+       /* Convert our logical CPU mask into a physical one. */
+       for_each_cpu(cpu, mask)
+               map |= hip04_cpu_map[cpu];
+
+       /*
+        * Ensure that stores to Normal memory are visible to the
+        * other CPUs before they observe us issuing the IPI.
+        */
+       dmb(ishst);
+
+       /* this always happens on GIC0 */
+       writel_relaxed(map << 8 | d->hwirq, hip04_data.dist_base + GIC_DIST_SOFTINT);
+
+       raw_spin_unlock_irqrestore(&irq_controller_lock, flags);
+}
 #endif
 
 static void __exception_irq_entry hip04_handle_irq(struct pt_regs *regs)
@@ -182,19 +205,9 @@ static void __exception_irq_entry hip04_handle_irq(struct pt_regs *regs)
                irqstat = readl_relaxed(cpu_base + GIC_CPU_INTACK);
                irqnr = irqstat & GICC_IAR_INT_ID_MASK;
 
-               if (likely(irqnr > 15 && irqnr <= HIP04_MAX_IRQS)) {
+               if (irqnr <= HIP04_MAX_IRQS)
                        handle_domain_irq(hip04_data.domain, irqnr, regs);
-                       continue;
-               }
-               if (irqnr < 16) {
-                       writel_relaxed(irqstat, cpu_base + GIC_CPU_EOI);
-#ifdef CONFIG_SMP
-                       handle_IPI(irqnr, regs);
-#endif
-                       continue;
-               }
-               break;
-       } while (1);
+       } while (irqnr > HIP04_MAX_IRQS);
 }
 
 static struct irq_chip hip04_irq_chip = {
@@ -205,6 +218,7 @@ static struct irq_chip hip04_irq_chip = {
        .irq_set_type           = hip04_irq_set_type,
 #ifdef CONFIG_SMP
        .irq_set_affinity       = hip04_irq_set_affinity,
+       .ipi_send_mask          = hip04_ipi_send_mask,
 #endif
        .flags                  = IRQCHIP_SET_TYPE_MASKED |
                                  IRQCHIP_SKIP_SET_WAKE |
@@ -279,39 +293,17 @@ static void hip04_irq_cpu_init(struct hip04_irq_data *intc)
        writel_relaxed(1, base + GIC_CPU_CTRL);
 }
 
-#ifdef CONFIG_SMP
-static void hip04_raise_softirq(const struct cpumask *mask, unsigned int irq)
-{
-       int cpu;
-       unsigned long flags, map = 0;
-
-       raw_spin_lock_irqsave(&irq_controller_lock, flags);
-
-       /* Convert our logical CPU mask into a physical one. */
-       for_each_cpu(cpu, mask)
-               map |= hip04_cpu_map[cpu];
-
-       /*
-        * Ensure that stores to Normal memory are visible to the
-        * other CPUs before they observe us issuing the IPI.
-        */
-       dmb(ishst);
-
-       /* this always happens on GIC0 */
-       writel_relaxed(map << 8 | irq, hip04_data.dist_base + GIC_DIST_SOFTINT);
-
-       raw_spin_unlock_irqrestore(&irq_controller_lock, flags);
-}
-#endif
-
 static int hip04_irq_domain_map(struct irq_domain *d, unsigned int irq,
                                irq_hw_number_t hw)
 {
-       if (hw < 32) {
+       if (hw < 16) {
+               irq_set_percpu_devid(irq);
+               irq_set_chip_and_handler(irq, &hip04_irq_chip,
+                                        handle_percpu_devid_fasteoi_ipi);
+       } else if (hw < 32) {
                irq_set_percpu_devid(irq);
                irq_set_chip_and_handler(irq, &hip04_irq_chip,
                                         handle_percpu_devid_irq);
-               irq_set_status_flags(irq, IRQ_NOAUTOEN);
        } else {
                irq_set_chip_and_handler(irq, &hip04_irq_chip,
                                         handle_fasteoi_irq);
@@ -328,10 +320,13 @@ static int hip04_irq_domain_xlate(struct irq_domain *d,
                                  unsigned long *out_hwirq,
                                  unsigned int *out_type)
 {
-       unsigned long ret = 0;
-
        if (irq_domain_get_of_node(d) != controller)
                return -EINVAL;
+       if (intsize == 1 && intspec[0] < 16) {
+               *out_hwirq = intspec[0];
+               *out_type = IRQ_TYPE_EDGE_RISING;
+               return 0;
+       }
        if (intsize < 3)
                return -EINVAL;
 
@@ -344,7 +339,7 @@ static int hip04_irq_domain_xlate(struct irq_domain *d,
 
        *out_type = intspec[2] & IRQ_TYPE_SENSE_MASK;
 
-       return ret;
+       return 0;
 }
 
 static int hip04_irq_starting_cpu(unsigned int cpu)
@@ -361,7 +356,6 @@ static const struct irq_domain_ops hip04_irq_domain_ops = {
 static int __init
 hip04_of_init(struct device_node *node, struct device_node *parent)
 {
-       irq_hw_number_t hwirq_base = 16;
        int nr_irqs, irq_base, i;
 
        if (WARN_ON(!node))
@@ -390,24 +384,21 @@ hip04_of_init(struct device_node *node, struct device_node *parent)
                nr_irqs = HIP04_MAX_IRQS;
        hip04_data.nr_irqs = nr_irqs;
 
-       nr_irqs -= hwirq_base; /* calculate # of irqs to allocate */
-
-       irq_base = irq_alloc_descs(-1, hwirq_base, nr_irqs, numa_node_id());
+       irq_base = irq_alloc_descs(-1, 0, nr_irqs, numa_node_id());
        if (irq_base < 0) {
                pr_err("failed to allocate IRQ numbers\n");
                return -EINVAL;
        }
 
        hip04_data.domain = irq_domain_add_legacy(node, nr_irqs, irq_base,
-                                                 hwirq_base,
+                                                 0,
                                                  &hip04_irq_domain_ops,
                                                  &hip04_data);
-
        if (WARN_ON(!hip04_data.domain))
                return -EINVAL;
 
 #ifdef CONFIG_SMP
-       set_smp_cross_call(hip04_raise_softirq);
+       set_smp_ipi_range(irq_base, 16);
 #endif
        set_handle_irq(hip04_handle_irq);
 
index e35b7b0..7709f97 100644 (file)
@@ -226,12 +226,9 @@ static int imx_intmux_probe(struct platform_device *pdev)
        }
 
        data->ipg_clk = devm_clk_get(&pdev->dev, "ipg");
-       if (IS_ERR(data->ipg_clk)) {
-               ret = PTR_ERR(data->ipg_clk);
-               if (ret != -EPROBE_DEFER)
-                       dev_err(&pdev->dev, "failed to get ipg clk: %d\n", ret);
-               return ret;
-       }
+       if (IS_ERR(data->ipg_clk))
+               return dev_err_probe(&pdev->dev, PTR_ERR(data->ipg_clk),
+                                    "failed to get ipg clk\n");
 
        data->channum = channum;
        raw_spin_lock_init(&data->lock);
index 290531e..1edf769 100644 (file)
@@ -158,12 +158,9 @@ static int imx_irqsteer_probe(struct platform_device *pdev)
        }
 
        data->ipg_clk = devm_clk_get(&pdev->dev, "ipg");
-       if (IS_ERR(data->ipg_clk)) {
-               ret = PTR_ERR(data->ipg_clk);
-               if (ret != -EPROBE_DEFER)
-                       dev_err(&pdev->dev, "failed to get ipg clk: %d\n", ret);
-               return ret;
-       }
+       if (IS_ERR(data->ipg_clk))
+               return dev_err_probe(&pdev->dev, PTR_ERR(data->ipg_clk),
+                                    "failed to get ipg clk\n");
 
        raw_spin_lock_init(&data->lock);
 
index 13e6016..6392aaf 100644 (file)
@@ -151,7 +151,7 @@ static void htvec_reset(struct htvec *priv)
        /* Clear IRQ cause registers, mask all interrupts */
        for (idx = 0; idx < priv->num_parents; idx++) {
                writel_relaxed(0x0, priv->base + HTVEC_EN_OFF + 4 * idx);
-               writel_relaxed(0xFFFFFFFF, priv->base);
+               writel_relaxed(0xFFFFFFFF, priv->base + 4 * idx);
        }
 }
 
@@ -172,7 +172,7 @@ static int htvec_of_init(struct device_node *node,
                goto free_priv;
        }
 
-       /* Interrupt may come from any of the 4 interrupt line */
+       /* Interrupt may come from any of the 8 interrupt lines */
        for (i = 0; i < HTVEC_MAX_PARENT_IRQ; i++) {
                parent_irq[i] = irq_of_parse_and_map(node, i);
                if (parent_irq[i] <= 0)
diff --git a/drivers/irqchip/irq-mst-intc.c b/drivers/irqchip/irq-mst-intc.c
new file mode 100644 (file)
index 0000000..4be0775
--- /dev/null
@@ -0,0 +1,199 @@
+// SPDX-License-Identifier: (GPL-2.0 OR BSD-3-Clause)
+/*
+ * Copyright (c) 2020 MediaTek Inc.
+ * Author Mark-PK Tsai <mark-pk.tsai@mediatek.com>
+ */
+#include <linux/interrupt.h>
+#include <linux/io.h>
+#include <linux/irq.h>
+#include <linux/irqchip.h>
+#include <linux/irqdomain.h>
+#include <linux/of.h>
+#include <linux/of_address.h>
+#include <linux/of_irq.h>
+#include <linux/slab.h>
+#include <linux/spinlock.h>
+
+#define INTC_MASK      0x0
+#define INTC_EOI       0x20
+
+struct mst_intc_chip_data {
+       raw_spinlock_t  lock;
+       unsigned int    irq_start, nr_irqs;
+       void __iomem    *base;
+       bool            no_eoi;
+};
+
+static void mst_set_irq(struct irq_data *d, u32 offset)
+{
+       irq_hw_number_t hwirq = irqd_to_hwirq(d);
+       struct mst_intc_chip_data *cd = irq_data_get_irq_chip_data(d);
+       u16 val, mask;
+       unsigned long flags;
+
+       mask = 1 << (hwirq % 16);
+       offset += (hwirq / 16) * 4;
+
+       raw_spin_lock_irqsave(&cd->lock, flags);
+       val = readw_relaxed(cd->base + offset) | mask;
+       writew_relaxed(val, cd->base + offset);
+       raw_spin_unlock_irqrestore(&cd->lock, flags);
+}
+
+static void mst_clear_irq(struct irq_data *d, u32 offset)
+{
+       irq_hw_number_t hwirq = irqd_to_hwirq(d);
+       struct mst_intc_chip_data *cd = irq_data_get_irq_chip_data(d);
+       u16 val, mask;
+       unsigned long flags;
+
+       mask = 1 << (hwirq % 16);
+       offset += (hwirq / 16) * 4;
+
+       raw_spin_lock_irqsave(&cd->lock, flags);
+       val = readw_relaxed(cd->base + offset) & ~mask;
+       writew_relaxed(val, cd->base + offset);
+       raw_spin_unlock_irqrestore(&cd->lock, flags);
+}
+
+static void mst_intc_mask_irq(struct irq_data *d)
+{
+       mst_set_irq(d, INTC_MASK);
+       irq_chip_mask_parent(d);
+}
+
+static void mst_intc_unmask_irq(struct irq_data *d)
+{
+       mst_clear_irq(d, INTC_MASK);
+       irq_chip_unmask_parent(d);
+}
+
+static void mst_intc_eoi_irq(struct irq_data *d)
+{
+       struct mst_intc_chip_data *cd = irq_data_get_irq_chip_data(d);
+
+       if (!cd->no_eoi)
+               mst_set_irq(d, INTC_EOI);
+
+       irq_chip_eoi_parent(d);
+}
+
+static struct irq_chip mst_intc_chip = {
+       .name                   = "mst-intc",
+       .irq_mask               = mst_intc_mask_irq,
+       .irq_unmask             = mst_intc_unmask_irq,
+       .irq_eoi                = mst_intc_eoi_irq,
+       .irq_get_irqchip_state  = irq_chip_get_parent_state,
+       .irq_set_irqchip_state  = irq_chip_set_parent_state,
+       .irq_set_affinity       = irq_chip_set_affinity_parent,
+       .irq_set_vcpu_affinity  = irq_chip_set_vcpu_affinity_parent,
+       .irq_set_type           = irq_chip_set_type_parent,
+       .irq_retrigger          = irq_chip_retrigger_hierarchy,
+       .flags                  = IRQCHIP_SET_TYPE_MASKED |
+                                 IRQCHIP_SKIP_SET_WAKE |
+                                 IRQCHIP_MASK_ON_SUSPEND,
+};
+
+static int mst_intc_domain_translate(struct irq_domain *d,
+                                    struct irq_fwspec *fwspec,
+                                    unsigned long *hwirq,
+                                    unsigned int *type)
+{
+       struct mst_intc_chip_data *cd = d->host_data;
+
+       if (is_of_node(fwspec->fwnode)) {
+               if (fwspec->param_count != 3)
+                       return -EINVAL;
+
+               /* No PPI should point to this domain */
+               if (fwspec->param[0] != 0)
+                       return -EINVAL;
+
+               if (fwspec->param[1] >= cd->nr_irqs)
+                       return -EINVAL;
+
+               *hwirq = fwspec->param[1];
+               *type = fwspec->param[2] & IRQ_TYPE_SENSE_MASK;
+               return 0;
+       }
+
+       return -EINVAL;
+}
+
+static int mst_intc_domain_alloc(struct irq_domain *domain, unsigned int virq,
+                                unsigned int nr_irqs, void *data)
+{
+       int i;
+       irq_hw_number_t hwirq;
+       struct irq_fwspec parent_fwspec, *fwspec = data;
+       struct mst_intc_chip_data *cd = domain->host_data;
+
+       /* Not GIC compliant */
+       if (fwspec->param_count != 3)
+               return -EINVAL;
+
+       /* No PPI should point to this domain */
+       if (fwspec->param[0])
+               return -EINVAL;
+
+       hwirq = fwspec->param[1];
+       for (i = 0; i < nr_irqs; i++)
+               irq_domain_set_hwirq_and_chip(domain, virq + i, hwirq + i,
+                                             &mst_intc_chip,
+                                             domain->host_data);
+
+       parent_fwspec = *fwspec;
+       parent_fwspec.fwnode = domain->parent->fwnode;
+       parent_fwspec.param[1] = cd->irq_start + hwirq;
+       return irq_domain_alloc_irqs_parent(domain, virq, nr_irqs, &parent_fwspec);
+}
+
+static const struct irq_domain_ops mst_intc_domain_ops = {
+       .translate      = mst_intc_domain_translate,
+       .alloc          = mst_intc_domain_alloc,
+       .free           = irq_domain_free_irqs_common,
+};
+
+int __init
+mst_intc_of_init(struct device_node *dn, struct device_node *parent)
+{
+       struct irq_domain *domain, *domain_parent;
+       struct mst_intc_chip_data *cd;
+       u32 irq_start, irq_end;
+
+       domain_parent = irq_find_host(parent);
+       if (!domain_parent) {
+               pr_err("mst-intc: interrupt-parent not found\n");
+               return -EINVAL;
+       }
+
+       if (of_property_read_u32_index(dn, "mstar,irqs-map-range", 0, &irq_start) ||
+           of_property_read_u32_index(dn, "mstar,irqs-map-range", 1, &irq_end))
+               return -EINVAL;
+
+       cd = kzalloc(sizeof(*cd), GFP_KERNEL);
+       if (!cd)
+               return -ENOMEM;
+
+       cd->base = of_iomap(dn, 0);
+       if (!cd->base) {
+               kfree(cd);
+               return -ENOMEM;
+       }
+
+       cd->no_eoi = of_property_read_bool(dn, "mstar,intc-no-eoi");
+       raw_spin_lock_init(&cd->lock);
+       cd->irq_start = irq_start;
+       cd->nr_irqs = irq_end - irq_start + 1;
+       domain = irq_domain_add_hierarchy(domain_parent, 0, cd->nr_irqs, dn,
+                                         &mst_intc_domain_ops, cd);
+       if (!domain) {
+               iounmap(cd->base);
+               kfree(cd);
+               return -ENOMEM;
+       }
+
+       return 0;
+}
+
+IRQCHIP_DECLARE(mst_intc, "mstar,mst-intc", mst_intc_of_init);
diff --git a/drivers/irqchip/irq-owl-sirq.c b/drivers/irqchip/irq-owl-sirq.c
new file mode 100644 (file)
index 0000000..6e41274
--- /dev/null
@@ -0,0 +1,359 @@
+// SPDX-License-Identifier: GPL-2.0+
+/*
+ * Actions Semi Owl SoCs SIRQ interrupt controller driver
+ *
+ * Copyright (C) 2014 Actions Semi Inc.
+ * David Liu <liuwei@actions-semi.com>
+ *
+ * Author: Parthiban Nallathambi <pn@denx.de>
+ * Author: Saravanan Sekar <sravanhome@gmail.com>
+ * Author: Cristian Ciocaltea <cristian.ciocaltea@gmail.com>
+ */
+
+#include <linux/bitfield.h>
+#include <linux/interrupt.h>
+#include <linux/irqchip.h>
+#include <linux/of_address.h>
+#include <linux/of_irq.h>
+
+#include <dt-bindings/interrupt-controller/arm-gic.h>
+
+#define NUM_SIRQ                       3
+
+#define INTC_EXTCTL_PENDING            BIT(0)
+#define INTC_EXTCTL_CLK_SEL            BIT(4)
+#define INTC_EXTCTL_EN                 BIT(5)
+#define INTC_EXTCTL_TYPE_MASK          GENMASK(7, 6)
+#define INTC_EXTCTL_TYPE_HIGH          0
+#define INTC_EXTCTL_TYPE_LOW           BIT(6)
+#define INTC_EXTCTL_TYPE_RISING                BIT(7)
+#define INTC_EXTCTL_TYPE_FALLING       (BIT(6) | BIT(7))
+
+/* S500 & S700 SIRQ control register masks */
+#define INTC_EXTCTL_SIRQ0_MASK         GENMASK(23, 16)
+#define INTC_EXTCTL_SIRQ1_MASK         GENMASK(15, 8)
+#define INTC_EXTCTL_SIRQ2_MASK         GENMASK(7, 0)
+
+/* S900 SIRQ control register offsets, relative to controller base address */
+#define INTC_EXTCTL0                   0x0000
+#define INTC_EXTCTL1                   0x0328
+#define INTC_EXTCTL2                   0x032c
+
+struct owl_sirq_params {
+       /* INTC_EXTCTL reg shared for all three SIRQ lines */
+       bool reg_shared;
+       /* INTC_EXTCTL reg offsets relative to controller base address */
+       u16 reg_offset[NUM_SIRQ];
+};
+
+struct owl_sirq_chip_data {
+       const struct owl_sirq_params    *params;
+       void __iomem                    *base;
+       raw_spinlock_t                  lock;
+       u32                             ext_irqs[NUM_SIRQ];
+};
+
+/* S500 & S700 SoCs */
+static const struct owl_sirq_params owl_sirq_s500_params = {
+       .reg_shared = true,
+       .reg_offset = { 0, 0, 0 },
+};
+
+/* S900 SoC */
+static const struct owl_sirq_params owl_sirq_s900_params = {
+       .reg_shared = false,
+       .reg_offset = { INTC_EXTCTL0, INTC_EXTCTL1, INTC_EXTCTL2 },
+};
+
+static u32 owl_field_get(u32 val, u32 index)
+{
+       switch (index) {
+       case 0:
+               return FIELD_GET(INTC_EXTCTL_SIRQ0_MASK, val);
+       case 1:
+               return FIELD_GET(INTC_EXTCTL_SIRQ1_MASK, val);
+       case 2:
+       default:
+               return FIELD_GET(INTC_EXTCTL_SIRQ2_MASK, val);
+       }
+}
+
+static u32 owl_field_prep(u32 val, u32 index)
+{
+       switch (index) {
+       case 0:
+               return FIELD_PREP(INTC_EXTCTL_SIRQ0_MASK, val);
+       case 1:
+               return FIELD_PREP(INTC_EXTCTL_SIRQ1_MASK, val);
+       case 2:
+       default:
+               return FIELD_PREP(INTC_EXTCTL_SIRQ2_MASK, val);
+       }
+}
+
+static u32 owl_sirq_read_extctl(struct owl_sirq_chip_data *data, u32 index)
+{
+       u32 val;
+
+       val = readl_relaxed(data->base + data->params->reg_offset[index]);
+       if (data->params->reg_shared)
+               val = owl_field_get(val, index);
+
+       return val;
+}
+
+static void owl_sirq_write_extctl(struct owl_sirq_chip_data *data,
+                                 u32 extctl, u32 index)
+{
+       u32 val;
+
+       if (data->params->reg_shared) {
+               val = readl_relaxed(data->base + data->params->reg_offset[index]);
+               val &= ~owl_field_prep(0xff, index);
+               extctl = owl_field_prep(extctl, index) | val;
+       }
+
+       writel_relaxed(extctl, data->base + data->params->reg_offset[index]);
+}
+
+static void owl_sirq_clear_set_extctl(struct owl_sirq_chip_data *d,
+                                     u32 clear, u32 set, u32 index)
+{
+       unsigned long flags;
+       u32 val;
+
+       raw_spin_lock_irqsave(&d->lock, flags);
+       val = owl_sirq_read_extctl(d, index);
+       val &= ~clear;
+       val |= set;
+       owl_sirq_write_extctl(d, val, index);
+       raw_spin_unlock_irqrestore(&d->lock, flags);
+}
+
+static void owl_sirq_eoi(struct irq_data *data)
+{
+       struct owl_sirq_chip_data *chip_data = irq_data_get_irq_chip_data(data);
+
+       /*
+        * Software must clear external interrupt pending, when interrupt type
+        * is edge triggered, so we need per SIRQ based clearing.
+        */
+       if (!irqd_is_level_type(data))
+               owl_sirq_clear_set_extctl(chip_data, 0, INTC_EXTCTL_PENDING,
+                                         data->hwirq);
+
+       irq_chip_eoi_parent(data);
+}
+
+static void owl_sirq_mask(struct irq_data *data)
+{
+       struct owl_sirq_chip_data *chip_data = irq_data_get_irq_chip_data(data);
+
+       owl_sirq_clear_set_extctl(chip_data, INTC_EXTCTL_EN, 0, data->hwirq);
+       irq_chip_mask_parent(data);
+}
+
+static void owl_sirq_unmask(struct irq_data *data)
+{
+       struct owl_sirq_chip_data *chip_data = irq_data_get_irq_chip_data(data);
+
+       owl_sirq_clear_set_extctl(chip_data, 0, INTC_EXTCTL_EN, data->hwirq);
+       irq_chip_unmask_parent(data);
+}
+
+/*
+ * GIC does not handle falling edge or active low, hence SIRQ shall be
+ * programmed to convert falling edge to rising edge signal and active
+ * low to active high signal.
+ */
+static int owl_sirq_set_type(struct irq_data *data, unsigned int type)
+{
+       struct owl_sirq_chip_data *chip_data = irq_data_get_irq_chip_data(data);
+       u32 sirq_type;
+
+       switch (type) {
+       case IRQ_TYPE_LEVEL_LOW:
+               sirq_type = INTC_EXTCTL_TYPE_LOW;
+               type = IRQ_TYPE_LEVEL_HIGH;
+               break;
+       case IRQ_TYPE_LEVEL_HIGH:
+               sirq_type = INTC_EXTCTL_TYPE_HIGH;
+               break;
+       case IRQ_TYPE_EDGE_FALLING:
+               sirq_type = INTC_EXTCTL_TYPE_FALLING;
+               type = IRQ_TYPE_EDGE_RISING;
+               break;
+       case IRQ_TYPE_EDGE_RISING:
+               sirq_type = INTC_EXTCTL_TYPE_RISING;
+               break;
+       default:
+               return -EINVAL;
+       }
+
+       owl_sirq_clear_set_extctl(chip_data, INTC_EXTCTL_TYPE_MASK, sirq_type,
+                                 data->hwirq);
+
+       return irq_chip_set_type_parent(data, type);
+}
+
+static struct irq_chip owl_sirq_chip = {
+       .name           = "owl-sirq",
+       .irq_mask       = owl_sirq_mask,
+       .irq_unmask     = owl_sirq_unmask,
+       .irq_eoi        = owl_sirq_eoi,
+       .irq_set_type   = owl_sirq_set_type,
+       .irq_retrigger  = irq_chip_retrigger_hierarchy,
+#ifdef CONFIG_SMP
+       .irq_set_affinity = irq_chip_set_affinity_parent,
+#endif
+};
+
+static int owl_sirq_domain_translate(struct irq_domain *d,
+                                    struct irq_fwspec *fwspec,
+                                    unsigned long *hwirq,
+                                    unsigned int *type)
+{
+       if (!is_of_node(fwspec->fwnode))
+               return -EINVAL;
+
+       if (fwspec->param_count != 2 || fwspec->param[0] >= NUM_SIRQ)
+               return -EINVAL;
+
+       *hwirq = fwspec->param[0];
+       *type = fwspec->param[1];
+
+       return 0;
+}
+
+static int owl_sirq_domain_alloc(struct irq_domain *domain, unsigned int virq,
+                                unsigned int nr_irqs, void *data)
+{
+       struct owl_sirq_chip_data *chip_data = domain->host_data;
+       struct irq_fwspec *fwspec = data;
+       struct irq_fwspec parent_fwspec;
+       irq_hw_number_t hwirq;
+       unsigned int type;
+       int ret;
+
+       if (WARN_ON(nr_irqs != 1))
+               return -EINVAL;
+
+       ret = owl_sirq_domain_translate(domain, fwspec, &hwirq, &type);
+       if (ret)
+               return ret;
+
+       switch (type) {
+       case IRQ_TYPE_EDGE_RISING:
+       case IRQ_TYPE_LEVEL_HIGH:
+               break;
+       case IRQ_TYPE_EDGE_FALLING:
+               type = IRQ_TYPE_EDGE_RISING;
+               break;
+       case IRQ_TYPE_LEVEL_LOW:
+               type = IRQ_TYPE_LEVEL_HIGH;
+               break;
+       default:
+               return -EINVAL;
+       }
+
+       irq_domain_set_hwirq_and_chip(domain, virq, hwirq, &owl_sirq_chip,
+                                     chip_data);
+
+       parent_fwspec.fwnode = domain->parent->fwnode;
+       parent_fwspec.param_count = 3;
+       parent_fwspec.param[0] = GIC_SPI;
+       parent_fwspec.param[1] = chip_data->ext_irqs[hwirq];
+       parent_fwspec.param[2] = type;
+
+       return irq_domain_alloc_irqs_parent(domain, virq, 1, &parent_fwspec);
+}
+
+static const struct irq_domain_ops owl_sirq_domain_ops = {
+       .translate      = owl_sirq_domain_translate,
+       .alloc          = owl_sirq_domain_alloc,
+       .free           = irq_domain_free_irqs_common,
+};
+
+static int __init owl_sirq_init(const struct owl_sirq_params *params,
+                               struct device_node *node,
+                               struct device_node *parent)
+{
+       struct irq_domain *domain, *parent_domain;
+       struct owl_sirq_chip_data *chip_data;
+       int ret, i;
+
+       parent_domain = irq_find_host(parent);
+       if (!parent_domain) {
+               pr_err("%pOF: failed to find sirq parent domain\n", node);
+               return -ENXIO;
+       }
+
+       chip_data = kzalloc(sizeof(*chip_data), GFP_KERNEL);
+       if (!chip_data)
+               return -ENOMEM;
+
+       raw_spin_lock_init(&chip_data->lock);
+
+       chip_data->params = params;
+
+       chip_data->base = of_iomap(node, 0);
+       if (!chip_data->base) {
+               pr_err("%pOF: failed to map sirq registers\n", node);
+               ret = -ENXIO;
+               goto out_free;
+       }
+
+       for (i = 0; i < NUM_SIRQ; i++) {
+               struct of_phandle_args irq;
+
+               ret = of_irq_parse_one(node, i, &irq);
+               if (ret) {
+                       pr_err("%pOF: failed to parse interrupt %d\n", node, i);
+                       goto out_unmap;
+               }
+
+               if (WARN_ON(irq.args_count != 3)) {
+                       ret = -EINVAL;
+                       goto out_unmap;
+               }
+
+               chip_data->ext_irqs[i] = irq.args[1];
+
+               /* Set 24MHz external interrupt clock freq */
+               owl_sirq_clear_set_extctl(chip_data, 0, INTC_EXTCTL_CLK_SEL, i);
+       }
+
+       domain = irq_domain_add_hierarchy(parent_domain, 0, NUM_SIRQ, node,
+                                         &owl_sirq_domain_ops, chip_data);
+       if (!domain) {
+               pr_err("%pOF: failed to add domain\n", node);
+               ret = -ENOMEM;
+               goto out_unmap;
+       }
+
+       return 0;
+
+out_unmap:
+       iounmap(chip_data->base);
+out_free:
+       kfree(chip_data);
+
+       return ret;
+}
+
+static int __init owl_sirq_s500_of_init(struct device_node *node,
+                                       struct device_node *parent)
+{
+       return owl_sirq_init(&owl_sirq_s500_params, node, parent);
+}
+
+IRQCHIP_DECLARE(owl_sirq_s500, "actions,s500-sirq", owl_sirq_s500_of_init);
+IRQCHIP_DECLARE(owl_sirq_s700, "actions,s700-sirq", owl_sirq_s500_of_init);
+
+static int __init owl_sirq_s900_of_init(struct device_node *node,
+                                       struct device_node *parent)
+{
+       return owl_sirq_init(&owl_sirq_s900_params, node, parent);
+}
+
+IRQCHIP_DECLARE(owl_sirq_s900, "actions,s900-sirq", owl_sirq_s900_of_init);
diff --git a/drivers/irqchip/irq-pruss-intc.c b/drivers/irqchip/irq-pruss-intc.c
new file mode 100644 (file)
index 0000000..92fb578
--- /dev/null
@@ -0,0 +1,664 @@
+// SPDX-License-Identifier: GPL-2.0-only
+/*
+ * PRU-ICSS INTC IRQChip driver for various TI SoCs
+ *
+ * Copyright (C) 2016-2020 Texas Instruments Incorporated - http://www.ti.com/
+ *
+ * Author(s):
+ *     Andrew F. Davis <afd@ti.com>
+ *     Suman Anna <s-anna@ti.com>
+ *     Grzegorz Jaszczyk <grzegorz.jaszczyk@linaro.org> for Texas Instruments
+ *
+ * Copyright (C) 2019 David Lechner <david@lechnology.com>
+ */
+
+#include <linux/interrupt.h>
+#include <linux/irq.h>
+#include <linux/irqchip/chained_irq.h>
+#include <linux/irqdomain.h>
+#include <linux/module.h>
+#include <linux/of_device.h>
+#include <linux/platform_device.h>
+
+/*
+ * Number of host interrupts reaching the main MPU sub-system. Note that this
+ * is not the same as the total number of host interrupts supported by the PRUSS
+ * INTC instance
+ */
+#define MAX_NUM_HOST_IRQS      8
+
+/* minimum starting host interrupt number for MPU */
+#define FIRST_PRU_HOST_INT     2
+
+/* PRU_ICSS_INTC registers */
+#define PRU_INTC_REVID         0x0000
+#define PRU_INTC_CR            0x0004
+#define PRU_INTC_GER           0x0010
+#define PRU_INTC_GNLR          0x001c
+#define PRU_INTC_SISR          0x0020
+#define PRU_INTC_SICR          0x0024
+#define PRU_INTC_EISR          0x0028
+#define PRU_INTC_EICR          0x002c
+#define PRU_INTC_HIEISR                0x0034
+#define PRU_INTC_HIDISR                0x0038
+#define PRU_INTC_GPIR          0x0080
+#define PRU_INTC_SRSR(x)       (0x0200 + (x) * 4)
+#define PRU_INTC_SECR(x)       (0x0280 + (x) * 4)
+#define PRU_INTC_ESR(x)                (0x0300 + (x) * 4)
+#define PRU_INTC_ECR(x)                (0x0380 + (x) * 4)
+#define PRU_INTC_CMR(x)                (0x0400 + (x) * 4)
+#define PRU_INTC_HMR(x)                (0x0800 + (x) * 4)
+#define PRU_INTC_HIPIR(x)      (0x0900 + (x) * 4)
+#define PRU_INTC_SIPR(x)       (0x0d00 + (x) * 4)
+#define PRU_INTC_SITR(x)       (0x0d80 + (x) * 4)
+#define PRU_INTC_HINLR(x)      (0x1100 + (x) * 4)
+#define PRU_INTC_HIER          0x1500
+
+/* CMR register bit-field macros */
+#define CMR_EVT_MAP_MASK       0xf
+#define CMR_EVT_MAP_BITS       8
+#define CMR_EVT_PER_REG                4
+
+/* HMR register bit-field macros */
+#define HMR_CH_MAP_MASK                0xf
+#define HMR_CH_MAP_BITS                8
+#define HMR_CH_PER_REG         4
+
+/* HIPIR register bit-fields */
+#define INTC_HIPIR_NONE_HINT   0x80000000
+
+#define MAX_PRU_SYS_EVENTS 160
+#define MAX_PRU_CHANNELS 20
+
+/**
+ * struct pruss_intc_map_record - keeps track of actual mapping state
+ * @value: The currently mapped value (channel or host)
+ * @ref_count: Keeps track of number of current users of this resource
+ */
+struct pruss_intc_map_record {
+       u8 value;
+       u8 ref_count;
+};
+
+/**
+ * struct pruss_intc_match_data - match data to handle SoC variations
+ * @num_system_events: number of input system events handled by the PRUSS INTC
+ * @num_host_events: number of host events (which is equal to number of
+ *                  channels) supported by the PRUSS INTC
+ */
+struct pruss_intc_match_data {
+       u8 num_system_events;
+       u8 num_host_events;
+};
+
+/**
+ * struct pruss_intc - PRUSS interrupt controller structure
+ * @event_channel: current state of system event to channel mappings
+ * @channel_host: current state of channel to host mappings
+ * @irqs: kernel irq numbers corresponding to PRUSS host interrupts
+ * @base: base virtual address of INTC register space
+ * @domain: irq domain for this interrupt controller
+ * @soc_config: cached PRUSS INTC IP configuration data
+ * @dev: PRUSS INTC device pointer
+ * @lock: mutex to serialize interrupts mapping
+ */
+struct pruss_intc {
+       struct pruss_intc_map_record event_channel[MAX_PRU_SYS_EVENTS];
+       struct pruss_intc_map_record channel_host[MAX_PRU_CHANNELS];
+       unsigned int irqs[MAX_NUM_HOST_IRQS];
+       void __iomem *base;
+       struct irq_domain *domain;
+       const struct pruss_intc_match_data *soc_config;
+       struct device *dev;
+       struct mutex lock; /* PRUSS INTC lock */
+};
+
+/**
+ * struct pruss_host_irq_data - PRUSS host irq data structure
+ * @intc: PRUSS interrupt controller pointer
+ * @host_irq: host irq number
+ */
+struct pruss_host_irq_data {
+       struct pruss_intc *intc;
+       u8 host_irq;
+};
+
+static inline u32 pruss_intc_read_reg(struct pruss_intc *intc, unsigned int reg)
+{
+       return readl_relaxed(intc->base + reg);
+}
+
+static inline void pruss_intc_write_reg(struct pruss_intc *intc,
+                                       unsigned int reg, u32 val)
+{
+       writel_relaxed(val, intc->base + reg);
+}
+
+static void pruss_intc_update_cmr(struct pruss_intc *intc, unsigned int evt,
+                                 u8 ch)
+{
+       u32 idx, offset, val;
+
+       idx = evt / CMR_EVT_PER_REG;
+       offset = (evt % CMR_EVT_PER_REG) * CMR_EVT_MAP_BITS;
+
+       val = pruss_intc_read_reg(intc, PRU_INTC_CMR(idx));
+       val &= ~(CMR_EVT_MAP_MASK << offset);
+       val |= ch << offset;
+       pruss_intc_write_reg(intc, PRU_INTC_CMR(idx), val);
+
+       dev_dbg(intc->dev, "SYSEV%u -> CH%d (CMR%d 0x%08x)\n", evt, ch,
+               idx, pruss_intc_read_reg(intc, PRU_INTC_CMR(idx)));
+}
+
+static void pruss_intc_update_hmr(struct pruss_intc *intc, u8 ch, u8 host)
+{
+       u32 idx, offset, val;
+
+       idx = ch / HMR_CH_PER_REG;
+       offset = (ch % HMR_CH_PER_REG) * HMR_CH_MAP_BITS;
+
+       val = pruss_intc_read_reg(intc, PRU_INTC_HMR(idx));
+       val &= ~(HMR_CH_MAP_MASK << offset);
+       val |= host << offset;
+       pruss_intc_write_reg(intc, PRU_INTC_HMR(idx), val);
+
+       dev_dbg(intc->dev, "CH%d -> HOST%d (HMR%d 0x%08x)\n", ch, host, idx,
+               pruss_intc_read_reg(intc, PRU_INTC_HMR(idx)));
+}
+
+/**
+ * pruss_intc_map() - configure the PRUSS INTC
+ * @intc: PRUSS interrupt controller pointer
+ * @hwirq: the system event number
+ *
+ * Configures the PRUSS INTC with the provided configuration from the one parsed
+ * in the xlate function.
+ */
+static void pruss_intc_map(struct pruss_intc *intc, unsigned long hwirq)
+{
+       struct device *dev = intc->dev;
+       u8 ch, host, reg_idx;
+       u32 val;
+
+       mutex_lock(&intc->lock);
+
+       intc->event_channel[hwirq].ref_count++;
+
+       ch = intc->event_channel[hwirq].value;
+       host = intc->channel_host[ch].value;
+
+       pruss_intc_update_cmr(intc, hwirq, ch);
+
+       reg_idx = hwirq / 32;
+       val = BIT(hwirq  % 32);
+
+       /* clear and enable system event */
+       pruss_intc_write_reg(intc, PRU_INTC_ESR(reg_idx), val);
+       pruss_intc_write_reg(intc, PRU_INTC_SECR(reg_idx), val);
+
+       if (++intc->channel_host[ch].ref_count == 1) {
+               pruss_intc_update_hmr(intc, ch, host);
+
+               /* enable host interrupts */
+               pruss_intc_write_reg(intc, PRU_INTC_HIEISR, host);
+       }
+
+       dev_dbg(dev, "mapped system_event = %lu channel = %d host = %d",
+               hwirq, ch, host);
+
+       mutex_unlock(&intc->lock);
+}
+
+/**
+ * pruss_intc_unmap() - unconfigure the PRUSS INTC
+ * @intc: PRUSS interrupt controller pointer
+ * @hwirq: the system event number
+ *
+ * Undo whatever was done in pruss_intc_map() for a PRU core.
+ * Mappings are reference counted, so resources are only disabled when there
+ * are no longer any users.
+ */
+static void pruss_intc_unmap(struct pruss_intc *intc, unsigned long hwirq)
+{
+       u8 ch, host, reg_idx;
+       u32 val;
+
+       mutex_lock(&intc->lock);
+
+       ch = intc->event_channel[hwirq].value;
+       host = intc->channel_host[ch].value;
+
+       if (--intc->channel_host[ch].ref_count == 0) {
+               /* disable host interrupts */
+               pruss_intc_write_reg(intc, PRU_INTC_HIDISR, host);
+
+               /* clear the map using reset value 0 */
+               pruss_intc_update_hmr(intc, ch, 0);
+       }
+
+       intc->event_channel[hwirq].ref_count--;
+       reg_idx = hwirq / 32;
+       val = BIT(hwirq  % 32);
+
+       /* disable system events */
+       pruss_intc_write_reg(intc, PRU_INTC_ECR(reg_idx), val);
+       /* clear any pending status */
+       pruss_intc_write_reg(intc, PRU_INTC_SECR(reg_idx), val);
+
+       /* clear the map using reset value 0 */
+       pruss_intc_update_cmr(intc, hwirq, 0);
+
+       dev_dbg(intc->dev, "unmapped system_event = %lu channel = %d host = %d\n",
+               hwirq, ch, host);
+
+       mutex_unlock(&intc->lock);
+}
+
+static void pruss_intc_init(struct pruss_intc *intc)
+{
+       const struct pruss_intc_match_data *soc_config = intc->soc_config;
+       int num_chnl_map_regs, num_host_intr_regs, num_event_type_regs, i;
+
+       num_chnl_map_regs = DIV_ROUND_UP(soc_config->num_system_events,
+                                        CMR_EVT_PER_REG);
+       num_host_intr_regs = DIV_ROUND_UP(soc_config->num_host_events,
+                                         HMR_CH_PER_REG);
+       num_event_type_regs = DIV_ROUND_UP(soc_config->num_system_events, 32);
+
+       /*
+        * configure polarity (SIPR register) to active high and
+        * type (SITR register) to level interrupt for all system events
+        */
+       for (i = 0; i < num_event_type_regs; i++) {
+               pruss_intc_write_reg(intc, PRU_INTC_SIPR(i), 0xffffffff);
+               pruss_intc_write_reg(intc, PRU_INTC_SITR(i), 0);
+       }
+
+       /* clear all interrupt channel map registers, 4 events per register */
+       for (i = 0; i < num_chnl_map_regs; i++)
+               pruss_intc_write_reg(intc, PRU_INTC_CMR(i), 0);
+
+       /* clear all host interrupt map registers, 4 channels per register */
+       for (i = 0; i < num_host_intr_regs; i++)
+               pruss_intc_write_reg(intc, PRU_INTC_HMR(i), 0);
+
+       /* global interrupt enable */
+       pruss_intc_write_reg(intc, PRU_INTC_GER, 1);
+}
+
+static void pruss_intc_irq_ack(struct irq_data *data)
+{
+       struct pruss_intc *intc = irq_data_get_irq_chip_data(data);
+       unsigned int hwirq = data->hwirq;
+
+       pruss_intc_write_reg(intc, PRU_INTC_SICR, hwirq);
+}
+
+static void pruss_intc_irq_mask(struct irq_data *data)
+{
+       struct pruss_intc *intc = irq_data_get_irq_chip_data(data);
+       unsigned int hwirq = data->hwirq;
+
+       pruss_intc_write_reg(intc, PRU_INTC_EICR, hwirq);
+}
+
+static void pruss_intc_irq_unmask(struct irq_data *data)
+{
+       struct pruss_intc *intc = irq_data_get_irq_chip_data(data);
+       unsigned int hwirq = data->hwirq;
+
+       pruss_intc_write_reg(intc, PRU_INTC_EISR, hwirq);
+}
+
+static int pruss_intc_irq_reqres(struct irq_data *data)
+{
+       if (!try_module_get(THIS_MODULE))
+               return -ENODEV;
+
+       return 0;
+}
+
+static void pruss_intc_irq_relres(struct irq_data *data)
+{
+       module_put(THIS_MODULE);
+}
+
+static int pruss_intc_irq_get_irqchip_state(struct irq_data *data,
+                                           enum irqchip_irq_state which,
+                                           bool *state)
+{
+       struct pruss_intc *intc = irq_data_get_irq_chip_data(data);
+       u32 reg, mask, srsr;
+
+       if (which != IRQCHIP_STATE_PENDING)
+               return -EINVAL;
+
+       reg = PRU_INTC_SRSR(data->hwirq / 32);
+       mask = BIT(data->hwirq % 32);
+
+       srsr = pruss_intc_read_reg(intc, reg);
+
+       *state = !!(srsr & mask);
+
+       return 0;
+}
+
+static int pruss_intc_irq_set_irqchip_state(struct irq_data *data,
+                                           enum irqchip_irq_state which,
+                                           bool state)
+{
+       struct pruss_intc *intc = irq_data_get_irq_chip_data(data);
+
+       if (which != IRQCHIP_STATE_PENDING)
+               return -EINVAL;
+
+       if (state)
+               pruss_intc_write_reg(intc, PRU_INTC_SISR, data->hwirq);
+       else
+               pruss_intc_write_reg(intc, PRU_INTC_SICR, data->hwirq);
+
+       return 0;
+}
+
+static struct irq_chip pruss_irqchip = {
+       .name                   = "pruss-intc",
+       .irq_ack                = pruss_intc_irq_ack,
+       .irq_mask               = pruss_intc_irq_mask,
+       .irq_unmask             = pruss_intc_irq_unmask,
+       .irq_request_resources  = pruss_intc_irq_reqres,
+       .irq_release_resources  = pruss_intc_irq_relres,
+       .irq_get_irqchip_state  = pruss_intc_irq_get_irqchip_state,
+       .irq_set_irqchip_state  = pruss_intc_irq_set_irqchip_state,
+};
+
+static int pruss_intc_validate_mapping(struct pruss_intc *intc, int event,
+                                      int channel, int host)
+{
+       struct device *dev = intc->dev;
+       int ret = 0;
+
+       mutex_lock(&intc->lock);
+
+       /* check if sysevent already assigned */
+       if (intc->event_channel[event].ref_count > 0 &&
+           intc->event_channel[event].value != channel) {
+               dev_err(dev, "event %d (req. ch %d) already assigned to channel %d\n",
+                       event, channel, intc->event_channel[event].value);
+               ret = -EBUSY;
+               goto unlock;
+       }
+
+       /* check if channel already assigned */
+       if (intc->channel_host[channel].ref_count > 0 &&
+           intc->channel_host[channel].value != host) {
+               dev_err(dev, "channel %d (req. host %d) already assigned to host %d\n",
+                       channel, host, intc->channel_host[channel].value);
+               ret = -EBUSY;
+               goto unlock;
+       }
+
+       intc->event_channel[event].value = channel;
+       intc->channel_host[channel].value = host;
+
+unlock:
+       mutex_unlock(&intc->lock);
+       return ret;
+}
+
+static int
+pruss_intc_irq_domain_xlate(struct irq_domain *d, struct device_node *node,
+                           const u32 *intspec, unsigned int intsize,
+                           unsigned long *out_hwirq, unsigned int *out_type)
+{
+       struct pruss_intc *intc = d->host_data;
+       struct device *dev = intc->dev;
+       int ret, sys_event, channel, host;
+
+       if (intsize < 3)
+               return -EINVAL;
+
+       sys_event = intspec[0];
+       if (sys_event < 0 || sys_event >= intc->soc_config->num_system_events) {
+               dev_err(dev, "%d is not valid event number\n", sys_event);
+               return -EINVAL;
+       }
+
+       channel = intspec[1];
+       if (channel < 0 || channel >= intc->soc_config->num_host_events) {
+               dev_err(dev, "%d is not valid channel number", channel);
+               return -EINVAL;
+       }
+
+       host = intspec[2];
+       if (host < 0 || host >= intc->soc_config->num_host_events) {
+               dev_err(dev, "%d is not valid host irq number\n", host);
+               return -EINVAL;
+       }
+
+       /* check if requested sys_event was already mapped, if so validate it */
+       ret = pruss_intc_validate_mapping(intc, sys_event, channel, host);
+       if (ret)
+               return ret;
+
+       *out_hwirq = sys_event;
+       *out_type = IRQ_TYPE_LEVEL_HIGH;
+
+       return 0;
+}
+
+static int pruss_intc_irq_domain_map(struct irq_domain *d, unsigned int virq,
+                                    irq_hw_number_t hw)
+{
+       struct pruss_intc *intc = d->host_data;
+
+       pruss_intc_map(intc, hw);
+
+       irq_set_chip_data(virq, intc);
+       irq_set_chip_and_handler(virq, &pruss_irqchip, handle_level_irq);
+
+       return 0;
+}
+
+static void pruss_intc_irq_domain_unmap(struct irq_domain *d, unsigned int virq)
+{
+       struct pruss_intc *intc = d->host_data;
+       unsigned long hwirq = irqd_to_hwirq(irq_get_irq_data(virq));
+
+       irq_set_chip_and_handler(virq, NULL, NULL);
+       irq_set_chip_data(virq, NULL);
+       pruss_intc_unmap(intc, hwirq);
+}
+
+static const struct irq_domain_ops pruss_intc_irq_domain_ops = {
+       .xlate  = pruss_intc_irq_domain_xlate,
+       .map    = pruss_intc_irq_domain_map,
+       .unmap  = pruss_intc_irq_domain_unmap,
+};
+
+static void pruss_intc_irq_handler(struct irq_desc *desc)
+{
+       unsigned int irq = irq_desc_get_irq(desc);
+       struct irq_chip *chip = irq_desc_get_chip(desc);
+       struct pruss_host_irq_data *host_irq_data = irq_get_handler_data(irq);
+       struct pruss_intc *intc = host_irq_data->intc;
+       u8 host_irq = host_irq_data->host_irq + FIRST_PRU_HOST_INT;
+
+       chained_irq_enter(chip, desc);
+
+       while (true) {
+               u32 hipir;
+               unsigned int virq;
+               int hwirq;
+
+               /* get highest priority pending PRUSS system event */
+               hipir = pruss_intc_read_reg(intc, PRU_INTC_HIPIR(host_irq));
+               if (hipir & INTC_HIPIR_NONE_HINT)
+                       break;
+
+               hwirq = hipir & GENMASK(9, 0);
+               virq = irq_find_mapping(intc->domain, hwirq);
+
+               /*
+                * NOTE: manually ACK any system events that do not have a
+                * handler mapped yet
+                */
+               if (WARN_ON_ONCE(!virq))
+                       pruss_intc_write_reg(intc, PRU_INTC_SICR, hwirq);
+               else
+                       generic_handle_irq(virq);
+       }
+
+       chained_irq_exit(chip, desc);
+}
+
+static const char * const irq_names[MAX_NUM_HOST_IRQS] = {
+       "host_intr0", "host_intr1", "host_intr2", "host_intr3",
+       "host_intr4", "host_intr5", "host_intr6", "host_intr7",
+};
+
+static int pruss_intc_probe(struct platform_device *pdev)
+{
+       const struct pruss_intc_match_data *data;
+       struct device *dev = &pdev->dev;
+       struct pruss_intc *intc;
+       struct pruss_host_irq_data *host_data;
+       int i, irq, ret;
+       u8 max_system_events, irqs_reserved = 0;
+
+       data = of_device_get_match_data(dev);
+       if (!data)
+               return -ENODEV;
+
+       max_system_events = data->num_system_events;
+
+       intc = devm_kzalloc(dev, sizeof(*intc), GFP_KERNEL);
+       if (!intc)
+               return -ENOMEM;
+
+       intc->soc_config = data;
+       intc->dev = dev;
+       platform_set_drvdata(pdev, intc);
+
+       intc->base = devm_platform_ioremap_resource(pdev, 0);
+       if (IS_ERR(intc->base))
+               return PTR_ERR(intc->base);
+
+       ret = of_property_read_u8(dev->of_node, "ti,irqs-reserved",
+                                 &irqs_reserved);
+
+       /*
+        * The irqs-reserved is used only for some SoC's therefore not having
+        * this property is still valid
+        */
+       if (ret < 0 && ret != -EINVAL)
+               return ret;
+
+       pruss_intc_init(intc);
+
+       mutex_init(&intc->lock);
+
+       intc->domain = irq_domain_add_linear(dev->of_node, max_system_events,
+                                            &pruss_intc_irq_domain_ops, intc);
+       if (!intc->domain)
+               return -ENOMEM;
+
+       for (i = 0; i < MAX_NUM_HOST_IRQS; i++) {
+               if (irqs_reserved & BIT(i))
+                       continue;
+
+               irq = platform_get_irq_byname(pdev, irq_names[i]);
+               if (irq <= 0) {
+                       ret = (irq == 0) ? -EINVAL : irq;
+                       goto fail_irq;
+               }
+
+               intc->irqs[i] = irq;
+
+               host_data = devm_kzalloc(dev, sizeof(*host_data), GFP_KERNEL);
+               if (!host_data) {
+                       ret = -ENOMEM;
+                       goto fail_irq;
+               }
+
+               host_data->intc = intc;
+               host_data->host_irq = i;
+
+               irq_set_handler_data(irq, host_data);
+               irq_set_chained_handler(irq, pruss_intc_irq_handler);
+       }
+
+       return 0;
+
+fail_irq:
+       while (--i >= 0) {
+               if (intc->irqs[i])
+                       irq_set_chained_handler_and_data(intc->irqs[i], NULL,
+                                                        NULL);
+       }
+
+       irq_domain_remove(intc->domain);
+
+       return ret;
+}
+
+static int pruss_intc_remove(struct platform_device *pdev)
+{
+       struct pruss_intc *intc = platform_get_drvdata(pdev);
+       u8 max_system_events = intc->soc_config->num_system_events;
+       unsigned int hwirq;
+       int i;
+
+       for (i = 0; i < MAX_NUM_HOST_IRQS; i++) {
+               if (intc->irqs[i])
+                       irq_set_chained_handler_and_data(intc->irqs[i], NULL,
+                                                        NULL);
+       }
+
+       for (hwirq = 0; hwirq < max_system_events; hwirq++)
+               irq_dispose_mapping(irq_find_mapping(intc->domain, hwirq));
+
+       irq_domain_remove(intc->domain);
+
+       return 0;
+}
+
+static const struct pruss_intc_match_data pruss_intc_data = {
+       .num_system_events = 64,
+       .num_host_events = 10,
+};
+
+static const struct pruss_intc_match_data icssg_intc_data = {
+       .num_system_events = 160,
+       .num_host_events = 20,
+};
+
+static const struct of_device_id pruss_intc_of_match[] = {
+       {
+               .compatible = "ti,pruss-intc",
+               .data = &pruss_intc_data,
+       },
+       {
+               .compatible = "ti,icssg-intc",
+               .data = &icssg_intc_data,
+       },
+       { /* sentinel */ },
+};
+MODULE_DEVICE_TABLE(of, pruss_intc_of_match);
+
+static struct platform_driver pruss_intc_driver = {
+       .driver = {
+               .name = "pruss-intc",
+               .of_match_table = pruss_intc_of_match,
+               .suppress_bind_attrs = true,
+       },
+       .probe  = pruss_intc_probe,
+       .remove = pruss_intc_remove,
+};
+module_platform_driver(pruss_intc_driver);
+
+MODULE_AUTHOR("Andrew F. Davis <afd@ti.com>");
+MODULE_AUTHOR("Suman Anna <s-anna@ti.com>");
+MODULE_AUTHOR("Grzegorz Jaszczyk <grzegorz.jaszczyk@linaro.org>");
+MODULE_DESCRIPTION("TI PRU-ICSS INTC Driver");
+MODULE_LICENSE("GPL v2");
index d4e9760..e0cceb8 100644 (file)
@@ -175,8 +175,8 @@ static struct ti_sci_inta_vint_desc *ti_sci_inta_alloc_parent_irq(struct irq_dom
        struct irq_fwspec parent_fwspec;
        struct device_node *parent_node;
        unsigned int parent_virq;
-       u16 vint_id, p_hwirq;
-       int ret;
+       int p_hwirq, ret;
+       u16 vint_id;
 
        vint_id = ti_sci_get_free_resource(inta->vint);
        if (vint_id == TI_SCI_RESOURCE_NULL)
@@ -600,13 +600,9 @@ static int ti_sci_inta_irq_domain_probe(struct platform_device *pdev)
 
        inta->pdev = pdev;
        inta->sci = devm_ti_sci_get_by_phandle(dev, "ti,sci");
-       if (IS_ERR(inta->sci)) {
-               ret = PTR_ERR(inta->sci);
-               if (ret != -EPROBE_DEFER)
-                       dev_err(dev, "ti,sci read fail %d\n", ret);
-               inta->sci = NULL;
-               return ret;
-       }
+       if (IS_ERR(inta->sci))
+               return dev_err_probe(dev, PTR_ERR(inta->sci),
+                                    "ti,sci read fail\n");
 
        ret = of_property_read_u32(dev->of_node, "ti,sci-dev-id", &inta->ti_sci_id);
        if (ret) {
index cbc1758..ac9d6d6 100644 (file)
@@ -137,8 +137,8 @@ static int ti_sci_intr_alloc_parent_irq(struct irq_domain *domain,
        struct ti_sci_intr_irq_domain *intr = domain->host_data;
        struct device_node *parent_node;
        struct irq_fwspec fwspec;
-       u16 out_irq, p_hwirq;
-       int err = 0;
+       int p_hwirq, err = 0;
+       u16 out_irq;
 
        out_irq = ti_sci_get_free_resource(intr->out_irqs);
        if (out_irq == TI_SCI_RESOURCE_NULL)
@@ -254,13 +254,9 @@ static int ti_sci_intr_irq_domain_probe(struct platform_device *pdev)
        }
 
        intr->sci = devm_ti_sci_get_by_phandle(dev, "ti,sci");
-       if (IS_ERR(intr->sci)) {
-               ret = PTR_ERR(intr->sci);
-               if (ret != -EPROBE_DEFER)
-                       dev_err(dev, "ti,sci read fail %d\n", ret);
-               intr->sci = NULL;
-               return ret;
-       }
+       if (IS_ERR(intr->sci))
+               return dev_err_probe(dev, PTR_ERR(intr->sci),
+                                    "ti,sci read fail\n");
 
        ret = of_property_read_u32(dev_of_node(dev), "ti,sci-dev-id",
                                   &intr->ti_sci_id);
index 6ae9e1f..bd39e9d 100644 (file)
@@ -205,7 +205,8 @@ static struct irq_chip qcom_pdc_gic_chip = {
        .irq_set_type           = qcom_pdc_gic_set_type,
        .flags                  = IRQCHIP_MASK_ON_SUSPEND |
                                  IRQCHIP_SET_TYPE_MASKED |
-                                 IRQCHIP_SKIP_SET_WAKE,
+                                 IRQCHIP_SKIP_SET_WAKE |
+                                 IRQCHIP_ENABLE_WAKEUP_ON_SUSPEND,
        .irq_set_vcpu_affinity  = irq_chip_set_vcpu_affinity_parent,
        .irq_set_affinity       = irq_chip_set_affinity_parent,
 };
@@ -340,7 +341,8 @@ static const struct irq_domain_ops qcom_pdc_gpio_ops = {
 
 static int pdc_setup_pin_mapping(struct device_node *np)
 {
-       int ret, n;
+       int ret, n, i;
+       u32 irq_index, reg_index, val;
 
        n = of_property_count_elems_of_size(np, "qcom,pdc-ranges", sizeof(u32));
        if (n <= 0 || n % 3)
@@ -369,6 +371,14 @@ static int pdc_setup_pin_mapping(struct device_node *np)
                                                 &pdc_region[n].cnt);
                if (ret)
                        return ret;
+
+               for (i = 0; i < pdc_region[n].cnt; i++) {
+                       reg_index = (i + pdc_region[n].pin_base) >> 5;
+                       irq_index = (i + pdc_region[n].pin_base) & 0x1f;
+                       val = pdc_reg_read(IRQ_ENABLE_BANK, reg_index);
+                       val &= ~BIT(irq_index);
+                       pdc_reg_write(IRQ_ENABLE_BANK, reg_index, val);
+               }
        }
 
        return 0;
index 6271d1e..9ae4ce7 100644 (file)
@@ -49,7 +49,7 @@ do {                                                          \
 #define pmem_assign(dest, src) ((dest) = (src))
 #endif
 
-#if defined(__HAVE_ARCH_MEMCPY_MCSAFE) && defined(DM_WRITECACHE_HAS_PMEM)
+#if IS_ENABLED(CONFIG_ARCH_HAS_COPY_MC) && defined(DM_WRITECACHE_HAS_PMEM)
 #define DM_WRITECACHE_HANDLE_HARDWARE_ERRORS
 #endif
 
@@ -992,7 +992,8 @@ static void writecache_resume(struct dm_target *ti)
        }
        wc->freelist_size = 0;
 
-       r = memcpy_mcsafe(&sb_seq_count, &sb(wc)->seq_count, sizeof(uint64_t));
+       r = copy_mc_to_kernel(&sb_seq_count, &sb(wc)->seq_count,
+                             sizeof(uint64_t));
        if (r) {
                writecache_error(wc, r, "hardware memory error when reading superblock: %d", r);
                sb_seq_count = cpu_to_le64(0);
@@ -1008,7 +1009,8 @@ static void writecache_resume(struct dm_target *ti)
                        e->seq_count = -1;
                        continue;
                }
-               r = memcpy_mcsafe(&wme, memory_entry(wc, e), sizeof(struct wc_memory_entry));
+               r = copy_mc_to_kernel(&wme, memory_entry(wc, e),
+                                     sizeof(struct wc_memory_entry));
                if (r) {
                        writecache_error(wc, r, "hardware memory error when reading metadata entry %lu: %d",
                                         (unsigned long)b, r);
@@ -1206,7 +1208,7 @@ static void bio_copy_block(struct dm_writecache *wc, struct bio *bio, void *data
 
                if (rw == READ) {
                        int r;
-                       r = memcpy_mcsafe(buf, data, size);
+                       r = copy_mc_to_kernel(buf, data, size);
                        flush_dcache_page(bio_page(bio));
                        if (unlikely(r)) {
                                writecache_error(wc, r, "hardware memory error when reading data: %d", r);
@@ -2349,7 +2351,7 @@ invalid_optional:
                }
        }
 
-       r = memcpy_mcsafe(&s, sb(wc), sizeof(struct wc_memory_superblock));
+       r = copy_mc_to_kernel(&s, sb(wc), sizeof(struct wc_memory_superblock));
        if (r) {
                ti->error = "Hardware memory error when reading superblock";
                goto bad;
@@ -2360,7 +2362,8 @@ invalid_optional:
                        ti->error = "Unable to initialize device";
                        goto bad;
                }
-               r = memcpy_mcsafe(&s, sb(wc), sizeof(struct wc_memory_superblock));
+               r = copy_mc_to_kernel(&s, sb(wc),
+                                     sizeof(struct wc_memory_superblock));
                if (r) {
                        ti->error = "Hardware memory error when reading superblock";
                        goto bad;
index 93bb49d..7ffcfc0 100644 (file)
@@ -7,6 +7,7 @@
  * This file supports the user system call for file open, close, mmap, etc.
  * This also incudes the driver initialization code.
  *
+ *  (C) Copyright 2020 Hewlett Packard Enterprise Development LP
  *  Copyright (c) 2008-2014 Silicon Graphics, Inc.  All Rights Reserved.
  */
 
@@ -516,7 +517,7 @@ static int __init gru_init(void)
 #if defined CONFIG_IA64
        gru_start_paddr = 0xd000000000UL; /* ZZZZZZZZZZZZZZZZZZZ fixme */
 #else
-       gru_start_paddr = uv_read_local_mmr(UVH_RH_GAM_GRU_OVERLAY_CONFIG_MMR) &
+       gru_start_paddr = uv_read_local_mmr(UVH_RH_GAM_GRU_OVERLAY_CONFIG) &
                                0x7fffffffffffUL;
 #endif
        gru_start_vaddr = __va(gru_start_paddr);
index 06469b1..9f9af77 100644 (file)
@@ -3,6 +3,7 @@
  * License.  See the file "COPYING" in the main directory of this archive
  * for more details.
  *
+ * (C) Copyright 2020 Hewlett Packard Enterprise Development LP
  * Copyright (C) 2004-2008 Silicon Graphics, Inc. All rights reserved.
  */
 
 
 #if defined CONFIG_X86_UV || defined CONFIG_IA64_SGI_UV
 #include <asm/uv/uv.h>
-#define is_uv()                is_uv_system()
-#endif
-
-#ifndef is_uv
-#define is_uv()                0
 #endif
 
 #ifdef USE_DBUG_ON
@@ -79,7 +75,7 @@
 
 #define XPC_MSG_SIZE(_payload_size) \
                                ALIGN(XPC_MSG_HDR_MAX_SIZE + (_payload_size), \
-                                     is_uv() ? 64 : 128)
+                                     is_uv_system() ? 64 : 128)
 
 
 /*
index 61b03fc..cf2965a 100644 (file)
@@ -3,6 +3,7 @@
  * License.  See the file "COPYING" in the main directory of this archive
  * for more details.
  *
+ * (C) Copyright 2020 Hewlett Packard Enterprise Development LP
  * Copyright (c) 2004-2008 Silicon Graphics, Inc.  All Rights Reserved.
  */
 
@@ -233,7 +234,7 @@ xp_init(void)
        for (ch_number = 0; ch_number < XPC_MAX_NCHANNELS; ch_number++)
                mutex_init(&xpc_registrations[ch_number].mutex);
 
-       if (is_uv())
+       if (is_uv_system())
                ret = xp_init_uv();
        else
                ret = 0;
@@ -249,7 +250,7 @@ module_init(xp_init);
 static void __exit
 xp_exit(void)
 {
-       if (is_uv())
+       if (is_uv_system())
                xp_exit_uv();
 }
 
index f15a9f2..19fc707 100644 (file)
@@ -3,6 +3,7 @@
  * License.  See the file "COPYING" in the main directory of this archive
  * for more details.
  *
+ * (C) Copyright 2020 Hewlett Packard Enterprise Development LP
  * Copyright (c) 2008 Silicon Graphics, Inc.  All Rights Reserved.
  */
 
@@ -148,7 +149,9 @@ xp_restrict_memprotect_uv(unsigned long phys_addr, unsigned long size)
 enum xp_retval
 xp_init_uv(void)
 {
-       BUG_ON(!is_uv());
+       WARN_ON(!is_uv_system());
+       if (!is_uv_system())
+               return xpUnsupported;
 
        xp_max_npartitions = XP_MAX_NPARTITIONS_UV;
 #ifdef CONFIG_X86
@@ -168,5 +171,5 @@ xp_init_uv(void)
 void
 xp_exit_uv(void)
 {
-       BUG_ON(!is_uv());
+       WARN_ON(!is_uv_system());
 }
index 8a495dc..e5244fc 100644 (file)
@@ -3,6 +3,7 @@
  * License.  See the file "COPYING" in the main directory of this archive
  * for more details.
  *
+ * (C) Copyright 2020 Hewlett Packard Enterprise Development LP
  * Copyright (c) 2004-2009 Silicon Graphics, Inc.  All Rights Reserved.
  */
 
@@ -1043,7 +1044,7 @@ xpc_do_exit(enum xp_retval reason)
 
        xpc_teardown_partitions();
 
-       if (is_uv())
+       if (is_uv_system())
                xpc_exit_uv();
 }
 
@@ -1226,7 +1227,7 @@ xpc_init(void)
        dev_set_name(xpc_part, "part");
        dev_set_name(xpc_chan, "chan");
 
-       if (is_uv()) {
+       if (is_uv_system()) {
                ret = xpc_init_uv();
 
        } else {
@@ -1312,7 +1313,7 @@ out_2:
 
        xpc_teardown_partitions();
 out_1:
-       if (is_uv())
+       if (is_uv_system())
                xpc_exit_uv();
        return ret;
 }
index 099a53b..57df068 100644 (file)
@@ -3,6 +3,7 @@
  * License.  See the file "COPYING" in the main directory of this archive
  * for more details.
  *
+ * (C) Copyright 2020 Hewlett Packard Enterprise Development LP
  * Copyright (c) 2004-2008 Silicon Graphics, Inc.  All Rights Reserved.
  */
 
@@ -433,7 +434,7 @@ xpc_discovery(void)
         */
        region_size = xp_region_size;
 
-       if (is_uv())
+       if (is_uv_system())
                max_regions = 256;
        else {
                max_regions = 64;
index 837d6c3..23837d0 100644 (file)
@@ -3,6 +3,7 @@
  * License.  See the file "COPYING" in the main directory of this archive
  * for more details.
  *
+ * (C) Copyright 2020 Hewlett Packard Enterprise Development LP
  * Copyright (C) 1999-2009 Silicon Graphics, Inc. All rights reserved.
  */
 
@@ -515,7 +516,7 @@ xpnet_init(void)
 {
        int result;
 
-       if (!is_uv())
+       if (!is_uv_system())
                return -ENODEV;
 
        dev_info(xpnet, "registering network device %s\n", XPNET_DEVICE_NAME);
index a5b8dab..4cb7a5b 100644 (file)
@@ -93,7 +93,7 @@ static long uacce_fops_compat_ioctl(struct file *filep,
 
 static int uacce_bind_queue(struct uacce_device *uacce, struct uacce_queue *q)
 {
-       int pasid;
+       u32 pasid;
        struct iommu_sva *handle;
 
        if (!(uacce->flags & UACCE_DEV_SVA))
index 6c022ef..350d0cc 100644 (file)
@@ -190,7 +190,7 @@ static void mmc_queue_setup_discard(struct request_queue *q,
        q->limits.discard_granularity = card->pref_erase << 9;
        /* granularity must not be greater than max. discard */
        if (card->pref_erase > max_discard)
-               q->limits.discard_granularity = 0;
+               q->limits.discard_granularity = SECTOR_SIZE;
        if (mmc_can_secure_erase_trim(card))
                blk_queue_flag_set(QUEUE_FLAG_SECERASE, q);
 }
index 4e1b7de..c3091e0 100644 (file)
@@ -942,9 +942,10 @@ struct alb_walk_data {
        bool strict_match;
 };
 
-static int alb_upper_dev_walk(struct net_device *upper, void *_data)
+static int alb_upper_dev_walk(struct net_device *upper,
+                             struct netdev_nested_priv *priv)
 {
-       struct alb_walk_data *data = _data;
+       struct alb_walk_data *data = (struct alb_walk_data *)priv->data;
        bool strict_match = data->strict_match;
        struct bonding *bond = data->bond;
        struct slave *slave = data->slave;
@@ -983,6 +984,7 @@ static void alb_send_learning_packets(struct slave *slave, u8 mac_addr[],
                                      bool strict_match)
 {
        struct bonding *bond = bond_get_bond_by_slave(slave);
+       struct netdev_nested_priv priv;
        struct alb_walk_data data = {
                .strict_match = strict_match,
                .mac_addr = mac_addr,
@@ -990,6 +992,7 @@ static void alb_send_learning_packets(struct slave *slave, u8 mac_addr[],
                .bond = bond,
        };
 
+       priv.data = (void *)&data;
        /* send untagged */
        alb_send_lp_vid(slave, mac_addr, 0, 0);
 
@@ -997,7 +1000,7 @@ static void alb_send_learning_packets(struct slave *slave, u8 mac_addr[],
         * for that device.
         */
        rcu_read_lock();
-       netdev_walk_all_upper_dev_rcu(bond->dev, alb_upper_dev_walk, &data);
+       netdev_walk_all_upper_dev_rcu(bond->dev, alb_upper_dev_walk, &priv);
        rcu_read_unlock();
 }
 
index 42ef25e..84ecbc6 100644 (file)
@@ -1315,6 +1315,7 @@ static void bond_setup_by_slave(struct net_device *bond_dev,
 
        bond_dev->type              = slave_dev->type;
        bond_dev->hard_header_len   = slave_dev->hard_header_len;
+       bond_dev->needed_headroom   = slave_dev->needed_headroom;
        bond_dev->addr_len          = slave_dev->addr_len;
 
        memcpy(bond_dev->broadcast, slave_dev->broadcast,
@@ -2510,22 +2511,26 @@ re_arm:
        }
 }
 
-static int bond_upper_dev_walk(struct net_device *upper, void *data)
+static int bond_upper_dev_walk(struct net_device *upper,
+                              struct netdev_nested_priv *priv)
 {
-       __be32 ip = *((__be32 *)data);
+       __be32 ip = *(__be32 *)priv->data;
 
        return ip == bond_confirm_addr(upper, 0, ip);
 }
 
 static bool bond_has_this_ip(struct bonding *bond, __be32 ip)
 {
+       struct netdev_nested_priv priv = {
+               .data = (void *)&ip,
+       };
        bool ret = false;
 
        if (ip == bond_confirm_addr(bond->dev, 0, ip))
                return true;
 
        rcu_read_lock();
-       if (netdev_walk_all_upper_dev_rcu(bond->dev, bond_upper_dev_walk, &ip))
+       if (netdev_walk_all_upper_dev_rcu(bond->dev, bond_upper_dev_walk, &priv))
                ret = true;
        rcu_read_unlock();
 
index 8e755b5..c796d42 100644 (file)
@@ -387,8 +387,8 @@ EXPORT_SYMBOL(ksz_switch_alloc);
 int ksz_switch_register(struct ksz_device *dev,
                        const struct ksz_dev_ops *ops)
 {
+       struct device_node *port, *ports;
        phy_interface_t interface;
-       struct device_node *port;
        unsigned int port_num;
        int ret;
 
@@ -429,13 +429,17 @@ int ksz_switch_register(struct ksz_device *dev,
                ret = of_get_phy_mode(dev->dev->of_node, &interface);
                if (ret == 0)
                        dev->compat_interface = interface;
-               for_each_available_child_of_node(dev->dev->of_node, port) {
-                       if (of_property_read_u32(port, "reg", &port_num))
-                               continue;
-                       if (port_num >= dev->port_cnt)
-                               return -EINVAL;
-                       of_get_phy_mode(port, &dev->ports[port_num].interface);
-               }
+               ports = of_get_child_by_name(dev->dev->of_node, "ports");
+               if (ports)
+                       for_each_available_child_of_node(ports, port) {
+                               if (of_property_read_u32(port, "reg",
+                                                        &port_num))
+                                       continue;
+                               if (port_num >= dev->port_cnt)
+                                       return -EINVAL;
+                               of_get_phy_mode(port,
+                                               &dev->ports[port_num].interface);
+                       }
                dev->synclko_125 = of_property_read_bool(dev->dev->of_node,
                                                         "microchip,synclko-125");
        }
index 6855c94..3a96374 100644 (file)
@@ -685,12 +685,12 @@ static struct vcap_field vsc9959_vcap_is2_actions[] = {
        [VCAP_IS2_ACT_POLICE_ENA]               = {  9,  1},
        [VCAP_IS2_ACT_POLICE_IDX]               = { 10,  9},
        [VCAP_IS2_ACT_POLICE_VCAP_ONLY]         = { 19,  1},
-       [VCAP_IS2_ACT_PORT_MASK]                = { 20, 11},
-       [VCAP_IS2_ACT_REW_OP]                   = { 31,  9},
-       [VCAP_IS2_ACT_SMAC_REPLACE_ENA]         = { 40,  1},
-       [VCAP_IS2_ACT_RSV]                      = { 41,  2},
-       [VCAP_IS2_ACT_ACL_ID]                   = { 43,  6},
-       [VCAP_IS2_ACT_HIT_CNT]                  = { 49, 32},
+       [VCAP_IS2_ACT_PORT_MASK]                = { 20,  6},
+       [VCAP_IS2_ACT_REW_OP]                   = { 26,  9},
+       [VCAP_IS2_ACT_SMAC_REPLACE_ENA]         = { 35,  1},
+       [VCAP_IS2_ACT_RSV]                      = { 36,  2},
+       [VCAP_IS2_ACT_ACL_ID]                   = { 38,  6},
+       [VCAP_IS2_ACT_HIT_CNT]                  = { 44, 32},
 };
 
 static const struct vcap_props vsc9959_vcap_props[] = {
@@ -1171,6 +1171,8 @@ static int vsc9959_prevalidate_phy_mode(struct ocelot *ocelot, int port,
  */
 static u16 vsc9959_wm_enc(u16 value)
 {
+       WARN_ON(value >= 16 * BIT(8));
+
        if (value >= BIT(8))
                return BIT(8) | (value / 16);
 
@@ -1284,8 +1286,28 @@ void vsc9959_mdio_bus_free(struct ocelot *ocelot)
 static void vsc9959_sched_speed_set(struct ocelot *ocelot, int port,
                                    u32 speed)
 {
+       u8 tas_speed;
+
+       switch (speed) {
+       case SPEED_10:
+               tas_speed = OCELOT_SPEED_10;
+               break;
+       case SPEED_100:
+               tas_speed = OCELOT_SPEED_100;
+               break;
+       case SPEED_1000:
+               tas_speed = OCELOT_SPEED_1000;
+               break;
+       case SPEED_2500:
+               tas_speed = OCELOT_SPEED_2500;
+               break;
+       default:
+               tas_speed = OCELOT_SPEED_1000;
+               break;
+       }
+
        ocelot_rmw_rix(ocelot,
-                      QSYS_TAG_CONFIG_LINK_SPEED(speed),
+                      QSYS_TAG_CONFIG_LINK_SPEED(tas_speed),
                       QSYS_TAG_CONFIG_LINK_SPEED_M,
                       QSYS_TAG_CONFIG, port);
 }
index 29df079..9e9fd19 100644 (file)
@@ -706,7 +706,7 @@ static const struct vcap_props vsc9953_vcap_props[] = {
                .action_type_width = 1,
                .action_table = {
                        [IS2_ACTION_TYPE_NORMAL] = {
-                               .width = 44,
+                               .width = 50, /* HIT_CNT not included */
                                .count = 2
                        },
                        [IS2_ACTION_TYPE_SMAC_SIP] = {
@@ -911,6 +911,8 @@ static int vsc9953_prevalidate_phy_mode(struct ocelot *ocelot, int port,
  */
 static u16 vsc9953_wm_enc(u16 value)
 {
+       WARN_ON(value >= 16 * BIT(9));
+
        if (value >= BIT(9))
                return BIT(9) | (value / 16);
 
index d3b30ba..049cc01 100644 (file)
@@ -1419,8 +1419,7 @@ typhoon_download_firmware(struct typhoon *tp)
                         * the checksum, we can do this once, at the end.
                         */
                        csum = csum_fold(csum_partial_copy_nocheck(image_data,
-                                                                  dpage, len,
-                                                                  0));
+                                                                  dpage, len));
 
                        iowrite32(len, ioaddr + TYPHOON_REG_BOOT_LENGTH);
                        iowrite32(le16_to_cpu((__force __le16)csum),
index 2f634c6..38e6dca 100644 (file)
@@ -33,7 +33,7 @@ struct basic_ring {
        u32 lastWrite;
 };
 
-/* The Typoon transmit ring -- same as a basic ring, plus:
+/* The Typhoon transmit ring -- same as a basic ring, plus:
  * lastRead:      where we're at in regard to cleaning up the ring
  * writeRegister: register to use for writing (different for Hi & Lo rings)
  */
index 130a105..8ebcc68 100644 (file)
@@ -8,7 +8,7 @@
 
 obj-$(CONFIG_AQTION) += atlantic.o
 
-ccflags-y += -I$(src)
+ccflags-y += -I$(srctree)/$(src)
 
 atlantic-objs := aq_main.o \
        aq_nic.o \
@@ -33,4 +33,4 @@ atlantic-objs := aq_main.o \
 
 atlantic-$(CONFIG_MACSEC) += aq_macsec.o
 
-atlantic-$(CONFIG_PTP_1588_CLOCK) += aq_ptp.o
\ No newline at end of file
+atlantic-$(CONFIG_PTP_1588_CLOCK) += aq_ptp.o
index bfc0e45..5caa75b 100644 (file)
 #define CCM_REG_GR_ARB_TYPE                                     0xd015c
 /* [RW 2] Load (FIC0) channel group priority. The lowest priority is 0; the
    highest priority is 3. It is supposed; that the Store channel priority is
-   the compliment to 4 of the rest priorities - Aggregation channel; Load
+   the complement to 4 of the rest priorities - Aggregation channel; Load
    (FIC0) channel and Load (FIC1). */
 #define CCM_REG_GR_LD0_PR                                       0xd0164
 /* [RW 2] Load (FIC1) channel group priority. The lowest priority is 0; the
    highest priority is 3. It is supposed; that the Store channel priority is
-   the compliment to 4 of the rest priorities - Aggregation channel; Load
+   the complement to 4 of the rest priorities - Aggregation channel; Load
    (FIC0) channel and Load (FIC1). */
 #define CCM_REG_GR_LD1_PR                                       0xd0168
 /* [RW 2] General flags index. */
 #define TCM_REG_GR_ARB_TYPE                                     0x50114
 /* [RW 2] Load (FIC0) channel group priority. The lowest priority is 0; the
    highest priority is 3. It is supposed that the Store channel is the
-   compliment of the other 3 groups. */
+   complement of the other 3 groups. */
 #define TCM_REG_GR_LD0_PR                                       0x5011c
 /* [RW 2] Load (FIC1) channel group priority. The lowest priority is 0; the
    highest priority is 3. It is supposed that the Store channel is the
-   compliment of the other 3 groups. */
+   complement of the other 3 groups. */
 #define TCM_REG_GR_LD1_PR                                       0x50120
 /* [RW 4] The number of double REG-pairs; loaded from the STORM context and
    sent to STORM; for a specific connection type. The double REG-pairs are
 #define UCM_REG_GR_ARB_TYPE                                     0xe0144
 /* [RW 2] Load (FIC0) channel group priority. The lowest priority is 0; the
    highest priority is 3. It is supposed that the Store channel group is
-   compliment to the others. */
+   complement to the others. */
 #define UCM_REG_GR_LD0_PR                                       0xe014c
 /* [RW 2] Load (FIC1) channel group priority. The lowest priority is 0; the
    highest priority is 3. It is supposed that the Store channel group is
-   compliment to the others. */
+   complement to the others. */
 #define UCM_REG_GR_LD1_PR                                       0xe0150
 /* [RW 2] The queue index for invalidate counter flag decision. */
 #define UCM_REG_INV_CFLG_Q                                      0xe00e4
 #define XCM_REG_GR_ARB_TYPE                                     0x2020c
 /* [RW 2] Load (FIC0) channel group priority. The lowest priority is 0; the
    highest priority is 3. It is supposed that the Channel group is the
-   compliment of the other 3 groups. */
+   complement of the other 3 groups. */
 #define XCM_REG_GR_LD0_PR                                       0x20214
 /* [RW 2] Load (FIC1) channel group priority. The lowest priority is 0; the
    highest priority is 3. It is supposed that the Channel group is the
-   compliment of the other 3 groups. */
+   complement of the other 3 groups. */
 #define XCM_REG_GR_LD1_PR                                       0x20218
 /* [RW 1] Input nig0 Interface enable. If 0 - the valid input is
    disregarded; acknowledge output is deasserted; all other signals are
index 3e17ce0..6cb2162 100644 (file)
@@ -1219,7 +1219,7 @@ static int octeon_mgmt_open(struct net_device *netdev)
         */
        if (netdev->phydev) {
                netif_carrier_off(netdev);
-               phy_start_aneg(netdev->phydev);
+               phy_start(netdev->phydev);
        }
 
        netif_wake_queue(netdev);
@@ -1247,8 +1247,10 @@ static int octeon_mgmt_stop(struct net_device *netdev)
        napi_disable(&p->napi);
        netif_stop_queue(netdev);
 
-       if (netdev->phydev)
+       if (netdev->phydev) {
+               phy_stop(netdev->phydev);
                phy_disconnect(netdev->phydev);
+       }
 
        netif_carrier_off(netdev);
 
index 593e381..3c06f5f 100644 (file)
 #define DPNI_VER_MAJOR                         7
 #define DPNI_VER_MINOR                         0
 #define DPNI_CMD_BASE_VERSION                  1
+#define DPNI_CMD_2ND_VERSION                   2
 #define DPNI_CMD_ID_OFFSET                     4
 
 #define DPNI_CMD(id)   (((id) << DPNI_CMD_ID_OFFSET) | DPNI_CMD_BASE_VERSION)
+#define DPNI_CMD_V2(id)        (((id) << DPNI_CMD_ID_OFFSET) | DPNI_CMD_2ND_VERSION)
 
 #define DPNI_CMDID_OPEN                                        DPNI_CMD(0x801)
 #define DPNI_CMDID_CLOSE                               DPNI_CMD(0x800)
@@ -45,7 +47,7 @@
 #define DPNI_CMDID_SET_MAX_FRAME_LENGTH                        DPNI_CMD(0x216)
 #define DPNI_CMDID_GET_MAX_FRAME_LENGTH                        DPNI_CMD(0x217)
 #define DPNI_CMDID_SET_LINK_CFG                                DPNI_CMD(0x21A)
-#define DPNI_CMDID_SET_TX_SHAPING                      DPNI_CMD(0x21B)
+#define DPNI_CMDID_SET_TX_SHAPING                      DPNI_CMD_V2(0x21B)
 
 #define DPNI_CMDID_SET_MCAST_PROMISC                   DPNI_CMD(0x220)
 #define DPNI_CMDID_GET_MCAST_PROMISC                   DPNI_CMD(0x221)
index 98be51d..bfa2826 100644 (file)
@@ -229,7 +229,7 @@ static int xgmac_mdio_read(struct mii_bus *bus, int phy_id, int regnum)
        /* Return all Fs if nothing was there */
        if ((xgmac_read32(&regs->mdio_stat, endian) & MDIO_STAT_RD_ER) &&
            !priv->has_a011043) {
-               dev_err(&bus->dev,
+               dev_dbg(&bus->dev,
                        "Error while reading PHY%d reg at %d.%hhu\n",
                        phy_id, dev_addr, regnum);
                return 0xffff;
index 936e2dd..b47bd54 100644 (file)
@@ -6,6 +6,7 @@
 config HINIC
        tristate "Huawei Intelligent PCIE Network Interface Card"
        depends on (PCI_MSI && (X86 || ARM64))
+       select NET_DEVLINK
        help
          This driver supports HiNIC PCIE Ethernet cards.
          To compile this driver as part of the kernel, choose Y here.
index 02cd635..eb97f2d 100644 (file)
@@ -58,9 +58,9 @@ static int change_mac(struct hinic_dev *nic_dev, const u8 *addr,
                                 sizeof(port_mac_cmd),
                                 &port_mac_cmd, &out_size);
        if (err || out_size != sizeof(port_mac_cmd) ||
-           (port_mac_cmd.status  &&
-           port_mac_cmd.status != HINIC_PF_SET_VF_ALREADY &&
-           port_mac_cmd.status != HINIC_MGMT_STATUS_EXIST)) {
+           (port_mac_cmd.status &&
+            (port_mac_cmd.status != HINIC_PF_SET_VF_ALREADY || !HINIC_IS_VF(hwif)) &&
+            port_mac_cmd.status != HINIC_MGMT_STATUS_EXIST)) {
                dev_err(&pdev->dev, "Failed to change MAC, err: %d, status: 0x%x, out size: 0x%x\n",
                        err, port_mac_cmd.status, out_size);
                return -EFAULT;
index 4d63680..f8a2645 100644 (file)
@@ -38,8 +38,7 @@ static int hinic_set_mac(struct hinic_hwdev *hwdev, const u8 *mac_addr,
        err = hinic_port_msg_cmd(hwdev, HINIC_PORT_CMD_SET_MAC, &mac_info,
                                 sizeof(mac_info), &mac_info, &out_size);
        if (err || out_size != sizeof(mac_info) ||
-           (mac_info.status && mac_info.status != HINIC_PF_SET_VF_ALREADY &&
-           mac_info.status != HINIC_MGMT_STATUS_EXIST)) {
+           (mac_info.status && mac_info.status != HINIC_MGMT_STATUS_EXIST)) {
                dev_err(&hwdev->func_to_io.hwif->pdev->dev, "Failed to set MAC, err: %d, status: 0x%x, out size: 0x%x\n",
                        err, mac_info.status, out_size);
                return -EIO;
@@ -503,8 +502,7 @@ struct hinic_sriov_info *hinic_get_sriov_info_by_pcidev(struct pci_dev *pdev)
 
 static int hinic_check_mac_info(u8 status, u16 vlan_id)
 {
-       if ((status && status != HINIC_MGMT_STATUS_EXIST &&
-            status != HINIC_PF_SET_VF_ALREADY) ||
+       if ((status && status != HINIC_MGMT_STATUS_EXIST) ||
            (vlan_id & CHECK_IPSU_15BIT &&
             status == HINIC_MGMT_STATUS_EXIST))
                return -EINVAL;
@@ -546,12 +544,6 @@ static int hinic_update_mac(struct hinic_hwdev *hwdev, u8 *old_mac,
                return -EINVAL;
        }
 
-       if (mac_info.status == HINIC_PF_SET_VF_ALREADY) {
-               dev_warn(&hwdev->hwif->pdev->dev,
-                        "PF has already set VF MAC. Ignore update operation\n");
-               return HINIC_PF_SET_VF_ALREADY;
-       }
-
        if (mac_info.status == HINIC_MGMT_STATUS_EXIST)
                dev_warn(&hwdev->hwif->pdev->dev, "MAC is repeated. Ignore update operation\n");
 
index d870343..cf539db 100644 (file)
@@ -3806,8 +3806,8 @@ static int __maybe_unused iavf_suspend(struct device *dev_d)
 static int __maybe_unused iavf_resume(struct device *dev_d)
 {
        struct pci_dev *pdev = to_pci_dev(dev_d);
-       struct iavf_adapter *adapter = pci_get_drvdata(pdev);
-       struct net_device *netdev = adapter->netdev;
+       struct net_device *netdev = pci_get_drvdata(pdev);
+       struct iavf_adapter *adapter = netdev_priv(netdev);
        u32 err;
 
        pci_set_master(pdev);
index 34abfce..7db5fd9 100644 (file)
@@ -2288,26 +2288,28 @@ void ice_set_safe_mode_caps(struct ice_hw *hw)
 {
        struct ice_hw_func_caps *func_caps = &hw->func_caps;
        struct ice_hw_dev_caps *dev_caps = &hw->dev_caps;
-       u32 valid_func, rxq_first_id, txq_first_id;
-       u32 msix_vector_first_id, max_mtu;
+       struct ice_hw_common_caps cached_caps;
        u32 num_funcs;
 
        /* cache some func_caps values that should be restored after memset */
-       valid_func = func_caps->common_cap.valid_functions;
-       txq_first_id = func_caps->common_cap.txq_first_id;
-       rxq_first_id = func_caps->common_cap.rxq_first_id;
-       msix_vector_first_id = func_caps->common_cap.msix_vector_first_id;
-       max_mtu = func_caps->common_cap.max_mtu;
+       cached_caps = func_caps->common_cap;
 
        /* unset func capabilities */
        memset(func_caps, 0, sizeof(*func_caps));
 
+#define ICE_RESTORE_FUNC_CAP(name) \
+       func_caps->common_cap.name = cached_caps.name
+
        /* restore cached values */
-       func_caps->common_cap.valid_functions = valid_func;
-       func_caps->common_cap.txq_first_id = txq_first_id;
-       func_caps->common_cap.rxq_first_id = rxq_first_id;
-       func_caps->common_cap.msix_vector_first_id = msix_vector_first_id;
-       func_caps->common_cap.max_mtu = max_mtu;
+       ICE_RESTORE_FUNC_CAP(valid_functions);
+       ICE_RESTORE_FUNC_CAP(txq_first_id);
+       ICE_RESTORE_FUNC_CAP(rxq_first_id);
+       ICE_RESTORE_FUNC_CAP(msix_vector_first_id);
+       ICE_RESTORE_FUNC_CAP(max_mtu);
+       ICE_RESTORE_FUNC_CAP(nvm_unified_update);
+       ICE_RESTORE_FUNC_CAP(nvm_update_pending_nvm);
+       ICE_RESTORE_FUNC_CAP(nvm_update_pending_orom);
+       ICE_RESTORE_FUNC_CAP(nvm_update_pending_netlist);
 
        /* one Tx and one Rx queue in safe mode */
        func_caps->common_cap.num_rxq = 1;
@@ -2318,22 +2320,25 @@ void ice_set_safe_mode_caps(struct ice_hw *hw)
        func_caps->guar_num_vsi = 1;
 
        /* cache some dev_caps values that should be restored after memset */
-       valid_func = dev_caps->common_cap.valid_functions;
-       txq_first_id = dev_caps->common_cap.txq_first_id;
-       rxq_first_id = dev_caps->common_cap.rxq_first_id;
-       msix_vector_first_id = dev_caps->common_cap.msix_vector_first_id;
-       max_mtu = dev_caps->common_cap.max_mtu;
+       cached_caps = dev_caps->common_cap;
        num_funcs = dev_caps->num_funcs;
 
        /* unset dev capabilities */
        memset(dev_caps, 0, sizeof(*dev_caps));
 
+#define ICE_RESTORE_DEV_CAP(name) \
+       dev_caps->common_cap.name = cached_caps.name
+
        /* restore cached values */
-       dev_caps->common_cap.valid_functions = valid_func;
-       dev_caps->common_cap.txq_first_id = txq_first_id;
-       dev_caps->common_cap.rxq_first_id = rxq_first_id;
-       dev_caps->common_cap.msix_vector_first_id = msix_vector_first_id;
-       dev_caps->common_cap.max_mtu = max_mtu;
+       ICE_RESTORE_DEV_CAP(valid_functions);
+       ICE_RESTORE_DEV_CAP(txq_first_id);
+       ICE_RESTORE_DEV_CAP(rxq_first_id);
+       ICE_RESTORE_DEV_CAP(msix_vector_first_id);
+       ICE_RESTORE_DEV_CAP(max_mtu);
+       ICE_RESTORE_DEV_CAP(nvm_unified_update);
+       ICE_RESTORE_DEV_CAP(nvm_update_pending_nvm);
+       ICE_RESTORE_DEV_CAP(nvm_update_pending_orom);
+       ICE_RESTORE_DEV_CAP(nvm_update_pending_netlist);
        dev_caps->num_funcs = num_funcs;
 
        /* one Tx and one Rx queue per function in safe mode */
index deaefe0..8968fdd 100644 (file)
@@ -289,7 +289,13 @@ ice_write_one_nvm_block(struct ice_pf *pf, u16 module, u32 offset,
                return -EIO;
        }
 
-       err = ice_aq_wait_for_event(pf, ice_aqc_opc_nvm_write, HZ, &event);
+       /* In most cases, firmware reports a write completion within a few
+        * milliseconds. However, it has been observed that a completion might
+        * take more than a second to complete in some cases. The timeout here
+        * is conservative and is intended to prevent failure to update when
+        * firmware is slow to respond.
+        */
+       err = ice_aq_wait_for_event(pf, ice_aqc_opc_nvm_write, 15 * HZ, &event);
        if (err) {
                dev_err(dev, "Timed out waiting for firmware write completion for module 0x%02x, err %d\n",
                        module, err);
@@ -513,7 +519,7 @@ static int ice_switch_flash_banks(struct ice_pf *pf, u8 activate_flags,
                return -EIO;
        }
 
-       err = ice_aq_wait_for_event(pf, ice_aqc_opc_nvm_write_activate, HZ,
+       err = ice_aq_wait_for_event(pf, ice_aqc_opc_nvm_write_activate, 30 * HZ,
                                    &event);
        if (err) {
                dev_err(dev, "Timed out waiting for firmware to switch active flash banks, err %d\n",
index f268277..ebbb8f5 100644 (file)
@@ -246,7 +246,7 @@ static int ice_get_free_slot(void *array, int size, int curr)
  * ice_vsi_delete - delete a VSI from the switch
  * @vsi: pointer to VSI being removed
  */
-void ice_vsi_delete(struct ice_vsi *vsi)
+static void ice_vsi_delete(struct ice_vsi *vsi)
 {
        struct ice_pf *pf = vsi->back;
        struct ice_vsi_ctx *ctxt;
@@ -313,7 +313,7 @@ static void ice_vsi_free_arrays(struct ice_vsi *vsi)
  *
  * Returns 0 on success, negative on failure
  */
-int ice_vsi_clear(struct ice_vsi *vsi)
+static int ice_vsi_clear(struct ice_vsi *vsi)
 {
        struct ice_pf *pf = NULL;
        struct device *dev;
@@ -563,7 +563,7 @@ static int ice_vsi_get_qs(struct ice_vsi *vsi)
  * ice_vsi_put_qs - Release queues from VSI to PF
  * @vsi: the VSI that is going to release queues
  */
-void ice_vsi_put_qs(struct ice_vsi *vsi)
+static void ice_vsi_put_qs(struct ice_vsi *vsi)
 {
        struct ice_pf *pf = vsi->back;
        int i;
@@ -1196,6 +1196,18 @@ static void ice_vsi_clear_rings(struct ice_vsi *vsi)
 {
        int i;
 
+       /* Avoid stale references by clearing map from vector to ring */
+       if (vsi->q_vectors) {
+               ice_for_each_q_vector(vsi, i) {
+                       struct ice_q_vector *q_vector = vsi->q_vectors[i];
+
+                       if (q_vector) {
+                               q_vector->tx.ring = NULL;
+                               q_vector->rx.ring = NULL;
+                       }
+               }
+       }
+
        if (vsi->tx_rings) {
                for (i = 0; i < vsi->alloc_txq; i++) {
                        if (vsi->tx_rings[i]) {
@@ -2291,7 +2303,7 @@ ice_vsi_setup(struct ice_pf *pf, struct ice_port_info *pi,
        if (status) {
                dev_err(dev, "VSI %d failed lan queue config, error %s\n",
                        vsi->vsi_num, ice_stat_str(status));
-               goto unroll_vector_base;
+               goto unroll_clear_rings;
        }
 
        /* Add switch rule to drop all Tx Flow Control Frames, of look up
index 981f3a1..3da1789 100644 (file)
@@ -45,10 +45,6 @@ int ice_cfg_vlan_pruning(struct ice_vsi *vsi, bool ena, bool vlan_promisc);
 
 void ice_cfg_sw_lldp(struct ice_vsi *vsi, bool tx, bool create);
 
-void ice_vsi_delete(struct ice_vsi *vsi);
-
-int ice_vsi_clear(struct ice_vsi *vsi);
-
 #ifdef CONFIG_DCB
 int ice_vsi_cfg_tc(struct ice_vsi *vsi, u8 ena_tc);
 #endif /* CONFIG_DCB */
@@ -79,8 +75,6 @@ bool ice_is_reset_in_progress(unsigned long *state);
 void
 ice_write_qrxflxp_cntxt(struct ice_hw *hw, u16 pf_q, u32 rxdid, u32 prio);
 
-void ice_vsi_put_qs(struct ice_vsi *vsi);
-
 void ice_vsi_dis_irq(struct ice_vsi *vsi);
 
 void ice_vsi_free_irq(struct ice_vsi *vsi);
index 4634b48..54a7f55 100644 (file)
@@ -3169,10 +3169,8 @@ static int ice_setup_pf_sw(struct ice_pf *pf)
                return -EBUSY;
 
        vsi = ice_pf_vsi_setup(pf, pf->hw.port_info);
-       if (!vsi) {
-               status = -ENOMEM;
-               goto unroll_vsi_setup;
-       }
+       if (!vsi)
+               return -ENOMEM;
 
        status = ice_cfg_netdev(vsi);
        if (status) {
@@ -3219,12 +3217,7 @@ unroll_napi_add:
        }
 
 unroll_vsi_setup:
-       if (vsi) {
-               ice_vsi_free_q_vectors(vsi);
-               ice_vsi_delete(vsi);
-               ice_vsi_put_qs(vsi);
-               ice_vsi_clear(vsi);
-       }
+       ice_vsi_release(vsi);
        return status;
 }
 
@@ -4522,6 +4515,7 @@ static int __maybe_unused ice_suspend(struct device *dev)
        }
        ice_clear_interrupt_scheme(pf);
 
+       pci_save_state(pdev);
        pci_wake_from_d3(pdev, pf->wol_ena);
        pci_set_power_state(pdev, PCI_D3hot);
        return 0;
index 2f8a4cf..86ca8b9 100644 (file)
@@ -5396,9 +5396,10 @@ static int ixgbe_fwd_ring_up(struct ixgbe_adapter *adapter,
        return err;
 }
 
-static int ixgbe_macvlan_up(struct net_device *vdev, void *data)
+static int ixgbe_macvlan_up(struct net_device *vdev,
+                           struct netdev_nested_priv *priv)
 {
-       struct ixgbe_adapter *adapter = data;
+       struct ixgbe_adapter *adapter = (struct ixgbe_adapter *)priv->data;
        struct ixgbe_fwd_adapter *accel;
 
        if (!netif_is_macvlan(vdev))
@@ -5415,8 +5416,12 @@ static int ixgbe_macvlan_up(struct net_device *vdev, void *data)
 
 static void ixgbe_configure_dfwd(struct ixgbe_adapter *adapter)
 {
+       struct netdev_nested_priv priv = {
+               .data = (void *)adapter,
+       };
+
        netdev_walk_all_upper_dev_rcu(adapter->netdev,
-                                     ixgbe_macvlan_up, adapter);
+                                     ixgbe_macvlan_up, &priv);
 }
 
 static void ixgbe_configure(struct ixgbe_adapter *adapter)
@@ -9023,9 +9028,10 @@ static void ixgbe_set_prio_tc_map(struct ixgbe_adapter *adapter)
 }
 
 #endif /* CONFIG_IXGBE_DCB */
-static int ixgbe_reassign_macvlan_pool(struct net_device *vdev, void *data)
+static int ixgbe_reassign_macvlan_pool(struct net_device *vdev,
+                                      struct netdev_nested_priv *priv)
 {
-       struct ixgbe_adapter *adapter = data;
+       struct ixgbe_adapter *adapter = (struct ixgbe_adapter *)priv->data;
        struct ixgbe_fwd_adapter *accel;
        int pool;
 
@@ -9062,13 +9068,16 @@ static int ixgbe_reassign_macvlan_pool(struct net_device *vdev, void *data)
 static void ixgbe_defrag_macvlan_pools(struct net_device *dev)
 {
        struct ixgbe_adapter *adapter = netdev_priv(dev);
+       struct netdev_nested_priv priv = {
+               .data = (void *)adapter,
+       };
 
        /* flush any stale bits out of the fwd bitmask */
        bitmap_clear(adapter->fwd_bitmask, 1, 63);
 
        /* walk through upper devices reassigning pools */
        netdev_walk_all_upper_dev_rcu(dev, ixgbe_reassign_macvlan_pool,
-                                     adapter);
+                                     &priv);
 }
 
 /**
@@ -9242,14 +9251,18 @@ struct upper_walk_data {
        u8 queue;
 };
 
-static int get_macvlan_queue(struct net_device *upper, void *_data)
+static int get_macvlan_queue(struct net_device *upper,
+                            struct netdev_nested_priv *priv)
 {
        if (netif_is_macvlan(upper)) {
                struct ixgbe_fwd_adapter *vadapter = macvlan_accel_priv(upper);
-               struct upper_walk_data *data = _data;
-               struct ixgbe_adapter *adapter = data->adapter;
-               int ifindex = data->ifindex;
+               struct ixgbe_adapter *adapter;
+               struct upper_walk_data *data;
+               int ifindex;
 
+               data = (struct upper_walk_data *)priv->data;
+               ifindex = data->ifindex;
+               adapter = data->adapter;
                if (vadapter && upper->ifindex == ifindex) {
                        data->queue = adapter->rx_ring[vadapter->rx_base_queue]->reg_idx;
                        data->action = data->queue;
@@ -9265,6 +9278,7 @@ static int handle_redirect_action(struct ixgbe_adapter *adapter, int ifindex,
 {
        struct ixgbe_ring_feature *vmdq = &adapter->ring_feature[RING_F_VMDQ];
        unsigned int num_vfs = adapter->num_vfs, vf;
+       struct netdev_nested_priv priv;
        struct upper_walk_data data;
        struct net_device *upper;
 
@@ -9284,8 +9298,9 @@ static int handle_redirect_action(struct ixgbe_adapter *adapter, int ifindex,
        data.ifindex = ifindex;
        data.action = 0;
        data.queue = 0;
+       priv.data = (void *)&data;
        if (netdev_walk_all_upper_dev_rcu(adapter->netdev,
-                                         get_macvlan_queue, &data)) {
+                                         get_macvlan_queue, &priv)) {
                *action = data.action;
                *queue = data.queue;
 
index 635ff3a..51ed8a5 100644 (file)
@@ -245,6 +245,7 @@ static int xrx200_tx_housekeeping(struct napi_struct *napi, int budget)
        int pkts = 0;
        int bytes = 0;
 
+       netif_tx_lock(net_dev);
        while (pkts < budget) {
                struct ltq_dma_desc *desc = &ch->dma.desc_base[ch->tx_free];
 
@@ -268,6 +269,7 @@ static int xrx200_tx_housekeeping(struct napi_struct *napi, int budget)
        net_dev->stats.tx_bytes += bytes;
        netdev_completed_queue(ch->priv->net_dev, pkts, bytes);
 
+       netif_tx_unlock(net_dev);
        if (netif_queue_stopped(net_dev))
                netif_wake_queue(net_dev);
 
index c4345e3..5bf0409 100644 (file)
@@ -3400,24 +3400,15 @@ static int mvneta_txq_sw_init(struct mvneta_port *pp,
        txq->last_desc = txq->size - 1;
 
        txq->buf = kmalloc_array(txq->size, sizeof(*txq->buf), GFP_KERNEL);
-       if (!txq->buf) {
-               dma_free_coherent(pp->dev->dev.parent,
-                                 txq->size * MVNETA_DESC_ALIGNED_SIZE,
-                                 txq->descs, txq->descs_phys);
+       if (!txq->buf)
                return -ENOMEM;
-       }
 
        /* Allocate DMA buffers for TSO MAC/IP/TCP headers */
        txq->tso_hdrs = dma_alloc_coherent(pp->dev->dev.parent,
                                           txq->size * TSO_HEADER_SIZE,
                                           &txq->tso_hdrs_phys, GFP_KERNEL);
-       if (!txq->tso_hdrs) {
-               kfree(txq->buf);
-               dma_free_coherent(pp->dev->dev.parent,
-                                 txq->size * MVNETA_DESC_ALIGNED_SIZE,
-                                 txq->descs, txq->descs_phys);
+       if (!txq->tso_hdrs)
                return -ENOMEM;
-       }
 
        /* Setup XPS mapping */
        if (txq_number > 1)
index 387e33f..2718fe2 100644 (file)
@@ -17,7 +17,7 @@
 
 static const u16 msgs_offset = ALIGN(sizeof(struct mbox_hdr), MBOX_MSG_ALIGN);
 
-void otx2_mbox_reset(struct otx2_mbox *mbox, int devid)
+void __otx2_mbox_reset(struct otx2_mbox *mbox, int devid)
 {
        void *hw_mbase = mbox->hwbase + (devid * MBOX_SIZE);
        struct otx2_mbox_dev *mdev = &mbox->dev[devid];
@@ -26,13 +26,21 @@ void otx2_mbox_reset(struct otx2_mbox *mbox, int devid)
        tx_hdr = hw_mbase + mbox->tx_start;
        rx_hdr = hw_mbase + mbox->rx_start;
 
-       spin_lock(&mdev->mbox_lock);
        mdev->msg_size = 0;
        mdev->rsp_size = 0;
        tx_hdr->num_msgs = 0;
        tx_hdr->msg_size = 0;
        rx_hdr->num_msgs = 0;
        rx_hdr->msg_size = 0;
+}
+EXPORT_SYMBOL(__otx2_mbox_reset);
+
+void otx2_mbox_reset(struct otx2_mbox *mbox, int devid)
+{
+       struct otx2_mbox_dev *mdev = &mbox->dev[devid];
+
+       spin_lock(&mdev->mbox_lock);
+       __otx2_mbox_reset(mbox, devid);
        spin_unlock(&mdev->mbox_lock);
 }
 EXPORT_SYMBOL(otx2_mbox_reset);
index 6dfd0f9..ab43378 100644 (file)
@@ -93,6 +93,7 @@ struct mbox_msghdr {
 };
 
 void otx2_mbox_reset(struct otx2_mbox *mbox, int devid);
+void __otx2_mbox_reset(struct otx2_mbox *mbox, int devid);
 void otx2_mbox_destroy(struct otx2_mbox *mbox);
 int otx2_mbox_init(struct otx2_mbox *mbox, void __force *hwbase,
                   struct pci_dev *pdev, void __force *reg_base,
index dcf25a0..b89dde2 100644 (file)
@@ -463,6 +463,7 @@ void rvu_nix_freemem(struct rvu *rvu);
 int rvu_get_nixlf_count(struct rvu *rvu);
 void rvu_nix_lf_teardown(struct rvu *rvu, u16 pcifunc, int blkaddr, int npalf);
 int nix_get_nixlf(struct rvu *rvu, u16 pcifunc, int *nixlf, int *nix_blkaddr);
+int nix_update_bcast_mce_list(struct rvu *rvu, u16 pcifunc, bool add);
 
 /* NPC APIs */
 int rvu_npc_init(struct rvu *rvu);
@@ -477,7 +478,7 @@ void rvu_npc_disable_promisc_entry(struct rvu *rvu, u16 pcifunc, int nixlf);
 void rvu_npc_enable_promisc_entry(struct rvu *rvu, u16 pcifunc, int nixlf);
 void rvu_npc_install_bcast_match_entry(struct rvu *rvu, u16 pcifunc,
                                       int nixlf, u64 chan);
-void rvu_npc_disable_bcast_entry(struct rvu *rvu, u16 pcifunc);
+void rvu_npc_enable_bcast_entry(struct rvu *rvu, u16 pcifunc, bool enable);
 int rvu_npc_update_rxvlan(struct rvu *rvu, u16 pcifunc, int nixlf);
 void rvu_npc_disable_mcam_entries(struct rvu *rvu, u16 pcifunc, int nixlf);
 void rvu_npc_disable_default_entries(struct rvu *rvu, u16 pcifunc, int nixlf);
index 01a7931..0fc7082 100644 (file)
@@ -17,7 +17,6 @@
 #include "npc.h"
 #include "cgx.h"
 
-static int nix_update_bcast_mce_list(struct rvu *rvu, u16 pcifunc, bool add);
 static int rvu_nix_get_bpid(struct rvu *rvu, struct nix_bp_cfg_req *req,
                            int type, int chan_id);
 
@@ -2020,7 +2019,7 @@ static int nix_update_mce_list(struct nix_mce_list *mce_list,
        return 0;
 }
 
-static int nix_update_bcast_mce_list(struct rvu *rvu, u16 pcifunc, bool add)
+int nix_update_bcast_mce_list(struct rvu *rvu, u16 pcifunc, bool add)
 {
        int err = 0, idx, next_idx, last_idx;
        struct nix_mce_list *mce_list;
@@ -2065,7 +2064,7 @@ static int nix_update_bcast_mce_list(struct rvu *rvu, u16 pcifunc, bool add)
 
        /* Disable MCAM entry in NPC */
        if (!mce_list->count) {
-               rvu_npc_disable_bcast_entry(rvu, pcifunc);
+               rvu_npc_enable_bcast_entry(rvu, pcifunc, false);
                goto end;
        }
 
index 0a21408..fbaf9bc 100644 (file)
@@ -530,7 +530,7 @@ void rvu_npc_install_bcast_match_entry(struct rvu *rvu, u16 pcifunc,
                              NIX_INTF_RX, &entry, true);
 }
 
-void rvu_npc_disable_bcast_entry(struct rvu *rvu, u16 pcifunc)
+void rvu_npc_enable_bcast_entry(struct rvu *rvu, u16 pcifunc, bool enable)
 {
        struct npc_mcam *mcam = &rvu->hw->mcam;
        int blkaddr, index;
@@ -543,7 +543,7 @@ void rvu_npc_disable_bcast_entry(struct rvu *rvu, u16 pcifunc)
        pcifunc = pcifunc & ~RVU_PFVF_FUNC_MASK;
 
        index = npc_get_nixlf_mcam_index(mcam, pcifunc, 0, NIXLF_BCAST_ENTRY);
-       npc_enable_mcam_entry(rvu, mcam, blkaddr, index, false);
+       npc_enable_mcam_entry(rvu, mcam, blkaddr, index, enable);
 }
 
 void rvu_npc_update_flowkey_alg_idx(struct rvu *rvu, u16 pcifunc, int nixlf,
@@ -622,23 +622,35 @@ static void npc_enadis_default_entries(struct rvu *rvu, u16 pcifunc,
                                         nixlf, NIXLF_UCAST_ENTRY);
        npc_enable_mcam_entry(rvu, mcam, blkaddr, index, enable);
 
-       /* For PF, ena/dis promisc and bcast MCAM match entries */
-       if (pcifunc & RVU_PFVF_FUNC_MASK)
+       /* For PF, ena/dis promisc and bcast MCAM match entries.
+        * For VFs add/delete from bcast list when RX multicast
+        * feature is present.
+        */
+       if (pcifunc & RVU_PFVF_FUNC_MASK && !rvu->hw->cap.nix_rx_multicast)
                return;
 
        /* For bcast, enable/disable only if it's action is not
         * packet replication, incase if action is replication
-        * then this PF's nixlf is removed from bcast replication
+        * then this PF/VF's nixlf is removed from bcast replication
         * list.
         */
-       index = npc_get_nixlf_mcam_index(mcam, pcifunc,
+       index = npc_get_nixlf_mcam_index(mcam, pcifunc & ~RVU_PFVF_FUNC_MASK,
                                         nixlf, NIXLF_BCAST_ENTRY);
        bank = npc_get_bank(mcam, index);
        *(u64 *)&action = rvu_read64(rvu, blkaddr,
             NPC_AF_MCAMEX_BANKX_ACTION(index & (mcam->banksize - 1), bank));
-       if (action.op != NIX_RX_ACTIONOP_MCAST)
+
+       /* VFs will not have BCAST entry */
+       if (action.op != NIX_RX_ACTIONOP_MCAST &&
+           !(pcifunc & RVU_PFVF_FUNC_MASK)) {
                npc_enable_mcam_entry(rvu, mcam,
                                      blkaddr, index, enable);
+       } else {
+               nix_update_bcast_mce_list(rvu, pcifunc, enable);
+               /* Enable PF's BCAST entry for packet replication */
+               rvu_npc_enable_bcast_entry(rvu, pcifunc, enable);
+       }
+
        if (enable)
                rvu_npc_enable_promisc_entry(rvu, pcifunc, nixlf);
        else
index 75a8c40..2fb4567 100644 (file)
@@ -370,8 +370,8 @@ static int otx2_forward_vf_mbox_msgs(struct otx2_nic *pf,
                dst_mbox = &pf->mbox;
                dst_size = dst_mbox->mbox.tx_size -
                                ALIGN(sizeof(*mbox_hdr), MBOX_MSG_ALIGN);
-               /* Check if msgs fit into destination area */
-               if (mbox_hdr->msg_size > dst_size)
+               /* Check if msgs fit into destination area and has valid size */
+               if (mbox_hdr->msg_size > dst_size || !mbox_hdr->msg_size)
                        return -EINVAL;
 
                dst_mdev = &dst_mbox->mbox.dev[0];
@@ -526,10 +526,10 @@ static void otx2_pfvf_mbox_up_handler(struct work_struct *work)
 
 end:
                offset = mbox->rx_start + msg->next_msgoff;
+               if (mdev->msgs_acked == (vf_mbox->up_num_msgs - 1))
+                       __otx2_mbox_reset(mbox, 0);
                mdev->msgs_acked++;
        }
-
-       otx2_mbox_reset(mbox, vf_idx);
 }
 
 static irqreturn_t otx2_pfvf_mbox_intr_handler(int irq, void *pf_irq)
@@ -803,10 +803,11 @@ static void otx2_pfaf_mbox_handler(struct work_struct *work)
                msg = (struct mbox_msghdr *)(mdev->mbase + offset);
                otx2_process_pfaf_mbox_msg(pf, msg);
                offset = mbox->rx_start + msg->next_msgoff;
+               if (mdev->msgs_acked == (af_mbox->num_msgs - 1))
+                       __otx2_mbox_reset(mbox, 0);
                mdev->msgs_acked++;
        }
 
-       otx2_mbox_reset(mbox, 0);
 }
 
 static void otx2_handle_link_event(struct otx2_nic *pf)
@@ -1560,10 +1561,13 @@ int otx2_open(struct net_device *netdev)
 
        err = otx2_rxtx_enable(pf, true);
        if (err)
-               goto err_free_cints;
+               goto err_tx_stop_queues;
 
        return 0;
 
+err_tx_stop_queues:
+       netif_tx_stop_all_queues(netdev);
+       netif_carrier_off(netdev);
 err_free_cints:
        otx2_free_cints(pf, qidx);
        vec = pci_irq_vector(pf->pdev,
index 3a5b34a..e46834e 100644 (file)
@@ -524,6 +524,7 @@ static void otx2_sqe_add_hdr(struct otx2_nic *pfvf, struct otx2_snd_queue *sq,
                        sqe_hdr->ol3type = NIX_SENDL3TYPE_IP4_CKSUM;
                } else if (skb->protocol == htons(ETH_P_IPV6)) {
                        proto = ipv6_hdr(skb)->nexthdr;
+                       sqe_hdr->ol3type = NIX_SENDL3TYPE_IP6;
                }
 
                if (proto == IPPROTO_TCP)
index 92a3db6..2f90f17 100644 (file)
@@ -99,10 +99,10 @@ static void otx2vf_vfaf_mbox_handler(struct work_struct *work)
                msg = (struct mbox_msghdr *)(mdev->mbase + offset);
                otx2vf_process_vfaf_mbox_msg(af_mbox->pfvf, msg);
                offset = mbox->rx_start + msg->next_msgoff;
+               if (mdev->msgs_acked == (af_mbox->num_msgs - 1))
+                       __otx2_mbox_reset(mbox, 0);
                mdev->msgs_acked++;
        }
-
-       otx2_mbox_reset(mbox, 0);
 }
 
 static int otx2vf_process_mbox_msg_up(struct otx2_nic *vf,
index 1d91a0d..2d1f4b3 100644 (file)
@@ -69,12 +69,10 @@ enum {
        MLX5_CMD_DELIVERY_STAT_CMD_DESCR_ERR            = 0x10,
 };
 
-static struct mlx5_cmd_work_ent *alloc_cmd(struct mlx5_cmd *cmd,
-                                          struct mlx5_cmd_msg *in,
-                                          struct mlx5_cmd_msg *out,
-                                          void *uout, int uout_size,
-                                          mlx5_cmd_cbk_t cbk,
-                                          void *context, int page_queue)
+static struct mlx5_cmd_work_ent *
+cmd_alloc_ent(struct mlx5_cmd *cmd, struct mlx5_cmd_msg *in,
+             struct mlx5_cmd_msg *out, void *uout, int uout_size,
+             mlx5_cmd_cbk_t cbk, void *context, int page_queue)
 {
        gfp_t alloc_flags = cbk ? GFP_ATOMIC : GFP_KERNEL;
        struct mlx5_cmd_work_ent *ent;
@@ -83,6 +81,7 @@ static struct mlx5_cmd_work_ent *alloc_cmd(struct mlx5_cmd *cmd,
        if (!ent)
                return ERR_PTR(-ENOMEM);
 
+       ent->idx        = -EINVAL;
        ent->in         = in;
        ent->out        = out;
        ent->uout       = uout;
@@ -91,10 +90,16 @@ static struct mlx5_cmd_work_ent *alloc_cmd(struct mlx5_cmd *cmd,
        ent->context    = context;
        ent->cmd        = cmd;
        ent->page_queue = page_queue;
+       refcount_set(&ent->refcnt, 1);
 
        return ent;
 }
 
+static void cmd_free_ent(struct mlx5_cmd_work_ent *ent)
+{
+       kfree(ent);
+}
+
 static u8 alloc_token(struct mlx5_cmd *cmd)
 {
        u8 token;
@@ -109,7 +114,7 @@ static u8 alloc_token(struct mlx5_cmd *cmd)
        return token;
 }
 
-static int alloc_ent(struct mlx5_cmd *cmd)
+static int cmd_alloc_index(struct mlx5_cmd *cmd)
 {
        unsigned long flags;
        int ret;
@@ -123,7 +128,7 @@ static int alloc_ent(struct mlx5_cmd *cmd)
        return ret < cmd->max_reg_cmds ? ret : -ENOMEM;
 }
 
-static void free_ent(struct mlx5_cmd *cmd, int idx)
+static void cmd_free_index(struct mlx5_cmd *cmd, int idx)
 {
        unsigned long flags;
 
@@ -132,6 +137,22 @@ static void free_ent(struct mlx5_cmd *cmd, int idx)
        spin_unlock_irqrestore(&cmd->alloc_lock, flags);
 }
 
+static void cmd_ent_get(struct mlx5_cmd_work_ent *ent)
+{
+       refcount_inc(&ent->refcnt);
+}
+
+static void cmd_ent_put(struct mlx5_cmd_work_ent *ent)
+{
+       if (!refcount_dec_and_test(&ent->refcnt))
+               return;
+
+       if (ent->idx >= 0)
+               cmd_free_index(ent->cmd, ent->idx);
+
+       cmd_free_ent(ent);
+}
+
 static struct mlx5_cmd_layout *get_inst(struct mlx5_cmd *cmd, int idx)
 {
        return cmd->cmd_buf + (idx << cmd->log_stride);
@@ -219,11 +240,6 @@ static void poll_timeout(struct mlx5_cmd_work_ent *ent)
        ent->ret = -ETIMEDOUT;
 }
 
-static void free_cmd(struct mlx5_cmd_work_ent *ent)
-{
-       kfree(ent);
-}
-
 static int verify_signature(struct mlx5_cmd_work_ent *ent)
 {
        struct mlx5_cmd_mailbox *next = ent->out->next;
@@ -837,11 +853,22 @@ static void cb_timeout_handler(struct work_struct *work)
        struct mlx5_core_dev *dev = container_of(ent->cmd, struct mlx5_core_dev,
                                                 cmd);
 
+       mlx5_cmd_eq_recover(dev);
+
+       /* Maybe got handled by eq recover ? */
+       if (!test_bit(MLX5_CMD_ENT_STATE_PENDING_COMP, &ent->state)) {
+               mlx5_core_warn(dev, "cmd[%d]: %s(0x%x) Async, recovered after timeout\n", ent->idx,
+                              mlx5_command_str(msg_to_opcode(ent->in)), msg_to_opcode(ent->in));
+               goto out; /* phew, already handled */
+       }
+
        ent->ret = -ETIMEDOUT;
-       mlx5_core_warn(dev, "%s(0x%x) timeout. Will cause a leak of a command resource\n",
-                      mlx5_command_str(msg_to_opcode(ent->in)),
-                      msg_to_opcode(ent->in));
+       mlx5_core_warn(dev, "cmd[%d]: %s(0x%x) Async, timeout. Will cause a leak of a command resource\n",
+                      ent->idx, mlx5_command_str(msg_to_opcode(ent->in)), msg_to_opcode(ent->in));
        mlx5_cmd_comp_handler(dev, 1UL << ent->idx, true);
+
+out:
+       cmd_ent_put(ent); /* for the cmd_ent_get() took on schedule delayed work */
 }
 
 static void free_msg(struct mlx5_core_dev *dev, struct mlx5_cmd_msg *msg);
@@ -856,6 +883,32 @@ static bool opcode_allowed(struct mlx5_cmd *cmd, u16 opcode)
        return cmd->allowed_opcode == opcode;
 }
 
+static int cmd_alloc_index_retry(struct mlx5_cmd *cmd)
+{
+       unsigned long alloc_end = jiffies + msecs_to_jiffies(1000);
+       int idx;
+
+retry:
+       idx = cmd_alloc_index(cmd);
+       if (idx < 0 && time_before(jiffies, alloc_end)) {
+               /* Index allocation can fail on heavy load of commands. This is a temporary
+                * situation as the current command already holds the semaphore, meaning that
+                * another command completion is being handled and it is expected to release
+                * the entry index soon.
+                */
+               cpu_relax();
+               goto retry;
+       }
+       return idx;
+}
+
+bool mlx5_cmd_is_down(struct mlx5_core_dev *dev)
+{
+       return pci_channel_offline(dev->pdev) ||
+              dev->cmd.state != MLX5_CMDIF_STATE_UP ||
+              dev->state == MLX5_DEVICE_STATE_INTERNAL_ERROR;
+}
+
 static void cmd_work_handler(struct work_struct *work)
 {
        struct mlx5_cmd_work_ent *ent = container_of(work, struct mlx5_cmd_work_ent, work);
@@ -873,14 +926,14 @@ static void cmd_work_handler(struct work_struct *work)
        sem = ent->page_queue ? &cmd->pages_sem : &cmd->sem;
        down(sem);
        if (!ent->page_queue) {
-               alloc_ret = alloc_ent(cmd);
+               alloc_ret = cmd_alloc_index_retry(cmd);
                if (alloc_ret < 0) {
                        mlx5_core_err_rl(dev, "failed to allocate command entry\n");
                        if (ent->callback) {
                                ent->callback(-EAGAIN, ent->context);
                                mlx5_free_cmd_msg(dev, ent->out);
                                free_msg(dev, ent->in);
-                               free_cmd(ent);
+                               cmd_ent_put(ent);
                        } else {
                                ent->ret = -EAGAIN;
                                complete(&ent->done);
@@ -916,15 +969,12 @@ static void cmd_work_handler(struct work_struct *work)
        ent->ts1 = ktime_get_ns();
        cmd_mode = cmd->mode;
 
-       if (ent->callback)
-               schedule_delayed_work(&ent->cb_timeout_work, cb_timeout);
+       if (ent->callback && schedule_delayed_work(&ent->cb_timeout_work, cb_timeout))
+               cmd_ent_get(ent);
        set_bit(MLX5_CMD_ENT_STATE_PENDING_COMP, &ent->state);
 
        /* Skip sending command to fw if internal error */
-       if (pci_channel_offline(dev->pdev) ||
-           dev->state == MLX5_DEVICE_STATE_INTERNAL_ERROR ||
-           cmd->state != MLX5_CMDIF_STATE_UP ||
-           !opcode_allowed(&dev->cmd, ent->op)) {
+       if (mlx5_cmd_is_down(dev) || !opcode_allowed(&dev->cmd, ent->op)) {
                u8 status = 0;
                u32 drv_synd;
 
@@ -933,13 +983,10 @@ static void cmd_work_handler(struct work_struct *work)
                MLX5_SET(mbox_out, ent->out, syndrome, drv_synd);
 
                mlx5_cmd_comp_handler(dev, 1UL << ent->idx, true);
-               /* no doorbell, no need to keep the entry */
-               free_ent(cmd, ent->idx);
-               if (ent->callback)
-                       free_cmd(ent);
                return;
        }
 
+       cmd_ent_get(ent); /* for the _real_ FW event on completion */
        /* ring doorbell after the descriptor is valid */
        mlx5_core_dbg(dev, "writing 0x%x to command doorbell\n", 1 << ent->idx);
        wmb();
@@ -983,6 +1030,35 @@ static const char *deliv_status_to_str(u8 status)
        }
 }
 
+enum {
+       MLX5_CMD_TIMEOUT_RECOVER_MSEC   = 5 * 1000,
+};
+
+static void wait_func_handle_exec_timeout(struct mlx5_core_dev *dev,
+                                         struct mlx5_cmd_work_ent *ent)
+{
+       unsigned long timeout = msecs_to_jiffies(MLX5_CMD_TIMEOUT_RECOVER_MSEC);
+
+       mlx5_cmd_eq_recover(dev);
+
+       /* Re-wait on the ent->done after executing the recovery flow. If the
+        * recovery flow (or any other recovery flow running simultaneously)
+        * has recovered an EQE, it should cause the entry to be completed by
+        * the command interface.
+        */
+       if (wait_for_completion_timeout(&ent->done, timeout)) {
+               mlx5_core_warn(dev, "cmd[%d]: %s(0x%x) recovered after timeout\n", ent->idx,
+                              mlx5_command_str(msg_to_opcode(ent->in)), msg_to_opcode(ent->in));
+               return;
+       }
+
+       mlx5_core_warn(dev, "cmd[%d]: %s(0x%x) No done completion\n", ent->idx,
+                      mlx5_command_str(msg_to_opcode(ent->in)), msg_to_opcode(ent->in));
+
+       ent->ret = -ETIMEDOUT;
+       mlx5_cmd_comp_handler(dev, 1UL << ent->idx, true);
+}
+
 static int wait_func(struct mlx5_core_dev *dev, struct mlx5_cmd_work_ent *ent)
 {
        unsigned long timeout = msecs_to_jiffies(MLX5_CMD_TIMEOUT_MSEC);
@@ -994,12 +1070,10 @@ static int wait_func(struct mlx5_core_dev *dev, struct mlx5_cmd_work_ent *ent)
                ent->ret = -ECANCELED;
                goto out_err;
        }
-       if (cmd->mode == CMD_MODE_POLLING || ent->polling) {
+       if (cmd->mode == CMD_MODE_POLLING || ent->polling)
                wait_for_completion(&ent->done);
-       } else if (!wait_for_completion_timeout(&ent->done, timeout)) {
-               ent->ret = -ETIMEDOUT;
-               mlx5_cmd_comp_handler(dev, 1UL << ent->idx, true);
-       }
+       else if (!wait_for_completion_timeout(&ent->done, timeout))
+               wait_func_handle_exec_timeout(dev, ent);
 
 out_err:
        err = ent->ret;
@@ -1039,11 +1113,16 @@ static int mlx5_cmd_invoke(struct mlx5_core_dev *dev, struct mlx5_cmd_msg *in,
        if (callback && page_queue)
                return -EINVAL;
 
-       ent = alloc_cmd(cmd, in, out, uout, uout_size, callback, context,
-                       page_queue);
+       ent = cmd_alloc_ent(cmd, in, out, uout, uout_size,
+                           callback, context, page_queue);
        if (IS_ERR(ent))
                return PTR_ERR(ent);
 
+       /* put for this ent is when consumed, depending on the use case
+        * 1) (!callback) blocking flow: by caller after wait_func completes
+        * 2) (callback) flow: by mlx5_cmd_comp_handler() when ent is handled
+        */
+
        ent->token = token;
        ent->polling = force_polling;
 
@@ -1062,12 +1141,10 @@ static int mlx5_cmd_invoke(struct mlx5_core_dev *dev, struct mlx5_cmd_msg *in,
        }
 
        if (callback)
-               goto out;
+               goto out; /* mlx5_cmd_comp_handler() will put(ent) */
 
        err = wait_func(dev, ent);
-       if (err == -ETIMEDOUT)
-               goto out;
-       if (err == -ECANCELED)
+       if (err == -ETIMEDOUT || err == -ECANCELED)
                goto out_free;
 
        ds = ent->ts2 - ent->ts1;
@@ -1085,7 +1162,7 @@ static int mlx5_cmd_invoke(struct mlx5_core_dev *dev, struct mlx5_cmd_msg *in,
        *status = ent->status;
 
 out_free:
-       free_cmd(ent);
+       cmd_ent_put(ent);
 out:
        return err;
 }
@@ -1516,14 +1593,19 @@ static void mlx5_cmd_comp_handler(struct mlx5_core_dev *dev, u64 vec, bool force
                                if (!forced) {
                                        mlx5_core_err(dev, "Command completion arrived after timeout (entry idx = %d).\n",
                                                      ent->idx);
-                                       free_ent(cmd, ent->idx);
-                                       free_cmd(ent);
+                                       cmd_ent_put(ent);
                                }
                                continue;
                        }
 
-                       if (ent->callback)
-                               cancel_delayed_work(&ent->cb_timeout_work);
+                       if (ent->callback && cancel_delayed_work(&ent->cb_timeout_work))
+                               cmd_ent_put(ent); /* timeout work was canceled */
+
+                       if (!forced || /* Real FW completion */
+                           pci_channel_offline(dev->pdev) || /* FW is inaccessible */
+                           dev->state == MLX5_DEVICE_STATE_INTERNAL_ERROR)
+                               cmd_ent_put(ent);
+
                        if (ent->page_queue)
                                sem = &cmd->pages_sem;
                        else
@@ -1545,10 +1627,6 @@ static void mlx5_cmd_comp_handler(struct mlx5_core_dev *dev, u64 vec, bool force
                                              ent->ret, deliv_status_to_str(ent->status), ent->status);
                        }
 
-                       /* only real completion will free the entry slot */
-                       if (!forced)
-                               free_ent(cmd, ent->idx);
-
                        if (ent->callback) {
                                ds = ent->ts2 - ent->ts1;
                                if (ent->op < MLX5_CMD_OP_MAX) {
@@ -1576,10 +1654,13 @@ static void mlx5_cmd_comp_handler(struct mlx5_core_dev *dev, u64 vec, bool force
                                free_msg(dev, ent->in);
 
                                err = err ? err : ent->status;
-                               if (!forced)
-                                       free_cmd(ent);
+                               /* final consumer is done, release ent */
+                               cmd_ent_put(ent);
                                callback(err, context);
                        } else {
+                               /* release wait_func() so mlx5_cmd_invoke()
+                                * can make the final ent_put()
+                                */
                                complete(&ent->done);
                        }
                        up(sem);
@@ -1589,8 +1670,11 @@ static void mlx5_cmd_comp_handler(struct mlx5_core_dev *dev, u64 vec, bool force
 
 void mlx5_cmd_trigger_completions(struct mlx5_core_dev *dev)
 {
+       struct mlx5_cmd *cmd = &dev->cmd;
+       unsigned long bitmask;
        unsigned long flags;
        u64 vector;
+       int i;
 
        /* wait for pending handlers to complete */
        mlx5_eq_synchronize_cmd_irq(dev);
@@ -1599,11 +1683,20 @@ void mlx5_cmd_trigger_completions(struct mlx5_core_dev *dev)
        if (!vector)
                goto no_trig;
 
+       bitmask = vector;
+       /* we must increment the allocated entries refcount before triggering the completions
+        * to guarantee pending commands will not get freed in the meanwhile.
+        * For that reason, it also has to be done inside the alloc_lock.
+        */
+       for_each_set_bit(i, &bitmask, (1 << cmd->log_sz))
+               cmd_ent_get(cmd->ent_arr[i]);
        vector |= MLX5_TRIGGERED_CMD_COMP;
        spin_unlock_irqrestore(&dev->cmd.alloc_lock, flags);
 
        mlx5_core_dbg(dev, "vector 0x%llx\n", vector);
        mlx5_cmd_comp_handler(dev, vector, true);
+       for_each_set_bit(i, &bitmask, (1 << cmd->log_sz))
+               cmd_ent_put(cmd->ent_arr[i]);
        return;
 
 no_trig:
@@ -1711,10 +1804,7 @@ static int cmd_exec(struct mlx5_core_dev *dev, void *in, int in_size, void *out,
        u8 token;
 
        opcode = MLX5_GET(mbox_in, in, opcode);
-       if (pci_channel_offline(dev->pdev) ||
-           dev->state == MLX5_DEVICE_STATE_INTERNAL_ERROR ||
-           dev->cmd.state != MLX5_CMDIF_STATE_UP ||
-           !opcode_allowed(&dev->cmd, opcode)) {
+       if (mlx5_cmd_is_down(dev) || !opcode_allowed(&dev->cmd, opcode)) {
                err = mlx5_internal_err_ret_value(dev, opcode, &drv_synd, &status);
                MLX5_SET(mbox_out, out, status, status);
                MLX5_SET(mbox_out, out, syndrome, drv_synd);
index 90d5caa..356f585 100644 (file)
@@ -91,7 +91,12 @@ struct page_pool;
 #define MLX5_MPWRQ_PAGES_PER_WQE               BIT(MLX5_MPWRQ_WQE_PAGE_ORDER)
 
 #define MLX5_MTT_OCTW(npages) (ALIGN(npages, 8) / 2)
-#define MLX5E_REQUIRED_WQE_MTTS                (ALIGN(MLX5_MPWRQ_PAGES_PER_WQE, 8))
+/* Add another page to MLX5E_REQUIRED_WQE_MTTS as a buffer between
+ * WQEs, This page will absorb write overflow by the hardware, when
+ * receiving packets larger than MTU. These oversize packets are
+ * dropped by the driver at a later stage.
+ */
+#define MLX5E_REQUIRED_WQE_MTTS                (ALIGN(MLX5_MPWRQ_PAGES_PER_WQE + 1, 8))
 #define MLX5E_LOG_ALIGNED_MPWQE_PPW    (ilog2(MLX5E_REQUIRED_WQE_MTTS))
 #define MLX5E_REQUIRED_MTTS(wqes)      (wqes * MLX5E_REQUIRED_WQE_MTTS)
 #define MLX5E_MAX_RQ_NUM_MTTS  \
@@ -617,6 +622,7 @@ struct mlx5e_rq {
        u32                    rqn;
        struct mlx5_core_dev  *mdev;
        struct mlx5_core_mkey  umr_mkey;
+       struct mlx5e_dma_info  wqe_overflow;
 
        /* XDP read-mostly */
        struct xdp_rxq_info    xdp_rxq;
index 96608db..308fd27 100644 (file)
@@ -569,6 +569,9 @@ int mlx5e_set_fec_mode(struct mlx5_core_dev *dev, u16 fec_policy)
        if (fec_policy >= (1 << MLX5E_FEC_LLRS_272_257_1) && !fec_50g_per_lane)
                return -EOPNOTSUPP;
 
+       if (fec_policy && !mlx5e_fec_in_caps(dev, fec_policy))
+               return -EOPNOTSUPP;
+
        MLX5_SET(pplm_reg, in, local_port, 1);
        err = mlx5_core_access_reg(dev, in, sz, out, sz, MLX5_REG_PPLM, 0, 0);
        if (err)
index 9062920..58e2703 100644 (file)
@@ -110,11 +110,25 @@ static void mlx5e_rep_neigh_stats_work(struct work_struct *work)
        rtnl_unlock();
 }
 
+struct neigh_update_work {
+       struct work_struct work;
+       struct neighbour *n;
+       struct mlx5e_neigh_hash_entry *nhe;
+};
+
+static void mlx5e_release_neigh_update_work(struct neigh_update_work *update_work)
+{
+       neigh_release(update_work->n);
+       mlx5e_rep_neigh_entry_release(update_work->nhe);
+       kfree(update_work);
+}
+
 static void mlx5e_rep_neigh_update(struct work_struct *work)
 {
-       struct mlx5e_neigh_hash_entry *nhe =
-               container_of(work, struct mlx5e_neigh_hash_entry, neigh_update_work);
-       struct neighbour *n = nhe->n;
+       struct neigh_update_work *update_work = container_of(work, struct neigh_update_work,
+                                                            work);
+       struct mlx5e_neigh_hash_entry *nhe = update_work->nhe;
+       struct neighbour *n = update_work->n;
        struct mlx5e_encap_entry *e;
        unsigned char ha[ETH_ALEN];
        struct mlx5e_priv *priv;
@@ -146,30 +160,42 @@ static void mlx5e_rep_neigh_update(struct work_struct *work)
                mlx5e_rep_update_flows(priv, e, neigh_connected, ha);
                mlx5e_encap_put(priv, e);
        }
-       mlx5e_rep_neigh_entry_release(nhe);
        rtnl_unlock();
-       neigh_release(n);
+       mlx5e_release_neigh_update_work(update_work);
 }
 
-static void mlx5e_rep_queue_neigh_update_work(struct mlx5e_priv *priv,
-                                             struct mlx5e_neigh_hash_entry *nhe,
-                                             struct neighbour *n)
+static struct neigh_update_work *mlx5e_alloc_neigh_update_work(struct mlx5e_priv *priv,
+                                                              struct neighbour *n)
 {
-       /* Take a reference to ensure the neighbour and mlx5 encap
-        * entry won't be destructed until we drop the reference in
-        * delayed work.
-        */
-       neigh_hold(n);
+       struct neigh_update_work *update_work;
+       struct mlx5e_neigh_hash_entry *nhe;
+       struct mlx5e_neigh m_neigh = {};
 
-       /* This assignment is valid as long as the the neigh reference
-        * is taken
-        */
-       nhe->n = n;
+       update_work = kzalloc(sizeof(*update_work), GFP_ATOMIC);
+       if (WARN_ON(!update_work))
+               return NULL;
 
-       if (!queue_work(priv->wq, &nhe->neigh_update_work)) {
-               mlx5e_rep_neigh_entry_release(nhe);
-               neigh_release(n);
+       m_neigh.dev = n->dev;
+       m_neigh.family = n->ops->family;
+       memcpy(&m_neigh.dst_ip, n->primary_key, n->tbl->key_len);
+
+       /* Obtain reference to nhe as last step in order not to release it in
+        * atomic context.
+        */
+       rcu_read_lock();
+       nhe = mlx5e_rep_neigh_entry_lookup(priv, &m_neigh);
+       rcu_read_unlock();
+       if (!nhe) {
+               kfree(update_work);
+               return NULL;
        }
+
+       INIT_WORK(&update_work->work, mlx5e_rep_neigh_update);
+       neigh_hold(n);
+       update_work->n = n;
+       update_work->nhe = nhe;
+
+       return update_work;
 }
 
 static int mlx5e_rep_netevent_event(struct notifier_block *nb,
@@ -181,7 +207,7 @@ static int mlx5e_rep_netevent_event(struct notifier_block *nb,
        struct net_device *netdev = rpriv->netdev;
        struct mlx5e_priv *priv = netdev_priv(netdev);
        struct mlx5e_neigh_hash_entry *nhe = NULL;
-       struct mlx5e_neigh m_neigh = {};
+       struct neigh_update_work *update_work;
        struct neigh_parms *p;
        struct neighbour *n;
        bool found = false;
@@ -196,17 +222,11 @@ static int mlx5e_rep_netevent_event(struct notifier_block *nb,
 #endif
                        return NOTIFY_DONE;
 
-               m_neigh.dev = n->dev;
-               m_neigh.family = n->ops->family;
-               memcpy(&m_neigh.dst_ip, n->primary_key, n->tbl->key_len);
-
-               rcu_read_lock();
-               nhe = mlx5e_rep_neigh_entry_lookup(priv, &m_neigh);
-               rcu_read_unlock();
-               if (!nhe)
+               update_work = mlx5e_alloc_neigh_update_work(priv, n);
+               if (!update_work)
                        return NOTIFY_DONE;
 
-               mlx5e_rep_queue_neigh_update_work(priv, nhe, n);
+               queue_work(priv->wq, &update_work->work);
                break;
 
        case NETEVENT_DELAY_PROBE_TIME_UPDATE:
@@ -352,7 +372,6 @@ int mlx5e_rep_neigh_entry_create(struct mlx5e_priv *priv,
 
        (*nhe)->priv = priv;
        memcpy(&(*nhe)->m_neigh, &e->m_neigh, sizeof(e->m_neigh));
-       INIT_WORK(&(*nhe)->neigh_update_work, mlx5e_rep_neigh_update);
        spin_lock_init(&(*nhe)->encap_list_lock);
        INIT_LIST_HEAD(&(*nhe)->encap_list);
        refcount_set(&(*nhe)->refcnt, 1);
index bc5f72e..a8be40c 100644 (file)
@@ -246,8 +246,10 @@ mlx5_tc_ct_rule_to_tuple_nat(struct mlx5_ct_tuple *tuple,
                case FLOW_ACT_MANGLE_HDR_TYPE_IP6:
                        ip6_offset = (offset - offsetof(struct ipv6hdr, saddr));
                        ip6_offset /= 4;
-                       if (ip6_offset < 8)
+                       if (ip6_offset < 4)
                                tuple->ip.src_v6.s6_addr32[ip6_offset] = cpu_to_be32(val);
+                       else if (ip6_offset < 8)
+                               tuple->ip.dst_v6.s6_addr32[ip6_offset - 4] = cpu_to_be32(val);
                        else
                                return -EOPNOTSUPP;
                        break;
index 64d002d..1f48f99 100644 (file)
@@ -217,6 +217,9 @@ static int __mlx5e_add_vlan_rule(struct mlx5e_priv *priv,
                break;
        }
 
+       if (WARN_ONCE(*rule_p, "VLAN rule already exists type %d", rule_type))
+               return 0;
+
        *rule_p = mlx5_add_flow_rules(ft, spec, &flow_act, &dest, 1);
 
        if (IS_ERR(*rule_p)) {
@@ -397,8 +400,7 @@ static void mlx5e_add_vlan_rules(struct mlx5e_priv *priv)
        for_each_set_bit(i, priv->fs.vlan.active_svlans, VLAN_N_VID)
                mlx5e_add_vlan_rule(priv, MLX5E_VLAN_RULE_TYPE_MATCH_STAG_VID, i);
 
-       if (priv->fs.vlan.cvlan_filter_disabled &&
-           !(priv->netdev->flags & IFF_PROMISC))
+       if (priv->fs.vlan.cvlan_filter_disabled)
                mlx5e_add_any_vid_rules(priv);
 }
 
@@ -415,8 +417,12 @@ static void mlx5e_del_vlan_rules(struct mlx5e_priv *priv)
        for_each_set_bit(i, priv->fs.vlan.active_svlans, VLAN_N_VID)
                mlx5e_del_vlan_rule(priv, MLX5E_VLAN_RULE_TYPE_MATCH_STAG_VID, i);
 
-       if (priv->fs.vlan.cvlan_filter_disabled &&
-           !(priv->netdev->flags & IFF_PROMISC))
+       WARN_ON_ONCE(!(test_bit(MLX5E_STATE_DESTROYING, &priv->state)));
+
+       /* must be called after DESTROY bit is set and
+        * set_rx_mode is called and flushed
+        */
+       if (priv->fs.vlan.cvlan_filter_disabled)
                mlx5e_del_any_vid_rules(priv);
 }
 
index b3cda7b..42ec28e 100644 (file)
@@ -246,12 +246,17 @@ static int mlx5e_rq_alloc_mpwqe_info(struct mlx5e_rq *rq,
 
 static int mlx5e_create_umr_mkey(struct mlx5_core_dev *mdev,
                                 u64 npages, u8 page_shift,
-                                struct mlx5_core_mkey *umr_mkey)
+                                struct mlx5_core_mkey *umr_mkey,
+                                dma_addr_t filler_addr)
 {
-       int inlen = MLX5_ST_SZ_BYTES(create_mkey_in);
+       struct mlx5_mtt *mtt;
+       int inlen;
        void *mkc;
        u32 *in;
        int err;
+       int i;
+
+       inlen = MLX5_ST_SZ_BYTES(create_mkey_in) + sizeof(*mtt) * npages;
 
        in = kvzalloc(inlen, GFP_KERNEL);
        if (!in)
@@ -271,6 +276,18 @@ static int mlx5e_create_umr_mkey(struct mlx5_core_dev *mdev,
        MLX5_SET(mkc, mkc, translations_octword_size,
                 MLX5_MTT_OCTW(npages));
        MLX5_SET(mkc, mkc, log_page_size, page_shift);
+       MLX5_SET(create_mkey_in, in, translations_octword_actual_size,
+                MLX5_MTT_OCTW(npages));
+
+       /* Initialize the mkey with all MTTs pointing to a default
+        * page (filler_addr). When the channels are activated, UMR
+        * WQEs will redirect the RX WQEs to the actual memory from
+        * the RQ's pool, while the gaps (wqe_overflow) remain mapped
+        * to the default page.
+        */
+       mtt = MLX5_ADDR_OF(create_mkey_in, in, klm_pas_mtt);
+       for (i = 0 ; i < npages ; i++)
+               mtt[i].ptag = cpu_to_be64(filler_addr);
 
        err = mlx5_core_create_mkey(mdev, umr_mkey, in, inlen);
 
@@ -282,7 +299,8 @@ static int mlx5e_create_rq_umr_mkey(struct mlx5_core_dev *mdev, struct mlx5e_rq
 {
        u64 num_mtts = MLX5E_REQUIRED_MTTS(mlx5_wq_ll_get_size(&rq->mpwqe.wq));
 
-       return mlx5e_create_umr_mkey(mdev, num_mtts, PAGE_SHIFT, &rq->umr_mkey);
+       return mlx5e_create_umr_mkey(mdev, num_mtts, PAGE_SHIFT, &rq->umr_mkey,
+                                    rq->wqe_overflow.addr);
 }
 
 static inline u64 mlx5e_get_mpwqe_offset(struct mlx5e_rq *rq, u16 wqe_ix)
@@ -350,6 +368,28 @@ static void mlx5e_rq_err_cqe_work(struct work_struct *recover_work)
        mlx5e_reporter_rq_cqe_err(rq);
 }
 
+static int mlx5e_alloc_mpwqe_rq_drop_page(struct mlx5e_rq *rq)
+{
+       rq->wqe_overflow.page = alloc_page(GFP_KERNEL);
+       if (!rq->wqe_overflow.page)
+               return -ENOMEM;
+
+       rq->wqe_overflow.addr = dma_map_page(rq->pdev, rq->wqe_overflow.page, 0,
+                                            PAGE_SIZE, rq->buff.map_dir);
+       if (dma_mapping_error(rq->pdev, rq->wqe_overflow.addr)) {
+               __free_page(rq->wqe_overflow.page);
+               return -ENOMEM;
+       }
+       return 0;
+}
+
+static void mlx5e_free_mpwqe_rq_drop_page(struct mlx5e_rq *rq)
+{
+        dma_unmap_page(rq->pdev, rq->wqe_overflow.addr, PAGE_SIZE,
+                       rq->buff.map_dir);
+        __free_page(rq->wqe_overflow.page);
+}
+
 static int mlx5e_alloc_rq(struct mlx5e_channel *c,
                          struct mlx5e_params *params,
                          struct mlx5e_xsk_param *xsk,
@@ -396,7 +436,7 @@ static int mlx5e_alloc_rq(struct mlx5e_channel *c,
                rq_xdp_ix += params->num_channels * MLX5E_RQ_GROUP_XSK;
        err = xdp_rxq_info_reg(&rq->xdp_rxq, rq->netdev, rq_xdp_ix);
        if (err < 0)
-               goto err_rq_wq_destroy;
+               goto err_rq_xdp_prog;
 
        rq->buff.map_dir = params->xdp_prog ? DMA_BIDIRECTIONAL : DMA_FROM_DEVICE;
        rq->buff.headroom = mlx5e_get_rq_headroom(mdev, params, xsk);
@@ -407,6 +447,10 @@ static int mlx5e_alloc_rq(struct mlx5e_channel *c,
                err = mlx5_wq_ll_create(mdev, &rqp->wq, rqc_wq, &rq->mpwqe.wq,
                                        &rq->wq_ctrl);
                if (err)
+                       goto err_rq_xdp;
+
+               err = mlx5e_alloc_mpwqe_rq_drop_page(rq);
+               if (err)
                        goto err_rq_wq_destroy;
 
                rq->mpwqe.wq.db = &rq->mpwqe.wq.db[MLX5_RCV_DBR];
@@ -424,18 +468,18 @@ static int mlx5e_alloc_rq(struct mlx5e_channel *c,
 
                err = mlx5e_create_rq_umr_mkey(mdev, rq);
                if (err)
-                       goto err_rq_wq_destroy;
+                       goto err_rq_drop_page;
                rq->mkey_be = cpu_to_be32(rq->umr_mkey.key);
 
                err = mlx5e_rq_alloc_mpwqe_info(rq, c);
                if (err)
-                       goto err_free;
+                       goto err_rq_mkey;
                break;
        default: /* MLX5_WQ_TYPE_CYCLIC */
                err = mlx5_wq_cyc_create(mdev, &rqp->wq, rqc_wq, &rq->wqe.wq,
                                         &rq->wq_ctrl);
                if (err)
-                       goto err_rq_wq_destroy;
+                       goto err_rq_xdp;
 
                rq->wqe.wq.db = &rq->wqe.wq.db[MLX5_RCV_DBR];
 
@@ -450,19 +494,19 @@ static int mlx5e_alloc_rq(struct mlx5e_channel *c,
                                      GFP_KERNEL, cpu_to_node(c->cpu));
                if (!rq->wqe.frags) {
                        err = -ENOMEM;
-                       goto err_free;
+                       goto err_rq_wq_destroy;
                }
 
                err = mlx5e_init_di_list(rq, wq_sz, c->cpu);
                if (err)
-                       goto err_free;
+                       goto err_rq_frags;
 
                rq->mkey_be = c->mkey_be;
        }
 
        err = mlx5e_rq_set_handlers(rq, params, xsk);
        if (err)
-               goto err_free;
+               goto err_free_by_rq_type;
 
        if (xsk) {
                err = xdp_rxq_info_reg_mem_model(&rq->xdp_rxq,
@@ -486,13 +530,13 @@ static int mlx5e_alloc_rq(struct mlx5e_channel *c,
                if (IS_ERR(rq->page_pool)) {
                        err = PTR_ERR(rq->page_pool);
                        rq->page_pool = NULL;
-                       goto err_free;
+                       goto err_free_by_rq_type;
                }
                err = xdp_rxq_info_reg_mem_model(&rq->xdp_rxq,
                                                 MEM_TYPE_PAGE_POOL, rq->page_pool);
        }
        if (err)
-               goto err_free;
+               goto err_free_by_rq_type;
 
        for (i = 0; i < wq_sz; i++) {
                if (rq->wq_type == MLX5_WQ_TYPE_LINKED_LIST_STRIDING_RQ) {
@@ -542,23 +586,27 @@ static int mlx5e_alloc_rq(struct mlx5e_channel *c,
 
        return 0;
 
-err_free:
+err_free_by_rq_type:
        switch (rq->wq_type) {
        case MLX5_WQ_TYPE_LINKED_LIST_STRIDING_RQ:
                kvfree(rq->mpwqe.info);
+err_rq_mkey:
                mlx5_core_destroy_mkey(mdev, &rq->umr_mkey);
+err_rq_drop_page:
+               mlx5e_free_mpwqe_rq_drop_page(rq);
                break;
        default: /* MLX5_WQ_TYPE_CYCLIC */
-               kvfree(rq->wqe.frags);
                mlx5e_free_di_list(rq);
+err_rq_frags:
+               kvfree(rq->wqe.frags);
        }
-
 err_rq_wq_destroy:
+       mlx5_wq_destroy(&rq->wq_ctrl);
+err_rq_xdp:
+       xdp_rxq_info_unreg(&rq->xdp_rxq);
+err_rq_xdp_prog:
        if (params->xdp_prog)
                bpf_prog_put(params->xdp_prog);
-       xdp_rxq_info_unreg(&rq->xdp_rxq);
-       page_pool_destroy(rq->page_pool);
-       mlx5_wq_destroy(&rq->wq_ctrl);
 
        return err;
 }
@@ -580,6 +628,7 @@ static void mlx5e_free_rq(struct mlx5e_rq *rq)
        case MLX5_WQ_TYPE_LINKED_LIST_STRIDING_RQ:
                kvfree(rq->mpwqe.info);
                mlx5_core_destroy_mkey(rq->mdev, &rq->umr_mkey);
+               mlx5e_free_mpwqe_rq_drop_page(rq);
                break;
        default: /* MLX5_WQ_TYPE_CYCLIC */
                kvfree(rq->wqe.frags);
@@ -4177,6 +4226,21 @@ int mlx5e_get_vf_stats(struct net_device *dev,
 }
 #endif
 
+static bool mlx5e_gre_tunnel_inner_proto_offload_supported(struct mlx5_core_dev *mdev,
+                                                          struct sk_buff *skb)
+{
+       switch (skb->inner_protocol) {
+       case htons(ETH_P_IP):
+       case htons(ETH_P_IPV6):
+       case htons(ETH_P_TEB):
+               return true;
+       case htons(ETH_P_MPLS_UC):
+       case htons(ETH_P_MPLS_MC):
+               return MLX5_CAP_ETH(mdev, tunnel_stateless_mpls_over_gre);
+       }
+       return false;
+}
+
 static netdev_features_t mlx5e_tunnel_features_check(struct mlx5e_priv *priv,
                                                     struct sk_buff *skb,
                                                     netdev_features_t features)
@@ -4199,7 +4263,9 @@ static netdev_features_t mlx5e_tunnel_features_check(struct mlx5e_priv *priv,
 
        switch (proto) {
        case IPPROTO_GRE:
-               return features;
+               if (mlx5e_gre_tunnel_inner_proto_offload_supported(priv->mdev, skb))
+                       return features;
+               break;
        case IPPROTO_IPIP:
        case IPPROTO_IPV6:
                if (mlx5e_tunnel_proto_supported(priv->mdev, IPPROTO_IPIP))
index 622c27a..0d1562e 100644 (file)
@@ -135,12 +135,6 @@ struct mlx5e_neigh_hash_entry {
        /* encap list sharing the same neigh */
        struct list_head encap_list;
 
-       /* valid only when the neigh reference is taken during
-        * neigh_update_work workqueue callback.
-        */
-       struct neighbour *n;
-       struct work_struct neigh_update_work;
-
        /* neigh hash entry can be deleted only when the refcount is zero.
         * refcount is needed to avoid neigh hash entry removal by TC, while
         * it's used by the neigh notification call.
index 31ef9f8..22a19d3 100644 (file)
@@ -189,6 +189,29 @@ u32 mlx5_eq_poll_irq_disabled(struct mlx5_eq_comp *eq)
        return count_eqe;
 }
 
+static void mlx5_eq_async_int_lock(struct mlx5_eq_async *eq, unsigned long *flags)
+       __acquires(&eq->lock)
+{
+       if (in_irq())
+               spin_lock(&eq->lock);
+       else
+               spin_lock_irqsave(&eq->lock, *flags);
+}
+
+static void mlx5_eq_async_int_unlock(struct mlx5_eq_async *eq, unsigned long *flags)
+       __releases(&eq->lock)
+{
+       if (in_irq())
+               spin_unlock(&eq->lock);
+       else
+               spin_unlock_irqrestore(&eq->lock, *flags);
+}
+
+enum async_eq_nb_action {
+       ASYNC_EQ_IRQ_HANDLER = 0,
+       ASYNC_EQ_RECOVER = 1,
+};
+
 static int mlx5_eq_async_int(struct notifier_block *nb,
                             unsigned long action, void *data)
 {
@@ -198,11 +221,14 @@ static int mlx5_eq_async_int(struct notifier_block *nb,
        struct mlx5_eq_table *eqt;
        struct mlx5_core_dev *dev;
        struct mlx5_eqe *eqe;
+       unsigned long flags;
        int num_eqes = 0;
 
        dev = eq->dev;
        eqt = dev->priv.eq_table;
 
+       mlx5_eq_async_int_lock(eq_async, &flags);
+
        eqe = next_eqe_sw(eq);
        if (!eqe)
                goto out;
@@ -223,8 +249,19 @@ static int mlx5_eq_async_int(struct notifier_block *nb,
 
 out:
        eq_update_ci(eq, 1);
+       mlx5_eq_async_int_unlock(eq_async, &flags);
 
-       return 0;
+       return unlikely(action == ASYNC_EQ_RECOVER) ? num_eqes : 0;
+}
+
+void mlx5_cmd_eq_recover(struct mlx5_core_dev *dev)
+{
+       struct mlx5_eq_async *eq = &dev->priv.eq_table->cmd_eq;
+       int eqes;
+
+       eqes = mlx5_eq_async_int(&eq->irq_nb, ASYNC_EQ_RECOVER, NULL);
+       if (eqes)
+               mlx5_core_warn(dev, "Recovered %d EQEs on cmd_eq\n", eqes);
 }
 
 static void init_eq_buf(struct mlx5_eq *eq)
@@ -569,6 +606,7 @@ setup_async_eq(struct mlx5_core_dev *dev, struct mlx5_eq_async *eq,
        int err;
 
        eq->irq_nb.notifier_call = mlx5_eq_async_int;
+       spin_lock_init(&eq->lock);
 
        err = create_async_eq(dev, &eq->core, param);
        if (err) {
@@ -656,8 +694,10 @@ static void destroy_async_eqs(struct mlx5_core_dev *dev)
 
        cleanup_async_eq(dev, &table->pages_eq, "pages");
        cleanup_async_eq(dev, &table->async_eq, "async");
+       mlx5_cmd_allowed_opcode(dev, MLX5_CMD_OP_DESTROY_EQ);
        mlx5_cmd_use_polling(dev);
        cleanup_async_eq(dev, &table->cmd_eq, "cmd");
+       mlx5_cmd_allowed_opcode(dev, CMD_ALLOWED_OPCODE_ALL);
        mlx5_eq_notifier_unregister(dev, &table->cq_err_nb);
 }
 
index 4aaca74..5c681e3 100644 (file)
@@ -37,6 +37,7 @@ struct mlx5_eq {
 struct mlx5_eq_async {
        struct mlx5_eq          core;
        struct notifier_block   irq_nb;
+       spinlock_t              lock; /* To avoid irq EQ handle races with resiliency flows */
 };
 
 struct mlx5_eq_comp {
@@ -81,6 +82,7 @@ void mlx5_cq_tasklet_cb(unsigned long data);
 struct cpumask *mlx5_eq_comp_cpumask(struct mlx5_core_dev *dev, int ix);
 
 u32 mlx5_eq_poll_irq_disabled(struct mlx5_eq_comp *eq);
+void mlx5_cmd_eq_recover(struct mlx5_core_dev *dev);
 void mlx5_eq_synchronize_async_irq(struct mlx5_core_dev *dev);
 void mlx5_eq_synchronize_cmd_irq(struct mlx5_core_dev *dev);
 
index f9b798a..c0e18f2 100644 (file)
@@ -432,7 +432,7 @@ static int reclaim_pages_cmd(struct mlx5_core_dev *dev,
        u32 npages;
        u32 i = 0;
 
-       if (dev->state != MLX5_DEVICE_STATE_INTERNAL_ERROR)
+       if (!mlx5_cmd_is_down(dev))
                return mlx5_cmd_exec(dev, in, in_size, out, out_size);
 
        /* No hard feelings, we want our pages back! */
index 373981a..6fd9749 100644 (file)
@@ -115,7 +115,7 @@ static int request_irqs(struct mlx5_core_dev *dev, int nvec)
        return 0;
 
 err_request_irq:
-       for (; i >= 0; i--) {
+       while (i--) {
                struct mlx5_irq *irq = mlx5_irq_get(dev, i);
                int irqn = pci_irq_vector(dev->pdev, i);
 
index 4186e29..f3c0e24 100644 (file)
@@ -3690,13 +3690,13 @@ bool mlxsw_sp_port_dev_check(const struct net_device *dev)
        return dev->netdev_ops == &mlxsw_sp_port_netdev_ops;
 }
 
-static int mlxsw_sp_lower_dev_walk(struct net_device *lower_dev, void *data)
+static int mlxsw_sp_lower_dev_walk(struct net_device *lower_dev,
+                                  struct netdev_nested_priv *priv)
 {
-       struct mlxsw_sp_port **p_mlxsw_sp_port = data;
        int ret = 0;
 
        if (mlxsw_sp_port_dev_check(lower_dev)) {
-               *p_mlxsw_sp_port = netdev_priv(lower_dev);
+               priv->data = (void *)netdev_priv(lower_dev);
                ret = 1;
        }
 
@@ -3705,15 +3705,16 @@ static int mlxsw_sp_lower_dev_walk(struct net_device *lower_dev, void *data)
 
 struct mlxsw_sp_port *mlxsw_sp_port_dev_lower_find(struct net_device *dev)
 {
-       struct mlxsw_sp_port *mlxsw_sp_port;
+       struct netdev_nested_priv priv = {
+               .data = NULL,
+       };
 
        if (mlxsw_sp_port_dev_check(dev))
                return netdev_priv(dev);
 
-       mlxsw_sp_port = NULL;
-       netdev_walk_all_lower_dev(dev, mlxsw_sp_lower_dev_walk, &mlxsw_sp_port);
+       netdev_walk_all_lower_dev(dev, mlxsw_sp_lower_dev_walk, &priv);
 
-       return mlxsw_sp_port;
+       return (struct mlxsw_sp_port *)priv.data;
 }
 
 struct mlxsw_sp *mlxsw_sp_lower_get(struct net_device *dev)
@@ -3726,16 +3727,17 @@ struct mlxsw_sp *mlxsw_sp_lower_get(struct net_device *dev)
 
 struct mlxsw_sp_port *mlxsw_sp_port_dev_lower_find_rcu(struct net_device *dev)
 {
-       struct mlxsw_sp_port *mlxsw_sp_port;
+       struct netdev_nested_priv priv = {
+               .data = NULL,
+       };
 
        if (mlxsw_sp_port_dev_check(dev))
                return netdev_priv(dev);
 
-       mlxsw_sp_port = NULL;
        netdev_walk_all_lower_dev_rcu(dev, mlxsw_sp_lower_dev_walk,
-                                     &mlxsw_sp_port);
+                                     &priv);
 
-       return mlxsw_sp_port;
+       return (struct mlxsw_sp_port *)priv.data;
 }
 
 struct mlxsw_sp_port *mlxsw_sp_port_lower_dev_hold(struct net_device *dev)
index 5c02040..7cccc41 100644 (file)
@@ -292,13 +292,14 @@ mlxsw_sp_acl_tcam_group_add(struct mlxsw_sp_acl_tcam *tcam,
        int err;
 
        group->tcam = tcam;
-       mutex_init(&group->lock);
        INIT_LIST_HEAD(&group->region_list);
 
        err = mlxsw_sp_acl_tcam_group_id_get(tcam, &group->id);
        if (err)
                return err;
 
+       mutex_init(&group->lock);
+
        return 0;
 }
 
index 24f1fd1..460cb52 100644 (file)
@@ -7351,9 +7351,10 @@ int mlxsw_sp_netdevice_vrf_event(struct net_device *l3_dev, unsigned long event,
        return err;
 }
 
-static int __mlxsw_sp_rif_macvlan_flush(struct net_device *dev, void *data)
+static int __mlxsw_sp_rif_macvlan_flush(struct net_device *dev,
+                                       struct netdev_nested_priv *priv)
 {
-       struct mlxsw_sp_rif *rif = data;
+       struct mlxsw_sp_rif *rif = (struct mlxsw_sp_rif *)priv->data;
 
        if (!netif_is_macvlan(dev))
                return 0;
@@ -7364,12 +7365,16 @@ static int __mlxsw_sp_rif_macvlan_flush(struct net_device *dev, void *data)
 
 static int mlxsw_sp_rif_macvlan_flush(struct mlxsw_sp_rif *rif)
 {
+       struct netdev_nested_priv priv = {
+               .data = (void *)rif,
+       };
+
        if (!netif_is_macvlan_port(rif->dev))
                return 0;
 
        netdev_warn(rif->dev, "Router interface is deleted. Upper macvlans will not work\n");
        return netdev_walk_all_upper_dev_rcu(rif->dev,
-                                            __mlxsw_sp_rif_macvlan_flush, rif);
+                                            __mlxsw_sp_rif_macvlan_flush, &priv);
 }
 
 static void mlxsw_sp_rif_subport_setup(struct mlxsw_sp_rif *rif,
index 72912af..6501ce9 100644 (file)
@@ -136,9 +136,9 @@ bool mlxsw_sp_bridge_device_is_offloaded(const struct mlxsw_sp *mlxsw_sp,
 }
 
 static int mlxsw_sp_bridge_device_upper_rif_destroy(struct net_device *dev,
-                                                   void *data)
+                                                   struct netdev_nested_priv *priv)
 {
-       struct mlxsw_sp *mlxsw_sp = data;
+       struct mlxsw_sp *mlxsw_sp = priv->data;
 
        mlxsw_sp_rif_destroy_by_dev(mlxsw_sp, dev);
        return 0;
@@ -147,10 +147,14 @@ static int mlxsw_sp_bridge_device_upper_rif_destroy(struct net_device *dev,
 static void mlxsw_sp_bridge_device_rifs_destroy(struct mlxsw_sp *mlxsw_sp,
                                                struct net_device *dev)
 {
+       struct netdev_nested_priv priv = {
+               .data = (void *)mlxsw_sp,
+       };
+
        mlxsw_sp_rif_destroy_by_dev(mlxsw_sp, dev);
        netdev_walk_all_upper_dev_rcu(dev,
                                      mlxsw_sp_bridge_device_upper_rif_destroy,
-                                     mlxsw_sp);
+                                     &priv);
 }
 
 static int mlxsw_sp_bridge_device_vxlan_init(struct mlxsw_sp_bridge *bridge,
index 8518e1d..aa002db 100644 (file)
@@ -1253,7 +1253,7 @@ void ocelot_port_set_maxlen(struct ocelot *ocelot, int port, size_t sdu)
        struct ocelot_port *ocelot_port = ocelot->ports[port];
        int maxlen = sdu + ETH_HLEN + ETH_FCS_LEN;
        int pause_start, pause_stop;
-       int atop_wm;
+       int atop, atop_tot;
 
        if (port == ocelot->npi) {
                maxlen += OCELOT_TAG_LEN;
@@ -1274,12 +1274,12 @@ void ocelot_port_set_maxlen(struct ocelot *ocelot, int port, size_t sdu)
        ocelot_fields_write(ocelot, port, SYS_PAUSE_CFG_PAUSE_STOP,
                            pause_stop);
 
-       /* Tail dropping watermark */
-       atop_wm = (ocelot->shared_queue_sz - 9 * maxlen) /
+       /* Tail dropping watermarks */
+       atop_tot = (ocelot->shared_queue_sz - 9 * maxlen) /
                   OCELOT_BUFFER_CELL_SZ;
-       ocelot_write_rix(ocelot, ocelot->ops->wm_enc(9 * maxlen),
-                        SYS_ATOP, port);
-       ocelot_write(ocelot, ocelot->ops->wm_enc(atop_wm), SYS_ATOP_TOT_CFG);
+       atop = (9 * maxlen) / OCELOT_BUFFER_CELL_SZ;
+       ocelot_write_rix(ocelot, ocelot->ops->wm_enc(atop), SYS_ATOP, port);
+       ocelot_write(ocelot, ocelot->ops->wm_enc(atop_tot), SYS_ATOP_TOT_CFG);
 }
 EXPORT_SYMBOL(ocelot_port_set_maxlen);
 
index dfb1535..8a69176 100644 (file)
@@ -745,6 +745,8 @@ static int ocelot_reset(struct ocelot *ocelot)
  */
 static u16 ocelot_wm_enc(u16 value)
 {
+       WARN_ON(value >= 16 * BIT(8));
+
        if (value >= BIT(8))
                return BIT(8) | (value / 16);
 
index fc9e662..11e6962 100644 (file)
@@ -2058,11 +2058,18 @@ static void rtl_release_firmware(struct rtl8169_private *tp)
 
 void r8169_apply_firmware(struct rtl8169_private *tp)
 {
+       int val;
+
        /* TODO: release firmware if rtl_fw_write_firmware signals failure. */
        if (tp->rtl_fw) {
                rtl_fw_write_firmware(tp, tp->rtl_fw);
                /* At least one firmware doesn't reset tp->ocp_base. */
                tp->ocp_base = OCP_STD_PHY_BASE;
+
+               /* PHY soft reset may still be in progress */
+               phy_read_poll_timeout(tp->phydev, MII_BMCR, val,
+                                     !(val & BMCR_RESET),
+                                     50000, 600000, true);
        }
 }
 
@@ -2239,14 +2246,10 @@ static void rtl_pll_power_down(struct rtl8169_private *tp)
        default:
                break;
        }
-
-       clk_disable_unprepare(tp->clk);
 }
 
 static void rtl_pll_power_up(struct rtl8169_private *tp)
 {
-       clk_prepare_enable(tp->clk);
-
        switch (tp->mac_version) {
        case RTL_GIGA_MAC_VER_25 ... RTL_GIGA_MAC_VER_33:
        case RTL_GIGA_MAC_VER_37:
@@ -2904,7 +2907,7 @@ static void rtl_hw_start_8168f_1(struct rtl8169_private *tp)
                { 0x08, 0x0001, 0x0002 },
                { 0x09, 0x0000, 0x0080 },
                { 0x19, 0x0000, 0x0224 },
-               { 0x00, 0x0000, 0x0004 },
+               { 0x00, 0x0000, 0x0008 },
                { 0x0c, 0x3df0, 0x0200 },
        };
 
@@ -2921,7 +2924,7 @@ static void rtl_hw_start_8411(struct rtl8169_private *tp)
                { 0x06, 0x00c0, 0x0020 },
                { 0x0f, 0xffff, 0x5200 },
                { 0x19, 0x0000, 0x0224 },
-               { 0x00, 0x0000, 0x0004 },
+               { 0x00, 0x0000, 0x0008 },
                { 0x0c, 0x3df0, 0x0200 },
        };
 
@@ -4826,29 +4829,43 @@ static void rtl8169_net_suspend(struct rtl8169_private *tp)
 
 #ifdef CONFIG_PM
 
+static int rtl8169_net_resume(struct rtl8169_private *tp)
+{
+       rtl_rar_set(tp, tp->dev->dev_addr);
+
+       if (tp->TxDescArray)
+               rtl8169_up(tp);
+
+       netif_device_attach(tp->dev);
+
+       return 0;
+}
+
 static int __maybe_unused rtl8169_suspend(struct device *device)
 {
        struct rtl8169_private *tp = dev_get_drvdata(device);
 
        rtnl_lock();
        rtl8169_net_suspend(tp);
+       if (!device_may_wakeup(tp_to_dev(tp)))
+               clk_disable_unprepare(tp->clk);
        rtnl_unlock();
 
        return 0;
 }
 
-static int rtl8169_resume(struct device *device)
+static int __maybe_unused rtl8169_resume(struct device *device)
 {
        struct rtl8169_private *tp = dev_get_drvdata(device);
 
-       rtl_rar_set(tp, tp->dev->dev_addr);
+       if (!device_may_wakeup(tp_to_dev(tp)))
+               clk_prepare_enable(tp->clk);
 
-       if (tp->TxDescArray)
-               rtl8169_up(tp);
+       /* Reportedly at least Asus X453MA truncates packets otherwise */
+       if (tp->mac_version == RTL_GIGA_MAC_VER_37)
+               rtl_init_rxcfg(tp);
 
-       netif_device_attach(tp->dev);
-
-       return 0;
+       return rtl8169_net_resume(tp);
 }
 
 static int rtl8169_runtime_suspend(struct device *device)
@@ -4874,7 +4891,7 @@ static int rtl8169_runtime_resume(struct device *device)
 
        __rtl8169_set_wol(tp, tp->saved_wolopts);
 
-       return rtl8169_resume(device);
+       return rtl8169_net_resume(tp);
 }
 
 static int rtl8169_runtime_idle(struct device *device)
index df89d09..99f7aae 100644 (file)
@@ -1342,51 +1342,6 @@ static inline int ravb_hook_irq(unsigned int irq, irq_handler_t handler,
        return error;
 }
 
-/* MDIO bus init function */
-static int ravb_mdio_init(struct ravb_private *priv)
-{
-       struct platform_device *pdev = priv->pdev;
-       struct device *dev = &pdev->dev;
-       int error;
-
-       /* Bitbang init */
-       priv->mdiobb.ops = &bb_ops;
-
-       /* MII controller setting */
-       priv->mii_bus = alloc_mdio_bitbang(&priv->mdiobb);
-       if (!priv->mii_bus)
-               return -ENOMEM;
-
-       /* Hook up MII support for ethtool */
-       priv->mii_bus->name = "ravb_mii";
-       priv->mii_bus->parent = dev;
-       snprintf(priv->mii_bus->id, MII_BUS_ID_SIZE, "%s-%x",
-                pdev->name, pdev->id);
-
-       /* Register MDIO bus */
-       error = of_mdiobus_register(priv->mii_bus, dev->of_node);
-       if (error)
-               goto out_free_bus;
-
-       return 0;
-
-out_free_bus:
-       free_mdio_bitbang(priv->mii_bus);
-       return error;
-}
-
-/* MDIO bus release function */
-static int ravb_mdio_release(struct ravb_private *priv)
-{
-       /* Unregister mdio bus */
-       mdiobus_unregister(priv->mii_bus);
-
-       /* Free bitbang info */
-       free_mdio_bitbang(priv->mii_bus);
-
-       return 0;
-}
-
 /* Network device open function for Ethernet AVB */
 static int ravb_open(struct net_device *ndev)
 {
@@ -1395,13 +1350,6 @@ static int ravb_open(struct net_device *ndev)
        struct device *dev = &pdev->dev;
        int error;
 
-       /* MDIO bus init */
-       error = ravb_mdio_init(priv);
-       if (error) {
-               netdev_err(ndev, "failed to initialize MDIO\n");
-               return error;
-       }
-
        napi_enable(&priv->napi[RAVB_BE]);
        napi_enable(&priv->napi[RAVB_NC]);
 
@@ -1479,7 +1427,6 @@ out_free_irq:
 out_napi_off:
        napi_disable(&priv->napi[RAVB_NC]);
        napi_disable(&priv->napi[RAVB_BE]);
-       ravb_mdio_release(priv);
        return error;
 }
 
@@ -1789,8 +1736,6 @@ static int ravb_close(struct net_device *ndev)
        ravb_ring_free(ndev, RAVB_BE);
        ravb_ring_free(ndev, RAVB_NC);
 
-       ravb_mdio_release(priv);
-
        return 0;
 }
 
@@ -1942,6 +1887,51 @@ static const struct net_device_ops ravb_netdev_ops = {
        .ndo_set_features       = ravb_set_features,
 };
 
+/* MDIO bus init function */
+static int ravb_mdio_init(struct ravb_private *priv)
+{
+       struct platform_device *pdev = priv->pdev;
+       struct device *dev = &pdev->dev;
+       int error;
+
+       /* Bitbang init */
+       priv->mdiobb.ops = &bb_ops;
+
+       /* MII controller setting */
+       priv->mii_bus = alloc_mdio_bitbang(&priv->mdiobb);
+       if (!priv->mii_bus)
+               return -ENOMEM;
+
+       /* Hook up MII support for ethtool */
+       priv->mii_bus->name = "ravb_mii";
+       priv->mii_bus->parent = dev;
+       snprintf(priv->mii_bus->id, MII_BUS_ID_SIZE, "%s-%x",
+                pdev->name, pdev->id);
+
+       /* Register MDIO bus */
+       error = of_mdiobus_register(priv->mii_bus, dev->of_node);
+       if (error)
+               goto out_free_bus;
+
+       return 0;
+
+out_free_bus:
+       free_mdio_bitbang(priv->mii_bus);
+       return error;
+}
+
+/* MDIO bus release function */
+static int ravb_mdio_release(struct ravb_private *priv)
+{
+       /* Unregister mdio bus */
+       mdiobus_unregister(priv->mii_bus);
+
+       /* Free bitbang info */
+       free_mdio_bitbang(priv->mii_bus);
+
+       return 0;
+}
+
 static const struct of_device_id ravb_match_table[] = {
        { .compatible = "renesas,etheravb-r8a7790", .data = (void *)RCAR_GEN2 },
        { .compatible = "renesas,etheravb-r8a7794", .data = (void *)RCAR_GEN2 },
@@ -2184,6 +2174,13 @@ static int ravb_probe(struct platform_device *pdev)
                eth_hw_addr_random(ndev);
        }
 
+       /* MDIO bus init */
+       error = ravb_mdio_init(priv);
+       if (error) {
+               dev_err(&pdev->dev, "failed to initialize MDIO\n");
+               goto out_dma_free;
+       }
+
        netif_napi_add(ndev, &priv->napi[RAVB_BE], ravb_poll, 64);
        netif_napi_add(ndev, &priv->napi[RAVB_NC], ravb_poll, 64);
 
@@ -2205,6 +2202,8 @@ static int ravb_probe(struct platform_device *pdev)
 out_napi_del:
        netif_napi_del(&priv->napi[RAVB_NC]);
        netif_napi_del(&priv->napi[RAVB_BE]);
+       ravb_mdio_release(priv);
+out_dma_free:
        dma_free_coherent(ndev->dev.parent, priv->desc_bat_size, priv->desc_bat,
                          priv->desc_bat_dma);
 
@@ -2236,6 +2235,7 @@ static int ravb_remove(struct platform_device *pdev)
        unregister_netdev(ndev);
        netif_napi_del(&priv->napi[RAVB_NC]);
        netif_napi_del(&priv->napi[RAVB_BE]);
+       ravb_mdio_release(priv);
        pm_runtime_disable(&pdev->dev);
        free_netdev(ndev);
        platform_set_drvdata(pdev, NULL);
index 42458a4..9cc31f7 100644 (file)
@@ -3099,9 +3099,10 @@ struct rocker_walk_data {
        struct rocker_port *port;
 };
 
-static int rocker_lower_dev_walk(struct net_device *lower_dev, void *_data)
+static int rocker_lower_dev_walk(struct net_device *lower_dev,
+                                struct netdev_nested_priv *priv)
 {
-       struct rocker_walk_data *data = _data;
+       struct rocker_walk_data *data = (struct rocker_walk_data *)priv->data;
        int ret = 0;
 
        if (rocker_port_dev_check_under(lower_dev, data->rocker)) {
@@ -3115,6 +3116,7 @@ static int rocker_lower_dev_walk(struct net_device *lower_dev, void *_data)
 struct rocker_port *rocker_port_dev_lower_find(struct net_device *dev,
                                               struct rocker *rocker)
 {
+       struct netdev_nested_priv priv;
        struct rocker_walk_data data;
 
        if (rocker_port_dev_check_under(dev, rocker))
@@ -3122,7 +3124,8 @@ struct rocker_port *rocker_port_dev_lower_find(struct net_device *dev,
 
        data.rocker = rocker;
        data.port = NULL;
-       netdev_walk_all_lower_dev(dev, rocker_lower_dev_walk, &data);
+       priv.data = (void *)&data;
+       netdev_walk_all_lower_dev(dev, rocker_lower_dev_walk, &priv);
 
        return data.port;
 }
index 2ac9dfb..9e6d60e 100644 (file)
@@ -653,7 +653,6 @@ static void intel_eth_pci_remove(struct pci_dev *pdev)
 
        pci_free_irq_vectors(pdev);
 
-       clk_disable_unprepare(priv->plat->stmmac_clk);
        clk_unregister_fixed_rate(priv->plat->stmmac_clk);
 
        pcim_iounmap_regions(pdev, BIT(0));
index 9c02fc7..5456969 100644 (file)
@@ -203,6 +203,8 @@ struct stmmac_priv {
        int eee_enabled;
        int eee_active;
        int tx_lpi_timer;
+       int tx_lpi_enabled;
+       int eee_tw_timer;
        unsigned int mode;
        unsigned int chain_mode;
        int extend_desc;
index ac5e8cc..814879f 100644 (file)
@@ -665,6 +665,7 @@ static int stmmac_ethtool_op_get_eee(struct net_device *dev,
        edata->eee_enabled = priv->eee_enabled;
        edata->eee_active = priv->eee_active;
        edata->tx_lpi_timer = priv->tx_lpi_timer;
+       edata->tx_lpi_enabled = priv->tx_lpi_enabled;
 
        return phylink_ethtool_get_eee(priv->phylink, edata);
 }
@@ -675,24 +676,26 @@ static int stmmac_ethtool_op_set_eee(struct net_device *dev,
        struct stmmac_priv *priv = netdev_priv(dev);
        int ret;
 
-       if (!edata->eee_enabled) {
+       if (!priv->dma_cap.eee)
+               return -EOPNOTSUPP;
+
+       if (priv->tx_lpi_enabled != edata->tx_lpi_enabled)
+               netdev_warn(priv->dev,
+                           "Setting EEE tx-lpi is not supported\n");
+
+       if (!edata->eee_enabled)
                stmmac_disable_eee_mode(priv);
-       } else {
-               /* We are asking for enabling the EEE but it is safe
-                * to verify all by invoking the eee_init function.
-                * In case of failure it will return an error.
-                */
-               edata->eee_enabled = stmmac_eee_init(priv);
-               if (!edata->eee_enabled)
-                       return -EOPNOTSUPP;
-       }
 
        ret = phylink_ethtool_set_eee(priv->phylink, edata);
        if (ret)
                return ret;
 
-       priv->eee_enabled = edata->eee_enabled;
-       priv->tx_lpi_timer = edata->tx_lpi_timer;
+       if (edata->eee_enabled &&
+           priv->tx_lpi_timer != edata->tx_lpi_timer) {
+               priv->tx_lpi_timer = edata->tx_lpi_timer;
+               stmmac_eee_init(priv);
+       }
+
        return 0;
 }
 
index 89b2b34..b56b13d 100644 (file)
@@ -94,7 +94,7 @@ static const u32 default_msg_level = (NETIF_MSG_DRV | NETIF_MSG_PROBE |
 static int eee_timer = STMMAC_DEFAULT_LPI_TIMER;
 module_param(eee_timer, int, 0644);
 MODULE_PARM_DESC(eee_timer, "LPI tx expiration time in msec");
-#define STMMAC_LPI_T(x) (jiffies + msecs_to_jiffies(x))
+#define STMMAC_LPI_T(x) (jiffies + usecs_to_jiffies(x))
 
 /* By default the driver will use the ring mode to manage tx and rx descriptors,
  * but allow user to force to use the chain instead of the ring
@@ -370,7 +370,7 @@ static void stmmac_eee_ctrl_timer(struct timer_list *t)
        struct stmmac_priv *priv = from_timer(priv, t, eee_ctrl_timer);
 
        stmmac_enable_eee_mode(priv);
-       mod_timer(&priv->eee_ctrl_timer, STMMAC_LPI_T(eee_timer));
+       mod_timer(&priv->eee_ctrl_timer, STMMAC_LPI_T(priv->tx_lpi_timer));
 }
 
 /**
@@ -383,7 +383,7 @@ static void stmmac_eee_ctrl_timer(struct timer_list *t)
  */
 bool stmmac_eee_init(struct stmmac_priv *priv)
 {
-       int tx_lpi_timer = priv->tx_lpi_timer;
+       int eee_tw_timer = priv->eee_tw_timer;
 
        /* Using PCS we cannot dial with the phy registers at this stage
         * so we do not support extra feature like EEE.
@@ -403,7 +403,7 @@ bool stmmac_eee_init(struct stmmac_priv *priv)
                if (priv->eee_enabled) {
                        netdev_dbg(priv->dev, "disable EEE\n");
                        del_timer_sync(&priv->eee_ctrl_timer);
-                       stmmac_set_eee_timer(priv, priv->hw, 0, tx_lpi_timer);
+                       stmmac_set_eee_timer(priv, priv->hw, 0, eee_tw_timer);
                }
                mutex_unlock(&priv->lock);
                return false;
@@ -411,11 +411,12 @@ bool stmmac_eee_init(struct stmmac_priv *priv)
 
        if (priv->eee_active && !priv->eee_enabled) {
                timer_setup(&priv->eee_ctrl_timer, stmmac_eee_ctrl_timer, 0);
-               mod_timer(&priv->eee_ctrl_timer, STMMAC_LPI_T(eee_timer));
                stmmac_set_eee_timer(priv, priv->hw, STMMAC_DEFAULT_LIT_LS,
-                                    tx_lpi_timer);
+                                    eee_tw_timer);
        }
 
+       mod_timer(&priv->eee_ctrl_timer, STMMAC_LPI_T(priv->tx_lpi_timer));
+
        mutex_unlock(&priv->lock);
        netdev_dbg(priv->dev, "Energy-Efficient Ethernet initialized\n");
        return true;
@@ -930,6 +931,7 @@ static void stmmac_mac_link_down(struct phylink_config *config,
 
        stmmac_mac_set(priv, priv->ioaddr, false);
        priv->eee_active = false;
+       priv->tx_lpi_enabled = false;
        stmmac_eee_init(priv);
        stmmac_set_eee_pls(priv, priv->hw, false);
 }
@@ -1027,6 +1029,7 @@ static void stmmac_mac_link_up(struct phylink_config *config,
        if (phy && priv->dma_cap.eee) {
                priv->eee_active = phy_init_eee(phy, 1) >= 0;
                priv->eee_enabled = stmmac_eee_init(priv);
+               priv->tx_lpi_enabled = priv->eee_enabled;
                stmmac_set_eee_pls(priv, priv->hw, true);
        }
 }
@@ -2061,7 +2064,7 @@ static int stmmac_tx_clean(struct stmmac_priv *priv, int budget, u32 queue)
 
        if ((priv->eee_enabled) && (!priv->tx_path_in_lpi_mode)) {
                stmmac_enable_eee_mode(priv);
-               mod_timer(&priv->eee_ctrl_timer, STMMAC_LPI_T(eee_timer));
+               mod_timer(&priv->eee_ctrl_timer, STMMAC_LPI_T(priv->tx_lpi_timer));
        }
 
        /* We still have pending packets, let's call for a new scheduling */
@@ -2694,7 +2697,11 @@ static int stmmac_hw_setup(struct net_device *dev, bool init_ptp)
                        netdev_warn(priv->dev, "PTP init failed\n");
        }
 
-       priv->tx_lpi_timer = STMMAC_DEFAULT_TWT_LS;
+       priv->eee_tw_timer = STMMAC_DEFAULT_TWT_LS;
+
+       /* Convert the timer from msec to usec */
+       if (!priv->tx_lpi_timer)
+               priv->tx_lpi_timer = eee_timer * 1000;
 
        if (priv->use_riwt) {
                if (!priv->rx_riwt)
index 8dc6c9f..80fde5f 100644 (file)
@@ -1168,7 +1168,7 @@ static inline struct sk_buff *vnet_skb_shape(struct sk_buff *skb, int ncookies)
                        *(__sum16 *)(skb->data + offset) = 0;
                        csum = skb_copy_and_csum_bits(skb, start,
                                                      nskb->data + start,
-                                                     skb->len - start, 0);
+                                                     skb->len - start);
 
                        /* add in the header checksums */
                        if (skb->protocol == htons(ETH_P_IP)) {
index 803247d..55b0dda 100644 (file)
@@ -2,7 +2,7 @@
 /*
        Written 1998-2001 by Donald Becker.
 
-       Current Maintainer: Roger Luethi <rl@hellgate.ch>
+       Current Maintainer: Kevin Brace <kevinbrace@bracecomputerlab.com>
 
        This software may be used and distributed according to the terms of
        the GNU General Public License (GPL), incorporated herein by reference.
@@ -32,8 +32,6 @@
 #define pr_fmt(fmt) KBUILD_MODNAME ": " fmt
 
 #define DRV_NAME       "via-rhine"
-#define DRV_VERSION    "1.5.1"
-#define DRV_RELDATE    "2010-10-09"
 
 #include <linux/types.h>
 
@@ -117,10 +115,6 @@ static const int multicast_filter_limit = 32;
 #include <linux/uaccess.h>
 #include <linux/dmi.h>
 
-/* These identify the driver base version and may not be removed. */
-static const char version[] =
-       "v1.10-LK" DRV_VERSION " " DRV_RELDATE " Written by Donald Becker";
-
 MODULE_AUTHOR("Donald Becker <becker@scyld.com>");
 MODULE_DESCRIPTION("VIA Rhine PCI Fast Ethernet driver");
 MODULE_LICENSE("GPL");
@@ -243,7 +237,7 @@ enum rhine_revs {
        VT8233          = 0x60, /* Integrated MAC */
        VT8235          = 0x74, /* Integrated MAC */
        VT8237          = 0x78, /* Integrated MAC */
-       VTunknown1      = 0x7C,
+       VT8251          = 0x7C, /* Integrated MAC */
        VT6105          = 0x80,
        VT6105_B0       = 0x83,
        VT6105L         = 0x8A,
@@ -1051,11 +1045,6 @@ static int rhine_init_one_pci(struct pci_dev *pdev,
        u32 quirks = 0;
 #endif
 
-/* when built into the kernel, we only print version if device is found */
-#ifndef MODULE
-       pr_info_once("%s\n", version);
-#endif
-
        rc = pci_enable_device(pdev);
        if (rc)
                goto err_out;
@@ -1706,6 +1695,8 @@ static int rhine_open(struct net_device *dev)
                goto out_free_ring;
 
        alloc_tbufs(dev);
+       enable_mmio(rp->pioaddr, rp->quirks);
+       rhine_power_init(dev);
        rhine_chip_reset(dev);
        rhine_task_enable(rp);
        init_registers(dev);
@@ -2294,7 +2285,6 @@ static void netdev_get_drvinfo(struct net_device *dev, struct ethtool_drvinfo *i
        struct device *hwdev = dev->dev.parent;
 
        strlcpy(info->driver, DRV_NAME, sizeof(info->driver));
-       strlcpy(info->version, DRV_VERSION, sizeof(info->version));
        strlcpy(info->bus_info, dev_name(hwdev), sizeof(info->bus_info));
 }
 
@@ -2616,9 +2606,6 @@ static int __init rhine_init(void)
        int ret_pci, ret_platform;
 
 /* when a module, this is printed whether or not devices are found in probe */
-#ifdef MODULE
-       pr_info("%s\n", version);
-#endif
        if (dmi_check_system(rhine_dmi_table)) {
                /* these BIOSes fail at PXE boot if chip is in D3 */
                avoid_D3 = true;
index 9159846..787ac2c 100644 (file)
@@ -1077,6 +1077,7 @@ static rx_handler_result_t macsec_handle_frame(struct sk_buff **pskb)
        struct macsec_rx_sa *rx_sa;
        struct macsec_rxh_data *rxd;
        struct macsec_dev *macsec;
+       unsigned int len;
        sci_t sci;
        u32 hdr_pn;
        bool cbit;
@@ -1232,9 +1233,10 @@ deliver:
        macsec_rxsc_put(rx_sc);
 
        skb_orphan(skb);
+       len = skb->len;
        ret = gro_cells_receive(&macsec->gro_cells, skb);
        if (ret == NET_RX_SUCCESS)
-               count_rx(dev, skb->len);
+               count_rx(dev, len);
        else
                macsec->secy.netdev->stats.rx_dropped++;
 
index 726e4b2..1c5a10b 100644 (file)
@@ -222,6 +222,7 @@ config MDIO_THUNDER
        depends on 64BIT
        depends on PCI
        select MDIO_CAVIUM
+       select MDIO_DEVRES
        help
          This driver supports the MDIO interfaces found on Cavium
          ThunderX SoCs when the MDIO bus device appears as a PCI
index 95dbe5e..0f09609 100644 (file)
@@ -1,6 +1,5 @@
 // SPDX-License-Identifier: GPL-2.0+
-/*
- * drivers/net/phy/realtek.c
+/* drivers/net/phy/realtek.c
  *
  * Driver for Realtek PHYs
  *
@@ -32,9 +31,9 @@
 #define RTL8211F_TX_DELAY                      BIT(8)
 #define RTL8211F_RX_DELAY                      BIT(3)
 
-#define RTL8211E_TX_DELAY                      BIT(1)
-#define RTL8211E_RX_DELAY                      BIT(2)
-#define RTL8211E_MODE_MII_GMII                 BIT(3)
+#define RTL8211E_CTRL_DELAY                    BIT(13)
+#define RTL8211E_TX_DELAY                      BIT(12)
+#define RTL8211E_RX_DELAY                      BIT(11)
 
 #define RTL8201F_ISR                           0x1e
 #define RTL8201F_IER                           0x13
@@ -246,16 +245,16 @@ static int rtl8211e_config_init(struct phy_device *phydev)
        /* enable TX/RX delay for rgmii-* modes, and disable them for rgmii. */
        switch (phydev->interface) {
        case PHY_INTERFACE_MODE_RGMII:
-               val = 0;
+               val = RTL8211E_CTRL_DELAY | 0;
                break;
        case PHY_INTERFACE_MODE_RGMII_ID:
-               val = RTL8211E_TX_DELAY | RTL8211E_RX_DELAY;
+               val = RTL8211E_CTRL_DELAY | RTL8211E_TX_DELAY | RTL8211E_RX_DELAY;
                break;
        case PHY_INTERFACE_MODE_RGMII_RXID:
-               val = RTL8211E_RX_DELAY;
+               val = RTL8211E_CTRL_DELAY | RTL8211E_RX_DELAY;
                break;
        case PHY_INTERFACE_MODE_RGMII_TXID:
-               val = RTL8211E_TX_DELAY;
+               val = RTL8211E_CTRL_DELAY | RTL8211E_TX_DELAY;
                break;
        default: /* the rest of the modes imply leaving delays as is. */
                return 0;
@@ -263,11 +262,12 @@ static int rtl8211e_config_init(struct phy_device *phydev)
 
        /* According to a sample driver there is a 0x1c config register on the
         * 0xa4 extension page (0x7) layout. It can be used to disable/enable
-        * the RX/TX delays otherwise controlled by RXDLY/TXDLY pins. It can
-        * also be used to customize the whole configuration register:
-        * 8:6 = PHY Address, 5:4 = Auto-Negotiation, 3 = Interface Mode Select,
-        * 2 = RX Delay, 1 = TX Delay, 0 = SELRGV (see original PHY datasheet
-        * for details).
+        * the RX/TX delays otherwise controlled by RXDLY/TXDLY pins.
+        * The configuration register definition:
+        * 14 = reserved
+        * 13 = Force Tx RX Delay controlled by bit12 bit11,
+        * 12 = RX Delay, 11 = TX Delay
+        * 10:0 = Test && debug settings reserved by realtek
         */
        oldpage = phy_select_page(phydev, 0x7);
        if (oldpage < 0)
@@ -277,7 +277,8 @@ static int rtl8211e_config_init(struct phy_device *phydev)
        if (ret)
                goto err_restore_page;
 
-       ret = __phy_modify(phydev, 0x1c, RTL8211E_TX_DELAY | RTL8211E_RX_DELAY,
+       ret = __phy_modify(phydev, 0x1c, RTL8211E_CTRL_DELAY
+                          | RTL8211E_TX_DELAY | RTL8211E_RX_DELAY,
                           val);
 
 err_restore_page:
index 8c1e027..bcc4a4c 100644 (file)
@@ -287,7 +287,7 @@ inst_rollback:
        for (i--; i >= 0; i--)
                __team_option_inst_del_option(team, dst_opts[i]);
 
-       i = option_count - 1;
+       i = option_count;
 alloc_rollback:
        for (i--; i >= 0; i--)
                kfree(dst_opts[i]);
@@ -2112,6 +2112,7 @@ static void team_setup_by_port(struct net_device *dev,
        dev->header_ops = port_dev->header_ops;
        dev->type = port_dev->type;
        dev->hard_header_len = port_dev->hard_header_len;
+       dev->needed_headroom = port_dev->needed_headroom;
        dev->addr_len = port_dev->addr_len;
        dev->mtu = port_dev->mtu;
        memcpy(dev->broadcast, port_dev->broadcast, port_dev->addr_len);
index a38e868..5541f3f 100644 (file)
@@ -1823,6 +1823,33 @@ static const struct driver_info belkin_info = {
        .status = ax88179_status,
        .link_reset = ax88179_link_reset,
        .reset  = ax88179_reset,
+       .stop   = ax88179_stop,
+       .flags  = FLAG_ETHER | FLAG_FRAMING_AX,
+       .rx_fixup = ax88179_rx_fixup,
+       .tx_fixup = ax88179_tx_fixup,
+};
+
+static const struct driver_info toshiba_info = {
+       .description = "Toshiba USB Ethernet Adapter",
+       .bind   = ax88179_bind,
+       .unbind = ax88179_unbind,
+       .status = ax88179_status,
+       .link_reset = ax88179_link_reset,
+       .reset  = ax88179_reset,
+       .stop = ax88179_stop,
+       .flags  = FLAG_ETHER | FLAG_FRAMING_AX,
+       .rx_fixup = ax88179_rx_fixup,
+       .tx_fixup = ax88179_tx_fixup,
+};
+
+static const struct driver_info mct_info = {
+       .description = "MCT USB 3.0 Gigabit Ethernet Adapter",
+       .bind   = ax88179_bind,
+       .unbind = ax88179_unbind,
+       .status = ax88179_status,
+       .link_reset = ax88179_link_reset,
+       .reset  = ax88179_reset,
+       .stop   = ax88179_stop,
        .flags  = FLAG_ETHER | FLAG_FRAMING_AX,
        .rx_fixup = ax88179_rx_fixup,
        .tx_fixup = ax88179_tx_fixup,
@@ -1861,6 +1888,14 @@ static const struct usb_device_id products[] = {
        /* Belkin B2B128 USB 3.0 Hub + Gigabit Ethernet Adapter */
        USB_DEVICE(0x050d, 0x0128),
        .driver_info = (unsigned long)&belkin_info,
+}, {
+       /* Toshiba USB 3.0 GBit Ethernet Adapter */
+       USB_DEVICE(0x0930, 0x0a13),
+       .driver_info = (unsigned long)&toshiba_info,
+}, {
+       /* Magic Control Technology U3-A9003 USB 3.0 Gigabit Ethernet Adapter */
+       USB_DEVICE(0x0711, 0x0179),
+       .driver_info = (unsigned long)&mct_info,
 },
        { },
 };
index e92cb51..060a8a0 100644 (file)
@@ -360,28 +360,47 @@ fail:
 }
 #endif                         /* PEGASUS_WRITE_EEPROM */
 
-static inline void get_node_id(pegasus_t *pegasus, __u8 *id)
+static inline int get_node_id(pegasus_t *pegasus, u8 *id)
 {
-       int i;
-       __u16 w16;
+       int i, ret;
+       u16 w16;
 
        for (i = 0; i < 3; i++) {
-               read_eprom_word(pegasus, i, &w16);
+               ret = read_eprom_word(pegasus, i, &w16);
+               if (ret < 0)
+                       return ret;
                ((__le16 *) id)[i] = cpu_to_le16(w16);
        }
+
+       return 0;
 }
 
 static void set_ethernet_addr(pegasus_t *pegasus)
 {
-       __u8 node_id[6];
+       int ret;
+       u8 node_id[6];
 
        if (pegasus->features & PEGASUS_II) {
-               get_registers(pegasus, 0x10, sizeof(node_id), node_id);
+               ret = get_registers(pegasus, 0x10, sizeof(node_id), node_id);
+               if (ret < 0)
+                       goto err;
        } else {
-               get_node_id(pegasus, node_id);
-               set_registers(pegasus, EthID, sizeof(node_id), node_id);
+               ret = get_node_id(pegasus, node_id);
+               if (ret < 0)
+                       goto err;
+               ret = set_registers(pegasus, EthID, sizeof(node_id), node_id);
+               if (ret < 0)
+                       goto err;
        }
+
        memcpy(pegasus->net->dev_addr, node_id, sizeof(node_id));
+
+       return;
+err:
+       eth_hw_addr_random(pegasus->net);
+       dev_info(&pegasus->intf->dev, "software assigned MAC address.\n");
+
+       return;
 }
 
 static inline int reset_mac(pegasus_t *pegasus)
index 07c42c0..5ca1356 100644 (file)
@@ -1375,6 +1375,7 @@ static const struct usb_device_id products[] = {
        {QMI_QUIRK_SET_DTR(0x2cb7, 0x0104, 4)}, /* Fibocom NL678 series */
        {QMI_FIXED_INTF(0x0489, 0xe0b4, 0)},    /* Foxconn T77W968 LTE */
        {QMI_FIXED_INTF(0x0489, 0xe0b5, 0)},    /* Foxconn T77W968 LTE with eSIM support*/
+       {QMI_FIXED_INTF(0x2692, 0x9025, 4)},    /* Cellient MPL200 (rebranded Qualcomm 05c6:9025) */
 
        /* 4. Gobi 1000 devices */
        {QMI_GOBI1K_DEVICE(0x05c6, 0x9212)},    /* Acer Gobi Modem Device */
index 733f120..9d079dc 100644 (file)
@@ -274,12 +274,20 @@ static int write_mii_word(rtl8150_t * dev, u8 phy, __u8 indx, u16 reg)
                return 1;
 }
 
-static inline void set_ethernet_addr(rtl8150_t * dev)
+static void set_ethernet_addr(rtl8150_t *dev)
 {
-       u8 node_id[6];
+       u8 node_id[ETH_ALEN];
+       int ret;
+
+       ret = get_registers(dev, IDR, sizeof(node_id), node_id);
 
-       get_registers(dev, IDR, sizeof(node_id), node_id);
-       memcpy(dev->netdev->dev_addr, node_id, sizeof(node_id));
+       if (ret == sizeof(node_id)) {
+               ether_addr_copy(dev->netdev->dev_addr, node_id);
+       } else {
+               eth_hw_addr_random(dev->netdev);
+               netdev_notice(dev->netdev, "Assigned a random MAC address: %pM\n",
+                             dev->netdev->dev_addr);
+       }
 }
 
 static int rtl8150_set_mac_address(struct net_device *netdev, void *p)
index 263b005..668685c 100644 (file)
@@ -63,6 +63,11 @@ static const unsigned long guest_offloads[] = {
        VIRTIO_NET_F_GUEST_CSUM
 };
 
+#define GUEST_OFFLOAD_LRO_MASK ((1ULL << VIRTIO_NET_F_GUEST_TSO4) | \
+                               (1ULL << VIRTIO_NET_F_GUEST_TSO6) | \
+                               (1ULL << VIRTIO_NET_F_GUEST_ECN)  | \
+                               (1ULL << VIRTIO_NET_F_GUEST_UFO))
+
 struct virtnet_stat_desc {
        char desc[ETH_GSTRING_LEN];
        size_t offset;
@@ -2531,7 +2536,8 @@ static int virtnet_set_features(struct net_device *dev,
                if (features & NETIF_F_LRO)
                        offloads = vi->guest_offloads_capable;
                else
-                       offloads = 0;
+                       offloads = vi->guest_offloads_capable &
+                                  ~GUEST_OFFLOAD_LRO_MASK;
 
                err = virtnet_set_guest_offloads(vi, offloads);
                if (err)
index 2818015..336504b 100644 (file)
@@ -1032,7 +1032,6 @@ vmxnet3_tq_xmit(struct sk_buff *skb, struct vmxnet3_tx_queue *tq,
        /* Use temporary descriptor to avoid touching bits multiple times */
        union Vmxnet3_GenericDesc tempTxDesc;
 #endif
-       struct udphdr *udph;
 
        count = txd_estimate(skb);
 
@@ -1135,8 +1134,7 @@ vmxnet3_tq_xmit(struct sk_buff *skb, struct vmxnet3_tx_queue *tq,
                        gdesc->txd.om = VMXNET3_OM_ENCAP;
                        gdesc->txd.msscof = ctx.mss;
 
-                       udph = udp_hdr(skb);
-                       if (udph->check)
+                       if (skb_shinfo(skb)->gso_type & SKB_GSO_UDP_TUNNEL_CSUM)
                                gdesc->txd.oco = 1;
                } else {
                        gdesc->txd.hlen = ctx.l4_offset + ctx.l4_hdr_size;
@@ -3371,6 +3369,7 @@ vmxnet3_probe_device(struct pci_dev *pdev,
                .ndo_change_mtu = vmxnet3_change_mtu,
                .ndo_fix_features = vmxnet3_fix_features,
                .ndo_set_features = vmxnet3_set_features,
+               .ndo_features_check = vmxnet3_features_check,
                .ndo_get_stats64 = vmxnet3_get_stats64,
                .ndo_tx_timeout = vmxnet3_tx_timeout,
                .ndo_set_rx_mode = vmxnet3_set_mc,
index 1014693..7ec8652 100644 (file)
@@ -267,6 +267,34 @@ netdev_features_t vmxnet3_fix_features(struct net_device *netdev,
        return features;
 }
 
+netdev_features_t vmxnet3_features_check(struct sk_buff *skb,
+                                        struct net_device *netdev,
+                                        netdev_features_t features)
+{
+       struct vmxnet3_adapter *adapter = netdev_priv(netdev);
+
+       /* Validate if the tunneled packet is being offloaded by the device */
+       if (VMXNET3_VERSION_GE_4(adapter) &&
+           skb->encapsulation && skb->ip_summed == CHECKSUM_PARTIAL) {
+               u8 l4_proto = 0;
+
+               switch (vlan_get_protocol(skb)) {
+               case htons(ETH_P_IP):
+                       l4_proto = ip_hdr(skb)->protocol;
+                       break;
+               case htons(ETH_P_IPV6):
+                       l4_proto = ipv6_hdr(skb)->nexthdr;
+                       break;
+               default:
+                       return features & ~(NETIF_F_CSUM_MASK | NETIF_F_GSO_MASK);
+               }
+
+               if (l4_proto != IPPROTO_UDP)
+                       return features & ~(NETIF_F_CSUM_MASK | NETIF_F_GSO_MASK);
+       }
+       return features;
+}
+
 static void vmxnet3_enable_encap_offloads(struct net_device *netdev)
 {
        struct vmxnet3_adapter *adapter = netdev_priv(netdev);
index 5d2b062..d958b92 100644 (file)
@@ -470,6 +470,10 @@ vmxnet3_rq_destroy_all(struct vmxnet3_adapter *adapter);
 netdev_features_t
 vmxnet3_fix_features(struct net_device *netdev, netdev_features_t features);
 
+netdev_features_t
+vmxnet3_features_check(struct sk_buff *skb,
+                      struct net_device *netdev, netdev_features_t features);
+
 int
 vmxnet3_set_features(struct net_device *netdev, netdev_features_t features);
 
index 7ee9805..c418767 100644 (file)
@@ -464,7 +464,6 @@ static int x25_asy_open(struct net_device *dev)
 {
        struct x25_asy *sl = netdev_priv(dev);
        unsigned long len;
-       int err;
 
        if (sl->tty == NULL)
                return -ENODEV;
@@ -490,14 +489,7 @@ static int x25_asy_open(struct net_device *dev)
        sl->xleft    = 0;
        sl->flags   &= (1 << SLF_INUSE);      /* Clear ESCAPE & ERROR flags */
 
-       netif_start_queue(dev);
-
-       /*
-        *      Now attach LAPB
-        */
-       err = lapb_register(dev, &x25_asy_callbacks);
-       if (err == LAPB_OK)
-               return 0;
+       return 0;
 
        /* Cleanup */
        kfree(sl->xbuff);
@@ -519,7 +511,6 @@ static int x25_asy_close(struct net_device *dev)
        if (sl->tty)
                clear_bit(TTY_DO_WRITE_WAKEUP, &sl->tty->flags);
 
-       netif_stop_queue(dev);
        sl->rcount = 0;
        sl->xleft  = 0;
        spin_unlock(&sl->lock);
@@ -604,7 +595,6 @@ static int x25_asy_open_tty(struct tty_struct *tty)
 static void x25_asy_close_tty(struct tty_struct *tty)
 {
        struct x25_asy *sl = tty->disc_data;
-       int err;
 
        /* First make sure we're connected. */
        if (!sl || sl->magic != X25_ASY_MAGIC)
@@ -615,11 +605,6 @@ static void x25_asy_close_tty(struct tty_struct *tty)
                dev_close(sl->dev);
        rtnl_unlock();
 
-       err = lapb_unregister(sl->dev);
-       if (err != LAPB_OK)
-               pr_err("%s: lapb_unregister error: %d\n",
-                      __func__, err);
-
        tty->disc_data = NULL;
        sl->tty = NULL;
        x25_asy_free(sl);
@@ -722,15 +707,39 @@ static int x25_asy_ioctl(struct tty_struct *tty, struct file *file,
 
 static int x25_asy_open_dev(struct net_device *dev)
 {
+       int err;
        struct x25_asy *sl = netdev_priv(dev);
        if (sl->tty == NULL)
                return -ENODEV;
+
+       err = lapb_register(dev, &x25_asy_callbacks);
+       if (err != LAPB_OK)
+               return -ENOMEM;
+
+       netif_start_queue(dev);
+
+       return 0;
+}
+
+static int x25_asy_close_dev(struct net_device *dev)
+{
+       int err;
+
+       netif_stop_queue(dev);
+
+       err = lapb_unregister(dev);
+       if (err != LAPB_OK)
+               pr_err("%s: lapb_unregister error: %d\n",
+                      __func__, err);
+
+       x25_asy_close(dev);
+
        return 0;
 }
 
 static const struct net_device_ops x25_asy_netdev_ops = {
        .ndo_open       = x25_asy_open_dev,
-       .ndo_stop       = x25_asy_close,
+       .ndo_stop       = x25_asy_close_dev,
        .ndo_start_xmit = x25_asy_xmit,
        .ndo_tx_timeout = x25_asy_timeout,
        .ndo_change_mtu = x25_asy_change_mtu,
index b1e7b44..1650d58 100644 (file)
@@ -160,11 +160,7 @@ config LIBIPW
        select WIRELESS_EXT
        select WEXT_SPY
        select CRYPTO
-       select CRYPTO_ARC4
-       select CRYPTO_ECB
-       select CRYPTO_AES
        select CRYPTO_MICHAEL_MIC
-       select CRYPTO_ECB
        select CRC32
        select LIB80211
        select LIB80211_CRYPT_WEP
index 6ad8829..c865d31 100644 (file)
@@ -5,11 +5,7 @@ config HOSTAP
        select WEXT_SPY
        select WEXT_PRIV
        select CRYPTO
-       select CRYPTO_ARC4
-       select CRYPTO_ECB
-       select CRYPTO_AES
        select CRYPTO_MICHAEL_MIC
-       select CRYPTO_ECB
        select CRC32
        select LIB80211
        select LIB80211_CRYPT_WEP
index fc1ebab..1f57b43 100644 (file)
@@ -460,7 +460,7 @@ void mt7615_init_device(struct mt7615_dev *dev)
        dev->mphy.sband_2g.sband.ht_cap.cap |= IEEE80211_HT_CAP_LDPC_CODING;
        dev->mphy.sband_5g.sband.ht_cap.cap |= IEEE80211_HT_CAP_LDPC_CODING;
        dev->mphy.sband_5g.sband.vht_cap.cap |=
-                       IEEE80211_VHT_CAP_MAX_MPDU_LENGTH_11454 |
+                       IEEE80211_VHT_CAP_MAX_MPDU_LENGTH_7991 |
                        IEEE80211_VHT_CAP_MAX_A_MPDU_LENGTH_EXPONENT_MASK;
        mt7615_cap_dbdc_disable(dev);
        dev->phy.dfs_state = -1;
index 6aafff9..e013ebe 100644 (file)
@@ -671,9 +671,10 @@ bool qtnf_netdev_is_qtn(const struct net_device *ndev)
        return ndev->netdev_ops == &qtnf_netdev_ops;
 }
 
-static int qtnf_check_br_ports(struct net_device *dev, void *data)
+static int qtnf_check_br_ports(struct net_device *dev,
+                              struct netdev_nested_priv *priv)
 {
-       struct net_device *ndev = data;
+       struct net_device *ndev = (struct net_device *)priv->data;
 
        if (dev != ndev && netdev_port_same_parent_id(dev, ndev))
                return -ENOTSUPP;
@@ -686,6 +687,9 @@ static int qtnf_core_netdevice_event(struct notifier_block *nb,
 {
        struct net_device *ndev = netdev_notifier_info_to_dev(ptr);
        const struct netdev_notifier_changeupper_info *info;
+       struct netdev_nested_priv priv = {
+               .data = (void *)ndev,
+       };
        struct net_device *brdev;
        struct qtnf_vif *vif;
        struct qtnf_bus *bus;
@@ -725,7 +729,7 @@ static int qtnf_core_netdevice_event(struct notifier_block *nb,
                } else {
                        ret = netdev_walk_all_lower_dev(brdev,
                                                        qtnf_check_br_ports,
-                                                       ndev);
+                                                       &priv);
                }
 
                break;
index 45964ac..22d865b 100644 (file)
@@ -268,7 +268,7 @@ static int nsio_rw_bytes(struct nd_namespace_common *ndns,
        if (rw == READ) {
                if (unlikely(is_bad_pmem(&nsio->bb, sector, sz_align)))
                        return -EIO;
-               if (memcpy_mcsafe(buf, nsio->addr + offset, size) != 0)
+               if (copy_mc_to_kernel(buf, nsio->addr + offset, size) != 0)
                        return -EIO;
                return 0;
        }
index fab29b5..5c6939e 100644 (file)
@@ -125,7 +125,7 @@ static blk_status_t read_pmem(struct page *page, unsigned int off,
        while (len) {
                mem = kmap_atomic(page);
                chunk = min_t(unsigned int, len, PAGE_SIZE - off);
-               rem = memcpy_mcsafe(mem + off, pmem_addr, chunk);
+               rem = copy_mc_to_kernel(mem + off, pmem_addr, chunk);
                kunmap_atomic(mem);
                if (rem)
                        return BLK_STS_IOERR;
@@ -304,7 +304,7 @@ static long pmem_dax_direct_access(struct dax_device *dax_dev,
 
 /*
  * Use the 'no check' versions of copy_from_iter_flushcache() and
- * copy_to_iter_mcsafe() to bypass HARDENED_USERCOPY overhead. Bounds
+ * copy_mc_to_iter() to bypass HARDENED_USERCOPY overhead. Bounds
  * checking, both file offset and device offset, is handled by
  * dax_iomap_actor()
  */
@@ -317,7 +317,7 @@ static size_t pmem_copy_from_iter(struct dax_device *dax_dev, pgoff_t pgoff,
 static size_t pmem_copy_to_iter(struct dax_device *dax_dev, pgoff_t pgoff,
                void *addr, size_t bytes, struct iov_iter *i)
 {
-       return _copy_to_iter_mcsafe(addr, bytes, i);
+       return _copy_mc_to_iter(addr, bytes, i);
 }
 
 static const struct dax_operations pmem_dax_ops = {
index 8f9d61e..893e296 100644 (file)
@@ -3265,8 +3265,10 @@ static int nvme_dev_open(struct inode *inode, struct file *file)
        }
 
        nvme_get_ctrl(ctrl);
-       if (!try_module_get(ctrl->ops->module))
+       if (!try_module_get(ctrl->ops->module)) {
+               nvme_put_ctrl(ctrl);
                return -EINVAL;
+       }
 
        file->private_data = ctrl;
        return 0;
index 8f4f29f..d6a3e14 100644 (file)
@@ -913,12 +913,11 @@ static int nvme_tcp_try_send_data(struct nvme_tcp_request *req)
                else
                        flags |= MSG_MORE | MSG_SENDPAGE_NOTLAST;
 
-               /* can't zcopy slab pages */
-               if (unlikely(PageSlab(page))) {
-                       ret = sock_no_sendpage(queue->sock, page, offset, len,
+               if (sendpage_ok(page)) {
+                       ret = kernel_sendpage(queue->sock, page, offset, len,
                                        flags);
                } else {
-                       ret = kernel_sendpage(queue->sock, page, offset, len,
+                       ret = sock_no_sendpage(queue->sock, page, offset, len,
                                        flags);
                }
                if (ret <= 0)
index 4d76952..cc91786 100644 (file)
@@ -116,7 +116,7 @@ module_load_notify(struct notifier_block *self, unsigned long val, void *data)
 {
 #ifdef CONFIG_MODULES
        if (val != MODULE_STATE_COMING)
-               return 0;
+               return NOTIFY_DONE;
 
        /* FIXME: should we process all CPU buffers ? */
        mutex_lock(&buffer_mutex);
@@ -124,7 +124,7 @@ module_load_notify(struct notifier_block *self, unsigned long val, void *data)
        add_event_entry(MODULE_LOADED_CODE);
        mutex_unlock(&buffer_mutex);
 #endif
-       return 0;
+       return NOTIFY_OK;
 }
 
 
index 4bef5c2..438a792 100644 (file)
@@ -56,6 +56,9 @@ config PCI_MSI_IRQ_DOMAIN
        depends on PCI_MSI
        select GENERIC_MSI_IRQ_DOMAIN
 
+config PCI_MSI_ARCH_FALLBACKS
+       bool
+
 config PCI_QUIRKS
        default y
        bool "Enable PCI quirk workarounds" if EXPERT
index f18c372..4a7afbe 100644 (file)
@@ -41,6 +41,7 @@ config PCI_TEGRA
        bool "NVIDIA Tegra PCIe controller"
        depends on ARCH_TEGRA || COMPILE_TEST
        depends on PCI_MSI_IRQ_DOMAIN
+       select PCI_MSI_ARCH_FALLBACKS
        help
          Say Y here if you want support for the PCIe host controller found
          on NVIDIA Tegra SoCs.
@@ -67,6 +68,7 @@ config PCIE_RCAR_HOST
        bool "Renesas R-Car PCIe host controller"
        depends on ARCH_RENESAS || COMPILE_TEST
        depends on PCI_MSI_IRQ_DOMAIN
+       select PCI_MSI_ARCH_FALLBACKS
        help
          Say Y here if you want PCIe controller support on R-Car SoCs in host
          mode.
@@ -95,6 +97,7 @@ config PCI_HOST_GENERIC
 config PCIE_XILINX
        bool "Xilinx AXI PCIe host bridge support"
        depends on OF || COMPILE_TEST
+       select PCI_MSI_ARCH_FALLBACKS
        help
          Say 'Y' here if you want kernel to support the Xilinx AXI PCIe
          Host Bridge driver.
index fc4c3a1..25b4c90 100644 (file)
@@ -1531,16 +1531,8 @@ static struct irq_chip hv_msi_irq_chip = {
        .irq_unmask             = hv_irq_unmask,
 };
 
-static irq_hw_number_t hv_msi_domain_ops_get_hwirq(struct msi_domain_info *info,
-                                                  msi_alloc_info_t *arg)
-{
-       return arg->msi_hwirq;
-}
-
 static struct msi_domain_ops hv_msi_ops = {
-       .get_hwirq      = hv_msi_domain_ops_get_hwirq,
        .msi_prepare    = pci_msi_prepare,
-       .set_desc       = pci_msi_set_desc,
        .msi_free       = hv_msi_free,
 };
 
index f69ef8c..aa1b12b 100644 (file)
@@ -573,12 +573,19 @@ static int vmd_enable_domain(struct vmd_dev *vmd, unsigned long features)
                return -ENODEV;
 
        vmd->irq_domain = pci_msi_create_irq_domain(fn, &vmd_msi_domain_info,
-                                                   x86_vector_domain);
+                                                   NULL);
+
        if (!vmd->irq_domain) {
                irq_domain_free_fwnode(fn);
                return -ENODEV;
        }
 
+       /*
+        * Override the irq domain bus token so the domain can be distinguished
+        * from a regular PCI/MSI domain.
+        */
+       irq_domain_update_bus_token(vmd->irq_domain, DOMAIN_BUS_VMD_MSI);
+
        pci_add_resource(&resources, &vmd->resources[0]);
        pci_add_resource_offset(&resources, &vmd->resources[1], offset[0]);
        pci_add_resource_offset(&resources, &vmd->resources[2], offset[1]);
index 30ae4ff..d52d118 100644 (file)
@@ -58,8 +58,8 @@ static void pci_msi_teardown_msi_irqs(struct pci_dev *dev)
 #define pci_msi_teardown_msi_irqs      arch_teardown_msi_irqs
 #endif
 
+#ifdef CONFIG_PCI_MSI_ARCH_FALLBACKS
 /* Arch hooks */
-
 int __weak arch_setup_msi_irq(struct pci_dev *dev, struct msi_desc *desc)
 {
        struct msi_controller *chip = dev->bus->msi;
@@ -132,6 +132,7 @@ void __weak arch_teardown_msi_irqs(struct pci_dev *dev)
 {
        return default_teardown_msi_irqs(dev);
 }
+#endif /* CONFIG_PCI_MSI_ARCH_FALLBACKS */
 
 static void default_restore_msi_irq(struct pci_dev *dev, int irq)
 {
@@ -1346,14 +1347,14 @@ void pci_msi_domain_write_msg(struct irq_data *irq_data, struct msi_msg *msg)
 
 /**
  * pci_msi_domain_calc_hwirq - Generate a unique ID for an MSI source
- * @dev:       Pointer to the PCI device
  * @desc:      Pointer to the MSI descriptor
  *
  * The ID number is only used within the irqdomain.
  */
-irq_hw_number_t pci_msi_domain_calc_hwirq(struct pci_dev *dev,
-                                         struct msi_desc *desc)
+static irq_hw_number_t pci_msi_domain_calc_hwirq(struct msi_desc *desc)
 {
+       struct pci_dev *dev = msi_desc_to_pci_dev(desc);
+
        return (irq_hw_number_t)desc->msi_attrib.entry_nr |
                pci_dev_id(dev) << 11 |
                (pci_domain_nr(dev->bus) & 0xFFFFFFFF) << 27;
@@ -1401,17 +1402,12 @@ static int pci_msi_domain_handle_error(struct irq_domain *domain,
        return error;
 }
 
-#ifdef GENERIC_MSI_DOMAIN_OPS
 static void pci_msi_domain_set_desc(msi_alloc_info_t *arg,
                                    struct msi_desc *desc)
 {
        arg->desc = desc;
-       arg->hwirq = pci_msi_domain_calc_hwirq(msi_desc_to_pci_dev(desc),
-                                              desc);
+       arg->hwirq = pci_msi_domain_calc_hwirq(desc);
 }
-#else
-#define pci_msi_domain_set_desc                NULL
-#endif
 
 static struct msi_domain_ops pci_msi_domain_ops_default = {
        .set_desc       = pci_msi_domain_set_desc,
@@ -1558,4 +1554,26 @@ struct irq_domain *pci_msi_get_device_domain(struct pci_dev *pdev)
                                             DOMAIN_BUS_PCI_MSI);
        return dom;
 }
+
+/**
+ * pci_dev_has_special_msi_domain - Check whether the device is handled by
+ *                                 a non-standard PCI-MSI domain
+ * @pdev:      The PCI device to check.
+ *
+ * Returns: True if the device irqdomain or the bus irqdomain is
+ * non-standard PCI/MSI.
+ */
+bool pci_dev_has_special_msi_domain(struct pci_dev *pdev)
+{
+       struct irq_domain *dom = dev_get_msi_domain(&pdev->dev);
+
+       if (!dom)
+               dom = dev_get_msi_domain(&pdev->bus->dev);
+
+       if (!dom)
+               return true;
+
+       return dom->bus_token != DOMAIN_BUS_PCI_MSI;
+}
+
 #endif /* CONFIG_PCI_MSI_IRQ_DOMAIN */
index 7305d57..130327f 100644 (file)
@@ -41,6 +41,13 @@ config ARM_CCN
          PMU (perf) driver supporting the ARM CCN (Cache Coherent Network)
          interconnect.
 
+config ARM_CMN
+       tristate "Arm CMN-600 PMU support"
+       depends on ARM64 || (COMPILE_TEST && 64BIT)
+       help
+         Support for PMU events monitoring on the Arm CMN-600 Coherent Mesh
+         Network interconnect.
+
 config ARM_PMU
        depends on ARM || ARM64
        bool "ARM PMU framework"
index 2ebb4de..5365fd5 100644 (file)
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: GPL-2.0
 obj-$(CONFIG_ARM_CCI_PMU) += arm-cci.o
 obj-$(CONFIG_ARM_CCN) += arm-ccn.o
+obj-$(CONFIG_ARM_CMN) += arm-cmn.o
 obj-$(CONFIG_ARM_DSU_PMU) += arm_dsu_pmu.o
 obj-$(CONFIG_ARM_PMU) += arm_pmu.o arm_pmu_platform.o
 obj-$(CONFIG_ARM_PMU_ACPI) += arm_pmu_acpi.o
diff --git a/drivers/perf/arm-cmn.c b/drivers/perf/arm-cmn.c
new file mode 100644 (file)
index 0000000..a76ff59
--- /dev/null
@@ -0,0 +1,1641 @@
+// SPDX-License-Identifier: GPL-2.0
+// Copyright (C) 2016-2020 Arm Limited
+// CMN-600 Coherent Mesh Network PMU driver
+
+#include <linux/acpi.h>
+#include <linux/bitfield.h>
+#include <linux/bitops.h>
+#include <linux/interrupt.h>
+#include <linux/io.h>
+#include <linux/kernel.h>
+#include <linux/list.h>
+#include <linux/module.h>
+#include <linux/of.h>
+#include <linux/perf_event.h>
+#include <linux/platform_device.h>
+#include <linux/slab.h>
+#include <linux/sort.h>
+
+/* Common register stuff */
+#define CMN_NODE_INFO                  0x0000
+#define CMN_NI_NODE_TYPE               GENMASK_ULL(15, 0)
+#define CMN_NI_NODE_ID                 GENMASK_ULL(31, 16)
+#define CMN_NI_LOGICAL_ID              GENMASK_ULL(47, 32)
+
+#define CMN_NODEID_DEVID(reg)          ((reg) & 3)
+#define CMN_NODEID_PID(reg)            (((reg) >> 2) & 1)
+#define CMN_NODEID_X(reg, bits)                ((reg) >> (3 + (bits)))
+#define CMN_NODEID_Y(reg, bits)                (((reg) >> 3) & ((1U << (bits)) - 1))
+
+#define CMN_CHILD_INFO                 0x0080
+#define CMN_CI_CHILD_COUNT             GENMASK_ULL(15, 0)
+#define CMN_CI_CHILD_PTR_OFFSET                GENMASK_ULL(31, 16)
+
+#define CMN_CHILD_NODE_ADDR            GENMASK(27,0)
+#define CMN_CHILD_NODE_EXTERNAL                BIT(31)
+
+#define CMN_ADDR_NODE_PTR              GENMASK(27, 14)
+
+#define CMN_NODE_PTR_DEVID(ptr)                (((ptr) >> 2) & 3)
+#define CMN_NODE_PTR_PID(ptr)          ((ptr) & 1)
+#define CMN_NODE_PTR_X(ptr, bits)      ((ptr) >> (6 + (bits)))
+#define CMN_NODE_PTR_Y(ptr, bits)      (((ptr) >> 6) & ((1U << (bits)) - 1))
+
+#define CMN_MAX_XPS                    (8 * 8)
+
+/* The CFG node has one other useful purpose */
+#define CMN_CFGM_PERIPH_ID_2           0x0010
+#define CMN_CFGM_PID2_REVISION         GENMASK(7, 4)
+
+/* PMU registers occupy the 3rd 4KB page of each node's 16KB space */
+#define CMN_PMU_OFFSET                 0x2000
+
+/* For most nodes, this is all there is */
+#define CMN_PMU_EVENT_SEL              0x000
+#define CMN_PMU_EVENTn_ID_SHIFT(n)     ((n) * 8)
+
+/* DTMs live in the PMU space of XP registers */
+#define CMN_DTM_WPn(n)                 (0x1A0 + (n) * 0x18)
+#define CMN_DTM_WPn_CONFIG(n)          (CMN_DTM_WPn(n) + 0x00)
+#define CMN_DTM_WPn_CONFIG_WP_COMBINE  BIT(6)
+#define CMN_DTM_WPn_CONFIG_WP_EXCLUSIVE        BIT(5)
+#define CMN_DTM_WPn_CONFIG_WP_GRP      BIT(4)
+#define CMN_DTM_WPn_CONFIG_WP_CHN_SEL  GENMASK_ULL(3, 1)
+#define CMN_DTM_WPn_CONFIG_WP_DEV_SEL  BIT(0)
+#define CMN_DTM_WPn_VAL(n)             (CMN_DTM_WPn(n) + 0x08)
+#define CMN_DTM_WPn_MASK(n)            (CMN_DTM_WPn(n) + 0x10)
+
+#define CMN_DTM_PMU_CONFIG             0x210
+#define CMN__PMEVCNT0_INPUT_SEL                GENMASK_ULL(37, 32)
+#define CMN__PMEVCNT0_INPUT_SEL_WP     0x00
+#define CMN__PMEVCNT0_INPUT_SEL_XP     0x04
+#define CMN__PMEVCNT0_INPUT_SEL_DEV    0x10
+#define CMN__PMEVCNT0_GLOBAL_NUM       GENMASK_ULL(18, 16)
+#define CMN__PMEVCNTn_GLOBAL_NUM_SHIFT(n)      ((n) * 4)
+#define CMN__PMEVCNT_PAIRED(n)         BIT(4 + (n))
+#define CMN__PMEVCNT23_COMBINED                BIT(2)
+#define CMN__PMEVCNT01_COMBINED                BIT(1)
+#define CMN_DTM_PMU_CONFIG_PMU_EN      BIT(0)
+
+#define CMN_DTM_PMEVCNT                        0x220
+
+#define CMN_DTM_PMEVCNTSR              0x240
+
+#define CMN_DTM_NUM_COUNTERS           4
+
+/* The DTC node is where the magic happens */
+#define CMN_DT_DTC_CTL                 0x0a00
+#define CMN_DT_DTC_CTL_DT_EN           BIT(0)
+
+/* DTC counters are paired in 64-bit registers on a 16-byte stride. Yuck */
+#define _CMN_DT_CNT_REG(n)             ((((n) / 2) * 4 + (n) % 2) * 4)
+#define CMN_DT_PMEVCNT(n)              (CMN_PMU_OFFSET + _CMN_DT_CNT_REG(n))
+#define CMN_DT_PMCCNTR                 (CMN_PMU_OFFSET + 0x40)
+
+#define CMN_DT_PMEVCNTSR(n)            (CMN_PMU_OFFSET + 0x50 + _CMN_DT_CNT_REG(n))
+#define CMN_DT_PMCCNTRSR               (CMN_PMU_OFFSET + 0x90)
+
+#define CMN_DT_PMCR                    (CMN_PMU_OFFSET + 0x100)
+#define CMN_DT_PMCR_PMU_EN             BIT(0)
+#define CMN_DT_PMCR_CNTR_RST           BIT(5)
+#define CMN_DT_PMCR_OVFL_INTR_EN       BIT(6)
+
+#define CMN_DT_PMOVSR                  (CMN_PMU_OFFSET + 0x118)
+#define CMN_DT_PMOVSR_CLR              (CMN_PMU_OFFSET + 0x120)
+
+#define CMN_DT_PMSSR                   (CMN_PMU_OFFSET + 0x128)
+#define CMN_DT_PMSSR_SS_STATUS(n)      BIT(n)
+
+#define CMN_DT_PMSRR                   (CMN_PMU_OFFSET + 0x130)
+#define CMN_DT_PMSRR_SS_REQ            BIT(0)
+
+#define CMN_DT_NUM_COUNTERS            8
+#define CMN_MAX_DTCS                   4
+
+/*
+ * Even in the worst case a DTC counter can't wrap in fewer than 2^42 cycles,
+ * so throwing away one bit to make overflow handling easy is no big deal.
+ */
+#define CMN_COUNTER_INIT               0x80000000
+/* Similarly for the 40-bit cycle counter */
+#define CMN_CC_INIT                    0x8000000000ULL
+
+
+/* Event attributes */
+#define CMN_CONFIG_TYPE                        GENMASK(15, 0)
+#define CMN_CONFIG_EVENTID             GENMASK(23, 16)
+#define CMN_CONFIG_OCCUPID             GENMASK(27, 24)
+#define CMN_CONFIG_BYNODEID            BIT(31)
+#define CMN_CONFIG_NODEID              GENMASK(47, 32)
+
+#define CMN_EVENT_TYPE(event)          FIELD_GET(CMN_CONFIG_TYPE, (event)->attr.config)
+#define CMN_EVENT_EVENTID(event)       FIELD_GET(CMN_CONFIG_EVENTID, (event)->attr.config)
+#define CMN_EVENT_OCCUPID(event)       FIELD_GET(CMN_CONFIG_OCCUPID, (event)->attr.config)
+#define CMN_EVENT_BYNODEID(event)      FIELD_GET(CMN_CONFIG_BYNODEID, (event)->attr.config)
+#define CMN_EVENT_NODEID(event)                FIELD_GET(CMN_CONFIG_NODEID, (event)->attr.config)
+
+#define CMN_CONFIG_WP_COMBINE          GENMASK(27, 24)
+#define CMN_CONFIG_WP_DEV_SEL          BIT(48)
+#define CMN_CONFIG_WP_CHN_SEL          GENMASK(50, 49)
+#define CMN_CONFIG_WP_GRP              BIT(52)
+#define CMN_CONFIG_WP_EXCLUSIVE                BIT(53)
+#define CMN_CONFIG1_WP_VAL             GENMASK(63, 0)
+#define CMN_CONFIG2_WP_MASK            GENMASK(63, 0)
+
+#define CMN_EVENT_WP_COMBINE(event)    FIELD_GET(CMN_CONFIG_WP_COMBINE, (event)->attr.config)
+#define CMN_EVENT_WP_DEV_SEL(event)    FIELD_GET(CMN_CONFIG_WP_DEV_SEL, (event)->attr.config)
+#define CMN_EVENT_WP_CHN_SEL(event)    FIELD_GET(CMN_CONFIG_WP_CHN_SEL, (event)->attr.config)
+#define CMN_EVENT_WP_GRP(event)                FIELD_GET(CMN_CONFIG_WP_GRP, (event)->attr.config)
+#define CMN_EVENT_WP_EXCLUSIVE(event)  FIELD_GET(CMN_CONFIG_WP_EXCLUSIVE, (event)->attr.config)
+#define CMN_EVENT_WP_VAL(event)                FIELD_GET(CMN_CONFIG1_WP_VAL, (event)->attr.config1)
+#define CMN_EVENT_WP_MASK(event)       FIELD_GET(CMN_CONFIG2_WP_MASK, (event)->attr.config2)
+
+/* Made-up event IDs for watchpoint direction */
+#define CMN_WP_UP                      0
+#define CMN_WP_DOWN                    2
+
+
+/* r0px probably don't exist in silicon, thankfully */
+enum cmn_revision {
+       CMN600_R1P0,
+       CMN600_R1P1,
+       CMN600_R1P2,
+       CMN600_R1P3,
+       CMN600_R2P0,
+       CMN600_R3P0,
+};
+
+enum cmn_node_type {
+       CMN_TYPE_INVALID,
+       CMN_TYPE_DVM,
+       CMN_TYPE_CFG,
+       CMN_TYPE_DTC,
+       CMN_TYPE_HNI,
+       CMN_TYPE_HNF,
+       CMN_TYPE_XP,
+       CMN_TYPE_SBSX,
+       CMN_TYPE_RNI = 0xa,
+       CMN_TYPE_RND = 0xd,
+       CMN_TYPE_RNSAM = 0xf,
+       CMN_TYPE_CXRA = 0x100,
+       CMN_TYPE_CXHA = 0x101,
+       CMN_TYPE_CXLA = 0x102,
+       /* Not a real node type */
+       CMN_TYPE_WP = 0x7770
+};
+
+struct arm_cmn_node {
+       void __iomem *pmu_base;
+       u16 id, logid;
+       enum cmn_node_type type;
+
+       union {
+               /* Device node */
+               struct {
+                       int to_xp;
+                       /* DN/HN-F/CXHA */
+                       unsigned int occupid_val;
+                       unsigned int occupid_count;
+               };
+               /* XP */
+               struct {
+                       int dtc;
+                       u32 pmu_config_low;
+                       union {
+                               u8 input_sel[4];
+                               __le32 pmu_config_high;
+                       };
+                       s8 wp_event[4];
+               };
+       };
+
+       union {
+               u8 event[4];
+               __le32 event_sel;
+       };
+};
+
+struct arm_cmn_dtc {
+       void __iomem *base;
+       int irq;
+       int irq_friend;
+       bool cc_active;
+
+       struct perf_event *counters[CMN_DT_NUM_COUNTERS];
+       struct perf_event *cycles;
+};
+
+#define CMN_STATE_DISABLED     BIT(0)
+#define CMN_STATE_TXN          BIT(1)
+
+struct arm_cmn {
+       struct device *dev;
+       void __iomem *base;
+
+       enum cmn_revision rev;
+       u8 mesh_x;
+       u8 mesh_y;
+       u16 num_xps;
+       u16 num_dns;
+       struct arm_cmn_node *xps;
+       struct arm_cmn_node *dns;
+
+       struct arm_cmn_dtc *dtc;
+       unsigned int num_dtcs;
+
+       int cpu;
+       struct hlist_node cpuhp_node;
+
+       unsigned int state;
+       struct pmu pmu;
+};
+
+#define to_cmn(p)      container_of(p, struct arm_cmn, pmu)
+
+static int arm_cmn_hp_state;
+
+struct arm_cmn_hw_event {
+       struct arm_cmn_node *dn;
+       u64 dtm_idx[2];
+       unsigned int dtc_idx;
+       u8 dtcs_used;
+       u8 num_dns;
+};
+
+#define for_each_hw_dn(hw, dn, i) \
+       for (i = 0, dn = hw->dn; i < hw->num_dns; i++, dn++)
+
+static struct arm_cmn_hw_event *to_cmn_hw(struct perf_event *event)
+{
+       BUILD_BUG_ON(sizeof(struct arm_cmn_hw_event) > offsetof(struct hw_perf_event, target));
+       return (struct arm_cmn_hw_event *)&event->hw;
+}
+
+static void arm_cmn_set_index(u64 x[], unsigned int pos, unsigned int val)
+{
+       x[pos / 32] |= (u64)val << ((pos % 32) * 2);
+}
+
+static unsigned int arm_cmn_get_index(u64 x[], unsigned int pos)
+{
+       return (x[pos / 32] >> ((pos % 32) * 2)) & 3;
+}
+
+struct arm_cmn_event_attr {
+       struct device_attribute attr;
+       enum cmn_node_type type;
+       u8 eventid;
+       u8 occupid;
+};
+
+struct arm_cmn_format_attr {
+       struct device_attribute attr;
+       u64 field;
+       int config;
+};
+
+static int arm_cmn_xyidbits(const struct arm_cmn *cmn)
+{
+       return cmn->mesh_x > 4 || cmn->mesh_y > 4 ? 3 : 2;
+}
+
+static void arm_cmn_init_node_to_xp(const struct arm_cmn *cmn,
+                                   struct arm_cmn_node *dn)
+{
+       int bits = arm_cmn_xyidbits(cmn);
+       int x = CMN_NODEID_X(dn->id, bits);
+       int y = CMN_NODEID_Y(dn->id, bits);
+       int xp_idx = cmn->mesh_x * y + x;
+
+       dn->to_xp = (cmn->xps + xp_idx) - dn;
+}
+
+static struct arm_cmn_node *arm_cmn_node_to_xp(struct arm_cmn_node *dn)
+{
+       return dn->type == CMN_TYPE_XP ? dn : dn + dn->to_xp;
+}
+
+static struct arm_cmn_node *arm_cmn_node(const struct arm_cmn *cmn,
+                                        enum cmn_node_type type)
+{
+       int i;
+
+       for (i = 0; i < cmn->num_dns; i++)
+               if (cmn->dns[i].type == type)
+                       return &cmn->dns[i];
+       return NULL;
+}
+
+#define CMN_EVENT_ATTR(_name, _type, _eventid, _occupid)               \
+       (&((struct arm_cmn_event_attr[]) {{                             \
+               .attr = __ATTR(_name, 0444, arm_cmn_event_show, NULL),  \
+               .type = _type,                                          \
+               .eventid = _eventid,                                    \
+               .occupid = _occupid,                                    \
+       }})[0].attr.attr)
+
+static bool arm_cmn_is_occup_event(enum cmn_node_type type, unsigned int id)
+{
+       return (type == CMN_TYPE_DVM && id == 0x05) ||
+              (type == CMN_TYPE_HNF && id == 0x0f);
+}
+
+static ssize_t arm_cmn_event_show(struct device *dev,
+                                 struct device_attribute *attr, char *buf)
+{
+       struct arm_cmn_event_attr *eattr;
+
+       eattr = container_of(attr, typeof(*eattr), attr);
+
+       if (eattr->type == CMN_TYPE_DTC)
+               return snprintf(buf, PAGE_SIZE, "type=0x%x\n", eattr->type);
+
+       if (eattr->type == CMN_TYPE_WP)
+               return snprintf(buf, PAGE_SIZE,
+                               "type=0x%x,eventid=0x%x,wp_dev_sel=?,wp_chn_sel=?,wp_grp=?,wp_val=?,wp_mask=?\n",
+                               eattr->type, eattr->eventid);
+
+       if (arm_cmn_is_occup_event(eattr->type, eattr->eventid))
+               return snprintf(buf, PAGE_SIZE, "type=0x%x,eventid=0x%x,occupid=0x%x\n",
+                               eattr->type, eattr->eventid, eattr->occupid);
+
+       return snprintf(buf, PAGE_SIZE, "type=0x%x,eventid=0x%x\n",
+                       eattr->type, eattr->eventid);
+}
+
+static umode_t arm_cmn_event_attr_is_visible(struct kobject *kobj,
+                                            struct attribute *attr,
+                                            int unused)
+{
+       struct device *dev = kobj_to_dev(kobj);
+       struct arm_cmn *cmn = to_cmn(dev_get_drvdata(dev));
+       struct arm_cmn_event_attr *eattr;
+       enum cmn_node_type type;
+
+       eattr = container_of(attr, typeof(*eattr), attr.attr);
+       type = eattr->type;
+
+       /* Watchpoints aren't nodes */
+       if (type == CMN_TYPE_WP)
+               type = CMN_TYPE_XP;
+
+       /* Revision-specific differences */
+       if (cmn->rev < CMN600_R1P2) {
+               if (type == CMN_TYPE_HNF && eattr->eventid == 0x1b)
+                       return 0;
+       }
+
+       if (!arm_cmn_node(cmn, type))
+               return 0;
+
+       return attr->mode;
+}
+
+#define _CMN_EVENT_DVM(_name, _event, _occup)                  \
+       CMN_EVENT_ATTR(dn_##_name, CMN_TYPE_DVM, _event, _occup)
+#define CMN_EVENT_DTC(_name)                                   \
+       CMN_EVENT_ATTR(dtc_##_name, CMN_TYPE_DTC, 0, 0)
+#define _CMN_EVENT_HNF(_name, _event, _occup)                  \
+       CMN_EVENT_ATTR(hnf_##_name, CMN_TYPE_HNF, _event, _occup)
+#define CMN_EVENT_HNI(_name, _event)                           \
+       CMN_EVENT_ATTR(hni_##_name, CMN_TYPE_HNI, _event, 0)
+#define __CMN_EVENT_XP(_name, _event)                          \
+       CMN_EVENT_ATTR(mxp_##_name, CMN_TYPE_XP, _event, 0)
+#define CMN_EVENT_SBSX(_name, _event)                          \
+       CMN_EVENT_ATTR(sbsx_##_name, CMN_TYPE_SBSX, _event, 0)
+#define CMN_EVENT_RNID(_name, _event)                          \
+       CMN_EVENT_ATTR(rnid_##_name, CMN_TYPE_RNI, _event, 0)
+
+#define CMN_EVENT_DVM(_name, _event)                           \
+       _CMN_EVENT_DVM(_name, _event, 0)
+#define CMN_EVENT_HNF(_name, _event)                           \
+       _CMN_EVENT_HNF(_name, _event, 0)
+#define _CMN_EVENT_XP(_name, _event)                           \
+       __CMN_EVENT_XP(e_##_name, (_event) | (0 << 2)),         \
+       __CMN_EVENT_XP(w_##_name, (_event) | (1 << 2)),         \
+       __CMN_EVENT_XP(n_##_name, (_event) | (2 << 2)),         \
+       __CMN_EVENT_XP(s_##_name, (_event) | (3 << 2)),         \
+       __CMN_EVENT_XP(p0_##_name, (_event) | (4 << 2)),        \
+       __CMN_EVENT_XP(p1_##_name, (_event) | (5 << 2))
+
+/* Good thing there are only 3 fundamental XP events... */
+#define CMN_EVENT_XP(_name, _event)                            \
+       _CMN_EVENT_XP(req_##_name, (_event) | (0 << 5)),        \
+       _CMN_EVENT_XP(rsp_##_name, (_event) | (1 << 5)),        \
+       _CMN_EVENT_XP(snp_##_name, (_event) | (2 << 5)),        \
+       _CMN_EVENT_XP(dat_##_name, (_event) | (3 << 5))
+
+
+static struct attribute *arm_cmn_event_attrs[] = {
+       CMN_EVENT_DTC(cycles),
+
+       /*
+        * DVM node events conflict with HN-I events in the equivalent PMU
+        * slot, but our lazy short-cut of using the DTM counter index for
+        * the PMU index as well happens to avoid that by construction.
+        */
+       CMN_EVENT_DVM(rxreq_dvmop,      0x01),
+       CMN_EVENT_DVM(rxreq_dvmsync,    0x02),
+       CMN_EVENT_DVM(rxreq_dvmop_vmid_filtered, 0x03),
+       CMN_EVENT_DVM(rxreq_retried,    0x04),
+       _CMN_EVENT_DVM(rxreq_trk_occupancy_all, 0x05, 0),
+       _CMN_EVENT_DVM(rxreq_trk_occupancy_dvmop, 0x05, 1),
+       _CMN_EVENT_DVM(rxreq_trk_occupancy_dvmsync, 0x05, 2),
+
+       CMN_EVENT_HNF(cache_miss,       0x01),
+       CMN_EVENT_HNF(slc_sf_cache_access, 0x02),
+       CMN_EVENT_HNF(cache_fill,       0x03),
+       CMN_EVENT_HNF(pocq_retry,       0x04),
+       CMN_EVENT_HNF(pocq_reqs_recvd,  0x05),
+       CMN_EVENT_HNF(sf_hit,           0x06),
+       CMN_EVENT_HNF(sf_evictions,     0x07),
+       CMN_EVENT_HNF(dir_snoops_sent,  0x08),
+       CMN_EVENT_HNF(brd_snoops_sent,  0x09),
+       CMN_EVENT_HNF(slc_eviction,     0x0a),
+       CMN_EVENT_HNF(slc_fill_invalid_way, 0x0b),
+       CMN_EVENT_HNF(mc_retries,       0x0c),
+       CMN_EVENT_HNF(mc_reqs,          0x0d),
+       CMN_EVENT_HNF(qos_hh_retry,     0x0e),
+       _CMN_EVENT_HNF(qos_pocq_occupancy_all, 0x0f, 0),
+       _CMN_EVENT_HNF(qos_pocq_occupancy_read, 0x0f, 1),
+       _CMN_EVENT_HNF(qos_pocq_occupancy_write, 0x0f, 2),
+       _CMN_EVENT_HNF(qos_pocq_occupancy_atomic, 0x0f, 3),
+       _CMN_EVENT_HNF(qos_pocq_occupancy_stash, 0x0f, 4),
+       CMN_EVENT_HNF(pocq_addrhaz,     0x10),
+       CMN_EVENT_HNF(pocq_atomic_addrhaz, 0x11),
+       CMN_EVENT_HNF(ld_st_swp_adq_full, 0x12),
+       CMN_EVENT_HNF(cmp_adq_full,     0x13),
+       CMN_EVENT_HNF(txdat_stall,      0x14),
+       CMN_EVENT_HNF(txrsp_stall,      0x15),
+       CMN_EVENT_HNF(seq_full,         0x16),
+       CMN_EVENT_HNF(seq_hit,          0x17),
+       CMN_EVENT_HNF(snp_sent,         0x18),
+       CMN_EVENT_HNF(sfbi_dir_snp_sent, 0x19),
+       CMN_EVENT_HNF(sfbi_brd_snp_sent, 0x1a),
+       CMN_EVENT_HNF(snp_sent_untrk,   0x1b),
+       CMN_EVENT_HNF(intv_dirty,       0x1c),
+       CMN_EVENT_HNF(stash_snp_sent,   0x1d),
+       CMN_EVENT_HNF(stash_data_pull,  0x1e),
+       CMN_EVENT_HNF(snp_fwded,        0x1f),
+
+       CMN_EVENT_HNI(rrt_rd_occ_cnt_ovfl, 0x20),
+       CMN_EVENT_HNI(rrt_wr_occ_cnt_ovfl, 0x21),
+       CMN_EVENT_HNI(rdt_rd_occ_cnt_ovfl, 0x22),
+       CMN_EVENT_HNI(rdt_wr_occ_cnt_ovfl, 0x23),
+       CMN_EVENT_HNI(wdb_occ_cnt_ovfl, 0x24),
+       CMN_EVENT_HNI(rrt_rd_alloc,     0x25),
+       CMN_EVENT_HNI(rrt_wr_alloc,     0x26),
+       CMN_EVENT_HNI(rdt_rd_alloc,     0x27),
+       CMN_EVENT_HNI(rdt_wr_alloc,     0x28),
+       CMN_EVENT_HNI(wdb_alloc,        0x29),
+       CMN_EVENT_HNI(txrsp_retryack,   0x2a),
+       CMN_EVENT_HNI(arvalid_no_arready, 0x2b),
+       CMN_EVENT_HNI(arready_no_arvalid, 0x2c),
+       CMN_EVENT_HNI(awvalid_no_awready, 0x2d),
+       CMN_EVENT_HNI(awready_no_awvalid, 0x2e),
+       CMN_EVENT_HNI(wvalid_no_wready, 0x2f),
+       CMN_EVENT_HNI(txdat_stall,      0x30),
+       CMN_EVENT_HNI(nonpcie_serialization, 0x31),
+       CMN_EVENT_HNI(pcie_serialization, 0x32),
+
+       CMN_EVENT_XP(txflit_valid,      0x01),
+       CMN_EVENT_XP(txflit_stall,      0x02),
+       CMN_EVENT_XP(partial_dat_flit,  0x03),
+       /* We treat watchpoints as a special made-up class of XP events */
+       CMN_EVENT_ATTR(watchpoint_up, CMN_TYPE_WP, 0, 0),
+       CMN_EVENT_ATTR(watchpoint_down, CMN_TYPE_WP, 2, 0),
+
+       CMN_EVENT_SBSX(rd_req,          0x01),
+       CMN_EVENT_SBSX(wr_req,          0x02),
+       CMN_EVENT_SBSX(cmo_req,         0x03),
+       CMN_EVENT_SBSX(txrsp_retryack,  0x04),
+       CMN_EVENT_SBSX(txdat_flitv,     0x05),
+       CMN_EVENT_SBSX(txrsp_flitv,     0x06),
+       CMN_EVENT_SBSX(rd_req_trkr_occ_cnt_ovfl, 0x11),
+       CMN_EVENT_SBSX(wr_req_trkr_occ_cnt_ovfl, 0x12),
+       CMN_EVENT_SBSX(cmo_req_trkr_occ_cnt_ovfl, 0x13),
+       CMN_EVENT_SBSX(wdb_occ_cnt_ovfl, 0x14),
+       CMN_EVENT_SBSX(rd_axi_trkr_occ_cnt_ovfl, 0x15),
+       CMN_EVENT_SBSX(cmo_axi_trkr_occ_cnt_ovfl, 0x16),
+       CMN_EVENT_SBSX(arvalid_no_arready, 0x21),
+       CMN_EVENT_SBSX(awvalid_no_awready, 0x22),
+       CMN_EVENT_SBSX(wvalid_no_wready, 0x23),
+       CMN_EVENT_SBSX(txdat_stall,     0x24),
+       CMN_EVENT_SBSX(txrsp_stall,     0x25),
+
+       CMN_EVENT_RNID(s0_rdata_beats,  0x01),
+       CMN_EVENT_RNID(s1_rdata_beats,  0x02),
+       CMN_EVENT_RNID(s2_rdata_beats,  0x03),
+       CMN_EVENT_RNID(rxdat_flits,     0x04),
+       CMN_EVENT_RNID(txdat_flits,     0x05),
+       CMN_EVENT_RNID(txreq_flits_total, 0x06),
+       CMN_EVENT_RNID(txreq_flits_retried, 0x07),
+       CMN_EVENT_RNID(rrt_occ_ovfl,    0x08),
+       CMN_EVENT_RNID(wrt_occ_ovfl,    0x09),
+       CMN_EVENT_RNID(txreq_flits_replayed, 0x0a),
+       CMN_EVENT_RNID(wrcancel_sent,   0x0b),
+       CMN_EVENT_RNID(s0_wdata_beats,  0x0c),
+       CMN_EVENT_RNID(s1_wdata_beats,  0x0d),
+       CMN_EVENT_RNID(s2_wdata_beats,  0x0e),
+       CMN_EVENT_RNID(rrt_alloc,       0x0f),
+       CMN_EVENT_RNID(wrt_alloc,       0x10),
+       CMN_EVENT_RNID(rdb_unord,       0x11),
+       CMN_EVENT_RNID(rdb_replay,      0x12),
+       CMN_EVENT_RNID(rdb_hybrid,      0x13),
+       CMN_EVENT_RNID(rdb_ord,         0x14),
+
+       NULL
+};
+
+static const struct attribute_group arm_cmn_event_attrs_group = {
+       .name = "events",
+       .attrs = arm_cmn_event_attrs,
+       .is_visible = arm_cmn_event_attr_is_visible,
+};
+
+static ssize_t arm_cmn_format_show(struct device *dev,
+                                  struct device_attribute *attr, char *buf)
+{
+       struct arm_cmn_format_attr *fmt = container_of(attr, typeof(*fmt), attr);
+       int lo = __ffs(fmt->field), hi = __fls(fmt->field);
+
+       if (lo == hi)
+               return snprintf(buf, PAGE_SIZE, "config:%d\n", lo);
+
+       if (!fmt->config)
+               return snprintf(buf, PAGE_SIZE, "config:%d-%d\n", lo, hi);
+
+       return snprintf(buf, PAGE_SIZE, "config%d:%d-%d\n", fmt->config, lo, hi);
+}
+
+#define _CMN_FORMAT_ATTR(_name, _cfg, _fld)                            \
+       (&((struct arm_cmn_format_attr[]) {{                            \
+               .attr = __ATTR(_name, 0444, arm_cmn_format_show, NULL), \
+               .config = _cfg,                                         \
+               .field = _fld,                                          \
+       }})[0].attr.attr)
+#define CMN_FORMAT_ATTR(_name, _fld)   _CMN_FORMAT_ATTR(_name, 0, _fld)
+
+static struct attribute *arm_cmn_format_attrs[] = {
+       CMN_FORMAT_ATTR(type, CMN_CONFIG_TYPE),
+       CMN_FORMAT_ATTR(eventid, CMN_CONFIG_EVENTID),
+       CMN_FORMAT_ATTR(occupid, CMN_CONFIG_OCCUPID),
+       CMN_FORMAT_ATTR(bynodeid, CMN_CONFIG_BYNODEID),
+       CMN_FORMAT_ATTR(nodeid, CMN_CONFIG_NODEID),
+
+       CMN_FORMAT_ATTR(wp_dev_sel, CMN_CONFIG_WP_DEV_SEL),
+       CMN_FORMAT_ATTR(wp_chn_sel, CMN_CONFIG_WP_CHN_SEL),
+       CMN_FORMAT_ATTR(wp_grp, CMN_CONFIG_WP_GRP),
+       CMN_FORMAT_ATTR(wp_exclusive, CMN_CONFIG_WP_EXCLUSIVE),
+       CMN_FORMAT_ATTR(wp_combine, CMN_CONFIG_WP_COMBINE),
+
+       _CMN_FORMAT_ATTR(wp_val, 1, CMN_CONFIG1_WP_VAL),
+       _CMN_FORMAT_ATTR(wp_mask, 2, CMN_CONFIG2_WP_MASK),
+
+       NULL
+};
+
+static const struct attribute_group arm_cmn_format_attrs_group = {
+       .name = "format",
+       .attrs = arm_cmn_format_attrs,
+};
+
+static ssize_t arm_cmn_cpumask_show(struct device *dev,
+                                   struct device_attribute *attr, char *buf)
+{
+       struct arm_cmn *cmn = to_cmn(dev_get_drvdata(dev));
+
+       return cpumap_print_to_pagebuf(true, buf, cpumask_of(cmn->cpu));
+}
+
+static struct device_attribute arm_cmn_cpumask_attr =
+               __ATTR(cpumask, 0444, arm_cmn_cpumask_show, NULL);
+
+static struct attribute *arm_cmn_cpumask_attrs[] = {
+       &arm_cmn_cpumask_attr.attr,
+       NULL,
+};
+
+static struct attribute_group arm_cmn_cpumask_attr_group = {
+       .attrs = arm_cmn_cpumask_attrs,
+};
+
+static const struct attribute_group *arm_cmn_attr_groups[] = {
+       &arm_cmn_event_attrs_group,
+       &arm_cmn_format_attrs_group,
+       &arm_cmn_cpumask_attr_group,
+       NULL
+};
+
+static int arm_cmn_wp_idx(struct perf_event *event)
+{
+       return CMN_EVENT_EVENTID(event) + CMN_EVENT_WP_GRP(event);
+}
+
+static u32 arm_cmn_wp_config(struct perf_event *event)
+{
+       u32 config;
+       u32 dev = CMN_EVENT_WP_DEV_SEL(event);
+       u32 chn = CMN_EVENT_WP_CHN_SEL(event);
+       u32 grp = CMN_EVENT_WP_GRP(event);
+       u32 exc = CMN_EVENT_WP_EXCLUSIVE(event);
+       u32 combine = CMN_EVENT_WP_COMBINE(event);
+
+       config = FIELD_PREP(CMN_DTM_WPn_CONFIG_WP_DEV_SEL, dev) |
+                FIELD_PREP(CMN_DTM_WPn_CONFIG_WP_CHN_SEL, chn) |
+                FIELD_PREP(CMN_DTM_WPn_CONFIG_WP_GRP, grp) |
+                FIELD_PREP(CMN_DTM_WPn_CONFIG_WP_EXCLUSIVE, exc);
+       if (combine && !grp)
+               config |= CMN_DTM_WPn_CONFIG_WP_COMBINE;
+
+       return config;
+}
+
+static void arm_cmn_set_state(struct arm_cmn *cmn, u32 state)
+{
+       if (!cmn->state)
+               writel_relaxed(0, cmn->dtc[0].base + CMN_DT_PMCR);
+       cmn->state |= state;
+}
+
+static void arm_cmn_clear_state(struct arm_cmn *cmn, u32 state)
+{
+       cmn->state &= ~state;
+       if (!cmn->state)
+               writel_relaxed(CMN_DT_PMCR_PMU_EN | CMN_DT_PMCR_OVFL_INTR_EN,
+                              cmn->dtc[0].base + CMN_DT_PMCR);
+}
+
+static void arm_cmn_pmu_enable(struct pmu *pmu)
+{
+       arm_cmn_clear_state(to_cmn(pmu), CMN_STATE_DISABLED);
+}
+
+static void arm_cmn_pmu_disable(struct pmu *pmu)
+{
+       arm_cmn_set_state(to_cmn(pmu), CMN_STATE_DISABLED);
+}
+
+static u64 arm_cmn_read_dtm(struct arm_cmn *cmn, struct arm_cmn_hw_event *hw,
+                           bool snapshot)
+{
+       struct arm_cmn_node *dn;
+       unsigned int i, offset;
+       u64 count = 0;
+
+       offset = snapshot ? CMN_DTM_PMEVCNTSR : CMN_DTM_PMEVCNT;
+       for_each_hw_dn(hw, dn, i) {
+               struct arm_cmn_node *xp = arm_cmn_node_to_xp(dn);
+               int dtm_idx = arm_cmn_get_index(hw->dtm_idx, i);
+               u64 reg = readq_relaxed(xp->pmu_base + offset);
+               u16 dtm_count = reg >> (dtm_idx * 16);
+
+               count += dtm_count;
+       }
+       return count;
+}
+
+static u64 arm_cmn_read_cc(struct arm_cmn_dtc *dtc)
+{
+       u64 val = readq_relaxed(dtc->base + CMN_DT_PMCCNTR);
+
+       writeq_relaxed(CMN_CC_INIT, dtc->base + CMN_DT_PMCCNTR);
+       return (val - CMN_CC_INIT) & ((CMN_CC_INIT << 1) - 1);
+}
+
+static u32 arm_cmn_read_counter(struct arm_cmn_dtc *dtc, int idx)
+{
+       u32 val, pmevcnt = CMN_DT_PMEVCNT(idx);
+
+       val = readl_relaxed(dtc->base + pmevcnt);
+       writel_relaxed(CMN_COUNTER_INIT, dtc->base + pmevcnt);
+       return val - CMN_COUNTER_INIT;
+}
+
+static void arm_cmn_init_counter(struct perf_event *event)
+{
+       struct arm_cmn *cmn = to_cmn(event->pmu);
+       struct arm_cmn_hw_event *hw = to_cmn_hw(event);
+       unsigned int i, pmevcnt = CMN_DT_PMEVCNT(hw->dtc_idx);
+       u64 count;
+
+       for (i = 0; hw->dtcs_used & (1U << i); i++) {
+               writel_relaxed(CMN_COUNTER_INIT, cmn->dtc[i].base + pmevcnt);
+               cmn->dtc[i].counters[hw->dtc_idx] = event;
+       }
+
+       count = arm_cmn_read_dtm(cmn, hw, false);
+       local64_set(&event->hw.prev_count, count);
+}
+
+static void arm_cmn_event_read(struct perf_event *event)
+{
+       struct arm_cmn *cmn = to_cmn(event->pmu);
+       struct arm_cmn_hw_event *hw = to_cmn_hw(event);
+       u64 delta, new, prev;
+       unsigned long flags;
+       unsigned int i;
+
+       if (hw->dtc_idx == CMN_DT_NUM_COUNTERS) {
+               i = __ffs(hw->dtcs_used);
+               delta = arm_cmn_read_cc(cmn->dtc + i);
+               local64_add(delta, &event->count);
+               return;
+       }
+       new = arm_cmn_read_dtm(cmn, hw, false);
+       prev = local64_xchg(&event->hw.prev_count, new);
+
+       delta = new - prev;
+
+       local_irq_save(flags);
+       for (i = 0; hw->dtcs_used & (1U << i); i++) {
+               new = arm_cmn_read_counter(cmn->dtc + i, hw->dtc_idx);
+               delta += new << 16;
+       }
+       local_irq_restore(flags);
+       local64_add(delta, &event->count);
+}
+
+static void arm_cmn_event_start(struct perf_event *event, int flags)
+{
+       struct arm_cmn *cmn = to_cmn(event->pmu);
+       struct arm_cmn_hw_event *hw = to_cmn_hw(event);
+       struct arm_cmn_node *dn;
+       enum cmn_node_type type = CMN_EVENT_TYPE(event);
+       int i;
+
+       if (type == CMN_TYPE_DTC) {
+               i = __ffs(hw->dtcs_used);
+               writeq_relaxed(CMN_CC_INIT, cmn->dtc[i].base + CMN_DT_PMCCNTR);
+               cmn->dtc[i].cc_active = true;
+       } else if (type == CMN_TYPE_WP) {
+               int wp_idx = arm_cmn_wp_idx(event);
+               u64 val = CMN_EVENT_WP_VAL(event);
+               u64 mask = CMN_EVENT_WP_MASK(event);
+
+               for_each_hw_dn(hw, dn, i) {
+                       writeq_relaxed(val, dn->pmu_base + CMN_DTM_WPn_VAL(wp_idx));
+                       writeq_relaxed(mask, dn->pmu_base + CMN_DTM_WPn_MASK(wp_idx));
+               }
+       } else for_each_hw_dn(hw, dn, i) {
+               int dtm_idx = arm_cmn_get_index(hw->dtm_idx, i);
+
+               dn->event[dtm_idx] = CMN_EVENT_EVENTID(event);
+               writel_relaxed(le32_to_cpu(dn->event_sel), dn->pmu_base + CMN_PMU_EVENT_SEL);
+       }
+}
+
+static void arm_cmn_event_stop(struct perf_event *event, int flags)
+{
+       struct arm_cmn *cmn = to_cmn(event->pmu);
+       struct arm_cmn_hw_event *hw = to_cmn_hw(event);
+       struct arm_cmn_node *dn;
+       enum cmn_node_type type = CMN_EVENT_TYPE(event);
+       int i;
+
+       if (type == CMN_TYPE_DTC) {
+               i = __ffs(hw->dtcs_used);
+               cmn->dtc[i].cc_active = false;
+       } else if (type == CMN_TYPE_WP) {
+               int wp_idx = arm_cmn_wp_idx(event);
+
+               for_each_hw_dn(hw, dn, i) {
+                       writeq_relaxed(0, dn->pmu_base + CMN_DTM_WPn_MASK(wp_idx));
+                       writeq_relaxed(~0ULL, dn->pmu_base + CMN_DTM_WPn_VAL(wp_idx));
+               }
+       } else for_each_hw_dn(hw, dn, i) {
+               int dtm_idx = arm_cmn_get_index(hw->dtm_idx, i);
+
+               dn->event[dtm_idx] = 0;
+               writel_relaxed(le32_to_cpu(dn->event_sel), dn->pmu_base + CMN_PMU_EVENT_SEL);
+       }
+
+       arm_cmn_event_read(event);
+}
+
+struct arm_cmn_val {
+       u8 dtm_count[CMN_MAX_XPS];
+       u8 occupid[CMN_MAX_XPS];
+       u8 wp[CMN_MAX_XPS][4];
+       int dtc_count;
+       bool cycles;
+};
+
+static void arm_cmn_val_add_event(struct arm_cmn_val *val, struct perf_event *event)
+{
+       struct arm_cmn_hw_event *hw = to_cmn_hw(event);
+       struct arm_cmn_node *dn;
+       enum cmn_node_type type;
+       int i;
+       u8 occupid;
+
+       if (is_software_event(event))
+               return;
+
+       type = CMN_EVENT_TYPE(event);
+       if (type == CMN_TYPE_DTC) {
+               val->cycles = true;
+               return;
+       }
+
+       val->dtc_count++;
+       if (arm_cmn_is_occup_event(type, CMN_EVENT_EVENTID(event)))
+               occupid = CMN_EVENT_OCCUPID(event) + 1;
+       else
+               occupid = 0;
+
+       for_each_hw_dn(hw, dn, i) {
+               int wp_idx, xp = arm_cmn_node_to_xp(dn)->logid;
+
+               val->dtm_count[xp]++;
+               val->occupid[xp] = occupid;
+
+               if (type != CMN_TYPE_WP)
+                       continue;
+
+               wp_idx = arm_cmn_wp_idx(event);
+               val->wp[xp][wp_idx] = CMN_EVENT_WP_COMBINE(event) + 1;
+       }
+}
+
+static int arm_cmn_validate_group(struct perf_event *event)
+{
+       struct arm_cmn_hw_event *hw = to_cmn_hw(event);
+       struct arm_cmn_node *dn;
+       struct perf_event *sibling, *leader = event->group_leader;
+       enum cmn_node_type type;
+       struct arm_cmn_val val;
+       int i;
+       u8 occupid;
+
+       if (leader == event)
+               return 0;
+
+       if (event->pmu != leader->pmu && !is_software_event(leader))
+               return -EINVAL;
+
+       memset(&val, 0, sizeof(val));
+
+       arm_cmn_val_add_event(&val, leader);
+       for_each_sibling_event(sibling, leader)
+               arm_cmn_val_add_event(&val, sibling);
+
+       type = CMN_EVENT_TYPE(event);
+       if (type == CMN_TYPE_DTC)
+               return val.cycles ? -EINVAL : 0;
+
+       if (val.dtc_count == CMN_DT_NUM_COUNTERS)
+               return -EINVAL;
+
+       if (arm_cmn_is_occup_event(type, CMN_EVENT_EVENTID(event)))
+               occupid = CMN_EVENT_OCCUPID(event) + 1;
+       else
+               occupid = 0;
+
+       for_each_hw_dn(hw, dn, i) {
+               int wp_idx, wp_cmb, xp = arm_cmn_node_to_xp(dn)->logid;
+
+               if (val.dtm_count[xp] == CMN_DTM_NUM_COUNTERS)
+                       return -EINVAL;
+
+               if (occupid && val.occupid[xp] && occupid != val.occupid[xp])
+                       return -EINVAL;
+
+               if (type != CMN_TYPE_WP)
+                       continue;
+
+               wp_idx = arm_cmn_wp_idx(event);
+               if (val.wp[xp][wp_idx])
+                       return -EINVAL;
+
+               wp_cmb = val.wp[xp][wp_idx ^ 1];
+               if (wp_cmb && wp_cmb != CMN_EVENT_WP_COMBINE(event) + 1)
+                       return -EINVAL;
+       }
+
+       return 0;
+}
+
+static int arm_cmn_event_init(struct perf_event *event)
+{
+       struct arm_cmn *cmn = to_cmn(event->pmu);
+       struct arm_cmn_hw_event *hw = to_cmn_hw(event);
+       enum cmn_node_type type;
+       unsigned int i;
+       bool bynodeid;
+       u16 nodeid, eventid;
+
+       if (event->attr.type != event->pmu->type)
+               return -ENOENT;
+
+       if (is_sampling_event(event) || event->attach_state & PERF_ATTACH_TASK)
+               return -EINVAL;
+
+       event->cpu = cmn->cpu;
+       if (event->cpu < 0)
+               return -EINVAL;
+
+       type = CMN_EVENT_TYPE(event);
+       /* DTC events (i.e. cycles) already have everything they need */
+       if (type == CMN_TYPE_DTC)
+               return 0;
+
+       /* For watchpoints we need the actual XP node here */
+       if (type == CMN_TYPE_WP) {
+               type = CMN_TYPE_XP;
+               /* ...and we need a "real" direction */
+               eventid = CMN_EVENT_EVENTID(event);
+               if (eventid != CMN_WP_UP && eventid != CMN_WP_DOWN)
+                       return -EINVAL;
+       }
+
+       bynodeid = CMN_EVENT_BYNODEID(event);
+       nodeid = CMN_EVENT_NODEID(event);
+
+       hw->dn = arm_cmn_node(cmn, type);
+       for (i = hw->dn - cmn->dns; i < cmn->num_dns && cmn->dns[i].type == type; i++) {
+               if (!bynodeid) {
+                       hw->num_dns++;
+               } else if (cmn->dns[i].id != nodeid) {
+                       hw->dn++;
+               } else {
+                       hw->num_dns = 1;
+                       break;
+               }
+       }
+
+       if (!hw->num_dns) {
+               int bits = arm_cmn_xyidbits(cmn);
+
+               dev_dbg(cmn->dev, "invalid node 0x%x (%d,%d,%d,%d) type 0x%x\n",
+                       nodeid, CMN_NODEID_X(nodeid, bits), CMN_NODEID_Y(nodeid, bits),
+                       CMN_NODEID_PID(nodeid), CMN_NODEID_DEVID(nodeid), type);
+               return -EINVAL;
+       }
+       /*
+        * By assuming events count in all DTC domains, we cunningly avoid
+        * needing to know anything about how XPs are assigned to domains.
+        */
+       hw->dtcs_used = (1U << cmn->num_dtcs) - 1;
+
+       return arm_cmn_validate_group(event);
+}
+
+static void arm_cmn_event_clear(struct arm_cmn *cmn, struct perf_event *event,
+                               int i)
+{
+       struct arm_cmn_hw_event *hw = to_cmn_hw(event);
+       enum cmn_node_type type = CMN_EVENT_TYPE(event);
+
+       while (i--) {
+               struct arm_cmn_node *xp = arm_cmn_node_to_xp(hw->dn + i);
+               unsigned int dtm_idx = arm_cmn_get_index(hw->dtm_idx, i);
+
+               if (type == CMN_TYPE_WP)
+                       hw->dn[i].wp_event[arm_cmn_wp_idx(event)] = -1;
+
+               if (arm_cmn_is_occup_event(type, CMN_EVENT_EVENTID(event)))
+                       hw->dn[i].occupid_count--;
+
+               xp->pmu_config_low &= ~CMN__PMEVCNT_PAIRED(dtm_idx);
+               writel_relaxed(xp->pmu_config_low, xp->pmu_base + CMN_DTM_PMU_CONFIG);
+       }
+       memset(hw->dtm_idx, 0, sizeof(hw->dtm_idx));
+
+       for (i = 0; hw->dtcs_used & (1U << i); i++)
+               cmn->dtc[i].counters[hw->dtc_idx] = NULL;
+}
+
+static int arm_cmn_event_add(struct perf_event *event, int flags)
+{
+       struct arm_cmn *cmn = to_cmn(event->pmu);
+       struct arm_cmn_hw_event *hw = to_cmn_hw(event);
+       struct arm_cmn_dtc *dtc = &cmn->dtc[0];
+       struct arm_cmn_node *dn;
+       enum cmn_node_type type = CMN_EVENT_TYPE(event);
+       unsigned int i, dtc_idx, input_sel;
+
+       if (type == CMN_TYPE_DTC) {
+               i = 0;
+               while (cmn->dtc[i].cycles)
+                       if (++i == cmn->num_dtcs)
+                               return -ENOSPC;
+
+               cmn->dtc[i].cycles = event;
+               hw->dtc_idx = CMN_DT_NUM_COUNTERS;
+               hw->dtcs_used = 1U << i;
+
+               if (flags & PERF_EF_START)
+                       arm_cmn_event_start(event, 0);
+               return 0;
+       }
+
+       /* Grab a free global counter first... */
+       dtc_idx = 0;
+       while (dtc->counters[dtc_idx])
+               if (++dtc_idx == CMN_DT_NUM_COUNTERS)
+                       return -ENOSPC;
+
+       hw->dtc_idx = dtc_idx;
+
+       /* ...then the local counters to feed it. */
+       for_each_hw_dn(hw, dn, i) {
+               struct arm_cmn_node *xp = arm_cmn_node_to_xp(dn);
+               unsigned int dtm_idx, shift;
+               u64 reg;
+
+               dtm_idx = 0;
+               while (xp->pmu_config_low & CMN__PMEVCNT_PAIRED(dtm_idx))
+                       if (++dtm_idx == CMN_DTM_NUM_COUNTERS)
+                               goto free_dtms;
+
+               if (type == CMN_TYPE_XP) {
+                       input_sel = CMN__PMEVCNT0_INPUT_SEL_XP + dtm_idx;
+               } else if (type == CMN_TYPE_WP) {
+                       int tmp, wp_idx = arm_cmn_wp_idx(event);
+                       u32 cfg = arm_cmn_wp_config(event);
+
+                       if (dn->wp_event[wp_idx] >= 0)
+                               goto free_dtms;
+
+                       tmp = dn->wp_event[wp_idx ^ 1];
+                       if (tmp >= 0 && CMN_EVENT_WP_COMBINE(event) !=
+                                       CMN_EVENT_WP_COMBINE(dtc->counters[tmp]))
+                               goto free_dtms;
+
+                       input_sel = CMN__PMEVCNT0_INPUT_SEL_WP + wp_idx;
+                       dn->wp_event[wp_idx] = dtc_idx;
+                       writel_relaxed(cfg, dn->pmu_base + CMN_DTM_WPn_CONFIG(wp_idx));
+               } else {
+                       unsigned int port = CMN_NODEID_PID(dn->id);
+                       unsigned int dev = CMN_NODEID_DEVID(dn->id);
+
+                       input_sel = CMN__PMEVCNT0_INPUT_SEL_DEV + dtm_idx +
+                                   (port << 4) + (dev << 2);
+
+                       if (arm_cmn_is_occup_event(type, CMN_EVENT_EVENTID(event))) {
+                               int occupid = CMN_EVENT_OCCUPID(event);
+
+                               if (dn->occupid_count == 0) {
+                                       dn->occupid_val = occupid;
+                                       writel_relaxed(occupid,
+                                                      dn->pmu_base + CMN_PMU_EVENT_SEL + 4);
+                               } else if (dn->occupid_val != occupid) {
+                                       goto free_dtms;
+                               }
+                               dn->occupid_count++;
+                       }
+               }
+
+               arm_cmn_set_index(hw->dtm_idx, i, dtm_idx);
+
+               xp->input_sel[dtm_idx] = input_sel;
+               shift = CMN__PMEVCNTn_GLOBAL_NUM_SHIFT(dtm_idx);
+               xp->pmu_config_low &= ~(CMN__PMEVCNT0_GLOBAL_NUM << shift);
+               xp->pmu_config_low |= FIELD_PREP(CMN__PMEVCNT0_GLOBAL_NUM, dtc_idx) << shift;
+               xp->pmu_config_low |= CMN__PMEVCNT_PAIRED(dtm_idx);
+               reg = (u64)le32_to_cpu(xp->pmu_config_high) << 32 | xp->pmu_config_low;
+               writeq_relaxed(reg, xp->pmu_base + CMN_DTM_PMU_CONFIG);
+       }
+
+       /* Go go go! */
+       arm_cmn_init_counter(event);
+
+       if (flags & PERF_EF_START)
+               arm_cmn_event_start(event, 0);
+
+       return 0;
+
+free_dtms:
+       arm_cmn_event_clear(cmn, event, i);
+       return -ENOSPC;
+}
+
+static void arm_cmn_event_del(struct perf_event *event, int flags)
+{
+       struct arm_cmn *cmn = to_cmn(event->pmu);
+       struct arm_cmn_hw_event *hw = to_cmn_hw(event);
+       enum cmn_node_type type = CMN_EVENT_TYPE(event);
+
+       arm_cmn_event_stop(event, PERF_EF_UPDATE);
+
+       if (type == CMN_TYPE_DTC)
+               cmn->dtc[__ffs(hw->dtcs_used)].cycles = NULL;
+       else
+               arm_cmn_event_clear(cmn, event, hw->num_dns);
+}
+
+/*
+ * We stop the PMU for both add and read, to avoid skew across DTM counters.
+ * In theory we could use snapshots to read without stopping, but then it
+ * becomes a lot trickier to deal with overlow and racing against interrupts,
+ * plus it seems they don't work properly on some hardware anyway :(
+ */
+static void arm_cmn_start_txn(struct pmu *pmu, unsigned int flags)
+{
+       arm_cmn_set_state(to_cmn(pmu), CMN_STATE_TXN);
+}
+
+static void arm_cmn_end_txn(struct pmu *pmu)
+{
+       arm_cmn_clear_state(to_cmn(pmu), CMN_STATE_TXN);
+}
+
+static int arm_cmn_commit_txn(struct pmu *pmu)
+{
+       arm_cmn_end_txn(pmu);
+       return 0;
+}
+
+static int arm_cmn_pmu_offline_cpu(unsigned int cpu, struct hlist_node *node)
+{
+       struct arm_cmn *cmn;
+       unsigned int target;
+
+       cmn = hlist_entry_safe(node, struct arm_cmn, cpuhp_node);
+       if (cpu != cmn->cpu)
+               return 0;
+
+       target = cpumask_any_but(cpu_online_mask, cpu);
+       if (target >= nr_cpu_ids)
+               return 0;
+
+       perf_pmu_migrate_context(&cmn->pmu, cpu, target);
+       cmn->cpu = target;
+       return 0;
+}
+
+static irqreturn_t arm_cmn_handle_irq(int irq, void *dev_id)
+{
+       struct arm_cmn_dtc *dtc = dev_id;
+       irqreturn_t ret = IRQ_NONE;
+
+       for (;;) {
+               u32 status = readl_relaxed(dtc->base + CMN_DT_PMOVSR);
+               u64 delta;
+               int i;
+
+               for (i = 0; i < CMN_DTM_NUM_COUNTERS; i++) {
+                       if (status & (1U << i)) {
+                               ret = IRQ_HANDLED;
+                               if (WARN_ON(!dtc->counters[i]))
+                                       continue;
+                               delta = (u64)arm_cmn_read_counter(dtc, i) << 16;
+                               local64_add(delta, &dtc->counters[i]->count);
+                       }
+               }
+
+               if (status & (1U << CMN_DT_NUM_COUNTERS)) {
+                       ret = IRQ_HANDLED;
+                       if (dtc->cc_active && !WARN_ON(!dtc->cycles)) {
+                               delta = arm_cmn_read_cc(dtc);
+                               local64_add(delta, &dtc->cycles->count);
+                       }
+               }
+
+               writel_relaxed(status, dtc->base + CMN_DT_PMOVSR_CLR);
+
+               if (!dtc->irq_friend)
+                       return ret;
+               dtc += dtc->irq_friend;
+       }
+}
+
+/* We can reasonably accommodate DTCs of the same CMN sharing IRQs */
+static int arm_cmn_init_irqs(struct arm_cmn *cmn)
+{
+       int i, j, irq, err;
+
+       for (i = 0; i < cmn->num_dtcs; i++) {
+               irq = cmn->dtc[i].irq;
+               for (j = i; j--; ) {
+                       if (cmn->dtc[j].irq == irq) {
+                               cmn->dtc[j].irq_friend = j - i;
+                               goto next;
+                       }
+               }
+               err = devm_request_irq(cmn->dev, irq, arm_cmn_handle_irq,
+                                      IRQF_NOBALANCING | IRQF_NO_THREAD,
+                                      dev_name(cmn->dev), &cmn->dtc[i]);
+               if (err)
+                       return err;
+
+               err = irq_set_affinity_hint(irq, cpumask_of(cmn->cpu));
+               if (err)
+                       return err;
+       next:
+               ; /* isn't C great? */
+       }
+       return 0;
+}
+
+static void arm_cmn_init_dtm(struct arm_cmn_node *xp)
+{
+       int i;
+
+       for (i = 0; i < 4; i++) {
+               xp->wp_event[i] = -1;
+               writeq_relaxed(0, xp->pmu_base + CMN_DTM_WPn_MASK(i));
+               writeq_relaxed(~0ULL, xp->pmu_base + CMN_DTM_WPn_VAL(i));
+       }
+       xp->pmu_config_low = CMN_DTM_PMU_CONFIG_PMU_EN;
+       xp->dtc = -1;
+}
+
+static int arm_cmn_init_dtc(struct arm_cmn *cmn, struct arm_cmn_node *dn, int idx)
+{
+       struct arm_cmn_dtc *dtc = cmn->dtc + idx;
+       struct arm_cmn_node *xp;
+
+       dtc->base = dn->pmu_base - CMN_PMU_OFFSET;
+       dtc->irq = platform_get_irq(to_platform_device(cmn->dev), idx);
+       if (dtc->irq < 0)
+               return dtc->irq;
+
+       writel_relaxed(0, dtc->base + CMN_DT_PMCR);
+       writel_relaxed(0x1ff, dtc->base + CMN_DT_PMOVSR_CLR);
+       writel_relaxed(CMN_DT_PMCR_OVFL_INTR_EN, dtc->base + CMN_DT_PMCR);
+
+       /* We do at least know that a DTC's XP must be in that DTC's domain */
+       xp = arm_cmn_node_to_xp(dn);
+       xp->dtc = idx;
+
+       return 0;
+}
+
+static int arm_cmn_node_cmp(const void *a, const void *b)
+{
+       const struct arm_cmn_node *dna = a, *dnb = b;
+       int cmp;
+
+       cmp = dna->type - dnb->type;
+       if (!cmp)
+               cmp = dna->logid - dnb->logid;
+       return cmp;
+}
+
+static int arm_cmn_init_dtcs(struct arm_cmn *cmn)
+{
+       struct arm_cmn_node *dn;
+       int dtc_idx = 0;
+
+       cmn->dtc = devm_kcalloc(cmn->dev, cmn->num_dtcs, sizeof(cmn->dtc[0]), GFP_KERNEL);
+       if (!cmn->dtc)
+               return -ENOMEM;
+
+       sort(cmn->dns, cmn->num_dns, sizeof(cmn->dns[0]), arm_cmn_node_cmp, NULL);
+
+       cmn->xps = arm_cmn_node(cmn, CMN_TYPE_XP);
+
+       for (dn = cmn->dns; dn < cmn->dns + cmn->num_dns; dn++) {
+               if (dn->type != CMN_TYPE_XP)
+                       arm_cmn_init_node_to_xp(cmn, dn);
+               else if (cmn->num_dtcs == 1)
+                       dn->dtc = 0;
+
+               if (dn->type == CMN_TYPE_DTC)
+                       arm_cmn_init_dtc(cmn, dn, dtc_idx++);
+
+               /* To the PMU, RN-Ds don't add anything over RN-Is, so smoosh them together */
+               if (dn->type == CMN_TYPE_RND)
+                       dn->type = CMN_TYPE_RNI;
+       }
+
+       writel_relaxed(CMN_DT_DTC_CTL_DT_EN, cmn->dtc[0].base + CMN_DT_DTC_CTL);
+
+       return 0;
+}
+
+static void arm_cmn_init_node_info(struct arm_cmn *cmn, u32 offset, struct arm_cmn_node *node)
+{
+       int level;
+       u64 reg = readq_relaxed(cmn->base + offset + CMN_NODE_INFO);
+
+       node->type = FIELD_GET(CMN_NI_NODE_TYPE, reg);
+       node->id = FIELD_GET(CMN_NI_NODE_ID, reg);
+       node->logid = FIELD_GET(CMN_NI_LOGICAL_ID, reg);
+
+       node->pmu_base = cmn->base + offset + CMN_PMU_OFFSET;
+
+       if (node->type == CMN_TYPE_CFG)
+               level = 0;
+       else if (node->type == CMN_TYPE_XP)
+               level = 1;
+       else
+               level = 2;
+
+       dev_dbg(cmn->dev, "node%*c%#06hx%*ctype:%-#6x id:%-4hd off:%#x\n",
+                       (level * 2) + 1, ' ', node->id, 5 - (level * 2), ' ',
+                       node->type, node->logid, offset);
+}
+
+static int arm_cmn_discover(struct arm_cmn *cmn, unsigned int rgn_offset)
+{
+       void __iomem *cfg_region;
+       struct arm_cmn_node cfg, *dn;
+       u16 child_count, child_poff;
+       u32 xp_offset[CMN_MAX_XPS];
+       u64 reg;
+       int i, j;
+
+       cfg_region = cmn->base + rgn_offset;
+       reg = readl_relaxed(cfg_region + CMN_CFGM_PERIPH_ID_2);
+       cmn->rev = FIELD_GET(CMN_CFGM_PID2_REVISION, reg);
+       dev_dbg(cmn->dev, "periph_id_2 revision: %d\n", cmn->rev);
+
+       arm_cmn_init_node_info(cmn, rgn_offset, &cfg);
+       if (cfg.type != CMN_TYPE_CFG)
+               return -ENODEV;
+
+       reg = readq_relaxed(cfg_region + CMN_CHILD_INFO);
+       child_count = FIELD_GET(CMN_CI_CHILD_COUNT, reg);
+       child_poff = FIELD_GET(CMN_CI_CHILD_PTR_OFFSET, reg);
+
+       cmn->num_xps = child_count;
+       cmn->num_dns = cmn->num_xps;
+
+       /* Pass 1: visit the XPs, enumerate their children */
+       for (i = 0; i < cmn->num_xps; i++) {
+               reg = readq_relaxed(cfg_region + child_poff + i * 8);
+               xp_offset[i] = reg & CMN_CHILD_NODE_ADDR;
+
+               reg = readq_relaxed(cmn->base + xp_offset[i] + CMN_CHILD_INFO);
+               cmn->num_dns += FIELD_GET(CMN_CI_CHILD_COUNT, reg);
+       }
+
+       /* Cheeky +1 to help terminate pointer-based iteration */
+       cmn->dns = devm_kcalloc(cmn->dev, cmn->num_dns + 1,
+                               sizeof(*cmn->dns), GFP_KERNEL);
+       if (!cmn->dns)
+               return -ENOMEM;
+
+       /* Pass 2: now we can actually populate the nodes */
+       dn = cmn->dns;
+       for (i = 0; i < cmn->num_xps; i++) {
+               void __iomem *xp_region = cmn->base + xp_offset[i];
+               struct arm_cmn_node *xp = dn++;
+
+               arm_cmn_init_node_info(cmn, xp_offset[i], xp);
+               arm_cmn_init_dtm(xp);
+               /*
+                * Thanks to the order in which XP logical IDs seem to be
+                * assigned, we can handily infer the mesh X dimension by
+                * looking out for the XP at (0,1) without needing to know
+                * the exact node ID format, which we can later derive.
+                */
+               if (xp->id == (1 << 3))
+                       cmn->mesh_x = xp->logid;
+
+               reg = readq_relaxed(xp_region + CMN_CHILD_INFO);
+               child_count = FIELD_GET(CMN_CI_CHILD_COUNT, reg);
+               child_poff = FIELD_GET(CMN_CI_CHILD_PTR_OFFSET, reg);
+
+               for (j = 0; j < child_count; j++) {
+                       reg = readq_relaxed(xp_region + child_poff + j * 8);
+                       /*
+                        * Don't even try to touch anything external, since in general
+                        * we haven't a clue how to power up arbitrary CHI requesters.
+                        * As of CMN-600r1 these could only be RN-SAMs or CXLAs,
+                        * neither of which have any PMU events anyway.
+                        * (Actually, CXLAs do seem to have grown some events in r1p2,
+                        * but they don't go to regular XP DTMs, and they depend on
+                        * secure configuration which we can't easily deal with)
+                        */
+                       if (reg & CMN_CHILD_NODE_EXTERNAL) {
+                               dev_dbg(cmn->dev, "ignoring external node %llx\n", reg);
+                               continue;
+                       }
+
+                       arm_cmn_init_node_info(cmn, reg & CMN_CHILD_NODE_ADDR, dn);
+
+                       switch (dn->type) {
+                       case CMN_TYPE_DTC:
+                               cmn->num_dtcs++;
+                               dn++;
+                               break;
+                       /* These guys have PMU events */
+                       case CMN_TYPE_DVM:
+                       case CMN_TYPE_HNI:
+                       case CMN_TYPE_HNF:
+                       case CMN_TYPE_SBSX:
+                       case CMN_TYPE_RNI:
+                       case CMN_TYPE_RND:
+                       case CMN_TYPE_CXRA:
+                       case CMN_TYPE_CXHA:
+                               dn++;
+                               break;
+                       /* Nothing to see here */
+                       case CMN_TYPE_RNSAM:
+                       case CMN_TYPE_CXLA:
+                               break;
+                       /* Something has gone horribly wrong */
+                       default:
+                               dev_err(cmn->dev, "invalid device node type: 0x%x\n", dn->type);
+                               return -ENODEV;
+                       }
+               }
+       }
+
+       /* Correct for any nodes we skipped */
+       cmn->num_dns = dn - cmn->dns;
+
+       /*
+        * If mesh_x wasn't set during discovery then we never saw
+        * an XP at (0,1), thus we must have an Nx1 configuration.
+        */
+       if (!cmn->mesh_x)
+               cmn->mesh_x = cmn->num_xps;
+       cmn->mesh_y = cmn->num_xps / cmn->mesh_x;
+
+       dev_dbg(cmn->dev, "mesh %dx%d, ID width %d\n",
+               cmn->mesh_x, cmn->mesh_y, arm_cmn_xyidbits(cmn));
+
+       return 0;
+}
+
+static int arm_cmn_acpi_probe(struct platform_device *pdev, struct arm_cmn *cmn)
+{
+       struct resource *cfg, *root;
+
+       cfg = platform_get_resource(pdev, IORESOURCE_MEM, 0);
+       if (!cfg)
+               return -EINVAL;
+
+       root = platform_get_resource(pdev, IORESOURCE_MEM, 1);
+       if (!root)
+               return -EINVAL;
+
+       if (!resource_contains(cfg, root))
+               swap(cfg, root);
+       /*
+        * Note that devm_ioremap_resource() is dumb and won't let the platform
+        * device claim cfg when the ACPI companion device has already claimed
+        * root within it. But since they *are* already both claimed in the
+        * appropriate name, we don't really need to do it again here anyway.
+        */
+       cmn->base = devm_ioremap(cmn->dev, cfg->start, resource_size(cfg));
+       if (!cmn->base)
+               return -ENOMEM;
+
+       return root->start - cfg->start;
+}
+
+static int arm_cmn_of_probe(struct platform_device *pdev, struct arm_cmn *cmn)
+{
+       struct device_node *np = pdev->dev.of_node;
+       u32 rootnode;
+       int ret;
+
+       cmn->base = devm_platform_ioremap_resource(pdev, 0);
+       if (IS_ERR(cmn->base))
+               return PTR_ERR(cmn->base);
+
+       ret = of_property_read_u32(np, "arm,root-node", &rootnode);
+       if (ret)
+               return ret;
+
+       return rootnode;
+}
+
+static int arm_cmn_probe(struct platform_device *pdev)
+{
+       struct arm_cmn *cmn;
+       const char *name;
+       static atomic_t id;
+       int err, rootnode, this_id;
+
+       cmn = devm_kzalloc(&pdev->dev, sizeof(*cmn), GFP_KERNEL);
+       if (!cmn)
+               return -ENOMEM;
+
+       cmn->dev = &pdev->dev;
+       platform_set_drvdata(pdev, cmn);
+
+       if (has_acpi_companion(cmn->dev))
+               rootnode = arm_cmn_acpi_probe(pdev, cmn);
+       else
+               rootnode = arm_cmn_of_probe(pdev, cmn);
+       if (rootnode < 0)
+               return rootnode;
+
+       err = arm_cmn_discover(cmn, rootnode);
+       if (err)
+               return err;
+
+       err = arm_cmn_init_dtcs(cmn);
+       if (err)
+               return err;
+
+       err = arm_cmn_init_irqs(cmn);
+       if (err)
+               return err;
+
+       cmn->cpu = raw_smp_processor_id();
+       cmn->pmu = (struct pmu) {
+               .module = THIS_MODULE,
+               .attr_groups = arm_cmn_attr_groups,
+               .capabilities = PERF_PMU_CAP_NO_EXCLUDE,
+               .task_ctx_nr = perf_invalid_context,
+               .pmu_enable = arm_cmn_pmu_enable,
+               .pmu_disable = arm_cmn_pmu_disable,
+               .event_init = arm_cmn_event_init,
+               .add = arm_cmn_event_add,
+               .del = arm_cmn_event_del,
+               .start = arm_cmn_event_start,
+               .stop = arm_cmn_event_stop,
+               .read = arm_cmn_event_read,
+               .start_txn = arm_cmn_start_txn,
+               .commit_txn = arm_cmn_commit_txn,
+               .cancel_txn = arm_cmn_end_txn,
+       };
+
+       this_id = atomic_fetch_inc(&id);
+       if (this_id == 0) {
+               name = "arm_cmn";
+       } else {
+               name = devm_kasprintf(cmn->dev, GFP_KERNEL, "arm_cmn_%d", this_id);
+               if (!name)
+                       return -ENOMEM;
+       }
+
+       err = cpuhp_state_add_instance(arm_cmn_hp_state, &cmn->cpuhp_node);
+       if (err)
+               return err;
+
+       err = perf_pmu_register(&cmn->pmu, name, -1);
+       if (err)
+               cpuhp_state_remove_instance(arm_cmn_hp_state, &cmn->cpuhp_node);
+       return err;
+}
+
+static int arm_cmn_remove(struct platform_device *pdev)
+{
+       struct arm_cmn *cmn = platform_get_drvdata(pdev);
+       int i;
+
+       writel_relaxed(0, cmn->dtc[0].base + CMN_DT_DTC_CTL);
+
+       perf_pmu_unregister(&cmn->pmu);
+       cpuhp_state_remove_instance(arm_cmn_hp_state, &cmn->cpuhp_node);
+
+       for (i = 0; i < cmn->num_dtcs; i++)
+               irq_set_affinity_hint(cmn->dtc[i].irq, NULL);
+
+       return 0;
+}
+
+#ifdef CONFIG_OF
+static const struct of_device_id arm_cmn_of_match[] = {
+       { .compatible = "arm,cmn-600", },
+       {}
+};
+MODULE_DEVICE_TABLE(of, arm_cmn_of_match);
+#endif
+
+#ifdef CONFIG_ACPI
+static const struct acpi_device_id arm_cmn_acpi_match[] = {
+       { "ARMHC600", },
+       {}
+};
+MODULE_DEVICE_TABLE(acpi, arm_cmn_acpi_match);
+#endif
+
+static struct platform_driver arm_cmn_driver = {
+       .driver = {
+               .name = "arm-cmn",
+               .of_match_table = of_match_ptr(arm_cmn_of_match),
+               .acpi_match_table = ACPI_PTR(arm_cmn_acpi_match),
+       },
+       .probe = arm_cmn_probe,
+       .remove = arm_cmn_remove,
+};
+
+static int __init arm_cmn_init(void)
+{
+       int ret;
+
+       ret = cpuhp_setup_state_multi(CPUHP_AP_ONLINE_DYN,
+                                     "perf/arm/cmn:online", NULL,
+                                     arm_cmn_pmu_offline_cpu);
+       if (ret < 0)
+               return ret;
+
+       arm_cmn_hp_state = ret;
+       ret = platform_driver_register(&arm_cmn_driver);
+       if (ret)
+               cpuhp_remove_multi_state(arm_cmn_hp_state);
+       return ret;
+}
+
+static void __exit arm_cmn_exit(void)
+{
+       platform_driver_unregister(&arm_cmn_driver);
+       cpuhp_remove_multi_state(arm_cmn_hp_state);
+}
+
+module_init(arm_cmn_init);
+module_exit(arm_cmn_exit);
+
+MODULE_AUTHOR("Robin Murphy <robin.murphy@arm.com>");
+MODULE_DESCRIPTION("Arm CMN-600 PMU driver");
+MODULE_LICENSE("GPL v2");
index 96ed93c..98e68ed 100644 (file)
@@ -11,6 +11,7 @@
 #define DRVNAME                PMUNAME "_pmu"
 #define pr_fmt(fmt)    DRVNAME ": " fmt
 
+#include <linux/acpi.h>
 #include <linux/bitmap.h>
 #include <linux/bitops.h>
 #include <linux/bug.h>
@@ -603,18 +604,19 @@ static struct dsu_pmu *dsu_pmu_alloc(struct platform_device *pdev)
 }
 
 /**
- * dsu_pmu_dt_get_cpus: Get the list of CPUs in the cluster.
+ * dsu_pmu_dt_get_cpus: Get the list of CPUs in the cluster
+ * from device tree.
  */
-static int dsu_pmu_dt_get_cpus(struct device_node *dev, cpumask_t *mask)
+static int dsu_pmu_dt_get_cpus(struct device *dev, cpumask_t *mask)
 {
        int i = 0, n, cpu;
        struct device_node *cpu_node;
 
-       n = of_count_phandle_with_args(dev, "cpus", NULL);
+       n = of_count_phandle_with_args(dev->of_node, "cpus", NULL);
        if (n <= 0)
                return -ENODEV;
        for (; i < n; i++) {
-               cpu_node = of_parse_phandle(dev, "cpus", i);
+               cpu_node = of_parse_phandle(dev->of_node, "cpus", i);
                if (!cpu_node)
                        break;
                cpu = of_cpu_node_to_id(cpu_node);
@@ -631,6 +633,36 @@ static int dsu_pmu_dt_get_cpus(struct device_node *dev, cpumask_t *mask)
        return 0;
 }
 
+/**
+ * dsu_pmu_acpi_get_cpus: Get the list of CPUs in the cluster
+ * from ACPI.
+ */
+static int dsu_pmu_acpi_get_cpus(struct device *dev, cpumask_t *mask)
+{
+#ifdef CONFIG_ACPI
+       int cpu;
+
+       /*
+        * A dsu pmu node is inside a cluster parent node along with cpu nodes.
+        * We need to find out all cpus that have the same parent with this pmu.
+        */
+       for_each_possible_cpu(cpu) {
+               struct acpi_device *acpi_dev;
+               struct device *cpu_dev = get_cpu_device(cpu);
+
+               if (!cpu_dev)
+                       continue;
+
+               acpi_dev = ACPI_COMPANION(cpu_dev);
+               if (acpi_dev &&
+                       acpi_dev->parent == ACPI_COMPANION(dev)->parent)
+                       cpumask_set_cpu(cpu, mask);
+       }
+#endif
+
+       return 0;
+}
+
 /*
  * dsu_pmu_probe_pmu: Probe the PMU details on a CPU in the cluster.
  */
@@ -676,6 +708,7 @@ static int dsu_pmu_device_probe(struct platform_device *pdev)
 {
        int irq, rc;
        struct dsu_pmu *dsu_pmu;
+       struct fwnode_handle *fwnode = dev_fwnode(&pdev->dev);
        char *name;
        static atomic_t pmu_idx = ATOMIC_INIT(-1);
 
@@ -683,7 +716,16 @@ static int dsu_pmu_device_probe(struct platform_device *pdev)
        if (IS_ERR(dsu_pmu))
                return PTR_ERR(dsu_pmu);
 
-       rc = dsu_pmu_dt_get_cpus(pdev->dev.of_node, &dsu_pmu->associated_cpus);
+       if (IS_ERR_OR_NULL(fwnode))
+               return -ENOENT;
+
+       if (is_of_node(fwnode))
+               rc = dsu_pmu_dt_get_cpus(&pdev->dev, &dsu_pmu->associated_cpus);
+       else if (is_acpi_device_node(fwnode))
+               rc = dsu_pmu_acpi_get_cpus(&pdev->dev, &dsu_pmu->associated_cpus);
+       else
+               return -ENOENT;
+
        if (rc) {
                dev_warn(&pdev->dev, "Failed to parse the CPUs\n");
                return rc;
@@ -752,11 +794,21 @@ static const struct of_device_id dsu_pmu_of_match[] = {
        { .compatible = "arm,dsu-pmu", },
        {},
 };
+MODULE_DEVICE_TABLE(of, dsu_pmu_of_match);
+
+#ifdef CONFIG_ACPI
+static const struct acpi_device_id dsu_pmu_acpi_match[] = {
+       { "ARMHD500", 0},
+       {},
+};
+MODULE_DEVICE_TABLE(acpi, dsu_pmu_acpi_match);
+#endif
 
 static struct platform_driver dsu_pmu_driver = {
        .driver = {
                .name   = DRVNAME,
                .of_match_table = of_match_ptr(dsu_pmu_of_match),
+               .acpi_match_table = ACPI_PTR(dsu_pmu_acpi_match),
                .suppress_bind_attrs = true,
        },
        .probe = dsu_pmu_device_probe,
@@ -826,7 +878,6 @@ static void __exit dsu_pmu_exit(void)
 module_init(dsu_pmu_init);
 module_exit(dsu_pmu_exit);
 
-MODULE_DEVICE_TABLE(of, dsu_pmu_of_match);
 MODULE_DESCRIPTION("Perf driver for ARM DynamIQ Shared Unit");
 MODULE_AUTHOR("Suzuki K Poulose <suzuki.poulose@arm.com>");
 MODULE_LICENSE("GPL v2");
index df352b3..cb2f55f 100644 (file)
 
 #include <asm/irq_regs.h>
 
+static int armpmu_count_irq_users(const int irq);
+
+struct pmu_irq_ops {
+       void (*enable_pmuirq)(unsigned int irq);
+       void (*disable_pmuirq)(unsigned int irq);
+       void (*free_pmuirq)(unsigned int irq, int cpu, void __percpu *devid);
+};
+
+static void armpmu_free_pmuirq(unsigned int irq, int cpu, void __percpu *devid)
+{
+       free_irq(irq, per_cpu_ptr(devid, cpu));
+}
+
+static const struct pmu_irq_ops pmuirq_ops = {
+       .enable_pmuirq = enable_irq,
+       .disable_pmuirq = disable_irq_nosync,
+       .free_pmuirq = armpmu_free_pmuirq
+};
+
+static void armpmu_free_pmunmi(unsigned int irq, int cpu, void __percpu *devid)
+{
+       free_nmi(irq, per_cpu_ptr(devid, cpu));
+}
+
+static const struct pmu_irq_ops pmunmi_ops = {
+       .enable_pmuirq = enable_nmi,
+       .disable_pmuirq = disable_nmi_nosync,
+       .free_pmuirq = armpmu_free_pmunmi
+};
+
+static void armpmu_enable_percpu_pmuirq(unsigned int irq)
+{
+       enable_percpu_irq(irq, IRQ_TYPE_NONE);
+}
+
+static void armpmu_free_percpu_pmuirq(unsigned int irq, int cpu,
+                                  void __percpu *devid)
+{
+       if (armpmu_count_irq_users(irq) == 1)
+               free_percpu_irq(irq, devid);
+}
+
+static const struct pmu_irq_ops percpu_pmuirq_ops = {
+       .enable_pmuirq = armpmu_enable_percpu_pmuirq,
+       .disable_pmuirq = disable_percpu_irq,
+       .free_pmuirq = armpmu_free_percpu_pmuirq
+};
+
+static void armpmu_enable_percpu_pmunmi(unsigned int irq)
+{
+       if (!prepare_percpu_nmi(irq))
+               enable_percpu_nmi(irq, IRQ_TYPE_NONE);
+}
+
+static void armpmu_disable_percpu_pmunmi(unsigned int irq)
+{
+       disable_percpu_nmi(irq);
+       teardown_percpu_nmi(irq);
+}
+
+static void armpmu_free_percpu_pmunmi(unsigned int irq, int cpu,
+                                     void __percpu *devid)
+{
+       if (armpmu_count_irq_users(irq) == 1)
+               free_percpu_nmi(irq, devid);
+}
+
+static const struct pmu_irq_ops percpu_pmunmi_ops = {
+       .enable_pmuirq = armpmu_enable_percpu_pmunmi,
+       .disable_pmuirq = armpmu_disable_percpu_pmunmi,
+       .free_pmuirq = armpmu_free_percpu_pmunmi
+};
+
 static DEFINE_PER_CPU(struct arm_pmu *, cpu_armpmu);
 static DEFINE_PER_CPU(int, cpu_irq);
+static DEFINE_PER_CPU(const struct pmu_irq_ops *, cpu_irq_ops);
+
+static bool has_nmi;
 
 static inline u64 arm_pmu_event_max_period(struct perf_event *event)
 {
@@ -544,6 +620,23 @@ static int armpmu_count_irq_users(const int irq)
        return count;
 }
 
+static const struct pmu_irq_ops *armpmu_find_irq_ops(int irq)
+{
+       const struct pmu_irq_ops *ops = NULL;
+       int cpu;
+
+       for_each_possible_cpu(cpu) {
+               if (per_cpu(cpu_irq, cpu) != irq)
+                       continue;
+
+               ops = per_cpu(cpu_irq_ops, cpu);
+               if (ops)
+                       break;
+       }
+
+       return ops;
+}
+
 void armpmu_free_irq(int irq, int cpu)
 {
        if (per_cpu(cpu_irq, cpu) == 0)
@@ -551,18 +644,18 @@ void armpmu_free_irq(int irq, int cpu)
        if (WARN_ON(irq != per_cpu(cpu_irq, cpu)))
                return;
 
-       if (!irq_is_percpu_devid(irq))
-               free_irq(irq, per_cpu_ptr(&cpu_armpmu, cpu));
-       else if (armpmu_count_irq_users(irq) == 1)
-               free_percpu_irq(irq, &cpu_armpmu);
+       per_cpu(cpu_irq_ops, cpu)->free_pmuirq(irq, cpu, &cpu_armpmu);
 
        per_cpu(cpu_irq, cpu) = 0;
+       per_cpu(cpu_irq_ops, cpu) = NULL;
 }
 
 int armpmu_request_irq(int irq, int cpu)
 {
        int err = 0;
        const irq_handler_t handler = armpmu_dispatch_irq;
+       const struct pmu_irq_ops *irq_ops;
+
        if (!irq)
                return 0;
 
@@ -582,17 +675,44 @@ int armpmu_request_irq(int irq, int cpu)
                            IRQF_NO_THREAD;
 
                irq_set_status_flags(irq, IRQ_NOAUTOEN);
-               err = request_irq(irq, handler, irq_flags, "arm-pmu",
+
+               err = request_nmi(irq, handler, irq_flags, "arm-pmu",
                                  per_cpu_ptr(&cpu_armpmu, cpu));
+
+               /* If cannot get an NMI, get a normal interrupt */
+               if (err) {
+                       err = request_irq(irq, handler, irq_flags, "arm-pmu",
+                                         per_cpu_ptr(&cpu_armpmu, cpu));
+                       irq_ops = &pmuirq_ops;
+               } else {
+                       has_nmi = true;
+                       irq_ops = &pmunmi_ops;
+               }
        } else if (armpmu_count_irq_users(irq) == 0) {
-               err = request_percpu_irq(irq, handler, "arm-pmu",
-                                        &cpu_armpmu);
+               err = request_percpu_nmi(irq, handler, "arm-pmu", &cpu_armpmu);
+
+               /* If cannot get an NMI, get a normal interrupt */
+               if (err) {
+                       err = request_percpu_irq(irq, handler, "arm-pmu",
+                                                &cpu_armpmu);
+                       irq_ops = &percpu_pmuirq_ops;
+               } else {
+                       has_nmi= true;
+                       irq_ops = &percpu_pmunmi_ops;
+               }
+       } else {
+               /* Per cpudevid irq was already requested by another CPU */
+               irq_ops = armpmu_find_irq_ops(irq);
+
+               if (WARN_ON(!irq_ops))
+                       err = -EINVAL;
        }
 
        if (err)
                goto err_out;
 
        per_cpu(cpu_irq, cpu) = irq;
+       per_cpu(cpu_irq_ops, cpu) = irq_ops;
        return 0;
 
 err_out:
@@ -625,12 +745,8 @@ static int arm_perf_starting_cpu(unsigned int cpu, struct hlist_node *node)
        per_cpu(cpu_armpmu, cpu) = pmu;
 
        irq = armpmu_get_cpu_irq(pmu, cpu);
-       if (irq) {
-               if (irq_is_percpu_devid(irq))
-                       enable_percpu_irq(irq, IRQ_TYPE_NONE);
-               else
-                       enable_irq(irq);
-       }
+       if (irq)
+               per_cpu(cpu_irq_ops, cpu)->enable_pmuirq(irq);
 
        return 0;
 }
@@ -644,12 +760,8 @@ static int arm_perf_teardown_cpu(unsigned int cpu, struct hlist_node *node)
                return 0;
 
        irq = armpmu_get_cpu_irq(pmu, cpu);
-       if (irq) {
-               if (irq_is_percpu_devid(irq))
-                       disable_percpu_irq(irq);
-               else
-                       disable_irq_nosync(irq);
-       }
+       if (irq)
+               per_cpu(cpu_irq_ops, cpu)->disable_pmuirq(irq);
 
        per_cpu(cpu_armpmu, cpu) = NULL;
 
@@ -870,8 +982,9 @@ int armpmu_register(struct arm_pmu *pmu)
        if (!__oprofile_cpu_pmu)
                __oprofile_cpu_pmu = pmu;
 
-       pr_info("enabled with %s PMU driver, %d counters available\n",
-               pmu->name, pmu->num_events);
+       pr_info("enabled with %s PMU driver, %d counters available%s\n",
+               pmu->name, pmu->num_events,
+               has_nmi ? ", using NMIs" : "");
 
        return 0;
 
index 25b0c97..b59ec22 100644 (file)
@@ -14,6 +14,7 @@
 #include <linux/cpumask.h>
 #include <linux/device.h>
 #include <linux/kernel.h>
+#include <linux/module.h>
 #include <linux/perf_event.h>
 #include <linux/types.h>
 
index aac9823..e116815 100644 (file)
@@ -805,14 +805,17 @@ static struct tx2_uncore_pmu *tx2_uncore_pmu_init_dev(struct device *dev,
        list_for_each_entry(rentry, &list, node) {
                if (resource_type(rentry->res) == IORESOURCE_MEM) {
                        res = *rentry->res;
+                       rentry = NULL;
                        break;
                }
        }
+       acpi_dev_free_resource_list(&list);
 
-       if (!rentry->res)
+       if (rentry) {
+               dev_err(dev, "PMU type %d: Fail to find resource\n", type);
                return NULL;
+       }
 
-       acpi_dev_free_resource_list(&list);
        base = devm_ioremap_resource(dev, &res);
        if (IS_ERR(base)) {
                dev_err(dev, "PMU type %d: Fail to map resource\n", type);
index edac28c..633cf07 100644 (file)
@@ -1453,17 +1453,6 @@ static char *xgene_pmu_dev_name(struct device *dev, u32 type, int id)
 }
 
 #if defined(CONFIG_ACPI)
-static int acpi_pmu_dev_add_resource(struct acpi_resource *ares, void *data)
-{
-       struct resource *res = data;
-
-       if (ares->type == ACPI_RESOURCE_TYPE_FIXED_MEMORY32)
-               acpi_dev_resource_memory(ares, res);
-
-       /* Always tell the ACPI core to skip this resource */
-       return 1;
-}
-
 static struct
 xgene_pmu_dev_ctx *acpi_get_pmu_hw_inf(struct xgene_pmu *xgene_pmu,
                                       struct acpi_device *adev, u32 type)
@@ -1475,6 +1464,7 @@ xgene_pmu_dev_ctx *acpi_get_pmu_hw_inf(struct xgene_pmu *xgene_pmu,
        struct hw_pmu_info *inf;
        void __iomem *dev_csr;
        struct resource res;
+       struct resource_entry *rentry;
        int enable_bit;
        int rc;
 
@@ -1483,11 +1473,23 @@ xgene_pmu_dev_ctx *acpi_get_pmu_hw_inf(struct xgene_pmu *xgene_pmu,
                return NULL;
 
        INIT_LIST_HEAD(&resource_list);
-       rc = acpi_dev_get_resources(adev, &resource_list,
-                                   acpi_pmu_dev_add_resource, &res);
+       rc = acpi_dev_get_resources(adev, &resource_list, NULL, NULL);
+       if (rc <= 0) {
+               dev_err(dev, "PMU type %d: No resources found\n", type);
+               return NULL;
+       }
+
+       list_for_each_entry(rentry, &resource_list, node) {
+               if (resource_type(rentry->res) == IORESOURCE_MEM) {
+                       res = *rentry->res;
+                       rentry = NULL;
+                       break;
+               }
+       }
        acpi_dev_free_resource_list(&resource_list);
-       if (rc < 0) {
-               dev_err(dev, "PMU type %d: No resource address found\n", type);
+
+       if (rentry) {
+               dev_err(dev, "PMU type %d: No memory resource found\n", type);
                return NULL;
        }
 
index a2567e7..c4bcda9 100644 (file)
@@ -1077,12 +1077,10 @@ static int msm_gpio_irq_set_wake(struct irq_data *d, unsigned int on)
         * when TLMM is powered on. To allow that, enable the GPIO
         * summary line to be wakeup capable at GIC.
         */
-       if (d->parent_data)
-               irq_chip_set_wake_parent(d, on);
-
-       irq_set_irq_wake(pctrl->irq, on);
+       if (d->parent_data && test_bit(d->hwirq, pctrl->skip_wake_irqs))
+               return irq_chip_set_wake_parent(d, on);
 
-       return 0;
+       return irq_set_irq_wake(pctrl->irq, on);
 }
 
 static int msm_gpio_irq_reqres(struct irq_data *d)
@@ -1243,6 +1241,9 @@ static int msm_gpio_init(struct msm_pinctrl *pctrl)
        pctrl->irq_chip.irq_release_resources = msm_gpio_irq_relres;
        pctrl->irq_chip.irq_set_affinity = msm_gpio_irq_set_affinity;
        pctrl->irq_chip.irq_set_vcpu_affinity = msm_gpio_irq_set_vcpu_affinity;
+       pctrl->irq_chip.flags = IRQCHIP_MASK_ON_SUSPEND |
+                               IRQCHIP_SET_TYPE_MASKED |
+                               IRQCHIP_ENABLE_WAKEUP_ON_SUSPEND;
 
        np = of_parse_phandle(pctrl->dev->of_node, "wakeup-parent", 0);
        if (np) {
index 190e4a6..f64b828 100644 (file)
@@ -439,7 +439,9 @@ static int olpc_ec_probe(struct platform_device *pdev)
                                                                &config);
        if (IS_ERR(ec->dcon_rdev)) {
                dev_err(&pdev->dev, "failed to register DCON regulator\n");
-               return PTR_ERR(ec->dcon_rdev);
+               err = PTR_ERR(ec->dcon_rdev);
+               kfree(ec);
+               return err;
        }
 
        ec->dbgfs_dir = olpc_ec_setup_debugfs();
index 40219bb..0d91d13 100644 (file)
@@ -469,6 +469,7 @@ config FUJITSU_LAPTOP
        depends on BACKLIGHT_CLASS_DEVICE
        depends on ACPI_VIDEO || ACPI_VIDEO = n
        select INPUT_SPARSEKMAP
+       select NEW_LEDS
        select LEDS_CLASS
        help
          This is a driver for laptops built by Fujitsu:
@@ -1112,6 +1113,7 @@ config LG_LAPTOP
        depends on ACPI_WMI
        depends on INPUT
        select INPUT_SPARSEKMAP
+       select NEW_LEDS
        select LEDS_CLASS
        help
         This driver adds support for hotkeys as well as control of keyboard
index b2e3d1e..1d9fbab 100644 (file)
@@ -115,6 +115,10 @@ static struct quirk_entry quirk_asus_vendor_backlight = {
        .wmi_backlight_set_devstate = true,
 };
 
+static struct quirk_entry quirk_asus_use_kbd_dock_devid = {
+       .use_kbd_dock_devid = true,
+};
+
 static int dmi_matched(const struct dmi_system_id *dmi)
 {
        pr_info("Identified laptop model '%s'\n", dmi->ident);
@@ -488,6 +492,34 @@ static const struct dmi_system_id asus_quirks[] = {
                },
                .driver_data = &quirk_asus_vendor_backlight,
        },
+       {
+               .callback = dmi_matched,
+               .ident = "Asus Transformer T100TA / T100HA / T100CHI",
+               .matches = {
+                       DMI_MATCH(DMI_SYS_VENDOR, "ASUSTeK COMPUTER INC."),
+                       /* Match *T100* */
+                       DMI_MATCH(DMI_PRODUCT_NAME, "T100"),
+               },
+               .driver_data = &quirk_asus_use_kbd_dock_devid,
+       },
+       {
+               .callback = dmi_matched,
+               .ident = "Asus Transformer T101HA",
+               .matches = {
+                       DMI_MATCH(DMI_SYS_VENDOR, "ASUSTeK COMPUTER INC."),
+                       DMI_MATCH(DMI_PRODUCT_NAME, "T101HA"),
+               },
+               .driver_data = &quirk_asus_use_kbd_dock_devid,
+       },
+       {
+               .callback = dmi_matched,
+               .ident = "Asus Transformer T200TA",
+               .matches = {
+                       DMI_MATCH(DMI_SYS_VENDOR, "ASUSTeK COMPUTER INC."),
+                       DMI_MATCH(DMI_PRODUCT_NAME, "T200TA"),
+               },
+               .driver_data = &quirk_asus_use_kbd_dock_devid,
+       },
        {},
 };
 
@@ -593,33 +625,9 @@ static struct asus_wmi_driver asus_nb_wmi_driver = {
        .detect_quirks = asus_nb_wmi_quirks,
 };
 
-static const struct dmi_system_id asus_nb_wmi_blacklist[] __initconst = {
-       {
-               /*
-                * asus-nb-wm adds no functionality. The T100TA has a detachable
-                * USB kbd, so no hotkeys and it has no WMI rfkill; and loading
-                * asus-nb-wm causes the camera LED to turn and _stay_ on.
-                */
-               .matches = {
-                       DMI_EXACT_MATCH(DMI_SYS_VENDOR, "ASUSTeK COMPUTER INC."),
-                       DMI_EXACT_MATCH(DMI_PRODUCT_NAME, "T100TA"),
-               },
-       },
-       {
-               /* The Asus T200TA has the same issue as the T100TA */
-               .matches = {
-                       DMI_EXACT_MATCH(DMI_SYS_VENDOR, "ASUSTeK COMPUTER INC."),
-                       DMI_EXACT_MATCH(DMI_PRODUCT_NAME, "T200TA"),
-               },
-       },
-       {} /* Terminating entry */
-};
 
 static int __init asus_nb_wmi_init(void)
 {
-       if (dmi_check_system(asus_nb_wmi_blacklist))
-               return -ENODEV;
-
        return asus_wmi_register_driver(&asus_nb_wmi_driver);
 }
 
index 8f4acdc..39e1a63 100644 (file)
@@ -365,12 +365,14 @@ static int asus_wmi_input_init(struct asus_wmi *asus)
        if (err)
                goto err_free_dev;
 
-       result = asus_wmi_get_devstate_simple(asus, ASUS_WMI_DEVID_KBD_DOCK);
-       if (result >= 0) {
-               input_set_capability(asus->inputdev, EV_SW, SW_TABLET_MODE);
-               input_report_switch(asus->inputdev, SW_TABLET_MODE, !result);
-       } else if (result != -ENODEV) {
-               pr_err("Error checking for keyboard-dock: %d\n", result);
+       if (asus->driver->quirks->use_kbd_dock_devid) {
+               result = asus_wmi_get_devstate_simple(asus, ASUS_WMI_DEVID_KBD_DOCK);
+               if (result >= 0) {
+                       input_set_capability(asus->inputdev, EV_SW, SW_TABLET_MODE);
+                       input_report_switch(asus->inputdev, SW_TABLET_MODE, !result);
+               } else if (result != -ENODEV) {
+                       pr_err("Error checking for keyboard-dock: %d\n", result);
+               }
        }
 
        err = input_register_device(asus->inputdev);
@@ -442,6 +444,7 @@ static int asus_wmi_battery_add(struct power_supply *battery)
         */
        if (strcmp(battery->desc->name, "BAT0") != 0 &&
            strcmp(battery->desc->name, "BAT1") != 0 &&
+           strcmp(battery->desc->name, "BATC") != 0 &&
            strcmp(battery->desc->name, "BATT") != 0)
                return -ENODEV;
 
@@ -2114,7 +2117,7 @@ static void asus_wmi_handle_event_code(int code, struct asus_wmi *asus)
                return;
        }
 
-       if (code == NOTIFY_KBD_DOCK_CHANGE) {
+       if (asus->driver->quirks->use_kbd_dock_devid && code == NOTIFY_KBD_DOCK_CHANGE) {
                result = asus_wmi_get_devstate_simple(asus,
                                                      ASUS_WMI_DEVID_KBD_DOCK);
                if (result >= 0) {
index 4f31b68..1a95c17 100644 (file)
@@ -33,6 +33,7 @@ struct quirk_entry {
        bool wmi_backlight_native;
        bool wmi_backlight_set_devstate;
        bool wmi_force_als_set;
+       bool use_kbd_dock_devid;
        int wapf;
        /*
         * For machines with AMD graphic chips, it will send out WMI event
index e85d8e5..f5901b0 100644 (file)
@@ -167,20 +167,54 @@ static bool intel_vbtn_has_buttons(acpi_handle handle)
        return ACPI_SUCCESS(status);
 }
 
+/*
+ * There are several laptops (non 2-in-1) models out there which support VGBS,
+ * but simply always return 0, which we translate to SW_TABLET_MODE=1. This in
+ * turn causes userspace (libinput) to suppress events from the builtin
+ * keyboard and touchpad, making the laptop essentially unusable.
+ *
+ * Since the problem of wrongly reporting SW_TABLET_MODE=1 in combination
+ * with libinput, leads to a non-usable system. Where as OTOH many people will
+ * not even notice when SW_TABLET_MODE is not being reported, a DMI based allow
+ * list is used here. This list mainly matches on the chassis-type of 2-in-1s.
+ *
+ * There are also some 2-in-1s which use the intel-vbtn ACPI interface to report
+ * SW_TABLET_MODE with a chassis-type of 8 ("Portable") or 10 ("Notebook"),
+ * these are matched on a per model basis, since many normal laptops with a
+ * possible broken VGBS ACPI-method also use these chassis-types.
+ */
+static const struct dmi_system_id dmi_switches_allow_list[] = {
+       {
+               .matches = {
+                       DMI_EXACT_MATCH(DMI_CHASSIS_TYPE, "31" /* Convertible */),
+               },
+       },
+       {
+               .matches = {
+                       DMI_EXACT_MATCH(DMI_CHASSIS_TYPE, "32" /* Detachable */),
+               },
+       },
+       {
+               .matches = {
+                       DMI_MATCH(DMI_SYS_VENDOR, "Dell Inc."),
+                       DMI_MATCH(DMI_PRODUCT_NAME, "Venue 11 Pro 7130"),
+               },
+       },
+       {
+               .matches = {
+                       DMI_MATCH(DMI_SYS_VENDOR, "Hewlett-Packard"),
+                       DMI_MATCH(DMI_PRODUCT_NAME, "HP Stream x360 Convertible PC 11"),
+               },
+       },
+       {} /* Array terminator */
+};
+
 static bool intel_vbtn_has_switches(acpi_handle handle)
 {
-       const char *chassis_type = dmi_get_system_info(DMI_CHASSIS_TYPE);
        unsigned long long vgbs;
        acpi_status status;
 
-       /*
-        * Some normal laptops have a VGBS method despite being non-convertible
-        * and their VGBS method always returns 0, causing detect_tablet_mode()
-        * to report SW_TABLET_MODE=1 to userspace, which causes issues.
-        * These laptops have a DMI chassis_type of 9 ("Laptop"), do not report
-        * switches on any devices with a DMI chassis_type of 9.
-        */
-       if (chassis_type && strcmp(chassis_type, "9") == 0)
+       if (!dmi_check_system(dmi_switches_allow_list))
                return false;
 
        status = acpi_evaluate_integer(handle, "VGBS", NULL, &vgbs);
index 7312818..7379768 100644 (file)
 
 static void intel_pmc_core_release(struct device *dev)
 {
-       /* Nothing to do. */
+       kfree(dev);
 }
 
-static struct platform_device pmc_core_device = {
-       .name = "intel_pmc_core",
-       .dev  = {
-               .release = intel_pmc_core_release,
-       },
-};
+static struct platform_device *pmc_core_device;
 
 /*
  * intel_pmc_core_platform_ids is the list of platforms where we want to
@@ -52,6 +47,8 @@ MODULE_DEVICE_TABLE(x86cpu, intel_pmc_core_platform_ids);
 
 static int __init pmc_core_platform_init(void)
 {
+       int retval;
+
        /* Skip creating the platform device if ACPI already has a device */
        if (acpi_dev_present("INT33A1", NULL, -1))
                return -ENODEV;
@@ -59,12 +56,23 @@ static int __init pmc_core_platform_init(void)
        if (!x86_match_cpu(intel_pmc_core_platform_ids))
                return -ENODEV;
 
-       return platform_device_register(&pmc_core_device);
+       pmc_core_device = kzalloc(sizeof(*pmc_core_device), GFP_KERNEL);
+       if (!pmc_core_device)
+               return -ENOMEM;
+
+       pmc_core_device->name = "intel_pmc_core";
+       pmc_core_device->dev.release = intel_pmc_core_release;
+
+       retval = platform_device_register(pmc_core_device);
+       if (retval)
+               kfree(pmc_core_device);
+
+       return retval;
 }
 
 static void __exit pmc_core_platform_exit(void)
 {
-       platform_device_unregister(&pmc_core_device);
+       platform_device_unregister(pmc_core_device);
 }
 
 module_init(pmc_core_platform_init);
index 8cf8c1b..1506ec0 100644 (file)
 #define MLXPLAT_CPLD_NR_NONE                   -1
 #define MLXPLAT_CPLD_PSU_DEFAULT_NR            10
 #define MLXPLAT_CPLD_PSU_MSNXXXX_NR            4
-#define MLXPLAT_CPLD_PSU_MSNXXXX_NR2           3
 #define MLXPLAT_CPLD_FAN1_DEFAULT_NR           11
 #define MLXPLAT_CPLD_FAN2_DEFAULT_NR           12
 #define MLXPLAT_CPLD_FAN3_DEFAULT_NR           13
@@ -347,6 +346,15 @@ static struct i2c_board_info mlxplat_mlxcpld_pwr[] = {
        },
 };
 
+static struct i2c_board_info mlxplat_mlxcpld_ext_pwr[] = {
+       {
+               I2C_BOARD_INFO("dps460", 0x5b),
+       },
+       {
+               I2C_BOARD_INFO("dps460", 0x5a),
+       },
+};
+
 static struct i2c_board_info mlxplat_mlxcpld_fan[] = {
        {
                I2C_BOARD_INFO("24c32", 0x50),
@@ -921,15 +929,15 @@ static struct mlxreg_core_data mlxplat_mlxcpld_ext_pwr_items_data[] = {
                .label = "pwr3",
                .reg = MLXPLAT_CPLD_LPC_REG_PWR_OFFSET,
                .mask = BIT(2),
-               .hpdev.brdinfo = &mlxplat_mlxcpld_pwr[0],
-               .hpdev.nr = MLXPLAT_CPLD_PSU_MSNXXXX_NR2,
+               .hpdev.brdinfo = &mlxplat_mlxcpld_ext_pwr[0],
+               .hpdev.nr = MLXPLAT_CPLD_PSU_MSNXXXX_NR,
        },
        {
                .label = "pwr4",
                .reg = MLXPLAT_CPLD_LPC_REG_PWR_OFFSET,
                .mask = BIT(3),
-               .hpdev.brdinfo = &mlxplat_mlxcpld_pwr[1],
-               .hpdev.nr = MLXPLAT_CPLD_PSU_MSNXXXX_NR2,
+               .hpdev.brdinfo = &mlxplat_mlxcpld_ext_pwr[1],
+               .hpdev.nr = MLXPLAT_CPLD_PSU_MSNXXXX_NR,
        },
 };
 
index 6aff6cf..c37349f 100644 (file)
@@ -32,7 +32,7 @@
 #define APU2_GPIO_REG_LED3             AMD_FCH_GPIO_REG_GPIO59_DEVSLP1
 #define APU2_GPIO_REG_MODESW           AMD_FCH_GPIO_REG_GPIO32_GE1
 #define APU2_GPIO_REG_SIMSWAP          AMD_FCH_GPIO_REG_GPIO33_GE2
-#define APU2_GPIO_REG_MPCIE2           AMD_FCH_GPIO_REG_GPIO59_DEVSLP0
+#define APU2_GPIO_REG_MPCIE2           AMD_FCH_GPIO_REG_GPIO55_DEVSLP0
 #define APU2_GPIO_REG_MPCIE3           AMD_FCH_GPIO_REG_GPIO51
 
 /* Order in which the GPIO lines are defined in the register list */
index 9c4df41..eae3579 100644 (file)
@@ -2569,7 +2569,7 @@ static void hotkey_compare_and_issue_event(struct tp_nvram_state *oldn,
  */
 static int hotkey_kthread(void *data)
 {
-       struct tp_nvram_state s[2];
+       struct tp_nvram_state s[2] = { 0 };
        u32 poll_mask, event_mask;
        unsigned int si, so;
        unsigned long t;
@@ -6829,8 +6829,10 @@ static int __init tpacpi_query_bcl_levels(acpi_handle handle)
        list_for_each_entry(child, &device->children, node) {
                acpi_status status = acpi_evaluate_object(child->handle, "_BCL",
                                                          NULL, &buffer);
-               if (ACPI_FAILURE(status))
+               if (ACPI_FAILURE(status)) {
+                       buffer.length = ACPI_ALLOCATE_BUFFER;
                        continue;
+               }
 
                obj = (union acpi_object *)buffer.pointer;
                if (!obj || (obj->type != ACPI_TYPE_PACKAGE)) {
index 5c22301..dda60f8 100644 (file)
@@ -373,6 +373,23 @@ static const struct ts_dmi_data jumper_ezpad_mini3_data = {
        .properties     = jumper_ezpad_mini3_props,
 };
 
+static const struct property_entry mpman_converter9_props[] = {
+       PROPERTY_ENTRY_U32("touchscreen-min-x", 8),
+       PROPERTY_ENTRY_U32("touchscreen-min-y", 8),
+       PROPERTY_ENTRY_U32("touchscreen-size-x", 1664),
+       PROPERTY_ENTRY_U32("touchscreen-size-y", 880),
+       PROPERTY_ENTRY_BOOL("touchscreen-inverted-y"),
+       PROPERTY_ENTRY_BOOL("touchscreen-swapped-x-y"),
+       PROPERTY_ENTRY_STRING("firmware-name", "gsl1680-mpman-converter9.fw"),
+       PROPERTY_ENTRY_U32("silead,max-fingers", 10),
+       { }
+};
+
+static const struct ts_dmi_data mpman_converter9_data = {
+       .acpi_name      = "MSSL1680:00",
+       .properties     = mpman_converter9_props,
+};
+
 static const struct property_entry mpman_mpwin895cl_props[] = {
        PROPERTY_ENTRY_U32("touchscreen-min-x", 3),
        PROPERTY_ENTRY_U32("touchscreen-min-y", 9),
@@ -977,6 +994,14 @@ const struct dmi_system_id touchscreen_dmi_table[] = {
                },
        },
        {
+               /* MP Man Converter 9 */
+               .driver_data = (void *)&mpman_converter9_data,
+               .matches = {
+                       DMI_MATCH(DMI_SYS_VENDOR, "MPMAN"),
+                       DMI_MATCH(DMI_PRODUCT_NAME, "Converter9"),
+               },
+       },
+       {
                /* MP Man MPWIN895CL */
                .driver_data = (void *)&mpman_mpwin895cl_data,
                .matches = {
index 49c3508..7439753 100644 (file)
@@ -280,6 +280,12 @@ static int sbs_update_presence(struct sbs_info *chip, bool is_present)
        else
                client->flags &= ~I2C_CLIENT_PEC;
 
+       if (of_device_is_compatible(client->dev.parent->of_node, "google,cros-ec-i2c-tunnel")
+           && client->flags & I2C_CLIENT_PEC) {
+               dev_info(&client->dev, "Disabling PEC because of broken Cros-EC implementation\n");
+               client->flags &= ~I2C_CLIENT_PEC;
+       }
+
        dev_dbg(&client->dev, "PEC: %s\n", (client->flags & I2C_CLIENT_PEC) ?
                "enabled" : "disabled");
 
index 569d9ad..ddecf25 100644 (file)
@@ -435,7 +435,7 @@ DEFINE_DEBUGFS_ATTRIBUTE(action_threshold_ops, u64_get, action_threshold_set, "%
 
 static const char * const bins[] = { "00", "01", "10", "11" };
 
-static int array_dump(struct seq_file *m, void *v)
+static int array_show(struct seq_file *m, void *v)
 {
        struct ce_array *ca = &ce_arr;
        int i;
@@ -467,18 +467,7 @@ static int array_dump(struct seq_file *m, void *v)
        return 0;
 }
 
-static int array_open(struct inode *inode, struct file *filp)
-{
-       return single_open(filp, array_dump, NULL);
-}
-
-static const struct file_operations array_ops = {
-       .owner   = THIS_MODULE,
-       .open    = array_open,
-       .read    = seq_read,
-       .llseek  = seq_lseek,
-       .release = single_release,
-};
+DEFINE_SHOW_ATTRIBUTE(array);
 
 static int __init create_debugfs_nodes(void)
 {
@@ -513,7 +502,7 @@ static int __init create_debugfs_nodes(void)
                goto err;
        }
 
-       array = debugfs_create_file("array", S_IRUSR, d, NULL, &array_ops);
+       array = debugfs_create_file("array", S_IRUSR, d, NULL, &array_fops);
        if (!array) {
                pr_warn("Error creating array debugfs node!\n");
                goto err;
@@ -553,20 +542,20 @@ static struct notifier_block cec_nb = {
        .priority       = MCE_PRIO_CEC,
 };
 
-static void __init cec_init(void)
+static int __init cec_init(void)
 {
        if (ce_arr.disabled)
-               return;
+               return -ENODEV;
 
        ce_arr.array = (void *)get_zeroed_page(GFP_KERNEL);
        if (!ce_arr.array) {
                pr_err("Error allocating CE array page!\n");
-               return;
+               return -ENOMEM;
        }
 
        if (create_debugfs_nodes()) {
                free_page((unsigned long)ce_arr.array);
-               return;
+               return -ENOMEM;
        }
 
        INIT_DELAYED_WORK(&cec_work, cec_work_fn);
@@ -575,6 +564,7 @@ static void __init cec_init(void)
        mce_register_decode_chain(&cec_nb);
 
        pr_info("Correctable Errors collector initialized.\n");
+       return 0;
 }
 late_initcall(cec_init);
 
index 37e5d4e..83f14b2 100644 (file)
@@ -128,7 +128,7 @@ static void iscsi_tcp_segment_map(struct iscsi_segment *segment, int recv)
         * coalescing neighboring slab objects into a single frag which
         * triggers one of hardened usercopy checks.
         */
-       if (!recv && page_count(sg_page(sg)) >= 1 && !PageSlab(sg_page(sg)))
+       if (!recv && sendpage_ok(sg_page(sg)))
                return;
 
        if (recv) {
index 20472aa..bfa8d77 100644 (file)
@@ -1820,14 +1820,7 @@ sg_start_req(Sg_request *srp, unsigned char *cmd)
                struct iovec *iov = NULL;
                struct iov_iter i;
 
-#ifdef CONFIG_COMPAT
-               if (in_compat_syscall())
-                       res = compat_import_iovec(rw, hp->dxferp, iov_count,
-                                                 0, &iov, &i);
-               else
-#endif
-                       res = import_iovec(rw, hp->dxferp, iov_count,
-                                          0, &iov, &i);
+               res = import_iovec(rw, hp->dxferp, iov_count, 0, &iov, &i);
                if (res < 0)
                        return res;
 
index d332e5d..b0bba8a 100644 (file)
@@ -1990,44 +1990,17 @@ static int tegra_pmc_irq_alloc(struct irq_domain *domain, unsigned int virq,
                                                            event->id,
                                                            &pmc->irq, pmc);
 
-                       /*
-                        * GPIOs don't have an equivalent interrupt in the
-                        * parent controller (GIC). However some code, such
-                        * as the one in irq_get_irqchip_state(), require a
-                        * valid IRQ chip to be set. Make sure that's the
-                        * case by passing NULL here, which will install a
-                        * dummy IRQ chip for the interrupt in the parent
-                        * domain.
-                        */
-                       if (domain->parent)
-                               irq_domain_set_hwirq_and_chip(domain->parent,
-                                                             virq, 0, NULL,
-                                                             NULL);
-
+                       /* GPIO hierarchies stop at the PMC level */
+                       if (!err && domain->parent)
+                               err = irq_domain_disconnect_hierarchy(domain->parent,
+                                                                     virq);
                        break;
                }
        }
 
-       /*
-        * For interrupts that don't have associated wake events, assign a
-        * dummy hardware IRQ number. This is used in the ->irq_set_type()
-        * and ->irq_set_wake() callbacks to return early for these IRQs.
-        */
-       if (i == soc->num_wake_events) {
-               err = irq_domain_set_hwirq_and_chip(domain, virq, ULONG_MAX,
-                                                   &pmc->irq, pmc);
-
-               /*
-                * Interrupts without a wake event don't have a corresponding
-                * interrupt in the parent controller (GIC). Pass NULL for the
-                * chip here, which causes a dummy IRQ chip to be installed
-                * for the interrupt in the parent domain, to make this
-                * explicit.
-                */
-               if (domain->parent)
-                       irq_domain_set_hwirq_and_chip(domain->parent, virq, 0,
-                                                     NULL, NULL);
-       }
+       /* If there is no wake-up event, there is no PMC mapping */
+       if (i == soc->num_wake_events)
+               err = irq_domain_disconnect_hierarchy(domain, virq);
 
        return err;
 }
@@ -2043,9 +2016,6 @@ static int tegra210_pmc_irq_set_wake(struct irq_data *data, unsigned int on)
        unsigned int offset, bit;
        u32 value;
 
-       if (data->hwirq == ULONG_MAX)
-               return 0;
-
        offset = data->hwirq / 32;
        bit = data->hwirq % 32;
 
@@ -2080,9 +2050,6 @@ static int tegra210_pmc_irq_set_type(struct irq_data *data, unsigned int type)
        unsigned int offset, bit;
        u32 value;
 
-       if (data->hwirq == ULONG_MAX)
-               return 0;
-
        offset = data->hwirq / 32;
        bit = data->hwirq % 32;
 
@@ -2123,10 +2090,6 @@ static int tegra186_pmc_irq_set_wake(struct irq_data *data, unsigned int on)
        unsigned int offset, bit;
        u32 value;
 
-       /* nothing to do if there's no associated wake event */
-       if (WARN_ON(data->hwirq == ULONG_MAX))
-               return 0;
-
        offset = data->hwirq / 32;
        bit = data->hwirq % 32;
 
@@ -2154,10 +2117,6 @@ static int tegra186_pmc_irq_set_type(struct irq_data *data, unsigned int type)
        struct tegra_pmc *pmc = irq_data_get_irq_chip_data(data);
        u32 value;
 
-       /* nothing to do if there's no associated wake event */
-       if (data->hwirq == ULONG_MAX)
-               return 0;
-
        value = readl(pmc->wake + WAKE_AOWAKE_CNTRL(data->hwirq));
 
        switch (type) {
@@ -2184,6 +2143,34 @@ static int tegra186_pmc_irq_set_type(struct irq_data *data, unsigned int type)
        return 0;
 }
 
+static void tegra_irq_mask_parent(struct irq_data *data)
+{
+       if (data->parent_data)
+               irq_chip_mask_parent(data);
+}
+
+static void tegra_irq_unmask_parent(struct irq_data *data)
+{
+       if (data->parent_data)
+               irq_chip_unmask_parent(data);
+}
+
+static void tegra_irq_eoi_parent(struct irq_data *data)
+{
+       if (data->parent_data)
+               irq_chip_eoi_parent(data);
+}
+
+static int tegra_irq_set_affinity_parent(struct irq_data *data,
+                                        const struct cpumask *dest,
+                                        bool force)
+{
+       if (data->parent_data)
+               return irq_chip_set_affinity_parent(data, dest, force);
+
+       return -EINVAL;
+}
+
 static int tegra_pmc_irq_init(struct tegra_pmc *pmc)
 {
        struct irq_domain *parent = NULL;
@@ -2199,10 +2186,10 @@ static int tegra_pmc_irq_init(struct tegra_pmc *pmc)
                return 0;
 
        pmc->irq.name = dev_name(pmc->dev);
-       pmc->irq.irq_mask = irq_chip_mask_parent;
-       pmc->irq.irq_unmask = irq_chip_unmask_parent;
-       pmc->irq.irq_eoi = irq_chip_eoi_parent;
-       pmc->irq.irq_set_affinity = irq_chip_set_affinity_parent;
+       pmc->irq.irq_mask = tegra_irq_mask_parent;
+       pmc->irq.irq_unmask = tegra_irq_unmask_parent;
+       pmc->irq.irq_eoi = tegra_irq_eoi_parent;
+       pmc->irq.irq_set_affinity = tegra_irq_set_affinity_parent;
        pmc->irq.irq_set_type = pmc->soc->irq_set_type;
        pmc->irq.irq_set_wake = pmc->soc->irq_set_wake;
 
index 127323a..108a7d5 100644 (file)
@@ -1281,6 +1281,9 @@ static int dspi_probe(struct platform_device *pdev)
        if (!ctlr)
                return -ENOMEM;
 
+       spi_controller_set_devdata(ctlr, dspi);
+       platform_set_drvdata(pdev, dspi);
+
        dspi->pdev = pdev;
        dspi->ctlr = ctlr;
 
@@ -1417,8 +1420,6 @@ poll_mode:
        if (dspi->devtype_data->trans_mode != DSPI_DMA_MODE)
                ctlr->ptp_sts_supported = true;
 
-       platform_set_drvdata(pdev, dspi);
-
        ret = spi_register_controller(ctlr);
        if (ret != 0) {
                dev_err(&pdev->dev, "Problem registering DSPI ctlr\n");
index 1007eea..4c440bd 100644 (file)
@@ -25,7 +25,7 @@ config RTLLIB_CRYPTO_CCMP
 config RTLLIB_CRYPTO_TKIP
        tristate "Support for rtllib TKIP crypto"
        depends on RTLLIB
-       select CRYPTO_ARC4
+       select CRYPTO_LIB_ARC4
        select CRYPTO_MICHAEL_MIC
        default y
        help
@@ -35,7 +35,7 @@ config RTLLIB_CRYPTO_TKIP
 
 config RTLLIB_CRYPTO_WEP
        tristate "Support for rtllib WEP crypto"
-       select CRYPTO_ARC4
+       select CRYPTO_LIB_ARC4
        depends on RTLLIB
        default y
        help
index 8d2a58e..8c2ff37 100644 (file)
@@ -5,8 +5,9 @@
  * Copyright (c) 2003-2004, Jouni Malinen <jkmaline@cc.hut.fi>
  */
 
+#include <crypto/arc4.h>
 #include <crypto/hash.h>
-#include <crypto/skcipher.h>
+#include <linux/fips.h>
 #include <linux/module.h>
 #include <linux/init.h>
 #include <linux/slab.h>
@@ -16,7 +17,6 @@
 #include <linux/if_ether.h>
 #include <linux/if_arp.h>
 #include <linux/string.h>
-#include <linux/scatterlist.h>
 #include <linux/crc32.h>
 #include <linux/etherdevice.h>
 
@@ -45,9 +45,9 @@ struct rtllib_tkip_data {
        u32 dot11RSNAStatsTKIPLocalMICFailures;
 
        int key_idx;
-       struct crypto_sync_skcipher *rx_tfm_arc4;
+       struct arc4_ctx rx_ctx_arc4;
+       struct arc4_ctx tx_ctx_arc4;
        struct crypto_shash *rx_tfm_michael;
-       struct crypto_sync_skcipher *tx_tfm_arc4;
        struct crypto_shash *tx_tfm_michael;
        /* scratch buffers for virt_to_page() (crypto API) */
        u8 rx_hdr[16];
@@ -58,16 +58,13 @@ static void *rtllib_tkip_init(int key_idx)
 {
        struct rtllib_tkip_data *priv;
 
+       if (fips_enabled)
+               return NULL;
+
        priv = kzalloc(sizeof(*priv), GFP_ATOMIC);
        if (priv == NULL)
                goto fail;
        priv->key_idx = key_idx;
-       priv->tx_tfm_arc4 = crypto_alloc_sync_skcipher("ecb(arc4)", 0, 0);
-       if (IS_ERR(priv->tx_tfm_arc4)) {
-               pr_debug("Could not allocate crypto API arc4\n");
-               priv->tx_tfm_arc4 = NULL;
-               goto fail;
-       }
 
        priv->tx_tfm_michael = crypto_alloc_shash("michael_mic", 0, 0);
        if (IS_ERR(priv->tx_tfm_michael)) {
@@ -76,13 +73,6 @@ static void *rtllib_tkip_init(int key_idx)
                goto fail;
        }
 
-       priv->rx_tfm_arc4 = crypto_alloc_sync_skcipher("ecb(arc4)", 0, 0);
-       if (IS_ERR(priv->rx_tfm_arc4)) {
-               pr_debug("Could not allocate crypto API arc4\n");
-               priv->rx_tfm_arc4 = NULL;
-               goto fail;
-       }
-
        priv->rx_tfm_michael = crypto_alloc_shash("michael_mic", 0, 0);
        if (IS_ERR(priv->rx_tfm_michael)) {
                pr_debug("Could not allocate crypto API michael_mic\n");
@@ -94,9 +84,7 @@ static void *rtllib_tkip_init(int key_idx)
 fail:
        if (priv) {
                crypto_free_shash(priv->tx_tfm_michael);
-               crypto_free_sync_skcipher(priv->tx_tfm_arc4);
                crypto_free_shash(priv->rx_tfm_michael);
-               crypto_free_sync_skcipher(priv->rx_tfm_arc4);
                kfree(priv);
        }
 
@@ -110,11 +98,9 @@ static void rtllib_tkip_deinit(void *priv)
 
        if (_priv) {
                crypto_free_shash(_priv->tx_tfm_michael);
-               crypto_free_sync_skcipher(_priv->tx_tfm_arc4);
                crypto_free_shash(_priv->rx_tfm_michael);
-               crypto_free_sync_skcipher(_priv->rx_tfm_arc4);
        }
-       kfree(priv);
+       kzfree(priv);
 }
 
 
@@ -289,7 +275,6 @@ static int rtllib_tkip_encrypt(struct sk_buff *skb, int hdr_len, void *priv)
        int ret = 0;
        u8 rc4key[16],  *icv;
        u32 crc;
-       struct scatterlist sg;
 
        if (skb_headroom(skb) < 8 || skb_tailroom(skb) < 4 ||
            skb->len < hdr_len)
@@ -331,8 +316,6 @@ static int rtllib_tkip_encrypt(struct sk_buff *skb, int hdr_len, void *priv)
        *pos++ = (tkey->tx_iv32 >> 24) & 0xff;
 
        if (!tcb_desc->bHwSec) {
-               SYNC_SKCIPHER_REQUEST_ON_STACK(req, tkey->tx_tfm_arc4);
-
                icv = skb_put(skb, 4);
                crc = ~crc32_le(~0, pos, len);
                icv[0] = crc;
@@ -340,15 +323,8 @@ static int rtllib_tkip_encrypt(struct sk_buff *skb, int hdr_len, void *priv)
                icv[2] = crc >> 16;
                icv[3] = crc >> 24;
 
-               sg_init_one(&sg, pos, len+4);
-
-
-               crypto_sync_skcipher_setkey(tkey->tx_tfm_arc4, rc4key, 16);
-               skcipher_request_set_sync_tfm(req, tkey->tx_tfm_arc4);
-               skcipher_request_set_callback(req, 0, NULL, NULL);
-               skcipher_request_set_crypt(req, &sg, &sg, len + 4, NULL);
-               ret = crypto_skcipher_encrypt(req);
-               skcipher_request_zero(req);
+               arc4_setkey(&tkey->tx_ctx_arc4, rc4key, 16);
+               arc4_crypt(&tkey->tx_ctx_arc4, pos, pos, len + 4);
        }
 
        tkey->tx_iv16++;
@@ -376,9 +352,7 @@ static int rtllib_tkip_decrypt(struct sk_buff *skb, int hdr_len, void *priv)
        u8 rc4key[16];
        u8 icv[4];
        u32 crc;
-       struct scatterlist sg;
        int plen;
-       int err;
 
        if (skb->len < hdr_len + 8 + 4)
                return -1;
@@ -414,8 +388,6 @@ static int rtllib_tkip_decrypt(struct sk_buff *skb, int hdr_len, void *priv)
        pos += 8;
 
        if (!tcb_desc->bHwSec || (skb->cb[0] == 1)) {
-               SYNC_SKCIPHER_REQUEST_ON_STACK(req, tkey->rx_tfm_arc4);
-
                if ((iv32 < tkey->rx_iv32 ||
                    (iv32 == tkey->rx_iv32 && iv16 <= tkey->rx_iv16)) &&
                    tkey->initialized) {
@@ -439,22 +411,8 @@ static int rtllib_tkip_decrypt(struct sk_buff *skb, int hdr_len, void *priv)
 
                plen = skb->len - hdr_len - 12;
 
-               sg_init_one(&sg, pos, plen+4);
-
-               crypto_sync_skcipher_setkey(tkey->rx_tfm_arc4, rc4key, 16);
-               skcipher_request_set_sync_tfm(req, tkey->rx_tfm_arc4);
-               skcipher_request_set_callback(req, 0, NULL, NULL);
-               skcipher_request_set_crypt(req, &sg, &sg, plen + 4, NULL);
-               err = crypto_skcipher_decrypt(req);
-               skcipher_request_zero(req);
-               if (err) {
-                       if (net_ratelimit()) {
-                               netdev_dbg(skb->dev,
-                                          "Failed to decrypt received packet from %pM\n",
-                                          hdr->addr2);
-                       }
-                       return -7;
-               }
+               arc4_setkey(&tkey->rx_ctx_arc4, rc4key, 16);
+               arc4_crypt(&tkey->rx_ctx_arc4, pos, pos, plen + 4);
 
                crc = ~crc32_le(~0, pos, plen);
                icv[0] = crc;
@@ -657,17 +615,13 @@ static int rtllib_tkip_set_key(void *key, int len, u8 *seq, void *priv)
        struct rtllib_tkip_data *tkey = priv;
        int keyidx;
        struct crypto_shash *tfm = tkey->tx_tfm_michael;
-       struct crypto_sync_skcipher *tfm2 = tkey->tx_tfm_arc4;
        struct crypto_shash *tfm3 = tkey->rx_tfm_michael;
-       struct crypto_sync_skcipher *tfm4 = tkey->rx_tfm_arc4;
 
        keyidx = tkey->key_idx;
        memset(tkey, 0, sizeof(*tkey));
        tkey->key_idx = keyidx;
        tkey->tx_tfm_michael = tfm;
-       tkey->tx_tfm_arc4 = tfm2;
        tkey->rx_tfm_michael = tfm3;
-       tkey->rx_tfm_arc4 = tfm4;
 
        if (len == TKIP_KEY_LEN) {
                memcpy(tkey->key, key, TKIP_KEY_LEN);
index b1ea650..7cdd17f 100644 (file)
@@ -5,7 +5,8 @@
  * Copyright (c) 2002-2004, Jouni Malinen <jkmaline@cc.hut.fi>
  */
 
-#include <crypto/skcipher.h>
+#include <crypto/arc4.h>
+#include <linux/fips.h>
 #include <linux/module.h>
 #include <linux/init.h>
 #include <linux/slab.h>
@@ -14,7 +15,6 @@
 #include <linux/string.h>
 #include "rtllib.h"
 
-#include <linux/scatterlist.h>
 #include <linux/crc32.h>
 
 struct prism2_wep_data {
@@ -23,8 +23,8 @@ struct prism2_wep_data {
        u8 key[WEP_KEY_LEN + 1];
        u8 key_len;
        u8 key_idx;
-       struct crypto_sync_skcipher *tx_tfm;
-       struct crypto_sync_skcipher *rx_tfm;
+       struct arc4_ctx rx_ctx_arc4;
+       struct arc4_ctx tx_ctx_arc4;
 };
 
 
@@ -32,48 +32,24 @@ static void *prism2_wep_init(int keyidx)
 {
        struct prism2_wep_data *priv;
 
+       if (fips_enabled)
+               return NULL;
+
        priv = kzalloc(sizeof(*priv), GFP_ATOMIC);
        if (priv == NULL)
-               goto fail;
+               return NULL;
        priv->key_idx = keyidx;
 
-       priv->tx_tfm = crypto_alloc_sync_skcipher("ecb(arc4)", 0, 0);
-       if (IS_ERR(priv->tx_tfm)) {
-               pr_debug("rtllib_crypt_wep: could not allocate crypto API arc4\n");
-               priv->tx_tfm = NULL;
-               goto fail;
-       }
-       priv->rx_tfm = crypto_alloc_sync_skcipher("ecb(arc4)", 0, 0);
-       if (IS_ERR(priv->rx_tfm)) {
-               pr_debug("rtllib_crypt_wep: could not allocate crypto API arc4\n");
-               priv->rx_tfm = NULL;
-               goto fail;
-       }
-
        /* start WEP IV from a random value */
        get_random_bytes(&priv->iv, 4);
 
        return priv;
-
-fail:
-       if (priv) {
-               crypto_free_sync_skcipher(priv->tx_tfm);
-               crypto_free_sync_skcipher(priv->rx_tfm);
-               kfree(priv);
-       }
-       return NULL;
 }
 
 
 static void prism2_wep_deinit(void *priv)
 {
-       struct prism2_wep_data *_priv = priv;
-
-       if (_priv) {
-               crypto_free_sync_skcipher(_priv->tx_tfm);
-               crypto_free_sync_skcipher(_priv->rx_tfm);
-       }
-       kfree(priv);
+       kzfree(priv);
 }
 
 /* Perform WEP encryption on given skb that has at least 4 bytes of headroom
@@ -92,8 +68,6 @@ static int prism2_wep_encrypt(struct sk_buff *skb, int hdr_len, void *priv)
                                    MAX_DEV_ADDR_SIZE);
        u32 crc;
        u8 *icv;
-       struct scatterlist sg;
-       int err;
 
        if (skb_headroom(skb) < 4 || skb_tailroom(skb) < 4 ||
            skb->len < hdr_len){
@@ -131,8 +105,6 @@ static int prism2_wep_encrypt(struct sk_buff *skb, int hdr_len, void *priv)
        memcpy(key + 3, wep->key, wep->key_len);
 
        if (!tcb_desc->bHwSec) {
-               SYNC_SKCIPHER_REQUEST_ON_STACK(req, wep->tx_tfm);
-
                /* Append little-endian CRC32 and encrypt it to produce ICV */
                crc = ~crc32_le(~0, pos, len);
                icv = skb_put(skb, 4);
@@ -141,14 +113,8 @@ static int prism2_wep_encrypt(struct sk_buff *skb, int hdr_len, void *priv)
                icv[2] = crc >> 16;
                icv[3] = crc >> 24;
 
-               sg_init_one(&sg, pos, len+4);
-               crypto_sync_skcipher_setkey(wep->tx_tfm, key, klen);
-               skcipher_request_set_sync_tfm(req, wep->tx_tfm);
-               skcipher_request_set_callback(req, 0, NULL, NULL);
-               skcipher_request_set_crypt(req, &sg, &sg, len + 4, NULL);
-               err = crypto_skcipher_encrypt(req);
-               skcipher_request_zero(req);
-               return err;
+               arc4_setkey(&wep->tx_ctx_arc4, key, klen);
+               arc4_crypt(&wep->tx_ctx_arc4, pos, pos, len + 4);
        }
 
        return 0;
@@ -172,8 +138,6 @@ static int prism2_wep_decrypt(struct sk_buff *skb, int hdr_len, void *priv)
                                    MAX_DEV_ADDR_SIZE);
        u32 crc;
        u8 icv[4];
-       struct scatterlist sg;
-       int err;
 
        if (skb->len < hdr_len + 8)
                return -1;
@@ -195,17 +159,9 @@ static int prism2_wep_decrypt(struct sk_buff *skb, int hdr_len, void *priv)
        plen = skb->len - hdr_len - 8;
 
        if (!tcb_desc->bHwSec) {
-               SYNC_SKCIPHER_REQUEST_ON_STACK(req, wep->rx_tfm);
-
-               sg_init_one(&sg, pos, plen+4);
-               crypto_sync_skcipher_setkey(wep->rx_tfm, key, klen);
-               skcipher_request_set_sync_tfm(req, wep->rx_tfm);
-               skcipher_request_set_callback(req, 0, NULL, NULL);
-               skcipher_request_set_crypt(req, &sg, &sg, plen + 4, NULL);
-               err = crypto_skcipher_decrypt(req);
-               skcipher_request_zero(req);
-               if (err)
-                       return -7;
+               arc4_setkey(&wep->rx_ctx_arc4, key, klen);
+               arc4_crypt(&wep->rx_ctx_arc4, pos, pos, plen + 4);
+
                crc = ~crc32_le(~0, pos, plen);
                icv[0] = crc;
                icv[1] = crc >> 8;
index 1edca5c..ef883d4 100644 (file)
@@ -8,3 +8,4 @@ config RTL8192U
        select CRYPTO
        select CRYPTO_AES
        select CRYPTO_CCM
+       select CRYPTO_LIB_ARC4
index ffe624e..4b415cc 100644 (file)
@@ -5,6 +5,7 @@
  * Copyright (c) 2003-2004, Jouni Malinen <jkmaline@cc.hut.fi>
  */
 
+#include <linux/fips.h>
 #include <linux/module.h>
 #include <linux/init.h>
 #include <linux/slab.h>
@@ -17,9 +18,8 @@
 
 #include "ieee80211.h"
 
+#include <crypto/arc4.h>
 #include <crypto/hash.h>
-#include <crypto/skcipher.h>
-       #include <linux/scatterlist.h>
 #include <linux/crc32.h>
 
 MODULE_AUTHOR("Jouni Malinen");
@@ -49,9 +49,9 @@ struct ieee80211_tkip_data {
 
        int key_idx;
 
-       struct crypto_sync_skcipher *rx_tfm_arc4;
+       struct arc4_ctx rx_ctx_arc4;
+       struct arc4_ctx tx_ctx_arc4;
        struct crypto_shash *rx_tfm_michael;
-       struct crypto_sync_skcipher *tx_tfm_arc4;
        struct crypto_shash *tx_tfm_michael;
 
        /* scratch buffers for virt_to_page() (crypto API) */
@@ -62,19 +62,14 @@ static void *ieee80211_tkip_init(int key_idx)
 {
        struct ieee80211_tkip_data *priv;
 
+       if (fips_enabled)
+               return NULL;
+
        priv = kzalloc(sizeof(*priv), GFP_KERNEL);
        if (!priv)
                goto fail;
        priv->key_idx = key_idx;
 
-       priv->tx_tfm_arc4 = crypto_alloc_sync_skcipher("ecb(arc4)", 0, 0);
-       if (IS_ERR(priv->tx_tfm_arc4)) {
-               printk(KERN_DEBUG "ieee80211_crypt_tkip: could not allocate "
-                               "crypto API arc4\n");
-               priv->tx_tfm_arc4 = NULL;
-               goto fail;
-       }
-
        priv->tx_tfm_michael = crypto_alloc_shash("michael_mic", 0, 0);
        if (IS_ERR(priv->tx_tfm_michael)) {
                printk(KERN_DEBUG "ieee80211_crypt_tkip: could not allocate "
@@ -83,14 +78,6 @@ static void *ieee80211_tkip_init(int key_idx)
                goto fail;
        }
 
-       priv->rx_tfm_arc4 = crypto_alloc_sync_skcipher("ecb(arc4)", 0, 0);
-       if (IS_ERR(priv->rx_tfm_arc4)) {
-               printk(KERN_DEBUG "ieee80211_crypt_tkip: could not allocate "
-                               "crypto API arc4\n");
-               priv->rx_tfm_arc4 = NULL;
-               goto fail;
-       }
-
        priv->rx_tfm_michael = crypto_alloc_shash("michael_mic", 0, 0);
        if (IS_ERR(priv->rx_tfm_michael)) {
                printk(KERN_DEBUG "ieee80211_crypt_tkip: could not allocate "
@@ -104,9 +91,7 @@ static void *ieee80211_tkip_init(int key_idx)
 fail:
        if (priv) {
                crypto_free_shash(priv->tx_tfm_michael);
-               crypto_free_sync_skcipher(priv->tx_tfm_arc4);
                crypto_free_shash(priv->rx_tfm_michael);
-               crypto_free_sync_skcipher(priv->rx_tfm_arc4);
                kfree(priv);
        }
 
@@ -120,11 +105,9 @@ static void ieee80211_tkip_deinit(void *priv)
 
        if (_priv) {
                crypto_free_shash(_priv->tx_tfm_michael);
-               crypto_free_sync_skcipher(_priv->tx_tfm_arc4);
                crypto_free_shash(_priv->rx_tfm_michael);
-               crypto_free_sync_skcipher(_priv->rx_tfm_arc4);
        }
-       kfree(priv);
+       kzfree(priv);
 }
 
 
@@ -290,10 +273,8 @@ static int ieee80211_tkip_encrypt(struct sk_buff *skb, int hdr_len, void *priv)
        u8 *pos;
        struct rtl_80211_hdr_4addr *hdr;
        struct cb_desc *tcb_desc = (struct cb_desc *)(skb->cb + MAX_DEV_ADDR_SIZE);
-       int ret = 0;
        u8 rc4key[16],  *icv;
        u32 crc;
-       struct scatterlist sg;
 
        if (skb_headroom(skb) < 8 || skb_tailroom(skb) < 4 ||
            skb->len < hdr_len)
@@ -334,21 +315,15 @@ static int ieee80211_tkip_encrypt(struct sk_buff *skb, int hdr_len, void *priv)
        *pos++ = (tkey->tx_iv32 >> 24) & 0xff;
 
        if (!tcb_desc->bHwSec) {
-               SYNC_SKCIPHER_REQUEST_ON_STACK(req, tkey->tx_tfm_arc4);
-
                icv = skb_put(skb, 4);
                crc = ~crc32_le(~0, pos, len);
                icv[0] = crc;
                icv[1] = crc >> 8;
                icv[2] = crc >> 16;
                icv[3] = crc >> 24;
-               crypto_sync_skcipher_setkey(tkey->tx_tfm_arc4, rc4key, 16);
-               sg_init_one(&sg, pos, len + 4);
-               skcipher_request_set_sync_tfm(req, tkey->tx_tfm_arc4);
-               skcipher_request_set_callback(req, 0, NULL, NULL);
-               skcipher_request_set_crypt(req, &sg, &sg, len + 4, NULL);
-               ret = crypto_skcipher_encrypt(req);
-               skcipher_request_zero(req);
+
+               arc4_setkey(&tkey->tx_ctx_arc4, rc4key, 16);
+               arc4_crypt(&tkey->tx_ctx_arc4, pos, pos, len + 4);
        }
 
        tkey->tx_iv16++;
@@ -357,12 +332,7 @@ static int ieee80211_tkip_encrypt(struct sk_buff *skb, int hdr_len, void *priv)
                tkey->tx_iv32++;
        }
 
-       if (!tcb_desc->bHwSec)
-               return ret;
-       else
-               return 0;
-
-
+       return 0;
 }
 
 static int ieee80211_tkip_decrypt(struct sk_buff *skb, int hdr_len, void *priv)
@@ -376,9 +346,7 @@ static int ieee80211_tkip_decrypt(struct sk_buff *skb, int hdr_len, void *priv)
        u8 rc4key[16];
        u8 icv[4];
        u32 crc;
-       struct scatterlist sg;
        int plen;
-       int err;
 
        if (skb->len < hdr_len + 8 + 4)
                return -1;
@@ -412,8 +380,6 @@ static int ieee80211_tkip_decrypt(struct sk_buff *skb, int hdr_len, void *priv)
        pos += 8;
 
        if (!tcb_desc->bHwSec) {
-               SYNC_SKCIPHER_REQUEST_ON_STACK(req, tkey->rx_tfm_arc4);
-
                if (iv32 < tkey->rx_iv32 ||
                (iv32 == tkey->rx_iv32 && iv16 <= tkey->rx_iv16)) {
                        if (net_ratelimit()) {
@@ -434,23 +400,8 @@ static int ieee80211_tkip_decrypt(struct sk_buff *skb, int hdr_len, void *priv)
 
                plen = skb->len - hdr_len - 12;
 
-               crypto_sync_skcipher_setkey(tkey->rx_tfm_arc4, rc4key, 16);
-               sg_init_one(&sg, pos, plen + 4);
-
-               skcipher_request_set_sync_tfm(req, tkey->rx_tfm_arc4);
-               skcipher_request_set_callback(req, 0, NULL, NULL);
-               skcipher_request_set_crypt(req, &sg, &sg, plen + 4, NULL);
-
-               err = crypto_skcipher_decrypt(req);
-               skcipher_request_zero(req);
-               if (err) {
-                       if (net_ratelimit()) {
-                               netdev_dbg(skb->dev, "TKIP: failed to decrypt "
-                                               "received packet from %pM\n",
-                                               hdr->addr2);
-                       }
-                       return -7;
-               }
+               arc4_setkey(&tkey->rx_ctx_arc4, rc4key, 16);
+               arc4_crypt(&tkey->rx_ctx_arc4, pos, pos, plen + 4);
 
                crc = ~crc32_le(~0, pos, plen);
                icv[0] = crc;
@@ -655,17 +606,13 @@ static int ieee80211_tkip_set_key(void *key, int len, u8 *seq, void *priv)
        struct ieee80211_tkip_data *tkey = priv;
        int keyidx;
        struct crypto_shash *tfm = tkey->tx_tfm_michael;
-       struct crypto_sync_skcipher *tfm2 = tkey->tx_tfm_arc4;
        struct crypto_shash *tfm3 = tkey->rx_tfm_michael;
-       struct crypto_sync_skcipher *tfm4 = tkey->rx_tfm_arc4;
 
        keyidx = tkey->key_idx;
        memset(tkey, 0, sizeof(*tkey));
        tkey->key_idx = keyidx;
        tkey->tx_tfm_michael = tfm;
-       tkey->tx_tfm_arc4 = tfm2;
        tkey->rx_tfm_michael = tfm3;
-       tkey->rx_tfm_arc4 = tfm4;
 
        if (len == TKIP_KEY_LEN) {
                memcpy(tkey->key, key, TKIP_KEY_LEN);
index 26482c3..1c56e2d 100644 (file)
@@ -5,6 +5,7 @@
  * Copyright (c) 2002-2004, Jouni Malinen <jkmaline@cc.hut.fi>
  */
 
+#include <linux/fips.h>
 #include <linux/module.h>
 #include <linux/init.h>
 #include <linux/slab.h>
@@ -14,8 +15,7 @@
 
 #include "ieee80211.h"
 
-#include <crypto/skcipher.h>
-#include <linux/scatterlist.h>
+#include <crypto/arc4.h>
 #include <linux/crc32.h>
 
 MODULE_AUTHOR("Jouni Malinen");
@@ -28,8 +28,8 @@ struct prism2_wep_data {
        u8 key[WEP_KEY_LEN + 1];
        u8 key_len;
        u8 key_idx;
-       struct crypto_sync_skcipher *tx_tfm;
-       struct crypto_sync_skcipher *rx_tfm;
+       struct arc4_ctx rx_ctx_arc4;
+       struct arc4_ctx tx_ctx_arc4;
 };
 
 
@@ -37,39 +37,24 @@ static void *prism2_wep_init(int keyidx)
 {
        struct prism2_wep_data *priv;
 
+       if (fips_enabled)
+               return NULL;
+
        priv = kzalloc(sizeof(*priv), GFP_KERNEL);
        if (!priv)
                return NULL;
        priv->key_idx = keyidx;
 
-       priv->tx_tfm = crypto_alloc_sync_skcipher("ecb(arc4)", 0, 0);
-       if (IS_ERR(priv->tx_tfm))
-               goto free_priv;
-       priv->rx_tfm = crypto_alloc_sync_skcipher("ecb(arc4)", 0, 0);
-       if (IS_ERR(priv->rx_tfm))
-               goto free_tx;
-
        /* start WEP IV from a random value */
        get_random_bytes(&priv->iv, 4);
 
        return priv;
-free_tx:
-       crypto_free_sync_skcipher(priv->tx_tfm);
-free_priv:
-       kfree(priv);
-       return NULL;
 }
 
 
 static void prism2_wep_deinit(void *priv)
 {
-       struct prism2_wep_data *_priv = priv;
-
-       if (_priv) {
-               crypto_free_sync_skcipher(_priv->tx_tfm);
-               crypto_free_sync_skcipher(_priv->rx_tfm);
-       }
-       kfree(priv);
+       kzfree(priv);
 }
 
 /* Perform WEP encryption on given skb that has at least 4 bytes of headroom
@@ -87,8 +72,6 @@ static int prism2_wep_encrypt(struct sk_buff *skb, int hdr_len, void *priv)
        struct cb_desc *tcb_desc = (struct cb_desc *)(skb->cb + MAX_DEV_ADDR_SIZE);
        u32 crc;
        u8 *icv;
-       struct scatterlist sg;
-       int err;
 
        if (skb_headroom(skb) < 4 || skb_tailroom(skb) < 4 ||
            skb->len < hdr_len)
@@ -124,8 +107,6 @@ static int prism2_wep_encrypt(struct sk_buff *skb, int hdr_len, void *priv)
        memcpy(key + 3, wep->key, wep->key_len);
 
        if (!tcb_desc->bHwSec) {
-               SYNC_SKCIPHER_REQUEST_ON_STACK(req, wep->tx_tfm);
-
                /* Append little-endian CRC32 and encrypt it to produce ICV */
                crc = ~crc32_le(~0, pos, len);
                icv = skb_put(skb, 4);
@@ -134,16 +115,8 @@ static int prism2_wep_encrypt(struct sk_buff *skb, int hdr_len, void *priv)
                icv[2] = crc >> 16;
                icv[3] = crc >> 24;
 
-               crypto_sync_skcipher_setkey(wep->tx_tfm, key, klen);
-               sg_init_one(&sg, pos, len + 4);
-
-               skcipher_request_set_sync_tfm(req, wep->tx_tfm);
-               skcipher_request_set_callback(req, 0, NULL, NULL);
-               skcipher_request_set_crypt(req, &sg, &sg, len + 4, NULL);
-
-               err = crypto_skcipher_encrypt(req);
-               skcipher_request_zero(req);
-               return err;
+               arc4_setkey(&wep->tx_ctx_arc4, key, klen);
+               arc4_crypt(&wep->tx_ctx_arc4, pos, pos, len + 4);
        }
 
        return 0;
@@ -166,8 +139,6 @@ static int prism2_wep_decrypt(struct sk_buff *skb, int hdr_len, void *priv)
        struct cb_desc *tcb_desc = (struct cb_desc *)(skb->cb + MAX_DEV_ADDR_SIZE);
        u32 crc;
        u8 icv[4];
-       struct scatterlist sg;
-       int err;
 
        if (skb->len < hdr_len + 8)
                return -1;
@@ -189,19 +160,8 @@ static int prism2_wep_decrypt(struct sk_buff *skb, int hdr_len, void *priv)
        plen = skb->len - hdr_len - 8;
 
        if (!tcb_desc->bHwSec) {
-               SYNC_SKCIPHER_REQUEST_ON_STACK(req, wep->rx_tfm);
-
-               crypto_sync_skcipher_setkey(wep->rx_tfm, key, klen);
-               sg_init_one(&sg, pos, plen + 4);
-
-               skcipher_request_set_sync_tfm(req, wep->rx_tfm);
-               skcipher_request_set_callback(req, 0, NULL, NULL);
-               skcipher_request_set_crypt(req, &sg, &sg, plen + 4, NULL);
-
-               err = crypto_skcipher_decrypt(req);
-               skcipher_request_zero(req);
-               if (err)
-                       return -7;
+               arc4_setkey(&wep->rx_ctx_arc4, key, klen);
+               arc4_crypt(&wep->rx_ctx_arc4, pos, pos, plen + 4);
 
                crc = ~crc32_le(~0, pos, plen);
                icv[0] = crc;
index 4271c40..d7d32b6 100644 (file)
@@ -30,9 +30,7 @@ config IFCVF
          be called ifcvf.
 
 config MLX5_VDPA
-       bool "MLX5 VDPA support library for ConnectX devices"
-       depends on MLX5_CORE
-       default n
+       bool
        help
          Support library for Mellanox VDPA drivers. Provides code that is
          common for all types of VDPA drivers. The following drivers are planned:
@@ -40,7 +38,8 @@ config MLX5_VDPA
 
 config MLX5_VDPA_NET
        tristate "vDPA driver for ConnectX devices"
-       depends on MLX5_VDPA
+       select MLX5_VDPA
+       depends on MLX5_CORE
        default n
        help
          VDPA network driver for ConnectX6 and newer. Provides offloading
index 70676a6..74264e5 100644 (file)
@@ -1133,15 +1133,17 @@ static void suspend_vq(struct mlx5_vdpa_net *ndev, struct mlx5_vdpa_virtqueue *m
        if (!mvq->initialized)
                return;
 
-       if (query_virtqueue(ndev, mvq, &attr)) {
-               mlx5_vdpa_warn(&ndev->mvdev, "failed to query virtqueue\n");
-               return;
-       }
        if (mvq->fw_state != MLX5_VIRTIO_NET_Q_OBJECT_STATE_RDY)
                return;
 
        if (modify_virtqueue(ndev, mvq, MLX5_VIRTIO_NET_Q_OBJECT_STATE_SUSPEND))
                mlx5_vdpa_warn(&ndev->mvdev, "modify to suspend failed\n");
+
+       if (query_virtqueue(ndev, mvq, &attr)) {
+               mlx5_vdpa_warn(&ndev->mvdev, "failed to query virtqueue\n");
+               return;
+       }
+       mvq->avail_idx = attr.available_index;
 }
 
 static void suspend_vqs(struct mlx5_vdpa_net *ndev)
@@ -1411,8 +1413,14 @@ static int mlx5_vdpa_get_vq_state(struct vdpa_device *vdev, u16 idx, struct vdpa
        struct mlx5_virtq_attr attr;
        int err;
 
-       if (!mvq->initialized)
-               return -EAGAIN;
+       /* If the virtq object was destroyed, use the value saved at
+        * the last minute of suspend_vq. This caters for userspace
+        * that cares about emulating the index after vq is stopped.
+        */
+       if (!mvq->initialized) {
+               state->avail_index = mvq->avail_idx;
+               return 0;
+       }
 
        err = query_virtqueue(ndev, mvq, &attr);
        if (err) {
index 796fe97..62a9bb0 100644 (file)
@@ -565,6 +565,9 @@ static int vhost_vdpa_map(struct vhost_vdpa *v,
                              perm_to_iommu_flags(perm));
        }
 
+       if (r)
+               vhost_iotlb_del_range(dev->iotlb, iova, iova + size - 1);
+
        return r;
 }
 
@@ -592,21 +595,19 @@ static int vhost_vdpa_process_iotlb_update(struct vhost_vdpa *v,
        struct vhost_dev *dev = &v->vdev;
        struct vhost_iotlb *iotlb = dev->iotlb;
        struct page **page_list;
-       unsigned long list_size = PAGE_SIZE / sizeof(struct page *);
+       struct vm_area_struct **vmas;
        unsigned int gup_flags = FOLL_LONGTERM;
-       unsigned long npages, cur_base, map_pfn, last_pfn = 0;
-       unsigned long locked, lock_limit, pinned, i;
+       unsigned long map_pfn, last_pfn = 0;
+       unsigned long npages, lock_limit;
+       unsigned long i, nmap = 0;
        u64 iova = msg->iova;
+       long pinned;
        int ret = 0;
 
        if (vhost_iotlb_itree_first(iotlb, msg->iova,
                                    msg->iova + msg->size - 1))
                return -EEXIST;
 
-       page_list = (struct page **) __get_free_page(GFP_KERNEL);
-       if (!page_list)
-               return -ENOMEM;
-
        if (msg->perm & VHOST_ACCESS_WO)
                gup_flags |= FOLL_WRITE;
 
@@ -614,61 +615,86 @@ static int vhost_vdpa_process_iotlb_update(struct vhost_vdpa *v,
        if (!npages)
                return -EINVAL;
 
+       page_list = kvmalloc_array(npages, sizeof(struct page *), GFP_KERNEL);
+       vmas = kvmalloc_array(npages, sizeof(struct vm_area_struct *),
+                             GFP_KERNEL);
+       if (!page_list || !vmas) {
+               ret = -ENOMEM;
+               goto free;
+       }
+
        mmap_read_lock(dev->mm);
 
-       locked = atomic64_add_return(npages, &dev->mm->pinned_vm);
        lock_limit = rlimit(RLIMIT_MEMLOCK) >> PAGE_SHIFT;
-
-       if (locked > lock_limit) {
+       if (npages + atomic64_read(&dev->mm->pinned_vm) > lock_limit) {
                ret = -ENOMEM;
-               goto out;
+               goto unlock;
        }
 
-       cur_base = msg->uaddr & PAGE_MASK;
-       iova &= PAGE_MASK;
+       pinned = pin_user_pages(msg->uaddr & PAGE_MASK, npages, gup_flags,
+                               page_list, vmas);
+       if (npages != pinned) {
+               if (pinned < 0) {
+                       ret = pinned;
+               } else {
+                       unpin_user_pages(page_list, pinned);
+                       ret = -ENOMEM;
+               }
+               goto unlock;
+       }
 
-       while (npages) {
-               pinned = min_t(unsigned long, npages, list_size);
-               ret = pin_user_pages(cur_base, pinned,
-                                    gup_flags, page_list, NULL);
-               if (ret != pinned)
-                       goto out;
-
-               if (!last_pfn)
-                       map_pfn = page_to_pfn(page_list[0]);
-
-               for (i = 0; i < ret; i++) {
-                       unsigned long this_pfn = page_to_pfn(page_list[i]);
-                       u64 csize;
-
-                       if (last_pfn && (this_pfn != last_pfn + 1)) {
-                               /* Pin a contiguous chunk of memory */
-                               csize = (last_pfn - map_pfn + 1) << PAGE_SHIFT;
-                               if (vhost_vdpa_map(v, iova, csize,
-                                                  map_pfn << PAGE_SHIFT,
-                                                  msg->perm))
-                                       goto out;
-                               map_pfn = this_pfn;
-                               iova += csize;
+       iova &= PAGE_MASK;
+       map_pfn = page_to_pfn(page_list[0]);
+
+       /* One more iteration to avoid extra vdpa_map() call out of loop. */
+       for (i = 0; i <= npages; i++) {
+               unsigned long this_pfn;
+               u64 csize;
+
+               /* The last chunk may have no valid PFN next to it */
+               this_pfn = i < npages ? page_to_pfn(page_list[i]) : -1UL;
+
+               if (last_pfn && (this_pfn == -1UL ||
+                                this_pfn != last_pfn + 1)) {
+                       /* Pin a contiguous chunk of memory */
+                       csize = last_pfn - map_pfn + 1;
+                       ret = vhost_vdpa_map(v, iova, csize << PAGE_SHIFT,
+                                            map_pfn << PAGE_SHIFT,
+                                            msg->perm);
+                       if (ret) {
+                               /*
+                                * Unpin the rest chunks of memory on the
+                                * flight with no corresponding vdpa_map()
+                                * calls having been made yet. On the other
+                                * hand, vdpa_unmap() in the failure path
+                                * is in charge of accounting the number of
+                                * pinned pages for its own.
+                                * This asymmetrical pattern of accounting
+                                * is for efficiency to pin all pages at
+                                * once, while there is no other callsite
+                                * of vdpa_map() than here above.
+                                */
+                               unpin_user_pages(&page_list[nmap],
+                                                npages - nmap);
+                               goto out;
                        }
-
-                       last_pfn = this_pfn;
+                       atomic64_add(csize, &dev->mm->pinned_vm);
+                       nmap += csize;
+                       iova += csize << PAGE_SHIFT;
+                       map_pfn = this_pfn;
                }
-
-               cur_base += ret << PAGE_SHIFT;
-               npages -= ret;
+               last_pfn = this_pfn;
        }
 
-       /* Pin the rest chunk */
-       ret = vhost_vdpa_map(v, iova, (last_pfn - map_pfn + 1) << PAGE_SHIFT,
-                            map_pfn << PAGE_SHIFT, msg->perm);
+       WARN_ON(nmap != npages);
 out:
-       if (ret) {
+       if (ret)
                vhost_vdpa_unmap(v, msg->iova, msg->size);
-               atomic64_sub(npages, &dev->mm->pinned_vm);
-       }
+unlock:
        mmap_read_unlock(dev->mm);
-       free_page((unsigned long)page_list);
+free:
+       kvfree(vmas);
+       kvfree(page_list);
        return ret;
 }
 
@@ -810,6 +836,7 @@ static int vhost_vdpa_open(struct inode *inode, struct file *filep)
 
 err_init_iotlb:
        vhost_dev_cleanup(&v->vdev);
+       kfree(vqs);
 err:
        atomic_dec(&v->opened);
        return r;
index b45519c..9ad45e1 100644 (file)
@@ -1290,6 +1290,11 @@ static bool vq_access_ok(struct vhost_virtqueue *vq, unsigned int num,
                         vring_used_t __user *used)
 
 {
+       /* If an IOTLB device is present, the vring addresses are
+        * GIOVAs. Access validation occurs at prefetch time. */
+       if (vq->iotlb)
+               return true;
+
        return access_ok(desc, vhost_get_desc_size(vq, num)) &&
               access_ok(avail, vhost_get_avail_size(vq, num)) &&
               access_ok(used, vhost_get_used_size(vq, num));
@@ -1365,6 +1370,20 @@ bool vhost_log_access_ok(struct vhost_dev *dev)
 }
 EXPORT_SYMBOL_GPL(vhost_log_access_ok);
 
+static bool vq_log_used_access_ok(struct vhost_virtqueue *vq,
+                                 void __user *log_base,
+                                 bool log_used,
+                                 u64 log_addr)
+{
+       /* If an IOTLB device is present, log_addr is a GIOVA that
+        * will never be logged by log_used(). */
+       if (vq->iotlb)
+               return true;
+
+       return !log_used || log_access_ok(log_base, log_addr,
+                                         vhost_get_used_size(vq, vq->num));
+}
+
 /* Verify access for write logging. */
 /* Caller should have vq mutex and device mutex */
 static bool vq_log_access_ok(struct vhost_virtqueue *vq,
@@ -1372,8 +1391,7 @@ static bool vq_log_access_ok(struct vhost_virtqueue *vq,
 {
        return vq_memory_access_ok(log_base, vq->umem,
                                   vhost_has_feature(vq, VHOST_F_LOG_ALL)) &&
-               (!vq->log_used || log_access_ok(log_base, vq->log_addr,
-                                 vhost_get_used_size(vq, vq->num)));
+               vq_log_used_access_ok(vq, log_base, vq->log_used, vq->log_addr);
 }
 
 /* Can we start vq? */
@@ -1383,10 +1401,6 @@ bool vhost_vq_access_ok(struct vhost_virtqueue *vq)
        if (!vq_log_access_ok(vq, vq->log_base))
                return false;
 
-       /* Access validation occurs at prefetch time with IOTLB */
-       if (vq->iotlb)
-               return true;
-
        return vq_access_ok(vq, vq->num, vq->desc, vq->avail, vq->used);
 }
 EXPORT_SYMBOL_GPL(vhost_vq_access_ok);
@@ -1516,10 +1530,9 @@ static long vhost_vring_set_addr(struct vhost_dev *d,
                        return -EINVAL;
 
                /* Also validate log access for used ring if enabled. */
-               if ((a.flags & (0x1 << VHOST_VRING_F_LOG)) &&
-                       !log_access_ok(vq->log_base, a.log_guest_addr,
-                               sizeof *vq->used +
-                               vq->num * sizeof *vq->used->ring))
+               if (!vq_log_used_access_ok(vq, vq->log_base,
+                               a.flags & (0x1 << VHOST_VRING_F_LOG),
+                               a.log_guest_addr))
                        return -EINVAL;
        }
 
index 72f146d..cd51b7a 100644 (file)
 
 #define FONT_DATA ((unsigned char *)font_vga_8x16.data)
 
-/* borrowed from fbcon.c */
-#define REFCOUNT(fd)   (((int *)(fd))[-1])
-#define FNTSIZE(fd)    (((int *)(fd))[-2])
-#define FNTCHARCNT(fd) (((int *)(fd))[-3])
-#define FONT_EXTRA_WORDS 3
-
 static unsigned char *font_data[MAX_NR_CONSOLES];
 
 static struct newport_regs *npregs;
@@ -522,6 +516,7 @@ static int newport_set_font(int unit, struct console_font *op)
        FNTSIZE(new_data) = size;
        FNTCHARCNT(new_data) = op->charcount;
        REFCOUNT(new_data) = 0; /* usage counter */
+       FNTSUM(new_data) = 0;
 
        p = new_data;
        for (i = 0; i < op->charcount; i++) {
index b2c9dd4..402e854 100644 (file)
@@ -272,6 +272,26 @@ config FB_PM2_FIFO_DISCONNECT
        help
          Support the Permedia2 FIFO disconnect feature.
 
+config FB_ARMCLCD
+       tristate "ARM PrimeCell PL110 support"
+       depends on ARM || ARM64 || COMPILE_TEST
+       depends on FB && ARM_AMBA && HAS_IOMEM
+       select FB_CFB_FILLRECT
+       select FB_CFB_COPYAREA
+       select FB_CFB_IMAGEBLIT
+       select FB_MODE_HELPERS if OF
+       select VIDEOMODE_HELPERS if OF
+       select BACKLIGHT_CLASS_DEVICE if OF
+       help
+         This framebuffer device driver is for the ARM PrimeCell PL110
+         Colour LCD controller.  ARM PrimeCells provide the building
+         blocks for System on a Chip devices.
+
+         If you want to compile this as a module (=code which can be
+         inserted into and removed from the running kernel), say M
+         here and read <file:Documentation/kbuild/modules.rst>.  The module
+         will be called amba-clcd.
+
 config FB_ACORN
        bool "Acorn VIDC support"
        depends on (FB = y) && ARM && ARCH_ACORN
index cad4fb6..a0705b9 100644 (file)
@@ -75,6 +75,7 @@ obj-$(CONFIG_FB_HIT)              += hitfb.o
 obj-$(CONFIG_FB_ATMEL)           += atmel_lcdfb.o
 obj-$(CONFIG_FB_PVR2)             += pvr2fb.o
 obj-$(CONFIG_FB_VOODOO1)          += sstfb.o
+obj-$(CONFIG_FB_ARMCLCD)         += amba-clcd.o
 obj-$(CONFIG_FB_GOLDFISH)         += goldfishfb.o
 obj-$(CONFIG_FB_68328)            += 68328fb.o
 obj-$(CONFIG_FB_GBE)              += gbefb.o
diff --git a/drivers/video/fbdev/amba-clcd.c b/drivers/video/fbdev/amba-clcd.c
new file mode 100644 (file)
index 0000000..b7682de
--- /dev/null
@@ -0,0 +1,986 @@
+/*
+ *  linux/drivers/video/amba-clcd.c
+ *
+ * Copyright (C) 2001 ARM Limited, by David A Rusling
+ * Updated to 2.5, Deep Blue Solutions Ltd.
+ *
+ * This file is subject to the terms and conditions of the GNU General Public
+ * License.  See the file COPYING in the main directory of this archive
+ * for more details.
+ *
+ *  ARM PrimeCell PL110 Color LCD Controller
+ */
+#include <linux/amba/bus.h>
+#include <linux/amba/clcd.h>
+#include <linux/backlight.h>
+#include <linux/clk.h>
+#include <linux/delay.h>
+#include <linux/dma-mapping.h>
+#include <linux/fb.h>
+#include <linux/init.h>
+#include <linux/ioport.h>
+#include <linux/list.h>
+#include <linux/mm.h>
+#include <linux/module.h>
+#include <linux/of_address.h>
+#include <linux/of_graph.h>
+#include <linux/slab.h>
+#include <linux/string.h>
+#include <video/display_timing.h>
+#include <video/of_display_timing.h>
+#include <video/videomode.h>
+
+#define to_clcd(info)  container_of(info, struct clcd_fb, fb)
+
+/* This is limited to 16 characters when displayed by X startup */
+static const char *clcd_name = "CLCD FB";
+
+/*
+ * Unfortunately, the enable/disable functions may be called either from
+ * process or IRQ context, and we _need_ to delay.  This is _not_ good.
+ */
+static inline void clcdfb_sleep(unsigned int ms)
+{
+       if (in_atomic()) {
+               mdelay(ms);
+       } else {
+               msleep(ms);
+       }
+}
+
+static inline void clcdfb_set_start(struct clcd_fb *fb)
+{
+       unsigned long ustart = fb->fb.fix.smem_start;
+       unsigned long lstart;
+
+       ustart += fb->fb.var.yoffset * fb->fb.fix.line_length;
+       lstart = ustart + fb->fb.var.yres * fb->fb.fix.line_length / 2;
+
+       writel(ustart, fb->regs + CLCD_UBAS);
+       writel(lstart, fb->regs + CLCD_LBAS);
+}
+
+static void clcdfb_disable(struct clcd_fb *fb)
+{
+       u32 val;
+
+       if (fb->board->disable)
+               fb->board->disable(fb);
+
+       if (fb->panel->backlight) {
+               fb->panel->backlight->props.power = FB_BLANK_POWERDOWN;
+               backlight_update_status(fb->panel->backlight);
+       }
+
+       val = readl(fb->regs + fb->off_cntl);
+       if (val & CNTL_LCDPWR) {
+               val &= ~CNTL_LCDPWR;
+               writel(val, fb->regs + fb->off_cntl);
+
+               clcdfb_sleep(20);
+       }
+       if (val & CNTL_LCDEN) {
+               val &= ~CNTL_LCDEN;
+               writel(val, fb->regs + fb->off_cntl);
+       }
+
+       /*
+        * Disable CLCD clock source.
+        */
+       if (fb->clk_enabled) {
+               fb->clk_enabled = false;
+               clk_disable(fb->clk);
+       }
+}
+
+static void clcdfb_enable(struct clcd_fb *fb, u32 cntl)
+{
+       /*
+        * Enable the CLCD clock source.
+        */
+       if (!fb->clk_enabled) {
+               fb->clk_enabled = true;
+               clk_enable(fb->clk);
+       }
+
+       /*
+        * Bring up by first enabling..
+        */
+       cntl |= CNTL_LCDEN;
+       writel(cntl, fb->regs + fb->off_cntl);
+
+       clcdfb_sleep(20);
+
+       /*
+        * and now apply power.
+        */
+       cntl |= CNTL_LCDPWR;
+       writel(cntl, fb->regs + fb->off_cntl);
+
+       /*
+        * Turn on backlight
+        */
+       if (fb->panel->backlight) {
+               fb->panel->backlight->props.power = FB_BLANK_UNBLANK;
+               backlight_update_status(fb->panel->backlight);
+       }
+
+       /*
+        * finally, enable the interface.
+        */
+       if (fb->board->enable)
+               fb->board->enable(fb);
+}
+
+static int
+clcdfb_set_bitfields(struct clcd_fb *fb, struct fb_var_screeninfo *var)
+{
+       u32 caps;
+       int ret = 0;
+
+       if (fb->panel->caps && fb->board->caps)
+               caps = fb->panel->caps & fb->board->caps;
+       else {
+               /* Old way of specifying what can be used */
+               caps = fb->panel->cntl & CNTL_BGR ?
+                       CLCD_CAP_BGR : CLCD_CAP_RGB;
+               /* But mask out 444 modes as they weren't supported */
+               caps &= ~CLCD_CAP_444;
+       }
+
+       /* Only TFT panels can do RGB888/BGR888 */
+       if (!(fb->panel->cntl & CNTL_LCDTFT))
+               caps &= ~CLCD_CAP_888;
+
+       memset(&var->transp, 0, sizeof(var->transp));
+
+       var->red.msb_right = 0;
+       var->green.msb_right = 0;
+       var->blue.msb_right = 0;
+
+       switch (var->bits_per_pixel) {
+       case 1:
+       case 2:
+       case 4:
+       case 8:
+               /* If we can't do 5551, reject */
+               caps &= CLCD_CAP_5551;
+               if (!caps) {
+                       ret = -EINVAL;
+                       break;
+               }
+
+               var->red.length         = var->bits_per_pixel;
+               var->red.offset         = 0;
+               var->green.length       = var->bits_per_pixel;
+               var->green.offset       = 0;
+               var->blue.length        = var->bits_per_pixel;
+               var->blue.offset        = 0;
+               break;
+
+       case 16:
+               /* If we can't do 444, 5551 or 565, reject */
+               if (!(caps & (CLCD_CAP_444 | CLCD_CAP_5551 | CLCD_CAP_565))) {
+                       ret = -EINVAL;
+                       break;
+               }
+
+               /*
+                * Green length can be 4, 5 or 6 depending whether
+                * we're operating in 444, 5551 or 565 mode.
+                */
+               if (var->green.length == 4 && caps & CLCD_CAP_444)
+                       caps &= CLCD_CAP_444;
+               if (var->green.length == 5 && caps & CLCD_CAP_5551)
+                       caps &= CLCD_CAP_5551;
+               else if (var->green.length == 6 && caps & CLCD_CAP_565)
+                       caps &= CLCD_CAP_565;
+               else {
+                       /*
+                        * PL110 officially only supports RGB555,
+                        * but may be wired up to allow RGB565.
+                        */
+                       if (caps & CLCD_CAP_565) {
+                               var->green.length = 6;
+                               caps &= CLCD_CAP_565;
+                       } else if (caps & CLCD_CAP_5551) {
+                               var->green.length = 5;
+                               caps &= CLCD_CAP_5551;
+                       } else {
+                               var->green.length = 4;
+                               caps &= CLCD_CAP_444;
+                       }
+               }
+
+               if (var->green.length >= 5) {
+                       var->red.length = 5;
+                       var->blue.length = 5;
+               } else {
+                       var->red.length = 4;
+                       var->blue.length = 4;
+               }
+               break;
+       case 32:
+               /* If we can't do 888, reject */
+               caps &= CLCD_CAP_888;
+               if (!caps) {
+                       ret = -EINVAL;
+                       break;
+               }
+
+               var->red.length = 8;
+               var->green.length = 8;
+               var->blue.length = 8;
+               break;
+       default:
+               ret = -EINVAL;
+               break;
+       }
+
+       /*
+        * >= 16bpp displays have separate colour component bitfields
+        * encoded in the pixel data.  Calculate their position from
+        * the bitfield length defined above.
+        */
+       if (ret == 0 && var->bits_per_pixel >= 16) {
+               bool bgr, rgb;
+
+               bgr = caps & CLCD_CAP_BGR && var->blue.offset == 0;
+               rgb = caps & CLCD_CAP_RGB && var->red.offset == 0;
+
+               if (!bgr && !rgb)
+                       /*
+                        * The requested format was not possible, try just
+                        * our capabilities.  One of BGR or RGB must be
+                        * supported.
+                        */
+                       bgr = caps & CLCD_CAP_BGR;
+
+               if (bgr) {
+                       var->blue.offset = 0;
+                       var->green.offset = var->blue.offset + var->blue.length;
+                       var->red.offset = var->green.offset + var->green.length;
+               } else {
+                       var->red.offset = 0;
+                       var->green.offset = var->red.offset + var->red.length;
+                       var->blue.offset = var->green.offset + var->green.length;
+               }
+       }
+
+       return ret;
+}
+
+static int clcdfb_check_var(struct fb_var_screeninfo *var, struct fb_info *info)
+{
+       struct clcd_fb *fb = to_clcd(info);
+       int ret = -EINVAL;
+
+       if (fb->board->check)
+               ret = fb->board->check(fb, var);
+
+       if (ret == 0 &&
+           var->xres_virtual * var->bits_per_pixel / 8 *
+           var->yres_virtual > fb->fb.fix.smem_len)
+               ret = -EINVAL;
+
+       if (ret == 0)
+               ret = clcdfb_set_bitfields(fb, var);
+
+       return ret;
+}
+
+static int clcdfb_set_par(struct fb_info *info)
+{
+       struct clcd_fb *fb = to_clcd(info);
+       struct clcd_regs regs;
+
+       fb->fb.fix.line_length = fb->fb.var.xres_virtual *
+                                fb->fb.var.bits_per_pixel / 8;
+
+       if (fb->fb.var.bits_per_pixel <= 8)
+               fb->fb.fix.visual = FB_VISUAL_PSEUDOCOLOR;
+       else
+               fb->fb.fix.visual = FB_VISUAL_TRUECOLOR;
+
+       fb->board->decode(fb, &regs);
+
+       clcdfb_disable(fb);
+
+       writel(regs.tim0, fb->regs + CLCD_TIM0);
+       writel(regs.tim1, fb->regs + CLCD_TIM1);
+       writel(regs.tim2, fb->regs + CLCD_TIM2);
+       writel(regs.tim3, fb->regs + CLCD_TIM3);
+
+       clcdfb_set_start(fb);
+
+       clk_set_rate(fb->clk, (1000000000 / regs.pixclock) * 1000);
+
+       fb->clcd_cntl = regs.cntl;
+
+       clcdfb_enable(fb, regs.cntl);
+
+#ifdef DEBUG
+       printk(KERN_INFO
+              "CLCD: Registers set to\n"
+              "  %08x %08x %08x %08x\n"
+              "  %08x %08x %08x %08x\n",
+               readl(fb->regs + CLCD_TIM0), readl(fb->regs + CLCD_TIM1),
+               readl(fb->regs + CLCD_TIM2), readl(fb->regs + CLCD_TIM3),
+               readl(fb->regs + CLCD_UBAS), readl(fb->regs + CLCD_LBAS),
+               readl(fb->regs + fb->off_ienb), readl(fb->regs + fb->off_cntl));
+#endif
+
+       return 0;
+}
+
+static inline u32 convert_bitfield(int val, struct fb_bitfield *bf)
+{
+       unsigned int mask = (1 << bf->length) - 1;
+
+       return (val >> (16 - bf->length) & mask) << bf->offset;
+}
+
+/*
+ *  Set a single color register. The values supplied have a 16 bit
+ *  magnitude.  Return != 0 for invalid regno.
+ */
+static int
+clcdfb_setcolreg(unsigned int regno, unsigned int red, unsigned int green,
+                unsigned int blue, unsigned int transp, struct fb_info *info)
+{
+       struct clcd_fb *fb = to_clcd(info);
+
+       if (regno < 16)
+               fb->cmap[regno] = convert_bitfield(transp, &fb->fb.var.transp) |
+                                 convert_bitfield(blue, &fb->fb.var.blue) |
+                                 convert_bitfield(green, &fb->fb.var.green) |
+                                 convert_bitfield(red, &fb->fb.var.red);
+
+       if (fb->fb.fix.visual == FB_VISUAL_PSEUDOCOLOR && regno < 256) {
+               int hw_reg = CLCD_PALETTE + ((regno * 2) & ~3);
+               u32 val, mask, newval;
+
+               newval  = (red >> 11)  & 0x001f;
+               newval |= (green >> 6) & 0x03e0;
+               newval |= (blue >> 1)  & 0x7c00;
+
+               /*
+                * 3.2.11: if we're configured for big endian
+                * byte order, the palette entries are swapped.
+                */
+               if (fb->clcd_cntl & CNTL_BEBO)
+                       regno ^= 1;
+
+               if (regno & 1) {
+                       newval <<= 16;
+                       mask = 0x0000ffff;
+               } else {
+                       mask = 0xffff0000;
+               }
+
+               val = readl(fb->regs + hw_reg) & mask;
+               writel(val | newval, fb->regs + hw_reg);
+       }
+
+       return regno > 255;
+}
+
+/*
+ *  Blank the screen if blank_mode != 0, else unblank. If blank == NULL
+ *  then the caller blanks by setting the CLUT (Color Look Up Table) to all
+ *  black. Return 0 if blanking succeeded, != 0 if un-/blanking failed due
+ *  to e.g. a video mode which doesn't support it. Implements VESA suspend
+ *  and powerdown modes on hardware that supports disabling hsync/vsync:
+ *    blank_mode == 2: suspend vsync
+ *    blank_mode == 3: suspend hsync
+ *    blank_mode == 4: powerdown
+ */
+static int clcdfb_blank(int blank_mode, struct fb_info *info)
+{
+       struct clcd_fb *fb = to_clcd(info);
+
+       if (blank_mode != 0) {
+               clcdfb_disable(fb);
+       } else {
+               clcdfb_enable(fb, fb->clcd_cntl);
+       }
+       return 0;
+}
+
+static int clcdfb_mmap(struct fb_info *info,
+                      struct vm_area_struct *vma)
+{
+       struct clcd_fb *fb = to_clcd(info);
+       unsigned long len, off = vma->vm_pgoff << PAGE_SHIFT;
+       int ret = -EINVAL;
+
+       len = info->fix.smem_len;
+
+       if (off <= len && vma->vm_end - vma->vm_start <= len - off &&
+           fb->board->mmap)
+               ret = fb->board->mmap(fb, vma);
+
+       return ret;
+}
+
+static const struct fb_ops clcdfb_ops = {
+       .owner          = THIS_MODULE,
+       .fb_check_var   = clcdfb_check_var,
+       .fb_set_par     = clcdfb_set_par,
+       .fb_setcolreg   = clcdfb_setcolreg,
+       .fb_blank       = clcdfb_blank,
+       .fb_fillrect    = cfb_fillrect,
+       .fb_copyarea    = cfb_copyarea,
+       .fb_imageblit   = cfb_imageblit,
+       .fb_mmap        = clcdfb_mmap,
+};
+
+static int clcdfb_register(struct clcd_fb *fb)
+{
+       int ret;
+
+       /*
+        * ARM PL111 always has IENB at 0x1c; it's only PL110
+        * which is reversed on some platforms.
+        */
+       if (amba_manf(fb->dev) == 0x41 && amba_part(fb->dev) == 0x111) {
+               fb->off_ienb = CLCD_PL111_IENB;
+               fb->off_cntl = CLCD_PL111_CNTL;
+       } else {
+               fb->off_ienb = CLCD_PL110_IENB;
+               fb->off_cntl = CLCD_PL110_CNTL;
+       }
+
+       fb->clk = clk_get(&fb->dev->dev, NULL);
+       if (IS_ERR(fb->clk)) {
+               ret = PTR_ERR(fb->clk);
+               goto out;
+       }
+
+       ret = clk_prepare(fb->clk);
+       if (ret)
+               goto free_clk;
+
+       fb->fb.device           = &fb->dev->dev;
+
+       fb->fb.fix.mmio_start   = fb->dev->res.start;
+       fb->fb.fix.mmio_len     = resource_size(&fb->dev->res);
+
+       fb->regs = ioremap(fb->fb.fix.mmio_start, fb->fb.fix.mmio_len);
+       if (!fb->regs) {
+               printk(KERN_ERR "CLCD: unable to remap registers\n");
+               ret = -ENOMEM;
+               goto clk_unprep;
+       }
+
+       fb->fb.fbops            = &clcdfb_ops;
+       fb->fb.flags            = FBINFO_FLAG_DEFAULT;
+       fb->fb.pseudo_palette   = fb->cmap;
+
+       strncpy(fb->fb.fix.id, clcd_name, sizeof(fb->fb.fix.id));
+       fb->fb.fix.type         = FB_TYPE_PACKED_PIXELS;
+       fb->fb.fix.type_aux     = 0;
+       fb->fb.fix.xpanstep     = 0;
+       fb->fb.fix.ypanstep     = 0;
+       fb->fb.fix.ywrapstep    = 0;
+       fb->fb.fix.accel        = FB_ACCEL_NONE;
+
+       fb->fb.var.xres         = fb->panel->mode.xres;
+       fb->fb.var.yres         = fb->panel->mode.yres;
+       fb->fb.var.xres_virtual = fb->panel->mode.xres;
+       fb->fb.var.yres_virtual = fb->panel->mode.yres;
+       fb->fb.var.bits_per_pixel = fb->panel->bpp;
+       fb->fb.var.grayscale    = fb->panel->grayscale;
+       fb->fb.var.pixclock     = fb->panel->mode.pixclock;
+       fb->fb.var.left_margin  = fb->panel->mode.left_margin;
+       fb->fb.var.right_margin = fb->panel->mode.right_margin;
+       fb->fb.var.upper_margin = fb->panel->mode.upper_margin;
+       fb->fb.var.lower_margin = fb->panel->mode.lower_margin;
+       fb->fb.var.hsync_len    = fb->panel->mode.hsync_len;
+       fb->fb.var.vsync_len    = fb->panel->mode.vsync_len;
+       fb->fb.var.sync         = fb->panel->mode.sync;
+       fb->fb.var.vmode        = fb->panel->mode.vmode;
+       fb->fb.var.activate     = FB_ACTIVATE_NOW;
+       fb->fb.var.nonstd       = 0;
+       fb->fb.var.height       = fb->panel->height;
+       fb->fb.var.width        = fb->panel->width;
+       fb->fb.var.accel_flags  = 0;
+
+       fb->fb.monspecs.hfmin   = 0;
+       fb->fb.monspecs.hfmax   = 100000;
+       fb->fb.monspecs.vfmin   = 0;
+       fb->fb.monspecs.vfmax   = 400;
+       fb->fb.monspecs.dclkmin = 1000000;
+       fb->fb.monspecs.dclkmax = 100000000;
+
+       /*
+        * Make sure that the bitfields are set appropriately.
+        */
+       clcdfb_set_bitfields(fb, &fb->fb.var);
+
+       /*
+        * Allocate colourmap.
+        */
+       ret = fb_alloc_cmap(&fb->fb.cmap, 256, 0);
+       if (ret)
+               goto unmap;
+
+       /*
+        * Ensure interrupts are disabled.
+        */
+       writel(0, fb->regs + fb->off_ienb);
+
+       fb_set_var(&fb->fb, &fb->fb.var);
+
+       dev_info(&fb->dev->dev, "%s hardware, %s display\n",
+                fb->board->name, fb->panel->mode.name);
+
+       ret = register_framebuffer(&fb->fb);
+       if (ret == 0)
+               goto out;
+
+       printk(KERN_ERR "CLCD: cannot register framebuffer (%d)\n", ret);
+
+       fb_dealloc_cmap(&fb->fb.cmap);
+ unmap:
+       iounmap(fb->regs);
+ clk_unprep:
+       clk_unprepare(fb->clk);
+ free_clk:
+       clk_put(fb->clk);
+ out:
+       return ret;
+}
+
+#ifdef CONFIG_OF
+static int clcdfb_of_get_dpi_panel_mode(struct device_node *node,
+               struct clcd_panel *clcd_panel)
+{
+       int err;
+       struct display_timing timing;
+       struct videomode video;
+
+       err = of_get_display_timing(node, "panel-timing", &timing);
+       if (err) {
+               pr_err("%pOF: problems parsing panel-timing (%d)\n", node, err);
+               return err;
+       }
+
+       videomode_from_timing(&timing, &video);
+
+       err = fb_videomode_from_videomode(&video, &clcd_panel->mode);
+       if (err)
+               return err;
+
+       /* Set up some inversion flags */
+       if (timing.flags & DISPLAY_FLAGS_PIXDATA_NEGEDGE)
+               clcd_panel->tim2 |= TIM2_IPC;
+       else if (!(timing.flags & DISPLAY_FLAGS_PIXDATA_POSEDGE))
+               /*
+                * To preserve backwards compatibility, the IPC (inverted
+                * pixel clock) flag needs to be set on any display that
+                * doesn't explicitly specify that the pixel clock is
+                * active on the negative or positive edge.
+                */
+               clcd_panel->tim2 |= TIM2_IPC;
+
+       if (timing.flags & DISPLAY_FLAGS_HSYNC_LOW)
+               clcd_panel->tim2 |= TIM2_IHS;
+
+       if (timing.flags & DISPLAY_FLAGS_VSYNC_LOW)
+               clcd_panel->tim2 |= TIM2_IVS;
+
+       if (timing.flags & DISPLAY_FLAGS_DE_LOW)
+               clcd_panel->tim2 |= TIM2_IOE;
+
+       return 0;
+}
+
+static int clcdfb_snprintf_mode(char *buf, int size, struct fb_videomode *mode)
+{
+       return snprintf(buf, size, "%ux%u@%u", mode->xres, mode->yres,
+                       mode->refresh);
+}
+
+static int clcdfb_of_get_backlight(struct device *dev,
+                                  struct clcd_panel *clcd_panel)
+{
+       struct backlight_device *backlight;
+
+       /* Look up the optional backlight device */
+       backlight = devm_of_find_backlight(dev);
+       if (IS_ERR(backlight))
+               return PTR_ERR(backlight);
+
+       clcd_panel->backlight = backlight;
+       return 0;
+}
+
+static int clcdfb_of_get_mode(struct device *dev, struct device_node *panel,
+                             struct clcd_panel *clcd_panel)
+{
+       int err;
+       struct fb_videomode *mode;
+       char *name;
+       int len;
+
+       /* Only directly connected DPI panels supported for now */
+       if (of_device_is_compatible(panel, "panel-dpi"))
+               err = clcdfb_of_get_dpi_panel_mode(panel, clcd_panel);
+       else
+               err = -ENOENT;
+       if (err)
+               return err;
+       mode = &clcd_panel->mode;
+
+       len = clcdfb_snprintf_mode(NULL, 0, mode);
+       name = devm_kzalloc(dev, len + 1, GFP_KERNEL);
+       if (!name)
+               return -ENOMEM;
+
+       clcdfb_snprintf_mode(name, len + 1, mode);
+       mode->name = name;
+
+       return 0;
+}
+
+static int clcdfb_of_init_tft_panel(struct clcd_fb *fb, u32 r0, u32 g0, u32 b0)
+{
+       static struct {
+               unsigned int part;
+               u32 r0, g0, b0;
+               u32 caps;
+       } panels[] = {
+               { 0x110, 1,  7, 13, CLCD_CAP_5551 },
+               { 0x110, 0,  8, 16, CLCD_CAP_888 },
+               { 0x110, 16, 8, 0,  CLCD_CAP_888 },
+               { 0x111, 4, 14, 20, CLCD_CAP_444 },
+               { 0x111, 3, 11, 19, CLCD_CAP_444 | CLCD_CAP_5551 },
+               { 0x111, 3, 10, 19, CLCD_CAP_444 | CLCD_CAP_5551 |
+                                   CLCD_CAP_565 },
+               { 0x111, 0,  8, 16, CLCD_CAP_444 | CLCD_CAP_5551 |
+                                   CLCD_CAP_565 | CLCD_CAP_888 },
+       };
+       int i;
+
+       /* Bypass pixel clock divider */
+       fb->panel->tim2 |= TIM2_BCD;
+
+       /* TFT display, vert. comp. interrupt at the start of the back porch */
+       fb->panel->cntl |= CNTL_LCDTFT | CNTL_LCDVCOMP(1);
+
+       fb->panel->caps = 0;
+
+       /* Match the setup with known variants */
+       for (i = 0; i < ARRAY_SIZE(panels) && !fb->panel->caps; i++) {
+               if (amba_part(fb->dev) != panels[i].part)
+                       continue;
+               if (g0 != panels[i].g0)
+                       continue;
+               if (r0 == panels[i].r0 && b0 == panels[i].b0)
+                       fb->panel->caps = panels[i].caps;
+       }
+
+       /*
+        * If we actually physically connected the R lines to B and
+        * vice versa
+        */
+       if (r0 != 0 && b0 == 0)
+               fb->panel->bgr_connection = true;
+
+       return fb->panel->caps ? 0 : -EINVAL;
+}
+
+static int clcdfb_of_init_display(struct clcd_fb *fb)
+{
+       struct device_node *endpoint, *panel;
+       int err;
+       unsigned int bpp;
+       u32 max_bandwidth;
+       u32 tft_r0b0g0[3];
+
+       fb->panel = devm_kzalloc(&fb->dev->dev, sizeof(*fb->panel), GFP_KERNEL);
+       if (!fb->panel)
+               return -ENOMEM;
+
+       /*
+        * Fetch the panel endpoint.
+        */
+       endpoint = of_graph_get_next_endpoint(fb->dev->dev.of_node, NULL);
+       if (!endpoint)
+               return -ENODEV;
+
+       panel = of_graph_get_remote_port_parent(endpoint);
+       if (!panel)
+               return -ENODEV;
+
+       err = clcdfb_of_get_backlight(&fb->dev->dev, fb->panel);
+       if (err)
+               return err;
+
+       err = clcdfb_of_get_mode(&fb->dev->dev, panel, fb->panel);
+       if (err)
+               return err;
+
+       err = of_property_read_u32(fb->dev->dev.of_node, "max-memory-bandwidth",
+                       &max_bandwidth);
+       if (!err) {
+               /*
+                * max_bandwidth is in bytes per second and pixclock in
+                * pico-seconds, so the maximum allowed bits per pixel is
+                *   8 * max_bandwidth / (PICOS2KHZ(pixclock) * 1000)
+                * Rearrange this calculation to avoid overflow and then ensure
+                * result is a valid format.
+                */
+               bpp = max_bandwidth / (1000 / 8)
+                       / PICOS2KHZ(fb->panel->mode.pixclock);
+               bpp = rounddown_pow_of_two(bpp);
+               if (bpp > 32)
+                       bpp = 32;
+       } else
+               bpp = 32;
+       fb->panel->bpp = bpp;
+
+#ifdef CONFIG_CPU_BIG_ENDIAN
+       fb->panel->cntl |= CNTL_BEBO;
+#endif
+       fb->panel->width = -1;
+       fb->panel->height = -1;
+
+       if (of_property_read_u32_array(endpoint,
+                       "arm,pl11x,tft-r0g0b0-pads",
+                       tft_r0b0g0, ARRAY_SIZE(tft_r0b0g0)) != 0)
+               return -ENOENT;
+
+       return clcdfb_of_init_tft_panel(fb, tft_r0b0g0[0],
+                                       tft_r0b0g0[1],  tft_r0b0g0[2]);
+}
+
+static int clcdfb_of_vram_setup(struct clcd_fb *fb)
+{
+       int err;
+       struct device_node *memory;
+       u64 size;
+
+       err = clcdfb_of_init_display(fb);
+       if (err)
+               return err;
+
+       memory = of_parse_phandle(fb->dev->dev.of_node, "memory-region", 0);
+       if (!memory)
+               return -ENODEV;
+
+       fb->fb.screen_base = of_iomap(memory, 0);
+       if (!fb->fb.screen_base)
+               return -ENOMEM;
+
+       fb->fb.fix.smem_start = of_translate_address(memory,
+                       of_get_address(memory, 0, &size, NULL));
+       fb->fb.fix.smem_len = size;
+
+       return 0;
+}
+
+static int clcdfb_of_vram_mmap(struct clcd_fb *fb, struct vm_area_struct *vma)
+{
+       unsigned long off, user_size, kernel_size;
+
+
+       off = vma->vm_pgoff << PAGE_SHIFT;
+       user_size = vma->vm_end - vma->vm_start;
+       kernel_size = fb->fb.fix.smem_len;
+
+       if (off >= kernel_size || user_size > (kernel_size - off))
+               return -ENXIO;
+
+       return remap_pfn_range(vma, vma->vm_start,
+                       __phys_to_pfn(fb->fb.fix.smem_start) + vma->vm_pgoff,
+                       user_size,
+                       pgprot_writecombine(vma->vm_page_prot));
+}
+
+static void clcdfb_of_vram_remove(struct clcd_fb *fb)
+{
+       iounmap(fb->fb.screen_base);
+}
+
+static int clcdfb_of_dma_setup(struct clcd_fb *fb)
+{
+       unsigned long framesize;
+       dma_addr_t dma;
+       int err;
+
+       err = clcdfb_of_init_display(fb);
+       if (err)
+               return err;
+
+       framesize = PAGE_ALIGN(fb->panel->mode.xres * fb->panel->mode.yres *
+                       fb->panel->bpp / 8);
+       fb->fb.screen_base = dma_alloc_coherent(&fb->dev->dev, framesize,
+                       &dma, GFP_KERNEL);
+       if (!fb->fb.screen_base)
+               return -ENOMEM;
+
+       fb->fb.fix.smem_start = dma;
+       fb->fb.fix.smem_len = framesize;
+
+       return 0;
+}
+
+static int clcdfb_of_dma_mmap(struct clcd_fb *fb, struct vm_area_struct *vma)
+{
+       return dma_mmap_wc(&fb->dev->dev, vma, fb->fb.screen_base,
+                          fb->fb.fix.smem_start, fb->fb.fix.smem_len);
+}
+
+static void clcdfb_of_dma_remove(struct clcd_fb *fb)
+{
+       dma_free_coherent(&fb->dev->dev, fb->fb.fix.smem_len,
+                       fb->fb.screen_base, fb->fb.fix.smem_start);
+}
+
+static struct clcd_board *clcdfb_of_get_board(struct amba_device *dev)
+{
+       struct clcd_board *board = devm_kzalloc(&dev->dev, sizeof(*board),
+                       GFP_KERNEL);
+       struct device_node *node = dev->dev.of_node;
+
+       if (!board)
+               return NULL;
+
+       board->name = of_node_full_name(node);
+       board->caps = CLCD_CAP_ALL;
+       board->check = clcdfb_check;
+       board->decode = clcdfb_decode;
+       if (of_find_property(node, "memory-region", NULL)) {
+               board->setup = clcdfb_of_vram_setup;
+               board->mmap = clcdfb_of_vram_mmap;
+               board->remove = clcdfb_of_vram_remove;
+       } else {
+               board->setup = clcdfb_of_dma_setup;
+               board->mmap = clcdfb_of_dma_mmap;
+               board->remove = clcdfb_of_dma_remove;
+       }
+
+       return board;
+}
+#else
+static struct clcd_board *clcdfb_of_get_board(struct amba_device *dev)
+{
+       return NULL;
+}
+#endif
+
+static int clcdfb_probe(struct amba_device *dev, const struct amba_id *id)
+{
+       struct clcd_board *board = dev_get_platdata(&dev->dev);
+       struct clcd_fb *fb;
+       int ret;
+
+       if (!board)
+               board = clcdfb_of_get_board(dev);
+
+       if (!board)
+               return -EINVAL;
+
+       ret = dma_set_mask_and_coherent(&dev->dev, DMA_BIT_MASK(32));
+       if (ret)
+               goto out;
+
+       ret = amba_request_regions(dev, NULL);
+       if (ret) {
+               printk(KERN_ERR "CLCD: unable to reserve regs region\n");
+               goto out;
+       }
+
+       fb = kzalloc(sizeof(*fb), GFP_KERNEL);
+       if (!fb) {
+               ret = -ENOMEM;
+               goto free_region;
+       }
+
+       fb->dev = dev;
+       fb->board = board;
+
+       dev_info(&fb->dev->dev, "PL%03x designer %02x rev%u at 0x%08llx\n",
+               amba_part(dev), amba_manf(dev), amba_rev(dev),
+               (unsigned long long)dev->res.start);
+
+       ret = fb->board->setup(fb);
+       if (ret)
+               goto free_fb;
+
+       ret = clcdfb_register(fb);
+       if (ret == 0) {
+               amba_set_drvdata(dev, fb);
+               goto out;
+       }
+
+       fb->board->remove(fb);
+ free_fb:
+       kfree(fb);
+ free_region:
+       amba_release_regions(dev);
+ out:
+       return ret;
+}
+
+static int clcdfb_remove(struct amba_device *dev)
+{
+       struct clcd_fb *fb = amba_get_drvdata(dev);
+
+       clcdfb_disable(fb);
+       unregister_framebuffer(&fb->fb);
+       if (fb->fb.cmap.len)
+               fb_dealloc_cmap(&fb->fb.cmap);
+       iounmap(fb->regs);
+       clk_unprepare(fb->clk);
+       clk_put(fb->clk);
+
+       fb->board->remove(fb);
+
+       kfree(fb);
+
+       amba_release_regions(dev);
+
+       return 0;
+}
+
+static const struct amba_id clcdfb_id_table[] = {
+       {
+               .id     = 0x00041110,
+               .mask   = 0x000ffffe,
+       },
+       { 0, 0 },
+};
+
+MODULE_DEVICE_TABLE(amba, clcdfb_id_table);
+
+static struct amba_driver clcd_driver = {
+       .drv            = {
+               .name   = "clcd-pl11x",
+       },
+       .probe          = clcdfb_probe,
+       .remove         = clcdfb_remove,
+       .id_table       = clcdfb_id_table,
+};
+
+static int __init amba_clcdfb_init(void)
+{
+       if (fb_get_options("ambafb", NULL))
+               return -ENODEV;
+
+       return amba_driver_register(&clcd_driver);
+}
+
+module_init(amba_clcdfb_init);
+
+static void __exit amba_clcdfb_exit(void)
+{
+       amba_driver_unregister(&clcd_driver);
+}
+
+module_exit(amba_clcdfb_exit);
+
+MODULE_DESCRIPTION("ARM PrimeCell PL110 CLCD core driver");
+MODULE_LICENSE("GPL");
index 41f3fa3..8c7bd0a 100644 (file)
@@ -2299,6 +2299,9 @@ static int fbcon_get_font(struct vc_data *vc, struct console_font *font)
 
        if (font->width <= 8) {
                j = vc->vc_font.height;
+               if (font->charcount * j > FNTSIZE(fontdata))
+                       return -EINVAL;
+
                for (i = 0; i < font->charcount; i++) {
                        memcpy(data, fontdata, j);
                        memset(data + j, 0, 32 - j);
@@ -2307,6 +2310,9 @@ static int fbcon_get_font(struct vc_data *vc, struct console_font *font)
                }
        } else if (font->width <= 16) {
                j = vc->vc_font.height * 2;
+               if (font->charcount * j > FNTSIZE(fontdata))
+                       return -EINVAL;
+
                for (i = 0; i < font->charcount; i++) {
                        memcpy(data, fontdata, j);
                        memset(data + j, 0, 64 - j);
@@ -2314,6 +2320,9 @@ static int fbcon_get_font(struct vc_data *vc, struct console_font *font)
                        fontdata += j;
                }
        } else if (font->width <= 24) {
+               if (font->charcount * (vc->vc_font.height * sizeof(u32)) > FNTSIZE(fontdata))
+                       return -EINVAL;
+
                for (i = 0; i < font->charcount; i++) {
                        for (j = 0; j < vc->vc_font.height; j++) {
                                *data++ = fontdata[0];
@@ -2326,6 +2335,9 @@ static int fbcon_get_font(struct vc_data *vc, struct console_font *font)
                }
        } else {
                j = vc->vc_font.height * 4;
+               if (font->charcount * j > FNTSIZE(fontdata))
+                       return -EINVAL;
+
                for (i = 0; i < font->charcount; i++) {
                        memcpy(data, fontdata, j);
                        memset(data + j, 0, 128 - j);
index 78bb14c..9315b36 100644 (file)
@@ -152,13 +152,6 @@ static inline int attr_col_ec(int shift, struct vc_data *vc,
 #define attr_bgcol_ec(bgshift, vc, info) attr_col_ec(bgshift, vc, info, 0)
 #define attr_fgcol_ec(fgshift, vc, info) attr_col_ec(fgshift, vc, info, 1)
 
-/* Font */
-#define REFCOUNT(fd)   (((int *)(fd))[-1])
-#define FNTSIZE(fd)    (((int *)(fd))[-2])
-#define FNTCHARCNT(fd) (((int *)(fd))[-3])
-#define FNTSUM(fd)     (((int *)(fd))[-4])
-#define FONT_EXTRA_WORDS 4
-
     /*
      *  Scroll Method
      */
index c0d4452..ac72d4f 100644 (file)
@@ -14,6 +14,7 @@
 #include <linux/fb.h>
 #include <linux/vt_kern.h>
 #include <linux/console.h>
+#include <linux/font.h>
 #include <asm/types.h>
 #include "fbcon.h"
 #include "fbcon_rotate.h"
index 31b85b7..628fe5e 100644 (file)
@@ -13,6 +13,7 @@
 #include <linux/fb.h>
 #include <linux/vt_kern.h>
 #include <linux/console.h>
+#include <linux/font.h>
 #include <asm/types.h>
 #include "fbcon.h"
 
index 47c7338..1b99286 100644 (file)
@@ -181,7 +181,7 @@ static int __init amiga_zorro_probe(struct platform_device *pdev)
                z->resource.name = z->name;
                r = zorro_find_parent_resource(pdev, z);
                error = request_resource(r, &z->resource);
-               if (error)
+               if (error && !(z->rom.er_Type & ERTF_MEMLIST))
                        dev_err(&bus->dev,
                                "Address space collision on device %s %pR\n",
                                z->name, &z->resource);
index 1c7b0e3..d72ee2c 100644 (file)
@@ -37,7 +37,6 @@ obj-$(CONFIG_FS_DAX)          += dax.o
 obj-$(CONFIG_FS_ENCRYPTION)    += crypto/
 obj-$(CONFIG_FS_VERITY)                += verity/
 obj-$(CONFIG_FILE_LOCKING)      += locks.o
-obj-$(CONFIG_COMPAT)           += compat.o
 obj-$(CONFIG_BINFMT_AOUT)      += binfmt_aout.o
 obj-$(CONFIG_BINFMT_EM86)      += binfmt_em86.o
 obj-$(CONFIG_BINFMT_MISC)      += binfmt_misc.o
index 1d13d2e..0fe8844 100644 (file)
@@ -810,14 +810,32 @@ void afs_evict_inode(struct inode *inode)
 
 static void afs_setattr_success(struct afs_operation *op)
 {
-       struct inode *inode = &op->file[0].vnode->vfs_inode;
+       struct afs_vnode_param *vp = &op->file[0];
+       struct inode *inode = &vp->vnode->vfs_inode;
+       loff_t old_i_size = i_size_read(inode);
+
+       op->setattr.old_i_size = old_i_size;
+       afs_vnode_commit_status(op, vp);
+       /* inode->i_size has now been changed. */
+
+       if (op->setattr.attr->ia_valid & ATTR_SIZE) {
+               loff_t size = op->setattr.attr->ia_size;
+               if (size > old_i_size)
+                       pagecache_isize_extended(inode, old_i_size, size);
+       }
+}
+
+static void afs_setattr_edit_file(struct afs_operation *op)
+{
+       struct afs_vnode_param *vp = &op->file[0];
+       struct inode *inode = &vp->vnode->vfs_inode;
 
-       afs_vnode_commit_status(op, &op->file[0]);
        if (op->setattr.attr->ia_valid & ATTR_SIZE) {
-               loff_t i_size = inode->i_size, size = op->setattr.attr->ia_size;
-               if (size > i_size)
-                       pagecache_isize_extended(inode, i_size, size);
-               truncate_pagecache(inode, size);
+               loff_t size = op->setattr.attr->ia_size;
+               loff_t i_size = op->setattr.old_i_size;
+
+               if (size < i_size)
+                       truncate_pagecache(inode, size);
        }
 }
 
@@ -825,6 +843,7 @@ static const struct afs_operation_ops afs_setattr_operation = {
        .issue_afs_rpc  = afs_fs_setattr,
        .issue_yfs_rpc  = yfs_fs_setattr,
        .success        = afs_setattr_success,
+       .edit_dir       = afs_setattr_edit_file,
 };
 
 /*
@@ -863,11 +882,16 @@ int afs_setattr(struct dentry *dentry, struct iattr *attr)
        if (S_ISREG(vnode->vfs_inode.i_mode))
                filemap_write_and_wait(vnode->vfs_inode.i_mapping);
 
+       /* Prevent any new writebacks from starting whilst we do this. */
+       down_write(&vnode->validate_lock);
+
        op = afs_alloc_operation(((attr->ia_valid & ATTR_FILE) ?
                                  afs_file_key(attr->ia_file) : NULL),
                                 vnode->volume);
-       if (IS_ERR(op))
-               return PTR_ERR(op);
+       if (IS_ERR(op)) {
+               ret = PTR_ERR(op);
+               goto out_unlock;
+       }
 
        afs_op_set_vnode(op, 0, vnode);
        op->setattr.attr = attr;
@@ -880,5 +904,10 @@ int afs_setattr(struct dentry *dentry, struct iattr *attr)
        op->file[0].update_ctime = 1;
 
        op->ops = &afs_setattr_operation;
-       return afs_do_sync_operation(op);
+       ret = afs_do_sync_operation(op);
+
+out_unlock:
+       up_write(&vnode->validate_lock);
+       _leave(" = %d", ret);
+       return ret;
 }
index 18042b7..e5f0446 100644 (file)
@@ -812,6 +812,7 @@ struct afs_operation {
                } store;
                struct {
                        struct iattr    *attr;
+                       loff_t          old_i_size;
                } setattr;
                struct afs_acl  *acl;
                struct yfs_acl  *yacl;
index 4b2265c..da12abd 100644 (file)
@@ -738,11 +738,21 @@ static int afs_writepages_region(struct address_space *mapping,
 int afs_writepages(struct address_space *mapping,
                   struct writeback_control *wbc)
 {
+       struct afs_vnode *vnode = AFS_FS_I(mapping->host);
        pgoff_t start, end, next;
        int ret;
 
        _enter("");
 
+       /* We have to be careful as we can end up racing with setattr()
+        * truncating the pagecache since the caller doesn't take a lock here
+        * to prevent it.
+        */
+       if (wbc->sync_mode == WB_SYNC_ALL)
+               down_read(&vnode->validate_lock);
+       else if (!down_read_trylock(&vnode->validate_lock))
+               return 0;
+
        if (wbc->range_cyclic) {
                start = mapping->writeback_index;
                end = -1;
@@ -762,6 +772,7 @@ int afs_writepages(struct address_space *mapping,
                ret = afs_writepages_region(mapping, wbc, start, end, &next);
        }
 
+       up_read(&vnode->validate_lock);
        _leave(" = %d", ret);
        return ret;
 }
index d5ec303..c45c20d 100644 (file)
--- a/fs/aio.c
+++ b/fs/aio.c
@@ -1489,12 +1489,8 @@ static ssize_t aio_setup_rw(int rw, const struct iocb *iocb,
                *iovec = NULL;
                return ret;
        }
-#ifdef CONFIG_COMPAT
-       if (compat)
-               return compat_import_iovec(rw, buf, len, UIO_FASTIOV, iovec,
-                               iter);
-#endif
-       return import_iovec(rw, buf, len, UIO_FASTIOV, iovec, iter);
+
+       return __import_iovec(rw, buf, len, UIO_FASTIOV, iovec, iter, compat);
 }
 
 static inline void aio_rw_done(struct kiocb *req, ssize_t ret)
index 32f90dc..d44df8f 100644 (file)
@@ -1208,7 +1208,7 @@ smb2_set_ea(const unsigned int xid, struct cifs_tcon *tcon,
        rqst[1].rq_iov = si_iov;
        rqst[1].rq_nvec = 1;
 
-       len = sizeof(ea) + ea_name_len + ea_value_len + 1;
+       len = sizeof(*ea) + ea_name_len + ea_value_len + 1;
        ea = kzalloc(len, GFP_KERNEL);
        if (ea == NULL) {
                rc = -ENOMEM;
diff --git a/fs/compat.c b/fs/compat.c
deleted file mode 100644 (file)
index 436d228..0000000
+++ /dev/null
@@ -1,132 +0,0 @@
-// SPDX-License-Identifier: GPL-2.0-only
-/*
- *  linux/fs/compat.c
- *
- *  Kernel compatibililty routines for e.g. 32 bit syscall support
- *  on 64 bit kernels.
- *
- *  Copyright (C) 2002       Stephen Rothwell, IBM Corporation
- *  Copyright (C) 1997-2000  Jakub Jelinek  (jakub@redhat.com)
- *  Copyright (C) 1998       Eddie C. Dost  (ecd@skynet.be)
- *  Copyright (C) 2001,2002  Andi Kleen, SuSE Labs 
- *  Copyright (C) 2003       Pavel Machek (pavel@ucw.cz)
- */
-
-#include <linux/compat.h>
-#include <linux/nfs4_mount.h>
-#include <linux/syscalls.h>
-#include <linux/slab.h>
-#include <linux/uaccess.h>
-#include "internal.h"
-
-struct compat_nfs_string {
-       compat_uint_t len;
-       compat_uptr_t data;
-};
-
-static inline void compat_nfs_string(struct nfs_string *dst,
-                                    struct compat_nfs_string *src)
-{
-       dst->data = compat_ptr(src->data);
-       dst->len = src->len;
-}
-
-struct compat_nfs4_mount_data_v1 {
-       compat_int_t version;
-       compat_int_t flags;
-       compat_int_t rsize;
-       compat_int_t wsize;
-       compat_int_t timeo;
-       compat_int_t retrans;
-       compat_int_t acregmin;
-       compat_int_t acregmax;
-       compat_int_t acdirmin;
-       compat_int_t acdirmax;
-       struct compat_nfs_string client_addr;
-       struct compat_nfs_string mnt_path;
-       struct compat_nfs_string hostname;
-       compat_uint_t host_addrlen;
-       compat_uptr_t host_addr;
-       compat_int_t proto;
-       compat_int_t auth_flavourlen;
-       compat_uptr_t auth_flavours;
-};
-
-static int do_nfs4_super_data_conv(void *raw_data)
-{
-       int version = *(compat_uint_t *) raw_data;
-
-       if (version == 1) {
-               struct compat_nfs4_mount_data_v1 *raw = raw_data;
-               struct nfs4_mount_data *real = raw_data;
-
-               /* copy the fields backwards */
-               real->auth_flavours = compat_ptr(raw->auth_flavours);
-               real->auth_flavourlen = raw->auth_flavourlen;
-               real->proto = raw->proto;
-               real->host_addr = compat_ptr(raw->host_addr);
-               real->host_addrlen = raw->host_addrlen;
-               compat_nfs_string(&real->hostname, &raw->hostname);
-               compat_nfs_string(&real->mnt_path, &raw->mnt_path);
-               compat_nfs_string(&real->client_addr, &raw->client_addr);
-               real->acdirmax = raw->acdirmax;
-               real->acdirmin = raw->acdirmin;
-               real->acregmax = raw->acregmax;
-               real->acregmin = raw->acregmin;
-               real->retrans = raw->retrans;
-               real->timeo = raw->timeo;
-               real->wsize = raw->wsize;
-               real->rsize = raw->rsize;
-               real->flags = raw->flags;
-               real->version = raw->version;
-       }
-
-       return 0;
-}
-
-#define NFS4_NAME      "nfs4"
-
-COMPAT_SYSCALL_DEFINE5(mount, const char __user *, dev_name,
-                      const char __user *, dir_name,
-                      const char __user *, type, compat_ulong_t, flags,
-                      const void __user *, data)
-{
-       char *kernel_type;
-       void *options;
-       char *kernel_dev;
-       int retval;
-
-       kernel_type = copy_mount_string(type);
-       retval = PTR_ERR(kernel_type);
-       if (IS_ERR(kernel_type))
-               goto out;
-
-       kernel_dev = copy_mount_string(dev_name);
-       retval = PTR_ERR(kernel_dev);
-       if (IS_ERR(kernel_dev))
-               goto out1;
-
-       options = copy_mount_options(data);
-       retval = PTR_ERR(options);
-       if (IS_ERR(options))
-               goto out2;
-
-       if (kernel_type && options) {
-               if (!strcmp(kernel_type, NFS4_NAME)) {
-                       retval = -EINVAL;
-                       if (do_nfs4_super_data_conv(options))
-                               goto out3;
-               }
-       }
-
-       retval = do_mount(kernel_dev, dir_name, kernel_type, flags, options);
-
- out3:
-       kfree(options);
- out2:
-       kfree(kernel_dev);
- out1:
-       kfree(kernel_type);
- out:
-       return retval;
-}
index 9212325..4ef3f71 100644 (file)
@@ -343,9 +343,11 @@ void fscrypt_msg(const struct inode *inode, const char *level,
        va_start(args, fmt);
        vaf.fmt = fmt;
        vaf.va = &args;
-       if (inode)
+       if (inode && inode->i_ino)
                printk("%sfscrypt (%s, inode %lu): %pV\n",
                       level, inode->i_sb->s_id, inode->i_ino, &vaf);
+       else if (inode)
+               printk("%sfscrypt (%s): %pV\n", level, inode->i_sb->s_id, &vaf);
        else
                printk("%sfscrypt: %pV\n", level, &vaf);
        va_end(args);
index 011830f..1fbe6c2 100644 (file)
@@ -61,15 +61,6 @@ struct fscrypt_nokey_name {
  */
 #define FSCRYPT_NOKEY_NAME_MAX offsetofend(struct fscrypt_nokey_name, sha256)
 
-static void fscrypt_do_sha256(const u8 *data, unsigned int data_len, u8 *result)
-{
-       struct sha256_state sctx;
-
-       sha256_init(&sctx);
-       sha256_update(&sctx, data, data_len);
-       sha256_final(&sctx, result);
-}
-
 static inline bool fscrypt_is_dot_dotdot(const struct qstr *str)
 {
        if (str->len == 1 && str->name[0] == '.')
@@ -242,11 +233,11 @@ static int base64_decode(const char *src, int len, u8 *dst)
        return cp - dst;
 }
 
-bool fscrypt_fname_encrypted_size(const struct inode *inode, u32 orig_len,
-                                 u32 max_len, u32 *encrypted_len_ret)
+bool fscrypt_fname_encrypted_size(const union fscrypt_policy *policy,
+                                 u32 orig_len, u32 max_len,
+                                 u32 *encrypted_len_ret)
 {
-       const struct fscrypt_info *ci = inode->i_crypt_info;
-       int padding = 4 << (fscrypt_policy_flags(&ci->ci_policy) &
+       int padding = 4 << (fscrypt_policy_flags(policy) &
                            FSCRYPT_POLICY_FLAGS_PAD_MASK);
        u32 encrypted_len;
 
@@ -260,8 +251,6 @@ bool fscrypt_fname_encrypted_size(const struct inode *inode, u32 orig_len,
 
 /**
  * fscrypt_fname_alloc_buffer() - allocate a buffer for presented filenames
- * @inode: inode of the parent directory (for regular filenames)
- *        or of the symlink (for symlink targets)
  * @max_encrypted_len: maximum length of encrypted filenames the buffer will be
  *                    used to present
  * @crypto_str: (output) buffer to allocate
@@ -271,8 +260,7 @@ bool fscrypt_fname_encrypted_size(const struct inode *inode, u32 orig_len,
  *
  * Return: 0 on success, -errno on failure
  */
-int fscrypt_fname_alloc_buffer(const struct inode *inode,
-                              u32 max_encrypted_len,
+int fscrypt_fname_alloc_buffer(u32 max_encrypted_len,
                               struct fscrypt_str *crypto_str)
 {
        const u32 max_encoded_len = BASE64_CHARS(FSCRYPT_NOKEY_NAME_MAX);
@@ -369,9 +357,9 @@ int fscrypt_fname_disk_to_usr(const struct inode *inode,
        } else {
                memcpy(nokey_name.bytes, iname->name, sizeof(nokey_name.bytes));
                /* Compute strong hash of remaining part of name. */
-               fscrypt_do_sha256(&iname->name[sizeof(nokey_name.bytes)],
-                                 iname->len - sizeof(nokey_name.bytes),
-                                 nokey_name.sha256);
+               sha256(&iname->name[sizeof(nokey_name.bytes)],
+                      iname->len - sizeof(nokey_name.bytes),
+                      nokey_name.sha256);
                size = FSCRYPT_NOKEY_NAME_MAX;
        }
        oname->len = base64_encode((const u8 *)&nokey_name, size, oname->name);
@@ -394,9 +382,9 @@ EXPORT_SYMBOL(fscrypt_fname_disk_to_usr);
  * directory's encryption key, then @iname is the plaintext, so we encrypt it to
  * get the disk_name.
  *
- * Else, for keyless @lookup operations, @iname is the presented ciphertext, so
- * we decode it to get the fscrypt_nokey_name.  Non-@lookup operations will be
- * impossible in this case, so we fail them with ENOKEY.
+ * Else, for keyless @lookup operations, @iname should be a no-key name, so we
+ * decode it to get the struct fscrypt_nokey_name.  Non-@lookup operations will
+ * be impossible in this case, so we fail them with ENOKEY.
  *
  * If successful, fscrypt_free_filename() must be called later to clean up.
  *
@@ -421,7 +409,8 @@ int fscrypt_setup_filename(struct inode *dir, const struct qstr *iname,
                return ret;
 
        if (fscrypt_has_encryption_key(dir)) {
-               if (!fscrypt_fname_encrypted_size(dir, iname->len,
+               if (!fscrypt_fname_encrypted_size(&dir->i_crypt_info->ci_policy,
+                                                 iname->len,
                                                  dir->i_sb->s_cop->max_namelen,
                                                  &fname->crypto_buf.len))
                        return -ENAMETOOLONG;
@@ -440,7 +429,7 @@ int fscrypt_setup_filename(struct inode *dir, const struct qstr *iname,
        }
        if (!lookup)
                return -ENOKEY;
-       fname->is_ciphertext_name = true;
+       fname->is_nokey_name = true;
 
        /*
         * We don't have the key and we are doing a lookup; decode the
@@ -499,7 +488,7 @@ bool fscrypt_match_name(const struct fscrypt_name *fname,
 {
        const struct fscrypt_nokey_name *nokey_name =
                (const void *)fname->crypto_buf.name;
-       u8 sha256[SHA256_DIGEST_SIZE];
+       u8 digest[SHA256_DIGEST_SIZE];
 
        if (likely(fname->disk_name.name)) {
                if (de_name_len != fname->disk_name.len)
@@ -510,9 +499,9 @@ bool fscrypt_match_name(const struct fscrypt_name *fname,
                return false;
        if (memcmp(de_name, nokey_name->bytes, sizeof(nokey_name->bytes)))
                return false;
-       fscrypt_do_sha256(&de_name[sizeof(nokey_name->bytes)],
-                         de_name_len - sizeof(nokey_name->bytes), sha256);
-       return !memcmp(sha256, nokey_name->sha256, sizeof(sha256));
+       sha256(&de_name[sizeof(nokey_name->bytes)],
+              de_name_len - sizeof(nokey_name->bytes), digest);
+       return !memcmp(digest, nokey_name->sha256, sizeof(digest));
 }
 EXPORT_SYMBOL_GPL(fscrypt_match_name);
 
@@ -541,7 +530,7 @@ EXPORT_SYMBOL_GPL(fscrypt_fname_siphash);
  * Validate dentries in encrypted directories to make sure we aren't potentially
  * caching stale dentries after a key has been added.
  */
-static int fscrypt_d_revalidate(struct dentry *dentry, unsigned int flags)
+int fscrypt_d_revalidate(struct dentry *dentry, unsigned int flags)
 {
        struct dentry *dir;
        int err;
@@ -549,17 +538,17 @@ static int fscrypt_d_revalidate(struct dentry *dentry, unsigned int flags)
 
        /*
         * Plaintext names are always valid, since fscrypt doesn't support
-        * reverting to ciphertext names without evicting the directory's inode
+        * reverting to no-key names without evicting the directory's inode
         * -- which implies eviction of the dentries in the directory.
         */
-       if (!(dentry->d_flags & DCACHE_ENCRYPTED_NAME))
+       if (!(dentry->d_flags & DCACHE_NOKEY_NAME))
                return 1;
 
        /*
-        * Ciphertext name; valid if the directory's key is still unavailable.
+        * No-key name; valid if the directory's key is still unavailable.
         *
-        * Although fscrypt forbids rename() on ciphertext names, we still must
-        * use dget_parent() here rather than use ->d_parent directly.  That's
+        * Although fscrypt forbids rename() on no-key names, we still must use
+        * dget_parent() here rather than use ->d_parent directly.  That's
         * because a corrupted fs image may contain directory hard links, which
         * the VFS handles by moving the directory's dentry tree in the dcache
         * each time ->lookup() finds the directory and it already has a dentry
@@ -580,6 +569,7 @@ static int fscrypt_d_revalidate(struct dentry *dentry, unsigned int flags)
 
        return valid;
 }
+EXPORT_SYMBOL_GPL(fscrypt_d_revalidate);
 
 const struct dentry_operations fscrypt_d_ops = {
        .d_revalidate = fscrypt_d_revalidate,
index 8117a61..4f5806a 100644 (file)
@@ -97,7 +97,6 @@ static inline const u8 *fscrypt_context_nonce(const union fscrypt_context *ctx)
        return NULL;
 }
 
-#undef fscrypt_policy
 union fscrypt_policy {
        u8 version;
        struct fscrypt_policy_v1 v1;
@@ -292,8 +291,9 @@ void fscrypt_generate_iv(union fscrypt_iv *iv, u64 lblk_num,
 /* fname.c */
 int fscrypt_fname_encrypt(const struct inode *inode, const struct qstr *iname,
                          u8 *out, unsigned int olen);
-bool fscrypt_fname_encrypted_size(const struct inode *inode, u32 orig_len,
-                                 u32 max_len, u32 *encrypted_len_ret);
+bool fscrypt_fname_encrypted_size(const union fscrypt_policy *policy,
+                                 u32 orig_len, u32 max_len,
+                                 u32 *encrypted_len_ret);
 extern const struct dentry_operations fscrypt_d_ops;
 
 /* hkdf.c */
@@ -572,6 +572,9 @@ int fscrypt_set_per_file_enc_key(struct fscrypt_info *ci, const u8 *raw_key);
 int fscrypt_derive_dirhash_key(struct fscrypt_info *ci,
                               const struct fscrypt_master_key *mk);
 
+void fscrypt_hash_inode_number(struct fscrypt_info *ci,
+                              const struct fscrypt_master_key *mk);
+
 /* keysetup_v1.c */
 
 void fscrypt_put_direct_key(struct fscrypt_direct_key *dk);
@@ -590,5 +593,6 @@ bool fscrypt_supported_policy(const union fscrypt_policy *policy_u,
 int fscrypt_policy_from_context(union fscrypt_policy *policy_u,
                                const union fscrypt_context *ctx_u,
                                int ctx_size);
+const union fscrypt_policy *fscrypt_policy_to_inherit(struct inode *dir);
 
 #endif /* _FSCRYPT_PRIVATE_H */
index 09fb8aa..20b0df4 100644 (file)
@@ -60,8 +60,8 @@ int __fscrypt_prepare_link(struct inode *inode, struct inode *dir,
        if (err)
                return err;
 
-       /* ... in case we looked up ciphertext name before key was added */
-       if (dentry->d_flags & DCACHE_ENCRYPTED_NAME)
+       /* ... in case we looked up no-key name before key was added */
+       if (dentry->d_flags & DCACHE_NOKEY_NAME)
                return -ENOKEY;
 
        if (!fscrypt_has_permitted_context(dir, inode))
@@ -85,9 +85,8 @@ int __fscrypt_prepare_rename(struct inode *old_dir, struct dentry *old_dentry,
        if (err)
                return err;
 
-       /* ... in case we looked up ciphertext name(s) before key was added */
-       if ((old_dentry->d_flags | new_dentry->d_flags) &
-           DCACHE_ENCRYPTED_NAME)
+       /* ... in case we looked up no-key name(s) before key was added */
+       if ((old_dentry->d_flags | new_dentry->d_flags) & DCACHE_NOKEY_NAME)
                return -ENOKEY;
 
        if (old_dir != new_dir) {
@@ -114,9 +113,9 @@ int __fscrypt_prepare_lookup(struct inode *dir, struct dentry *dentry,
        if (err && err != -ENOENT)
                return err;
 
-       if (fname->is_ciphertext_name) {
+       if (fname->is_nokey_name) {
                spin_lock(&dentry->d_lock);
-               dentry->d_flags |= DCACHE_ENCRYPTED_NAME;
+               dentry->d_flags |= DCACHE_NOKEY_NAME;
                spin_unlock(&dentry->d_lock);
                d_set_d_op(dentry, &fscrypt_d_ops);
        }
@@ -166,26 +165,51 @@ int fscrypt_prepare_setflags(struct inode *inode,
        return 0;
 }
 
-int __fscrypt_prepare_symlink(struct inode *dir, unsigned int len,
-                             unsigned int max_len,
-                             struct fscrypt_str *disk_link)
+/**
+ * fscrypt_prepare_symlink() - prepare to create a possibly-encrypted symlink
+ * @dir: directory in which the symlink is being created
+ * @target: plaintext symlink target
+ * @len: length of @target excluding null terminator
+ * @max_len: space the filesystem has available to store the symlink target
+ * @disk_link: (out) the on-disk symlink target being prepared
+ *
+ * This function computes the size the symlink target will require on-disk,
+ * stores it in @disk_link->len, and validates it against @max_len.  An
+ * encrypted symlink may be longer than the original.
+ *
+ * Additionally, @disk_link->name is set to @target if the symlink will be
+ * unencrypted, but left NULL if the symlink will be encrypted.  For encrypted
+ * symlinks, the filesystem must call fscrypt_encrypt_symlink() to create the
+ * on-disk target later.  (The reason for the two-step process is that some
+ * filesystems need to know the size of the symlink target before creating the
+ * inode, e.g. to determine whether it will be a "fast" or "slow" symlink.)
+ *
+ * Return: 0 on success, -ENAMETOOLONG if the symlink target is too long,
+ * -ENOKEY if the encryption key is missing, or another -errno code if a problem
+ * occurred while setting up the encryption key.
+ */
+int fscrypt_prepare_symlink(struct inode *dir, const char *target,
+                           unsigned int len, unsigned int max_len,
+                           struct fscrypt_str *disk_link)
 {
-       int err;
+       const union fscrypt_policy *policy;
 
        /*
         * To calculate the size of the encrypted symlink target we need to know
         * the amount of NUL padding, which is determined by the flags set in
         * the encryption policy which will be inherited from the directory.
-        * The easiest way to get access to this is to just load the directory's
-        * fscrypt_info, since we'll need it to create the dir_entry anyway.
-        *
-        * Note: in test_dummy_encryption mode, @dir may be unencrypted.
         */
-       err = fscrypt_get_encryption_info(dir);
-       if (err)
-               return err;
-       if (!fscrypt_has_encryption_key(dir))
-               return -ENOKEY;
+       policy = fscrypt_policy_to_inherit(dir);
+       if (policy == NULL) {
+               /* Not encrypted */
+               disk_link->name = (unsigned char *)target;
+               disk_link->len = len + 1;
+               if (disk_link->len > max_len)
+                       return -ENAMETOOLONG;
+               return 0;
+       }
+       if (IS_ERR(policy))
+               return PTR_ERR(policy);
 
        /*
         * Calculate the size of the encrypted symlink and verify it won't
@@ -198,7 +222,7 @@ int __fscrypt_prepare_symlink(struct inode *dir, unsigned int len,
         * counting it (even though it is meaningless for ciphertext) is simpler
         * for now since filesystems will assume it is there and subtract it.
         */
-       if (!fscrypt_fname_encrypted_size(dir, len,
+       if (!fscrypt_fname_encrypted_size(policy, len,
                                          max_len - sizeof(struct fscrypt_symlink_data),
                                          &disk_link->len))
                return -ENAMETOOLONG;
@@ -207,7 +231,7 @@ int __fscrypt_prepare_symlink(struct inode *dir, unsigned int len,
        disk_link->name = NULL;
        return 0;
 }
-EXPORT_SYMBOL_GPL(__fscrypt_prepare_symlink);
+EXPORT_SYMBOL_GPL(fscrypt_prepare_symlink);
 
 int __fscrypt_encrypt_symlink(struct inode *inode, const char *target,
                              unsigned int len, struct fscrypt_str *disk_link)
@@ -217,9 +241,13 @@ int __fscrypt_encrypt_symlink(struct inode *inode, const char *target,
        struct fscrypt_symlink_data *sd;
        unsigned int ciphertext_len;
 
-       err = fscrypt_require_key(inode);
-       if (err)
-               return err;
+       /*
+        * fscrypt_prepare_new_inode() should have already set up the new
+        * symlink inode's encryption key.  We don't wait until now to do it,
+        * since we may be in a filesystem transaction now.
+        */
+       if (WARN_ON_ONCE(!fscrypt_has_encryption_key(inode)))
+               return -ENOKEY;
 
        if (disk_link->name) {
                /* filesystem-provided buffer */
@@ -319,7 +347,7 @@ const char *fscrypt_get_symlink(struct inode *inode, const void *caddr,
        if (cstr.len + sizeof(*sd) - 1 > max_size)
                return ERR_PTR(-EUCLEAN);
 
-       err = fscrypt_fname_alloc_buffer(inode, cstr.len, &pstr);
+       err = fscrypt_fname_alloc_buffer(cstr.len, &pstr);
        if (err)
                return ERR_PTR(err);
 
index faa2554..89bffa8 100644 (file)
@@ -106,7 +106,7 @@ int fscrypt_select_encryption_impl(struct fscrypt_info *ci)
        crypto_cfg.data_unit_size = sb->s_blocksize;
        crypto_cfg.dun_bytes = fscrypt_get_dun_bytes(ci);
        num_devs = fscrypt_get_num_devices(sb);
-       devs = kmalloc_array(num_devs, sizeof(*devs), GFP_NOFS);
+       devs = kmalloc_array(num_devs, sizeof(*devs), GFP_KERNEL);
        if (!devs)
                return -ENOMEM;
        fscrypt_get_devices(sb, num_devs, devs);
@@ -135,9 +135,8 @@ int fscrypt_prepare_inline_crypt_key(struct fscrypt_prepared_key *prep_key,
        struct fscrypt_blk_crypto_key *blk_key;
        int err;
        int i;
-       unsigned int flags;
 
-       blk_key = kzalloc(struct_size(blk_key, devs, num_devs), GFP_NOFS);
+       blk_key = kzalloc(struct_size(blk_key, devs, num_devs), GFP_KERNEL);
        if (!blk_key)
                return -ENOMEM;
 
@@ -166,10 +165,8 @@ int fscrypt_prepare_inline_crypt_key(struct fscrypt_prepared_key *prep_key,
                }
                queue_refs++;
 
-               flags = memalloc_nofs_save();
                err = blk_crypto_start_using_key(&blk_key->base,
                                                 blk_key->devs[i]);
-               memalloc_nofs_restore(flags);
                if (err) {
                        fscrypt_err(inode,
                                    "error %d starting to use blk-crypto", err);
index e74f239..53cc552 100644 (file)
@@ -817,6 +817,7 @@ static int check_for_busy_inodes(struct super_block *sb,
        struct list_head *pos;
        size_t busy_count = 0;
        unsigned long ino;
+       char ino_str[50] = "";
 
        spin_lock(&mk->mk_decrypted_inodes_lock);
 
@@ -838,11 +839,15 @@ static int check_for_busy_inodes(struct super_block *sb,
        }
        spin_unlock(&mk->mk_decrypted_inodes_lock);
 
+       /* If the inode is currently being created, ino may still be 0. */
+       if (ino)
+               snprintf(ino_str, sizeof(ino_str), ", including ino %lu", ino);
+
        fscrypt_warn(NULL,
-                    "%s: %zu inode(s) still busy after removing key with %s %*phN, including ino %lu",
+                    "%s: %zu inode(s) still busy after removing key with %s %*phN%s",
                     sb->s_id, busy_count, master_key_spec_type(&mk->mk_spec),
                     master_key_spec_len(&mk->mk_spec), (u8 *)&mk->mk_spec.u,
-                    ino);
+                    ino_str);
        return -EBUSY;
 }
 
index fea6226..d3c3e5d 100644 (file)
@@ -10,6 +10,7 @@
 
 #include <crypto/skcipher.h>
 #include <linux/key.h>
+#include <linux/random.h>
 
 #include "fscrypt_private.h"
 
@@ -222,6 +223,16 @@ int fscrypt_derive_dirhash_key(struct fscrypt_info *ci,
        return 0;
 }
 
+void fscrypt_hash_inode_number(struct fscrypt_info *ci,
+                              const struct fscrypt_master_key *mk)
+{
+       WARN_ON(ci->ci_inode->i_ino == 0);
+       WARN_ON(!mk->mk_ino_hash_key_initialized);
+
+       ci->ci_hashed_ino = (u32)siphash_1u64(ci->ci_inode->i_ino,
+                                             &mk->mk_ino_hash_key);
+}
+
 static int fscrypt_setup_iv_ino_lblk_32_key(struct fscrypt_info *ci,
                                            struct fscrypt_master_key *mk)
 {
@@ -254,13 +265,20 @@ unlock:
                        return err;
        }
 
-       ci->ci_hashed_ino = (u32)siphash_1u64(ci->ci_inode->i_ino,
-                                             &mk->mk_ino_hash_key);
+       /*
+        * New inodes may not have an inode number assigned yet.
+        * Hashing their inode number is delayed until later.
+        */
+       if (ci->ci_inode->i_ino == 0)
+               WARN_ON(!(ci->ci_inode->i_state & I_CREATING));
+       else
+               fscrypt_hash_inode_number(ci, mk);
        return 0;
 }
 
 static int fscrypt_setup_v2_file_key(struct fscrypt_info *ci,
-                                    struct fscrypt_master_key *mk)
+                                    struct fscrypt_master_key *mk,
+                                    bool need_dirhash_key)
 {
        int err;
 
@@ -306,7 +324,7 @@ static int fscrypt_setup_v2_file_key(struct fscrypt_info *ci,
                return err;
 
        /* Derive a secret dirhash key for directories that need it. */
-       if (S_ISDIR(ci->ci_inode->i_mode) && IS_CASEFOLDED(ci->ci_inode)) {
+       if (need_dirhash_key) {
                err = fscrypt_derive_dirhash_key(ci, mk);
                if (err)
                        return err;
@@ -326,6 +344,7 @@ static int fscrypt_setup_v2_file_key(struct fscrypt_info *ci,
  * key being removed with a new inode starting to use it.
  */
 static int setup_file_encryption_key(struct fscrypt_info *ci,
+                                    bool need_dirhash_key,
                                     struct key **master_key_ret)
 {
        struct key *key;
@@ -400,7 +419,7 @@ static int setup_file_encryption_key(struct fscrypt_info *ci,
                err = fscrypt_setup_v1_file_key(ci, mk->mk_secret.raw);
                break;
        case FSCRYPT_POLICY_V2:
-               err = fscrypt_setup_v2_file_key(ci, mk);
+               err = fscrypt_setup_v2_file_key(ci, mk, need_dirhash_key);
                break;
        default:
                WARN_ON(1);
@@ -454,57 +473,28 @@ static void put_crypt_info(struct fscrypt_info *ci)
        kmem_cache_free(fscrypt_info_cachep, ci);
 }
 
-int fscrypt_get_encryption_info(struct inode *inode)
+static int
+fscrypt_setup_encryption_info(struct inode *inode,
+                             const union fscrypt_policy *policy,
+                             const u8 nonce[FSCRYPT_FILE_NONCE_SIZE],
+                             bool need_dirhash_key)
 {
        struct fscrypt_info *crypt_info;
-       union fscrypt_context ctx;
        struct fscrypt_mode *mode;
        struct key *master_key = NULL;
        int res;
 
-       if (fscrypt_has_encryption_key(inode))
-               return 0;
-
        res = fscrypt_initialize(inode->i_sb->s_cop->flags);
        if (res)
                return res;
 
-       res = inode->i_sb->s_cop->get_context(inode, &ctx, sizeof(ctx));
-       if (res < 0) {
-               const union fscrypt_context *dummy_ctx =
-                       fscrypt_get_dummy_context(inode->i_sb);
-
-               if (IS_ENCRYPTED(inode) || !dummy_ctx) {
-                       fscrypt_warn(inode,
-                                    "Error %d getting encryption context",
-                                    res);
-                       return res;
-               }
-               /* Fake up a context for an unencrypted directory */
-               res = fscrypt_context_size(dummy_ctx);
-               memcpy(&ctx, dummy_ctx, res);
-       }
-
-       crypt_info = kmem_cache_zalloc(fscrypt_info_cachep, GFP_NOFS);
+       crypt_info = kmem_cache_zalloc(fscrypt_info_cachep, GFP_KERNEL);
        if (!crypt_info)
                return -ENOMEM;
 
        crypt_info->ci_inode = inode;
-
-       res = fscrypt_policy_from_context(&crypt_info->ci_policy, &ctx, res);
-       if (res) {
-               fscrypt_warn(inode,
-                            "Unrecognized or corrupt encryption context");
-               goto out;
-       }
-
-       memcpy(crypt_info->ci_nonce, fscrypt_context_nonce(&ctx),
-              FSCRYPT_FILE_NONCE_SIZE);
-
-       if (!fscrypt_supported_policy(&crypt_info->ci_policy, inode)) {
-               res = -EINVAL;
-               goto out;
-       }
+       crypt_info->ci_policy = *policy;
+       memcpy(crypt_info->ci_nonce, nonce, FSCRYPT_FILE_NONCE_SIZE);
 
        mode = select_encryption_mode(&crypt_info->ci_policy, inode);
        if (IS_ERR(mode)) {
@@ -514,13 +504,14 @@ int fscrypt_get_encryption_info(struct inode *inode)
        WARN_ON(mode->ivsize > FSCRYPT_MAX_IV_SIZE);
        crypt_info->ci_mode = mode;
 
-       res = setup_file_encryption_key(crypt_info, &master_key);
+       res = setup_file_encryption_key(crypt_info, need_dirhash_key,
+                                       &master_key);
        if (res)
                goto out;
 
        /*
-        * Multiple tasks may race to set ->i_crypt_info, so use
-        * cmpxchg_release().  This pairs with the smp_load_acquire() in
+        * For existing inodes, multiple tasks may race to set ->i_crypt_info.
+        * So use cmpxchg_release().  This pairs with the smp_load_acquire() in
         * fscrypt_get_info().  I.e., here we publish ->i_crypt_info with a
         * RELEASE barrier so that other tasks can ACQUIRE it.
         */
@@ -550,14 +541,113 @@ out:
                up_read(&mk->mk_secret_sem);
                key_put(master_key);
        }
+       put_crypt_info(crypt_info);
+       return res;
+}
+
+/**
+ * fscrypt_get_encryption_info() - set up an inode's encryption key
+ * @inode: the inode to set up the key for.  Must be encrypted.
+ *
+ * Set up ->i_crypt_info, if it hasn't already been done.
+ *
+ * Note: unless ->i_crypt_info is already set, this isn't %GFP_NOFS-safe.  So
+ * generally this shouldn't be called from within a filesystem transaction.
+ *
+ * Return: 0 if ->i_crypt_info was set or was already set, *or* if the
+ *        encryption key is unavailable.  (Use fscrypt_has_encryption_key() to
+ *        distinguish these cases.)  Also can return another -errno code.
+ */
+int fscrypt_get_encryption_info(struct inode *inode)
+{
+       int res;
+       union fscrypt_context ctx;
+       union fscrypt_policy policy;
+
+       if (fscrypt_has_encryption_key(inode))
+               return 0;
+
+       res = inode->i_sb->s_cop->get_context(inode, &ctx, sizeof(ctx));
+       if (res < 0) {
+               fscrypt_warn(inode, "Error %d getting encryption context", res);
+               return res;
+       }
+
+       res = fscrypt_policy_from_context(&policy, &ctx, res);
+       if (res) {
+               fscrypt_warn(inode,
+                            "Unrecognized or corrupt encryption context");
+               return res;
+       }
+
+       if (!fscrypt_supported_policy(&policy, inode))
+               return -EINVAL;
+
+       res = fscrypt_setup_encryption_info(inode, &policy,
+                                           fscrypt_context_nonce(&ctx),
+                                           IS_CASEFOLDED(inode) &&
+                                           S_ISDIR(inode->i_mode));
        if (res == -ENOKEY)
                res = 0;
-       put_crypt_info(crypt_info);
        return res;
 }
 EXPORT_SYMBOL(fscrypt_get_encryption_info);
 
 /**
+ * fscrypt_prepare_new_inode() - prepare to create a new inode in a directory
+ * @dir: a possibly-encrypted directory
+ * @inode: the new inode.  ->i_mode must be set already.
+ *        ->i_ino doesn't need to be set yet.
+ * @encrypt_ret: (output) set to %true if the new inode will be encrypted
+ *
+ * If the directory is encrypted, set up its ->i_crypt_info in preparation for
+ * encrypting the name of the new file.  Also, if the new inode will be
+ * encrypted, set up its ->i_crypt_info and set *encrypt_ret=true.
+ *
+ * This isn't %GFP_NOFS-safe, and therefore it should be called before starting
+ * any filesystem transaction to create the inode.  For this reason, ->i_ino
+ * isn't required to be set yet, as the filesystem may not have set it yet.
+ *
+ * This doesn't persist the new inode's encryption context.  That still needs to
+ * be done later by calling fscrypt_set_context().
+ *
+ * Return: 0 on success, -ENOKEY if the encryption key is missing, or another
+ *        -errno code
+ */
+int fscrypt_prepare_new_inode(struct inode *dir, struct inode *inode,
+                             bool *encrypt_ret)
+{
+       const union fscrypt_policy *policy;
+       u8 nonce[FSCRYPT_FILE_NONCE_SIZE];
+
+       policy = fscrypt_policy_to_inherit(dir);
+       if (policy == NULL)
+               return 0;
+       if (IS_ERR(policy))
+               return PTR_ERR(policy);
+
+       if (WARN_ON_ONCE(inode->i_mode == 0))
+               return -EINVAL;
+
+       /*
+        * Only regular files, directories, and symlinks are encrypted.
+        * Special files like device nodes and named pipes aren't.
+        */
+       if (!S_ISREG(inode->i_mode) &&
+           !S_ISDIR(inode->i_mode) &&
+           !S_ISLNK(inode->i_mode))
+               return 0;
+
+       *encrypt_ret = true;
+
+       get_random_bytes(nonce, FSCRYPT_FILE_NONCE_SIZE);
+       return fscrypt_setup_encryption_info(inode, policy, nonce,
+                                            IS_CASEFOLDED(dir) &&
+                                            S_ISDIR(inode->i_mode));
+}
+EXPORT_SYMBOL_GPL(fscrypt_prepare_new_inode);
+
+/**
  * fscrypt_put_encryption_info() - free most of an inode's fscrypt data
  * @inode: an inode being evicted
  *
index a3cb525..2762c53 100644 (file)
@@ -60,7 +60,7 @@ static int derive_key_aes(const u8 *master_key,
                goto out;
        }
        crypto_skcipher_set_flags(tfm, CRYPTO_TFM_REQ_FORBID_WEAK_KEYS);
-       req = skcipher_request_alloc(tfm, GFP_NOFS);
+       req = skcipher_request_alloc(tfm, GFP_KERNEL);
        if (!req) {
                res = -ENOMEM;
                goto out;
@@ -99,7 +99,7 @@ find_and_lock_process_key(const char *prefix,
        const struct user_key_payload *ukp;
        const struct fscrypt_key *payload;
 
-       description = kasprintf(GFP_NOFS, "%s%*phN", prefix,
+       description = kasprintf(GFP_KERNEL, "%s%*phN", prefix,
                                FSCRYPT_KEY_DESCRIPTOR_SIZE, descriptor);
        if (!description)
                return ERR_PTR(-ENOMEM);
@@ -228,7 +228,7 @@ fscrypt_get_direct_key(const struct fscrypt_info *ci, const u8 *raw_key)
                return dk;
 
        /* Nope, allocate one. */
-       dk = kzalloc(sizeof(*dk), GFP_NOFS);
+       dk = kzalloc(sizeof(*dk), GFP_KERNEL);
        if (!dk)
                return ERR_PTR(-ENOMEM);
        refcount_set(&dk->dk_refcount, 1);
@@ -272,7 +272,7 @@ static int setup_v1_file_key_derived(struct fscrypt_info *ci,
         * This cannot be a stack buffer because it will be passed to the
         * scatterlist crypto API during derive_key_aes().
         */
-       derived_key = kmalloc(ci->ci_mode->keysize, GFP_NOFS);
+       derived_key = kmalloc(ci->ci_mode->keysize, GFP_KERNEL);
        if (!derived_key)
                return -ENOMEM;
 
index 2d73fd3..4441d99 100644 (file)
@@ -32,6 +32,14 @@ bool fscrypt_policies_equal(const union fscrypt_policy *policy1,
        return !memcmp(policy1, policy2, fscrypt_policy_size(policy1));
 }
 
+static const union fscrypt_policy *
+fscrypt_get_dummy_policy(struct super_block *sb)
+{
+       if (!sb->s_cop->get_dummy_policy)
+               return NULL;
+       return sb->s_cop->get_dummy_policy(sb);
+}
+
 static bool fscrypt_valid_enc_modes(u32 contents_mode, u32 filenames_mode)
 {
        if (contents_mode == FSCRYPT_MODE_AES_256_XTS &&
@@ -192,10 +200,15 @@ static bool fscrypt_supported_v2_policy(const struct fscrypt_policy_v2 *policy,
                                          32, 32))
                return false;
 
+       /*
+        * IV_INO_LBLK_32 hashes the inode number, so in principle it can
+        * support any ino_bits.  However, currently the inode number is gotten
+        * from inode::i_ino which is 'unsigned long'.  So for now the
+        * implementation limit is 32 bits.
+        */
        if ((policy->flags & FSCRYPT_POLICY_FLAG_IV_INO_LBLK_32) &&
-           /* This uses hashed inode numbers, so ino_bits doesn't matter. */
            !supported_iv_ino_lblk_policy(policy, inode, "IV_INO_LBLK_32",
-                                         INT_MAX, 32))
+                                         32, 32))
                return false;
 
        if (memchr_inv(policy->__reserved, 0, sizeof(policy->__reserved))) {
@@ -231,18 +244,19 @@ bool fscrypt_supported_policy(const union fscrypt_policy *policy_u,
 }
 
 /**
- * fscrypt_new_context_from_policy() - create a new fscrypt_context from
- *                                    an fscrypt_policy
+ * fscrypt_new_context() - create a new fscrypt_context
  * @ctx_u: output context
  * @policy_u: input policy
+ * @nonce: nonce to use
  *
  * Create an fscrypt_context for an inode that is being assigned the given
- * encryption policy.  A new nonce is randomly generated.
+ * encryption policy.  @nonce must be a new random nonce.
  *
  * Return: the size of the new context in bytes.
  */
-static int fscrypt_new_context_from_policy(union fscrypt_context *ctx_u,
-                                          const union fscrypt_policy *policy_u)
+static int fscrypt_new_context(union fscrypt_context *ctx_u,
+                              const union fscrypt_policy *policy_u,
+                              const u8 nonce[FSCRYPT_FILE_NONCE_SIZE])
 {
        memset(ctx_u, 0, sizeof(*ctx_u));
 
@@ -260,7 +274,7 @@ static int fscrypt_new_context_from_policy(union fscrypt_context *ctx_u,
                memcpy(ctx->master_key_descriptor,
                       policy->master_key_descriptor,
                       sizeof(ctx->master_key_descriptor));
-               get_random_bytes(ctx->nonce, sizeof(ctx->nonce));
+               memcpy(ctx->nonce, nonce, FSCRYPT_FILE_NONCE_SIZE);
                return sizeof(*ctx);
        }
        case FSCRYPT_POLICY_V2: {
@@ -276,7 +290,7 @@ static int fscrypt_new_context_from_policy(union fscrypt_context *ctx_u,
                memcpy(ctx->master_key_identifier,
                       policy->master_key_identifier,
                       sizeof(ctx->master_key_identifier));
-               get_random_bytes(ctx->nonce, sizeof(ctx->nonce));
+               memcpy(ctx->nonce, nonce, FSCRYPT_FILE_NONCE_SIZE);
                return sizeof(*ctx);
        }
        }
@@ -372,6 +386,7 @@ static int fscrypt_get_policy(struct inode *inode, union fscrypt_policy *policy)
 static int set_encryption_policy(struct inode *inode,
                                 const union fscrypt_policy *policy)
 {
+       u8 nonce[FSCRYPT_FILE_NONCE_SIZE];
        union fscrypt_context ctx;
        int ctxsize;
        int err;
@@ -409,7 +424,8 @@ static int set_encryption_policy(struct inode *inode,
                return -EINVAL;
        }
 
-       ctxsize = fscrypt_new_context_from_policy(&ctx, policy);
+       get_random_bytes(nonce, FSCRYPT_FILE_NONCE_SIZE);
+       ctxsize = fscrypt_new_context(&ctx, policy, nonce);
 
        return inode->i_sb->s_cop->set_context(inode, &ctx, ctxsize, NULL);
 }
@@ -620,86 +636,99 @@ int fscrypt_has_permitted_context(struct inode *parent, struct inode *child)
 }
 EXPORT_SYMBOL(fscrypt_has_permitted_context);
 
+/*
+ * Return the encryption policy that new files in the directory will inherit, or
+ * NULL if none, or an ERR_PTR() on error.  If the directory is encrypted, also
+ * ensure that its key is set up, so that the new filename can be encrypted.
+ */
+const union fscrypt_policy *fscrypt_policy_to_inherit(struct inode *dir)
+{
+       int err;
+
+       if (IS_ENCRYPTED(dir)) {
+               err = fscrypt_require_key(dir);
+               if (err)
+                       return ERR_PTR(err);
+               return &dir->i_crypt_info->ci_policy;
+       }
+
+       return fscrypt_get_dummy_policy(dir->i_sb);
+}
+
 /**
- * fscrypt_inherit_context() - Sets a child context from its parent
- * @parent: Parent inode from which the context is inherited.
- * @child:  Child inode that inherits the context from @parent.
- * @fs_data:  private data given by FS.
- * @preload:  preload child i_crypt_info if true
+ * fscrypt_set_context() - Set the fscrypt context of a new inode
+ * @inode: a new inode
+ * @fs_data: private data given by FS and passed to ->set_context()
+ *
+ * This should be called after fscrypt_prepare_new_inode(), generally during a
+ * filesystem transaction.  Everything here must be %GFP_NOFS-safe.
  *
  * Return: 0 on success, -errno on failure
  */
-int fscrypt_inherit_context(struct inode *parent, struct inode *child,
-                                               void *fs_data, bool preload)
+int fscrypt_set_context(struct inode *inode, void *fs_data)
 {
+       struct fscrypt_info *ci = inode->i_crypt_info;
        union fscrypt_context ctx;
        int ctxsize;
-       struct fscrypt_info *ci;
-       int res;
-
-       res = fscrypt_get_encryption_info(parent);
-       if (res < 0)
-               return res;
 
-       ci = fscrypt_get_info(parent);
-       if (ci == NULL)
+       /* fscrypt_prepare_new_inode() should have set up the key already. */
+       if (WARN_ON_ONCE(!ci))
                return -ENOKEY;
 
-       ctxsize = fscrypt_new_context_from_policy(&ctx, &ci->ci_policy);
-
        BUILD_BUG_ON(sizeof(ctx) != FSCRYPT_SET_CONTEXT_MAX_SIZE);
-       res = parent->i_sb->s_cop->set_context(child, &ctx, ctxsize, fs_data);
-       if (res)
-               return res;
-       return preload ? fscrypt_get_encryption_info(child): 0;
+       ctxsize = fscrypt_new_context(&ctx, &ci->ci_policy, ci->ci_nonce);
+
+       /*
+        * This may be the first time the inode number is available, so do any
+        * delayed key setup that requires the inode number.
+        */
+       if (ci->ci_policy.version == FSCRYPT_POLICY_V2 &&
+           (ci->ci_policy.v2.flags & FSCRYPT_POLICY_FLAG_IV_INO_LBLK_32)) {
+               const struct fscrypt_master_key *mk =
+                       ci->ci_master_key->payload.data[0];
+
+               fscrypt_hash_inode_number(ci, mk);
+       }
+
+       return inode->i_sb->s_cop->set_context(inode, &ctx, ctxsize, fs_data);
 }
-EXPORT_SYMBOL(fscrypt_inherit_context);
+EXPORT_SYMBOL_GPL(fscrypt_set_context);
 
 /**
  * fscrypt_set_test_dummy_encryption() - handle '-o test_dummy_encryption'
  * @sb: the filesystem on which test_dummy_encryption is being specified
- * @arg: the argument to the test_dummy_encryption option.
- *      If no argument was specified, then @arg->from == NULL.
- * @dummy_ctx: the filesystem's current dummy context (input/output, see below)
+ * @arg: the argument to the test_dummy_encryption option.  May be NULL.
+ * @dummy_policy: the filesystem's current dummy policy (input/output, see
+ *               below)
  *
  * Handle the test_dummy_encryption mount option by creating a dummy encryption
- * context, saving it in @dummy_ctx, and adding the corresponding dummy
- * encryption key to the filesystem.  If the @dummy_ctx is already set, then
+ * policy, saving it in @dummy_policy, and adding the corresponding dummy
+ * encryption key to the filesystem.  If the @dummy_policy is already set, then
  * instead validate that it matches @arg.  Don't support changing it via
  * remount, as that is difficult to do safely.
  *
- * The reason we use an fscrypt_context rather than an fscrypt_policy is because
- * we mustn't generate a new nonce each time we access a dummy-encrypted
- * directory, as that would change the way filenames are encrypted.
- *
- * Return: 0 on success (dummy context set, or the same context is already set);
- *         -EEXIST if a different dummy context is already set;
+ * Return: 0 on success (dummy policy set, or the same policy is already set);
+ *         -EEXIST if a different dummy policy is already set;
  *         or another -errno value.
  */
-int fscrypt_set_test_dummy_encryption(struct super_block *sb,
-                                     const substring_t *arg,
-                                     struct fscrypt_dummy_context *dummy_ctx)
+int fscrypt_set_test_dummy_encryption(struct super_block *sb, const char *arg,
+                                     struct fscrypt_dummy_policy *dummy_policy)
 {
-       const char *argstr = "v2";
-       const char *argstr_to_free = NULL;
        struct fscrypt_key_specifier key_spec = { 0 };
        int version;
-       union fscrypt_context *ctx = NULL;
+       union fscrypt_policy *policy = NULL;
        int err;
 
-       if (arg->from) {
-               argstr = argstr_to_free = match_strdup(arg);
-               if (!argstr)
-                       return -ENOMEM;
-       }
+       if (!arg)
+               arg = "v2";
 
-       if (!strcmp(argstr, "v1")) {
-               version = FSCRYPT_CONTEXT_V1;
+       if (!strcmp(arg, "v1")) {
+               version = FSCRYPT_POLICY_V1;
                key_spec.type = FSCRYPT_KEY_SPEC_TYPE_DESCRIPTOR;
                memset(key_spec.u.descriptor, 0x42,
                       FSCRYPT_KEY_DESCRIPTOR_SIZE);
-       } else if (!strcmp(argstr, "v2")) {
-               version = FSCRYPT_CONTEXT_V2;
+       } else if (!strcmp(arg, "v2")) {
+               version = FSCRYPT_POLICY_V2;
                key_spec.type = FSCRYPT_KEY_SPEC_TYPE_IDENTIFIER;
                /* key_spec.u.identifier gets filled in when adding the key */
        } else {
@@ -707,21 +736,8 @@ int fscrypt_set_test_dummy_encryption(struct super_block *sb,
                goto out;
        }
 
-       if (dummy_ctx->ctx) {
-               /*
-                * Note: if we ever make test_dummy_encryption support
-                * specifying other encryption settings, such as the encryption
-                * modes, we'll need to compare those settings here.
-                */
-               if (dummy_ctx->ctx->version == version)
-                       err = 0;
-               else
-                       err = -EEXIST;
-               goto out;
-       }
-
-       ctx = kzalloc(sizeof(*ctx), GFP_KERNEL);
-       if (!ctx) {
+       policy = kzalloc(sizeof(*policy), GFP_KERNEL);
+       if (!policy) {
                err = -ENOMEM;
                goto out;
        }
@@ -730,18 +746,18 @@ int fscrypt_set_test_dummy_encryption(struct super_block *sb,
        if (err)
                goto out;
 
-       ctx->version = version;
-       switch (ctx->version) {
-       case FSCRYPT_CONTEXT_V1:
-               ctx->v1.contents_encryption_mode = FSCRYPT_MODE_AES_256_XTS;
-               ctx->v1.filenames_encryption_mode = FSCRYPT_MODE_AES_256_CTS;
-               memcpy(ctx->v1.master_key_descriptor, key_spec.u.descriptor,
+       policy->version = version;
+       switch (policy->version) {
+       case FSCRYPT_POLICY_V1:
+               policy->v1.contents_encryption_mode = FSCRYPT_MODE_AES_256_XTS;
+               policy->v1.filenames_encryption_mode = FSCRYPT_MODE_AES_256_CTS;
+               memcpy(policy->v1.master_key_descriptor, key_spec.u.descriptor,
                       FSCRYPT_KEY_DESCRIPTOR_SIZE);
                break;
-       case FSCRYPT_CONTEXT_V2:
-               ctx->v2.contents_encryption_mode = FSCRYPT_MODE_AES_256_XTS;
-               ctx->v2.filenames_encryption_mode = FSCRYPT_MODE_AES_256_CTS;
-               memcpy(ctx->v2.master_key_identifier, key_spec.u.identifier,
+       case FSCRYPT_POLICY_V2:
+               policy->v2.contents_encryption_mode = FSCRYPT_MODE_AES_256_XTS;
+               policy->v2.filenames_encryption_mode = FSCRYPT_MODE_AES_256_CTS;
+               memcpy(policy->v2.master_key_identifier, key_spec.u.identifier,
                       FSCRYPT_KEY_IDENTIFIER_SIZE);
                break;
        default:
@@ -749,12 +765,19 @@ int fscrypt_set_test_dummy_encryption(struct super_block *sb,
                err = -EINVAL;
                goto out;
        }
-       dummy_ctx->ctx = ctx;
-       ctx = NULL;
+
+       if (dummy_policy->policy) {
+               if (fscrypt_policies_equal(policy, dummy_policy->policy))
+                       err = 0;
+               else
+                       err = -EEXIST;
+               goto out;
+       }
+       dummy_policy->policy = policy;
+       policy = NULL;
        err = 0;
 out:
-       kfree(ctx);
-       kfree(argstr_to_free);
+       kfree(policy);
        return err;
 }
 EXPORT_SYMBOL_GPL(fscrypt_set_test_dummy_encryption);
@@ -771,10 +794,16 @@ EXPORT_SYMBOL_GPL(fscrypt_set_test_dummy_encryption);
 void fscrypt_show_test_dummy_encryption(struct seq_file *seq, char sep,
                                        struct super_block *sb)
 {
-       const union fscrypt_context *ctx = fscrypt_get_dummy_context(sb);
+       const union fscrypt_policy *policy = fscrypt_get_dummy_policy(sb);
+       int vers;
 
-       if (!ctx)
+       if (!policy)
                return;
-       seq_printf(seq, "%ctest_dummy_encryption=v%d", sep, ctx->version);
+
+       vers = policy->version;
+       if (vers == FSCRYPT_POLICY_V1) /* Handle numbering quirk */
+               vers = 1;
+
+       seq_printf(seq, "%ctest_dummy_encryption=v%d", sep, vers);
 }
 EXPORT_SYMBOL_GPL(fscrypt_show_test_dummy_encryption);
index f82a495..ee92634 100644 (file)
@@ -4,6 +4,7 @@ menuconfig DLM
        depends on INET
        depends on SYSFS && CONFIGFS_FS && (IPV6 || IPV6=n)
        select IP_SCTP
+       select SRCU
        help
        A general purpose distributed lock manager for kernel or userspace
        applications.
index 47f0b98..49c5f94 100644 (file)
@@ -125,7 +125,7 @@ static ssize_t cluster_cluster_name_store(struct config_item *item,
 CONFIGFS_ATTR(cluster_, cluster_name);
 
 static ssize_t cluster_set(struct dlm_cluster *cl, unsigned int *cl_field,
-                          int *info_field, int check_zero,
+                          int *info_field, bool (*check_cb)(unsigned int x),
                           const char *buf, size_t len)
 {
        unsigned int x;
@@ -137,7 +137,7 @@ static ssize_t cluster_set(struct dlm_cluster *cl, unsigned int *cl_field,
        if (rc)
                return rc;
 
-       if (check_zero && !x)
+       if (check_cb && check_cb(x))
                return -EINVAL;
 
        *cl_field = x;
@@ -146,13 +146,13 @@ static ssize_t cluster_set(struct dlm_cluster *cl, unsigned int *cl_field,
        return len;
 }
 
-#define CLUSTER_ATTR(name, check_zero)                                        \
+#define CLUSTER_ATTR(name, check_cb)                                          \
 static ssize_t cluster_##name##_store(struct config_item *item, \
                const char *buf, size_t len) \
 {                                                                             \
        struct dlm_cluster *cl = config_item_to_cluster(item);                \
        return cluster_set(cl, &cl->cl_##name, &dlm_config.ci_##name,         \
-                          check_zero, buf, len);                             \
+                          check_cb, buf, len);                               \
 }                                                                             \
 static ssize_t cluster_##name##_show(struct config_item *item, char *buf)     \
 {                                                                             \
@@ -161,20 +161,30 @@ static ssize_t cluster_##name##_show(struct config_item *item, char *buf)     \
 }                                                                             \
 CONFIGFS_ATTR(cluster_, name);
 
-CLUSTER_ATTR(tcp_port, 1);
-CLUSTER_ATTR(buffer_size, 1);
-CLUSTER_ATTR(rsbtbl_size, 1);
-CLUSTER_ATTR(recover_timer, 1);
-CLUSTER_ATTR(toss_secs, 1);
-CLUSTER_ATTR(scan_secs, 1);
-CLUSTER_ATTR(log_debug, 0);
-CLUSTER_ATTR(log_info, 0);
-CLUSTER_ATTR(protocol, 0);
-CLUSTER_ATTR(mark, 0);
-CLUSTER_ATTR(timewarn_cs, 1);
-CLUSTER_ATTR(waitwarn_us, 0);
-CLUSTER_ATTR(new_rsb_count, 0);
-CLUSTER_ATTR(recover_callbacks, 0);
+static bool dlm_check_zero(unsigned int x)
+{
+       return !x;
+}
+
+static bool dlm_check_buffer_size(unsigned int x)
+{
+       return (x < DEFAULT_BUFFER_SIZE);
+}
+
+CLUSTER_ATTR(tcp_port, dlm_check_zero);
+CLUSTER_ATTR(buffer_size, dlm_check_buffer_size);
+CLUSTER_ATTR(rsbtbl_size, dlm_check_zero);
+CLUSTER_ATTR(recover_timer, dlm_check_zero);
+CLUSTER_ATTR(toss_secs, dlm_check_zero);
+CLUSTER_ATTR(scan_secs, dlm_check_zero);
+CLUSTER_ATTR(log_debug, NULL);
+CLUSTER_ATTR(log_info, NULL);
+CLUSTER_ATTR(protocol, NULL);
+CLUSTER_ATTR(mark, NULL);
+CLUSTER_ATTR(timewarn_cs, dlm_check_zero);
+CLUSTER_ATTR(waitwarn_us, NULL);
+CLUSTER_ATTR(new_rsb_count, NULL);
+CLUSTER_ATTR(recover_callbacks, NULL);
 
 static struct configfs_attribute *cluster_attrs[] = {
        [CLUSTER_ATTR_TCP_PORT] = &cluster_attr_tcp_port,
@@ -221,6 +231,7 @@ struct dlm_space {
        struct list_head members;
        struct mutex members_lock;
        int members_count;
+       struct dlm_nodes *nds;
 };
 
 struct dlm_comms {
@@ -430,6 +441,7 @@ static struct config_group *make_space(struct config_group *g, const char *name)
        INIT_LIST_HEAD(&sp->members);
        mutex_init(&sp->members_lock);
        sp->members_count = 0;
+       sp->nds = nds;
        return &sp->group;
 
  fail:
@@ -451,6 +463,7 @@ static void drop_space(struct config_group *g, struct config_item *i)
 static void release_space(struct config_item *i)
 {
        struct dlm_space *sp = config_item_to_space(i);
+       kfree(sp->nds);
        kfree(sp);
 }
 
@@ -857,18 +870,22 @@ int dlm_comm_seq(int nodeid, uint32_t *seq)
        return 0;
 }
 
-int dlm_comm_mark(int nodeid, unsigned int *mark)
+void dlm_comm_mark(int nodeid, unsigned int *mark)
 {
        struct dlm_comm *cm;
 
        cm = get_comm(nodeid);
-       if (!cm)
-               return -ENOENT;
+       if (!cm) {
+               *mark = dlm_config.ci_mark;
+               return;
+       }
 
-       *mark = cm->mark;
-       put_comm(cm);
+       if (cm->mark)
+               *mark = cm->mark;
+       else
+               *mark = dlm_config.ci_mark;
 
-       return 0;
+       put_comm(cm);
 }
 
 int dlm_our_nodeid(void)
@@ -889,7 +906,6 @@ int dlm_our_addr(struct sockaddr_storage *addr, int num)
 
 /* Config file defaults */
 #define DEFAULT_TCP_PORT       21064
-#define DEFAULT_BUFFER_SIZE     4096
 #define DEFAULT_RSBTBL_SIZE     1024
 #define DEFAULT_RECOVER_TIMER      5
 #define DEFAULT_TOSS_SECS         10
index f62996c..c210250 100644 (file)
@@ -12,6 +12,8 @@
 #ifndef __CONFIG_DOT_H__
 #define __CONFIG_DOT_H__
 
+#define DEFAULT_BUFFER_SIZE     4096
+
 struct dlm_config_node {
        int nodeid;
        int weight;
@@ -46,7 +48,7 @@ void dlm_config_exit(void);
 int dlm_config_nodes(char *lsname, struct dlm_config_node **nodes_out,
                     int *count_out);
 int dlm_comm_seq(int nodeid, uint32_t *seq);
-int dlm_comm_mark(int nodeid, unsigned int *mark);
+void dlm_comm_mark(int nodeid, unsigned int *mark);
 int dlm_our_nodeid(void);
 int dlm_our_addr(struct sockaddr_storage *addr, int num);
 
index 5050fe0..79f56f1 100644 (file)
 #define MAX_SEND_MSG_COUNT 25
 #define DLM_SHUTDOWN_WAIT_TIMEOUT msecs_to_jiffies(10000)
 
-struct cbuf {
-       unsigned int base;
-       unsigned int len;
-       unsigned int mask;
-};
-
-static void cbuf_add(struct cbuf *cb, int n)
-{
-       cb->len += n;
-}
-
-static int cbuf_data(struct cbuf *cb)
-{
-       return ((cb->base + cb->len) & cb->mask);
-}
-
-static void cbuf_init(struct cbuf *cb, int size)
-{
-       cb->base = cb->len = 0;
-       cb->mask = size-1;
-}
-
-static void cbuf_eat(struct cbuf *cb, int n)
-{
-       cb->len  -= n;
-       cb->base += n;
-       cb->base &= cb->mask;
-}
-
-static bool cbuf_empty(struct cbuf *cb)
-{
-       return cb->len == 0;
-}
-
 struct connection {
        struct socket *sock;    /* NULL if not connected */
        uint32_t nodeid;        /* So we know who we are in the list */
@@ -117,8 +83,6 @@ struct connection {
        int (*rx_action) (struct connection *); /* What to do when active */
        void (*connect_action) (struct connection *);   /* What to do to connect */
        void (*shutdown_action)(struct connection *con); /* What to do to shutdown */
-       struct page *rx_page;
-       struct cbuf cb;
        int retries;
 #define MAX_CONNECT_RETRIES 3
        struct hlist_node list;
@@ -126,6 +90,10 @@ struct connection {
        struct work_struct rwork; /* Receive workqueue */
        struct work_struct swork; /* Send workqueue */
        wait_queue_head_t shutdown_wait; /* wait for graceful shutdown */
+       unsigned char *rx_buf;
+       int rx_buflen;
+       int rx_leftover;
+       struct rcu_head rcu;
 };
 #define sock2con(x) ((struct connection *)(x)->sk_user_data)
 
@@ -167,8 +135,8 @@ static struct workqueue_struct *recv_workqueue;
 static struct workqueue_struct *send_workqueue;
 
 static struct hlist_head connection_hash[CONN_HASH_SIZE];
-static DEFINE_MUTEX(connections_lock);
-static struct kmem_cache *con_cache;
+static DEFINE_SPINLOCK(connections_lock);
+DEFINE_STATIC_SRCU(connections_srcu);
 
 static void process_recv_sockets(struct work_struct *work);
 static void process_send_sockets(struct work_struct *work);
@@ -184,15 +152,20 @@ static inline int nodeid_hash(int nodeid)
 
 static struct connection *__find_con(int nodeid)
 {
-       int r;
+       int r, idx;
        struct connection *con;
 
        r = nodeid_hash(nodeid);
 
-       hlist_for_each_entry(con, &connection_hash[r], list) {
-               if (con->nodeid == nodeid)
+       idx = srcu_read_lock(&connections_srcu);
+       hlist_for_each_entry_rcu(con, &connection_hash[r], list) {
+               if (con->nodeid == nodeid) {
+                       srcu_read_unlock(&connections_srcu, idx);
                        return con;
+               }
        }
+       srcu_read_unlock(&connections_srcu, idx);
+
        return NULL;
 }
 
@@ -200,21 +173,25 @@ static struct connection *__find_con(int nodeid)
  * If 'allocation' is zero then we don't attempt to create a new
  * connection structure for this node.
  */
-static struct connection *__nodeid2con(int nodeid, gfp_t alloc)
+static struct connection *nodeid2con(int nodeid, gfp_t alloc)
 {
-       struct connection *con = NULL;
+       struct connection *con, *tmp;
        int r;
 
        con = __find_con(nodeid);
        if (con || !alloc)
                return con;
 
-       con = kmem_cache_zalloc(con_cache, alloc);
+       con = kzalloc(sizeof(*con), alloc);
        if (!con)
                return NULL;
 
-       r = nodeid_hash(nodeid);
-       hlist_add_head(&con->list, &connection_hash[r]);
+       con->rx_buflen = dlm_config.ci_buffer_size;
+       con->rx_buf = kmalloc(con->rx_buflen, GFP_NOFS);
+       if (!con->rx_buf) {
+               kfree(con);
+               return NULL;
+       }
 
        con->nodeid = nodeid;
        mutex_init(&con->sock_mutex);
@@ -233,31 +210,41 @@ static struct connection *__nodeid2con(int nodeid, gfp_t alloc)
                        con->rx_action = zerocon->rx_action;
        }
 
+       r = nodeid_hash(nodeid);
+
+       spin_lock(&connections_lock);
+       /* Because multiple workqueues/threads calls this function it can
+        * race on multiple cpu's. Instead of locking hot path __find_con()
+        * we just check in rare cases of recently added nodes again
+        * under protection of connections_lock. If this is the case we
+        * abort our connection creation and return the existing connection.
+        */
+       tmp = __find_con(nodeid);
+       if (tmp) {
+               spin_unlock(&connections_lock);
+               kfree(con->rx_buf);
+               kfree(con);
+               return tmp;
+       }
+
+       hlist_add_head_rcu(&con->list, &connection_hash[r]);
+       spin_unlock(&connections_lock);
+
        return con;
 }
 
 /* Loop round all connections */
 static void foreach_conn(void (*conn_func)(struct connection *c))
 {
-       int i;
-       struct hlist_node *n;
+       int i, idx;
        struct connection *con;
 
+       idx = srcu_read_lock(&connections_srcu);
        for (i = 0; i < CONN_HASH_SIZE; i++) {
-               hlist_for_each_entry_safe(con, n, &connection_hash[i], list)
+               hlist_for_each_entry_rcu(con, &connection_hash[i], list)
                        conn_func(con);
        }
-}
-
-static struct connection *nodeid2con(int nodeid, gfp_t allocation)
-{
-       struct connection *con;
-
-       mutex_lock(&connections_lock);
-       con = __nodeid2con(nodeid, allocation);
-       mutex_unlock(&connections_lock);
-
-       return con;
+       srcu_read_unlock(&connections_srcu, idx);
 }
 
 static struct dlm_node_addr *find_node_addr(int nodeid)
@@ -614,11 +601,8 @@ static void close_connection(struct connection *con, bool and_other,
                /* Will only re-enter once. */
                close_connection(con->othercon, false, true, true);
        }
-       if (con->rx_page) {
-               __free_page(con->rx_page);
-               con->rx_page = NULL;
-       }
 
+       con->rx_leftover = 0;
        con->retries = 0;
        mutex_unlock(&con->sock_mutex);
        clear_bit(CF_CLOSING, &con->flags);
@@ -672,16 +656,33 @@ static void dlm_tcp_shutdown(struct connection *con)
        shutdown_connection(con);
 }
 
+static int con_realloc_receive_buf(struct connection *con, int newlen)
+{
+       unsigned char *newbuf;
+
+       newbuf = kmalloc(newlen, GFP_NOFS);
+       if (!newbuf)
+               return -ENOMEM;
+
+       /* copy any leftover from last receive */
+       if (con->rx_leftover)
+               memmove(newbuf, con->rx_buf, con->rx_leftover);
+
+       /* swap to new buffer space */
+       kfree(con->rx_buf);
+       con->rx_buflen = newlen;
+       con->rx_buf = newbuf;
+
+       return 0;
+}
+
 /* Data received from remote end */
 static int receive_from_sock(struct connection *con)
 {
-       int ret = 0;
-       struct msghdr msg = {};
-       struct kvec iov[2];
-       unsigned len;
-       int r;
        int call_again_soon = 0;
-       int nvec;
+       struct msghdr msg;
+       struct kvec iov;
+       int ret, buflen;
 
        mutex_lock(&con->sock_mutex);
 
@@ -689,71 +690,55 @@ static int receive_from_sock(struct connection *con)
                ret = -EAGAIN;
                goto out_close;
        }
+
        if (con->nodeid == 0) {
                ret = -EINVAL;
                goto out_close;
        }
 
-       if (con->rx_page == NULL) {
-               /*
-                * This doesn't need to be atomic, but I think it should
-                * improve performance if it is.
-                */
-               con->rx_page = alloc_page(GFP_ATOMIC);
-               if (con->rx_page == NULL)
+       /* realloc if we get new buffer size to read out */
+       buflen = dlm_config.ci_buffer_size;
+       if (con->rx_buflen != buflen && con->rx_leftover <= buflen) {
+               ret = con_realloc_receive_buf(con, buflen);
+               if (ret < 0)
                        goto out_resched;
-               cbuf_init(&con->cb, PAGE_SIZE);
        }
 
-       /*
-        * iov[0] is the bit of the circular buffer between the current end
-        * point (cb.base + cb.len) and the end of the buffer.
-        */
-       iov[0].iov_len = con->cb.base - cbuf_data(&con->cb);
-       iov[0].iov_base = page_address(con->rx_page) + cbuf_data(&con->cb);
-       iov[1].iov_len = 0;
-       nvec = 1;
-
-       /*
-        * iov[1] is the bit of the circular buffer between the start of the
-        * buffer and the start of the currently used section (cb.base)
+       /* calculate new buffer parameter regarding last receive and
+        * possible leftover bytes
         */
-       if (cbuf_data(&con->cb) >= con->cb.base) {
-               iov[0].iov_len = PAGE_SIZE - cbuf_data(&con->cb);
-               iov[1].iov_len = con->cb.base;
-               iov[1].iov_base = page_address(con->rx_page);
-               nvec = 2;
-       }
-       len = iov[0].iov_len + iov[1].iov_len;
-       iov_iter_kvec(&msg.msg_iter, READ, iov, nvec, len);
+       iov.iov_base = con->rx_buf + con->rx_leftover;
+       iov.iov_len = con->rx_buflen - con->rx_leftover;
 
-       r = ret = sock_recvmsg(con->sock, &msg, MSG_DONTWAIT | MSG_NOSIGNAL);
+       memset(&msg, 0, sizeof(msg));
+       msg.msg_flags = MSG_DONTWAIT | MSG_NOSIGNAL;
+       ret = kernel_recvmsg(con->sock, &msg, &iov, 1, iov.iov_len,
+                            msg.msg_flags);
        if (ret <= 0)
                goto out_close;
-       else if (ret == len)
+       else if (ret == iov.iov_len)
                call_again_soon = 1;
 
-       cbuf_add(&con->cb, ret);
-       ret = dlm_process_incoming_buffer(con->nodeid,
-                                         page_address(con->rx_page),
-                                         con->cb.base, con->cb.len,
-                                         PAGE_SIZE);
-       if (ret < 0) {
-               log_print("lowcomms err %d: addr=%p, base=%u, len=%u, read=%d",
-                         ret, page_address(con->rx_page), con->cb.base,
-                         con->cb.len, r);
-               cbuf_eat(&con->cb, r);
-       } else {
-               cbuf_eat(&con->cb, ret);
-       }
+       /* new buflen according readed bytes and leftover from last receive */
+       buflen = ret + con->rx_leftover;
+       ret = dlm_process_incoming_buffer(con->nodeid, con->rx_buf, buflen);
+       if (ret < 0)
+               goto out_close;
 
-       if (cbuf_empty(&con->cb) && !call_again_soon) {
-               __free_page(con->rx_page);
-               con->rx_page = NULL;
+       /* calculate leftover bytes from process and put it into begin of
+        * the receive buffer, so next receive we have the full message
+        * at the start address of the receive buffer.
+        */
+       con->rx_leftover = buflen - ret;
+       if (con->rx_leftover) {
+               memmove(con->rx_buf, con->rx_buf + ret,
+                       con->rx_leftover);
+               call_again_soon = true;
        }
 
        if (call_again_soon)
                goto out_resched;
+
        mutex_unlock(&con->sock_mutex);
        return 0;
 
@@ -791,13 +776,11 @@ static int accept_from_sock(struct connection *con)
        int nodeid;
        struct connection *newcon;
        struct connection *addcon;
+       unsigned int mark;
 
-       mutex_lock(&connections_lock);
        if (!dlm_allow_conn) {
-               mutex_unlock(&connections_lock);
                return -1;
        }
-       mutex_unlock(&connections_lock);
 
        mutex_lock_nested(&con->sock_mutex, 0);
 
@@ -830,6 +813,9 @@ static int accept_from_sock(struct connection *con)
                return -1;
        }
 
+       dlm_comm_mark(nodeid, &mark);
+       sock_set_mark(newsock->sk, mark);
+
        log_print("got connection from %d", nodeid);
 
        /*  Check to see if we already have a connection to this node. This
@@ -847,13 +833,24 @@ static int accept_from_sock(struct connection *con)
                struct connection *othercon = newcon->othercon;
 
                if (!othercon) {
-                       othercon = kmem_cache_zalloc(con_cache, GFP_NOFS);
+                       othercon = kzalloc(sizeof(*othercon), GFP_NOFS);
                        if (!othercon) {
                                log_print("failed to allocate incoming socket");
                                mutex_unlock(&newcon->sock_mutex);
                                result = -ENOMEM;
                                goto accept_err;
                        }
+
+                       othercon->rx_buflen = dlm_config.ci_buffer_size;
+                       othercon->rx_buf = kmalloc(othercon->rx_buflen, GFP_NOFS);
+                       if (!othercon->rx_buf) {
+                               mutex_unlock(&newcon->sock_mutex);
+                               kfree(othercon);
+                               log_print("failed to allocate incoming socket receive buffer");
+                               result = -ENOMEM;
+                               goto accept_err;
+                       }
+
                        othercon->nodeid = nodeid;
                        othercon->rx_action = receive_from_sock;
                        mutex_init(&othercon->sock_mutex);
@@ -975,6 +972,8 @@ static void sctp_connect_to_sock(struct connection *con)
                return;
        }
 
+       dlm_comm_mark(con->nodeid, &mark);
+
        mutex_lock(&con->sock_mutex);
 
        /* Some odd races can cause double-connects, ignore them */
@@ -999,11 +998,6 @@ static void sctp_connect_to_sock(struct connection *con)
        if (result < 0)
                goto socket_err;
 
-       /* set skb mark */
-       result = dlm_comm_mark(con->nodeid, &mark);
-       if (result < 0)
-               goto bind_err;
-
        sock_set_mark(sock->sk, mark);
 
        con->rx_action = receive_from_sock;
@@ -1076,6 +1070,8 @@ static void tcp_connect_to_sock(struct connection *con)
                return;
        }
 
+       dlm_comm_mark(con->nodeid, &mark);
+
        mutex_lock(&con->sock_mutex);
        if (con->retries++ > MAX_CONNECT_RETRIES)
                goto out;
@@ -1090,11 +1086,6 @@ static void tcp_connect_to_sock(struct connection *con)
        if (result < 0)
                goto out_err;
 
-       /* set skb mark */
-       result = dlm_comm_mark(con->nodeid, &mark);
-       if (result < 0)
-               goto out_err;
-
        sock_set_mark(sock->sk, mark);
 
        memset(&saddr, 0, sizeof(saddr));
@@ -1238,6 +1229,14 @@ static void init_local(void)
        }
 }
 
+static void deinit_local(void)
+{
+       int i;
+
+       for (i = 0; i < dlm_local_count; i++)
+               kfree(dlm_local_addr[i]);
+}
+
 /* Initialise SCTP socket and bind to all interfaces */
 static int sctp_listen_for_all(void)
 {
@@ -1546,13 +1545,6 @@ static void process_send_sockets(struct work_struct *work)
                send_to_sock(con);
 }
 
-
-/* Discard all entries on the write queues */
-static void clean_writequeues(void)
-{
-       foreach_conn(clean_one_writequeue);
-}
-
 static void work_stop(void)
 {
        if (recv_workqueue)
@@ -1608,26 +1600,34 @@ static void shutdown_conn(struct connection *con)
                con->shutdown_action(con);
 }
 
+static void connection_release(struct rcu_head *rcu)
+{
+       struct connection *con = container_of(rcu, struct connection, rcu);
+
+       kfree(con->rx_buf);
+       kfree(con);
+}
+
 static void free_conn(struct connection *con)
 {
        close_connection(con, true, true, true);
-       if (con->othercon)
-               kmem_cache_free(con_cache, con->othercon);
-       hlist_del(&con->list);
-       kmem_cache_free(con_cache, con);
+       spin_lock(&connections_lock);
+       hlist_del_rcu(&con->list);
+       spin_unlock(&connections_lock);
+       if (con->othercon) {
+               clean_one_writequeue(con->othercon);
+               call_rcu(&con->othercon->rcu, connection_release);
+       }
+       clean_one_writequeue(con);
+       call_rcu(&con->rcu, connection_release);
 }
 
 static void work_flush(void)
 {
-       int ok;
+       int ok, idx;
        int i;
-       struct hlist_node *n;
        struct connection *con;
 
-       if (recv_workqueue)
-               flush_workqueue(recv_workqueue);
-       if (send_workqueue)
-               flush_workqueue(send_workqueue);
        do {
                ok = 1;
                foreach_conn(stop_conn);
@@ -1635,9 +1635,10 @@ static void work_flush(void)
                        flush_workqueue(recv_workqueue);
                if (send_workqueue)
                        flush_workqueue(send_workqueue);
+               idx = srcu_read_lock(&connections_srcu);
                for (i = 0; i < CONN_HASH_SIZE && ok; i++) {
-                       hlist_for_each_entry_safe(con, n,
-                                                 &connection_hash[i], list) {
+                       hlist_for_each_entry_rcu(con, &connection_hash[i],
+                                                list) {
                                ok &= test_bit(CF_READ_PENDING, &con->flags);
                                ok &= test_bit(CF_WRITE_PENDING, &con->flags);
                                if (con->othercon) {
@@ -1648,6 +1649,7 @@ static void work_flush(void)
                                }
                        }
                }
+               srcu_read_unlock(&connections_srcu, idx);
        } while (!ok);
 }
 
@@ -1656,16 +1658,18 @@ void dlm_lowcomms_stop(void)
        /* Set all the flags to prevent any
           socket activity.
        */
-       mutex_lock(&connections_lock);
        dlm_allow_conn = 0;
-       mutex_unlock(&connections_lock);
+
+       if (recv_workqueue)
+               flush_workqueue(recv_workqueue);
+       if (send_workqueue)
+               flush_workqueue(send_workqueue);
+
        foreach_conn(shutdown_conn);
        work_flush();
-       clean_writequeues();
        foreach_conn(free_conn);
        work_stop();
-
-       kmem_cache_destroy(con_cache);
+       deinit_local();
 }
 
 int dlm_lowcomms_start(void)
@@ -1684,16 +1688,9 @@ int dlm_lowcomms_start(void)
                goto fail;
        }
 
-       error = -ENOMEM;
-       con_cache = kmem_cache_create("dlm_conn", sizeof(struct connection),
-                                     __alignof__(struct connection), 0,
-                                     NULL);
-       if (!con_cache)
-               goto fail;
-
        error = work_start();
        if (error)
-               goto fail_destroy;
+               goto fail;
 
        dlm_allow_conn = 1;
 
@@ -1710,12 +1707,8 @@ int dlm_lowcomms_start(void)
 fail_unlisten:
        dlm_allow_conn = 0;
        con = nodeid2con(0,0);
-       if (con) {
-               close_connection(con, false, true, true);
-               kmem_cache_free(con_cache, con);
-       }
-fail_destroy:
-       kmem_cache_destroy(con_cache);
+       if (con)
+               free_conn(con);
 fail:
        return error;
 }
index 921322d..fde3a6a 100644 (file)
  * into packets and sends them to the comms layer.
  */
 
+#include <asm/unaligned.h>
+
 #include "dlm_internal.h"
 #include "lowcomms.h"
 #include "config.h"
 #include "lock.h"
 #include "midcomms.h"
 
-
-static void copy_from_cb(void *dst, const void *base, unsigned offset,
-                        unsigned len, unsigned limit)
-{
-       unsigned copy = len;
-
-       if ((copy + offset) > limit)
-               copy = limit - offset;
-       memcpy(dst, base + offset, copy);
-       len -= copy;
-       if (len)
-               memcpy(dst + copy, base, len);
-}
-
 /*
  * Called from the low-level comms layer to process a buffer of
  * commands.
- *
- * Only complete messages are processed here, any "spare" bytes from
- * the end of a buffer are saved and tacked onto the front of the next
- * message that comes in. I doubt this will happen very often but we
- * need to be able to cope with it and I don't want the task to be waiting
- * for packets to come in when there is useful work to be done.
  */
 
-int dlm_process_incoming_buffer(int nodeid, const void *base,
-                               unsigned offset, unsigned len, unsigned limit)
+int dlm_process_incoming_buffer(int nodeid, unsigned char *buf, int len)
 {
-       union {
-               unsigned char __buf[DLM_INBUF_LEN];
-               /* this is to force proper alignment on some arches */
-               union dlm_packet p;
-       } __tmp;
-       union dlm_packet *p = &__tmp.p;
-       int ret = 0;
-       int err = 0;
+       const unsigned char *ptr = buf;
+       const struct dlm_header *hd;
        uint16_t msglen;
-       uint32_t lockspace;
-
-       while (len > sizeof(struct dlm_header)) {
-
-               /* Copy just the header to check the total length.  The
-                  message may wrap around the end of the buffer back to the
-                  start, so we need to use a temp buffer and copy_from_cb. */
-
-               copy_from_cb(p, base, offset, sizeof(struct dlm_header),
-                            limit);
-
-               msglen = le16_to_cpu(p->header.h_length);
-               lockspace = p->header.h_lockspace;
+       int ret = 0;
 
-               err = -EINVAL;
-               if (msglen < sizeof(struct dlm_header))
-                       break;
-               if (p->header.h_cmd == DLM_MSG) {
-                       if (msglen < sizeof(struct dlm_message))
-                               break;
-               } else {
-                       if (msglen < sizeof(struct dlm_rcom))
-                               break;
-               }
-               err = -E2BIG;
-               if (msglen > dlm_config.ci_buffer_size) {
-                       log_print("message size %d from %d too big, buf len %d",
-                                 msglen, nodeid, len);
-                       break;
+       while (len >= sizeof(struct dlm_header)) {
+               hd = (struct dlm_header *)ptr;
+
+               /* no message should be more than this otherwise we
+                * cannot deliver this message to upper layers
+                */
+               msglen = get_unaligned_le16(&hd->h_length);
+               if (msglen > DEFAULT_BUFFER_SIZE) {
+                       log_print("received invalid length header: %u, will abort message parsing",
+                                 msglen);
+                       return -EBADMSG;
                }
-               err = 0;
-
-               /* If only part of the full message is contained in this
-                  buffer, then do nothing and wait for lowcomms to call
-                  us again later with more data.  We return 0 meaning
-                  we've consumed none of the input buffer. */
 
+               /* caller will take care that leftover
+                * will be parsed next call with more data
+                */
                if (msglen > len)
                        break;
 
-               /* Allocate a larger temp buffer if the full message won't fit
-                  in the buffer on the stack (which should work for most
-                  ordinary messages). */
-
-               if (msglen > sizeof(__tmp) && p == &__tmp.p) {
-                       p = kmalloc(dlm_config.ci_buffer_size, GFP_NOFS);
-                       if (p == NULL)
-                               return ret;
-               }
+               switch (hd->h_cmd) {
+               case DLM_MSG:
+                       if (msglen < sizeof(struct dlm_message)) {
+                               log_print("dlm msg too small: %u, will skip this message",
+                                         msglen);
+                               goto skip;
+                       }
 
-               copy_from_cb(p, base, offset, msglen, limit);
+                       break;
+               case DLM_RCOM:
+                       if (msglen < sizeof(struct dlm_rcom)) {
+                               log_print("dlm rcom msg too small: %u, will skip this message",
+                                         msglen);
+                               goto skip;
+                       }
 
-               BUG_ON(lockspace != p->header.h_lockspace);
+                       break;
+               default:
+                       log_print("unsupported h_cmd received: %u, will skip this message",
+                                 hd->h_cmd);
+                       goto skip;
+               }
 
+               /* for aligned memory access, we just copy current message
+                * to begin of the buffer which contains already parsed buffer
+                * data and should provide align access for upper layers
+                * because the start address of the buffer has a aligned
+                * address. This memmove can be removed when the upperlayer
+                * is capable of unaligned memory access.
+                */
+               memmove(buf, ptr, msglen);
+               dlm_receive_buffer((union dlm_packet *)buf, nodeid);
+
+skip:
                ret += msglen;
-               offset += msglen;
-               offset &= (limit - 1);
                len -= msglen;
-
-               dlm_receive_buffer(p, nodeid);
+               ptr += msglen;
        }
 
-       if (p != &__tmp.p)
-               kfree(p);
-
-       return err ? err : ret;
+       return ret;
 }
 
index 2e122e8..61e90a9 100644 (file)
@@ -12,8 +12,7 @@
 #ifndef __MIDCOMMS_DOT_H__
 #define __MIDCOMMS_DOT_H__
 
-int dlm_process_incoming_buffer(int nodeid, const void *base, unsigned offset,
-                               unsigned len, unsigned limit);
+int dlm_process_incoming_buffer(int nodeid, unsigned char *buf, int buflen);
 
 #endif                         /* __MIDCOMMS_DOT_H__ */
 
index 28bb568..15880a6 100644 (file)
@@ -141,6 +141,9 @@ static int efivarfs_callback(efi_char16_t *name16, efi_guid_t vendor,
 
        name[len + EFI_VARIABLE_GUID_LEN+1] = '\0';
 
+       /* replace invalid slashes like kobject_set_name_vargs does for /sys/firmware/efi/vars. */
+       strreplace(name, '/', '!');
+
        inode = efivarfs_get_inode(sb, d_inode(root), S_IFREG | 0644, 0,
                                   is_removable);
        if (!inode)
index 03d0824..5a2f119 100644 (file)
@@ -17,7 +17,6 @@
 #include "exfat_raw.h"
 #include "exfat_fs.h"
 
-#define EXFAT_CACHE_VALID      0
 #define EXFAT_MAX_CACHE                16
 
 struct exfat_cache {
@@ -61,16 +60,6 @@ void exfat_cache_shutdown(void)
        kmem_cache_destroy(exfat_cachep);
 }
 
-void exfat_cache_init_inode(struct inode *inode)
-{
-       struct exfat_inode_info *ei = EXFAT_I(inode);
-
-       spin_lock_init(&ei->cache_lru_lock);
-       ei->nr_caches = 0;
-       ei->cache_valid_id = EXFAT_CACHE_VALID + 1;
-       INIT_LIST_HEAD(&ei->cache_lru);
-}
-
 static inline struct exfat_cache *exfat_cache_alloc(void)
 {
        return kmem_cache_alloc(exfat_cachep, GFP_NOFS);
index 95d717f..c013fe9 100644 (file)
@@ -248,6 +248,8 @@ struct exfat_sb_info {
        struct rcu_head rcu;
 };
 
+#define EXFAT_CACHE_VALID      0
+
 /*
  * EXFAT file system inode in-memory data
  */
@@ -428,7 +430,6 @@ extern const struct dentry_operations exfat_utf8_dentry_ops;
 /* cache.c */
 int exfat_cache_init(void);
 void exfat_cache_shutdown(void);
-void exfat_cache_init_inode(struct inode *inode);
 void exfat_cache_inval_inode(struct inode *inode);
 int exfat_get_cluster(struct inode *inode, unsigned int cluster,
                unsigned int *fclus, unsigned int *dclus,
index 7f90204..a6de17c 100644 (file)
@@ -611,8 +611,6 @@ static int exfat_fill_inode(struct inode *inode, struct exfat_dir_entry *info)
        ei->i_crtime = info->crtime;
        inode->i_atime = info->atime;
 
-       exfat_cache_init_inode(inode);
-
        return 0;
 }
 
index e73f20f..c94ac23 100644 (file)
@@ -578,7 +578,8 @@ static int exfat_create(struct inode *dir, struct dentry *dentry, umode_t mode,
 
        i_pos = exfat_make_i_pos(&info);
        inode = exfat_build_inode(sb, &info, i_pos);
-       if (IS_ERR(inode))
+       err = PTR_ERR_OR_ZERO(inode);
+       if (err)
                goto unlock;
 
        inode_inc_iversion(inode);
@@ -745,10 +746,9 @@ static struct dentry *exfat_lookup(struct inode *dir, struct dentry *dentry,
 
        i_pos = exfat_make_i_pos(&info);
        inode = exfat_build_inode(sb, &info, i_pos);
-       if (IS_ERR(inode)) {
-               err = PTR_ERR(inode);
+       err = PTR_ERR_OR_ZERO(inode);
+       if (err)
                goto unlock;
-       }
 
        i_mode = inode->i_mode;
        alias = d_find_alias(inode);
@@ -890,10 +890,9 @@ static int exfat_mkdir(struct inode *dir, struct dentry *dentry, umode_t mode)
 
        i_pos = exfat_make_i_pos(&info);
        inode = exfat_build_inode(sb, &info, i_pos);
-       if (IS_ERR(inode)) {
-               err = PTR_ERR(inode);
+       err = PTR_ERR_OR_ZERO(inode);
+       if (err)
                goto unlock;
-       }
 
        inode_inc_iversion(inode);
        inode->i_mtime = inode->i_atime = inode->i_ctime =
index 3b6a165..60b941b 100644 (file)
@@ -376,7 +376,6 @@ static int exfat_read_root(struct inode *inode)
        inode->i_mtime = inode->i_atime = inode->i_ctime = ei->i_crtime =
                current_time(inode);
        exfat_truncate_atime(&inode->i_atime);
-       exfat_cache_init_inode(inode);
        return 0;
 }
 
@@ -763,6 +762,10 @@ static void exfat_inode_init_once(void *foo)
 {
        struct exfat_inode_info *ei = (struct exfat_inode_info *)foo;
 
+       spin_lock_init(&ei->cache_lru_lock);
+       ei->nr_caches = 0;
+       ei->cache_valid_id = EXFAT_CACHE_VALID + 1;
+       INIT_LIST_HEAD(&ei->cache_lru);
        INIT_HLIST_NODE(&ei->i_hash_fat);
        inode_init_once(&ei->vfs_inode);
 }
index 1d82336..efe77cf 100644 (file)
@@ -148,7 +148,7 @@ static int ext4_readdir(struct file *file, struct dir_context *ctx)
        }
 
        if (IS_ENCRYPTED(inode)) {
-               err = fscrypt_fname_alloc_buffer(inode, EXT4_NAME_LEN, &fstr);
+               err = fscrypt_fname_alloc_buffer(EXT4_NAME_LEN, &fstr);
                if (err < 0)
                        return err;
        }
index 523e00d..f9a692c 100644 (file)
@@ -1401,7 +1401,7 @@ struct ext4_super_block {
 #define EXT4_MF_FS_ABORTED             0x0002  /* Fatal error detected */
 
 #ifdef CONFIG_FS_ENCRYPTION
-#define DUMMY_ENCRYPTION_ENABLED(sbi) ((sbi)->s_dummy_enc_ctx.ctx != NULL)
+#define DUMMY_ENCRYPTION_ENABLED(sbi) ((sbi)->s_dummy_enc_policy.policy != NULL)
 #else
 #define DUMMY_ENCRYPTION_ENABLED(sbi) (0)
 #endif
@@ -1596,8 +1596,8 @@ struct ext4_sb_info {
        atomic_t s_warning_count;
        atomic_t s_msg_count;
 
-       /* Encryption context for '-o test_dummy_encryption' */
-       struct fscrypt_dummy_context s_dummy_enc_ctx;
+       /* Encryption policy for '-o test_dummy_encryption' */
+       struct fscrypt_dummy_policy s_dummy_enc_policy;
 
        /*
         * Barrier between writepages ops and changing any inode's JOURNAL_DATA
index df25d38..698ca4a 100644 (file)
@@ -742,6 +742,53 @@ not_found:
        return 1;
 }
 
+static int ext4_xattr_credits_for_new_inode(struct inode *dir, mode_t mode,
+                                           bool encrypt)
+{
+       struct super_block *sb = dir->i_sb;
+       int nblocks = 0;
+#ifdef CONFIG_EXT4_FS_POSIX_ACL
+       struct posix_acl *p = get_acl(dir, ACL_TYPE_DEFAULT);
+
+       if (IS_ERR(p))
+               return PTR_ERR(p);
+       if (p) {
+               int acl_size = p->a_count * sizeof(ext4_acl_entry);
+
+               nblocks += (S_ISDIR(mode) ? 2 : 1) *
+                       __ext4_xattr_set_credits(sb, NULL /* inode */,
+                                                NULL /* block_bh */, acl_size,
+                                                true /* is_create */);
+               posix_acl_release(p);
+       }
+#endif
+
+#ifdef CONFIG_SECURITY
+       {
+               int num_security_xattrs = 1;
+
+#ifdef CONFIG_INTEGRITY
+               num_security_xattrs++;
+#endif
+               /*
+                * We assume that security xattrs are never more than 1k.
+                * In practice they are under 128 bytes.
+                */
+               nblocks += num_security_xattrs *
+                       __ext4_xattr_set_credits(sb, NULL /* inode */,
+                                                NULL /* block_bh */, 1024,
+                                                true /* is_create */);
+       }
+#endif
+       if (encrypt)
+               nblocks += __ext4_xattr_set_credits(sb,
+                                                   NULL /* inode */,
+                                                   NULL /* block_bh */,
+                                                   FSCRYPT_SET_CONTEXT_MAX_SIZE,
+                                                   true /* is_create */);
+       return nblocks;
+}
+
 /*
  * There are two policies for allocating an inode.  If the new inode is
  * a directory, then a forward search is made for a block group with both
@@ -772,7 +819,7 @@ struct inode *__ext4_new_inode(handle_t *handle, struct inode *dir,
        ext4_group_t i;
        ext4_group_t flex_group;
        struct ext4_group_info *grp;
-       int encrypt = 0;
+       bool encrypt = false;
 
        /* Cannot create files in a deleted directory */
        if (!dir || !dir->i_nlink)
@@ -784,59 +831,6 @@ struct inode *__ext4_new_inode(handle_t *handle, struct inode *dir,
        if (unlikely(ext4_forced_shutdown(sbi)))
                return ERR_PTR(-EIO);
 
-       if ((IS_ENCRYPTED(dir) || DUMMY_ENCRYPTION_ENABLED(sbi)) &&
-           (S_ISREG(mode) || S_ISDIR(mode) || S_ISLNK(mode)) &&
-           !(i_flags & EXT4_EA_INODE_FL)) {
-               err = fscrypt_get_encryption_info(dir);
-               if (err)
-                       return ERR_PTR(err);
-               if (!fscrypt_has_encryption_key(dir))
-                       return ERR_PTR(-ENOKEY);
-               encrypt = 1;
-       }
-
-       if (!handle && sbi->s_journal && !(i_flags & EXT4_EA_INODE_FL)) {
-#ifdef CONFIG_EXT4_FS_POSIX_ACL
-               struct posix_acl *p = get_acl(dir, ACL_TYPE_DEFAULT);
-
-               if (IS_ERR(p))
-                       return ERR_CAST(p);
-               if (p) {
-                       int acl_size = p->a_count * sizeof(ext4_acl_entry);
-
-                       nblocks += (S_ISDIR(mode) ? 2 : 1) *
-                               __ext4_xattr_set_credits(sb, NULL /* inode */,
-                                       NULL /* block_bh */, acl_size,
-                                       true /* is_create */);
-                       posix_acl_release(p);
-               }
-#endif
-
-#ifdef CONFIG_SECURITY
-               {
-                       int num_security_xattrs = 1;
-
-#ifdef CONFIG_INTEGRITY
-                       num_security_xattrs++;
-#endif
-                       /*
-                        * We assume that security xattrs are never
-                        * more than 1k.  In practice they are under
-                        * 128 bytes.
-                        */
-                       nblocks += num_security_xattrs *
-                               __ext4_xattr_set_credits(sb, NULL /* inode */,
-                                       NULL /* block_bh */, 1024,
-                                       true /* is_create */);
-               }
-#endif
-               if (encrypt)
-                       nblocks += __ext4_xattr_set_credits(sb,
-                                       NULL /* inode */, NULL /* block_bh */,
-                                       FSCRYPT_SET_CONTEXT_MAX_SIZE,
-                                       true /* is_create */);
-       }
-
        ngroups = ext4_get_groups_count(sb);
        trace_ext4_request_inode(dir, mode);
        inode = new_inode(sb);
@@ -866,10 +860,25 @@ struct inode *__ext4_new_inode(handle_t *handle, struct inode *dir,
        else
                ei->i_projid = make_kprojid(&init_user_ns, EXT4_DEF_PROJID);
 
+       if (!(i_flags & EXT4_EA_INODE_FL)) {
+               err = fscrypt_prepare_new_inode(dir, inode, &encrypt);
+               if (err)
+                       goto out;
+       }
+
        err = dquot_initialize(inode);
        if (err)
                goto out;
 
+       if (!handle && sbi->s_journal && !(i_flags & EXT4_EA_INODE_FL)) {
+               ret2 = ext4_xattr_credits_for_new_inode(dir, mode, encrypt);
+               if (ret2 < 0) {
+                       err = ret2;
+                       goto out;
+               }
+               nblocks += ret2;
+       }
+
        if (!goal)
                goal = sbi->s_inode_goal;
 
@@ -1162,7 +1171,7 @@ got:
         * prevent its deduplication.
         */
        if (encrypt) {
-               err = fscrypt_inherit_context(dir, inode, handle, true);
+               err = fscrypt_set_context(inode, handle);
                if (err)
                        goto fail_free_drop;
        }
index 153a9fb..0d74615 100644 (file)
@@ -663,8 +663,7 @@ static struct stats dx_show_leaf(struct inode *dir,
 
                                        /* Directory is encrypted */
                                        res = fscrypt_fname_alloc_buffer(
-                                               dir, len,
-                                               &fname_crypto_str);
+                                               len, &fname_crypto_str);
                                        if (res)
                                                printk(KERN_WARNING "Error "
                                                        "allocating crypto "
@@ -1016,8 +1015,8 @@ static int htree_dirblock_to_tree(struct file *dir_file,
                        brelse(bh);
                        return err;
                }
-               err = fscrypt_fname_alloc_buffer(dir, EXT4_NAME_LEN,
-                                                    &fname_crypto_str);
+               err = fscrypt_fname_alloc_buffer(EXT4_NAME_LEN,
+                                                &fname_crypto_str);
                if (err < 0) {
                        brelse(bh);
                        return err;
index ea425b4..8b27362 100644 (file)
@@ -1104,7 +1104,7 @@ static void ext4_put_super(struct super_block *sb)
                crypto_free_shash(sbi->s_chksum_driver);
        kfree(sbi->s_blockgroup_lock);
        fs_put_dax(sbi->s_daxdev);
-       fscrypt_free_dummy_context(&sbi->s_dummy_enc_ctx);
+       fscrypt_free_dummy_policy(&sbi->s_dummy_enc_policy);
 #ifdef CONFIG_UNICODE
        utf8_unload(sbi->s_encoding);
 #endif
@@ -1392,10 +1392,9 @@ retry:
        return res;
 }
 
-static const union fscrypt_context *
-ext4_get_dummy_context(struct super_block *sb)
+static const union fscrypt_policy *ext4_get_dummy_policy(struct super_block *sb)
 {
-       return EXT4_SB(sb)->s_dummy_enc_ctx.ctx;
+       return EXT4_SB(sb)->s_dummy_enc_policy.policy;
 }
 
 static bool ext4_has_stable_inodes(struct super_block *sb)
@@ -1414,7 +1413,7 @@ static const struct fscrypt_operations ext4_cryptops = {
        .key_prefix             = "ext4:",
        .get_context            = ext4_get_context,
        .set_context            = ext4_set_context,
-       .get_dummy_context      = ext4_get_dummy_context,
+       .get_dummy_policy       = ext4_get_dummy_policy,
        .empty_dir              = ext4_empty_dir,
        .max_namelen            = EXT4_NAME_LEN,
        .has_stable_inodes      = ext4_has_stable_inodes,
@@ -1888,12 +1887,13 @@ static int ext4_set_test_dummy_encryption(struct super_block *sb,
         * needed to allow it to be set or changed during remount.  We do allow
         * it to be specified during remount, but only if there is no change.
         */
-       if (is_remount && !sbi->s_dummy_enc_ctx.ctx) {
+       if (is_remount && !sbi->s_dummy_enc_policy.policy) {
                ext4_msg(sb, KERN_WARNING,
                         "Can't set test_dummy_encryption on remount");
                return -1;
        }
-       err = fscrypt_set_test_dummy_encryption(sb, arg, &sbi->s_dummy_enc_ctx);
+       err = fscrypt_set_test_dummy_encryption(sb, arg->from,
+                                               &sbi->s_dummy_enc_policy);
        if (err) {
                if (err == -EEXIST)
                        ext4_msg(sb, KERN_WARNING,
@@ -4935,7 +4935,7 @@ failed_mount:
        for (i = 0; i < EXT4_MAXQUOTAS; i++)
                kfree(get_qf_name(sb, sbi, i));
 #endif
-       fscrypt_free_dummy_context(&sbi->s_dummy_enc_ctx);
+       fscrypt_free_dummy_policy(&sbi->s_dummy_enc_policy);
        ext4_blkdev_remove(sbi);
        brelse(bh);
 out_fail:
index 069f498..53fbc4d 100644 (file)
@@ -111,7 +111,7 @@ static int __f2fs_setup_filename(const struct inode *dir,
 #ifdef CONFIG_FS_ENCRYPTION
        fname->crypto_buf = crypt_name->crypto_buf;
 #endif
-       if (crypt_name->is_ciphertext_name) {
+       if (crypt_name->is_nokey_name) {
                /* hash was decoded from the no-key name */
                fname->hash = cpu_to_le32(crypt_name->hash);
        } else {
@@ -537,7 +537,7 @@ struct page *f2fs_init_inode_metadata(struct inode *inode, struct inode *dir,
                        goto put_error;
 
                if (IS_ENCRYPTED(inode)) {
-                       err = fscrypt_inherit_context(dir, inode, page, false);
+                       err = fscrypt_set_context(inode, page);
                        if (err)
                                goto put_error;
                }
@@ -1032,7 +1032,7 @@ static int f2fs_readdir(struct file *file, struct dir_context *ctx)
                if (err)
                        goto out;
 
-               err = fscrypt_fname_alloc_buffer(inode, F2FS_NAME_LEN, &fstr);
+               err = fscrypt_fname_alloc_buffer(F2FS_NAME_LEN, &fstr);
                if (err < 0)
                        goto out;
        }
index d9e52a7..7c089ff 100644 (file)
@@ -138,7 +138,7 @@ struct f2fs_mount_info {
        int fsync_mode;                 /* fsync policy */
        int fs_mode;                    /* fs mode: LFS or ADAPTIVE */
        int bggc_mode;                  /* bggc mode: off, on or sync */
-       struct fscrypt_dummy_context dummy_enc_ctx; /* test dummy encryption */
+       struct fscrypt_dummy_policy dummy_enc_policy; /* test dummy encryption */
        block_t unusable_cap_perc;      /* percentage for cap */
        block_t unusable_cap;           /* Amount of space allowed to be
                                         * unusable when disabling checkpoint
@@ -1315,13 +1315,6 @@ enum fsync_mode {
 #define IS_IO_TRACED_PAGE(page) (0)
 #endif
 
-#ifdef CONFIG_FS_ENCRYPTION
-#define DUMMY_ENCRYPTION_ENABLED(sbi) \
-       (unlikely(F2FS_OPTION(sbi).dummy_enc_ctx.ctx != NULL))
-#else
-#define DUMMY_ENCRYPTION_ENABLED(sbi) (0)
-#endif
-
 /* For compression */
 enum compress_algorithm_type {
        COMPRESS_LZO,
@@ -4022,22 +4015,6 @@ static inline bool f2fs_lfs_mode(struct f2fs_sb_info *sbi)
        return F2FS_OPTION(sbi).fs_mode == FS_MODE_LFS;
 }
 
-static inline bool f2fs_may_encrypt(struct inode *dir, struct inode *inode)
-{
-#ifdef CONFIG_FS_ENCRYPTION
-       struct f2fs_sb_info *sbi = F2FS_I_SB(dir);
-       umode_t mode = inode->i_mode;
-
-       /*
-        * If the directory encrypted or dummy encryption enabled,
-        * then we should encrypt the inode.
-        */
-       if (IS_ENCRYPTED(dir) || DUMMY_ENCRYPTION_ENABLED(sbi))
-               return (S_ISREG(mode) || S_ISDIR(mode) || S_ISLNK(mode));
-#endif
-       return false;
-}
-
 static inline bool f2fs_may_compress(struct inode *inode)
 {
        if (IS_SWAPFILE(inode) || f2fs_is_pinned_file(inode) ||
index 84e4bbc..45f3245 100644 (file)
@@ -28,6 +28,7 @@ static struct inode *f2fs_new_inode(struct inode *dir, umode_t mode)
        nid_t ino;
        struct inode *inode;
        bool nid_free = false;
+       bool encrypt = false;
        int xattr_size = 0;
        int err;
 
@@ -69,13 +70,17 @@ static struct inode *f2fs_new_inode(struct inode *dir, umode_t mode)
                F2FS_I(inode)->i_projid = make_kprojid(&init_user_ns,
                                                        F2FS_DEF_PROJID);
 
+       err = fscrypt_prepare_new_inode(dir, inode, &encrypt);
+       if (err)
+               goto fail_drop;
+
        err = dquot_initialize(inode);
        if (err)
                goto fail_drop;
 
        set_inode_flag(inode, FI_NEW_INODE);
 
-       if (f2fs_may_encrypt(dir, inode))
+       if (encrypt)
                f2fs_set_encrypted_inode(inode);
 
        if (f2fs_sb_has_extra_attr(sbi)) {
index dfa072f..bef2be3 100644 (file)
@@ -433,12 +433,12 @@ static int f2fs_set_test_dummy_encryption(struct super_block *sb,
         * needed to allow it to be set or changed during remount.  We do allow
         * it to be specified during remount, but only if there is no change.
         */
-       if (is_remount && !F2FS_OPTION(sbi).dummy_enc_ctx.ctx) {
+       if (is_remount && !F2FS_OPTION(sbi).dummy_enc_policy.policy) {
                f2fs_warn(sbi, "Can't set test_dummy_encryption on remount");
                return -EINVAL;
        }
        err = fscrypt_set_test_dummy_encryption(
-               sb, arg, &F2FS_OPTION(sbi).dummy_enc_ctx);
+               sb, arg->from, &F2FS_OPTION(sbi).dummy_enc_policy);
        if (err) {
                if (err == -EEXIST)
                        f2fs_warn(sbi,
@@ -1275,7 +1275,7 @@ static void f2fs_put_super(struct super_block *sb)
        for (i = 0; i < MAXQUOTAS; i++)
                kfree(F2FS_OPTION(sbi).s_qf_names[i]);
 #endif
-       fscrypt_free_dummy_context(&F2FS_OPTION(sbi).dummy_enc_ctx);
+       fscrypt_free_dummy_policy(&F2FS_OPTION(sbi).dummy_enc_policy);
        destroy_percpu_info(sbi);
        for (i = 0; i < NR_PAGE_TYPE; i++)
                kvfree(sbi->write_io[i]);
@@ -2482,10 +2482,9 @@ static int f2fs_set_context(struct inode *inode, const void *ctx, size_t len,
                                ctx, len, fs_data, XATTR_CREATE);
 }
 
-static const union fscrypt_context *
-f2fs_get_dummy_context(struct super_block *sb)
+static const union fscrypt_policy *f2fs_get_dummy_policy(struct super_block *sb)
 {
-       return F2FS_OPTION(F2FS_SB(sb)).dummy_enc_ctx.ctx;
+       return F2FS_OPTION(F2FS_SB(sb)).dummy_enc_policy.policy;
 }
 
 static bool f2fs_has_stable_inodes(struct super_block *sb)
@@ -2523,7 +2522,7 @@ static const struct fscrypt_operations f2fs_cryptops = {
        .key_prefix             = "f2fs:",
        .get_context            = f2fs_get_context,
        .set_context            = f2fs_set_context,
-       .get_dummy_context      = f2fs_get_dummy_context,
+       .get_dummy_policy       = f2fs_get_dummy_policy,
        .empty_dir              = f2fs_empty_dir,
        .max_namelen            = F2FS_NAME_LEN,
        .has_stable_inodes      = f2fs_has_stable_inodes,
@@ -3864,7 +3863,7 @@ free_options:
        for (i = 0; i < MAXQUOTAS; i++)
                kfree(F2FS_OPTION(sbi).s_qf_names[i]);
 #endif
-       fscrypt_free_dummy_context(&F2FS_OPTION(sbi).dummy_enc_ctx);
+       fscrypt_free_dummy_policy(&F2FS_OPTION(sbi).dummy_enc_policy);
        kvfree(options);
 free_sb_buf:
        kfree(raw_super);
index 10517ec..a7cd0f6 100644 (file)
@@ -82,9 +82,6 @@ int may_linkat(struct path *link);
 /*
  * namespace.c
  */
-extern void *copy_mount_options(const void __user *);
-extern char *copy_mount_string(const void __user *);
-
 extern struct vfsmount *lookup_mnt(const struct path *);
 extern int finish_automount(struct vfsmount *, struct path *);
 
index aae0ef2..f58b3d6 100644 (file)
@@ -2852,13 +2852,8 @@ static ssize_t __io_import_iovec(int rw, struct io_kiocb *req,
                return ret;
        }
 
-#ifdef CONFIG_COMPAT
-       if (req->ctx->compat)
-               return compat_import_iovec(rw, buf, sqe_len, UIO_FASTIOV,
-                                               iovec, iter);
-#endif
-
-       return import_iovec(rw, buf, sqe_len, UIO_FASTIOV, iovec, iter);
+       return __import_iovec(rw, buf, sqe_len, UIO_FASTIOV, iovec, iter,
+                             req->ctx->compat);
 }
 
 static ssize_t io_import_iovec(int rw, struct io_kiocb *req,
@@ -4200,8 +4195,9 @@ static int __io_recvmsg_copy_hdr(struct io_kiocb *req,
                                sr->len);
                iomsg->iov = NULL;
        } else {
-               ret = import_iovec(READ, uiov, iov_len, UIO_FASTIOV,
-                                       &iomsg->iov, &iomsg->msg.msg_iter);
+               ret = __import_iovec(READ, uiov, iov_len, UIO_FASTIOV,
+                                    &iomsg->iov, &iomsg->msg.msg_iter,
+                                    false);
                if (ret > 0)
                        ret = 0;
        }
@@ -4241,9 +4237,9 @@ static int __io_compat_recvmsg_copy_hdr(struct io_kiocb *req,
                sr->len = iomsg->iov[0].iov_len;
                iomsg->iov = NULL;
        } else {
-               ret = compat_import_iovec(READ, uiov, len, UIO_FASTIOV,
-                                               &iomsg->iov,
-                                               &iomsg->msg.msg_iter);
+               ret = __import_iovec(READ, (struct iovec __user *)uiov, len,
+                                  UIO_FASTIOV, &iomsg->iov,
+                                  &iomsg->msg.msg_iter, true);
                if (ret < 0)
                        return ret;
        }
index bae0e95..294e05a 100644 (file)
@@ -3072,10 +3072,10 @@ static void shrink_submounts(struct mount *mnt)
        }
 }
 
-void *copy_mount_options(const void __user * data)
+static void *copy_mount_options(const void __user * data)
 {
        char *copy;
-       unsigned size;
+       unsigned left, offset;
 
        if (!data)
                return NULL;
@@ -3084,20 +3084,31 @@ void *copy_mount_options(const void __user * data)
        if (!copy)
                return ERR_PTR(-ENOMEM);
 
-       size = PAGE_SIZE - offset_in_page(data);
+       left = copy_from_user(copy, data, PAGE_SIZE);
 
-       if (copy_from_user(copy, data, size)) {
+       /*
+        * Not all architectures have an exact copy_from_user(). Resort to
+        * byte at a time.
+        */
+       offset = PAGE_SIZE - left;
+       while (left) {
+               char c;
+               if (get_user(c, (const char __user *)data + offset))
+                       break;
+               copy[offset] = c;
+               left--;
+               offset++;
+       }
+
+       if (left == PAGE_SIZE) {
                kfree(copy);
                return ERR_PTR(-EFAULT);
        }
-       if (size != PAGE_SIZE) {
-               if (copy_from_user(copy + size, data + size, PAGE_SIZE - size))
-                       memset(copy + size, 0, PAGE_SIZE - size);
-       }
+
        return copy;
 }
 
-char *copy_mount_string(const void __user *data)
+static char *copy_mount_string(const void __user *data)
 {
        return data ? strndup_user(data, PATH_MAX) : NULL;
 }
index 5248129..222afba 100644 (file)
@@ -1039,6 +1039,65 @@ out_invalid_fh:
 }
 
 #if IS_ENABLED(CONFIG_NFS_V4)
+struct compat_nfs_string {
+       compat_uint_t len;
+       compat_uptr_t data;
+};
+
+static inline void compat_nfs_string(struct nfs_string *dst,
+                                    struct compat_nfs_string *src)
+{
+       dst->data = compat_ptr(src->data);
+       dst->len = src->len;
+}
+
+struct compat_nfs4_mount_data_v1 {
+       compat_int_t version;
+       compat_int_t flags;
+       compat_int_t rsize;
+       compat_int_t wsize;
+       compat_int_t timeo;
+       compat_int_t retrans;
+       compat_int_t acregmin;
+       compat_int_t acregmax;
+       compat_int_t acdirmin;
+       compat_int_t acdirmax;
+       struct compat_nfs_string client_addr;
+       struct compat_nfs_string mnt_path;
+       struct compat_nfs_string hostname;
+       compat_uint_t host_addrlen;
+       compat_uptr_t host_addr;
+       compat_int_t proto;
+       compat_int_t auth_flavourlen;
+       compat_uptr_t auth_flavours;
+};
+
+static void nfs4_compat_mount_data_conv(struct nfs4_mount_data *data)
+{
+       struct compat_nfs4_mount_data_v1 *compat =
+                       (struct compat_nfs4_mount_data_v1 *)data;
+
+       /* copy the fields backwards */
+       data->auth_flavours = compat_ptr(compat->auth_flavours);
+       data->auth_flavourlen = compat->auth_flavourlen;
+       data->proto = compat->proto;
+       data->host_addr = compat_ptr(compat->host_addr);
+       data->host_addrlen = compat->host_addrlen;
+       compat_nfs_string(&data->hostname, &compat->hostname);
+       compat_nfs_string(&data->mnt_path, &compat->mnt_path);
+       compat_nfs_string(&data->client_addr, &compat->client_addr);
+       data->acdirmax = compat->acdirmax;
+       data->acdirmin = compat->acdirmin;
+       data->acregmax = compat->acregmax;
+       data->acregmin = compat->acregmin;
+       data->retrans = compat->retrans;
+       data->timeo = compat->timeo;
+       data->wsize = compat->wsize;
+       data->rsize = compat->rsize;
+       data->flags = compat->flags;
+       data->version = compat->version;
+}
+
 /*
  * Validate NFSv4 mount options
  */
@@ -1049,89 +1108,83 @@ static int nfs4_parse_monolithic(struct fs_context *fc,
        struct sockaddr *sap = (struct sockaddr *)&ctx->nfs_server.address;
        char *c;
 
-       if (data == NULL)
-               goto out_no_data;
+       if (!data) {
+               if (is_remount_fc(fc))
+                       goto done;
+               return nfs_invalf(fc,
+                       "NFS4: mount program didn't pass any mount data");
+       }
 
        ctx->version = 4;
 
-       switch (data->version) {
-       case 1:
-               if (data->host_addrlen > sizeof(ctx->nfs_server.address))
-                       goto out_no_address;
-               if (data->host_addrlen == 0)
-                       goto out_no_address;
-               ctx->nfs_server.addrlen = data->host_addrlen;
-               if (copy_from_user(sap, data->host_addr, data->host_addrlen))
-                       return -EFAULT;
-               if (!nfs_verify_server_address(sap))
-                       goto out_no_address;
-               ctx->nfs_server.port = ntohs(((struct sockaddr_in *)sap)->sin_port);
-
-               if (data->auth_flavourlen) {
-                       rpc_authflavor_t pseudoflavor;
-                       if (data->auth_flavourlen > 1)
-                               goto out_inval_auth;
-                       if (copy_from_user(&pseudoflavor,
-                                          data->auth_flavours,
-                                          sizeof(pseudoflavor)))
-                               return -EFAULT;
-                       ctx->selected_flavor = pseudoflavor;
-               } else
-                       ctx->selected_flavor = RPC_AUTH_UNIX;
-
-               c = strndup_user(data->hostname.data, NFS4_MAXNAMLEN);
-               if (IS_ERR(c))
-                       return PTR_ERR(c);
-               ctx->nfs_server.hostname = c;
+       if (data->version != 1)
+               return generic_parse_monolithic(fc, data);
 
-               c = strndup_user(data->mnt_path.data, NFS4_MAXPATHLEN);
-               if (IS_ERR(c))
-                       return PTR_ERR(c);
-               ctx->nfs_server.export_path = c;
-               dfprintk(MOUNT, "NFS: MNTPATH: '%s'\n", c);
+       if (in_compat_syscall())
+               nfs4_compat_mount_data_conv(data);
 
-               c = strndup_user(data->client_addr.data, 16);
-               if (IS_ERR(c))
-                       return PTR_ERR(c);
-               ctx->client_address = c;
-
-               /*
-                * Translate to nfs_fs_context, which nfs_fill_super
-                * can deal with.
-                */
+       if (data->host_addrlen > sizeof(ctx->nfs_server.address))
+               goto out_no_address;
+       if (data->host_addrlen == 0)
+               goto out_no_address;
+       ctx->nfs_server.addrlen = data->host_addrlen;
+       if (copy_from_user(sap, data->host_addr, data->host_addrlen))
+               return -EFAULT;
+       if (!nfs_verify_server_address(sap))
+               goto out_no_address;
+       ctx->nfs_server.port = ntohs(((struct sockaddr_in *)sap)->sin_port);
 
-               ctx->flags      = data->flags & NFS4_MOUNT_FLAGMASK;
-               ctx->rsize      = data->rsize;
-               ctx->wsize      = data->wsize;
-               ctx->timeo      = data->timeo;
-               ctx->retrans    = data->retrans;
-               ctx->acregmin   = data->acregmin;
-               ctx->acregmax   = data->acregmax;
-               ctx->acdirmin   = data->acdirmin;
-               ctx->acdirmax   = data->acdirmax;
-               ctx->nfs_server.protocol = data->proto;
-               nfs_validate_transport_protocol(ctx);
-               if (ctx->nfs_server.protocol == XPRT_TRANSPORT_UDP)
-                       goto out_invalid_transport_udp;
+       if (data->auth_flavourlen) {
+               rpc_authflavor_t pseudoflavor;
 
-               break;
-       default:
-               goto generic;
+               if (data->auth_flavourlen > 1)
+                       goto out_inval_auth;
+               if (copy_from_user(&pseudoflavor, data->auth_flavours,
+                                  sizeof(pseudoflavor)))
+                       return -EFAULT;
+               ctx->selected_flavor = pseudoflavor;
+       } else {
+               ctx->selected_flavor = RPC_AUTH_UNIX;
        }
 
+       c = strndup_user(data->hostname.data, NFS4_MAXNAMLEN);
+       if (IS_ERR(c))
+               return PTR_ERR(c);
+       ctx->nfs_server.hostname = c;
+
+       c = strndup_user(data->mnt_path.data, NFS4_MAXPATHLEN);
+       if (IS_ERR(c))
+               return PTR_ERR(c);
+       ctx->nfs_server.export_path = c;
+       dfprintk(MOUNT, "NFS: MNTPATH: '%s'\n", c);
+
+       c = strndup_user(data->client_addr.data, 16);
+       if (IS_ERR(c))
+               return PTR_ERR(c);
+       ctx->client_address = c;
+
+       /*
+        * Translate to nfs_fs_context, which nfs_fill_super
+        * can deal with.
+        */
+
+       ctx->flags      = data->flags & NFS4_MOUNT_FLAGMASK;
+       ctx->rsize      = data->rsize;
+       ctx->wsize      = data->wsize;
+       ctx->timeo      = data->timeo;
+       ctx->retrans    = data->retrans;
+       ctx->acregmin   = data->acregmin;
+       ctx->acregmax   = data->acregmax;
+       ctx->acdirmin   = data->acdirmin;
+       ctx->acdirmax   = data->acdirmax;
+       ctx->nfs_server.protocol = data->proto;
+       nfs_validate_transport_protocol(ctx);
+       if (ctx->nfs_server.protocol == XPRT_TRANSPORT_UDP)
+               goto out_invalid_transport_udp;
+done:
        ctx->skip_reconfig_option_check = true;
        return 0;
 
-generic:
-       return generic_parse_monolithic(fc, data);
-
-out_no_data:
-       if (is_remount_fc(fc)) {
-               ctx->skip_reconfig_option_check = true;
-               return 0;
-       }
-       return nfs_invalf(fc, "NFS4: mount program didn't pass any mount data");
-
 out_inval_auth:
        return nfs_invalf(fc, "NFS4: Invalid number of RPC auth flavours %d",
                      data->auth_flavourlen);
index 117db82..0ac1976 100644 (file)
--- a/fs/pipe.c
+++ b/fs/pipe.c
@@ -894,19 +894,18 @@ int create_pipe_files(struct file **res, int flags)
 {
        struct inode *inode = get_pipe_inode();
        struct file *f;
+       int error;
 
        if (!inode)
                return -ENFILE;
 
        if (flags & O_NOTIFICATION_PIPE) {
-#ifdef CONFIG_WATCH_QUEUE
-               if (watch_queue_init(inode->i_pipe) < 0) {
+               error = watch_queue_init(inode->i_pipe);
+               if (error) {
+                       free_pipe_info(inode->i_pipe);
                        iput(inode);
-                       return -ENOMEM;
+                       return error;
                }
-#else
-               return -ENOPKG;
-#endif
        }
 
        f = alloc_file_pseudo(inode, pipe_mnt, "",
index f909243..9f1077d 100644 (file)
@@ -217,6 +217,9 @@ u64 stable_page_flags(struct page *page)
        u |= kpf_copy_bit(k, KPF_PRIVATE_2,     PG_private_2);
        u |= kpf_copy_bit(k, KPF_OWNER_PRIVATE, PG_owner_priv_1);
        u |= kpf_copy_bit(k, KPF_ARCH,          PG_arch_1);
+#ifdef CONFIG_64BIT
+       u |= kpf_copy_bit(k, KPF_ARCH_2,        PG_arch_2);
+#endif
 
        return u;
 };
index 5066b02..35172a9 100644 (file)
@@ -653,6 +653,10 @@ static void show_smap_vma_flags(struct seq_file *m, struct vm_area_struct *vma)
                [ilog2(VM_MERGEABLE)]   = "mg",
                [ilog2(VM_UFFD_MISSING)]= "um",
                [ilog2(VM_UFFD_WP)]     = "uw",
+#ifdef CONFIG_ARM64_MTE
+               [ilog2(VM_MTE)]         = "mt",
+               [ilog2(VM_MTE_ALLOWED)] = "",
+#endif
 #ifdef CONFIG_ARCH_HAS_PKEYS
                /* These come out via ProtectionKey: */
                [ilog2(VM_PKEY_BIT0)]   = "",
index d1ceb76..b59cd17 100644 (file)
@@ -70,8 +70,3 @@ config QFMT_V2
 config QUOTACTL
        bool
        default n
-
-config QUOTACTL_COMPAT
-       bool
-       depends on QUOTACTL && COMPAT_FOR_U64_ALIGNMENT
-       default y
index f2b49d0..9160639 100644 (file)
@@ -4,5 +4,4 @@ obj-$(CONFIG_QFMT_V1)           += quota_v1.o
 obj-$(CONFIG_QFMT_V2)          += quota_v2.o
 obj-$(CONFIG_QUOTA_TREE)       += quota_tree.o
 obj-$(CONFIG_QUOTACTL)         += quota.o kqid.o
-obj-$(CONFIG_QUOTACTL_COMPAT)  += compat.o
 obj-$(CONFIG_QUOTA_NETLINK_INTERFACE)  += netlink.o
diff --git a/fs/quota/compat.c b/fs/quota/compat.c
deleted file mode 100644 (file)
index c305728..0000000
+++ /dev/null
@@ -1,120 +0,0 @@
-// SPDX-License-Identifier: GPL-2.0
-
-#include <linux/syscalls.h>
-#include <linux/compat.h>
-#include <linux/quotaops.h>
-
-/*
- * This code works only for 32 bit quota tools over 64 bit OS (x86_64, ia64)
- * and is necessary due to alignment problems.
- */
-struct compat_if_dqblk {
-       compat_u64 dqb_bhardlimit;
-       compat_u64 dqb_bsoftlimit;
-       compat_u64 dqb_curspace;
-       compat_u64 dqb_ihardlimit;
-       compat_u64 dqb_isoftlimit;
-       compat_u64 dqb_curinodes;
-       compat_u64 dqb_btime;
-       compat_u64 dqb_itime;
-       compat_uint_t dqb_valid;
-};
-
-/* XFS structures */
-struct compat_fs_qfilestat {
-       compat_u64 dqb_bhardlimit;
-       compat_u64 qfs_nblks;
-       compat_uint_t qfs_nextents;
-};
-
-struct compat_fs_quota_stat {
-       __s8            qs_version;
-       __u16           qs_flags;
-       __s8            qs_pad;
-       struct compat_fs_qfilestat      qs_uquota;
-       struct compat_fs_qfilestat      qs_gquota;
-       compat_uint_t   qs_incoredqs;
-       compat_int_t    qs_btimelimit;
-       compat_int_t    qs_itimelimit;
-       compat_int_t    qs_rtbtimelimit;
-       __u16           qs_bwarnlimit;
-       __u16           qs_iwarnlimit;
-};
-
-COMPAT_SYSCALL_DEFINE4(quotactl32, unsigned int, cmd,
-                      const char __user *, special, qid_t, id,
-                      void __user *, addr)
-{
-       unsigned int cmds;
-       struct if_dqblk __user *dqblk;
-       struct compat_if_dqblk __user *compat_dqblk;
-       struct fs_quota_stat __user *fsqstat;
-       struct compat_fs_quota_stat __user *compat_fsqstat;
-       compat_uint_t data;
-       u16 xdata;
-       long ret;
-
-       cmds = cmd >> SUBCMDSHIFT;
-
-       switch (cmds) {
-       case Q_GETQUOTA:
-               dqblk = compat_alloc_user_space(sizeof(struct if_dqblk));
-               compat_dqblk = addr;
-               ret = kernel_quotactl(cmd, special, id, dqblk);
-               if (ret)
-                       break;
-               if (copy_in_user(compat_dqblk, dqblk, sizeof(*compat_dqblk)) ||
-                       get_user(data, &dqblk->dqb_valid) ||
-                       put_user(data, &compat_dqblk->dqb_valid))
-                       ret = -EFAULT;
-               break;
-       case Q_SETQUOTA:
-               dqblk = compat_alloc_user_space(sizeof(struct if_dqblk));
-               compat_dqblk = addr;
-               ret = -EFAULT;
-               if (copy_in_user(dqblk, compat_dqblk, sizeof(*compat_dqblk)) ||
-                       get_user(data, &compat_dqblk->dqb_valid) ||
-                       put_user(data, &dqblk->dqb_valid))
-                       break;
-               ret = kernel_quotactl(cmd, special, id, dqblk);
-               break;
-       case Q_XGETQSTAT:
-               fsqstat = compat_alloc_user_space(sizeof(struct fs_quota_stat));
-               compat_fsqstat = addr;
-               ret = kernel_quotactl(cmd, special, id, fsqstat);
-               if (ret)
-                       break;
-               ret = -EFAULT;
-               /* Copying qs_version, qs_flags, qs_pad */
-               if (copy_in_user(compat_fsqstat, fsqstat,
-                       offsetof(struct compat_fs_quota_stat, qs_uquota)))
-                       break;
-               /* Copying qs_uquota */
-               if (copy_in_user(&compat_fsqstat->qs_uquota,
-                       &fsqstat->qs_uquota,
-                       sizeof(compat_fsqstat->qs_uquota)) ||
-                       get_user(data, &fsqstat->qs_uquota.qfs_nextents) ||
-                       put_user(data, &compat_fsqstat->qs_uquota.qfs_nextents))
-                       break;
-               /* Copying qs_gquota */
-               if (copy_in_user(&compat_fsqstat->qs_gquota,
-                       &fsqstat->qs_gquota,
-                       sizeof(compat_fsqstat->qs_gquota)) ||
-                       get_user(data, &fsqstat->qs_gquota.qfs_nextents) ||
-                       put_user(data, &compat_fsqstat->qs_gquota.qfs_nextents))
-                       break;
-               /* Copying the rest */
-               if (copy_in_user(&compat_fsqstat->qs_incoredqs,
-                       &fsqstat->qs_incoredqs,
-                       sizeof(struct compat_fs_quota_stat) -
-                       offsetof(struct compat_fs_quota_stat, qs_incoredqs)) ||
-                       get_user(xdata, &fsqstat->qs_iwarnlimit) ||
-                       put_user(xdata, &compat_fsqstat->qs_iwarnlimit))
-                       break;
-               ret = 0;
-               break;
-       default:
-               ret = kernel_quotactl(cmd, special, id, addr);
-       }
-       return ret;
-}
diff --git a/fs/quota/compat.h b/fs/quota/compat.h
new file mode 100644 (file)
index 0000000..ef7d1e1
--- /dev/null
@@ -0,0 +1,34 @@
+// SPDX-License-Identifier: GPL-2.0
+#include <linux/compat.h>
+
+struct compat_if_dqblk {
+       compat_u64                      dqb_bhardlimit;
+       compat_u64                      dqb_bsoftlimit;
+       compat_u64                      dqb_curspace;
+       compat_u64                      dqb_ihardlimit;
+       compat_u64                      dqb_isoftlimit;
+       compat_u64                      dqb_curinodes;
+       compat_u64                      dqb_btime;
+       compat_u64                      dqb_itime;
+       compat_uint_t                   dqb_valid;
+};
+
+struct compat_fs_qfilestat {
+       compat_u64                      dqb_bhardlimit;
+       compat_u64                      qfs_nblks;
+       compat_uint_t                   qfs_nextents;
+};
+
+struct compat_fs_quota_stat {
+       __s8                            qs_version;
+       __u16                           qs_flags;
+       __s8                            qs_pad;
+       struct compat_fs_qfilestat      qs_uquota;
+       struct compat_fs_qfilestat      qs_gquota;
+       compat_uint_t                   qs_incoredqs;
+       compat_int_t                    qs_btimelimit;
+       compat_int_t                    qs_itimelimit;
+       compat_int_t                    qs_rtbtimelimit;
+       __u16                           qs_bwarnlimit;
+       __u16                           qs_iwarnlimit;
+};
index 47f9e15..6b37d58 100644 (file)
@@ -19,6 +19,7 @@
 #include <linux/types.h>
 #include <linux/writeback.h>
 #include <linux/nospec.h>
+#include "compat.h"
 
 static int check_quotactl_permission(struct super_block *sb, int type, int cmd,
                                     qid_t id)
@@ -211,8 +212,18 @@ static int quota_getquota(struct super_block *sb, int type, qid_t id,
        if (ret)
                return ret;
        copy_to_if_dqblk(&idq, &fdq);
-       if (copy_to_user(addr, &idq, sizeof(idq)))
-               return -EFAULT;
+
+       if (compat_need_64bit_alignment_fixup()) {
+               struct compat_if_dqblk __user *compat_dqblk = addr;
+
+               if (copy_to_user(compat_dqblk, &idq, sizeof(*compat_dqblk)))
+                       return -EFAULT;
+               if (put_user(idq.dqb_valid, &compat_dqblk->dqb_valid))
+                       return -EFAULT;
+       } else {
+               if (copy_to_user(addr, &idq, sizeof(idq)))
+                       return -EFAULT;
+       }
        return 0;
 }
 
@@ -277,8 +288,16 @@ static int quota_setquota(struct super_block *sb, int type, qid_t id,
        struct if_dqblk idq;
        struct kqid qid;
 
-       if (copy_from_user(&idq, addr, sizeof(idq)))
-               return -EFAULT;
+       if (compat_need_64bit_alignment_fixup()) {
+               struct compat_if_dqblk __user *compat_dqblk = addr;
+
+               if (copy_from_user(&idq, compat_dqblk, sizeof(*compat_dqblk)) ||
+                   get_user(idq.dqb_valid, &compat_dqblk->dqb_valid))
+                       return -EFAULT;
+       } else {
+               if (copy_from_user(&idq, addr, sizeof(idq)))
+                       return -EFAULT;
+       }
        if (!sb->s_qcop->set_dqblk)
                return -ENOSYS;
        qid = make_kqid(current_user_ns(), type, id);
@@ -382,6 +401,33 @@ static int quota_getstate(struct super_block *sb, int type,
        return 0;
 }
 
+static int compat_copy_fs_qfilestat(struct compat_fs_qfilestat __user *to,
+               struct fs_qfilestat *from)
+{
+       if (copy_to_user(to, from, sizeof(*to)) ||
+           put_user(from->qfs_nextents, &to->qfs_nextents))
+               return -EFAULT;
+       return 0;
+}
+
+static int compat_copy_fs_quota_stat(struct compat_fs_quota_stat __user *to,
+               struct fs_quota_stat *from)
+{
+       if (put_user(from->qs_version, &to->qs_version) ||
+           put_user(from->qs_flags, &to->qs_flags) ||
+           put_user(from->qs_pad, &to->qs_pad) ||
+           compat_copy_fs_qfilestat(&to->qs_uquota, &from->qs_uquota) ||
+           compat_copy_fs_qfilestat(&to->qs_gquota, &from->qs_gquota) ||
+           put_user(from->qs_incoredqs, &to->qs_incoredqs) ||
+           put_user(from->qs_btimelimit, &to->qs_btimelimit) ||
+           put_user(from->qs_itimelimit, &to->qs_itimelimit) ||
+           put_user(from->qs_rtbtimelimit, &to->qs_rtbtimelimit) ||
+           put_user(from->qs_bwarnlimit, &to->qs_bwarnlimit) ||
+           put_user(from->qs_iwarnlimit, &to->qs_iwarnlimit))
+               return -EFAULT;
+       return 0;
+}
+
 static int quota_getxstate(struct super_block *sb, int type, void __user *addr)
 {
        struct fs_quota_stat fqs;
@@ -390,9 +436,14 @@ static int quota_getxstate(struct super_block *sb, int type, void __user *addr)
        if (!sb->s_qcop->get_state)
                return -ENOSYS;
        ret = quota_getstate(sb, type, &fqs);
-       if (!ret && copy_to_user(addr, &fqs, sizeof(fqs)))
+       if (ret)
+               return ret;
+
+       if (compat_need_64bit_alignment_fixup())
+               return compat_copy_fs_quota_stat(addr, &fqs);
+       if (copy_to_user(addr, &fqs, sizeof(fqs)))
                return -EFAULT;
-       return ret;
+       return 0;
 }
 
 static int quota_getstatev(struct super_block *sb, int type,
@@ -816,8 +867,8 @@ static struct super_block *quotactl_block(const char __user *special, int cmd)
  * calls. Maybe we need to add the process quotas etc. in the future,
  * but we probably should use rlimits for that.
  */
-int kernel_quotactl(unsigned int cmd, const char __user *special,
-                   qid_t id, void __user *addr)
+SYSCALL_DEFINE4(quotactl, unsigned int, cmd, const char __user *, special,
+               qid_t, id, void __user *, addr)
 {
        uint cmds, type;
        struct super_block *sb = NULL;
@@ -871,9 +922,3 @@ out:
                path_put(pathp);
        return ret;
 }
-
-SYSCALL_DEFINE4(quotactl, unsigned int, cmd, const char __user *, special,
-               qid_t, id, void __user *, addr)
-{
-       return kernel_quotactl(cmd, special, id, addr);
-}
index d342818..19f5c4b 100644 (file)
@@ -760,185 +760,6 @@ static ssize_t do_loop_readv_writev(struct file *filp, struct iov_iter *iter,
        return ret;
 }
 
-/**
- * rw_copy_check_uvector() - Copy an array of &struct iovec from userspace
- *     into the kernel and check that it is valid.
- *
- * @type: One of %CHECK_IOVEC_ONLY, %READ, or %WRITE.
- * @uvector: Pointer to the userspace array.
- * @nr_segs: Number of elements in userspace array.
- * @fast_segs: Number of elements in @fast_pointer.
- * @fast_pointer: Pointer to (usually small on-stack) kernel array.
- * @ret_pointer: (output parameter) Pointer to a variable that will point to
- *     either @fast_pointer, a newly allocated kernel array, or NULL,
- *     depending on which array was used.
- *
- * This function copies an array of &struct iovec of @nr_segs from
- * userspace into the kernel and checks that each element is valid (e.g.
- * it does not point to a kernel address or cause overflow by being too
- * large, etc.).
- *
- * As an optimization, the caller may provide a pointer to a small
- * on-stack array in @fast_pointer, typically %UIO_FASTIOV elements long
- * (the size of this array, or 0 if unused, should be given in @fast_segs).
- *
- * @ret_pointer will always point to the array that was used, so the
- * caller must take care not to call kfree() on it e.g. in case the
- * @fast_pointer array was used and it was allocated on the stack.
- *
- * Return: The total number of bytes covered by the iovec array on success
- *   or a negative error code on error.
- */
-ssize_t rw_copy_check_uvector(int type, const struct iovec __user * uvector,
-                             unsigned long nr_segs, unsigned long fast_segs,
-                             struct iovec *fast_pointer,
-                             struct iovec **ret_pointer)
-{
-       unsigned long seg;
-       ssize_t ret;
-       struct iovec *iov = fast_pointer;
-
-       /*
-        * SuS says "The readv() function *may* fail if the iovcnt argument
-        * was less than or equal to 0, or greater than {IOV_MAX}.  Linux has
-        * traditionally returned zero for zero segments, so...
-        */
-       if (nr_segs == 0) {
-               ret = 0;
-               goto out;
-       }
-
-       /*
-        * First get the "struct iovec" from user memory and
-        * verify all the pointers
-        */
-       if (nr_segs > UIO_MAXIOV) {
-               ret = -EINVAL;
-               goto out;
-       }
-       if (nr_segs > fast_segs) {
-               iov = kmalloc_array(nr_segs, sizeof(struct iovec), GFP_KERNEL);
-               if (iov == NULL) {
-                       ret = -ENOMEM;
-                       goto out;
-               }
-       }
-       if (copy_from_user(iov, uvector, nr_segs*sizeof(*uvector))) {
-               ret = -EFAULT;
-               goto out;
-       }
-
-       /*
-        * According to the Single Unix Specification we should return EINVAL
-        * if an element length is < 0 when cast to ssize_t or if the
-        * total length would overflow the ssize_t return value of the
-        * system call.
-        *
-        * Linux caps all read/write calls to MAX_RW_COUNT, and avoids the
-        * overflow case.
-        */
-       ret = 0;
-       for (seg = 0; seg < nr_segs; seg++) {
-               void __user *buf = iov[seg].iov_base;
-               ssize_t len = (ssize_t)iov[seg].iov_len;
-
-               /* see if we we're about to use an invalid len or if
-                * it's about to overflow ssize_t */
-               if (len < 0) {
-                       ret = -EINVAL;
-                       goto out;
-               }
-               if (type >= 0
-                   && unlikely(!access_ok(buf, len))) {
-                       ret = -EFAULT;
-                       goto out;
-               }
-               if (len > MAX_RW_COUNT - ret) {
-                       len = MAX_RW_COUNT - ret;
-                       iov[seg].iov_len = len;
-               }
-               ret += len;
-       }
-out:
-       *ret_pointer = iov;
-       return ret;
-}
-
-#ifdef CONFIG_COMPAT
-ssize_t compat_rw_copy_check_uvector(int type,
-               const struct compat_iovec __user *uvector, unsigned long nr_segs,
-               unsigned long fast_segs, struct iovec *fast_pointer,
-               struct iovec **ret_pointer)
-{
-       compat_ssize_t tot_len;
-       struct iovec *iov = *ret_pointer = fast_pointer;
-       ssize_t ret = 0;
-       int seg;
-
-       /*
-        * SuS says "The readv() function *may* fail if the iovcnt argument
-        * was less than or equal to 0, or greater than {IOV_MAX}.  Linux has
-        * traditionally returned zero for zero segments, so...
-        */
-       if (nr_segs == 0)
-               goto out;
-
-       ret = -EINVAL;
-       if (nr_segs > UIO_MAXIOV)
-               goto out;
-       if (nr_segs > fast_segs) {
-               ret = -ENOMEM;
-               iov = kmalloc_array(nr_segs, sizeof(struct iovec), GFP_KERNEL);
-               if (iov == NULL)
-                       goto out;
-       }
-       *ret_pointer = iov;
-
-       ret = -EFAULT;
-       if (!access_ok(uvector, nr_segs*sizeof(*uvector)))
-               goto out;
-
-       /*
-        * Single unix specification:
-        * We should -EINVAL if an element length is not >= 0 and fitting an
-        * ssize_t.
-        *
-        * In Linux, the total length is limited to MAX_RW_COUNT, there is
-        * no overflow possibility.
-        */
-       tot_len = 0;
-       ret = -EINVAL;
-       for (seg = 0; seg < nr_segs; seg++) {
-               compat_uptr_t buf;
-               compat_ssize_t len;
-
-               if (__get_user(len, &uvector->iov_len) ||
-                  __get_user(buf, &uvector->iov_base)) {
-                       ret = -EFAULT;
-                       goto out;
-               }
-               if (len < 0)    /* size_t not fitting in compat_ssize_t .. */
-                       goto out;
-               if (type >= 0 &&
-                   !access_ok(compat_ptr(buf), len)) {
-                       ret = -EFAULT;
-                       goto out;
-               }
-               if (len > MAX_RW_COUNT - tot_len)
-                       len = MAX_RW_COUNT - tot_len;
-               tot_len += len;
-               iov->iov_base = compat_ptr(buf);
-               iov->iov_len = (compat_size_t) len;
-               uvector++;
-               iov++;
-       }
-       ret = tot_len;
-
-out:
-       return ret;
-}
-#endif
-
 static ssize_t do_iter_read(struct file *file, struct iov_iter *iter,
                loff_t *pos, rwf_t flags)
 {
@@ -1255,224 +1076,93 @@ SYSCALL_DEFINE6(pwritev2, unsigned long, fd, const struct iovec __user *, vec,
        return do_pwritev(fd, vec, vlen, pos, flags);
 }
 
+/*
+ * Various compat syscalls.  Note that they all pretend to take a native
+ * iovec - import_iovec will properly treat those as compat_iovecs based on
+ * in_compat_syscall().
+ */
 #ifdef CONFIG_COMPAT
-static size_t compat_readv(struct file *file,
-                          const struct compat_iovec __user *vec,
-                          unsigned long vlen, loff_t *pos, rwf_t flags)
-{
-       struct iovec iovstack[UIO_FASTIOV];
-       struct iovec *iov = iovstack;
-       struct iov_iter iter;
-       ssize_t ret;
-
-       ret = compat_import_iovec(READ, vec, vlen, UIO_FASTIOV, &iov, &iter);
-       if (ret >= 0) {
-               ret = do_iter_read(file, &iter, pos, flags);
-               kfree(iov);
-       }
-       if (ret > 0)
-               add_rchar(current, ret);
-       inc_syscr(current);
-       return ret;
-}
-
-static size_t do_compat_readv(compat_ulong_t fd,
-                                const struct compat_iovec __user *vec,
-                                compat_ulong_t vlen, rwf_t flags)
-{
-       struct fd f = fdget_pos(fd);
-       ssize_t ret;
-       loff_t pos;
-
-       if (!f.file)
-               return -EBADF;
-       pos = f.file->f_pos;
-       ret = compat_readv(f.file, vec, vlen, &pos, flags);
-       if (ret >= 0)
-               f.file->f_pos = pos;
-       fdput_pos(f);
-       return ret;
-
-}
-
-COMPAT_SYSCALL_DEFINE3(readv, compat_ulong_t, fd,
-               const struct compat_iovec __user *,vec,
-               compat_ulong_t, vlen)
-{
-       return do_compat_readv(fd, vec, vlen, 0);
-}
-
-static long do_compat_preadv64(unsigned long fd,
-                                 const struct compat_iovec __user *vec,
-                                 unsigned long vlen, loff_t pos, rwf_t flags)
-{
-       struct fd f;
-       ssize_t ret;
-
-       if (pos < 0)
-               return -EINVAL;
-       f = fdget(fd);
-       if (!f.file)
-               return -EBADF;
-       ret = -ESPIPE;
-       if (f.file->f_mode & FMODE_PREAD)
-               ret = compat_readv(f.file, vec, vlen, &pos, flags);
-       fdput(f);
-       return ret;
-}
-
 #ifdef __ARCH_WANT_COMPAT_SYS_PREADV64
 COMPAT_SYSCALL_DEFINE4(preadv64, unsigned long, fd,
-               const struct compat_iovec __user *,vec,
+               const struct iovec __user *, vec,
                unsigned long, vlen, loff_t, pos)
 {
-       return do_compat_preadv64(fd, vec, vlen, pos, 0);
+       return do_preadv(fd, vec, vlen, pos, 0);
 }
 #endif
 
 COMPAT_SYSCALL_DEFINE5(preadv, compat_ulong_t, fd,
-               const struct compat_iovec __user *,vec,
+               const struct iovec __user *, vec,
                compat_ulong_t, vlen, u32, pos_low, u32, pos_high)
 {
        loff_t pos = ((loff_t)pos_high << 32) | pos_low;
 
-       return do_compat_preadv64(fd, vec, vlen, pos, 0);
+       return do_preadv(fd, vec, vlen, pos, 0);
 }
 
 #ifdef __ARCH_WANT_COMPAT_SYS_PREADV64V2
 COMPAT_SYSCALL_DEFINE5(preadv64v2, unsigned long, fd,
-               const struct compat_iovec __user *,vec,
+               const struct iovec __user *, vec,
                unsigned long, vlen, loff_t, pos, rwf_t, flags)
 {
        if (pos == -1)
-               return do_compat_readv(fd, vec, vlen, flags);
-
-       return do_compat_preadv64(fd, vec, vlen, pos, flags);
+               return do_readv(fd, vec, vlen, flags);
+       return do_preadv(fd, vec, vlen, pos, flags);
 }
 #endif
 
 COMPAT_SYSCALL_DEFINE6(preadv2, compat_ulong_t, fd,
-               const struct compat_iovec __user *,vec,
+               const struct iovec __user *, vec,
                compat_ulong_t, vlen, u32, pos_low, u32, pos_high,
                rwf_t, flags)
 {
        loff_t pos = ((loff_t)pos_high << 32) | pos_low;
 
        if (pos == -1)
-               return do_compat_readv(fd, vec, vlen, flags);
-
-       return do_compat_preadv64(fd, vec, vlen, pos, flags);
-}
-
-static size_t compat_writev(struct file *file,
-                           const struct compat_iovec __user *vec,
-                           unsigned long vlen, loff_t *pos, rwf_t flags)
-{
-       struct iovec iovstack[UIO_FASTIOV];
-       struct iovec *iov = iovstack;
-       struct iov_iter iter;
-       ssize_t ret;
-
-       ret = compat_import_iovec(WRITE, vec, vlen, UIO_FASTIOV, &iov, &iter);
-       if (ret >= 0) {
-               file_start_write(file);
-               ret = do_iter_write(file, &iter, pos, flags);
-               file_end_write(file);
-               kfree(iov);
-       }
-       if (ret > 0)
-               add_wchar(current, ret);
-       inc_syscw(current);
-       return ret;
-}
-
-static size_t do_compat_writev(compat_ulong_t fd,
-                                 const struct compat_iovec __user* vec,
-                                 compat_ulong_t vlen, rwf_t flags)
-{
-       struct fd f = fdget_pos(fd);
-       ssize_t ret;
-       loff_t pos;
-
-       if (!f.file)
-               return -EBADF;
-       pos = f.file->f_pos;
-       ret = compat_writev(f.file, vec, vlen, &pos, flags);
-       if (ret >= 0)
-               f.file->f_pos = pos;
-       fdput_pos(f);
-       return ret;
-}
-
-COMPAT_SYSCALL_DEFINE3(writev, compat_ulong_t, fd,
-               const struct compat_iovec __user *, vec,
-               compat_ulong_t, vlen)
-{
-       return do_compat_writev(fd, vec, vlen, 0);
-}
-
-static long do_compat_pwritev64(unsigned long fd,
-                                  const struct compat_iovec __user *vec,
-                                  unsigned long vlen, loff_t pos, rwf_t flags)
-{
-       struct fd f;
-       ssize_t ret;
-
-       if (pos < 0)
-               return -EINVAL;
-       f = fdget(fd);
-       if (!f.file)
-               return -EBADF;
-       ret = -ESPIPE;
-       if (f.file->f_mode & FMODE_PWRITE)
-               ret = compat_writev(f.file, vec, vlen, &pos, flags);
-       fdput(f);
-       return ret;
+               return do_readv(fd, vec, vlen, flags);
+       return do_preadv(fd, vec, vlen, pos, flags);
 }
 
 #ifdef __ARCH_WANT_COMPAT_SYS_PWRITEV64
 COMPAT_SYSCALL_DEFINE4(pwritev64, unsigned long, fd,
-               const struct compat_iovec __user *,vec,
+               const struct iovec __user *, vec,
                unsigned long, vlen, loff_t, pos)
 {
-       return do_compat_pwritev64(fd, vec, vlen, pos, 0);
+       return do_pwritev(fd, vec, vlen, pos, 0);
 }
 #endif
 
 COMPAT_SYSCALL_DEFINE5(pwritev, compat_ulong_t, fd,
-               const struct compat_iovec __user *,vec,
+               const struct iovec __user *,vec,
                compat_ulong_t, vlen, u32, pos_low, u32, pos_high)
 {
        loff_t pos = ((loff_t)pos_high << 32) | pos_low;
 
-       return do_compat_pwritev64(fd, vec, vlen, pos, 0);
+       return do_pwritev(fd, vec, vlen, pos, 0);
 }
 
 #ifdef __ARCH_WANT_COMPAT_SYS_PWRITEV64V2
 COMPAT_SYSCALL_DEFINE5(pwritev64v2, unsigned long, fd,
-               const struct compat_iovec __user *,vec,
+               const struct iovec __user *, vec,
                unsigned long, vlen, loff_t, pos, rwf_t, flags)
 {
        if (pos == -1)
-               return do_compat_writev(fd, vec, vlen, flags);
-
-       return do_compat_pwritev64(fd, vec, vlen, pos, flags);
+               return do_writev(fd, vec, vlen, flags);
+       return do_pwritev(fd, vec, vlen, pos, flags);
 }
 #endif
 
 COMPAT_SYSCALL_DEFINE6(pwritev2, compat_ulong_t, fd,
-               const struct compat_iovec __user *,vec,
+               const struct iovec __user *,vec,
                compat_ulong_t, vlen, u32, pos_low, u32, pos_high, rwf_t, flags)
 {
        loff_t pos = ((loff_t)pos_high << 32) | pos_low;
 
        if (pos == -1)
-               return do_compat_writev(fd, vec, vlen, flags);
-
-       return do_compat_pwritev64(fd, vec, vlen, pos, flags);
+               return do_writev(fd, vec, vlen, flags);
+       return do_pwritev(fd, vec, vlen, pos, flags);
 }
-
-#endif
+#endif /* CONFIG_COMPAT */
 
 static ssize_t do_sendfile(int out_fd, int in_fd, loff_t *ppos,
                           size_t count, loff_t max)
index c3d00df..70cc52a 100644 (file)
@@ -33,7 +33,6 @@
 #include <linux/security.h>
 #include <linux/gfp.h>
 #include <linux/socket.h>
-#include <linux/compat.h>
 #include <linux/sched/signal.h>
 
 #include "internal.h"
@@ -526,6 +525,22 @@ static int splice_from_pipe_feed(struct pipe_inode_info *pipe, struct splice_des
        return 1;
 }
 
+/* We know we have a pipe buffer, but maybe it's empty? */
+static inline bool eat_empty_buffer(struct pipe_inode_info *pipe)
+{
+       unsigned int tail = pipe->tail;
+       unsigned int mask = pipe->ring_size - 1;
+       struct pipe_buffer *buf = &pipe->bufs[tail & mask];
+
+       if (unlikely(!buf->len)) {
+               pipe_buf_release(pipe, buf);
+               pipe->tail = tail+1;
+               return true;
+       }
+
+       return false;
+}
+
 /**
  * splice_from_pipe_next - wait for some data to splice from
  * @pipe:      pipe to splice from
@@ -545,6 +560,7 @@ static int splice_from_pipe_next(struct pipe_inode_info *pipe, struct splice_des
        if (signal_pending(current))
                return -ERESTARTSYS;
 
+repeat:
        while (pipe_empty(pipe->head, pipe->tail)) {
                if (!pipe->writers)
                        return 0;
@@ -566,6 +582,9 @@ static int splice_from_pipe_next(struct pipe_inode_info *pipe, struct splice_des
                pipe_wait_readable(pipe);
        }
 
+       if (eat_empty_buffer(pipe))
+               goto repeat;
+
        return 1;
 }
 
@@ -1332,20 +1351,6 @@ static int vmsplice_type(struct fd f, int *type)
  * Currently we punt and implement it as a normal copy, see pipe_to_user().
  *
  */
-static long do_vmsplice(struct file *f, struct iov_iter *iter, unsigned int flags)
-{
-       if (unlikely(flags & ~SPLICE_F_ALL))
-               return -EINVAL;
-
-       if (!iov_iter_count(iter))
-               return 0;
-
-       if (iov_iter_rw(iter) == WRITE)
-               return vmsplice_to_pipe(f, iter, flags);
-       else
-               return vmsplice_to_user(f, iter, flags);
-}
-
 SYSCALL_DEFINE4(vmsplice, int, fd, const struct iovec __user *, uiov,
                unsigned long, nr_segs, unsigned int, flags)
 {
@@ -1356,6 +1361,9 @@ SYSCALL_DEFINE4(vmsplice, int, fd, const struct iovec __user *, uiov,
        struct fd f;
        int type;
 
+       if (unlikely(flags & ~SPLICE_F_ALL))
+               return -EINVAL;
+
        f = fdget(fd);
        error = vmsplice_type(f, &type);
        if (error)
@@ -1363,40 +1371,21 @@ SYSCALL_DEFINE4(vmsplice, int, fd, const struct iovec __user *, uiov,
 
        error = import_iovec(type, uiov, nr_segs,
                             ARRAY_SIZE(iovstack), &iov, &iter);
-       if (error >= 0) {
-               error = do_vmsplice(f.file, &iter, flags);
-               kfree(iov);
-       }
-       fdput(f);
-       return error;
-}
-
-#ifdef CONFIG_COMPAT
-COMPAT_SYSCALL_DEFINE4(vmsplice, int, fd, const struct compat_iovec __user *, iov32,
-                   unsigned int, nr_segs, unsigned int, flags)
-{
-       struct iovec iovstack[UIO_FASTIOV];
-       struct iovec *iov = iovstack;
-       struct iov_iter iter;
-       ssize_t error;
-       struct fd f;
-       int type;
+       if (error < 0)
+               goto out_fdput;
 
-       f = fdget(fd);
-       error = vmsplice_type(f, &type);
-       if (error)
-               return error;
+       if (!iov_iter_count(&iter))
+               error = 0;
+       else if (iov_iter_rw(&iter) == WRITE)
+               error = vmsplice_to_pipe(f.file, &iter, flags);
+       else
+               error = vmsplice_to_user(f.file, &iter, flags);
 
-       error = compat_import_iovec(type, iov32, nr_segs,
-                            ARRAY_SIZE(iovstack), &iov, &iter);
-       if (error >= 0) {
-               error = do_vmsplice(f.file, &iter, flags);
-               kfree(iov);
-       }
+       kfree(iov);
+out_fdput:
        fdput(f);
        return error;
 }
-#endif
 
 SYSCALL_DEFINE6(splice, int, fd_in, loff_t __user *, off_in,
                int, fd_out, loff_t __user *, off_out,
index 9d04294..155521e 100644 (file)
@@ -81,19 +81,6 @@ struct inode *ubifs_new_inode(struct ubifs_info *c, struct inode *dir,
        struct ubifs_inode *ui;
        bool encrypted = false;
 
-       if (IS_ENCRYPTED(dir)) {
-               err = fscrypt_get_encryption_info(dir);
-               if (err) {
-                       ubifs_err(c, "fscrypt_get_encryption_info failed: %i", err);
-                       return ERR_PTR(err);
-               }
-
-               if (!fscrypt_has_encryption_key(dir))
-                       return ERR_PTR(-EPERM);
-
-               encrypted = true;
-       }
-
        inode = new_inode(c->vfs_sb);
        ui = ubifs_inode(inode);
        if (!inode)
@@ -112,6 +99,12 @@ struct inode *ubifs_new_inode(struct ubifs_info *c, struct inode *dir,
                         current_time(inode);
        inode->i_mapping->nrpages = 0;
 
+       err = fscrypt_prepare_new_inode(dir, inode, &encrypted);
+       if (err) {
+               ubifs_err(c, "fscrypt_prepare_new_inode failed: %i", err);
+               goto out_iput;
+       }
+
        switch (mode & S_IFMT) {
        case S_IFREG:
                inode->i_mapping->a_ops = &ubifs_file_address_operations;
@@ -131,7 +124,6 @@ struct inode *ubifs_new_inode(struct ubifs_info *c, struct inode *dir,
        case S_IFBLK:
        case S_IFCHR:
                inode->i_op  = &ubifs_file_inode_operations;
-               encrypted = false;
                break;
        default:
                BUG();
@@ -151,9 +143,8 @@ struct inode *ubifs_new_inode(struct ubifs_info *c, struct inode *dir,
                if (c->highest_inum >= INUM_WATERMARK) {
                        spin_unlock(&c->cnt_lock);
                        ubifs_err(c, "out of inode numbers");
-                       make_bad_inode(inode);
-                       iput(inode);
-                       return ERR_PTR(-EINVAL);
+                       err = -EINVAL;
+                       goto out_iput;
                }
                ubifs_warn(c, "running out of inode numbers (current %lu, max %u)",
                           (unsigned long)c->highest_inum, INUM_WATERMARK);
@@ -171,16 +162,19 @@ struct inode *ubifs_new_inode(struct ubifs_info *c, struct inode *dir,
        spin_unlock(&c->cnt_lock);
 
        if (encrypted) {
-               err = fscrypt_inherit_context(dir, inode, &encrypted, true);
+               err = fscrypt_set_context(inode, NULL);
                if (err) {
-                       ubifs_err(c, "fscrypt_inherit_context failed: %i", err);
-                       make_bad_inode(inode);
-                       iput(inode);
-                       return ERR_PTR(err);
+                       ubifs_err(c, "fscrypt_set_context failed: %i", err);
+                       goto out_iput;
                }
        }
 
        return inode;
+
+out_iput:
+       make_bad_inode(inode);
+       iput(inode);
+       return ERR_PTR(err);
 }
 
 static int dbg_check_name(const struct ubifs_info *c,
@@ -515,7 +509,7 @@ static int ubifs_readdir(struct file *file, struct dir_context *ctx)
                if (err)
                        return err;
 
-               err = fscrypt_fname_alloc_buffer(dir, UBIFS_MAX_NLEN, &fstr);
+               err = fscrypt_fname_alloc_buffer(UBIFS_MAX_NLEN, &fstr);
                if (err)
                        return err;
 
index 379986e..cd223b6 100644 (file)
@@ -60,7 +60,7 @@ atomic_set_release(atomic_t *v, int i)
 static __always_inline void
 atomic_add(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic_add(i, v);
 }
 #define atomic_add atomic_add
@@ -69,7 +69,7 @@ atomic_add(int i, atomic_t *v)
 static __always_inline int
 atomic_add_return(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_add_return(i, v);
 }
 #define atomic_add_return atomic_add_return
@@ -79,7 +79,7 @@ atomic_add_return(int i, atomic_t *v)
 static __always_inline int
 atomic_add_return_acquire(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_add_return_acquire(i, v);
 }
 #define atomic_add_return_acquire atomic_add_return_acquire
@@ -89,7 +89,7 @@ atomic_add_return_acquire(int i, atomic_t *v)
 static __always_inline int
 atomic_add_return_release(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_add_return_release(i, v);
 }
 #define atomic_add_return_release atomic_add_return_release
@@ -99,7 +99,7 @@ atomic_add_return_release(int i, atomic_t *v)
 static __always_inline int
 atomic_add_return_relaxed(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_add_return_relaxed(i, v);
 }
 #define atomic_add_return_relaxed atomic_add_return_relaxed
@@ -109,7 +109,7 @@ atomic_add_return_relaxed(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_add(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_add(i, v);
 }
 #define atomic_fetch_add atomic_fetch_add
@@ -119,7 +119,7 @@ atomic_fetch_add(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_add_acquire(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_add_acquire(i, v);
 }
 #define atomic_fetch_add_acquire atomic_fetch_add_acquire
@@ -129,7 +129,7 @@ atomic_fetch_add_acquire(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_add_release(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_add_release(i, v);
 }
 #define atomic_fetch_add_release atomic_fetch_add_release
@@ -139,7 +139,7 @@ atomic_fetch_add_release(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_add_relaxed(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_add_relaxed(i, v);
 }
 #define atomic_fetch_add_relaxed atomic_fetch_add_relaxed
@@ -148,7 +148,7 @@ atomic_fetch_add_relaxed(int i, atomic_t *v)
 static __always_inline void
 atomic_sub(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic_sub(i, v);
 }
 #define atomic_sub atomic_sub
@@ -157,7 +157,7 @@ atomic_sub(int i, atomic_t *v)
 static __always_inline int
 atomic_sub_return(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_sub_return(i, v);
 }
 #define atomic_sub_return atomic_sub_return
@@ -167,7 +167,7 @@ atomic_sub_return(int i, atomic_t *v)
 static __always_inline int
 atomic_sub_return_acquire(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_sub_return_acquire(i, v);
 }
 #define atomic_sub_return_acquire atomic_sub_return_acquire
@@ -177,7 +177,7 @@ atomic_sub_return_acquire(int i, atomic_t *v)
 static __always_inline int
 atomic_sub_return_release(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_sub_return_release(i, v);
 }
 #define atomic_sub_return_release atomic_sub_return_release
@@ -187,7 +187,7 @@ atomic_sub_return_release(int i, atomic_t *v)
 static __always_inline int
 atomic_sub_return_relaxed(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_sub_return_relaxed(i, v);
 }
 #define atomic_sub_return_relaxed atomic_sub_return_relaxed
@@ -197,7 +197,7 @@ atomic_sub_return_relaxed(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_sub(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_sub(i, v);
 }
 #define atomic_fetch_sub atomic_fetch_sub
@@ -207,7 +207,7 @@ atomic_fetch_sub(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_sub_acquire(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_sub_acquire(i, v);
 }
 #define atomic_fetch_sub_acquire atomic_fetch_sub_acquire
@@ -217,7 +217,7 @@ atomic_fetch_sub_acquire(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_sub_release(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_sub_release(i, v);
 }
 #define atomic_fetch_sub_release atomic_fetch_sub_release
@@ -227,7 +227,7 @@ atomic_fetch_sub_release(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_sub_relaxed(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_sub_relaxed(i, v);
 }
 #define atomic_fetch_sub_relaxed atomic_fetch_sub_relaxed
@@ -237,7 +237,7 @@ atomic_fetch_sub_relaxed(int i, atomic_t *v)
 static __always_inline void
 atomic_inc(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic_inc(v);
 }
 #define atomic_inc atomic_inc
@@ -247,7 +247,7 @@ atomic_inc(atomic_t *v)
 static __always_inline int
 atomic_inc_return(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_inc_return(v);
 }
 #define atomic_inc_return atomic_inc_return
@@ -257,7 +257,7 @@ atomic_inc_return(atomic_t *v)
 static __always_inline int
 atomic_inc_return_acquire(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_inc_return_acquire(v);
 }
 #define atomic_inc_return_acquire atomic_inc_return_acquire
@@ -267,7 +267,7 @@ atomic_inc_return_acquire(atomic_t *v)
 static __always_inline int
 atomic_inc_return_release(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_inc_return_release(v);
 }
 #define atomic_inc_return_release atomic_inc_return_release
@@ -277,7 +277,7 @@ atomic_inc_return_release(atomic_t *v)
 static __always_inline int
 atomic_inc_return_relaxed(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_inc_return_relaxed(v);
 }
 #define atomic_inc_return_relaxed atomic_inc_return_relaxed
@@ -287,7 +287,7 @@ atomic_inc_return_relaxed(atomic_t *v)
 static __always_inline int
 atomic_fetch_inc(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_inc(v);
 }
 #define atomic_fetch_inc atomic_fetch_inc
@@ -297,7 +297,7 @@ atomic_fetch_inc(atomic_t *v)
 static __always_inline int
 atomic_fetch_inc_acquire(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_inc_acquire(v);
 }
 #define atomic_fetch_inc_acquire atomic_fetch_inc_acquire
@@ -307,7 +307,7 @@ atomic_fetch_inc_acquire(atomic_t *v)
 static __always_inline int
 atomic_fetch_inc_release(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_inc_release(v);
 }
 #define atomic_fetch_inc_release atomic_fetch_inc_release
@@ -317,7 +317,7 @@ atomic_fetch_inc_release(atomic_t *v)
 static __always_inline int
 atomic_fetch_inc_relaxed(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_inc_relaxed(v);
 }
 #define atomic_fetch_inc_relaxed atomic_fetch_inc_relaxed
@@ -327,7 +327,7 @@ atomic_fetch_inc_relaxed(atomic_t *v)
 static __always_inline void
 atomic_dec(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic_dec(v);
 }
 #define atomic_dec atomic_dec
@@ -337,7 +337,7 @@ atomic_dec(atomic_t *v)
 static __always_inline int
 atomic_dec_return(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_dec_return(v);
 }
 #define atomic_dec_return atomic_dec_return
@@ -347,7 +347,7 @@ atomic_dec_return(atomic_t *v)
 static __always_inline int
 atomic_dec_return_acquire(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_dec_return_acquire(v);
 }
 #define atomic_dec_return_acquire atomic_dec_return_acquire
@@ -357,7 +357,7 @@ atomic_dec_return_acquire(atomic_t *v)
 static __always_inline int
 atomic_dec_return_release(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_dec_return_release(v);
 }
 #define atomic_dec_return_release atomic_dec_return_release
@@ -367,7 +367,7 @@ atomic_dec_return_release(atomic_t *v)
 static __always_inline int
 atomic_dec_return_relaxed(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_dec_return_relaxed(v);
 }
 #define atomic_dec_return_relaxed atomic_dec_return_relaxed
@@ -377,7 +377,7 @@ atomic_dec_return_relaxed(atomic_t *v)
 static __always_inline int
 atomic_fetch_dec(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_dec(v);
 }
 #define atomic_fetch_dec atomic_fetch_dec
@@ -387,7 +387,7 @@ atomic_fetch_dec(atomic_t *v)
 static __always_inline int
 atomic_fetch_dec_acquire(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_dec_acquire(v);
 }
 #define atomic_fetch_dec_acquire atomic_fetch_dec_acquire
@@ -397,7 +397,7 @@ atomic_fetch_dec_acquire(atomic_t *v)
 static __always_inline int
 atomic_fetch_dec_release(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_dec_release(v);
 }
 #define atomic_fetch_dec_release atomic_fetch_dec_release
@@ -407,7 +407,7 @@ atomic_fetch_dec_release(atomic_t *v)
 static __always_inline int
 atomic_fetch_dec_relaxed(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_dec_relaxed(v);
 }
 #define atomic_fetch_dec_relaxed atomic_fetch_dec_relaxed
@@ -416,7 +416,7 @@ atomic_fetch_dec_relaxed(atomic_t *v)
 static __always_inline void
 atomic_and(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic_and(i, v);
 }
 #define atomic_and atomic_and
@@ -425,7 +425,7 @@ atomic_and(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_and(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_and(i, v);
 }
 #define atomic_fetch_and atomic_fetch_and
@@ -435,7 +435,7 @@ atomic_fetch_and(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_and_acquire(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_and_acquire(i, v);
 }
 #define atomic_fetch_and_acquire atomic_fetch_and_acquire
@@ -445,7 +445,7 @@ atomic_fetch_and_acquire(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_and_release(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_and_release(i, v);
 }
 #define atomic_fetch_and_release atomic_fetch_and_release
@@ -455,7 +455,7 @@ atomic_fetch_and_release(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_and_relaxed(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_and_relaxed(i, v);
 }
 #define atomic_fetch_and_relaxed atomic_fetch_and_relaxed
@@ -465,7 +465,7 @@ atomic_fetch_and_relaxed(int i, atomic_t *v)
 static __always_inline void
 atomic_andnot(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic_andnot(i, v);
 }
 #define atomic_andnot atomic_andnot
@@ -475,7 +475,7 @@ atomic_andnot(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_andnot(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_andnot(i, v);
 }
 #define atomic_fetch_andnot atomic_fetch_andnot
@@ -485,7 +485,7 @@ atomic_fetch_andnot(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_andnot_acquire(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_andnot_acquire(i, v);
 }
 #define atomic_fetch_andnot_acquire atomic_fetch_andnot_acquire
@@ -495,7 +495,7 @@ atomic_fetch_andnot_acquire(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_andnot_release(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_andnot_release(i, v);
 }
 #define atomic_fetch_andnot_release atomic_fetch_andnot_release
@@ -505,7 +505,7 @@ atomic_fetch_andnot_release(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_andnot_relaxed(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_andnot_relaxed(i, v);
 }
 #define atomic_fetch_andnot_relaxed atomic_fetch_andnot_relaxed
@@ -514,7 +514,7 @@ atomic_fetch_andnot_relaxed(int i, atomic_t *v)
 static __always_inline void
 atomic_or(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic_or(i, v);
 }
 #define atomic_or atomic_or
@@ -523,7 +523,7 @@ atomic_or(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_or(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_or(i, v);
 }
 #define atomic_fetch_or atomic_fetch_or
@@ -533,7 +533,7 @@ atomic_fetch_or(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_or_acquire(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_or_acquire(i, v);
 }
 #define atomic_fetch_or_acquire atomic_fetch_or_acquire
@@ -543,7 +543,7 @@ atomic_fetch_or_acquire(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_or_release(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_or_release(i, v);
 }
 #define atomic_fetch_or_release atomic_fetch_or_release
@@ -553,7 +553,7 @@ atomic_fetch_or_release(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_or_relaxed(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_or_relaxed(i, v);
 }
 #define atomic_fetch_or_relaxed atomic_fetch_or_relaxed
@@ -562,7 +562,7 @@ atomic_fetch_or_relaxed(int i, atomic_t *v)
 static __always_inline void
 atomic_xor(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic_xor(i, v);
 }
 #define atomic_xor atomic_xor
@@ -571,7 +571,7 @@ atomic_xor(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_xor(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_xor(i, v);
 }
 #define atomic_fetch_xor atomic_fetch_xor
@@ -581,7 +581,7 @@ atomic_fetch_xor(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_xor_acquire(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_xor_acquire(i, v);
 }
 #define atomic_fetch_xor_acquire atomic_fetch_xor_acquire
@@ -591,7 +591,7 @@ atomic_fetch_xor_acquire(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_xor_release(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_xor_release(i, v);
 }
 #define atomic_fetch_xor_release atomic_fetch_xor_release
@@ -601,7 +601,7 @@ atomic_fetch_xor_release(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_xor_relaxed(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_xor_relaxed(i, v);
 }
 #define atomic_fetch_xor_relaxed atomic_fetch_xor_relaxed
@@ -611,7 +611,7 @@ atomic_fetch_xor_relaxed(int i, atomic_t *v)
 static __always_inline int
 atomic_xchg(atomic_t *v, int i)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_xchg(v, i);
 }
 #define atomic_xchg atomic_xchg
@@ -621,7 +621,7 @@ atomic_xchg(atomic_t *v, int i)
 static __always_inline int
 atomic_xchg_acquire(atomic_t *v, int i)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_xchg_acquire(v, i);
 }
 #define atomic_xchg_acquire atomic_xchg_acquire
@@ -631,7 +631,7 @@ atomic_xchg_acquire(atomic_t *v, int i)
 static __always_inline int
 atomic_xchg_release(atomic_t *v, int i)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_xchg_release(v, i);
 }
 #define atomic_xchg_release atomic_xchg_release
@@ -641,7 +641,7 @@ atomic_xchg_release(atomic_t *v, int i)
 static __always_inline int
 atomic_xchg_relaxed(atomic_t *v, int i)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_xchg_relaxed(v, i);
 }
 #define atomic_xchg_relaxed atomic_xchg_relaxed
@@ -651,7 +651,7 @@ atomic_xchg_relaxed(atomic_t *v, int i)
 static __always_inline int
 atomic_cmpxchg(atomic_t *v, int old, int new)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_cmpxchg(v, old, new);
 }
 #define atomic_cmpxchg atomic_cmpxchg
@@ -661,7 +661,7 @@ atomic_cmpxchg(atomic_t *v, int old, int new)
 static __always_inline int
 atomic_cmpxchg_acquire(atomic_t *v, int old, int new)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_cmpxchg_acquire(v, old, new);
 }
 #define atomic_cmpxchg_acquire atomic_cmpxchg_acquire
@@ -671,7 +671,7 @@ atomic_cmpxchg_acquire(atomic_t *v, int old, int new)
 static __always_inline int
 atomic_cmpxchg_release(atomic_t *v, int old, int new)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_cmpxchg_release(v, old, new);
 }
 #define atomic_cmpxchg_release atomic_cmpxchg_release
@@ -681,7 +681,7 @@ atomic_cmpxchg_release(atomic_t *v, int old, int new)
 static __always_inline int
 atomic_cmpxchg_relaxed(atomic_t *v, int old, int new)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_cmpxchg_relaxed(v, old, new);
 }
 #define atomic_cmpxchg_relaxed atomic_cmpxchg_relaxed
@@ -691,8 +691,8 @@ atomic_cmpxchg_relaxed(atomic_t *v, int old, int new)
 static __always_inline bool
 atomic_try_cmpxchg(atomic_t *v, int *old, int new)
 {
-       instrument_atomic_write(v, sizeof(*v));
-       instrument_atomic_write(old, sizeof(*old));
+       instrument_atomic_read_write(v, sizeof(*v));
+       instrument_atomic_read_write(old, sizeof(*old));
        return arch_atomic_try_cmpxchg(v, old, new);
 }
 #define atomic_try_cmpxchg atomic_try_cmpxchg
@@ -702,8 +702,8 @@ atomic_try_cmpxchg(atomic_t *v, int *old, int new)
 static __always_inline bool
 atomic_try_cmpxchg_acquire(atomic_t *v, int *old, int new)
 {
-       instrument_atomic_write(v, sizeof(*v));
-       instrument_atomic_write(old, sizeof(*old));
+       instrument_atomic_read_write(v, sizeof(*v));
+       instrument_atomic_read_write(old, sizeof(*old));
        return arch_atomic_try_cmpxchg_acquire(v, old, new);
 }
 #define atomic_try_cmpxchg_acquire atomic_try_cmpxchg_acquire
@@ -713,8 +713,8 @@ atomic_try_cmpxchg_acquire(atomic_t *v, int *old, int new)
 static __always_inline bool
 atomic_try_cmpxchg_release(atomic_t *v, int *old, int new)
 {
-       instrument_atomic_write(v, sizeof(*v));
-       instrument_atomic_write(old, sizeof(*old));
+       instrument_atomic_read_write(v, sizeof(*v));
+       instrument_atomic_read_write(old, sizeof(*old));
        return arch_atomic_try_cmpxchg_release(v, old, new);
 }
 #define atomic_try_cmpxchg_release atomic_try_cmpxchg_release
@@ -724,8 +724,8 @@ atomic_try_cmpxchg_release(atomic_t *v, int *old, int new)
 static __always_inline bool
 atomic_try_cmpxchg_relaxed(atomic_t *v, int *old, int new)
 {
-       instrument_atomic_write(v, sizeof(*v));
-       instrument_atomic_write(old, sizeof(*old));
+       instrument_atomic_read_write(v, sizeof(*v));
+       instrument_atomic_read_write(old, sizeof(*old));
        return arch_atomic_try_cmpxchg_relaxed(v, old, new);
 }
 #define atomic_try_cmpxchg_relaxed atomic_try_cmpxchg_relaxed
@@ -735,7 +735,7 @@ atomic_try_cmpxchg_relaxed(atomic_t *v, int *old, int new)
 static __always_inline bool
 atomic_sub_and_test(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_sub_and_test(i, v);
 }
 #define atomic_sub_and_test atomic_sub_and_test
@@ -745,7 +745,7 @@ atomic_sub_and_test(int i, atomic_t *v)
 static __always_inline bool
 atomic_dec_and_test(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_dec_and_test(v);
 }
 #define atomic_dec_and_test atomic_dec_and_test
@@ -755,7 +755,7 @@ atomic_dec_and_test(atomic_t *v)
 static __always_inline bool
 atomic_inc_and_test(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_inc_and_test(v);
 }
 #define atomic_inc_and_test atomic_inc_and_test
@@ -765,7 +765,7 @@ atomic_inc_and_test(atomic_t *v)
 static __always_inline bool
 atomic_add_negative(int i, atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_add_negative(i, v);
 }
 #define atomic_add_negative atomic_add_negative
@@ -775,7 +775,7 @@ atomic_add_negative(int i, atomic_t *v)
 static __always_inline int
 atomic_fetch_add_unless(atomic_t *v, int a, int u)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_fetch_add_unless(v, a, u);
 }
 #define atomic_fetch_add_unless atomic_fetch_add_unless
@@ -785,7 +785,7 @@ atomic_fetch_add_unless(atomic_t *v, int a, int u)
 static __always_inline bool
 atomic_add_unless(atomic_t *v, int a, int u)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_add_unless(v, a, u);
 }
 #define atomic_add_unless atomic_add_unless
@@ -795,7 +795,7 @@ atomic_add_unless(atomic_t *v, int a, int u)
 static __always_inline bool
 atomic_inc_not_zero(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_inc_not_zero(v);
 }
 #define atomic_inc_not_zero atomic_inc_not_zero
@@ -805,7 +805,7 @@ atomic_inc_not_zero(atomic_t *v)
 static __always_inline bool
 atomic_inc_unless_negative(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_inc_unless_negative(v);
 }
 #define atomic_inc_unless_negative atomic_inc_unless_negative
@@ -815,7 +815,7 @@ atomic_inc_unless_negative(atomic_t *v)
 static __always_inline bool
 atomic_dec_unless_positive(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_dec_unless_positive(v);
 }
 #define atomic_dec_unless_positive atomic_dec_unless_positive
@@ -825,7 +825,7 @@ atomic_dec_unless_positive(atomic_t *v)
 static __always_inline int
 atomic_dec_if_positive(atomic_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic_dec_if_positive(v);
 }
 #define atomic_dec_if_positive atomic_dec_if_positive
@@ -870,7 +870,7 @@ atomic64_set_release(atomic64_t *v, s64 i)
 static __always_inline void
 atomic64_add(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic64_add(i, v);
 }
 #define atomic64_add atomic64_add
@@ -879,7 +879,7 @@ atomic64_add(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_add_return(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_add_return(i, v);
 }
 #define atomic64_add_return atomic64_add_return
@@ -889,7 +889,7 @@ atomic64_add_return(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_add_return_acquire(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_add_return_acquire(i, v);
 }
 #define atomic64_add_return_acquire atomic64_add_return_acquire
@@ -899,7 +899,7 @@ atomic64_add_return_acquire(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_add_return_release(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_add_return_release(i, v);
 }
 #define atomic64_add_return_release atomic64_add_return_release
@@ -909,7 +909,7 @@ atomic64_add_return_release(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_add_return_relaxed(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_add_return_relaxed(i, v);
 }
 #define atomic64_add_return_relaxed atomic64_add_return_relaxed
@@ -919,7 +919,7 @@ atomic64_add_return_relaxed(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_add(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_add(i, v);
 }
 #define atomic64_fetch_add atomic64_fetch_add
@@ -929,7 +929,7 @@ atomic64_fetch_add(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_add_acquire(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_add_acquire(i, v);
 }
 #define atomic64_fetch_add_acquire atomic64_fetch_add_acquire
@@ -939,7 +939,7 @@ atomic64_fetch_add_acquire(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_add_release(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_add_release(i, v);
 }
 #define atomic64_fetch_add_release atomic64_fetch_add_release
@@ -949,7 +949,7 @@ atomic64_fetch_add_release(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_add_relaxed(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_add_relaxed(i, v);
 }
 #define atomic64_fetch_add_relaxed atomic64_fetch_add_relaxed
@@ -958,7 +958,7 @@ atomic64_fetch_add_relaxed(s64 i, atomic64_t *v)
 static __always_inline void
 atomic64_sub(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic64_sub(i, v);
 }
 #define atomic64_sub atomic64_sub
@@ -967,7 +967,7 @@ atomic64_sub(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_sub_return(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_sub_return(i, v);
 }
 #define atomic64_sub_return atomic64_sub_return
@@ -977,7 +977,7 @@ atomic64_sub_return(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_sub_return_acquire(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_sub_return_acquire(i, v);
 }
 #define atomic64_sub_return_acquire atomic64_sub_return_acquire
@@ -987,7 +987,7 @@ atomic64_sub_return_acquire(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_sub_return_release(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_sub_return_release(i, v);
 }
 #define atomic64_sub_return_release atomic64_sub_return_release
@@ -997,7 +997,7 @@ atomic64_sub_return_release(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_sub_return_relaxed(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_sub_return_relaxed(i, v);
 }
 #define atomic64_sub_return_relaxed atomic64_sub_return_relaxed
@@ -1007,7 +1007,7 @@ atomic64_sub_return_relaxed(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_sub(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_sub(i, v);
 }
 #define atomic64_fetch_sub atomic64_fetch_sub
@@ -1017,7 +1017,7 @@ atomic64_fetch_sub(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_sub_acquire(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_sub_acquire(i, v);
 }
 #define atomic64_fetch_sub_acquire atomic64_fetch_sub_acquire
@@ -1027,7 +1027,7 @@ atomic64_fetch_sub_acquire(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_sub_release(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_sub_release(i, v);
 }
 #define atomic64_fetch_sub_release atomic64_fetch_sub_release
@@ -1037,7 +1037,7 @@ atomic64_fetch_sub_release(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_sub_relaxed(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_sub_relaxed(i, v);
 }
 #define atomic64_fetch_sub_relaxed atomic64_fetch_sub_relaxed
@@ -1047,7 +1047,7 @@ atomic64_fetch_sub_relaxed(s64 i, atomic64_t *v)
 static __always_inline void
 atomic64_inc(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic64_inc(v);
 }
 #define atomic64_inc atomic64_inc
@@ -1057,7 +1057,7 @@ atomic64_inc(atomic64_t *v)
 static __always_inline s64
 atomic64_inc_return(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_inc_return(v);
 }
 #define atomic64_inc_return atomic64_inc_return
@@ -1067,7 +1067,7 @@ atomic64_inc_return(atomic64_t *v)
 static __always_inline s64
 atomic64_inc_return_acquire(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_inc_return_acquire(v);
 }
 #define atomic64_inc_return_acquire atomic64_inc_return_acquire
@@ -1077,7 +1077,7 @@ atomic64_inc_return_acquire(atomic64_t *v)
 static __always_inline s64
 atomic64_inc_return_release(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_inc_return_release(v);
 }
 #define atomic64_inc_return_release atomic64_inc_return_release
@@ -1087,7 +1087,7 @@ atomic64_inc_return_release(atomic64_t *v)
 static __always_inline s64
 atomic64_inc_return_relaxed(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_inc_return_relaxed(v);
 }
 #define atomic64_inc_return_relaxed atomic64_inc_return_relaxed
@@ -1097,7 +1097,7 @@ atomic64_inc_return_relaxed(atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_inc(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_inc(v);
 }
 #define atomic64_fetch_inc atomic64_fetch_inc
@@ -1107,7 +1107,7 @@ atomic64_fetch_inc(atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_inc_acquire(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_inc_acquire(v);
 }
 #define atomic64_fetch_inc_acquire atomic64_fetch_inc_acquire
@@ -1117,7 +1117,7 @@ atomic64_fetch_inc_acquire(atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_inc_release(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_inc_release(v);
 }
 #define atomic64_fetch_inc_release atomic64_fetch_inc_release
@@ -1127,7 +1127,7 @@ atomic64_fetch_inc_release(atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_inc_relaxed(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_inc_relaxed(v);
 }
 #define atomic64_fetch_inc_relaxed atomic64_fetch_inc_relaxed
@@ -1137,7 +1137,7 @@ atomic64_fetch_inc_relaxed(atomic64_t *v)
 static __always_inline void
 atomic64_dec(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic64_dec(v);
 }
 #define atomic64_dec atomic64_dec
@@ -1147,7 +1147,7 @@ atomic64_dec(atomic64_t *v)
 static __always_inline s64
 atomic64_dec_return(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_dec_return(v);
 }
 #define atomic64_dec_return atomic64_dec_return
@@ -1157,7 +1157,7 @@ atomic64_dec_return(atomic64_t *v)
 static __always_inline s64
 atomic64_dec_return_acquire(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_dec_return_acquire(v);
 }
 #define atomic64_dec_return_acquire atomic64_dec_return_acquire
@@ -1167,7 +1167,7 @@ atomic64_dec_return_acquire(atomic64_t *v)
 static __always_inline s64
 atomic64_dec_return_release(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_dec_return_release(v);
 }
 #define atomic64_dec_return_release atomic64_dec_return_release
@@ -1177,7 +1177,7 @@ atomic64_dec_return_release(atomic64_t *v)
 static __always_inline s64
 atomic64_dec_return_relaxed(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_dec_return_relaxed(v);
 }
 #define atomic64_dec_return_relaxed atomic64_dec_return_relaxed
@@ -1187,7 +1187,7 @@ atomic64_dec_return_relaxed(atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_dec(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_dec(v);
 }
 #define atomic64_fetch_dec atomic64_fetch_dec
@@ -1197,7 +1197,7 @@ atomic64_fetch_dec(atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_dec_acquire(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_dec_acquire(v);
 }
 #define atomic64_fetch_dec_acquire atomic64_fetch_dec_acquire
@@ -1207,7 +1207,7 @@ atomic64_fetch_dec_acquire(atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_dec_release(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_dec_release(v);
 }
 #define atomic64_fetch_dec_release atomic64_fetch_dec_release
@@ -1217,7 +1217,7 @@ atomic64_fetch_dec_release(atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_dec_relaxed(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_dec_relaxed(v);
 }
 #define atomic64_fetch_dec_relaxed atomic64_fetch_dec_relaxed
@@ -1226,7 +1226,7 @@ atomic64_fetch_dec_relaxed(atomic64_t *v)
 static __always_inline void
 atomic64_and(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic64_and(i, v);
 }
 #define atomic64_and atomic64_and
@@ -1235,7 +1235,7 @@ atomic64_and(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_and(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_and(i, v);
 }
 #define atomic64_fetch_and atomic64_fetch_and
@@ -1245,7 +1245,7 @@ atomic64_fetch_and(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_and_acquire(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_and_acquire(i, v);
 }
 #define atomic64_fetch_and_acquire atomic64_fetch_and_acquire
@@ -1255,7 +1255,7 @@ atomic64_fetch_and_acquire(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_and_release(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_and_release(i, v);
 }
 #define atomic64_fetch_and_release atomic64_fetch_and_release
@@ -1265,7 +1265,7 @@ atomic64_fetch_and_release(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_and_relaxed(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_and_relaxed(i, v);
 }
 #define atomic64_fetch_and_relaxed atomic64_fetch_and_relaxed
@@ -1275,7 +1275,7 @@ atomic64_fetch_and_relaxed(s64 i, atomic64_t *v)
 static __always_inline void
 atomic64_andnot(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic64_andnot(i, v);
 }
 #define atomic64_andnot atomic64_andnot
@@ -1285,7 +1285,7 @@ atomic64_andnot(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_andnot(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_andnot(i, v);
 }
 #define atomic64_fetch_andnot atomic64_fetch_andnot
@@ -1295,7 +1295,7 @@ atomic64_fetch_andnot(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_andnot_acquire(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_andnot_acquire(i, v);
 }
 #define atomic64_fetch_andnot_acquire atomic64_fetch_andnot_acquire
@@ -1305,7 +1305,7 @@ atomic64_fetch_andnot_acquire(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_andnot_release(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_andnot_release(i, v);
 }
 #define atomic64_fetch_andnot_release atomic64_fetch_andnot_release
@@ -1315,7 +1315,7 @@ atomic64_fetch_andnot_release(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_andnot_relaxed(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_andnot_relaxed(i, v);
 }
 #define atomic64_fetch_andnot_relaxed atomic64_fetch_andnot_relaxed
@@ -1324,7 +1324,7 @@ atomic64_fetch_andnot_relaxed(s64 i, atomic64_t *v)
 static __always_inline void
 atomic64_or(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic64_or(i, v);
 }
 #define atomic64_or atomic64_or
@@ -1333,7 +1333,7 @@ atomic64_or(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_or(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_or(i, v);
 }
 #define atomic64_fetch_or atomic64_fetch_or
@@ -1343,7 +1343,7 @@ atomic64_fetch_or(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_or_acquire(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_or_acquire(i, v);
 }
 #define atomic64_fetch_or_acquire atomic64_fetch_or_acquire
@@ -1353,7 +1353,7 @@ atomic64_fetch_or_acquire(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_or_release(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_or_release(i, v);
 }
 #define atomic64_fetch_or_release atomic64_fetch_or_release
@@ -1363,7 +1363,7 @@ atomic64_fetch_or_release(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_or_relaxed(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_or_relaxed(i, v);
 }
 #define atomic64_fetch_or_relaxed atomic64_fetch_or_relaxed
@@ -1372,7 +1372,7 @@ atomic64_fetch_or_relaxed(s64 i, atomic64_t *v)
 static __always_inline void
 atomic64_xor(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        arch_atomic64_xor(i, v);
 }
 #define atomic64_xor atomic64_xor
@@ -1381,7 +1381,7 @@ atomic64_xor(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_xor(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_xor(i, v);
 }
 #define atomic64_fetch_xor atomic64_fetch_xor
@@ -1391,7 +1391,7 @@ atomic64_fetch_xor(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_xor_acquire(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_xor_acquire(i, v);
 }
 #define atomic64_fetch_xor_acquire atomic64_fetch_xor_acquire
@@ -1401,7 +1401,7 @@ atomic64_fetch_xor_acquire(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_xor_release(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_xor_release(i, v);
 }
 #define atomic64_fetch_xor_release atomic64_fetch_xor_release
@@ -1411,7 +1411,7 @@ atomic64_fetch_xor_release(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_xor_relaxed(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_xor_relaxed(i, v);
 }
 #define atomic64_fetch_xor_relaxed atomic64_fetch_xor_relaxed
@@ -1421,7 +1421,7 @@ atomic64_fetch_xor_relaxed(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_xchg(atomic64_t *v, s64 i)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_xchg(v, i);
 }
 #define atomic64_xchg atomic64_xchg
@@ -1431,7 +1431,7 @@ atomic64_xchg(atomic64_t *v, s64 i)
 static __always_inline s64
 atomic64_xchg_acquire(atomic64_t *v, s64 i)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_xchg_acquire(v, i);
 }
 #define atomic64_xchg_acquire atomic64_xchg_acquire
@@ -1441,7 +1441,7 @@ atomic64_xchg_acquire(atomic64_t *v, s64 i)
 static __always_inline s64
 atomic64_xchg_release(atomic64_t *v, s64 i)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_xchg_release(v, i);
 }
 #define atomic64_xchg_release atomic64_xchg_release
@@ -1451,7 +1451,7 @@ atomic64_xchg_release(atomic64_t *v, s64 i)
 static __always_inline s64
 atomic64_xchg_relaxed(atomic64_t *v, s64 i)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_xchg_relaxed(v, i);
 }
 #define atomic64_xchg_relaxed atomic64_xchg_relaxed
@@ -1461,7 +1461,7 @@ atomic64_xchg_relaxed(atomic64_t *v, s64 i)
 static __always_inline s64
 atomic64_cmpxchg(atomic64_t *v, s64 old, s64 new)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_cmpxchg(v, old, new);
 }
 #define atomic64_cmpxchg atomic64_cmpxchg
@@ -1471,7 +1471,7 @@ atomic64_cmpxchg(atomic64_t *v, s64 old, s64 new)
 static __always_inline s64
 atomic64_cmpxchg_acquire(atomic64_t *v, s64 old, s64 new)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_cmpxchg_acquire(v, old, new);
 }
 #define atomic64_cmpxchg_acquire atomic64_cmpxchg_acquire
@@ -1481,7 +1481,7 @@ atomic64_cmpxchg_acquire(atomic64_t *v, s64 old, s64 new)
 static __always_inline s64
 atomic64_cmpxchg_release(atomic64_t *v, s64 old, s64 new)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_cmpxchg_release(v, old, new);
 }
 #define atomic64_cmpxchg_release atomic64_cmpxchg_release
@@ -1491,7 +1491,7 @@ atomic64_cmpxchg_release(atomic64_t *v, s64 old, s64 new)
 static __always_inline s64
 atomic64_cmpxchg_relaxed(atomic64_t *v, s64 old, s64 new)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_cmpxchg_relaxed(v, old, new);
 }
 #define atomic64_cmpxchg_relaxed atomic64_cmpxchg_relaxed
@@ -1501,8 +1501,8 @@ atomic64_cmpxchg_relaxed(atomic64_t *v, s64 old, s64 new)
 static __always_inline bool
 atomic64_try_cmpxchg(atomic64_t *v, s64 *old, s64 new)
 {
-       instrument_atomic_write(v, sizeof(*v));
-       instrument_atomic_write(old, sizeof(*old));
+       instrument_atomic_read_write(v, sizeof(*v));
+       instrument_atomic_read_write(old, sizeof(*old));
        return arch_atomic64_try_cmpxchg(v, old, new);
 }
 #define atomic64_try_cmpxchg atomic64_try_cmpxchg
@@ -1512,8 +1512,8 @@ atomic64_try_cmpxchg(atomic64_t *v, s64 *old, s64 new)
 static __always_inline bool
 atomic64_try_cmpxchg_acquire(atomic64_t *v, s64 *old, s64 new)
 {
-       instrument_atomic_write(v, sizeof(*v));
-       instrument_atomic_write(old, sizeof(*old));
+       instrument_atomic_read_write(v, sizeof(*v));
+       instrument_atomic_read_write(old, sizeof(*old));
        return arch_atomic64_try_cmpxchg_acquire(v, old, new);
 }
 #define atomic64_try_cmpxchg_acquire atomic64_try_cmpxchg_acquire
@@ -1523,8 +1523,8 @@ atomic64_try_cmpxchg_acquire(atomic64_t *v, s64 *old, s64 new)
 static __always_inline bool
 atomic64_try_cmpxchg_release(atomic64_t *v, s64 *old, s64 new)
 {
-       instrument_atomic_write(v, sizeof(*v));
-       instrument_atomic_write(old, sizeof(*old));
+       instrument_atomic_read_write(v, sizeof(*v));
+       instrument_atomic_read_write(old, sizeof(*old));
        return arch_atomic64_try_cmpxchg_release(v, old, new);
 }
 #define atomic64_try_cmpxchg_release atomic64_try_cmpxchg_release
@@ -1534,8 +1534,8 @@ atomic64_try_cmpxchg_release(atomic64_t *v, s64 *old, s64 new)
 static __always_inline bool
 atomic64_try_cmpxchg_relaxed(atomic64_t *v, s64 *old, s64 new)
 {
-       instrument_atomic_write(v, sizeof(*v));
-       instrument_atomic_write(old, sizeof(*old));
+       instrument_atomic_read_write(v, sizeof(*v));
+       instrument_atomic_read_write(old, sizeof(*old));
        return arch_atomic64_try_cmpxchg_relaxed(v, old, new);
 }
 #define atomic64_try_cmpxchg_relaxed atomic64_try_cmpxchg_relaxed
@@ -1545,7 +1545,7 @@ atomic64_try_cmpxchg_relaxed(atomic64_t *v, s64 *old, s64 new)
 static __always_inline bool
 atomic64_sub_and_test(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_sub_and_test(i, v);
 }
 #define atomic64_sub_and_test atomic64_sub_and_test
@@ -1555,7 +1555,7 @@ atomic64_sub_and_test(s64 i, atomic64_t *v)
 static __always_inline bool
 atomic64_dec_and_test(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_dec_and_test(v);
 }
 #define atomic64_dec_and_test atomic64_dec_and_test
@@ -1565,7 +1565,7 @@ atomic64_dec_and_test(atomic64_t *v)
 static __always_inline bool
 atomic64_inc_and_test(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_inc_and_test(v);
 }
 #define atomic64_inc_and_test atomic64_inc_and_test
@@ -1575,7 +1575,7 @@ atomic64_inc_and_test(atomic64_t *v)
 static __always_inline bool
 atomic64_add_negative(s64 i, atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_add_negative(i, v);
 }
 #define atomic64_add_negative atomic64_add_negative
@@ -1585,7 +1585,7 @@ atomic64_add_negative(s64 i, atomic64_t *v)
 static __always_inline s64
 atomic64_fetch_add_unless(atomic64_t *v, s64 a, s64 u)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_fetch_add_unless(v, a, u);
 }
 #define atomic64_fetch_add_unless atomic64_fetch_add_unless
@@ -1595,7 +1595,7 @@ atomic64_fetch_add_unless(atomic64_t *v, s64 a, s64 u)
 static __always_inline bool
 atomic64_add_unless(atomic64_t *v, s64 a, s64 u)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_add_unless(v, a, u);
 }
 #define atomic64_add_unless atomic64_add_unless
@@ -1605,7 +1605,7 @@ atomic64_add_unless(atomic64_t *v, s64 a, s64 u)
 static __always_inline bool
 atomic64_inc_not_zero(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_inc_not_zero(v);
 }
 #define atomic64_inc_not_zero atomic64_inc_not_zero
@@ -1615,7 +1615,7 @@ atomic64_inc_not_zero(atomic64_t *v)
 static __always_inline bool
 atomic64_inc_unless_negative(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_inc_unless_negative(v);
 }
 #define atomic64_inc_unless_negative atomic64_inc_unless_negative
@@ -1625,7 +1625,7 @@ atomic64_inc_unless_negative(atomic64_t *v)
 static __always_inline bool
 atomic64_dec_unless_positive(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_dec_unless_positive(v);
 }
 #define atomic64_dec_unless_positive atomic64_dec_unless_positive
@@ -1635,7 +1635,7 @@ atomic64_dec_unless_positive(atomic64_t *v)
 static __always_inline s64
 atomic64_dec_if_positive(atomic64_t *v)
 {
-       instrument_atomic_write(v, sizeof(*v));
+       instrument_atomic_read_write(v, sizeof(*v));
        return arch_atomic64_dec_if_positive(v);
 }
 #define atomic64_dec_if_positive atomic64_dec_if_positive
@@ -1786,4 +1786,4 @@ atomic64_dec_if_positive(atomic64_t *v)
 })
 
 #endif /* _ASM_GENERIC_ATOMIC_INSTRUMENTED_H */
-// 89bf97f3a7509b740845e51ddf31055b48a81f40
+// 9d5e6a315fb1335d02f0ccd3655a91c3dafcc63e
index fb2cb33..81915dc 100644 (file)
@@ -67,7 +67,7 @@ static inline void change_bit(long nr, volatile unsigned long *addr)
  */
 static inline bool test_and_set_bit(long nr, volatile unsigned long *addr)
 {
-       instrument_atomic_write(addr + BIT_WORD(nr), sizeof(long));
+       instrument_atomic_read_write(addr + BIT_WORD(nr), sizeof(long));
        return arch_test_and_set_bit(nr, addr);
 }
 
@@ -80,7 +80,7 @@ static inline bool test_and_set_bit(long nr, volatile unsigned long *addr)
  */
 static inline bool test_and_clear_bit(long nr, volatile unsigned long *addr)
 {
-       instrument_atomic_write(addr + BIT_WORD(nr), sizeof(long));
+       instrument_atomic_read_write(addr + BIT_WORD(nr), sizeof(long));
        return arch_test_and_clear_bit(nr, addr);
 }
 
@@ -93,7 +93,7 @@ static inline bool test_and_clear_bit(long nr, volatile unsigned long *addr)
  */
 static inline bool test_and_change_bit(long nr, volatile unsigned long *addr)
 {
-       instrument_atomic_write(addr + BIT_WORD(nr), sizeof(long));
+       instrument_atomic_read_write(addr + BIT_WORD(nr), sizeof(long));
        return arch_test_and_change_bit(nr, addr);
 }
 
index b9bec46..75ef606 100644 (file)
@@ -52,7 +52,7 @@ static inline void __clear_bit_unlock(long nr, volatile unsigned long *addr)
  */
 static inline bool test_and_set_bit_lock(long nr, volatile unsigned long *addr)
 {
-       instrument_atomic_write(addr + BIT_WORD(nr), sizeof(long));
+       instrument_atomic_read_write(addr + BIT_WORD(nr), sizeof(long));
        return arch_test_and_set_bit_lock(nr, addr);
 }
 
index 20f788a..37363d5 100644 (file)
@@ -58,6 +58,30 @@ static inline void __change_bit(long nr, volatile unsigned long *addr)
        arch___change_bit(nr, addr);
 }
 
+static inline void __instrument_read_write_bitop(long nr, volatile unsigned long *addr)
+{
+       if (IS_ENABLED(CONFIG_KCSAN_ASSUME_PLAIN_WRITES_ATOMIC)) {
+               /*
+                * We treat non-atomic read-write bitops a little more special.
+                * Given the operations here only modify a single bit, assuming
+                * non-atomicity of the writer is sufficient may be reasonable
+                * for certain usage (and follows the permissible nature of the
+                * assume-plain-writes-atomic rule):
+                * 1. report read-modify-write races -> check read;
+                * 2. do not report races with marked readers, but do report
+                *    races with unmarked readers -> check "atomic" write.
+                */
+               kcsan_check_read(addr + BIT_WORD(nr), sizeof(long));
+               /*
+                * Use generic write instrumentation, in case other sanitizers
+                * or tools are enabled alongside KCSAN.
+                */
+               instrument_write(addr + BIT_WORD(nr), sizeof(long));
+       } else {
+               instrument_read_write(addr + BIT_WORD(nr), sizeof(long));
+       }
+}
+
 /**
  * __test_and_set_bit - Set a bit and return its old value
  * @nr: Bit to set
@@ -68,7 +92,7 @@ static inline void __change_bit(long nr, volatile unsigned long *addr)
  */
 static inline bool __test_and_set_bit(long nr, volatile unsigned long *addr)
 {
-       instrument_write(addr + BIT_WORD(nr), sizeof(long));
+       __instrument_read_write_bitop(nr, addr);
        return arch___test_and_set_bit(nr, addr);
 }
 
@@ -82,7 +106,7 @@ static inline bool __test_and_set_bit(long nr, volatile unsigned long *addr)
  */
 static inline bool __test_and_clear_bit(long nr, volatile unsigned long *addr)
 {
-       instrument_write(addr + BIT_WORD(nr), sizeof(long));
+       __instrument_read_write_bitop(nr, addr);
        return arch___test_and_clear_bit(nr, addr);
 }
 
@@ -96,7 +120,7 @@ static inline bool __test_and_clear_bit(long nr, volatile unsigned long *addr)
  */
 static inline bool __test_and_change_bit(long nr, volatile unsigned long *addr)
 {
-       instrument_write(addr + BIT_WORD(nr), sizeof(long));
+       __instrument_read_write_bitop(nr, addr);
        return arch___test_and_change_bit(nr, addr);
 }
 
index cd8b75a..43e18db 100644 (file)
  */
 extern __wsum csum_partial(const void *buff, int len, __wsum sum);
 
-/*
- * the same as csum_partial, but copies from src while it
- * checksums
- *
- * here even more important to align src and dst on a 32-bit (or even
- * better 64-bit) boundary
- */
-#ifndef csum_partial_copy_nocheck
-__wsum csum_partial_copy_nocheck(const void *src, void *dst, int len,
-               __wsum sum);
-#endif
-
 #ifndef ip_fast_csum
 /*
  * This is a version of ip_compute_csum() optimized for IP headers,
index a86f65b..30f7b18 100644 (file)
@@ -22,4 +22,12 @@ typedef u32 compat_ulong_t;
 typedef u32 compat_uptr_t;
 typedef u32 compat_aio_context_t;
 
+#ifdef CONFIG_COMPAT_FOR_U64_ALIGNMENT
+typedef s64 __attribute__((aligned(4))) compat_s64;
+typedef u64 __attribute__((aligned(4))) compat_u64;
+#else
+typedef s64 compat_s64;
+typedef u64 compat_u64;
+#endif
+
 #endif
index 5430feb..e184397 100644 (file)
@@ -34,6 +34,7 @@
  *
  *     STABS_DEBUG
  *     DWARF_DEBUG
+ *     ELF_DETAILS
  *
  *     DISCARDS                // must be the last
  * }
        KEEP(*(__jump_table))                                           \
        __stop___jump_table = .;
 
+#define STATIC_CALL_DATA                                               \
+       . = ALIGN(8);                                                   \
+       __start_static_call_sites = .;                                  \
+       KEEP(*(.static_call_sites))                                     \
+       __stop_static_call_sites = .;
+
 /*
  * Allow architectures to handle ro_after_init data on their
  * own by defining an empty RO_AFTER_INIT_DATA.
        __start_ro_after_init = .;                                      \
        *(.data..ro_after_init)                                         \
        JUMP_TABLE_DATA                                                 \
+       STATIC_CALL_DATA                                                \
        __end_ro_after_init = .;
 #endif
 
  */
 #define TEXT_TEXT                                                      \
                ALIGN_FUNCTION();                                       \
-               *(.text.hot TEXT_MAIN .text.fixup .text.unlikely)       \
+               *(.text.hot .text.hot.*)                                \
+               *(TEXT_MAIN .text.fixup)                                \
+               *(.text.unlikely .text.unlikely.*)                      \
+               *(.text.unknown .text.unknown.*)                        \
                NOINSTR_TEXT                                            \
                *(.text..refcount)                                      \
                *(.ref.text)                                            \
                *(.softirqentry.text)                                   \
                __softirqentry_text_end = .;
 
+#define STATIC_CALL_TEXT                                               \
+               ALIGN_FUNCTION();                                       \
+               __static_call_text_start = .;                           \
+               *(.static_call.text)                                    \
+               __static_call_text_end = .;
+
 /* Section used for early init (in .S files) */
 #define HEAD_TEXT  KEEP(*(.head.text))
 
 #define BTF                                                            \
        .BTF : AT(ADDR(.BTF) - LOAD_OFFSET) {                           \
                __start_BTF = .;                                        \
-               *(.BTF)                                                 \
+               KEEP(*(.BTF))                                           \
                __stop_BTF = .;                                         \
        }                                                               \
        . = ALIGN(4);                                                   \
                .debug_macro    0 : { *(.debug_macro) }                 \
                .debug_addr     0 : { *(.debug_addr) }
 
-               /* Stabs debugging sections.  */
+/* Stabs debugging sections. */
 #define STABS_DEBUG                                                    \
                .stab 0 : { *(.stab) }                                  \
                .stabstr 0 : { *(.stabstr) }                            \
                .stab.excl 0 : { *(.stab.excl) }                        \
                .stab.exclstr 0 : { *(.stab.exclstr) }                  \
                .stab.index 0 : { *(.stab.index) }                      \
-               .stab.indexstr 0 : { *(.stab.indexstr) }                \
-               .comment 0 : { *(.comment) }
+               .stab.indexstr 0 : { *(.stab.indexstr) }
+
+/* Required sections not related to debugging. */
+#define ELF_DETAILS                                                    \
+               .comment 0 : { *(.comment) }                            \
+               .symtab 0 : { *(.symtab) }                              \
+               .strtab 0 : { *(.strtab) }                              \
+               .shstrtab 0 : { *(.shstrtab) }
 
 #ifdef CONFIG_GENERIC_BUG
 #define BUG_TABLE                                                      \
        EXIT_DATA
 #endif
 
+/*
+ * Clang's -fsanitize=kernel-address and -fsanitize=thread produce
+ * unwanted sections (.eh_frame and .init_array.*), but
+ * CONFIG_CONSTRUCTORS wants to keep any .init_array.* sections.
+ * https://bugs.llvm.org/show_bug.cgi?id=46478
+ */
+#if defined(CONFIG_KASAN_GENERIC) || defined(CONFIG_KCSAN)
+# ifdef CONFIG_CONSTRUCTORS
+#  define SANITIZER_DISCARDS                                           \
+       *(.eh_frame)
+# else
+#  define SANITIZER_DISCARDS                                           \
+       *(.init_array) *(.init_array.*)                                 \
+       *(.eh_frame)
+# endif
+#else
+# define SANITIZER_DISCARDS
+#endif
+
+#define COMMON_DISCARDS                                                        \
+       SANITIZER_DISCARDS                                              \
+       *(.discard)                                                     \
+       *(.discard.*)                                                   \
+       *(.modinfo)                                                     \
+       /* ld.bfd warns about .gnu.version* even when not emitted */    \
+       *(.gnu.version*)                                                \
+
 #define DISCARDS                                                       \
        /DISCARD/ : {                                                   \
        EXIT_DISCARDS                                                   \
        EXIT_CALL                                                       \
-       *(.discard)                                                     \
-       *(.discard.*)                                                   \
-       *(.modinfo)                                                     \
+       COMMON_DISCARDS                                                 \
        }
 
 /**
diff --git a/include/clocksource/timer-sp804.h b/include/clocksource/timer-sp804.h
deleted file mode 100644 (file)
index a5b41f3..0000000
+++ /dev/null
@@ -1,29 +0,0 @@
-/* SPDX-License-Identifier: GPL-2.0 */
-#ifndef __CLKSOURCE_TIMER_SP804_H
-#define __CLKSOURCE_TIMER_SP804_H
-
-struct clk;
-
-int __sp804_clocksource_and_sched_clock_init(void __iomem *,
-                                            const char *, struct clk *, int);
-int __sp804_clockevents_init(void __iomem *, unsigned int,
-                            struct clk *, const char *);
-void sp804_timer_disable(void __iomem *);
-
-static inline void sp804_clocksource_init(void __iomem *base, const char *name)
-{
-       __sp804_clocksource_and_sched_clock_init(base, name, NULL, 0);
-}
-
-static inline void sp804_clocksource_and_sched_clock_init(void __iomem *base,
-                                                         const char *name)
-{
-       __sp804_clocksource_and_sched_clock_init(base, name, NULL, 1);
-}
-
-static inline void sp804_clockevents_init(void __iomem *base, unsigned int irq, const char *name)
-{
-       __sp804_clockevents_init(base, irq, NULL, name);
-
-}
-#endif
index 143d884..18dd7a4 100644 (file)
@@ -10,7 +10,6 @@
 #include <linux/crypto.h>
 #include <linux/list.h>
 #include <linux/kernel.h>
-#include <linux/skbuff.h>
 
 /*
  * Maximum values for blocksize and alignmask, used to allocate
@@ -27,6 +26,7 @@ struct crypto_instance;
 struct module;
 struct rtattr;
 struct seq_file;
+struct sk_buff;
 
 struct crypto_type {
        unsigned int (*ctxsize)(struct crypto_alg *alg, u32 type, u32 mask);
@@ -277,12 +277,6 @@ static inline int crypto_memneq(const void *a, const void *b, size_t size)
        return __crypto_memneq(a, b, size) != 0UL ? 1 : 0;
 }
 
-static inline void crypto_yield(u32 flags)
-{
-       if (flags & CRYPTO_TFM_REQ_MAY_SLEEP)
-               cond_resched();
-}
-
 int crypto_register_notifier(struct notifier_block *nb);
 int crypto_unregister_notifier(struct notifier_block *nb);
 
diff --git a/include/crypto/cbc.h b/include/crypto/cbc.h
deleted file mode 100644 (file)
index 2b6422d..0000000
+++ /dev/null
@@ -1,141 +0,0 @@
-/* SPDX-License-Identifier: GPL-2.0-or-later */
-/*
- * CBC: Cipher Block Chaining mode
- *
- * Copyright (c) 2016 Herbert Xu <herbert@gondor.apana.org.au>
- */
-
-#ifndef _CRYPTO_CBC_H
-#define _CRYPTO_CBC_H
-
-#include <crypto/internal/skcipher.h>
-#include <linux/string.h>
-#include <linux/types.h>
-
-static inline int crypto_cbc_encrypt_segment(
-       struct skcipher_walk *walk, struct crypto_skcipher *tfm,
-       void (*fn)(struct crypto_skcipher *, const u8 *, u8 *))
-{
-       unsigned int bsize = crypto_skcipher_blocksize(tfm);
-       unsigned int nbytes = walk->nbytes;
-       u8 *src = walk->src.virt.addr;
-       u8 *dst = walk->dst.virt.addr;
-       u8 *iv = walk->iv;
-
-       do {
-               crypto_xor(iv, src, bsize);
-               fn(tfm, iv, dst);
-               memcpy(iv, dst, bsize);
-
-               src += bsize;
-               dst += bsize;
-       } while ((nbytes -= bsize) >= bsize);
-
-       return nbytes;
-}
-
-static inline int crypto_cbc_encrypt_inplace(
-       struct skcipher_walk *walk, struct crypto_skcipher *tfm,
-       void (*fn)(struct crypto_skcipher *, const u8 *, u8 *))
-{
-       unsigned int bsize = crypto_skcipher_blocksize(tfm);
-       unsigned int nbytes = walk->nbytes;
-       u8 *src = walk->src.virt.addr;
-       u8 *iv = walk->iv;
-
-       do {
-               crypto_xor(src, iv, bsize);
-               fn(tfm, src, src);
-               iv = src;
-
-               src += bsize;
-       } while ((nbytes -= bsize) >= bsize);
-
-       memcpy(walk->iv, iv, bsize);
-
-       return nbytes;
-}
-
-static inline int crypto_cbc_encrypt_walk(struct skcipher_request *req,
-                                         void (*fn)(struct crypto_skcipher *,
-                                                    const u8 *, u8 *))
-{
-       struct crypto_skcipher *tfm = crypto_skcipher_reqtfm(req);
-       struct skcipher_walk walk;
-       int err;
-
-       err = skcipher_walk_virt(&walk, req, false);
-
-       while (walk.nbytes) {
-               if (walk.src.virt.addr == walk.dst.virt.addr)
-                       err = crypto_cbc_encrypt_inplace(&walk, tfm, fn);
-               else
-                       err = crypto_cbc_encrypt_segment(&walk, tfm, fn);
-               err = skcipher_walk_done(&walk, err);
-       }
-
-       return err;
-}
-
-static inline int crypto_cbc_decrypt_segment(
-       struct skcipher_walk *walk, struct crypto_skcipher *tfm,
-       void (*fn)(struct crypto_skcipher *, const u8 *, u8 *))
-{
-       unsigned int bsize = crypto_skcipher_blocksize(tfm);
-       unsigned int nbytes = walk->nbytes;
-       u8 *src = walk->src.virt.addr;
-       u8 *dst = walk->dst.virt.addr;
-       u8 *iv = walk->iv;
-
-       do {
-               fn(tfm, src, dst);
-               crypto_xor(dst, iv, bsize);
-               iv = src;
-
-               src += bsize;
-               dst += bsize;
-       } while ((nbytes -= bsize) >= bsize);
-
-       memcpy(walk->iv, iv, bsize);
-
-       return nbytes;
-}
-
-static inline int crypto_cbc_decrypt_inplace(
-       struct skcipher_walk *walk, struct crypto_skcipher *tfm,
-       void (*fn)(struct crypto_skcipher *, const u8 *, u8 *))
-{
-       unsigned int bsize = crypto_skcipher_blocksize(tfm);
-       unsigned int nbytes = walk->nbytes;
-       u8 *src = walk->src.virt.addr;
-       u8 last_iv[MAX_CIPHER_BLOCKSIZE];
-
-       /* Start of the last block. */
-       src += nbytes - (nbytes & (bsize - 1)) - bsize;
-       memcpy(last_iv, src, bsize);
-
-       for (;;) {
-               fn(tfm, src, src);
-               if ((nbytes -= bsize) < bsize)
-                       break;
-               crypto_xor(src, src - bsize, bsize);
-               src -= bsize;
-       }
-
-       crypto_xor(src, walk->iv, bsize);
-       memcpy(walk->iv, last_iv, bsize);
-
-       return nbytes;
-}
-
-static inline int crypto_cbc_decrypt_blocks(
-       struct skcipher_walk *walk, struct crypto_skcipher *tfm,
-       void (*fn)(struct crypto_skcipher *, const u8 *, u8 *))
-{
-       if (walk->src.virt.addr == walk->dst.virt.addr)
-               return crypto_cbc_decrypt_inplace(walk, tfm, fn);
-       else
-               return crypto_cbc_decrypt_segment(walk, tfm, fn);
-}
-
-#endif /* _CRYPTO_CBC_H */
index 0d1b403..af2ff31 100644 (file)
@@ -59,11 +59,6 @@ struct ahash_request {
        void *__ctx[] CRYPTO_MINALIGN_ATTR;
 };
 
-#define AHASH_REQUEST_ON_STACK(name, ahash) \
-       char __##name##_desc[sizeof(struct ahash_request) + \
-               crypto_ahash_reqsize(ahash)] CRYPTO_MINALIGN_ATTR; \
-       struct ahash_request *name = (void *)__##name##_desc
-
 /**
  * struct ahash_alg - asynchronous message digest definition
  * @init: **[mandatory]** Initialize the transformation context. Intended only to initialize the
@@ -123,6 +118,17 @@ struct ahash_request {
  *         data so the transformation can continue from this point onward. No
  *         data processing happens at this point. Driver must not use
  *         req->result.
+ * @init_tfm: Initialize the cryptographic transformation object.
+ *           This function is called only once at the instantiation
+ *           time, right after the transformation context was
+ *           allocated. In case the cryptographic hardware has
+ *           some special requirements which need to be handled
+ *           by software, this function shall check for the precise
+ *           requirement of the transformation and put any software
+ *           fallbacks in place.
+ * @exit_tfm: Deinitialize the cryptographic transformation object.
+ *           This is a counterpart to @init_tfm, used to remove
+ *           various changes set in @init_tfm.
  * @halg: see struct hash_alg_common
  */
 struct ahash_alg {
@@ -135,6 +141,8 @@ struct ahash_alg {
        int (*import)(struct ahash_request *req, const void *in);
        int (*setkey)(struct crypto_ahash *tfm, const u8 *key,
                      unsigned int keylen);
+       int (*init_tfm)(struct crypto_ahash *tfm);
+       void (*exit_tfm)(struct crypto_ahash *tfm);
 
        struct hash_alg_common halg;
 };
index ee64123..a5db866 100644 (file)
@@ -46,6 +46,7 @@ struct af_alg_type {
        void *(*bind)(const char *name, u32 type, u32 mask);
        void (*release)(void *private);
        int (*setkey)(void *private, const u8 *key, unsigned int keylen);
+       int (*setentropy)(void *private, sockptr_t entropy, unsigned int len);
        int (*accept)(void *private, struct sock *sk);
        int (*accept_nokey)(void *private, struct sock *sk);
        int (*setauthsize)(void *private, unsigned int authsize);
index 89f6f46..0a288dd 100644 (file)
@@ -62,25 +62,12 @@ struct crypto_shash_spawn {
 int crypto_hash_walk_done(struct crypto_hash_walk *walk, int err);
 int crypto_hash_walk_first(struct ahash_request *req,
                           struct crypto_hash_walk *walk);
-int crypto_ahash_walk_first(struct ahash_request *req,
-                          struct crypto_hash_walk *walk);
-
-static inline int crypto_ahash_walk_done(struct crypto_hash_walk *walk,
-                                        int err)
-{
-       return crypto_hash_walk_done(walk, err);
-}
 
 static inline int crypto_hash_walk_last(struct crypto_hash_walk *walk)
 {
        return !(walk->entrylen | walk->total);
 }
 
-static inline int crypto_ahash_walk_last(struct crypto_hash_walk *walk)
-{
-       return crypto_hash_walk_last(walk);
-}
-
 int crypto_register_ahash(struct ahash_alg *alg);
 void crypto_unregister_ahash(struct ahash_alg *alg);
 int crypto_register_ahashes(struct ahash_alg *algs, int count);
@@ -177,6 +164,12 @@ static inline struct ahash_instance *ahash_instance(
        return container_of(inst, struct ahash_instance, s.base);
 }
 
+static inline struct ahash_instance *ahash_alg_instance(
+       struct crypto_ahash *ahash)
+{
+       return ahash_instance(crypto_tfm_alg_instance(&ahash->base));
+}
+
 static inline void *ahash_instance_ctx(struct ahash_instance *inst)
 {
        return crypto_instance_ctx(ahash_crypto_instance(inst));
index 11f535c..948c520 100644 (file)
@@ -12,6 +12,7 @@
 
 #include <linux/keyctl.h>
 #include <linux/oid_registry.h>
+#include <crypto/akcipher.h>
 
 /*
  * Cryptographic data for the public-key subtype of the asymmetric key type.
@@ -44,6 +45,8 @@ struct public_key_signature {
        const char *pkey_algo;
        const char *hash_algo;
        const char *encoding;
+       const void *data;
+       unsigned int data_size;
 };
 
 extern void public_key_signature_free(struct public_key_signature *sig);
diff --git a/include/crypto/sm2.h b/include/crypto/sm2.h
new file mode 100644 (file)
index 0000000..af45255
--- /dev/null
@@ -0,0 +1,25 @@
+/* SPDX-License-Identifier: GPL-2.0-or-later */
+/*
+ * sm2.h - SM2 asymmetric public-key algorithm
+ * as specified by OSCCA GM/T 0003.1-2012 -- 0003.5-2012 SM2 and
+ * described at https://tools.ietf.org/html/draft-shen-sm2-ecdsa-02
+ *
+ * Copyright (c) 2020, Alibaba Group.
+ * Written by Tianjia Zhang <tianjia.zhang@linux.alibaba.com>
+ */
+
+#ifndef _CRYPTO_SM2_H
+#define _CRYPTO_SM2_H
+
+#include <crypto/sm3.h>
+#include <crypto/akcipher.h>
+
+/* The default user id as specified in GM/T 0009-2012 */
+#define SM2_DEFAULT_USERID "1234567812345678"
+#define SM2_DEFAULT_USERID_LEN 16
+
+extern int sm2_compute_z_digest(struct crypto_akcipher *tfm,
+                       const unsigned char *id, size_t id_len,
+                       unsigned char dgst[SM3_DIGEST_SIZE]);
+
+#endif /* _CRYPTO_SM2_H */
index 1438942..42ea212 100644 (file)
@@ -35,6 +35,8 @@ struct shash_desc;
 extern int crypto_sm3_update(struct shash_desc *desc, const u8 *data,
                              unsigned int len);
 
+extern int crypto_sm3_final(struct shash_desc *desc, u8 *out);
+
 extern int crypto_sm3_finup(struct shash_desc *desc, const u8 *data,
                             unsigned int len, u8 *hash);
 #endif
index 887954c..732f327 100644 (file)
@@ -588,7 +588,7 @@ struct drm_dsc_picture_parameter_set {
  * This structure represents the DSC PPS infoframe required to send the Picture
  * Parameter Set metadata required before enabling VESA Display Stream
  * Compression. This is based on the DP Secondary Data Packet structure and
- * comprises of SDP Header as defined &struct struct dp_sdp_header in drm_dp_helper.h
+ * comprises of SDP Header as defined &struct dp_sdp_header in drm_dp_helper.h
  * and PPS payload defined in &struct drm_dsc_picture_parameter_set.
  *
  * @pps_header: Header for PPS as per DP SDP header format of type
index 6db0304..dbf4f08 100644 (file)
@@ -27,6 +27,7 @@ struct kvm_pmu {
        bool ready;
        bool created;
        bool irq_level;
+       struct irq_work overflow_work;
 };
 
 #define kvm_arm_pmu_v3_ready(v)                ((v)->arch.pmu.ready)
diff --git a/include/linux/amba/clcd-regs.h b/include/linux/amba/clcd-regs.h
new file mode 100644 (file)
index 0000000..421b0fa
--- /dev/null
@@ -0,0 +1,87 @@
+/*
+ * David A Rusling
+ *
+ * Copyright (C) 2001 ARM Limited
+ *
+ * This file is subject to the terms and conditions of the GNU General Public
+ * License.  See the file COPYING in the main directory of this archive
+ * for more details.
+ */
+
+#ifndef AMBA_CLCD_REGS_H
+#define AMBA_CLCD_REGS_H
+
+/*
+ * CLCD Controller Internal Register addresses
+ */
+#define CLCD_TIM0              0x00000000
+#define CLCD_TIM1              0x00000004
+#define CLCD_TIM2              0x00000008
+#define CLCD_TIM3              0x0000000c
+#define CLCD_UBAS              0x00000010
+#define CLCD_LBAS              0x00000014
+
+#define CLCD_PL110_IENB                0x00000018
+#define CLCD_PL110_CNTL                0x0000001c
+#define CLCD_PL110_STAT                0x00000020
+#define CLCD_PL110_INTR        0x00000024
+#define CLCD_PL110_UCUR                0x00000028
+#define CLCD_PL110_LCUR                0x0000002C
+
+#define CLCD_PL111_CNTL                0x00000018
+#define CLCD_PL111_IENB                0x0000001c
+#define CLCD_PL111_RIS         0x00000020
+#define CLCD_PL111_MIS         0x00000024
+#define CLCD_PL111_ICR         0x00000028
+#define CLCD_PL111_UCUR                0x0000002c
+#define CLCD_PL111_LCUR                0x00000030
+
+#define CLCD_PALL              0x00000200
+#define CLCD_PALETTE           0x00000200
+
+#define TIM2_PCD_LO_MASK       GENMASK(4, 0)
+#define TIM2_PCD_LO_BITS       5
+#define TIM2_CLKSEL            (1 << 5)
+#define TIM2_ACB_MASK          GENMASK(10, 6)
+#define TIM2_IVS               (1 << 11)
+#define TIM2_IHS               (1 << 12)
+#define TIM2_IPC               (1 << 13)
+#define TIM2_IOE               (1 << 14)
+#define TIM2_BCD               (1 << 26)
+#define TIM2_PCD_HI_MASK       GENMASK(31, 27)
+#define TIM2_PCD_HI_BITS       5
+#define TIM2_PCD_HI_SHIFT      27
+
+#define CNTL_LCDEN             (1 << 0)
+#define CNTL_LCDBPP1           (0 << 1)
+#define CNTL_LCDBPP2           (1 << 1)
+#define CNTL_LCDBPP4           (2 << 1)
+#define CNTL_LCDBPP8           (3 << 1)
+#define CNTL_LCDBPP16          (4 << 1)
+#define CNTL_LCDBPP16_565      (6 << 1)
+#define CNTL_LCDBPP16_444      (7 << 1)
+#define CNTL_LCDBPP24          (5 << 1)
+#define CNTL_LCDBW             (1 << 4)
+#define CNTL_LCDTFT            (1 << 5)
+#define CNTL_LCDMONO8          (1 << 6)
+#define CNTL_LCDDUAL           (1 << 7)
+#define CNTL_BGR               (1 << 8)
+#define CNTL_BEBO              (1 << 9)
+#define CNTL_BEPO              (1 << 10)
+#define CNTL_LCDPWR            (1 << 11)
+#define CNTL_LCDVCOMP(x)       ((x) << 12)
+#define CNTL_LDMAFIFOTIME      (1 << 15)
+#define CNTL_WATERMARK         (1 << 16)
+
+/* ST Microelectronics variant bits */
+#define CNTL_ST_1XBPP_444      0x0
+#define CNTL_ST_1XBPP_5551     (1 << 17)
+#define CNTL_ST_1XBPP_565      (1 << 18)
+#define CNTL_ST_CDWID_12       0x0
+#define CNTL_ST_CDWID_16       (1 << 19)
+#define CNTL_ST_CDWID_18       (1 << 20)
+#define CNTL_ST_CDWID_24       ((1 << 19)|(1 << 20))
+#define CNTL_ST_CEAEN          (1 << 21)
+#define CNTL_ST_LCDBPP24_PACKED        (6 << 1)
+
+#endif /* AMBA_CLCD_REGS_H */
diff --git a/include/linux/amba/clcd.h b/include/linux/amba/clcd.h
new file mode 100644 (file)
index 0000000..b6e0cbe
--- /dev/null
@@ -0,0 +1,290 @@
+/*
+ * linux/include/asm-arm/hardware/amba_clcd.h -- Integrator LCD panel.
+ *
+ * David A Rusling
+ *
+ * Copyright (C) 2001 ARM Limited
+ *
+ * This file is subject to the terms and conditions of the GNU General Public
+ * License.  See the file COPYING in the main directory of this archive
+ * for more details.
+ */
+#include <linux/fb.h>
+#include <linux/amba/clcd-regs.h>
+
+enum {
+       /* individual formats */
+       CLCD_CAP_RGB444         = (1 << 0),
+       CLCD_CAP_RGB5551        = (1 << 1),
+       CLCD_CAP_RGB565         = (1 << 2),
+       CLCD_CAP_RGB888         = (1 << 3),
+       CLCD_CAP_BGR444         = (1 << 4),
+       CLCD_CAP_BGR5551        = (1 << 5),
+       CLCD_CAP_BGR565         = (1 << 6),
+       CLCD_CAP_BGR888         = (1 << 7),
+
+       /* connection layouts */
+       CLCD_CAP_444            = CLCD_CAP_RGB444 | CLCD_CAP_BGR444,
+       CLCD_CAP_5551           = CLCD_CAP_RGB5551 | CLCD_CAP_BGR5551,
+       CLCD_CAP_565            = CLCD_CAP_RGB565 | CLCD_CAP_BGR565,
+       CLCD_CAP_888            = CLCD_CAP_RGB888 | CLCD_CAP_BGR888,
+
+       /* red/blue ordering */
+       CLCD_CAP_RGB            = CLCD_CAP_RGB444 | CLCD_CAP_RGB5551 |
+                                 CLCD_CAP_RGB565 | CLCD_CAP_RGB888,
+       CLCD_CAP_BGR            = CLCD_CAP_BGR444 | CLCD_CAP_BGR5551 |
+                                 CLCD_CAP_BGR565 | CLCD_CAP_BGR888,
+
+       CLCD_CAP_ALL            = CLCD_CAP_BGR | CLCD_CAP_RGB,
+};
+
+struct backlight_device;
+
+struct clcd_panel {
+       struct fb_videomode     mode;
+       signed short            width;  /* width in mm */
+       signed short            height; /* height in mm */
+       u32                     tim2;
+       u32                     tim3;
+       u32                     cntl;
+       u32                     caps;
+       unsigned int            bpp:8,
+                               fixedtimings:1,
+                               grayscale:1;
+       unsigned int            connector;
+       struct backlight_device *backlight;
+       /*
+        * If the B/R lines are switched between the CLCD
+        * and the panel we need to know this and not try to
+        * compensate with the BGR bit in the control register.
+        */
+       bool                    bgr_connection;
+};
+
+struct clcd_regs {
+       u32                     tim0;
+       u32                     tim1;
+       u32                     tim2;
+       u32                     tim3;
+       u32                     cntl;
+       unsigned long           pixclock;
+};
+
+struct clcd_fb;
+
+/*
+ * the board-type specific routines
+ */
+struct clcd_board {
+       const char *name;
+
+       /*
+        * Optional.  Hardware capability flags.
+        */
+       u32     caps;
+
+       /*
+        * Optional.  Check whether the var structure is acceptable
+        * for this display.
+        */
+       int     (*check)(struct clcd_fb *fb, struct fb_var_screeninfo *var);
+
+       /*
+        * Compulsory.  Decode fb->fb.var into regs->*.  In the case of
+        * fixed timing, set regs->* to the register values required.
+        */
+       void    (*decode)(struct clcd_fb *fb, struct clcd_regs *regs);
+
+       /*
+        * Optional.  Disable any extra display hardware.
+        */
+       void    (*disable)(struct clcd_fb *);
+
+       /*
+        * Optional.  Enable any extra display hardware.
+        */
+       void    (*enable)(struct clcd_fb *);
+
+       /*
+        * Setup platform specific parts of CLCD driver
+        */
+       int     (*setup)(struct clcd_fb *);
+
+       /*
+        * mmap the framebuffer memory
+        */
+       int     (*mmap)(struct clcd_fb *, struct vm_area_struct *);
+
+       /*
+        * Remove platform specific parts of CLCD driver
+        */
+       void    (*remove)(struct clcd_fb *);
+};
+
+struct amba_device;
+struct clk;
+
+/* this data structure describes each frame buffer device we find */
+struct clcd_fb {
+       struct fb_info          fb;
+       struct amba_device      *dev;
+       struct clk              *clk;
+       struct clcd_panel       *panel;
+       struct clcd_board       *board;
+       void                    *board_data;
+       void __iomem            *regs;
+       u16                     off_ienb;
+       u16                     off_cntl;
+       u32                     clcd_cntl;
+       u32                     cmap[16];
+       bool                    clk_enabled;
+};
+
+static inline void clcdfb_decode(struct clcd_fb *fb, struct clcd_regs *regs)
+{
+       struct fb_var_screeninfo *var = &fb->fb.var;
+       u32 val, cpl;
+
+       /*
+        * Program the CLCD controller registers and start the CLCD
+        */
+       val = ((var->xres / 16) - 1) << 2;
+       val |= (var->hsync_len - 1) << 8;
+       val |= (var->right_margin - 1) << 16;
+       val |= (var->left_margin - 1) << 24;
+       regs->tim0 = val;
+
+       val = var->yres;
+       if (fb->panel->cntl & CNTL_LCDDUAL)
+               val /= 2;
+       val -= 1;
+       val |= (var->vsync_len - 1) << 10;
+       val |= var->lower_margin << 16;
+       val |= var->upper_margin << 24;
+       regs->tim1 = val;
+
+       val = fb->panel->tim2;
+       val |= var->sync & FB_SYNC_HOR_HIGH_ACT  ? 0 : TIM2_IHS;
+       val |= var->sync & FB_SYNC_VERT_HIGH_ACT ? 0 : TIM2_IVS;
+
+       cpl = var->xres_virtual;
+       if (fb->panel->cntl & CNTL_LCDTFT)        /* TFT */
+               /* / 1 */;
+       else if (!var->grayscale)                 /* STN color */
+               cpl = cpl * 8 / 3;
+       else if (fb->panel->cntl & CNTL_LCDMONO8) /* STN monochrome, 8bit */
+               cpl /= 8;
+       else                                      /* STN monochrome, 4bit */
+               cpl /= 4;
+
+       regs->tim2 = val | ((cpl - 1) << 16);
+
+       regs->tim3 = fb->panel->tim3;
+
+       val = fb->panel->cntl;
+       if (var->grayscale)
+               val |= CNTL_LCDBW;
+
+       if (fb->panel->caps && fb->board->caps && var->bits_per_pixel >= 16) {
+               /*
+                * if board and panel supply capabilities, we can support
+                * changing BGR/RGB depending on supplied parameters. Here
+                * we switch to what the framebuffer is providing if need
+                * be, so if the framebuffer is BGR but the display connection
+                * is RGB (first case) we switch it around. Vice versa mutatis
+                * mutandis if the framebuffer is RGB but the display connection
+                * is BGR, we flip it around.
+                */
+               if (var->red.offset == 0)
+                       val &= ~CNTL_BGR;
+               else
+                       val |= CNTL_BGR;
+               if (fb->panel->bgr_connection)
+                       val ^= CNTL_BGR;
+       }
+
+       switch (var->bits_per_pixel) {
+       case 1:
+               val |= CNTL_LCDBPP1;
+               break;
+       case 2:
+               val |= CNTL_LCDBPP2;
+               break;
+       case 4:
+               val |= CNTL_LCDBPP4;
+               break;
+       case 8:
+               val |= CNTL_LCDBPP8;
+               break;
+       case 16:
+               /*
+                * PL110 cannot choose between 5551 and 565 modes in its
+                * control register.  It is possible to use 565 with
+                * custom external wiring.
+                */
+               if (amba_part(fb->dev) == 0x110 ||
+                   var->green.length == 5)
+                       val |= CNTL_LCDBPP16;
+               else if (var->green.length == 6)
+                       val |= CNTL_LCDBPP16_565;
+               else
+                       val |= CNTL_LCDBPP16_444;
+               break;
+       case 32:
+               val |= CNTL_LCDBPP24;
+               break;
+       }
+
+       regs->cntl = val;
+       regs->pixclock = var->pixclock;
+}
+
+static inline int clcdfb_check(struct clcd_fb *fb, struct fb_var_screeninfo *var)
+{
+       var->xres_virtual = var->xres = (var->xres + 15) & ~15;
+       var->yres_virtual = var->yres = (var->yres + 1) & ~1;
+
+#define CHECK(e,l,h) (var->e < l || var->e > h)
+       if (CHECK(right_margin, (5+1), 256) ||  /* back porch */
+           CHECK(left_margin, (5+1), 256) ||   /* front porch */
+           CHECK(hsync_len, (5+1), 256) ||
+           var->xres > 4096 ||
+           var->lower_margin > 255 ||          /* back porch */
+           var->upper_margin > 255 ||          /* front porch */
+           var->vsync_len > 32 ||
+           var->yres > 1024)
+               return -EINVAL;
+#undef CHECK
+
+       /* single panel mode: PCD = max(PCD, 1) */
+       /* dual panel mode: PCD = max(PCD, 5) */
+
+       /*
+        * You can't change the grayscale setting, and
+        * we can only do non-interlaced video.
+        */
+       if (var->grayscale != fb->fb.var.grayscale ||
+           (var->vmode & FB_VMODE_MASK) != FB_VMODE_NONINTERLACED)
+               return -EINVAL;
+
+#define CHECK(e) (var->e != fb->fb.var.e)
+       if (fb->panel->fixedtimings &&
+           (CHECK(xres)                ||
+            CHECK(yres)                ||
+            CHECK(bits_per_pixel)      ||
+            CHECK(pixclock)            ||
+            CHECK(left_margin)         ||
+            CHECK(right_margin)        ||
+            CHECK(upper_margin)        ||
+            CHECK(lower_margin)        ||
+            CHECK(hsync_len)           ||
+            CHECK(vsync_len)           ||
+            CHECK(sync)))
+               return -EINVAL;
+#undef CHECK
+
+       var->nonstd = 0;
+       var->accel_flags = 0;
+
+       return 0;
+}
index 21e950e..4507172 100644 (file)
@@ -76,7 +76,7 @@ extern void amd_iommu_free_device(struct pci_dev *pdev);
  *
  * The function returns 0 on success or a negative value on error.
  */
-extern int amd_iommu_bind_pasid(struct pci_dev *pdev, int pasid,
+extern int amd_iommu_bind_pasid(struct pci_dev *pdev, u32 pasid,
                                struct task_struct *task);
 
 /**
@@ -88,7 +88,7 @@ extern int amd_iommu_bind_pasid(struct pci_dev *pdev, int pasid,
  * When this function returns the device is no longer using the PASID
  * and the PASID is no longer bound to its task.
  */
-extern void amd_iommu_unbind_pasid(struct pci_dev *pdev, int pasid);
+extern void amd_iommu_unbind_pasid(struct pci_dev *pdev, u32 pasid);
 
 /**
  * amd_iommu_set_invalid_ppr_cb() - Register a call-back for failed
@@ -114,7 +114,7 @@ extern void amd_iommu_unbind_pasid(struct pci_dev *pdev, int pasid);
 #define AMD_IOMMU_INV_PRI_RSP_FAIL     2
 
 typedef int (*amd_iommu_invalid_ppr_cb)(struct pci_dev *pdev,
-                                       int pasid,
+                                       u32 pasid,
                                        unsigned long address,
                                        u16);
 
@@ -166,7 +166,7 @@ extern int amd_iommu_device_info(struct pci_dev *pdev,
  * @cb: The call-back function
  */
 
-typedef void (*amd_iommu_invalidate_ctx)(struct pci_dev *pdev, int pasid);
+typedef void (*amd_iommu_invalidate_ctx)(struct pci_dev *pdev, u32 pasid);
 
 extern int amd_iommu_set_invalidate_ctx_cb(struct pci_dev *pdev,
                                           amd_iommu_invalidate_ctx cb);
index 46b92cd..4f72b47 100644 (file)
@@ -3,6 +3,7 @@
 #define _LINUX_CACHEINFO_H
 
 #include <linux/bitops.h>
+#include <linux/cpu.h>
 #include <linux/cpumask.h>
 #include <linux/smp.h>
 
@@ -119,4 +120,24 @@ int acpi_find_last_cache_level(unsigned int cpu);
 
 const struct attribute_group *cache_get_priv_group(struct cacheinfo *this_leaf);
 
+/*
+ * Get the id of the cache associated with @cpu at level @level.
+ * cpuhp lock must be held.
+ */
+static inline int get_cpu_cacheinfo_id(int cpu, int level)
+{
+       struct cpu_cacheinfo *ci = get_cpu_cacheinfo(cpu);
+       int i;
+
+       for (i = 0; i < ci->num_leaves; i++) {
+               if (ci->info_list[i].level == level) {
+                       if (ci->info_list[i].attributes & CACHE_ID)
+                               return ci->info_list[i].id;
+                       return -1;
+               }
+       }
+
+       return -1;
+}
+
 #endif /* _LINUX_CACHEINFO_H */
index b354ce5..14d5142 100644 (file)
        static inline long __do_compat_sys##name(__MAP(x,__SC_DECL,__VA_ARGS__))
 #endif /* COMPAT_SYSCALL_DEFINEx */
 
+struct compat_iovec {
+       compat_uptr_t   iov_base;
+       compat_size_t   iov_len;
+};
+
 #ifdef CONFIG_COMPAT
 
 #ifndef compat_user_stack_pointer
@@ -248,11 +253,6 @@ typedef struct compat_siginfo {
        } _sifields;
 } compat_siginfo_t;
 
-struct compat_iovec {
-       compat_uptr_t   iov_base;
-       compat_size_t   iov_len;
-};
-
 struct compat_rlimit {
        compat_ulong_t  rlim_cur;
        compat_ulong_t  rlim_max;
@@ -451,12 +451,6 @@ extern long compat_arch_ptrace(struct task_struct *child, compat_long_t request,
 
 struct epoll_event;    /* fortunately, this one is fixed-layout */
 
-extern ssize_t compat_rw_copy_check_uvector(int type,
-               const struct compat_iovec __user *uvector,
-               unsigned long nr_segs,
-               unsigned long fast_segs, struct iovec *fast_pointer,
-               struct iovec **ret_pointer);
-
 extern void __user *compat_alloc_user_space(unsigned long len);
 
 int compat_restore_altstack(const compat_stack_t __user *uss);
@@ -522,12 +516,6 @@ asmlinkage long compat_sys_fcntl64(unsigned int fd, unsigned int cmd,
 asmlinkage long compat_sys_ioctl(unsigned int fd, unsigned int cmd,
                                 compat_ulong_t arg);
 
-/* fs/namespace.c */
-asmlinkage long compat_sys_mount(const char __user *dev_name,
-                                const char __user *dir_name,
-                                const char __user *type, compat_ulong_t flags,
-                                const void __user *data);
-
 /* fs/open.c */
 asmlinkage long compat_sys_statfs(const char __user *pathname,
                                  struct compat_statfs __user *buf);
@@ -551,26 +539,22 @@ asmlinkage long compat_sys_getdents(unsigned int fd,
 
 /* fs/read_write.c */
 asmlinkage long compat_sys_lseek(unsigned int, compat_off_t, unsigned int);
-asmlinkage ssize_t compat_sys_readv(compat_ulong_t fd,
-               const struct compat_iovec __user *vec, compat_ulong_t vlen);
-asmlinkage ssize_t compat_sys_writev(compat_ulong_t fd,
-               const struct compat_iovec __user *vec, compat_ulong_t vlen);
 /* No generic prototype for pread64 and pwrite64 */
 asmlinkage ssize_t compat_sys_preadv(compat_ulong_t fd,
-               const struct compat_iovec __user *vec,
+               const struct iovec __user *vec,
                compat_ulong_t vlen, u32 pos_low, u32 pos_high);
 asmlinkage ssize_t compat_sys_pwritev(compat_ulong_t fd,
-               const struct compat_iovec __user *vec,
+               const struct iovec __user *vec,
                compat_ulong_t vlen, u32 pos_low, u32 pos_high);
 #ifdef __ARCH_WANT_COMPAT_SYS_PREADV64
 asmlinkage long compat_sys_preadv64(unsigned long fd,
-               const struct compat_iovec __user *vec,
+               const struct iovec __user *vec,
                unsigned long vlen, loff_t pos);
 #endif
 
 #ifdef __ARCH_WANT_COMPAT_SYS_PWRITEV64
 asmlinkage long compat_sys_pwritev64(unsigned long fd,
-               const struct compat_iovec __user *vec,
+               const struct iovec __user *vec,
                unsigned long vlen, loff_t pos);
 #endif
 
@@ -607,10 +591,6 @@ asmlinkage long compat_sys_signalfd4(int ufd,
                                     const compat_sigset_t __user *sigmask,
                                     compat_size_t sigsetsize, int flags);
 
-/* fs/splice.c */
-asmlinkage long compat_sys_vmsplice(int fd, const struct compat_iovec __user *,
-                                   unsigned int nr_segs, unsigned int flags);
-
 /* fs/stat.c */
 asmlinkage long compat_sys_newfstatat(unsigned int dfd,
                                      const char __user *filename,
@@ -794,32 +774,24 @@ asmlinkage long compat_sys_open_by_handle_at(int mountdirfd,
                                             int flags);
 asmlinkage long compat_sys_sendmmsg(int fd, struct compat_mmsghdr __user *mmsg,
                                    unsigned vlen, unsigned int flags);
-asmlinkage ssize_t compat_sys_process_vm_readv(compat_pid_t pid,
-               const struct compat_iovec __user *lvec,
-               compat_ulong_t liovcnt, const struct compat_iovec __user *rvec,
-               compat_ulong_t riovcnt, compat_ulong_t flags);
-asmlinkage ssize_t compat_sys_process_vm_writev(compat_pid_t pid,
-               const struct compat_iovec __user *lvec,
-               compat_ulong_t liovcnt, const struct compat_iovec __user *rvec,
-               compat_ulong_t riovcnt, compat_ulong_t flags);
 asmlinkage long compat_sys_execveat(int dfd, const char __user *filename,
                     const compat_uptr_t __user *argv,
                     const compat_uptr_t __user *envp, int flags);
 asmlinkage ssize_t compat_sys_preadv2(compat_ulong_t fd,
-               const struct compat_iovec __user *vec,
+               const struct iovec __user *vec,
                compat_ulong_t vlen, u32 pos_low, u32 pos_high, rwf_t flags);
 asmlinkage ssize_t compat_sys_pwritev2(compat_ulong_t fd,
-               const struct compat_iovec __user *vec,
+               const struct iovec __user *vec,
                compat_ulong_t vlen, u32 pos_low, u32 pos_high, rwf_t flags);
 #ifdef __ARCH_WANT_COMPAT_SYS_PREADV64V2
-asmlinkage long  compat_sys_readv64v2(unsigned long fd,
-               const struct compat_iovec __user *vec,
+asmlinkage long  compat_sys_preadv64v2(unsigned long fd,
+               const struct iovec __user *vec,
                unsigned long vlen, loff_t pos, rwf_t flags);
 #endif
 
 #ifdef __ARCH_WANT_COMPAT_SYS_PWRITEV64V2
 asmlinkage long compat_sys_pwritev64v2(unsigned long fd,
-               const struct compat_iovec __user *vec,
+               const struct iovec __user *vec,
                unsigned long vlen, loff_t pos, rwf_t flags);
 #endif
 
@@ -933,6 +905,15 @@ static inline bool in_compat_syscall(void) { return false; }
 #endif /* CONFIG_COMPAT */
 
 /*
+ * Some legacy ABIs like the i386 one use less than natural alignment for 64-bit
+ * types, and will need special compat treatment for that.  Most architectures
+ * don't need that special handling even for compat syscalls.
+ */
+#ifndef compat_need_64bit_alignment_fixup
+#define compat_need_64bit_alignment_fixup()            false
+#endif
+
+/*
  * A pointer passed in from user mode. This should not
  * be used for syscall parameters, just declare them
  * as pointers because the syscall entry code will have
index 6810d80..92ef163 100644 (file)
@@ -207,7 +207,7 @@ void ftrace_likely_update(struct ftrace_likely_data *f, int val,
  */
 #define __ADDRESSABLE(sym) \
        static void * __section(.discard.addressable) __used \
-               __PASTE(__addressable_##sym, __LINE__) = (void *)&sym;
+               __UNIQUE_ID(__PASTE(__addressable_,sym)) = (void *)&sym;
 
 /**
  * offset_to_ptr - convert a relative memory offset to an absolute pointer
index 8537e92..6a511a1 100644 (file)
@@ -230,6 +230,18 @@ enum {
 #define CPER_MEM_VALID_RANK_NUMBER             0x8000
 #define CPER_MEM_VALID_CARD_HANDLE             0x10000
 #define CPER_MEM_VALID_MODULE_HANDLE           0x20000
+#define CPER_MEM_VALID_ROW_EXT                 0x40000
+#define CPER_MEM_VALID_BANK_GROUP              0x80000
+#define CPER_MEM_VALID_BANK_ADDRESS            0x100000
+#define CPER_MEM_VALID_CHIP_ID                 0x200000
+
+#define CPER_MEM_EXT_ROW_MASK                  0x3
+#define CPER_MEM_EXT_ROW_SHIFT                 16
+
+#define CPER_MEM_BANK_ADDRESS_MASK             0xff
+#define CPER_MEM_BANK_GROUP_SHIFT              8
+
+#define CPER_MEM_CHIP_ID_SHIFT                 5
 
 #define CPER_PCIE_VALID_PORT_TYPE              0x0001
 #define CPER_PCIE_VALID_VERSION                        0x0002
@@ -443,7 +455,7 @@ struct cper_sec_mem_err_old {
        u8      error_type;
 };
 
-/* Memory Error Section (UEFI >= v2.3), UEFI v2.7 sec N.2.5 */
+/* Memory Error Section (UEFI >= v2.3), UEFI v2.8 sec N.2.5 */
 struct cper_sec_mem_err {
        u64     validation_bits;
        u64     error_status;
@@ -461,7 +473,7 @@ struct cper_sec_mem_err {
        u64     responder_id;
        u64     target_id;
        u8      error_type;
-       u8      reserved;
+       u8      extended;
        u16     rank;
        u16     mem_array_handle;       /* "card handle" in UEFI 2.4 */
        u16     mem_dev_handle;         /* "module handle" in UEFI 2.4 */
@@ -483,8 +495,16 @@ struct cper_mem_err_compact {
        u16     rank;
        u16     mem_array_handle;
        u16     mem_dev_handle;
+       u8      extended;
 };
 
+static inline u32 cper_get_mem_extension(u64 mem_valid, u8 mem_extended)
+{
+       if (!(mem_valid & CPER_MEM_VALID_ROW_EXT))
+               return 0;
+       return (mem_extended & CPER_MEM_EXT_ROW_MASK) << CPER_MEM_EXT_ROW_SHIFT;
+}
+
 /* PCI Express Error Section, UEFI v2.7 sec N.2.7 */
 struct cper_sec_pcie {
        u64             validation_bits;
index bf9181c..6f524bb 100644 (file)
@@ -36,6 +36,7 @@ enum cpuhp_state {
        CPUHP_X86_MCE_DEAD,
        CPUHP_VIRT_NET_DEAD,
        CPUHP_SLUB_DEAD,
+       CPUHP_DEBUG_OBJ_DEAD,
        CPUHP_MM_WRITEBACK_DEAD,
        CPUHP_MM_VMSTAT_DEAD,
        CPUHP_SOFTIRQ_DEAD,
index 65d975b..6f95c33 100644 (file)
@@ -213,7 +213,7 @@ struct dentry_operations {
 
 #define DCACHE_MAY_FREE                        0x00800000
 #define DCACHE_FALLTHRU                        0x01000000 /* Fall through to lower layer */
-#define DCACHE_ENCRYPTED_NAME          0x02000000 /* Encrypted name (dir key was unavailable) */
+#define DCACHE_NOKEY_NAME              0x02000000 /* Encrypted name encoded without key */
 #define DCACHE_OP_REAL                 0x04000000
 
 #define DCACHE_PAR_LOOKUP              0x10000000 /* being looked up (with parent locked shared) */
index afc416e..8d2dde2 100644 (file)
@@ -30,7 +30,7 @@ struct debug_obj {
        enum debug_obj_state    state;
        unsigned int            astate;
        void                    *object;
-       struct debug_obj_descr  *descr;
+       const struct debug_obj_descr *descr;
 };
 
 /**
@@ -64,14 +64,14 @@ struct debug_obj_descr {
 };
 
 #ifdef CONFIG_DEBUG_OBJECTS
-extern void debug_object_init      (void *addr, struct debug_obj_descr *descr);
+extern void debug_object_init      (void *addr, const struct debug_obj_descr *descr);
 extern void
-debug_object_init_on_stack(void *addr, struct debug_obj_descr *descr);
-extern int debug_object_activate  (void *addr, struct debug_obj_descr *descr);
-extern void debug_object_deactivate(void *addr, struct debug_obj_descr *descr);
-extern void debug_object_destroy   (void *addr, struct debug_obj_descr *descr);
-extern void debug_object_free      (void *addr, struct debug_obj_descr *descr);
-extern void debug_object_assert_init(void *addr, struct debug_obj_descr *descr);
+debug_object_init_on_stack(void *addr, const struct debug_obj_descr *descr);
+extern int debug_object_activate  (void *addr, const struct debug_obj_descr *descr);
+extern void debug_object_deactivate(void *addr, const struct debug_obj_descr *descr);
+extern void debug_object_destroy   (void *addr, const struct debug_obj_descr *descr);
+extern void debug_object_free      (void *addr, const struct debug_obj_descr *descr);
+extern void debug_object_assert_init(void *addr, const struct debug_obj_descr *descr);
 
 /*
  * Active state:
@@ -79,26 +79,26 @@ extern void debug_object_assert_init(void *addr, struct debug_obj_descr *descr);
  * - Must return to 0 before deactivation.
  */
 extern void
-debug_object_active_state(void *addr, struct debug_obj_descr *descr,
+debug_object_active_state(void *addr, const struct debug_obj_descr *descr,
                          unsigned int expect, unsigned int next);
 
 extern void debug_objects_early_init(void);
 extern void debug_objects_mem_init(void);
 #else
 static inline void
-debug_object_init      (void *addr, struct debug_obj_descr *descr) { }
+debug_object_init      (void *addr, const struct debug_obj_descr *descr) { }
 static inline void
-debug_object_init_on_stack(void *addr, struct debug_obj_descr *descr) { }
+debug_object_init_on_stack(void *addr, const struct debug_obj_descr *descr) { }
 static inline int
-debug_object_activate  (void *addr, struct debug_obj_descr *descr) { return 0; }
+debug_object_activate  (void *addr, const struct debug_obj_descr *descr) { return 0; }
 static inline void
-debug_object_deactivate(void *addr, struct debug_obj_descr *descr) { }
+debug_object_deactivate(void *addr, const struct debug_obj_descr *descr) { }
 static inline void
-debug_object_destroy   (void *addr, struct debug_obj_descr *descr) { }
+debug_object_destroy   (void *addr, const struct debug_obj_descr *descr) { }
 static inline void
-debug_object_free      (void *addr, struct debug_obj_descr *descr) { }
+debug_object_free      (void *addr, const struct debug_obj_descr *descr) { }
 static inline void
-debug_object_assert_init(void *addr, struct debug_obj_descr *descr) { }
+debug_object_assert_init(void *addr, const struct debug_obj_descr *descr) { }
 
 static inline void debug_objects_early_init(void) { }
 static inline void debug_objects_mem_init(void) { }
index 73db1ae..d7c0e73 100644 (file)
@@ -122,6 +122,7 @@ typedef     struct {
                                ((u64)0x0000000000010000ULL)    /* higher reliability */
 #define EFI_MEMORY_RO          ((u64)0x0000000000020000ULL)    /* read-only */
 #define EFI_MEMORY_SP          ((u64)0x0000000000040000ULL)    /* soft reserved */
+#define EFI_MEMORY_CPU_CRYPTO  ((u64)0x0000000000080000ULL)    /* supports encryption */
 #define EFI_MEMORY_RUNTIME     ((u64)0x8000000000000000ULL)    /* range requires runtime mapping */
 #define EFI_MEMORY_DESCRIPTOR_VERSION  1
 
@@ -357,6 +358,7 @@ void efi_native_runtime_setup(void);
 #define LINUX_EFI_TPM_FINAL_LOG_GUID           EFI_GUID(0x1e2ed096, 0x30e2, 0x4254,  0xbd, 0x89, 0x86, 0x3b, 0xbe, 0xf8, 0x23, 0x25)
 #define LINUX_EFI_MEMRESERVE_TABLE_GUID                EFI_GUID(0x888eb0c6, 0x8ede, 0x4ff5,  0xa8, 0xf0, 0x9a, 0xee, 0x5c, 0xb9, 0x77, 0xc2)
 #define LINUX_EFI_INITRD_MEDIA_GUID            EFI_GUID(0x5568e427, 0x68fc, 0x4f3d,  0xac, 0x74, 0xca, 0x55, 0x52, 0x31, 0xcc, 0x68)
+#define LINUX_EFI_MOK_VARIABLE_TABLE_GUID      EFI_GUID(0xc451ed2b, 0x9694, 0x45d3,  0xba, 0xba, 0xed, 0x9f, 0x89, 0x88, 0xa3, 0x89)
 
 /* OEM GUIDs */
 #define DELLEMC_EFI_RCI2_TABLE_GUID            EFI_GUID(0x2d9f28a2, 0xa886, 0x456a,  0x97, 0xa8, 0xf1, 0x1e, 0xf2, 0x4f, 0xf4, 0x55)
@@ -546,6 +548,7 @@ extern struct efi {
        unsigned long                   esrt;                   /* ESRT table */
        unsigned long                   tpm_log;                /* TPM2 Event Log table */
        unsigned long                   tpm_final_log;          /* TPM2 Final Events Log table */
+       unsigned long                   mokvar_table;           /* MOK variable config table */
 
        efi_get_time_t                  *get_time;
        efi_set_time_t                  *set_time;
@@ -984,8 +987,6 @@ struct efivar_entry {
        bool deleting;
 };
 
-extern struct list_head efivar_sysfs_list;
-
 static inline void
 efivar_unregister(struct efivar_entry *var)
 {
@@ -1037,15 +1038,6 @@ bool efivar_validate(efi_guid_t vendor, efi_char16_t *var_name, u8 *data,
 bool efivar_variable_is_removable(efi_guid_t vendor, const char *name,
                                  size_t len);
 
-extern struct work_struct efivar_work;
-void efivar_run_worker(void);
-
-#if defined(CONFIG_EFI_VARS) || defined(CONFIG_EFI_VARS_MODULE)
-int efivars_sysfs_init(void);
-
-#define EFIVARS_DATA_SIZE_MAX 1024
-
-#endif /* CONFIG_EFI_VARS */
 extern bool efi_capsule_pending(int *reset_type);
 
 extern int efi_capsule_supported(efi_guid_t guid, u32 flags,
@@ -1252,4 +1244,36 @@ void __init efi_arch_mem_reserve(phys_addr_t addr, u64 size);
 
 char *efi_systab_show_arch(char *str);
 
+/*
+ * The LINUX_EFI_MOK_VARIABLE_TABLE_GUID config table can be provided
+ * to the kernel by an EFI boot loader. The table contains a packed
+ * sequence of these entries, one for each named MOK variable.
+ * The sequence is terminated by an entry with a completely NULL
+ * name and 0 data size.
+ */
+struct efi_mokvar_table_entry {
+       char name[256];
+       u64 data_size;
+       u8 data[];
+} __attribute((packed));
+
+#ifdef CONFIG_LOAD_UEFI_KEYS
+extern void __init efi_mokvar_table_init(void);
+extern struct efi_mokvar_table_entry *efi_mokvar_entry_next(
+                       struct efi_mokvar_table_entry **mokvar_entry);
+extern struct efi_mokvar_table_entry *efi_mokvar_entry_find(const char *name);
+#else
+static inline void efi_mokvar_table_init(void) { }
+static inline struct efi_mokvar_table_entry *efi_mokvar_entry_next(
+                       struct efi_mokvar_table_entry **mokvar_entry)
+{
+       return NULL;
+}
+static inline struct efi_mokvar_table_entry *efi_mokvar_entry_find(
+                       const char *name)
+{
+       return NULL;
+}
+#endif
+
 #endif /* _LINUX_EFI_H */
index 159c747..474f296 100644 (file)
@@ -38,7 +38,7 @@
 #endif
 
 /*
- * TIF flags handled in syscall_enter_from_usermode()
+ * TIF flags handled in syscall_enter_from_user_mode()
  */
 #ifndef ARCH_SYSCALL_ENTER_WORK
 # define ARCH_SYSCALL_ENTER_WORK       (0)
index 51b91c8..59faa80 100644 (file)
@@ -59,4 +59,17 @@ extern const struct font_desc *get_default_font(int xres, int yres,
 /* Max. length for the name of a predefined font */
 #define MAX_FONT_NAME  32
 
+/* Extra word getters */
+#define REFCOUNT(fd)   (((int *)(fd))[-1])
+#define FNTSIZE(fd)    (((int *)(fd))[-2])
+#define FNTCHARCNT(fd) (((int *)(fd))[-3])
+#define FNTSUM(fd)     (((int *)(fd))[-4])
+
+#define FONT_EXTRA_WORDS 4
+
+struct font_data {
+       unsigned int extra[FONT_EXTRA_WORDS];
+       const unsigned char data[];
+} __packed;
+
 #endif /* _VIDEO_FONT_H */
index 8e2842a..34ad5fe 100644 (file)
@@ -179,14 +179,6 @@ typedef int (dio_iodone_t)(struct kiocb *iocb, loff_t offset,
 #define FMODE_BUF_RASYNC       ((__force fmode_t)0x40000000)
 
 /*
- * Flag for rw_copy_check_uvector and compat_rw_copy_check_uvector
- * that indicates that they should check the contents of the iovec are
- * valid, but not check the memory that the iovec elements
- * points too.
- */
-#define CHECK_IOVEC_ONLY -1
-
-/*
  * Attribute flags.  These should be or-ed together to figure out what
  * has been changed!
  */
@@ -1887,11 +1879,6 @@ static inline int call_mmap(struct file *file, struct vm_area_struct *vma)
        return file->f_op->mmap(file, vma);
 }
 
-ssize_t rw_copy_check_uvector(int type, const struct iovec __user * uvector,
-                             unsigned long nr_segs, unsigned long fast_segs,
-                             struct iovec *fast_pointer,
-                             struct iovec **ret_pointer);
-
 extern ssize_t vfs_read(struct file *, char __user *, size_t, loff_t *);
 extern ssize_t vfs_write(struct file *, const char __user *, size_t, loff_t *);
 extern ssize_t vfs_readv(struct file *, const struct iovec __user *,
index 991ff85..a8f7a43 100644 (file)
 
 #include <linux/fs.h>
 #include <linux/mm.h>
-#include <linux/parser.h>
 #include <linux/slab.h>
 #include <uapi/linux/fscrypt.h>
 
 #define FS_CRYPTO_BLOCK_SIZE           16
 
-union fscrypt_context;
+union fscrypt_policy;
 struct fscrypt_info;
 struct seq_file;
 
@@ -36,7 +35,7 @@ struct fscrypt_name {
        u32 hash;
        u32 minor_hash;
        struct fscrypt_str crypto_buf;
-       bool is_ciphertext_name;
+       bool is_nokey_name;
 };
 
 #define FSTR_INIT(n, l)                { .name = n, .len = l }
@@ -62,8 +61,7 @@ struct fscrypt_operations {
        int (*get_context)(struct inode *inode, void *ctx, size_t len);
        int (*set_context)(struct inode *inode, const void *ctx, size_t len,
                           void *fs_data);
-       const union fscrypt_context *(*get_dummy_context)(
-               struct super_block *sb);
+       const union fscrypt_policy *(*get_dummy_policy)(struct super_block *sb);
        bool (*empty_dir)(struct inode *inode);
        unsigned int max_namelen;
        bool (*has_stable_inodes)(struct super_block *sb);
@@ -101,24 +99,16 @@ static inline bool fscrypt_needs_contents_encryption(const struct inode *inode)
        return IS_ENCRYPTED(inode) && S_ISREG(inode->i_mode);
 }
 
-static inline const union fscrypt_context *
-fscrypt_get_dummy_context(struct super_block *sb)
-{
-       if (!sb->s_cop->get_dummy_context)
-               return NULL;
-       return sb->s_cop->get_dummy_context(sb);
-}
-
 /*
- * When d_splice_alias() moves a directory's encrypted alias to its decrypted
- * alias as a result of the encryption key being added, DCACHE_ENCRYPTED_NAME
- * must be cleared.  Note that we don't have to support arbitrary moves of this
- * flag because fscrypt doesn't allow encrypted aliases to be the source or
- * target of a rename().
+ * When d_splice_alias() moves a directory's no-key alias to its plaintext alias
+ * as a result of the encryption key being added, DCACHE_NOKEY_NAME must be
+ * cleared.  Note that we don't have to support arbitrary moves of this flag
+ * because fscrypt doesn't allow no-key names to be the source or target of a
+ * rename().
  */
 static inline void fscrypt_handle_d_move(struct dentry *dentry)
 {
-       dentry->d_flags &= ~DCACHE_ENCRYPTED_NAME;
+       dentry->d_flags &= ~DCACHE_NOKEY_NAME;
 }
 
 /* crypto.c */
@@ -156,23 +146,21 @@ int fscrypt_ioctl_get_policy(struct file *filp, void __user *arg);
 int fscrypt_ioctl_get_policy_ex(struct file *filp, void __user *arg);
 int fscrypt_ioctl_get_nonce(struct file *filp, void __user *arg);
 int fscrypt_has_permitted_context(struct inode *parent, struct inode *child);
-int fscrypt_inherit_context(struct inode *parent, struct inode *child,
-                           void *fs_data, bool preload);
+int fscrypt_set_context(struct inode *inode, void *fs_data);
 
-struct fscrypt_dummy_context {
-       const union fscrypt_context *ctx;
+struct fscrypt_dummy_policy {
+       const union fscrypt_policy *policy;
 };
 
-int fscrypt_set_test_dummy_encryption(struct super_block *sb,
-                                     const substring_t *arg,
-                                     struct fscrypt_dummy_context *dummy_ctx);
+int fscrypt_set_test_dummy_encryption(struct super_block *sb, const char *arg,
+                               struct fscrypt_dummy_policy *dummy_policy);
 void fscrypt_show_test_dummy_encryption(struct seq_file *seq, char sep,
                                        struct super_block *sb);
 static inline void
-fscrypt_free_dummy_context(struct fscrypt_dummy_context *dummy_ctx)
+fscrypt_free_dummy_policy(struct fscrypt_dummy_policy *dummy_policy)
 {
-       kfree(dummy_ctx->ctx);
-       dummy_ctx->ctx = NULL;
+       kfree(dummy_policy->policy);
+       dummy_policy->policy = NULL;
 }
 
 /* keyring.c */
@@ -184,6 +172,8 @@ int fscrypt_ioctl_get_key_status(struct file *filp, void __user *arg);
 
 /* keysetup.c */
 int fscrypt_get_encryption_info(struct inode *inode);
+int fscrypt_prepare_new_inode(struct inode *dir, struct inode *inode,
+                             bool *encrypt_ret);
 void fscrypt_put_encryption_info(struct inode *inode);
 void fscrypt_free_inode(struct inode *inode);
 int fscrypt_drop_inode(struct inode *inode);
@@ -197,7 +187,7 @@ static inline void fscrypt_free_filename(struct fscrypt_name *fname)
        kfree(fname->crypto_buf.name);
 }
 
-int fscrypt_fname_alloc_buffer(const struct inode *inode, u32 max_encrypted_len,
+int fscrypt_fname_alloc_buffer(u32 max_encrypted_len,
                               struct fscrypt_str *crypto_str);
 void fscrypt_fname_free_buffer(struct fscrypt_str *crypto_str);
 int fscrypt_fname_disk_to_usr(const struct inode *inode,
@@ -207,6 +197,7 @@ int fscrypt_fname_disk_to_usr(const struct inode *inode,
 bool fscrypt_match_name(const struct fscrypt_name *fname,
                        const u8 *de_name, u32 de_name_len);
 u64 fscrypt_fname_siphash(const struct inode *dir, const struct qstr *name);
+int fscrypt_d_revalidate(struct dentry *dentry, unsigned int flags);
 
 /* bio.c */
 void fscrypt_decrypt_bio(struct bio *bio);
@@ -224,9 +215,9 @@ int __fscrypt_prepare_lookup(struct inode *dir, struct dentry *dentry,
                             struct fscrypt_name *fname);
 int fscrypt_prepare_setflags(struct inode *inode,
                             unsigned int oldflags, unsigned int flags);
-int __fscrypt_prepare_symlink(struct inode *dir, unsigned int len,
-                             unsigned int max_len,
-                             struct fscrypt_str *disk_link);
+int fscrypt_prepare_symlink(struct inode *dir, const char *target,
+                           unsigned int len, unsigned int max_len,
+                           struct fscrypt_str *disk_link);
 int __fscrypt_encrypt_symlink(struct inode *inode, const char *target,
                              unsigned int len, struct fscrypt_str *disk_link);
 const char *fscrypt_get_symlink(struct inode *inode, const void *caddr,
@@ -249,12 +240,6 @@ static inline bool fscrypt_needs_contents_encryption(const struct inode *inode)
        return false;
 }
 
-static inline const union fscrypt_context *
-fscrypt_get_dummy_context(struct super_block *sb)
-{
-       return NULL;
-}
-
 static inline void fscrypt_handle_d_move(struct dentry *dentry)
 {
 }
@@ -340,14 +325,12 @@ static inline int fscrypt_has_permitted_context(struct inode *parent,
        return 0;
 }
 
-static inline int fscrypt_inherit_context(struct inode *parent,
-                                         struct inode *child,
-                                         void *fs_data, bool preload)
+static inline int fscrypt_set_context(struct inode *inode, void *fs_data)
 {
        return -EOPNOTSUPP;
 }
 
-struct fscrypt_dummy_context {
+struct fscrypt_dummy_policy {
 };
 
 static inline void fscrypt_show_test_dummy_encryption(struct seq_file *seq,
@@ -357,7 +340,7 @@ static inline void fscrypt_show_test_dummy_encryption(struct seq_file *seq,
 }
 
 static inline void
-fscrypt_free_dummy_context(struct fscrypt_dummy_context *dummy_ctx)
+fscrypt_free_dummy_policy(struct fscrypt_dummy_policy *dummy_policy)
 {
 }
 
@@ -394,6 +377,15 @@ static inline int fscrypt_get_encryption_info(struct inode *inode)
        return -EOPNOTSUPP;
 }
 
+static inline int fscrypt_prepare_new_inode(struct inode *dir,
+                                           struct inode *inode,
+                                           bool *encrypt_ret)
+{
+       if (IS_ENCRYPTED(dir))
+               return -EOPNOTSUPP;
+       return 0;
+}
+
 static inline void fscrypt_put_encryption_info(struct inode *inode)
 {
        return;
@@ -428,8 +420,7 @@ static inline void fscrypt_free_filename(struct fscrypt_name *fname)
        return;
 }
 
-static inline int fscrypt_fname_alloc_buffer(const struct inode *inode,
-                                            u32 max_encrypted_len,
+static inline int fscrypt_fname_alloc_buffer(u32 max_encrypted_len,
                                             struct fscrypt_str *crypto_str)
 {
        return -EOPNOTSUPP;
@@ -464,6 +455,12 @@ static inline u64 fscrypt_fname_siphash(const struct inode *dir,
        return 0;
 }
 
+static inline int fscrypt_d_revalidate(struct dentry *dentry,
+                                      unsigned int flags)
+{
+       return 1;
+}
+
 /* bio.c */
 static inline void fscrypt_decrypt_bio(struct bio *bio)
 {
@@ -513,15 +510,21 @@ static inline int fscrypt_prepare_setflags(struct inode *inode,
        return 0;
 }
 
-static inline int __fscrypt_prepare_symlink(struct inode *dir,
-                                           unsigned int len,
-                                           unsigned int max_len,
-                                           struct fscrypt_str *disk_link)
+static inline int fscrypt_prepare_symlink(struct inode *dir,
+                                         const char *target,
+                                         unsigned int len,
+                                         unsigned int max_len,
+                                         struct fscrypt_str *disk_link)
 {
-       return -EOPNOTSUPP;
+       if (IS_ENCRYPTED(dir))
+               return -EOPNOTSUPP;
+       disk_link->name = (unsigned char *)target;
+       disk_link->len = len + 1;
+       if (disk_link->len > max_len)
+               return -ENAMETOOLONG;
+       return 0;
 }
 
-
 static inline int __fscrypt_encrypt_symlink(struct inode *inode,
                                            const char *target,
                                            unsigned int len,
@@ -734,17 +737,16 @@ static inline int fscrypt_prepare_rename(struct inode *old_dir,
  * @fname: (output) the name to use to search the on-disk directory
  *
  * Prepare for ->lookup() in a directory which may be encrypted by determining
- * the name that will actually be used to search the directory on-disk.  Lookups
- * can be done with or without the directory's encryption key; without the key,
- * filenames are presented in encrypted form.  Therefore, we'll try to set up
- * the directory's encryption key, but even without it the lookup can continue.
+ * the name that will actually be used to search the directory on-disk.  If the
+ * directory's encryption key is available, then the lookup is assumed to be by
+ * plaintext name; otherwise, it is assumed to be by no-key name.
  *
  * This also installs a custom ->d_revalidate() method which will invalidate the
  * dentry if it was created without the key and the key is later added.
  *
- * Return: 0 on success; -ENOENT if key is unavailable but the filename isn't a
- * correctly formed encoded ciphertext name, so a negative dentry should be
- * created; or another -errno code.
+ * Return: 0 on success; -ENOENT if the directory's key is unavailable but the
+ * filename isn't a valid no-key name, so a negative dentry should be created;
+ * or another -errno code.
  */
 static inline int fscrypt_prepare_lookup(struct inode *dir,
                                         struct dentry *dentry,
@@ -787,45 +789,6 @@ static inline int fscrypt_prepare_setattr(struct dentry *dentry,
 }
 
 /**
- * fscrypt_prepare_symlink() - prepare to create a possibly-encrypted symlink
- * @dir: directory in which the symlink is being created
- * @target: plaintext symlink target
- * @len: length of @target excluding null terminator
- * @max_len: space the filesystem has available to store the symlink target
- * @disk_link: (out) the on-disk symlink target being prepared
- *
- * This function computes the size the symlink target will require on-disk,
- * stores it in @disk_link->len, and validates it against @max_len.  An
- * encrypted symlink may be longer than the original.
- *
- * Additionally, @disk_link->name is set to @target if the symlink will be
- * unencrypted, but left NULL if the symlink will be encrypted.  For encrypted
- * symlinks, the filesystem must call fscrypt_encrypt_symlink() to create the
- * on-disk target later.  (The reason for the two-step process is that some
- * filesystems need to know the size of the symlink target before creating the
- * inode, e.g. to determine whether it will be a "fast" or "slow" symlink.)
- *
- * Return: 0 on success, -ENAMETOOLONG if the symlink target is too long,
- * -ENOKEY if the encryption key is missing, or another -errno code if a problem
- * occurred while setting up the encryption key.
- */
-static inline int fscrypt_prepare_symlink(struct inode *dir,
-                                         const char *target,
-                                         unsigned int len,
-                                         unsigned int max_len,
-                                         struct fscrypt_str *disk_link)
-{
-       if (IS_ENCRYPTED(dir) || fscrypt_get_dummy_context(dir->i_sb) != NULL)
-               return __fscrypt_prepare_symlink(dir, len, max_len, disk_link);
-
-       disk_link->name = (unsigned char *)target;
-       disk_link->len = len + 1;
-       if (disk_link->len > max_len)
-               return -ENAMETOOLONG;
-       return 0;
-}
-
-/**
  * fscrypt_encrypt_symlink() - encrypt the symlink target if needed
  * @inode: symlink inode
  * @target: plaintext symlink target
diff --git a/include/linux/hidden.h b/include/linux/hidden.h
new file mode 100644 (file)
index 0000000..49a17b6
--- /dev/null
@@ -0,0 +1,19 @@
+/* SPDX-License-Identifier: GPL-2.0 */
+/*
+ * When building position independent code with GCC using the -fPIC option,
+ * (or even the -fPIE one on older versions), it will assume that we are
+ * building a dynamic object (either a shared library or an executable) that
+ * may have symbol references that can only be resolved at load time. For a
+ * variety of reasons (ELF symbol preemption, the CoW footprint of the section
+ * that is modified by the loader), this results in all references to symbols
+ * with external linkage to go via entries in the Global Offset Table (GOT),
+ * which carries absolute addresses which need to be fixed up when the
+ * executable image is loaded at an offset which is different from its link
+ * time offset.
+ *
+ * Fortunately, there is a way to inform the compiler that such symbol
+ * references will be satisfied at link time rather than at load time, by
+ * giving them 'hidden' visibility.
+ */
+
+#pragma GCC visibility push(hidden)
index e2df67a..f1daaba 100644 (file)
@@ -641,7 +641,7 @@ static inline struct iio_dev *iio_device_get(struct iio_dev *indio_dev)
  *
  * This utility must be called between IIO device allocation
  * (via devm_iio_device_alloc()) & IIO device registration
- * (via {devm_}iio_device_register()).
+ * (via iio_device_register() and devm_iio_device_register())).
  * By default, the device allocation will also assign a parent device to
  * the IIO device object. In cases where devm_iio_device_alloc() is used,
  * sometimes the parent device must be different than the device used to
index 43e6ea5..42faebb 100644 (file)
@@ -43,6 +43,21 @@ static __always_inline void instrument_write(const volatile void *v, size_t size
 }
 
 /**
+ * instrument_read_write - instrument regular read-write access
+ *
+ * Instrument a regular write access. The instrumentation should be inserted
+ * before the actual write happens.
+ *
+ * @ptr address of access
+ * @size size of access
+ */
+static __always_inline void instrument_read_write(const volatile void *v, size_t size)
+{
+       kasan_check_write(v, size);
+       kcsan_check_read_write(v, size);
+}
+
+/**
  * instrument_atomic_read - instrument atomic read access
  *
  * Instrument an atomic read access. The instrumentation should be inserted
@@ -73,6 +88,21 @@ static __always_inline void instrument_atomic_write(const volatile void *v, size
 }
 
 /**
+ * instrument_atomic_read_write - instrument atomic read-write access
+ *
+ * Instrument an atomic read-write access. The instrumentation should be
+ * inserted before the actual write happens.
+ *
+ * @ptr address of access
+ * @size size of access
+ */
+static __always_inline void instrument_atomic_read_write(const volatile void *v, size_t size)
+{
+       kasan_check_write(v, size);
+       kcsan_check_atomic_read_write(v, size);
+}
+
+/**
  * instrument_copy_to_user - instrument reads of copy_to_user
  *
  * Instrument reads from kernel memory, that are due to copy_to_user (and
index b1ed2f2..473b24e 100644 (file)
@@ -425,6 +425,8 @@ struct q_inval {
        int             free_cnt;
 };
 
+struct dmar_pci_notify_info;
+
 #ifdef CONFIG_IRQ_REMAP
 /* 1MB - maximum possible interrupt remapping table size */
 #define INTR_REMAP_PAGE_ORDER  8
@@ -439,6 +441,11 @@ struct ir_table {
        struct irte *base;
        unsigned long *bitmap;
 };
+
+void intel_irq_remap_add_device(struct dmar_pci_notify_info *info);
+#else
+static inline void
+intel_irq_remap_add_device(struct dmar_pci_notify_info *info) { }
 #endif
 
 struct iommu_flush {
@@ -549,7 +556,7 @@ struct dmar_domain {
                                           2 == 1GiB, 3 == 512GiB, 4 == 1TiB */
        u64             max_addr;       /* maximum mapped address */
 
-       int             default_pasid;  /*
+       u32             default_pasid;  /*
                                         * The default pasid used for non-SVM
                                         * traffic on mediated devices.
                                         */
@@ -708,7 +715,7 @@ void qi_flush_dev_iotlb_pasid(struct intel_iommu *iommu, u16 sid, u16 pfsid,
                              u32 pasid, u16 qdep, u64 addr,
                              unsigned int size_order);
 void qi_flush_pasid_cache(struct intel_iommu *iommu, u16 did, u64 granu,
-                         int pasid);
+                         u32 pasid);
 
 int qi_submit_sync(struct intel_iommu *iommu, struct qi_desc *desc,
                   unsigned int count, unsigned long options);
@@ -737,11 +744,11 @@ extern int intel_svm_enable_prq(struct intel_iommu *iommu);
 extern int intel_svm_finish_prq(struct intel_iommu *iommu);
 int intel_svm_bind_gpasid(struct iommu_domain *domain, struct device *dev,
                          struct iommu_gpasid_bind_data *data);
-int intel_svm_unbind_gpasid(struct device *dev, int pasid);
+int intel_svm_unbind_gpasid(struct device *dev, u32 pasid);
 struct iommu_sva *intel_svm_bind(struct device *dev, struct mm_struct *mm,
                                 void *drvdata);
 void intel_svm_unbind(struct iommu_sva *handle);
-int intel_svm_get_pasid(struct iommu_sva *handle);
+u32 intel_svm_get_pasid(struct iommu_sva *handle);
 int intel_svm_page_response(struct device *dev, struct iommu_fault_event *evt,
                            struct iommu_page_response *msg);
 
@@ -753,7 +760,7 @@ struct intel_svm_dev {
        struct device *dev;
        struct svm_dev_ops *ops;
        struct iommu_sva sva;
-       int pasid;
+       u32 pasid;
        int users;
        u16 did;
        u16 dev_iotlb:1;
@@ -765,8 +772,8 @@ struct intel_svm {
        struct mm_struct *mm;
 
        struct intel_iommu *iommu;
-       int flags;
-       int pasid;
+       unsigned int flags;
+       u32 pasid;
        int gpasid; /* In case that guest PASID is different from host PASID */
        struct list_head devs;
        struct list_head list;
index c9e7e60..39d368a 100644 (file)
@@ -11,7 +11,7 @@
 struct device;
 
 struct svm_dev_ops {
-       void (*fault_cb)(struct device *dev, int pasid, u64 address,
+       void (*fault_cb)(struct device *dev, u32 pasid, u64 address,
                         void *private, int rwxp, int response);
 };
 
index fee209e..e57e819 100644 (file)
@@ -286,7 +286,7 @@ struct iommu_ops {
        struct iommu_sva *(*sva_bind)(struct device *dev, struct mm_struct *mm,
                                      void *drvdata);
        void (*sva_unbind)(struct iommu_sva *handle);
-       int (*sva_get_pasid)(struct iommu_sva *handle);
+       u32 (*sva_get_pasid)(struct iommu_sva *handle);
 
        int (*page_response)(struct device *dev,
                             struct iommu_fault_event *evt,
@@ -296,7 +296,7 @@ struct iommu_ops {
        int (*sva_bind_gpasid)(struct iommu_domain *domain,
                        struct device *dev, struct iommu_gpasid_bind_data *data);
 
-       int (*sva_unbind_gpasid)(struct device *dev, int pasid);
+       int (*sva_unbind_gpasid)(struct device *dev, u32 pasid);
 
        int (*def_domain_type)(struct device *dev);
 
@@ -634,7 +634,7 @@ struct iommu_sva *iommu_sva_bind_device(struct device *dev,
                                        struct mm_struct *mm,
                                        void *drvdata);
 void iommu_sva_unbind_device(struct iommu_sva *handle);
-int iommu_sva_get_pasid(struct iommu_sva *handle);
+u32 iommu_sva_get_pasid(struct iommu_sva *handle);
 
 #else /* CONFIG_IOMMU_API */
 
@@ -1027,7 +1027,7 @@ static inline void iommu_sva_unbind_device(struct iommu_sva *handle)
 {
 }
 
-static inline int iommu_sva_get_pasid(struct iommu_sva *handle)
+static inline u32 iommu_sva_get_pasid(struct iommu_sva *handle)
 {
        return IOMMU_PASID_INVALID;
 }
@@ -1046,7 +1046,7 @@ static inline int iommu_sva_bind_gpasid(struct iommu_domain *domain,
 }
 
 static inline int iommu_sva_unbind_gpasid(struct iommu_domain *domain,
-                                          struct device *dev, int pasid)
+                                          struct device *dev, u32 pasid)
 {
        return -ENODEV;
 }
index 1b7f4df..c543653 100644 (file)
@@ -71,6 +71,7 @@ enum irqchip_irq_state;
  *                               it from the spurious interrupt detection
  *                               mechanism and from core side polling.
  * IRQ_DISABLE_UNLAZY          - Disable lazy irq disable
+ * IRQ_HIDDEN                  - Don't show up in /proc/interrupts
  */
 enum {
        IRQ_TYPE_NONE           = 0x00000000,
@@ -97,13 +98,14 @@ enum {
        IRQ_PER_CPU_DEVID       = (1 << 17),
        IRQ_IS_POLLED           = (1 << 18),
        IRQ_DISABLE_UNLAZY      = (1 << 19),
+       IRQ_HIDDEN              = (1 << 20),
 };
 
 #define IRQF_MODIFY_MASK       \
        (IRQ_TYPE_SENSE_MASK | IRQ_NOPROBE | IRQ_NOREQUEST | \
         IRQ_NOAUTOEN | IRQ_MOVE_PCNTXT | IRQ_LEVEL | IRQ_NO_BALANCING | \
         IRQ_PER_CPU | IRQ_NESTED_THREAD | IRQ_NOTHREAD | IRQ_PER_CPU_DEVID | \
-        IRQ_IS_POLLED | IRQ_DISABLE_UNLAZY)
+        IRQ_IS_POLLED | IRQ_DISABLE_UNLAZY | IRQ_HIDDEN)
 
 #define IRQ_NO_BALANCING_MASK  (IRQ_PER_CPU | IRQ_NO_BALANCING)
 
@@ -215,6 +217,8 @@ struct irq_data {
  *                               from actual interrupt context.
  * IRQD_AFFINITY_ON_ACTIVATE   - Affinity is set on activation. Don't call
  *                               irq_chip::irq_set_affinity() when deactivated.
+ * IRQD_IRQ_ENABLED_ON_SUSPEND - Interrupt is enabled on suspend by irq pm if
+ *                               irqchip have flag IRQCHIP_ENABLE_WAKEUP_ON_SUSPEND set.
  */
 enum {
        IRQD_TRIGGER_MASK               = 0xf,
@@ -240,6 +244,7 @@ enum {
        IRQD_MSI_NOMASK_QUIRK           = (1 << 27),
        IRQD_HANDLE_ENFORCE_IRQCTX      = (1 << 28),
        IRQD_AFFINITY_ON_ACTIVATE       = (1 << 29),
+       IRQD_IRQ_ENABLED_ON_SUSPEND     = (1 << 30),
 };
 
 #define __irqd_to_state(d) ACCESS_PRIVATE((d)->common, state_use_accessors)
@@ -319,6 +324,11 @@ static inline bool irqd_is_handle_enforce_irqctx(struct irq_data *d)
        return __irqd_to_state(d) & IRQD_HANDLE_ENFORCE_IRQCTX;
 }
 
+static inline bool irqd_is_enabled_on_suspend(struct irq_data *d)
+{
+       return __irqd_to_state(d) & IRQD_IRQ_ENABLED_ON_SUSPEND;
+}
+
 static inline bool irqd_is_wakeup_set(struct irq_data *d)
 {
        return __irqd_to_state(d) & IRQD_WAKEUP_STATE;
@@ -545,27 +555,30 @@ struct irq_chip {
 /*
  * irq_chip specific flags
  *
- * IRQCHIP_SET_TYPE_MASKED:    Mask before calling chip.irq_set_type()
- * IRQCHIP_EOI_IF_HANDLED:     Only issue irq_eoi() when irq was handled
- * IRQCHIP_MASK_ON_SUSPEND:    Mask non wake irqs in the suspend path
- * IRQCHIP_ONOFFLINE_ENABLED:  Only call irq_on/off_line callbacks
- *                             when irq enabled
- * IRQCHIP_SKIP_SET_WAKE:      Skip chip.irq_set_wake(), for this irq chip
- * IRQCHIP_ONESHOT_SAFE:       One shot does not require mask/unmask
- * IRQCHIP_EOI_THREADED:       Chip requires eoi() on unmask in threaded mode
- * IRQCHIP_SUPPORTS_LEVEL_MSI  Chip can provide two doorbells for Level MSIs
- * IRQCHIP_SUPPORTS_NMI:       Chip can deliver NMIs, only for root irqchips
+ * IRQCHIP_SET_TYPE_MASKED:           Mask before calling chip.irq_set_type()
+ * IRQCHIP_EOI_IF_HANDLED:            Only issue irq_eoi() when irq was handled
+ * IRQCHIP_MASK_ON_SUSPEND:           Mask non wake irqs in the suspend path
+ * IRQCHIP_ONOFFLINE_ENABLED:         Only call irq_on/off_line callbacks
+ *                                    when irq enabled
+ * IRQCHIP_SKIP_SET_WAKE:             Skip chip.irq_set_wake(), for this irq chip
+ * IRQCHIP_ONESHOT_SAFE:              One shot does not require mask/unmask
+ * IRQCHIP_EOI_THREADED:              Chip requires eoi() on unmask in threaded mode
+ * IRQCHIP_SUPPORTS_LEVEL_MSI:        Chip can provide two doorbells for Level MSIs
+ * IRQCHIP_SUPPORTS_NMI:              Chip can deliver NMIs, only for root irqchips
+ * IRQCHIP_ENABLE_WAKEUP_ON_SUSPEND:  Invokes __enable_irq()/__disable_irq() for wake irqs
+ *                                    in the suspend path if they are in disabled state
  */
 enum {
-       IRQCHIP_SET_TYPE_MASKED         = (1 <<  0),
-       IRQCHIP_EOI_IF_HANDLED          = (1 <<  1),
-       IRQCHIP_MASK_ON_SUSPEND         = (1 <<  2),
-       IRQCHIP_ONOFFLINE_ENABLED       = (1 <<  3),
-       IRQCHIP_SKIP_SET_WAKE           = (1 <<  4),
-       IRQCHIP_ONESHOT_SAFE            = (1 <<  5),
-       IRQCHIP_EOI_THREADED            = (1 <<  6),
-       IRQCHIP_SUPPORTS_LEVEL_MSI      = (1 <<  7),
-       IRQCHIP_SUPPORTS_NMI            = (1 <<  8),
+       IRQCHIP_SET_TYPE_MASKED                 = (1 <<  0),
+       IRQCHIP_EOI_IF_HANDLED                  = (1 <<  1),
+       IRQCHIP_MASK_ON_SUSPEND                 = (1 <<  2),
+       IRQCHIP_ONOFFLINE_ENABLED               = (1 <<  3),
+       IRQCHIP_SKIP_SET_WAKE                   = (1 <<  4),
+       IRQCHIP_ONESHOT_SAFE                    = (1 <<  5),
+       IRQCHIP_EOI_THREADED                    = (1 <<  6),
+       IRQCHIP_SUPPORTS_LEVEL_MSI              = (1 <<  7),
+       IRQCHIP_SUPPORTS_NMI                    = (1 <<  8),
+       IRQCHIP_ENABLE_WAKEUP_ON_SUSPEND        = (1 <<  9),
 };
 
 #include <linux/irqdesc.h>
@@ -634,6 +647,7 @@ static inline int irq_set_parent(int irq, int parent_irq)
  */
 extern void handle_level_irq(struct irq_desc *desc);
 extern void handle_fasteoi_irq(struct irq_desc *desc);
+extern void handle_percpu_devid_fasteoi_ipi(struct irq_desc *desc);
 extern void handle_edge_irq(struct irq_desc *desc);
 extern void handle_edge_eoi_irq(struct irq_desc *desc);
 extern void handle_simple_irq(struct irq_desc *desc);
@@ -1252,6 +1266,12 @@ int __init set_handle_irq(void (*handle_irq)(struct pt_regs *));
  * top-level IRQ handler.
  */
 extern void (*handle_arch_irq)(struct pt_regs *) __ro_after_init;
+#else
+#define set_handle_irq(handle_irq)             \
+       do {                                    \
+               (void)handle_irq;               \
+               WARN_ON(1);                     \
+       } while (0)
 #endif
 
 #endif /* _LINUX_IRQ_H */
index b37350c..71535e8 100644 (file)
@@ -84,6 +84,7 @@ enum irq_domain_bus_token {
        DOMAIN_BUS_FSL_MC_MSI,
        DOMAIN_BUS_TI_SCI_INTA_MSI,
        DOMAIN_BUS_WAKEUP,
+       DOMAIN_BUS_VMD_MSI,
 };
 
 /**
@@ -509,6 +510,9 @@ extern void irq_domain_free_irqs_parent(struct irq_domain *domain,
                                        unsigned int irq_base,
                                        unsigned int nr_irqs);
 
+extern int irq_domain_disconnect_hierarchy(struct irq_domain *domain,
+                                          unsigned int virq);
+
 static inline bool irq_domain_is_hierarchy(struct irq_domain *domain)
 {
        return domain->flags & IRQ_DOMAIN_FLAG_HIERARCHY;
index c5f6c1d..cf14840 100644 (file)
@@ -7,19 +7,13 @@
 #include <linux/compiler_attributes.h>
 #include <linux/types.h>
 
-/*
- * ACCESS TYPE MODIFIERS
- *
- *   <none>: normal read access;
- *   WRITE : write access;
- *   ATOMIC: access is atomic;
- *   ASSERT: access is not a regular access, but an assertion;
- *   SCOPED: access is a scoped access;
- */
-#define KCSAN_ACCESS_WRITE  0x1
-#define KCSAN_ACCESS_ATOMIC 0x2
-#define KCSAN_ACCESS_ASSERT 0x4
-#define KCSAN_ACCESS_SCOPED 0x8
+/* Access types -- if KCSAN_ACCESS_WRITE is not set, the access is a read. */
+#define KCSAN_ACCESS_WRITE     (1 << 0) /* Access is a write. */
+#define KCSAN_ACCESS_COMPOUND  (1 << 1) /* Compounded read-write instrumentation. */
+#define KCSAN_ACCESS_ATOMIC    (1 << 2) /* Access is atomic. */
+/* The following are special, and never due to compiler instrumentation. */
+#define KCSAN_ACCESS_ASSERT    (1 << 3) /* Access is an assertion. */
+#define KCSAN_ACCESS_SCOPED    (1 << 4) /* Access is a scoped access. */
 
 /*
  * __kcsan_*: Always calls into the runtime when KCSAN is enabled. This may be used
@@ -205,6 +199,15 @@ static inline void __kcsan_disable_current(void) { }
        __kcsan_check_access(ptr, size, KCSAN_ACCESS_WRITE)
 
 /**
+ * __kcsan_check_read_write - check regular read-write access for races
+ *
+ * @ptr: address of access
+ * @size: size of access
+ */
+#define __kcsan_check_read_write(ptr, size)                                    \
+       __kcsan_check_access(ptr, size, KCSAN_ACCESS_COMPOUND | KCSAN_ACCESS_WRITE)
+
+/**
  * kcsan_check_read - check regular read access for races
  *
  * @ptr: address of access
@@ -221,18 +224,30 @@ static inline void __kcsan_disable_current(void) { }
 #define kcsan_check_write(ptr, size)                                           \
        kcsan_check_access(ptr, size, KCSAN_ACCESS_WRITE)
 
+/**
+ * kcsan_check_read_write - check regular read-write access for races
+ *
+ * @ptr: address of access
+ * @size: size of access
+ */
+#define kcsan_check_read_write(ptr, size)                                      \
+       kcsan_check_access(ptr, size, KCSAN_ACCESS_COMPOUND | KCSAN_ACCESS_WRITE)
+
 /*
  * Check for atomic accesses: if atomic accesses are not ignored, this simply
  * aliases to kcsan_check_access(), otherwise becomes a no-op.
  */
 #ifdef CONFIG_KCSAN_IGNORE_ATOMICS
-#define kcsan_check_atomic_read(...)   do { } while (0)
-#define kcsan_check_atomic_write(...)  do { } while (0)
+#define kcsan_check_atomic_read(...)           do { } while (0)
+#define kcsan_check_atomic_write(...)          do { } while (0)
+#define kcsan_check_atomic_read_write(...)     do { } while (0)
 #else
 #define kcsan_check_atomic_read(ptr, size)                                     \
        kcsan_check_access(ptr, size, KCSAN_ACCESS_ATOMIC)
 #define kcsan_check_atomic_write(ptr, size)                                    \
        kcsan_check_access(ptr, size, KCSAN_ACCESS_ATOMIC | KCSAN_ACCESS_WRITE)
+#define kcsan_check_atomic_read_write(ptr, size)                               \
+       kcsan_check_access(ptr, size, KCSAN_ACCESS_ATOMIC | KCSAN_ACCESS_WRITE | KCSAN_ACCESS_COMPOUND)
 #endif
 
 /**
index abd20ef..eee1877 100644 (file)
@@ -17,5 +17,6 @@
 #define KPF_ARCH               38
 #define KPF_UNCACHED           39
 #define KPF_SOFTDIRTY          40
+#define KPF_ARCH_2             41
 
 #endif /* LINUX_KERNEL_PAGE_FLAGS_H */
index bc45ea1..c941b73 100644 (file)
@@ -15,6 +15,7 @@ extern int __khugepaged_enter(struct mm_struct *mm);
 extern void __khugepaged_exit(struct mm_struct *mm);
 extern int khugepaged_enter_vma_merge(struct vm_area_struct *vma,
                                      unsigned long vm_flags);
+extern void khugepaged_min_free_kbytes_update(void);
 #ifdef CONFIG_SHMEM
 extern void collapse_pte_mapped_thp(struct mm_struct *mm, unsigned long addr);
 #else
@@ -85,6 +86,10 @@ static inline void collapse_pte_mapped_thp(struct mm_struct *mm,
                                           unsigned long addr)
 {
 }
+
+static inline void khugepaged_min_free_kbytes_update(void)
+{
+}
 #endif /* CONFIG_TRANSPARENT_HUGEPAGE */
 
 #endif /* _LINUX_KHUGEPAGED_H */
index 8aab327..629abaf 100644 (file)
@@ -156,7 +156,10 @@ struct kretprobe {
 };
 
 struct kretprobe_instance {
-       struct hlist_node hlist;
+       union {
+               struct hlist_node hlist;
+               struct rcu_head rcu;
+       };
        struct kretprobe *rp;
        kprobe_opcode_t *ret_addr;
        struct task_struct *task;
@@ -187,10 +190,37 @@ static inline int kprobes_built_in(void)
        return 1;
 }
 
+extern void kprobe_busy_begin(void);
+extern void kprobe_busy_end(void);
+
 #ifdef CONFIG_KRETPROBES
 extern void arch_prepare_kretprobe(struct kretprobe_instance *ri,
                                   struct pt_regs *regs);
 extern int arch_trampoline_kprobe(struct kprobe *p);
+
+/* If the trampoline handler called from a kprobe, use this version */
+unsigned long __kretprobe_trampoline_handler(struct pt_regs *regs,
+                               void *trampoline_address,
+                               void *frame_pointer);
+
+static nokprobe_inline
+unsigned long kretprobe_trampoline_handler(struct pt_regs *regs,
+                               void *trampoline_address,
+                               void *frame_pointer)
+{
+       unsigned long ret;
+       /*
+        * Set a dummy kprobe for avoiding kretprobe recursion.
+        * Since kretprobe never runs in kprobe handler, no kprobe must
+        * be running at this point.
+        */
+       kprobe_busy_begin();
+       ret = __kretprobe_trampoline_handler(regs, trampoline_address, frame_pointer);
+       kprobe_busy_end();
+
+       return ret;
+}
+
 #else /* CONFIG_KRETPROBES */
 static inline void arch_prepare_kretprobe(struct kretprobe *rp,
                                        struct pt_regs *regs)
@@ -204,16 +234,6 @@ static inline int arch_trampoline_kprobe(struct kprobe *p)
 
 extern struct kretprobe_blackpoint kretprobe_blacklist[];
 
-static inline void kretprobe_assert(struct kretprobe_instance *ri,
-       unsigned long orig_ret_address, unsigned long trampoline_address)
-{
-       if (!orig_ret_address || (orig_ret_address == trampoline_address)) {
-               printk("kretprobe BUG!: Processing kretprobe %p @ %p\n",
-                               ri->rp, ri->rp->kp.addr);
-               BUG();
-       }
-}
-
 #ifdef CONFIG_KPROBES_SANITY_TEST
 extern int init_test_probes(void);
 #else
@@ -333,10 +353,6 @@ int arch_check_ftrace_location(struct kprobe *p);
 
 /* Get the kprobe at this addr (if any) - called with preemption disabled */
 struct kprobe *get_kprobe(void *addr);
-void kretprobe_hash_lock(struct task_struct *tsk,
-                        struct hlist_head **head, unsigned long *flags);
-void kretprobe_hash_unlock(struct task_struct *tsk, unsigned long *flags);
-struct hlist_head * kretprobe_inst_table_head(struct task_struct *tsk);
 
 /* kprobe_running() will just return the current_kprobe on this CPU */
 static inline struct kprobe *kprobe_running(void)
@@ -354,10 +370,6 @@ static inline struct kprobe_ctlblk *get_kprobe_ctlblk(void)
        return this_cpu_ptr(&kprobe_ctlblk);
 }
 
-extern struct kprobe kprobe_busy;
-void kprobe_busy_begin(void);
-void kprobe_busy_end(void);
-
 kprobe_opcode_t *kprobe_lookup_name(const char *name, unsigned int offset);
 int register_kprobe(struct kprobe *p);
 void unregister_kprobe(struct kprobe *p);
@@ -371,7 +383,6 @@ int register_kretprobes(struct kretprobe **rps, int num);
 void unregister_kretprobes(struct kretprobe **rps, int num);
 
 void kprobe_flush_task(struct task_struct *tk);
-void recycle_rp_inst(struct kretprobe_instance *ri, struct hlist_head *head);
 
 void kprobe_free_init_mem(void);
 
index 6a584b3..f559487 100644 (file)
@@ -54,7 +54,11 @@ struct lock_list {
        struct lock_class               *class;
        struct lock_class               *links_to;
        const struct lock_trace         *trace;
-       int                             distance;
+       u16                             distance;
+       /* bitmap of different dependencies from head to this */
+       u8                              dep;
+       /* used by BFS to record whether "prev -> this" only has -(*R)-> */
+       u8                              only_xr;
 
        /*
         * The parent field is used to implement breadth-first search, and the
@@ -469,6 +473,20 @@ static inline void print_irqtrace_events(struct task_struct *curr)
 }
 #endif
 
+/* Variable used to make lockdep treat read_lock() as recursive in selftests */
+#ifdef CONFIG_DEBUG_LOCKING_API_SELFTESTS
+extern unsigned int force_read_lock_recursive;
+#else /* CONFIG_DEBUG_LOCKING_API_SELFTESTS */
+#define force_read_lock_recursive 0
+#endif /* CONFIG_DEBUG_LOCKING_API_SELFTESTS */
+
+#ifdef CONFIG_LOCKDEP
+extern bool read_lock_is_recursive(void);
+#else /* CONFIG_LOCKDEP */
+/* If !LOCKDEP, the value is meaningless */
+#define read_lock_is_recursive() 0
+#endif
+
 /*
  * For trivial one-depth nesting of a lock-class, the following
  * global define can be used. (Subsystems with multiple levels
@@ -490,7 +508,14 @@ static inline void print_irqtrace_events(struct task_struct *curr)
 #define spin_release(l, i)                     lock_release(l, i)
 
 #define rwlock_acquire(l, s, t, i)             lock_acquire_exclusive(l, s, t, NULL, i)
-#define rwlock_acquire_read(l, s, t, i)                lock_acquire_shared_recursive(l, s, t, NULL, i)
+#define rwlock_acquire_read(l, s, t, i)                                        \
+do {                                                                   \
+       if (read_lock_is_recursive())                                   \
+               lock_acquire_shared_recursive(l, s, t, NULL, i);        \
+       else                                                            \
+               lock_acquire_shared(l, s, t, NULL, i);                  \
+} while (0)
+
 #define rwlock_release(l, i)                   lock_release(l, i)
 
 #define seqcount_acquire(l, s, t, i)           lock_acquire_exclusive(l, s, t, NULL, i)
@@ -512,19 +537,19 @@ static inline void print_irqtrace_events(struct task_struct *curr)
 #define lock_map_release(l)                    lock_release(l, _THIS_IP_)
 
 #ifdef CONFIG_PROVE_LOCKING
-# define might_lock(lock)                                              \
+# define might_lock(lock)                                              \
 do {                                                                   \
        typecheck(struct lockdep_map *, &(lock)->dep_map);              \
        lock_acquire(&(lock)->dep_map, 0, 0, 0, 1, NULL, _THIS_IP_);    \
        lock_release(&(lock)->dep_map, _THIS_IP_);                      \
 } while (0)
-# define might_lock_read(lock)                                                 \
+# define might_lock_read(lock)                                         \
 do {                                                                   \
        typecheck(struct lockdep_map *, &(lock)->dep_map);              \
        lock_acquire(&(lock)->dep_map, 0, 0, 1, 1, NULL, _THIS_IP_);    \
        lock_release(&(lock)->dep_map, _THIS_IP_);                      \
 } while (0)
-# define might_lock_nested(lock, subclass)                             \
+# define might_lock_nested(lock, subclass)                             \
 do {                                                                   \
        typecheck(struct lockdep_map *, &(lock)->dep_map);              \
        lock_acquire(&(lock)->dep_map, subclass, 0, 1, 1, NULL,         \
@@ -534,44 +559,39 @@ do {                                                                      \
 
 DECLARE_PER_CPU(int, hardirqs_enabled);
 DECLARE_PER_CPU(int, hardirq_context);
+DECLARE_PER_CPU(unsigned int, lockdep_recursion);
 
-/*
- * The below lockdep_assert_*() macros use raw_cpu_read() to access the above
- * per-cpu variables. This is required because this_cpu_read() will potentially
- * call into preempt/irq-disable and that obviously isn't right. This is also
- * correct because when IRQs are enabled, it doesn't matter if we accidentally
- * read the value from our previous CPU.
- */
+#define __lockdep_enabled      (debug_locks && !this_cpu_read(lockdep_recursion))
 
 #define lockdep_assert_irqs_enabled()                                  \
 do {                                                                   \
-       WARN_ON_ONCE(debug_locks && !raw_cpu_read(hardirqs_enabled));   \
+       WARN_ON_ONCE(__lockdep_enabled && !this_cpu_read(hardirqs_enabled)); \
 } while (0)
 
 #define lockdep_assert_irqs_disabled()                                 \
 do {                                                                   \
-       WARN_ON_ONCE(debug_locks && raw_cpu_read(hardirqs_enabled));    \
+       WARN_ON_ONCE(__lockdep_enabled && this_cpu_read(hardirqs_enabled)); \
 } while (0)
 
 #define lockdep_assert_in_irq()                                                \
 do {                                                                   \
-       WARN_ON_ONCE(debug_locks && !raw_cpu_read(hardirq_context));    \
+       WARN_ON_ONCE(__lockdep_enabled && !this_cpu_read(hardirq_context)); \
 } while (0)
 
 #define lockdep_assert_preemption_enabled()                            \
 do {                                                                   \
        WARN_ON_ONCE(IS_ENABLED(CONFIG_PREEMPT_COUNT)   &&              \
-                    debug_locks                        &&              \
+                    __lockdep_enabled                  &&              \
                     (preempt_count() != 0              ||              \
-                     !raw_cpu_read(hardirqs_enabled)));                \
+                     !this_cpu_read(hardirqs_enabled)));               \
 } while (0)
 
 #define lockdep_assert_preemption_disabled()                           \
 do {                                                                   \
        WARN_ON_ONCE(IS_ENABLED(CONFIG_PREEMPT_COUNT)   &&              \
-                    debug_locks                        &&              \
+                    __lockdep_enabled                  &&              \
                     (preempt_count() == 0              &&              \
-                     raw_cpu_read(hardirqs_enabled)));                 \
+                     this_cpu_read(hardirqs_enabled)));                \
 } while (0)
 
 #else
index bb35b44..9a1fd49 100644 (file)
@@ -35,8 +35,12 @@ enum lockdep_wait_type {
 /*
  * We'd rather not expose kernel/lockdep_states.h this wide, but we do need
  * the total number of states... :-(
+ *
+ * XXX_LOCK_USAGE_STATES is the number of lines in lockdep_states.h, for each
+ * of those we generates 4 states, Additionally we report on USED and USED_READ.
  */
-#define XXX_LOCK_USAGE_STATES          (1+2*4)
+#define XXX_LOCK_USAGE_STATES          2
+#define LOCK_TRACE_STATES              (XXX_LOCK_USAGE_STATES*4 + 2)
 
 /*
  * NR_LOCKDEP_CACHING_CLASSES ... Number of classes
@@ -106,7 +110,7 @@ struct lock_class {
         * IRQ/softirq usage tracking bits:
         */
        unsigned long                   usage_mask;
-       const struct lock_trace         *usage_traces[XXX_LOCK_USAGE_STATES];
+       const struct lock_trace         *usage_traces[LOCK_TRACE_STATES];
 
        /*
         * Generation counter, when doing certain classes of graph walking,
index c145de0..372100c 100644 (file)
@@ -767,6 +767,8 @@ struct mlx5_cmd_work_ent {
        u64                     ts2;
        u16                     op;
        bool                    polling;
+       /* Track the max comp handlers */
+       refcount_t              refcnt;
 };
 
 struct mlx5_pas {
@@ -933,6 +935,7 @@ int mlx5_cmd_exec(struct mlx5_core_dev *dev, void *in, int in_size, void *out,
 int mlx5_cmd_exec_polling(struct mlx5_core_dev *dev, void *in, int in_size,
                          void *out, int out_size);
 void mlx5_cmd_mbox_status(void *out, u8 *status, u32 *syndrome);
+bool mlx5_cmd_is_down(struct mlx5_core_dev *dev);
 
 int mlx5_core_get_caps(struct mlx5_core_dev *dev, enum mlx5_cap_type cap_type);
 int mlx5_cmd_alloc_uar(struct mlx5_core_dev *dev, u32 *uarn);
index 16b799a..13dc9b9 100644 (file)
@@ -342,6 +342,14 @@ extern unsigned int kobjsize(const void *objp);
 # define VM_MAPPED_COPY        VM_ARCH_1       /* T if mapped copy of data (nommu mmap) */
 #endif
 
+#if defined(CONFIG_ARM64_MTE)
+# define VM_MTE                VM_HIGH_ARCH_0  /* Use Tagged memory for access control */
+# define VM_MTE_ALLOWED        VM_HIGH_ARCH_1  /* Tagged memory permitted */
+#else
+# define VM_MTE                VM_NONE
+# define VM_MTE_ALLOWED        VM_NONE
+#endif
+
 #ifndef VM_GROWSUP
 # define VM_GROWSUP    VM_NONE
 #endif
index ed028af..5a9238f 100644 (file)
@@ -552,6 +552,10 @@ struct mm_struct {
                atomic_long_t hugetlb_usage;
 #endif
                struct work_struct async_put_work;
+
+#ifdef CONFIG_IOMMU_SUPPORT
+               u32 pasid;
+#endif
        } __randomize_layout;
 
        /*
index 6f34c33..629cefc 100644 (file)
@@ -78,13 +78,18 @@ static inline void vm_unacct_memory(long pages)
 }
 
 /*
- * Allow architectures to handle additional protection bits
+ * Allow architectures to handle additional protection and flag bits. The
+ * overriding macros must be defined in the arch-specific asm/mman.h file.
  */
 
 #ifndef arch_calc_vm_prot_bits
 #define arch_calc_vm_prot_bits(prot, pkey) 0
 #endif
 
+#ifndef arch_calc_vm_flag_bits
+#define arch_calc_vm_flag_bits(flags) 0
+#endif
+
 #ifndef arch_vm_get_page_prot
 #define arch_vm_get_page_prot(vm_flags) __pgprot(0)
 #endif
@@ -103,6 +108,19 @@ static inline bool arch_validate_prot(unsigned long prot, unsigned long addr)
 #define arch_validate_prot arch_validate_prot
 #endif
 
+#ifndef arch_validate_flags
+/*
+ * This is called from mmap() and mprotect() with the updated vma->vm_flags.
+ *
+ * Returns true if the VM_* flags are valid.
+ */
+static inline bool arch_validate_flags(unsigned long flags)
+{
+       return true;
+}
+#define arch_validate_flags arch_validate_flags
+#endif
+
 /*
  * Optimisation macro.  It is equivalent to:
  *      (x & bit1) ? bit2 : 0
@@ -135,7 +153,8 @@ calc_vm_flag_bits(unsigned long flags)
        return _calc_vm_trans(flags, MAP_GROWSDOWN,  VM_GROWSDOWN ) |
               _calc_vm_trans(flags, MAP_DENYWRITE,  VM_DENYWRITE ) |
               _calc_vm_trans(flags, MAP_LOCKED,     VM_LOCKED    ) |
-              _calc_vm_trans(flags, MAP_SYNC,       VM_SYNC      );
+              _calc_vm_trans(flags, MAP_SYNC,       VM_SYNC      ) |
+              arch_calc_vm_flag_bits(flags);
 }
 
 unsigned long vm_commit_limit(void);
index e30ed5f..a29187f 100644 (file)
@@ -25,6 +25,7 @@
 #include <linux/error-injection.h>
 #include <linux/tracepoint-defs.h>
 #include <linux/srcu.h>
+#include <linux/static_call_types.h>
 
 #include <linux/percpu.h>
 #include <asm/module.h>
@@ -498,6 +499,10 @@ struct module {
        unsigned long *kprobe_blacklist;
        unsigned int num_kprobe_blacklist;
 #endif
+#ifdef CONFIG_HAVE_STATIC_CALL_INLINE
+       int num_static_call_sites;
+       struct static_call_site *static_call_sites;
+#endif
 
 #ifdef CONFIG_LIVEPATCH
        bool klp; /* Is this a livepatch module? */
index 5d906df..3e5358f 100644 (file)
@@ -40,21 +40,79 @@ struct gcry_mpi {
 typedef struct gcry_mpi *MPI;
 
 #define mpi_get_nlimbs(a)     ((a)->nlimbs)
+#define mpi_has_sign(a)       ((a)->sign)
 
 /*-- mpiutil.c --*/
 MPI mpi_alloc(unsigned nlimbs);
+void mpi_clear(MPI a);
 void mpi_free(MPI a);
 int mpi_resize(MPI a, unsigned nlimbs);
 
+static inline MPI mpi_new(unsigned int nbits)
+{
+       return mpi_alloc((nbits + BITS_PER_MPI_LIMB - 1) / BITS_PER_MPI_LIMB);
+}
+
+MPI mpi_copy(MPI a);
+MPI mpi_alloc_like(MPI a);
+void mpi_snatch(MPI w, MPI u);
+MPI mpi_set(MPI w, MPI u);
+MPI mpi_set_ui(MPI w, unsigned long u);
+MPI mpi_alloc_set_ui(unsigned long u);
+void mpi_swap_cond(MPI a, MPI b, unsigned long swap);
+
+/* Constants used to return constant MPIs.  See mpi_init if you
+ * want to add more constants.
+ */
+#define MPI_NUMBER_OF_CONSTANTS 6
+enum gcry_mpi_constants {
+       MPI_C_ZERO,
+       MPI_C_ONE,
+       MPI_C_TWO,
+       MPI_C_THREE,
+       MPI_C_FOUR,
+       MPI_C_EIGHT
+};
+
+MPI mpi_const(enum gcry_mpi_constants no);
+
 /*-- mpicoder.c --*/
+
+/* Different formats of external big integer representation. */
+enum gcry_mpi_format {
+       GCRYMPI_FMT_NONE = 0,
+       GCRYMPI_FMT_STD = 1,    /* Twos complement stored without length. */
+       GCRYMPI_FMT_PGP = 2,    /* As used by OpenPGP (unsigned only). */
+       GCRYMPI_FMT_SSH = 3,    /* As used by SSH (like STD but with length). */
+       GCRYMPI_FMT_HEX = 4,    /* Hex format. */
+       GCRYMPI_FMT_USG = 5,    /* Like STD but unsigned. */
+       GCRYMPI_FMT_OPAQUE = 8  /* Opaque format (some functions only). */
+};
+
 MPI mpi_read_raw_data(const void *xbuffer, size_t nbytes);
 MPI mpi_read_from_buffer(const void *buffer, unsigned *ret_nread);
+int mpi_fromstr(MPI val, const char *str);
+MPI mpi_scanval(const char *string);
 MPI mpi_read_raw_from_sgl(struct scatterlist *sgl, unsigned int len);
 void *mpi_get_buffer(MPI a, unsigned *nbytes, int *sign);
 int mpi_read_buffer(MPI a, uint8_t *buf, unsigned buf_len, unsigned *nbytes,
                    int *sign);
 int mpi_write_to_sgl(MPI a, struct scatterlist *sg, unsigned nbytes,
                     int *sign);
+int mpi_print(enum gcry_mpi_format format, unsigned char *buffer,
+                       size_t buflen, size_t *nwritten, MPI a);
+
+/*-- mpi-mod.c --*/
+void mpi_mod(MPI rem, MPI dividend, MPI divisor);
+
+/* Context used with Barrett reduction.  */
+struct barrett_ctx_s;
+typedef struct barrett_ctx_s *mpi_barrett_t;
+
+mpi_barrett_t mpi_barrett_init(MPI m, int copy);
+void mpi_barrett_free(mpi_barrett_t ctx);
+void mpi_mod_barrett(MPI r, MPI x, mpi_barrett_t ctx);
+void mpi_mul_barrett(MPI w, MPI u, MPI v, mpi_barrett_t ctx);
 
 /*-- mpi-pow.c --*/
 int mpi_powm(MPI res, MPI base, MPI exp, MPI mod);
@@ -62,6 +120,7 @@ int mpi_powm(MPI res, MPI base, MPI exp, MPI mod);
 /*-- mpi-cmp.c --*/
 int mpi_cmp_ui(MPI u, ulong v);
 int mpi_cmp(MPI u, MPI v);
+int mpi_cmpabs(MPI u, MPI v);
 
 /*-- mpi-sub-ui.c --*/
 int mpi_sub_ui(MPI w, MPI u, unsigned long vval);
@@ -69,6 +128,139 @@ int mpi_sub_ui(MPI w, MPI u, unsigned long vval);
 /*-- mpi-bit.c --*/
 void mpi_normalize(MPI a);
 unsigned mpi_get_nbits(MPI a);
+int mpi_test_bit(MPI a, unsigned int n);
+void mpi_set_bit(MPI a, unsigned int n);
+void mpi_set_highbit(MPI a, unsigned int n);
+void mpi_clear_highbit(MPI a, unsigned int n);
+void mpi_clear_bit(MPI a, unsigned int n);
+void mpi_rshift_limbs(MPI a, unsigned int count);
+void mpi_rshift(MPI x, MPI a, unsigned int n);
+void mpi_lshift_limbs(MPI a, unsigned int count);
+void mpi_lshift(MPI x, MPI a, unsigned int n);
+
+/*-- mpi-add.c --*/
+void mpi_add_ui(MPI w, MPI u, unsigned long v);
+void mpi_add(MPI w, MPI u, MPI v);
+void mpi_sub(MPI w, MPI u, MPI v);
+void mpi_addm(MPI w, MPI u, MPI v, MPI m);
+void mpi_subm(MPI w, MPI u, MPI v, MPI m);
+
+/*-- mpi-mul.c --*/
+void mpi_mul(MPI w, MPI u, MPI v);
+void mpi_mulm(MPI w, MPI u, MPI v, MPI m);
+
+/*-- mpi-div.c --*/
+void mpi_tdiv_r(MPI rem, MPI num, MPI den);
+void mpi_fdiv_r(MPI rem, MPI dividend, MPI divisor);
+void mpi_fdiv_q(MPI quot, MPI dividend, MPI divisor);
+
+/*-- mpi-inv.c --*/
+int mpi_invm(MPI x, MPI a, MPI n);
+
+/*-- ec.c --*/
+
+/* Object to represent a point in projective coordinates */
+struct gcry_mpi_point {
+       MPI x;
+       MPI y;
+       MPI z;
+};
+
+typedef struct gcry_mpi_point *MPI_POINT;
+
+/* Models describing an elliptic curve */
+enum gcry_mpi_ec_models {
+       /* The Short Weierstrass equation is
+        *      y^2 = x^3 + ax + b
+        */
+       MPI_EC_WEIERSTRASS = 0,
+       /* The Montgomery equation is
+        *      by^2 = x^3 + ax^2 + x
+        */
+       MPI_EC_MONTGOMERY,
+       /* The Twisted Edwards equation is
+        *      ax^2 + y^2 = 1 + bx^2y^2
+        * Note that we use 'b' instead of the commonly used 'd'.
+        */
+       MPI_EC_EDWARDS
+};
+
+/* Dialects used with elliptic curves */
+enum ecc_dialects {
+       ECC_DIALECT_STANDARD = 0,
+       ECC_DIALECT_ED25519,
+       ECC_DIALECT_SAFECURVE
+};
+
+/* This context is used with all our EC functions. */
+struct mpi_ec_ctx {
+       enum gcry_mpi_ec_models model; /* The model describing this curve. */
+       enum ecc_dialects dialect;     /* The ECC dialect used with the curve. */
+       int flags;                     /* Public key flags (not always used). */
+       unsigned int nbits;            /* Number of bits.  */
+
+       /* Domain parameters.  Note that they may not all be set and if set
+        * the MPIs may be flaged as constant.
+        */
+       MPI p;         /* Prime specifying the field GF(p).  */
+       MPI a;         /* First coefficient of the Weierstrass equation.  */
+       MPI b;         /* Second coefficient of the Weierstrass equation.  */
+       MPI_POINT G;   /* Base point (generator).  */
+       MPI n;         /* Order of G.  */
+       unsigned int h;       /* Cofactor.  */
+
+       /* The actual key.  May not be set.  */
+       MPI_POINT Q;   /* Public key.   */
+       MPI d;         /* Private key.  */
+
+       const char *name;      /* Name of the curve.  */
+
+       /* This structure is private to mpi/ec.c! */
+       struct {
+               struct {
+                       unsigned int a_is_pminus3:1;
+                       unsigned int two_inv_p:1;
+               } valid; /* Flags to help setting the helper vars below.  */
+
+               int a_is_pminus3;  /* True if A = P - 3. */
+
+               MPI two_inv_p;
+
+               mpi_barrett_t p_barrett;
+
+               /* Scratch variables.  */
+               MPI scratch[11];
+
+               /* Helper for fast reduction.  */
+               /*   int nist_nbits; /\* If this is a NIST curve, the # of bits. *\/ */
+               /*   MPI s[10]; */
+               /*   MPI c; */
+       } t;
+
+       /* Curve specific computation routines for the field.  */
+       void (*addm)(MPI w, MPI u, MPI v, struct mpi_ec_ctx *ctx);
+       void (*subm)(MPI w, MPI u, MPI v, struct mpi_ec_ctx *ec);
+       void (*mulm)(MPI w, MPI u, MPI v, struct mpi_ec_ctx *ctx);
+       void (*pow2)(MPI w, const MPI b, struct mpi_ec_ctx *ctx);
+       void (*mul2)(MPI w, MPI u, struct mpi_ec_ctx *ctx);
+};
+
+void mpi_ec_init(struct mpi_ec_ctx *ctx, enum gcry_mpi_ec_models model,
+                       enum ecc_dialects dialect,
+                       int flags, MPI p, MPI a, MPI b);
+void mpi_ec_deinit(struct mpi_ec_ctx *ctx);
+MPI_POINT mpi_point_new(unsigned int nbits);
+void mpi_point_release(MPI_POINT p);
+void mpi_point_init(MPI_POINT p);
+void mpi_point_free_parts(MPI_POINT p);
+int mpi_ec_get_affine(MPI x, MPI y, MPI_POINT point, struct mpi_ec_ctx *ctx);
+void mpi_ec_add_points(MPI_POINT result,
+                       MPI_POINT p1, MPI_POINT p2,
+                       struct mpi_ec_ctx *ctx);
+void mpi_ec_mul_point(MPI_POINT result,
+                       MPI scalar, MPI_POINT point,
+                       struct mpi_ec_ctx *ctx);
+int mpi_ec_curve_point(MPI_POINT point, struct mpi_ec_ctx *ctx);
 
 /* inline functions */
 
index 8ad679e..6b584cc 100644 (file)
@@ -193,17 +193,38 @@ void pci_msi_mask_irq(struct irq_data *data);
 void pci_msi_unmask_irq(struct irq_data *data);
 
 /*
- * The arch hooks to setup up msi irqs. Those functions are
- * implemented as weak symbols so that they /can/ be overriden by
- * architecture specific code if needed.
+ * The arch hooks to setup up msi irqs. Default functions are implemented
+ * as weak symbols so that they /can/ be overriden by architecture specific
+ * code if needed. These hooks must be enabled by the architecture or by
+ * drivers which depend on them via msi_controller based MSI handling.
+ *
+ * If CONFIG_PCI_MSI_ARCH_FALLBACKS is not selected they are replaced by
+ * stubs with warnings.
  */
+#ifdef CONFIG_PCI_MSI_ARCH_FALLBACKS
 int arch_setup_msi_irq(struct pci_dev *dev, struct msi_desc *desc);
 void arch_teardown_msi_irq(unsigned int irq);
 int arch_setup_msi_irqs(struct pci_dev *dev, int nvec, int type);
 void arch_teardown_msi_irqs(struct pci_dev *dev);
-void arch_restore_msi_irqs(struct pci_dev *dev);
-
 void default_teardown_msi_irqs(struct pci_dev *dev);
+#else
+static inline int arch_setup_msi_irqs(struct pci_dev *dev, int nvec, int type)
+{
+       WARN_ON_ONCE(1);
+       return -ENODEV;
+}
+
+static inline void arch_teardown_msi_irqs(struct pci_dev *dev)
+{
+       WARN_ON_ONCE(1);
+}
+#endif
+
+/*
+ * The restore hooks are still available as they are useful even
+ * for fully irq domain based setups. Courtesy to XEN/X86.
+ */
+void arch_restore_msi_irqs(struct pci_dev *dev);
 void default_restore_msi_irqs(struct pci_dev *dev);
 
 struct msi_controller {
@@ -241,6 +262,10 @@ struct msi_domain_info;
  * @msi_finish:                Optional callback to finalize the allocation
  * @set_desc:          Set the msi descriptor for an interrupt
  * @handle_error:      Optional error handler if the allocation fails
+ * @domain_alloc_irqs: Optional function to override the default allocation
+ *                     function.
+ * @domain_free_irqs:  Optional function to override the default free
+ *                     function.
  *
  * @get_hwirq, @msi_init and @msi_free are callbacks used by
  * msi_create_irq_domain() and related interfaces
@@ -248,6 +273,22 @@ struct msi_domain_info;
  * @msi_check, @msi_prepare, @msi_finish, @set_desc and @handle_error
  * are callbacks used by msi_domain_alloc_irqs() and related
  * interfaces which are based on msi_desc.
+ *
+ * @domain_alloc_irqs, @domain_free_irqs can be used to override the
+ * default allocation/free functions (__msi_domain_alloc/free_irqs). This
+ * is initially for a wrapper around XENs seperate MSI universe which can't
+ * be wrapped into the regular irq domains concepts by mere mortals.  This
+ * allows to universally use msi_domain_alloc/free_irqs without having to
+ * special case XEN all over the place.
+ *
+ * Contrary to other operations @domain_alloc_irqs and @domain_free_irqs
+ * are set to the default implementation if NULL and even when
+ * MSI_FLAG_USE_DEF_DOM_OPS is not set to avoid breaking existing users and
+ * because these callbacks are obviously mandatory.
+ *
+ * This is NOT meant to be abused, but it can be useful to build wrappers
+ * for specialized MSI irq domains which need extra work before and after
+ * calling __msi_domain_alloc_irqs()/__msi_domain_free_irqs().
  */
 struct msi_domain_ops {
        irq_hw_number_t (*get_hwirq)(struct msi_domain_info *info,
@@ -270,6 +311,10 @@ struct msi_domain_ops {
                                    struct msi_desc *desc);
        int             (*handle_error)(struct irq_domain *domain,
                                        struct msi_desc *desc, int error);
+       int             (*domain_alloc_irqs)(struct irq_domain *domain,
+                                            struct device *dev, int nvec);
+       void            (*domain_free_irqs)(struct irq_domain *domain,
+                                           struct device *dev);
 };
 
 /**
@@ -327,8 +372,11 @@ int msi_domain_set_affinity(struct irq_data *data, const struct cpumask *mask,
 struct irq_domain *msi_create_irq_domain(struct fwnode_handle *fwnode,
                                         struct msi_domain_info *info,
                                         struct irq_domain *parent);
+int __msi_domain_alloc_irqs(struct irq_domain *domain, struct device *dev,
+                           int nvec);
 int msi_domain_alloc_irqs(struct irq_domain *domain, struct device *dev,
                          int nvec);
+void __msi_domain_free_irqs(struct irq_domain *domain, struct device *dev);
 void msi_domain_free_irqs(struct irq_domain *domain, struct device *dev);
 struct msi_domain_info *msi_get_domain_info(struct irq_domain *domain);
 
@@ -369,12 +417,11 @@ void pci_msi_domain_write_msg(struct irq_data *irq_data, struct msi_msg *msg);
 struct irq_domain *pci_msi_create_irq_domain(struct fwnode_handle *fwnode,
                                             struct msi_domain_info *info,
                                             struct irq_domain *parent);
-irq_hw_number_t pci_msi_domain_calc_hwirq(struct pci_dev *dev,
-                                         struct msi_desc *desc);
 int pci_msi_domain_check_cap(struct irq_domain *domain,
                             struct msi_domain_info *info, struct device *dev);
 u32 pci_msi_domain_get_msi_rid(struct irq_domain *domain, struct pci_dev *pdev);
 struct irq_domain *pci_msi_get_device_domain(struct pci_dev *pdev);
+bool pci_dev_has_special_msi_domain(struct pci_dev *pdev);
 #else
 static inline struct irq_domain *pci_msi_get_device_domain(struct pci_dev *pdev)
 {
index d48ff11..ae713c8 100644 (file)
@@ -21,6 +21,7 @@
 #include <linux/rcupdate.h>
 #include <linux/once.h>
 #include <linux/fs.h>
+#include <linux/mm.h>
 #include <linux/sockptr.h>
 
 #include <uapi/linux/net.h>
@@ -286,6 +287,21 @@ do {                                                                       \
 #define net_get_random_once_wait(buf, nbytes)                  \
        get_random_once_wait((buf), (nbytes))
 
+/*
+ * E.g. XFS meta- & log-data is in slab pages, or bcache meta
+ * data pages, or other high order pages allocated by
+ * __get_free_pages() without __GFP_COMP, which have a page_count
+ * of 0 and/or have PageSlab() set. We cannot use send_page for
+ * those, as that does get_page(); put_page(); and would cause
+ * either a VM_BUG directly, or __page_cache_release a page that
+ * would actually still be referenced by someone, leading to some
+ * obscure delayed Oops somewhere else.
+ */
+static inline bool sendpage_ok(struct page *page)
+{
+       return !PageSlab(page) && page_count(page) >= 1;
+}
+
 int kernel_sendmsg(struct socket *sock, struct msghdr *msg, struct kvec *vec,
                   size_t num, size_t len);
 int kernel_sendmsg_locked(struct sock *sk, struct msghdr *msg,
index 7bd4fcd..18dec08 100644 (file)
@@ -1851,6 +1851,11 @@ enum netdev_priv_flags {
  *     @udp_tunnel_nic:        UDP tunnel offload state
  *     @xdp_state:             stores info on attached XDP BPF programs
  *
+ *     @nested_level:  Used as as a parameter of spin_lock_nested() of
+ *                     dev->addr_list_lock.
+ *     @unlink_list:   As netif_addr_lock() can be called recursively,
+ *                     keep a list of interfaces to be deleted.
+ *
  *     FIXME: cleanup struct net_device such that network protocol info
  *     moves out.
  */
@@ -1955,6 +1960,7 @@ struct net_device {
        unsigned short          type;
        unsigned short          hard_header_len;
        unsigned char           min_header_len;
+       unsigned char           name_assign_type;
 
        unsigned short          needed_headroom;
        unsigned short          needed_tailroom;
@@ -1965,12 +1971,12 @@ struct net_device {
        unsigned char           addr_len;
        unsigned char           upper_level;
        unsigned char           lower_level;
+
        unsigned short          neigh_priv_len;
        unsigned short          dev_id;
        unsigned short          dev_port;
        spinlock_t              addr_list_lock;
-       unsigned char           name_assign_type;
-       bool                    uc_promisc;
+
        struct netdev_hw_addr_list      uc;
        struct netdev_hw_addr_list      mc;
        struct netdev_hw_addr_list      dev_addrs;
@@ -1978,8 +1984,15 @@ struct net_device {
 #ifdef CONFIG_SYSFS
        struct kset             *queues_kset;
 #endif
+#ifdef CONFIG_LOCKDEP
+       struct list_head        unlink_list;
+#endif
        unsigned int            promiscuity;
        unsigned int            allmulti;
+       bool                    uc_promisc;
+#ifdef CONFIG_LOCKDEP
+       unsigned char           nested_level;
+#endif
 
 
        /* Protocol-specific pointers */
@@ -4260,17 +4273,23 @@ static inline void netif_tx_disable(struct net_device *dev)
 
 static inline void netif_addr_lock(struct net_device *dev)
 {
-       spin_lock(&dev->addr_list_lock);
-}
+       unsigned char nest_level = 0;
 
-static inline void netif_addr_lock_nested(struct net_device *dev)
-{
-       spin_lock_nested(&dev->addr_list_lock, dev->lower_level);
+#ifdef CONFIG_LOCKDEP
+       nest_level = dev->nested_level;
+#endif
+       spin_lock_nested(&dev->addr_list_lock, nest_level);
 }
 
 static inline void netif_addr_lock_bh(struct net_device *dev)
 {
-       spin_lock_bh(&dev->addr_list_lock);
+       unsigned char nest_level = 0;
+
+#ifdef CONFIG_LOCKDEP
+       nest_level = dev->nested_level;
+#endif
+       local_bh_disable();
+       spin_lock_nested(&dev->addr_list_lock, nest_level);
 }
 
 static inline void netif_addr_unlock(struct net_device *dev)
@@ -4455,12 +4474,38 @@ extern int              dev_rx_weight;
 extern int             dev_tx_weight;
 extern int             gro_normal_batch;
 
+enum {
+       NESTED_SYNC_IMM_BIT,
+       NESTED_SYNC_TODO_BIT,
+};
+
+#define __NESTED_SYNC_BIT(bit) ((u32)1 << (bit))
+#define __NESTED_SYNC(name)    __NESTED_SYNC_BIT(NESTED_SYNC_ ## name ## _BIT)
+
+#define NESTED_SYNC_IMM                __NESTED_SYNC(IMM)
+#define NESTED_SYNC_TODO       __NESTED_SYNC(TODO)
+
+struct netdev_nested_priv {
+       unsigned char flags;
+       void *data;
+};
+
 bool netdev_has_upper_dev(struct net_device *dev, struct net_device *upper_dev);
 struct net_device *netdev_upper_get_next_dev_rcu(struct net_device *dev,
                                                     struct list_head **iter);
 struct net_device *netdev_all_upper_get_next_dev_rcu(struct net_device *dev,
                                                     struct list_head **iter);
 
+#ifdef CONFIG_LOCKDEP
+static LIST_HEAD(net_unlink_list);
+
+static inline void net_unlink_todo(struct net_device *dev)
+{
+       if (list_empty(&dev->unlink_list))
+               list_add_tail(&dev->unlink_list, &net_unlink_list);
+}
+#endif
+
 /* iterate through upper list, must be called under RCU read lock */
 #define netdev_for_each_upper_dev_rcu(dev, updev, iter) \
        for (iter = &(dev)->adj_list.upper, \
@@ -4470,8 +4515,8 @@ struct net_device *netdev_all_upper_get_next_dev_rcu(struct net_device *dev,
 
 int netdev_walk_all_upper_dev_rcu(struct net_device *dev,
                                  int (*fn)(struct net_device *upper_dev,
-                                           void *data),
-                                 void *data);
+                                           struct netdev_nested_priv *priv),
+                                 struct netdev_nested_priv *priv);
 
 bool netdev_has_upper_dev_all_rcu(struct net_device *dev,
                                  struct net_device *upper_dev);
@@ -4508,12 +4553,12 @@ struct net_device *netdev_next_lower_dev_rcu(struct net_device *dev,
                                             struct list_head **iter);
 int netdev_walk_all_lower_dev(struct net_device *dev,
                              int (*fn)(struct net_device *lower_dev,
-                                       void *data),
-                             void *data);
+                                       struct netdev_nested_priv *priv),
+                             struct netdev_nested_priv *priv);
 int netdev_walk_all_lower_dev_rcu(struct net_device *dev,
                                  int (*fn)(struct net_device *lower_dev,
-                                           void *data),
-                                 void *data);
+                                           struct netdev_nested_priv *priv),
+                                 struct netdev_nested_priv *priv);
 
 void *netdev_adjacent_get_private(struct list_head *adj_list);
 void *netdev_lower_get_first_private_rcu(struct net_device *dev);
index 0189476..2fb373a 100644 (file)
@@ -161,20 +161,19 @@ extern int srcu_notifier_chain_unregister(struct srcu_notifier_head *nh,
 
 extern int atomic_notifier_call_chain(struct atomic_notifier_head *nh,
                unsigned long val, void *v);
-extern int __atomic_notifier_call_chain(struct atomic_notifier_head *nh,
-       unsigned long val, void *v, int nr_to_call, int *nr_calls);
 extern int blocking_notifier_call_chain(struct blocking_notifier_head *nh,
                unsigned long val, void *v);
-extern int __blocking_notifier_call_chain(struct blocking_notifier_head *nh,
-       unsigned long val, void *v, int nr_to_call, int *nr_calls);
 extern int raw_notifier_call_chain(struct raw_notifier_head *nh,
                unsigned long val, void *v);
-extern int __raw_notifier_call_chain(struct raw_notifier_head *nh,
-       unsigned long val, void *v, int nr_to_call, int *nr_calls);
 extern int srcu_notifier_call_chain(struct srcu_notifier_head *nh,
                unsigned long val, void *v);
-extern int __srcu_notifier_call_chain(struct srcu_notifier_head *nh,
-       unsigned long val, void *v, int nr_to_call, int *nr_calls);
+
+extern int atomic_notifier_call_chain_robust(struct atomic_notifier_head *nh,
+               unsigned long val_up, unsigned long val_down, void *v);
+extern int blocking_notifier_call_chain_robust(struct blocking_notifier_head *nh,
+               unsigned long val_up, unsigned long val_down, void *v);
+extern int raw_notifier_call_chain_robust(struct raw_notifier_head *nh,
+               unsigned long val_up, unsigned long val_down, void *v);
 
 #define NOTIFY_DONE            0x0000          /* Don't care */
 #define NOTIFY_OK              0x0001          /* Suits me */
index 657d6bf..4462ed2 100644 (file)
@@ -107,6 +107,12 @@ enum OID {
        OID_gostTC26Sign512B,           /* 1.2.643.7.1.2.1.2.2 */
        OID_gostTC26Sign512C,           /* 1.2.643.7.1.2.1.2.3 */
 
+       /* OSCCA */
+       OID_sm2,                        /* 1.2.156.10197.1.301 */
+       OID_sm3,                        /* 1.2.156.10197.1.401 */
+       OID_SM2_with_SM3,               /* 1.2.156.10197.1.501 */
+       OID_sm3WithRSAEncryption,       /* 1.2.156.10197.1.504 */
+
        OID__NR
 };
 
index 6be1aa5..276140c 100644 (file)
@@ -136,6 +136,9 @@ enum pageflags {
        PG_young,
        PG_idle,
 #endif
+#ifdef CONFIG_64BIT
+       PG_arch_2,
+#endif
        __NR_PAGEFLAGS,
 
        /* Filesystems */
index 7de11dc..434c9c3 100644 (file)
@@ -54,7 +54,8 @@ static inline void mapping_set_error(struct address_space *mapping, int error)
        __filemap_set_wb_err(mapping, error);
 
        /* Record it in superblock */
-       errseq_set(&mapping->host->i_sb->s_wb_err, error);
+       if (mapping->host)
+               errseq_set(&mapping->host->i_sb->s_wb_err, error);
 
        /* Record it in flags for now, for legacy callers */
        if (error == -ENOSPC)
index 8ad71d7..daf09ff 100644 (file)
@@ -55,6 +55,9 @@
 #define        IMAGE_FILE_MACHINE_POWERPC      0x01f0
 #define        IMAGE_FILE_MACHINE_POWERPCFP    0x01f1
 #define        IMAGE_FILE_MACHINE_R4000        0x0166
+#define        IMAGE_FILE_MACHINE_RISCV32      0x5032
+#define        IMAGE_FILE_MACHINE_RISCV64      0x5064
+#define        IMAGE_FILE_MACHINE_RISCV128     0x5128
 #define        IMAGE_FILE_MACHINE_SH3          0x01a2
 #define        IMAGE_FILE_MACHINE_SH3DSP       0x01a3
 #define        IMAGE_FILE_MACHINE_SH3E         0x01a4
index 5b616dd..5054802 100644 (file)
@@ -73,6 +73,7 @@ enum armpmu_attr_groups {
        ARMPMU_ATTR_GROUP_COMMON,
        ARMPMU_ATTR_GROUP_EVENTS,
        ARMPMU_ATTR_GROUP_FORMATS,
+       ARMPMU_ATTR_GROUP_CAPS,
        ARMPMU_NR_ATTR_GROUPS
 };
 
@@ -109,6 +110,8 @@ struct arm_pmu {
        struct notifier_block   cpu_pm_nb;
        /* the attr_groups array must be NULL-terminated */
        const struct attribute_group *attr_groups[ARMPMU_NR_ATTR_GROUPS + 1];
+       /* store the PMMIR_EL1 to expose slots */
+       u64             reg_pmmir;
 
        /* Only to be used by ACPI probing code */
        unsigned long acpi_cpuid;
index 04a49cc..0c19d27 100644 (file)
@@ -212,17 +212,26 @@ struct hw_perf_event {
         */
        u64                             sample_period;
 
-       /*
-        * The period we started this sample with.
-        */
-       u64                             last_period;
+       union {
+               struct { /* Sampling */
+                       /*
+                        * The period we started this sample with.
+                        */
+                       u64                             last_period;
 
-       /*
-        * However much is left of the current period; note that this is
-        * a full 64bit value and allows for generation of periods longer
-        * than hardware might allow.
-        */
-       local64_t                       period_left;
+                       /*
+                        * However much is left of the current period;
+                        * note that this is a full 64bit value and
+                        * allows for generation of periods longer
+                        * than hardware might allow.
+                        */
+                       local64_t                       period_left;
+               };
+               struct { /* Topdown events counting for context switch */
+                       u64                             saved_metric;
+                       u64                             saved_slots;
+               };
+       };
 
        /*
         * State for throttling the event, see __perf_event_overflow() and
@@ -576,9 +585,13 @@ typedef void (*perf_overflow_handler_t)(struct perf_event *,
  * PERF_EV_CAP_SOFTWARE: Is a software event.
  * PERF_EV_CAP_READ_ACTIVE_PKG: A CPU event (or cgroup event) that can be read
  * from any CPU in the package where it is active.
+ * PERF_EV_CAP_SIBLING: An event with this flag must be a group sibling and
+ * cannot be a group leader. If an event with this flag is detached from the
+ * group it is scheduled out and moved into an unrecoverable ERROR state.
  */
 #define PERF_EV_CAP_SOFTWARE           BIT(0)
 #define PERF_EV_CAP_READ_ACTIVE_PKG    BIT(1)
+#define PERF_EV_CAP_SIBLING            BIT(2)
 
 #define SWEVENT_HLIST_BITS             8
 #define SWEVENT_HLIST_SIZE             (1 << SWEVENT_HLIST_BITS)
@@ -859,7 +872,6 @@ struct perf_cpu_context {
        struct list_head                cgrp_cpuctx_entry;
 #endif
 
-       struct list_head                sched_cb_entry;
        int                             sched_cb_usage;
 
        int                             online;
index 90654cb..38c33ea 100644 (file)
@@ -633,6 +633,34 @@ static inline int arch_unmap_one(struct mm_struct *mm,
 }
 #endif
 
+/*
+ * Allow architectures to preserve additional metadata associated with
+ * swapped-out pages. The corresponding __HAVE_ARCH_SWAP_* macros and function
+ * prototypes must be defined in the arch-specific asm/pgtable.h file.
+ */
+#ifndef __HAVE_ARCH_PREPARE_TO_SWAP
+static inline int arch_prepare_to_swap(struct page *page)
+{
+       return 0;
+}
+#endif
+
+#ifndef __HAVE_ARCH_SWAP_INVALIDATE
+static inline void arch_swap_invalidate_page(int type, pgoff_t offset)
+{
+}
+
+static inline void arch_swap_invalidate_area(int type)
+{
+}
+#endif
+
+#ifndef __HAVE_ARCH_SWAP_RESTORE
+static inline void arch_swap_restore(swp_entry_t entry, struct page *page)
+{
+}
+#endif
+
 #ifndef __HAVE_ARCH_PGD_OFFSET_GATE
 #define pgd_offset_gate(mm, addr)      pgd_offset(mm, addr)
 #endif
index 9e46678..255d51c 100644 (file)
@@ -19,7 +19,7 @@
 #define AMD_FCH_GPIO_REG_GPIO49                0x40
 #define AMD_FCH_GPIO_REG_GPIO50                0x41
 #define AMD_FCH_GPIO_REG_GPIO51                0x42
-#define AMD_FCH_GPIO_REG_GPIO59_DEVSLP0        0x43
+#define AMD_FCH_GPIO_REG_GPIO55_DEVSLP0        0x43
 #define AMD_FCH_GPIO_REG_GPIO57                0x44
 #define AMD_FCH_GPIO_REG_GPIO58                0x45
 #define AMD_FCH_GPIO_REG_GPIO59_DEVSLP1        0x46
index 9cf0cd3..a0f6668 100644 (file)
@@ -27,9 +27,6 @@ static inline bool is_quota_modification(struct inode *inode, struct iattr *ia)
                (ia->ia_valid & ATTR_GID && !gid_eq(ia->ia_gid, inode->i_gid));
 }
 
-int kernel_quotactl(unsigned int cmd, const char __user *special,
-                   qid_t id, void __user *addr);
-
 #if defined(CONFIG_QUOTA)
 
 #define quota_error(sb, fmt, args...) \
index 7d012fa..3d1a9e7 100644 (file)
@@ -42,8 +42,8 @@ struct latch_tree_node {
 };
 
 struct latch_tree_root {
-       seqcount_t      seq;
-       struct rb_root  tree[2];
+       seqcount_latch_t        seq;
+       struct rb_root          tree[2];
 };
 
 /**
@@ -206,7 +206,7 @@ latch_tree_find(void *key, struct latch_tree_root *root,
        do {
                seq = raw_read_seqcount_latch(&root->seq);
                node = __lt_find(key, root, seq & 1, ops->comp);
-       } while (read_seqcount_retry(&root->seq, seq));
+       } while (read_seqcount_latch_retry(&root->seq, seq));
 
        return node;
 }
index 0e3ee25..7fabb1a 100644 (file)
@@ -165,7 +165,7 @@ static inline unsigned int refcount_read(const refcount_t *r)
  *
  * Return: false if the passed refcount is 0, true otherwise
  */
-static inline __must_check bool refcount_add_not_zero(int i, refcount_t *r)
+static inline __must_check bool __refcount_add_not_zero(int i, refcount_t *r, int *oldp)
 {
        int old = refcount_read(r);
 
@@ -174,12 +174,20 @@ static inline __must_check bool refcount_add_not_zero(int i, refcount_t *r)
                        break;
        } while (!atomic_try_cmpxchg_relaxed(&r->refs, &old, old + i));
 
+       if (oldp)
+               *oldp = old;
+
        if (unlikely(old < 0 || old + i < 0))
                refcount_warn_saturate(r, REFCOUNT_ADD_NOT_ZERO_OVF);
 
        return old;
 }
 
+static inline __must_check bool refcount_add_not_zero(int i, refcount_t *r)
+{
+       return __refcount_add_not_zero(i, r, NULL);
+}
+
 /**
  * refcount_add - add a value to a refcount
  * @i: the value to add to the refcount
@@ -196,16 +204,24 @@ static inline __must_check bool refcount_add_not_zero(int i, refcount_t *r)
  * cases, refcount_inc(), or one of its variants, should instead be used to
  * increment a reference count.
  */
-static inline void refcount_add(int i, refcount_t *r)
+static inline void __refcount_add(int i, refcount_t *r, int *oldp)
 {
        int old = atomic_fetch_add_relaxed(i, &r->refs);
 
+       if (oldp)
+               *oldp = old;
+
        if (unlikely(!old))
                refcount_warn_saturate(r, REFCOUNT_ADD_UAF);
        else if (unlikely(old < 0 || old + i < 0))
                refcount_warn_saturate(r, REFCOUNT_ADD_OVF);
 }
 
+static inline void refcount_add(int i, refcount_t *r)
+{
+       __refcount_add(i, r, NULL);
+}
+
 /**
  * refcount_inc_not_zero - increment a refcount unless it is 0
  * @r: the refcount to increment
@@ -219,9 +235,14 @@ static inline void refcount_add(int i, refcount_t *r)
  *
  * Return: true if the increment was successful, false otherwise
  */
+static inline __must_check bool __refcount_inc_not_zero(refcount_t *r, int *oldp)
+{
+       return __refcount_add_not_zero(1, r, oldp);
+}
+
 static inline __must_check bool refcount_inc_not_zero(refcount_t *r)
 {
-       return refcount_add_not_zero(1, r);
+       return __refcount_inc_not_zero(r, NULL);
 }
 
 /**
@@ -236,9 +257,14 @@ static inline __must_check bool refcount_inc_not_zero(refcount_t *r)
  * Will WARN if the refcount is 0, as this represents a possible use-after-free
  * condition.
  */
+static inline void __refcount_inc(refcount_t *r, int *oldp)
+{
+       __refcount_add(1, r, oldp);
+}
+
 static inline void refcount_inc(refcount_t *r)
 {
-       refcount_add(1, r);
+       __refcount_inc(r, NULL);
 }
 
 /**
@@ -261,10 +287,13 @@ static inline void refcount_inc(refcount_t *r)
  *
  * Return: true if the resulting refcount is 0, false otherwise
  */
-static inline __must_check bool refcount_sub_and_test(int i, refcount_t *r)
+static inline __must_check bool __refcount_sub_and_test(int i, refcount_t *r, int *oldp)
 {
        int old = atomic_fetch_sub_release(i, &r->refs);
 
+       if (oldp)
+               *oldp = old;
+
        if (old == i) {
                smp_acquire__after_ctrl_dep();
                return true;
@@ -276,6 +305,11 @@ static inline __must_check bool refcount_sub_and_test(int i, refcount_t *r)
        return false;
 }
 
+static inline __must_check bool refcount_sub_and_test(int i, refcount_t *r)
+{
+       return __refcount_sub_and_test(i, r, NULL);
+}
+
 /**
  * refcount_dec_and_test - decrement a refcount and test if it is 0
  * @r: the refcount
@@ -289,9 +323,14 @@ static inline __must_check bool refcount_sub_and_test(int i, refcount_t *r)
  *
  * Return: true if the resulting refcount is 0, false otherwise
  */
+static inline __must_check bool __refcount_dec_and_test(refcount_t *r, int *oldp)
+{
+       return __refcount_sub_and_test(1, r, oldp);
+}
+
 static inline __must_check bool refcount_dec_and_test(refcount_t *r)
 {
-       return refcount_sub_and_test(1, r);
+       return __refcount_dec_and_test(r, NULL);
 }
 
 /**
@@ -304,12 +343,22 @@ static inline __must_check bool refcount_dec_and_test(refcount_t *r)
  * Provides release memory ordering, such that prior loads and stores are done
  * before.
  */
-static inline void refcount_dec(refcount_t *r)
+static inline void __refcount_dec(refcount_t *r, int *oldp)
 {
-       if (unlikely(atomic_fetch_sub_release(1, &r->refs) <= 1))
+       int old = atomic_fetch_sub_release(1, &r->refs);
+
+       if (oldp)
+               *oldp = old;
+
+       if (unlikely(old <= 1))
                refcount_warn_saturate(r, REFCOUNT_DEC_LEAK);
 }
 
+static inline void refcount_dec(refcount_t *r)
+{
+       __refcount_dec(r, NULL);
+}
+
 extern __must_check bool refcount_dec_if_one(refcount_t *r);
 extern __must_check bool refcount_dec_not_one(refcount_t *r);
 extern __must_check bool refcount_dec_and_mutex_lock(refcount_t *r, struct mutex *lock);
index daf5cf6..9b05af9 100644 (file)
@@ -2,6 +2,8 @@
 #ifndef _RESCTRL_H
 #define _RESCTRL_H
 
+#include <linux/pid.h>
+
 #ifdef CONFIG_PROC_CPU_RESCTRL
 
 int proc_resctrl_show(struct seq_file *m,
index afe01e2..d383cf0 100644 (file)
@@ -1308,6 +1308,8 @@ struct task_struct {
 #endif
 
 #ifdef CONFIG_X86_MCE
+       void __user                     *mce_vaddr;
+       __u64                           mce_kflags;
        u64                             mce_addr;
        __u64                           mce_ripv : 1,
                                        mce_whole_page : 1,
@@ -1489,9 +1491,10 @@ extern struct pid *cad_pid;
 /*
  * Per process flags
  */
+#define PF_VCPU                        0x00000001      /* I'm a virtual CPU */
 #define PF_IDLE                        0x00000002      /* I am an IDLE thread */
 #define PF_EXITING             0x00000004      /* Getting shut down */
-#define PF_VCPU                        0x00000010      /* I'm a virtual CPU */
+#define PF_IO_WORKER           0x00000010      /* Task is an IO worker */
 #define PF_WQ_WORKER           0x00000020      /* I'm a workqueue worker */
 #define PF_FORKNOEXEC          0x00000040      /* Forked but didn't exec */
 #define PF_MCE_PROCESS         0x00000080      /* Process policy on mce errors */
@@ -1515,7 +1518,6 @@ extern struct pid *cad_pid;
 #define PF_NO_SETAFFINITY      0x04000000      /* Userland is not allowed to meddle with cpus_mask */
 #define PF_MCE_EARLY           0x08000000      /* Early kill for mce process policy */
 #define PF_MEMALLOC_NOCMA      0x10000000      /* All allocation request will have _GFP_MOVABLE cleared */
-#define PF_IO_WORKER           0x20000000      /* Task is an IO worker */
 #define PF_FREEZER_SKIP                0x40000000      /* Freezer should not count it as freezable */
 #define PF_SUSPEND_TASK                0x80000000      /* This thread called freeze_processes() and should not be frozen */
 
@@ -2044,6 +2046,7 @@ const struct sched_avg *sched_trace_rq_avg_dl(struct rq *rq);
 const struct sched_avg *sched_trace_rq_avg_irq(struct rq *rq);
 
 int sched_trace_rq_cpu(struct rq *rq);
+int sched_trace_rq_cpu_capacity(struct rq *rq);
 int sched_trace_rq_nr_running(struct rq *rq);
 
 const struct cpumask *sched_trace_rd_span(struct root_domain *rd);
index f889e33..15bfb06 100644 (file)
@@ -348,10 +348,13 @@ enum {
        MEMBARRIER_STATE_GLOBAL_EXPEDITED                       = (1U << 3),
        MEMBARRIER_STATE_PRIVATE_EXPEDITED_SYNC_CORE_READY      = (1U << 4),
        MEMBARRIER_STATE_PRIVATE_EXPEDITED_SYNC_CORE            = (1U << 5),
+       MEMBARRIER_STATE_PRIVATE_EXPEDITED_RSEQ_READY           = (1U << 6),
+       MEMBARRIER_STATE_PRIVATE_EXPEDITED_RSEQ                 = (1U << 7),
 };
 
 enum {
        MEMBARRIER_FLAG_SYNC_CORE       = (1U << 0),
+       MEMBARRIER_FLAG_RSEQ            = (1U << 1),
 };
 
 #ifdef CONFIG_ARCH_HAS_MEMBARRIER_CALLBACKS
diff --git a/include/linux/sched/sd_flags.h b/include/linux/sched/sd_flags.h
new file mode 100644 (file)
index 0000000..34b21e9
--- /dev/null
@@ -0,0 +1,156 @@
+/* SPDX-License-Identifier: GPL-2.0 */
+/*
+ * sched-domains (multiprocessor balancing) flag declarations.
+ */
+
+#ifndef SD_FLAG
+# error "Incorrect import of SD flags definitions"
+#endif
+
+/*
+ * Hierarchical metaflags
+ *
+ * SHARED_CHILD: These flags are meant to be set from the base domain upwards.
+ * If a domain has this flag set, all of its children should have it set. This
+ * is usually because the flag describes some shared resource (all CPUs in that
+ * domain share the same resource), or because they are tied to a scheduling
+ * behaviour that we want to disable at some point in the hierarchy for
+ * scalability reasons.
+ *
+ * In those cases it doesn't make sense to have the flag set for a domain but
+ * not have it in (some of) its children: sched domains ALWAYS span their child
+ * domains, so operations done with parent domains will cover CPUs in the lower
+ * child domains.
+ *
+ *
+ * SHARED_PARENT: These flags are meant to be set from the highest domain
+ * downwards. If a domain has this flag set, all of its parents should have it
+ * set. This is usually for topology properties that start to appear above a
+ * certain level (e.g. domain starts spanning CPUs outside of the base CPU's
+ * socket).
+ */
+#define SDF_SHARED_CHILD       0x1
+#define SDF_SHARED_PARENT      0x2
+
+/*
+ * Behavioural metaflags
+ *
+ * NEEDS_GROUPS: These flags are only relevant if the domain they are set on has
+ * more than one group. This is usually for balancing flags (load balancing
+ * involves equalizing a metric between groups), or for flags describing some
+ * shared resource (which would be shared between groups).
+ */
+#define SDF_NEEDS_GROUPS       0x4
+
+/*
+ * Balance when about to become idle
+ *
+ * SHARED_CHILD: Set from the base domain up to cpuset.sched_relax_domain_level.
+ * NEEDS_GROUPS: Load balancing flag.
+ */
+SD_FLAG(SD_BALANCE_NEWIDLE, SDF_SHARED_CHILD | SDF_NEEDS_GROUPS)
+
+/*
+ * Balance on exec
+ *
+ * SHARED_CHILD: Set from the base domain up to the NUMA reclaim level.
+ * NEEDS_GROUPS: Load balancing flag.
+ */
+SD_FLAG(SD_BALANCE_EXEC, SDF_SHARED_CHILD | SDF_NEEDS_GROUPS)
+
+/*
+ * Balance on fork, clone
+ *
+ * SHARED_CHILD: Set from the base domain up to the NUMA reclaim level.
+ * NEEDS_GROUPS: Load balancing flag.
+ */
+SD_FLAG(SD_BALANCE_FORK, SDF_SHARED_CHILD | SDF_NEEDS_GROUPS)
+
+/*
+ * Balance on wakeup
+ *
+ * SHARED_CHILD: Set from the base domain up to cpuset.sched_relax_domain_level.
+ * NEEDS_GROUPS: Load balancing flag.
+ */
+SD_FLAG(SD_BALANCE_WAKE, SDF_SHARED_CHILD | SDF_NEEDS_GROUPS)
+
+/*
+ * Consider waking task on waking CPU.
+ *
+ * SHARED_CHILD: Set from the base domain up to the NUMA reclaim level.
+ */
+SD_FLAG(SD_WAKE_AFFINE, SDF_SHARED_CHILD)
+
+/*
+ * Domain members have different CPU capacities
+ *
+ * SHARED_PARENT: Set from the topmost domain down to the first domain where
+ *                asymmetry is detected.
+ * NEEDS_GROUPS: Per-CPU capacity is asymmetric between groups.
+ */
+SD_FLAG(SD_ASYM_CPUCAPACITY, SDF_SHARED_PARENT | SDF_NEEDS_GROUPS)
+
+/*
+ * Domain members share CPU capacity (i.e. SMT)
+ *
+ * SHARED_CHILD: Set from the base domain up until spanned CPUs no longer share
+ *               CPU capacity.
+ * NEEDS_GROUPS: Capacity is shared between groups.
+ */
+SD_FLAG(SD_SHARE_CPUCAPACITY, SDF_SHARED_CHILD | SDF_NEEDS_GROUPS)
+
+/*
+ * Domain members share CPU package resources (i.e. caches)
+ *
+ * SHARED_CHILD: Set from the base domain up until spanned CPUs no longer share
+ *               the same cache(s).
+ * NEEDS_GROUPS: Caches are shared between groups.
+ */
+SD_FLAG(SD_SHARE_PKG_RESOURCES, SDF_SHARED_CHILD | SDF_NEEDS_GROUPS)
+
+/*
+ * Only a single load balancing instance
+ *
+ * SHARED_PARENT: Set for all NUMA levels above NODE. Could be set from a
+ *                different level upwards, but it doesn't change that if a
+ *                domain has this flag set, then all of its parents need to have
+ *                it too (otherwise the serialization doesn't make sense).
+ * NEEDS_GROUPS: No point in preserving domain if it has a single group.
+ */
+SD_FLAG(SD_SERIALIZE, SDF_SHARED_PARENT | SDF_NEEDS_GROUPS)
+
+/*
+ * Place busy tasks earlier in the domain
+ *
+ * SHARED_CHILD: Usually set on the SMT level. Technically could be set further
+ *               up, but currently assumed to be set from the base domain
+ *               upwards (see update_top_cache_domain()).
+ * NEEDS_GROUPS: Load balancing flag.
+ */
+SD_FLAG(SD_ASYM_PACKING, SDF_SHARED_CHILD | SDF_NEEDS_GROUPS)
+
+/*
+ * Prefer to place tasks in a sibling domain
+ *
+ * Set up until domains start spanning NUMA nodes. Close to being a SHARED_CHILD
+ * flag, but cleared below domains with SD_ASYM_CPUCAPACITY.
+ *
+ * NEEDS_GROUPS: Load balancing flag.
+ */
+SD_FLAG(SD_PREFER_SIBLING, SDF_NEEDS_GROUPS)
+
+/*
+ * sched_groups of this level overlap
+ *
+ * SHARED_PARENT: Set for all NUMA levels above NODE.
+ * NEEDS_GROUPS: Overlaps can only exist with more than one group.
+ */
+SD_FLAG(SD_OVERLAP, SDF_SHARED_PARENT | SDF_NEEDS_GROUPS)
+
+/*
+ * Cross-node balancing
+ *
+ * SHARED_PARENT: Set for all NUMA levels above NODE.
+ * NEEDS_GROUPS: No point in preserving domain if it has a single group.
+ */
+SD_FLAG(SD_NUMA, SDF_SHARED_PARENT | SDF_NEEDS_GROUPS)
index 8205112..9ef7bf6 100644 (file)
  */
 #ifdef CONFIG_SMP
 
-#define SD_BALANCE_NEWIDLE     0x0001  /* Balance when about to become idle */
-#define SD_BALANCE_EXEC                0x0002  /* Balance on exec */
-#define SD_BALANCE_FORK                0x0004  /* Balance on fork, clone */
-#define SD_BALANCE_WAKE                0x0008  /* Balance on wakeup */
-#define SD_WAKE_AFFINE         0x0010  /* Wake task to waking CPU */
-#define SD_ASYM_CPUCAPACITY    0x0020  /* Domain members have different CPU capacities */
-#define SD_SHARE_CPUCAPACITY   0x0040  /* Domain members share CPU capacity */
-#define SD_SHARE_POWERDOMAIN   0x0080  /* Domain members share power domain */
-#define SD_SHARE_PKG_RESOURCES 0x0100  /* Domain members share CPU pkg resources */
-#define SD_SERIALIZE           0x0200  /* Only a single load balancing instance */
-#define SD_ASYM_PACKING                0x0400  /* Place busy groups earlier in the domain */
-#define SD_PREFER_SIBLING      0x0800  /* Prefer to place tasks in a sibling domain */
-#define SD_OVERLAP             0x1000  /* sched_domains of this level overlap */
-#define SD_NUMA                        0x2000  /* cross-node balancing */
+/* Generate SD flag indexes */
+#define SD_FLAG(name, mflags) __##name,
+enum {
+       #include <linux/sched/sd_flags.h>
+       __SD_FLAG_CNT,
+};
+#undef SD_FLAG
+/* Generate SD flag bits */
+#define SD_FLAG(name, mflags) name = 1 << __##name,
+enum {
+       #include <linux/sched/sd_flags.h>
+};
+#undef SD_FLAG
+
+#ifdef CONFIG_SCHED_DEBUG
+
+struct sd_flag_debug {
+       unsigned int meta_flags;
+       char *name;
+};
+extern const struct sd_flag_debug sd_flag_debug[];
+
+#endif
 
 #ifdef CONFIG_SCHED_SMT
 static inline int cpu_smt_flags(void)
index 962d976..ac5b07f 100644 (file)
@@ -17,6 +17,7 @@
 #include <linux/kcsan-checks.h>
 #include <linux/lockdep.h>
 #include <linux/mutex.h>
+#include <linux/ww_mutex.h>
 #include <linux/preempt.h>
 #include <linux/spinlock.h>
 
@@ -53,7 +54,7 @@
  *
  * If the write serialization mechanism is one of the common kernel
  * locking primitives, use a sequence counter with associated lock
- * (seqcount_LOCKTYPE_t) instead.
+ * (seqcount_LOCKNAME_t) instead.
  *
  * If it's desired to automatically handle the sequence counter writer
  * serialization and non-preemptibility requirements, use a sequential
@@ -117,7 +118,7 @@ static inline void seqcount_lockdep_reader_access(const seqcount_t *s)
 #define SEQCNT_ZERO(name) { .sequence = 0, SEQCOUNT_DEP_MAP_INIT(name) }
 
 /*
- * Sequence counters with associated locks (seqcount_LOCKTYPE_t)
+ * Sequence counters with associated locks (seqcount_LOCKNAME_t)
  *
  * A sequence counter which associates the lock used for writer
  * serialization at initialization time. This enables lockdep to validate
@@ -131,63 +132,117 @@ static inline void seqcount_lockdep_reader_access(const seqcount_t *s)
  * See Documentation/locking/seqlock.rst
  */
 
-#ifdef CONFIG_LOCKDEP
+/*
+ * For PREEMPT_RT, seqcount_LOCKNAME_t write side critical sections cannot
+ * disable preemption. It can lead to higher latencies, and the write side
+ * sections will not be able to acquire locks which become sleeping locks
+ * (e.g. spinlock_t).
+ *
+ * To remain preemptible while avoiding a possible livelock caused by the
+ * reader preempting the writer, use a different technique: let the reader
+ * detect if a seqcount_LOCKNAME_t writer is in progress. If that is the
+ * case, acquire then release the associated LOCKNAME writer serialization
+ * lock. This will allow any possibly-preempted writer to make progress
+ * until the end of its writer serialization lock critical section.
+ *
+ * This lock-unlock technique must be implemented for all of PREEMPT_RT
+ * sleeping locks.  See Documentation/locking/locktypes.rst
+ */
+#if defined(CONFIG_LOCKDEP) || defined(CONFIG_PREEMPT_RT)
 #define __SEQ_LOCK(expr)       expr
 #else
 #define __SEQ_LOCK(expr)
 #endif
 
 /**
- * typedef seqcount_LOCKNAME_t - sequence counter with LOCKTYPR associated
+ * typedef seqcount_LOCKNAME_t - sequence counter with LOCKNAME associated
  * @seqcount:  The real sequence counter
- * @lock:      Pointer to the associated spinlock
+ * @lock:      Pointer to the associated lock
  *
- * A plain sequence counter with external writer synchronization by a
- * spinlock. The spinlock is associated to the sequence count in the
+ * A plain sequence counter with external writer synchronization by
+ * LOCKNAME @lock. The lock is associated to the sequence counter in the
  * static initializer or init function. This enables lockdep to validate
  * that the write side critical section is properly serialized.
+ *
+ * LOCKNAME:   raw_spinlock, spinlock, rwlock, mutex, or ww_mutex.
  */
 
-/**
+/*
  * seqcount_LOCKNAME_init() - runtime initializer for seqcount_LOCKNAME_t
  * @s:         Pointer to the seqcount_LOCKNAME_t instance
- * @lock:      Pointer to the associated LOCKTYPE
+ * @lock:      Pointer to the associated lock
  */
 
+#define seqcount_LOCKNAME_init(s, _lock, lockname)                     \
+       do {                                                            \
+               seqcount_##lockname##_t *____s = (s);                   \
+               seqcount_init(&____s->seqcount);                        \
+               __SEQ_LOCK(____s->lock = (_lock));                      \
+       } while (0)
+
+#define seqcount_raw_spinlock_init(s, lock)    seqcount_LOCKNAME_init(s, lock, raw_spinlock)
+#define seqcount_spinlock_init(s, lock)                seqcount_LOCKNAME_init(s, lock, spinlock)
+#define seqcount_rwlock_init(s, lock)          seqcount_LOCKNAME_init(s, lock, rwlock);
+#define seqcount_mutex_init(s, lock)           seqcount_LOCKNAME_init(s, lock, mutex);
+#define seqcount_ww_mutex_init(s, lock)                seqcount_LOCKNAME_init(s, lock, ww_mutex);
+
 /*
- * SEQCOUNT_LOCKTYPE() - Instantiate seqcount_LOCKNAME_t and helpers
- * @locktype:          actual typename
- * @lockname:          name
+ * SEQCOUNT_LOCKNAME() - Instantiate seqcount_LOCKNAME_t and helpers
+ * seqprop_LOCKNAME_*()        - Property accessors for seqcount_LOCKNAME_t
+ *
+ * @lockname:          "LOCKNAME" part of seqcount_LOCKNAME_t
+ * @locktype:          LOCKNAME canonical C data type
  * @preemptible:       preemptibility of above locktype
  * @lockmember:                argument for lockdep_assert_held()
+ * @lockbase:          associated lock release function (prefix only)
+ * @lock_acquire:      associated lock acquisition function (full call)
  */
-#define SEQCOUNT_LOCKTYPE(locktype, lockname, preemptible, lockmember) \
+#define SEQCOUNT_LOCKNAME(lockname, locktype, preemptible, lockmember, lockbase, lock_acquire) \
 typedef struct seqcount_##lockname {                                   \
        seqcount_t              seqcount;                               \
        __SEQ_LOCK(locktype     *lock);                                 \
 } seqcount_##lockname##_t;                                             \
                                                                        \
-static __always_inline void                                            \
-seqcount_##lockname##_init(seqcount_##lockname##_t *s, locktype *lock) \
+static __always_inline seqcount_t *                                    \
+__seqprop_##lockname##_ptr(seqcount_##lockname##_t *s)                 \
 {                                                                      \
-       seqcount_init(&s->seqcount);                                    \
-       __SEQ_LOCK(s->lock = lock);                                     \
+       return &s->seqcount;                                            \
 }                                                                      \
                                                                        \
-static __always_inline seqcount_t *                                    \
-__seqcount_##lockname##_ptr(seqcount_##lockname##_t *s)                        \
+static __always_inline unsigned                                                \
+__seqprop_##lockname##_sequence(const seqcount_##lockname##_t *s)      \
 {                                                                      \
-       return &s->seqcount;                                            \
+       unsigned seq = READ_ONCE(s->seqcount.sequence);                 \
+                                                                       \
+       if (!IS_ENABLED(CONFIG_PREEMPT_RT))                             \
+               return seq;                                             \
+                                                                       \
+       if (preemptible && unlikely(seq & 1)) {                         \
+               __SEQ_LOCK(lock_acquire);                               \
+               __SEQ_LOCK(lockbase##_unlock(s->lock));                 \
+                                                                       \
+               /*                                                      \
+                * Re-read the sequence counter since the (possibly     \
+                * preempted) writer made progress.                     \
+                */                                                     \
+               seq = READ_ONCE(s->seqcount.sequence);                  \
+       }                                                               \
+                                                                       \
+       return seq;                                                     \
 }                                                                      \
                                                                        \
 static __always_inline bool                                            \
-__seqcount_##lockname##_preemptible(seqcount_##lockname##_t *s)                \
+__seqprop_##lockname##_preemptible(const seqcount_##lockname##_t *s)   \
 {                                                                      \
-       return preemptible;                                             \
+       if (!IS_ENABLED(CONFIG_PREEMPT_RT))                             \
+               return preemptible;                                     \
+                                                                       \
+       /* PREEMPT_RT relies on the above LOCK+UNLOCK */                \
+       return false;                                                   \
 }                                                                      \
                                                                        \
 static __always_inline void                                            \
-__seqcount_##lockname##_assert(seqcount_##lockname##_t *s)             \
+__seqprop_##lockname##_assert(const seqcount_##lockname##_t *s)                \
 {                                                                      \
        __SEQ_LOCK(lockdep_assert_held(lockmember));                    \
 }
@@ -196,50 +251,56 @@ __seqcount_##lockname##_assert(seqcount_##lockname##_t *s)                \
  * __seqprop() for seqcount_t
  */
 
-static inline seqcount_t *__seqcount_ptr(seqcount_t *s)
+static inline seqcount_t *__seqprop_ptr(seqcount_t *s)
 {
        return s;
 }
 
-static inline bool __seqcount_preemptible(seqcount_t *s)
+static inline unsigned __seqprop_sequence(const seqcount_t *s)
+{
+       return READ_ONCE(s->sequence);
+}
+
+static inline bool __seqprop_preemptible(const seqcount_t *s)
 {
        return false;
 }
 
-static inline void __seqcount_assert(seqcount_t *s)
+static inline void __seqprop_assert(const seqcount_t *s)
 {
        lockdep_assert_preemption_disabled();
 }
 
-SEQCOUNT_LOCKTYPE(raw_spinlock_t,      raw_spinlock,   false,  s->lock)
-SEQCOUNT_LOCKTYPE(spinlock_t,          spinlock,       false,  s->lock)
-SEQCOUNT_LOCKTYPE(rwlock_t,            rwlock,         false,  s->lock)
-SEQCOUNT_LOCKTYPE(struct mutex,                mutex,          true,   s->lock)
-SEQCOUNT_LOCKTYPE(struct ww_mutex,     ww_mutex,       true,   &s->lock->base)
+#define __SEQ_RT       IS_ENABLED(CONFIG_PREEMPT_RT)
 
-/**
+SEQCOUNT_LOCKNAME(raw_spinlock, raw_spinlock_t,  false,    s->lock,        raw_spin, raw_spin_lock(s->lock))
+SEQCOUNT_LOCKNAME(spinlock,     spinlock_t,      __SEQ_RT, s->lock,        spin,     spin_lock(s->lock))
+SEQCOUNT_LOCKNAME(rwlock,       rwlock_t,        __SEQ_RT, s->lock,        read,     read_lock(s->lock))
+SEQCOUNT_LOCKNAME(mutex,        struct mutex,    true,     s->lock,        mutex,    mutex_lock(s->lock))
+SEQCOUNT_LOCKNAME(ww_mutex,     struct ww_mutex, true,     &s->lock->base, ww_mutex, ww_mutex_lock(s->lock, NULL))
+
+/*
  * SEQCNT_LOCKNAME_ZERO - static initializer for seqcount_LOCKNAME_t
  * @name:      Name of the seqcount_LOCKNAME_t instance
- * @lock:      Pointer to the associated LOCKTYPE
+ * @lock:      Pointer to the associated LOCKNAME
  */
 
-#define SEQCOUNT_LOCKTYPE_ZERO(seq_name, assoc_lock) {                 \
+#define SEQCOUNT_LOCKNAME_ZERO(seq_name, assoc_lock) {                 \
        .seqcount               = SEQCNT_ZERO(seq_name.seqcount),       \
        __SEQ_LOCK(.lock        = (assoc_lock))                         \
 }
 
-#define SEQCNT_SPINLOCK_ZERO(name, lock)       SEQCOUNT_LOCKTYPE_ZERO(name, lock)
-#define SEQCNT_RAW_SPINLOCK_ZERO(name, lock)   SEQCOUNT_LOCKTYPE_ZERO(name, lock)
-#define SEQCNT_RWLOCK_ZERO(name, lock)         SEQCOUNT_LOCKTYPE_ZERO(name, lock)
-#define SEQCNT_MUTEX_ZERO(name, lock)          SEQCOUNT_LOCKTYPE_ZERO(name, lock)
-#define SEQCNT_WW_MUTEX_ZERO(name, lock)       SEQCOUNT_LOCKTYPE_ZERO(name, lock)
-
+#define SEQCNT_RAW_SPINLOCK_ZERO(name, lock)   SEQCOUNT_LOCKNAME_ZERO(name, lock)
+#define SEQCNT_SPINLOCK_ZERO(name, lock)       SEQCOUNT_LOCKNAME_ZERO(name, lock)
+#define SEQCNT_RWLOCK_ZERO(name, lock)         SEQCOUNT_LOCKNAME_ZERO(name, lock)
+#define SEQCNT_MUTEX_ZERO(name, lock)          SEQCOUNT_LOCKNAME_ZERO(name, lock)
+#define SEQCNT_WW_MUTEX_ZERO(name, lock)       SEQCOUNT_LOCKNAME_ZERO(name, lock)
 
 #define __seqprop_case(s, lockname, prop)                              \
-       seqcount_##lockname##_t: __seqcount_##lockname##_##prop((void *)(s))
+       seqcount_##lockname##_t: __seqprop_##lockname##_##prop((void *)(s))
 
 #define __seqprop(s, prop) _Generic(*(s),                              \
-       seqcount_t:             __seqcount_##prop((void *)(s)),         \
+       seqcount_t:             __seqprop_##prop((void *)(s)),          \
        __seqprop_case((s),     raw_spinlock,   prop),                  \
        __seqprop_case((s),     spinlock,       prop),                  \
        __seqprop_case((s),     rwlock,         prop),                  \
@@ -247,12 +308,13 @@ SEQCOUNT_LOCKTYPE(struct ww_mutex,        ww_mutex,       true,   &s->lock->base)
        __seqprop_case((s),     ww_mutex,       prop))
 
 #define __seqcount_ptr(s)              __seqprop(s, ptr)
+#define __seqcount_sequence(s)         __seqprop(s, sequence)
 #define __seqcount_lock_preemptible(s) __seqprop(s, preemptible)
 #define __seqcount_assert_lock_held(s) __seqprop(s, assert)
 
 /**
  * __read_seqcount_begin() - begin a seqcount_t read section w/o barrier
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+ * @s: Pointer to seqcount_t or any of the seqcount_LOCKNAME_t variants
  *
  * __read_seqcount_begin is like read_seqcount_begin, but has no smp_rmb()
  * barrier. Callers should ensure that smp_rmb() or equivalent ordering is
@@ -265,56 +327,45 @@ SEQCOUNT_LOCKTYPE(struct ww_mutex,        ww_mutex,       true,   &s->lock->base)
  * Return: count to be passed to read_seqcount_retry()
  */
 #define __read_seqcount_begin(s)                                       \
-       __read_seqcount_t_begin(__seqcount_ptr(s))
-
-static inline unsigned __read_seqcount_t_begin(const seqcount_t *s)
-{
-       unsigned ret;
-
-repeat:
-       ret = READ_ONCE(s->sequence);
-       if (unlikely(ret & 1)) {
-               cpu_relax();
-               goto repeat;
-       }
-       kcsan_atomic_next(KCSAN_SEQLOCK_REGION_MAX);
-       return ret;
-}
+({                                                                     \
+       unsigned seq;                                                   \
+                                                                       \
+       while ((seq = __seqcount_sequence(s)) & 1)                      \
+               cpu_relax();                                            \
+                                                                       \
+       kcsan_atomic_next(KCSAN_SEQLOCK_REGION_MAX);                    \
+       seq;                                                            \
+})
 
 /**
  * raw_read_seqcount_begin() - begin a seqcount_t read section w/o lockdep
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+ * @s: Pointer to seqcount_t or any of the seqcount_LOCKNAME_t variants
  *
  * Return: count to be passed to read_seqcount_retry()
  */
 #define raw_read_seqcount_begin(s)                                     \
-       raw_read_seqcount_t_begin(__seqcount_ptr(s))
-
-static inline unsigned raw_read_seqcount_t_begin(const seqcount_t *s)
-{
-       unsigned ret = __read_seqcount_t_begin(s);
-       smp_rmb();
-       return ret;
-}
+({                                                                     \
+       unsigned seq = __read_seqcount_begin(s);                        \
+                                                                       \
+       smp_rmb();                                                      \
+       seq;                                                            \
+})
 
 /**
  * read_seqcount_begin() - begin a seqcount_t read critical section
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+ * @s: Pointer to seqcount_t or any of the seqcount_LOCKNAME_t variants
  *
  * Return: count to be passed to read_seqcount_retry()
  */
 #define read_seqcount_begin(s)                                         \
-       read_seqcount_t_begin(__seqcount_ptr(s))
-
-static inline unsigned read_seqcount_t_begin(const seqcount_t *s)
-{
-       seqcount_lockdep_reader_access(s);
-       return raw_read_seqcount_t_begin(s);
-}
+({                                                                     \
+       seqcount_lockdep_reader_access(__seqcount_ptr(s));              \
+       raw_read_seqcount_begin(s);                                     \
+})
 
 /**
  * raw_read_seqcount() - read the raw seqcount_t counter value
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+ * @s: Pointer to seqcount_t or any of the seqcount_LOCKNAME_t variants
  *
  * raw_read_seqcount opens a read critical section of the given
  * seqcount_t, without any lockdep checking, and without checking or
@@ -324,20 +375,18 @@ static inline unsigned read_seqcount_t_begin(const seqcount_t *s)
  * Return: count to be passed to read_seqcount_retry()
  */
 #define raw_read_seqcount(s)                                           \
-       raw_read_seqcount_t(__seqcount_ptr(s))
-
-static inline unsigned raw_read_seqcount_t(const seqcount_t *s)
-{
-       unsigned ret = READ_ONCE(s->sequence);
-       smp_rmb();
-       kcsan_atomic_next(KCSAN_SEQLOCK_REGION_MAX);
-       return ret;
-}
+({                                                                     \
+       unsigned seq = __seqcount_sequence(s);                          \
+                                                                       \
+       smp_rmb();                                                      \
+       kcsan_atomic_next(KCSAN_SEQLOCK_REGION_MAX);                    \
+       seq;                                                            \
+})
 
 /**
  * raw_seqcount_begin() - begin a seqcount_t read critical section w/o
  *                        lockdep and w/o counter stabilization
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+ * @s: Pointer to seqcount_t or any of the seqcount_LOCKNAME_t variants
  *
  * raw_seqcount_begin opens a read critical section of the given
  * seqcount_t. Unlike read_seqcount_begin(), this function will not wait
@@ -352,20 +401,17 @@ static inline unsigned raw_read_seqcount_t(const seqcount_t *s)
  * Return: count to be passed to read_seqcount_retry()
  */
 #define raw_seqcount_begin(s)                                          \
-       raw_seqcount_t_begin(__seqcount_ptr(s))
-
-static inline unsigned raw_seqcount_t_begin(const seqcount_t *s)
-{
-       /*
-        * If the counter is odd, let read_seqcount_retry() fail
-        * by decrementing the counter.
-        */
-       return raw_read_seqcount_t(s) & ~1;
-}
+({                                                                     \
+       /*                                                              \
+        * If the counter is odd, let read_seqcount_retry() fail        \
+        * by decrementing the counter.                                 \
+        */                                                             \
+       raw_read_seqcount(s) & ~1;                                      \
+})
 
 /**
  * __read_seqcount_retry() - end a seqcount_t read section w/o barrier
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+ * @s: Pointer to seqcount_t or any of the seqcount_LOCKNAME_t variants
  * @start: count, from read_seqcount_begin()
  *
  * __read_seqcount_retry is like read_seqcount_retry, but has no smp_rmb()
@@ -389,7 +435,7 @@ static inline int __read_seqcount_t_retry(const seqcount_t *s, unsigned start)
 
 /**
  * read_seqcount_retry() - end a seqcount_t read critical section
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+ * @s: Pointer to seqcount_t or any of the seqcount_LOCKNAME_t variants
  * @start: count, from read_seqcount_begin()
  *
  * read_seqcount_retry closes the read critical section of given
@@ -409,7 +455,7 @@ static inline int read_seqcount_t_retry(const seqcount_t *s, unsigned start)
 
 /**
  * raw_write_seqcount_begin() - start a seqcount_t write section w/o lockdep
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+ * @s: Pointer to seqcount_t or any of the seqcount_LOCKNAME_t variants
  */
 #define raw_write_seqcount_begin(s)                                    \
 do {                                                                   \
@@ -428,7 +474,7 @@ static inline void raw_write_seqcount_t_begin(seqcount_t *s)
 
 /**
  * raw_write_seqcount_end() - end a seqcount_t write section w/o lockdep
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+ * @s: Pointer to seqcount_t or any of the seqcount_LOCKNAME_t variants
  */
 #define raw_write_seqcount_end(s)                                      \
 do {                                                                   \
@@ -448,7 +494,7 @@ static inline void raw_write_seqcount_t_end(seqcount_t *s)
 /**
  * write_seqcount_begin_nested() - start a seqcount_t write section with
  *                                 custom lockdep nesting level
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+ * @s: Pointer to seqcount_t or any of the seqcount_LOCKNAME_t variants
  * @subclass: lockdep nesting level
  *
  * See Documentation/locking/lockdep-design.rst
@@ -471,7 +517,7 @@ static inline void write_seqcount_t_begin_nested(seqcount_t *s, int subclass)
 
 /**
  * write_seqcount_begin() - start a seqcount_t write side critical section
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+ * @s: Pointer to seqcount_t or any of the seqcount_LOCKNAME_t variants
  *
  * write_seqcount_begin opens a write side critical section of the given
  * seqcount_t.
@@ -497,7 +543,7 @@ static inline void write_seqcount_t_begin(seqcount_t *s)
 
 /**
  * write_seqcount_end() - end a seqcount_t write side critical section
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+ * @s: Pointer to seqcount_t or any of the seqcount_LOCKNAME_t variants
  *
  * The write section must've been opened with write_seqcount_begin().
  */
@@ -517,7 +563,7 @@ static inline void write_seqcount_t_end(seqcount_t *s)
 
 /**
  * raw_write_seqcount_barrier() - do a seqcount_t write barrier
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+ * @s: Pointer to seqcount_t or any of the seqcount_LOCKNAME_t variants
  *
  * This can be used to provide an ordering guarantee instead of the usual
  * consistency guarantee. It is one wmb cheaper, because it can collapse
@@ -571,7 +617,7 @@ static inline void raw_write_seqcount_t_barrier(seqcount_t *s)
 /**
  * write_seqcount_invalidate() - invalidate in-progress seqcount_t read
  *                               side operations
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+ * @s: Pointer to seqcount_t or any of the seqcount_LOCKNAME_t variants
  *
  * After write_seqcount_invalidate, no seqcount_t read side operations
  * will complete successfully and see data older than this.
@@ -587,34 +633,73 @@ static inline void write_seqcount_t_invalidate(seqcount_t *s)
        kcsan_nestable_atomic_end();
 }
 
-/**
- * raw_read_seqcount_latch() - pick even/odd seqcount_t latch data copy
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+/*
+ * Latch sequence counters (seqcount_latch_t)
  *
- * Use seqcount_t latching to switch between two storage places protected
- * by a sequence counter. Doing so allows having interruptible, preemptible,
- * seqcount_t write side critical sections.
+ * A sequence counter variant where the counter even/odd value is used to
+ * switch between two copies of protected data. This allows the read path,
+ * typically NMIs, to safely interrupt the write side critical section.
  *
- * Check raw_write_seqcount_latch() for more details and a full reader and
- * writer usage example.
+ * As the write sections are fully preemptible, no special handling for
+ * PREEMPT_RT is needed.
+ */
+typedef struct {
+       seqcount_t seqcount;
+} seqcount_latch_t;
+
+/**
+ * SEQCNT_LATCH_ZERO() - static initializer for seqcount_latch_t
+ * @seq_name: Name of the seqcount_latch_t instance
+ */
+#define SEQCNT_LATCH_ZERO(seq_name) {                                  \
+       .seqcount               = SEQCNT_ZERO(seq_name.seqcount),       \
+}
+
+/**
+ * seqcount_latch_init() - runtime initializer for seqcount_latch_t
+ * @s: Pointer to the seqcount_latch_t instance
+ */
+static inline void seqcount_latch_init(seqcount_latch_t *s)
+{
+       seqcount_init(&s->seqcount);
+}
+
+/**
+ * raw_read_seqcount_latch() - pick even/odd latch data copy
+ * @s: Pointer to seqcount_latch_t
+ *
+ * See raw_write_seqcount_latch() for details and a full reader/writer
+ * usage example.
  *
  * Return: sequence counter raw value. Use the lowest bit as an index for
- * picking which data copy to read. The full counter value must then be
- * checked with read_seqcount_retry().
+ * picking which data copy to read. The full counter must then be checked
+ * with read_seqcount_latch_retry().
  */
-#define raw_read_seqcount_latch(s)                                     \
-       raw_read_seqcount_t_latch(__seqcount_ptr(s))
+static inline unsigned raw_read_seqcount_latch(const seqcount_latch_t *s)
+{
+       /*
+        * Pairs with the first smp_wmb() in raw_write_seqcount_latch().
+        * Due to the dependent load, a full smp_rmb() is not needed.
+        */
+       return READ_ONCE(s->seqcount.sequence);
+}
 
-static inline int raw_read_seqcount_t_latch(seqcount_t *s)
+/**
+ * read_seqcount_latch_retry() - end a seqcount_latch_t read section
+ * @s:         Pointer to seqcount_latch_t
+ * @start:     count, from raw_read_seqcount_latch()
+ *
+ * Return: true if a read section retry is required, else false
+ */
+static inline int
+read_seqcount_latch_retry(const seqcount_latch_t *s, unsigned start)
 {
-       /* Pairs with the first smp_wmb() in raw_write_seqcount_latch() */
-       int seq = READ_ONCE(s->sequence); /* ^^^ */
-       return seq;
+       return read_seqcount_retry(&s->seqcount, start);
 }
 
 /**
- * raw_write_seqcount_latch() - redirect readers to even/odd copy
- * @s: Pointer to seqcount_t or any of the seqcount_locktype_t variants
+ * raw_write_seqcount_latch() - redirect latch readers to even/odd copy
+ * @s: Pointer to seqcount_latch_t
  *
  * The latch technique is a multiversion concurrency control method that allows
  * queries during non-atomic modifications. If you can guarantee queries never
@@ -633,7 +718,7 @@ static inline int raw_read_seqcount_t_latch(seqcount_t *s)
  * The basic form is a data structure like::
  *
  *     struct latch_struct {
- *             seqcount_t              seq;
+ *             seqcount_latch_t        seq;
  *             struct data_struct      data[2];
  *     };
  *
@@ -643,13 +728,13 @@ static inline int raw_read_seqcount_t_latch(seqcount_t *s)
  *     void latch_modify(struct latch_struct *latch, ...)
  *     {
  *             smp_wmb();      // Ensure that the last data[1] update is visible
- *             latch->seq++;
+ *             latch->seq.sequence++;
  *             smp_wmb();      // Ensure that the seqcount update is visible
  *
  *             modify(latch->data[0], ...);
  *
  *             smp_wmb();      // Ensure that the data[0] update is visible
- *             latch->seq++;
+ *             latch->seq.sequence++;
  *             smp_wmb();      // Ensure that the seqcount update is visible
  *
  *             modify(latch->data[1], ...);
@@ -668,8 +753,8 @@ static inline int raw_read_seqcount_t_latch(seqcount_t *s)
  *                     idx = seq & 0x01;
  *                     entry = data_query(latch->data[idx], ...);
  *
- *             // read_seqcount_retry() includes needed smp_rmb()
- *             } while (read_seqcount_retry(&latch->seq, seq));
+ *             // This includes needed smp_rmb()
+ *             } while (read_seqcount_latch_retry(&latch->seq, seq));
  *
  *             return entry;
  *     }
@@ -688,19 +773,16 @@ static inline int raw_read_seqcount_t_latch(seqcount_t *s)
  *     to miss an entire modification sequence, once it resumes it might
  *     observe the new entry.
  *
- * NOTE:
+ * NOTE2:
  *
  *     When data is a dynamic data structure; one should use regular RCU
  *     patterns to manage the lifetimes of the objects within.
  */
-#define raw_write_seqcount_latch(s)                                    \
-       raw_write_seqcount_t_latch(__seqcount_ptr(s))
-
-static inline void raw_write_seqcount_t_latch(seqcount_t *s)
+static inline void raw_write_seqcount_latch(seqcount_latch_t *s)
 {
-       smp_wmb();      /* prior stores before incrementing "sequence" */
-       s->sequence++;
-       smp_wmb();      /* increment "sequence" before following stores */
+       smp_wmb();      /* prior stores before incrementing "sequence" */
+       s->seqcount.sequence++;
+       smp_wmb();      /* increment "sequence" before following stores */
 }
 
 /*
@@ -714,13 +796,17 @@ static inline void raw_write_seqcount_t_latch(seqcount_t *s)
  *    - Documentation/locking/seqlock.rst
  */
 typedef struct {
-       struct seqcount seqcount;
+       /*
+        * Make sure that readers don't starve writers on PREEMPT_RT: use
+        * seqcount_spinlock_t instead of seqcount_t. Check __SEQ_LOCK().
+        */
+       seqcount_spinlock_t seqcount;
        spinlock_t lock;
 } seqlock_t;
 
 #define __SEQLOCK_UNLOCKED(lockname)                                   \
        {                                                               \
-               .seqcount = SEQCNT_ZERO(lockname),                      \
+               .seqcount = SEQCNT_SPINLOCK_ZERO(lockname, &(lockname).lock), \
                .lock = __SPIN_LOCK_UNLOCKED(lockname)                  \
        }
 
@@ -730,12 +816,12 @@ typedef struct {
  */
 #define seqlock_init(sl)                                               \
        do {                                                            \
-               seqcount_init(&(sl)->seqcount);                         \
                spin_lock_init(&(sl)->lock);                            \
+               seqcount_spinlock_init(&(sl)->seqcount, &(sl)->lock);   \
        } while (0)
 
 /**
- * DEFINE_SEQLOCK() - Define a statically allocated seqlock_t
+ * DEFINE_SEQLOCK(sl) - Define a statically allocated seqlock_t
  * @sl: Name of the seqlock_t instance
  */
 #define DEFINE_SEQLOCK(sl) \
@@ -778,6 +864,12 @@ static inline unsigned read_seqretry(const seqlock_t *sl, unsigned start)
        return read_seqcount_retry(&sl->seqcount, start);
 }
 
+/*
+ * For all seqlock_t write side functions, use write_seqcount_*t*_begin()
+ * instead of the generic write_seqcount_begin(). This way, no redundant
+ * lockdep_assert_held() checks are added.
+ */
+
 /**
  * write_seqlock() - start a seqlock_t write side critical section
  * @sl: Pointer to seqlock_t
@@ -794,7 +886,7 @@ static inline unsigned read_seqretry(const seqlock_t *sl, unsigned start)
 static inline void write_seqlock(seqlock_t *sl)
 {
        spin_lock(&sl->lock);
-       write_seqcount_t_begin(&sl->seqcount);
+       write_seqcount_t_begin(&sl->seqcount.seqcount);
 }
 
 /**
@@ -806,7 +898,7 @@ static inline void write_seqlock(seqlock_t *sl)
  */
 static inline void write_sequnlock(seqlock_t *sl)
 {
-       write_seqcount_t_end(&sl->seqcount);
+       write_seqcount_t_end(&sl->seqcount.seqcount);
        spin_unlock(&sl->lock);
 }
 
@@ -820,7 +912,7 @@ static inline void write_sequnlock(seqlock_t *sl)
 static inline void write_seqlock_bh(seqlock_t *sl)
 {
        spin_lock_bh(&sl->lock);
-       write_seqcount_t_begin(&sl->seqcount);
+       write_seqcount_t_begin(&sl->seqcount.seqcount);
 }
 
 /**
@@ -833,7 +925,7 @@ static inline void write_seqlock_bh(seqlock_t *sl)
  */
 static inline void write_sequnlock_bh(seqlock_t *sl)
 {
-       write_seqcount_t_end(&sl->seqcount);
+       write_seqcount_t_end(&sl->seqcount.seqcount);
        spin_unlock_bh(&sl->lock);
 }
 
@@ -847,7 +939,7 @@ static inline void write_sequnlock_bh(seqlock_t *sl)
 static inline void write_seqlock_irq(seqlock_t *sl)
 {
        spin_lock_irq(&sl->lock);
-       write_seqcount_t_begin(&sl->seqcount);
+       write_seqcount_t_begin(&sl->seqcount.seqcount);
 }
 
 /**
@@ -859,7 +951,7 @@ static inline void write_seqlock_irq(seqlock_t *sl)
  */
 static inline void write_sequnlock_irq(seqlock_t *sl)
 {
-       write_seqcount_t_end(&sl->seqcount);
+       write_seqcount_t_end(&sl->seqcount.seqcount);
        spin_unlock_irq(&sl->lock);
 }
 
@@ -868,7 +960,7 @@ static inline unsigned long __write_seqlock_irqsave(seqlock_t *sl)
        unsigned long flags;
 
        spin_lock_irqsave(&sl->lock, flags);
-       write_seqcount_t_begin(&sl->seqcount);
+       write_seqcount_t_begin(&sl->seqcount.seqcount);
        return flags;
 }
 
@@ -897,7 +989,7 @@ static inline unsigned long __write_seqlock_irqsave(seqlock_t *sl)
 static inline void
 write_sequnlock_irqrestore(seqlock_t *sl, unsigned long flags)
 {
-       write_seqcount_t_end(&sl->seqcount);
+       write_seqcount_t_end(&sl->seqcount.seqcount);
        spin_unlock_irqrestore(&sl->lock, flags);
 }
 
index 04a18e0..416bf95 100644 (file)
@@ -3545,7 +3545,7 @@ int skb_kill_datagram(struct sock *sk, struct sk_buff *skb, unsigned int flags);
 int skb_copy_bits(const struct sk_buff *skb, int offset, void *to, int len);
 int skb_store_bits(struct sk_buff *skb, int offset, const void *from, int len);
 __wsum skb_copy_and_csum_bits(const struct sk_buff *skb, int offset, u8 *to,
-                             int len, __wsum csum);
+                             int len);
 int skb_splice_bits(struct sk_buff *skb, struct sock *sk, unsigned int offset,
                    struct pipe_inode_info *pipe, unsigned int len,
                    unsigned int flags);
index b7af8cc..50e2df3 100644 (file)
@@ -29,14 +29,11 @@ unsigned int stack_trace_save_user(unsigned long *store, unsigned int size);
  * stack_trace_consume_fn - Callback for arch_stack_walk()
  * @cookie:    Caller supplied pointer handed back by arch_stack_walk()
  * @addr:      The stack entry address to consume
- * @reliable:  True when the stack entry is reliable. Required by
- *             some printk based consumers.
  *
  * Return:     True, if the entry was consumed or skipped
  *             False, if there is no space left to store
  */
-typedef bool (*stack_trace_consume_fn)(void *cookie, unsigned long addr,
-                                      bool reliable);
+typedef bool (*stack_trace_consume_fn)(void *cookie, unsigned long addr);
 /**
  * arch_stack_walk - Architecture specific function to walk the stack
  * @consume_entry:     Callback which is invoked by the architecture code for
diff --git a/include/linux/static_call.h b/include/linux/static_call.h
new file mode 100644 (file)
index 0000000..695da4c
--- /dev/null
@@ -0,0 +1,298 @@
+/* SPDX-License-Identifier: GPL-2.0 */
+#ifndef _LINUX_STATIC_CALL_H
+#define _LINUX_STATIC_CALL_H
+
+/*
+ * Static call support
+ *
+ * Static calls use code patching to hard-code function pointers into direct
+ * branch instructions. They give the flexibility of function pointers, but
+ * with improved performance. This is especially important for cases where
+ * retpolines would otherwise be used, as retpolines can significantly impact
+ * performance.
+ *
+ *
+ * API overview:
+ *
+ *   DECLARE_STATIC_CALL(name, func);
+ *   DEFINE_STATIC_CALL(name, func);
+ *   DEFINE_STATIC_CALL_NULL(name, typename);
+ *   static_call(name)(args...);
+ *   static_call_cond(name)(args...);
+ *   static_call_update(name, func);
+ *
+ * Usage example:
+ *
+ *   # Start with the following functions (with identical prototypes):
+ *   int func_a(int arg1, int arg2);
+ *   int func_b(int arg1, int arg2);
+ *
+ *   # Define a 'my_name' reference, associated with func_a() by default
+ *   DEFINE_STATIC_CALL(my_name, func_a);
+ *
+ *   # Call func_a()
+ *   static_call(my_name)(arg1, arg2);
+ *
+ *   # Update 'my_name' to point to func_b()
+ *   static_call_update(my_name, &func_b);
+ *
+ *   # Call func_b()
+ *   static_call(my_name)(arg1, arg2);
+ *
+ *
+ * Implementation details:
+ *
+ *   This requires some arch-specific code (CONFIG_HAVE_STATIC_CALL).
+ *   Otherwise basic indirect calls are used (with function pointers).
+ *
+ *   Each static_call() site calls into a trampoline associated with the name.
+ *   The trampoline has a direct branch to the default function.  Updates to a
+ *   name will modify the trampoline's branch destination.
+ *
+ *   If the arch has CONFIG_HAVE_STATIC_CALL_INLINE, then the call sites
+ *   themselves will be patched at runtime to call the functions directly,
+ *   rather than calling through the trampoline.  This requires objtool or a
+ *   compiler plugin to detect all the static_call() sites and annotate them
+ *   in the .static_call_sites section.
+ *
+ *
+ * Notes on NULL function pointers:
+ *
+ *   Static_call()s support NULL functions, with many of the caveats that
+ *   regular function pointers have.
+ *
+ *   Clearly calling a NULL function pointer is 'BAD', so too for
+ *   static_call()s (although when HAVE_STATIC_CALL it might not be immediately
+ *   fatal). A NULL static_call can be the result of:
+ *
+ *     DECLARE_STATIC_CALL_NULL(my_static_call, void (*)(int));
+ *
+ *   which is equivalent to declaring a NULL function pointer with just a
+ *   typename:
+ *
+ *     void (*my_func_ptr)(int arg1) = NULL;
+ *
+ *   or using static_call_update() with a NULL function. In both cases the
+ *   HAVE_STATIC_CALL implementation will patch the trampoline with a RET
+ *   instruction, instead of an immediate tail-call JMP. HAVE_STATIC_CALL_INLINE
+ *   architectures can patch the trampoline call to a NOP.
+ *
+ *   In all cases, any argument evaluation is unconditional. Unlike a regular
+ *   conditional function pointer call:
+ *
+ *     if (my_func_ptr)
+ *         my_func_ptr(arg1)
+ *
+ *   where the argument evaludation also depends on the pointer value.
+ *
+ *   When calling a static_call that can be NULL, use:
+ *
+ *     static_call_cond(name)(arg1);
+ *
+ *   which will include the required value tests to avoid NULL-pointer
+ *   dereferences.
+ */
+
+#include <linux/types.h>
+#include <linux/cpu.h>
+#include <linux/static_call_types.h>
+
+#ifdef CONFIG_HAVE_STATIC_CALL
+#include <asm/static_call.h>
+
+/*
+ * Either @site or @tramp can be NULL.
+ */
+extern void arch_static_call_transform(void *site, void *tramp, void *func, bool tail);
+
+#define STATIC_CALL_TRAMP_ADDR(name) &STATIC_CALL_TRAMP(name)
+
+/*
+ * __ADDRESSABLE() is used to ensure the key symbol doesn't get stripped from
+ * the symbol table so that objtool can reference it when it generates the
+ * .static_call_sites section.
+ */
+#define __static_call(name)                                            \
+({                                                                     \
+       __ADDRESSABLE(STATIC_CALL_KEY(name));                           \
+       &STATIC_CALL_TRAMP(name);                                       \
+})
+
+#else
+#define STATIC_CALL_TRAMP_ADDR(name) NULL
+#endif
+
+
+#define DECLARE_STATIC_CALL(name, func)                                        \
+       extern struct static_call_key STATIC_CALL_KEY(name);            \
+       extern typeof(func) STATIC_CALL_TRAMP(name);
+
+#define static_call_update(name, func)                                 \
+({                                                                     \
+       BUILD_BUG_ON(!__same_type(*(func), STATIC_CALL_TRAMP(name)));   \
+       __static_call_update(&STATIC_CALL_KEY(name),                    \
+                            STATIC_CALL_TRAMP_ADDR(name), func);       \
+})
+
+#ifdef CONFIG_HAVE_STATIC_CALL_INLINE
+
+extern int __init static_call_init(void);
+
+struct static_call_mod {
+       struct static_call_mod *next;
+       struct module *mod; /* for vmlinux, mod == NULL */
+       struct static_call_site *sites;
+};
+
+struct static_call_key {
+       void *func;
+       union {
+               /* bit 0: 0 = mods, 1 = sites */
+               unsigned long type;
+               struct static_call_mod *mods;
+               struct static_call_site *sites;
+       };
+};
+
+extern void __static_call_update(struct static_call_key *key, void *tramp, void *func);
+extern int static_call_mod_init(struct module *mod);
+extern int static_call_text_reserved(void *start, void *end);
+
+#define DEFINE_STATIC_CALL(name, _func)                                        \
+       DECLARE_STATIC_CALL(name, _func);                               \
+       struct static_call_key STATIC_CALL_KEY(name) = {                \
+               .func = _func,                                          \
+               .type = 1,                                              \
+       };                                                              \
+       ARCH_DEFINE_STATIC_CALL_TRAMP(name, _func)
+
+#define DEFINE_STATIC_CALL_NULL(name, _func)                           \
+       DECLARE_STATIC_CALL(name, _func);                               \
+       struct static_call_key STATIC_CALL_KEY(name) = {                \
+               .func = NULL,                                           \
+               .type = 1,                                              \
+       };                                                              \
+       ARCH_DEFINE_STATIC_CALL_NULL_TRAMP(name)
+
+#define static_call(name)      __static_call(name)
+#define static_call_cond(name) (void)__static_call(name)
+
+#define EXPORT_STATIC_CALL(name)                                       \
+       EXPORT_SYMBOL(STATIC_CALL_KEY(name));                           \
+       EXPORT_SYMBOL(STATIC_CALL_TRAMP(name))
+
+#define EXPORT_STATIC_CALL_GPL(name)                                   \
+       EXPORT_SYMBOL_GPL(STATIC_CALL_KEY(name));                       \
+       EXPORT_SYMBOL_GPL(STATIC_CALL_TRAMP(name))
+
+#elif defined(CONFIG_HAVE_STATIC_CALL)
+
+static inline int static_call_init(void) { return 0; }
+
+struct static_call_key {
+       void *func;
+};
+
+#define DEFINE_STATIC_CALL(name, _func)                                        \
+       DECLARE_STATIC_CALL(name, _func);                               \
+       struct static_call_key STATIC_CALL_KEY(name) = {                \
+               .func = _func,                                          \
+       };                                                              \
+       ARCH_DEFINE_STATIC_CALL_TRAMP(name, _func)
+
+#define DEFINE_STATIC_CALL_NULL(name, _func)                           \
+       DECLARE_STATIC_CALL(name, _func);                               \
+       struct static_call_key STATIC_CALL_KEY(name) = {                \
+               .func = NULL,                                           \
+       };                                                              \
+       ARCH_DEFINE_STATIC_CALL_NULL_TRAMP(name)
+
+#define static_call(name)      __static_call(name)
+#define static_call_cond(name) (void)__static_call(name)
+
+static inline
+void __static_call_update(struct static_call_key *key, void *tramp, void *func)
+{
+       cpus_read_lock();
+       WRITE_ONCE(key->func, func);
+       arch_static_call_transform(NULL, tramp, func, false);
+       cpus_read_unlock();
+}
+
+static inline int static_call_text_reserved(void *start, void *end)
+{
+       return 0;
+}
+
+#define EXPORT_STATIC_CALL(name)                                       \
+       EXPORT_SYMBOL(STATIC_CALL_KEY(name));                           \
+       EXPORT_SYMBOL(STATIC_CALL_TRAMP(name))
+
+#define EXPORT_STATIC_CALL_GPL(name)                                   \
+       EXPORT_SYMBOL_GPL(STATIC_CALL_KEY(name));                       \
+       EXPORT_SYMBOL_GPL(STATIC_CALL_TRAMP(name))
+
+#else /* Generic implementation */
+
+static inline int static_call_init(void) { return 0; }
+
+struct static_call_key {
+       void *func;
+};
+
+#define DEFINE_STATIC_CALL(name, _func)                                        \
+       DECLARE_STATIC_CALL(name, _func);                               \
+       struct static_call_key STATIC_CALL_KEY(name) = {                \
+               .func = _func,                                          \
+       }
+
+#define DEFINE_STATIC_CALL_NULL(name, _func)                           \
+       DECLARE_STATIC_CALL(name, _func);                               \
+       struct static_call_key STATIC_CALL_KEY(name) = {                \
+               .func = NULL,                                           \
+       }
+
+#define static_call(name)                                              \
+       ((typeof(STATIC_CALL_TRAMP(name))*)(STATIC_CALL_KEY(name).func))
+
+static inline void __static_call_nop(void) { }
+
+/*
+ * This horrific hack takes care of two things:
+ *
+ *  - it ensures the compiler will only load the function pointer ONCE,
+ *    which avoids a reload race.
+ *
+ *  - it ensures the argument evaluation is unconditional, similar
+ *    to the HAVE_STATIC_CALL variant.
+ *
+ * Sadly current GCC/Clang (10 for both) do not optimize this properly
+ * and will emit an indirect call for the NULL case :-(
+ */
+#define __static_call_cond(name)                                       \
+({                                                                     \
+       void *func = READ_ONCE(STATIC_CALL_KEY(name).func);             \
+       if (!func)                                                      \
+               func = &__static_call_nop;                              \
+       (typeof(STATIC_CALL_TRAMP(name))*)func;                         \
+})
+
+#define static_call_cond(name) (void)__static_call_cond(name)
+
+static inline
+void __static_call_update(struct static_call_key *key, void *tramp, void *func)
+{
+       WRITE_ONCE(key->func, func);
+}
+
+static inline int static_call_text_reserved(void *start, void *end)
+{
+       return 0;
+}
+
+#define EXPORT_STATIC_CALL(name)       EXPORT_SYMBOL(STATIC_CALL_KEY(name))
+#define EXPORT_STATIC_CALL_GPL(name)   EXPORT_SYMBOL_GPL(STATIC_CALL_KEY(name))
+
+#endif /* CONFIG_HAVE_STATIC_CALL */
+
+#endif /* _LINUX_STATIC_CALL_H */
diff --git a/include/linux/static_call_types.h b/include/linux/static_call_types.h
new file mode 100644 (file)
index 0000000..89135bb
--- /dev/null
@@ -0,0 +1,35 @@
+/* SPDX-License-Identifier: GPL-2.0 */
+#ifndef _STATIC_CALL_TYPES_H
+#define _STATIC_CALL_TYPES_H
+
+#include <linux/types.h>
+#include <linux/stringify.h>
+
+#define STATIC_CALL_KEY_PREFIX         __SCK__
+#define STATIC_CALL_KEY_PREFIX_STR     __stringify(STATIC_CALL_KEY_PREFIX)
+#define STATIC_CALL_KEY_PREFIX_LEN     (sizeof(STATIC_CALL_KEY_PREFIX_STR) - 1)
+#define STATIC_CALL_KEY(name)          __PASTE(STATIC_CALL_KEY_PREFIX, name)
+
+#define STATIC_CALL_TRAMP_PREFIX       __SCT__
+#define STATIC_CALL_TRAMP_PREFIX_STR   __stringify(STATIC_CALL_TRAMP_PREFIX)
+#define STATIC_CALL_TRAMP_PREFIX_LEN   (sizeof(STATIC_CALL_TRAMP_PREFIX_STR) - 1)
+#define STATIC_CALL_TRAMP(name)                __PASTE(STATIC_CALL_TRAMP_PREFIX, name)
+#define STATIC_CALL_TRAMP_STR(name)    __stringify(STATIC_CALL_TRAMP(name))
+
+/*
+ * Flags in the low bits of static_call_site::key.
+ */
+#define STATIC_CALL_SITE_TAIL 1UL      /* tail call */
+#define STATIC_CALL_SITE_INIT 2UL      /* init section */
+#define STATIC_CALL_SITE_FLAGS 3UL
+
+/*
+ * The static call site table needs to be created by external tooling (objtool
+ * or a compiler plugin).
+ */
+struct static_call_site {
+       s32 addr;
+       s32 key;
+};
+
+#endif /* _STATIC_CALL_TYPES_H */
index 9b7a063..b1f3894 100644 (file)
@@ -161,20 +161,13 @@ extern int bcmp(const void *,const void *,__kernel_size_t);
 #ifndef __HAVE_ARCH_MEMCHR
 extern void * memchr(const void *,int,__kernel_size_t);
 #endif
-#ifndef __HAVE_ARCH_MEMCPY_MCSAFE
-static inline __must_check unsigned long memcpy_mcsafe(void *dst,
-               const void *src, size_t cnt)
-{
-       memcpy(dst, src, cnt);
-       return 0;
-}
-#endif
 #ifndef __HAVE_ARCH_MEMCPY_FLUSHCACHE
 static inline void memcpy_flushcache(void *dst, const void *src, size_t cnt)
 {
        memcpy(dst, src, cnt);
 }
 #endif
+
 void *memchr_inv(const void *s, int c, size_t n);
 char *strreplace(char *s, char old, char new);
 
index e8f8ffe..91f43d8 100644 (file)
@@ -141,14 +141,12 @@ enum sgn_alg {
        SGN_ALG_MD2_5 = 0x0001,
        SGN_ALG_DES_MAC = 0x0002,
        SGN_ALG_3 = 0x0003,             /* not published */
-       SGN_ALG_HMAC_MD5 = 0x0011,      /* microsoft w2k; no support */
        SGN_ALG_HMAC_SHA1_DES3_KD = 0x0004
 };
 enum seal_alg {
        SEAL_ALG_NONE = 0xffff,
        SEAL_ALG_DES = 0x0000,
        SEAL_ALG_1 = 0x0001,            /* not published */
-       SEAL_ALG_MICROSOFT_RC4 = 0x0010,/* microsoft w2k; no support */
        SEAL_ALG_DES3KD = 0x0002
 };
 
@@ -316,14 +314,5 @@ gss_krb5_aes_decrypt(struct krb5_ctx *kctx, u32 offset, u32 len,
                     struct xdr_buf *buf, u32 *plainoffset,
                     u32 *plainlen);
 
-int
-krb5_rc4_setup_seq_key(struct krb5_ctx *kctx,
-                      struct crypto_sync_skcipher *cipher,
-                      unsigned char *cksum);
-
-int
-krb5_rc4_setup_enc_key(struct krb5_ctx *kctx,
-                      struct crypto_sync_skcipher *cipher,
-                      s32 seqnum);
 void
 gss_krb5_make_confounder(char *p, u32 conflen);
index 981c89c..87eea67 100644 (file)
 #ifdef CONFIG_SUNRPC_DISABLE_INSECURE_ENCTYPES
 
 /*
- * NB: This list includes encryption types that were deprecated
- * by RFC 8429 (DES3_CBC_SHA1 and ARCFOUR_HMAC).
+ * NB: This list includes DES3_CBC_SHA1, which was deprecated by RFC 8429.
  *
  * ENCTYPE_AES256_CTS_HMAC_SHA1_96
  * ENCTYPE_AES128_CTS_HMAC_SHA1_96
  * ENCTYPE_DES3_CBC_SHA1
- * ENCTYPE_ARCFOUR_HMAC
  */
-#define KRB5_SUPPORTED_ENCTYPES "18,17,16,23"
+#define KRB5_SUPPORTED_ENCTYPES "18,17,16"
 
 #else  /* CONFIG_SUNRPC_DISABLE_INSECURE_ENCTYPES */
 
  * ENCTYPE_AES256_CTS_HMAC_SHA1_96
  * ENCTYPE_AES128_CTS_HMAC_SHA1_96
  * ENCTYPE_DES3_CBC_SHA1
- * ENCTYPE_ARCFOUR_HMAC
  * ENCTYPE_DES_CBC_MD5
  * ENCTYPE_DES_CBC_CRC
  * ENCTYPE_DES_CBC_MD4
  */
-#define KRB5_SUPPORTED_ENCTYPES "18,17,16,23,3,1,2"
+#define KRB5_SUPPORTED_ENCTYPES "18,17,16,3,1,2"
 
 #endif /* CONFIG_SUNRPC_DISABLE_INSECURE_ENCTYPES */
 
index 75ac7f8..06db098 100644 (file)
@@ -974,7 +974,7 @@ asmlinkage long sys_execveat(int dfd, const char __user *filename,
                        const char __user *const __user *argv,
                        const char __user *const __user *envp, int flags);
 asmlinkage long sys_userfaultfd(int flags);
-asmlinkage long sys_membarrier(int cmd, int flags);
+asmlinkage long sys_membarrier(int cmd, unsigned int flags, int cpu_id);
 asmlinkage long sys_mlock2(unsigned long start, size_t len, int flags);
 asmlinkage long sys_copy_file_range(int fd_in, loff_t __user *off_in,
                                    int fd_out, loff_t __user *off_out,
index d5471d6..7f7e4a3 100644 (file)
@@ -222,6 +222,18 @@ extern bool timekeeping_rtc_skipresume(void);
 
 extern void timekeeping_inject_sleeptime64(const struct timespec64 *delta);
 
+/*
+ * struct ktime_timestanps - Simultaneous mono/boot/real timestamps
+ * @mono:      Monotonic timestamp
+ * @boot:      Boottime timestamp
+ * @real:      Realtime timestamp
+ */
+struct ktime_timestamps {
+       u64             mono;
+       u64             boot;
+       u64             real;
+};
+
 /**
  * struct system_time_snapshot - simultaneous raw/real time capture with
  *                              counter value
@@ -280,6 +292,9 @@ extern int get_device_system_crosststamp(
  */
 extern void ktime_get_snapshot(struct system_time_snapshot *systime_snapshot);
 
+/* NMI safe mono/boot/realtime timestamps */
+extern void ktime_get_fast_timestamps(struct ktime_timestamps *snap);
+
 /*
  * Persistent clock related interfaces
  */
index 07910ae..d10bc7e 100644 (file)
@@ -67,6 +67,7 @@ struct timer_list {
 #define TIMER_DEFERRABLE       0x00080000
 #define TIMER_PINNED           0x00100000
 #define TIMER_IRQSAFE          0x00200000
+#define TIMER_INIT_FLAGS       (TIMER_DEFERRABLE | TIMER_PINNED | TIMER_IRQSAFE)
 #define TIMER_ARRAYSHIFT       22
 #define TIMER_ARRAYMASK                0xFFC00000
 
index b29950a..de97450 100644 (file)
@@ -11,6 +11,8 @@
 #include <linux/atomic.h>
 #include <linux/static_key.h>
 
+struct static_call_key;
+
 struct trace_print_flags {
        unsigned long           mask;
        const char              *name;
@@ -30,6 +32,9 @@ struct tracepoint_func {
 struct tracepoint {
        const char *name;               /* Tracepoint name */
        struct static_key key;
+       struct static_call_key *static_call_key;
+       void *static_call_tramp;
+       void *iterator;
        int (*regfunc)(void);
        void (*unregfunc)(void);
        struct tracepoint_func __rcu *funcs;
index 598fec9..81fa0b2 100644 (file)
@@ -19,6 +19,7 @@
 #include <linux/cpumask.h>
 #include <linux/rcupdate.h>
 #include <linux/tracepoint-defs.h>
+#include <linux/static_call.h>
 
 struct module;
 struct tracepoint;
@@ -92,7 +93,9 @@ extern int syscall_regfunc(void);
 extern void syscall_unregfunc(void);
 #endif /* CONFIG_HAVE_SYSCALL_TRACEPOINTS */
 
+#ifndef PARAMS
 #define PARAMS(args...) args
+#endif
 
 #define TRACE_DEFINE_ENUM(x)
 #define TRACE_DEFINE_SIZEOF(x)
@@ -148,6 +151,12 @@ static inline struct tracepoint *tracepoint_ptr_deref(tracepoint_ptr_t *p)
 
 #ifdef TRACEPOINTS_ENABLED
 
+#ifdef CONFIG_HAVE_STATIC_CALL
+#define __DO_TRACE_CALL(name)  static_call(tp_func_##name)
+#else
+#define __DO_TRACE_CALL(name)  __traceiter_##name
+#endif /* CONFIG_HAVE_STATIC_CALL */
+
 /*
  * it_func[0] is never NULL because there is at least one element in the array
  * when the array itself is non NULL.
@@ -157,12 +166,11 @@ static inline struct tracepoint *tracepoint_ptr_deref(tracepoint_ptr_t *p)
  * has a "void" prototype, then it is invalid to declare a function
  * as "(void *, void)".
  */
-#define __DO_TRACE(tp, proto, args, cond, rcuidle)                     \
+#define __DO_TRACE(name, proto, args, cond, rcuidle)                   \
        do {                                                            \
                struct tracepoint_func *it_func_ptr;                    \
-               void *it_func;                                          \
-               void *__data;                                           \
                int __maybe_unused __idx = 0;                           \
+               void *__data;                                           \
                                                                        \
                if (!(cond))                                            \
                        return;                                         \
@@ -182,14 +190,11 @@ static inline struct tracepoint *tracepoint_ptr_deref(tracepoint_ptr_t *p)
                        rcu_irq_enter_irqson();                         \
                }                                                       \
                                                                        \
-               it_func_ptr = rcu_dereference_raw((tp)->funcs);         \
-                                                                       \
+               it_func_ptr =                                           \
+                       rcu_dereference_raw((&__tracepoint_##name)->funcs); \
                if (it_func_ptr) {                                      \
-                       do {                                            \
-                               it_func = (it_func_ptr)->func;          \
-                               __data = (it_func_ptr)->data;           \
-                               ((void(*)(proto))(it_func))(args);      \
-                       } while ((++it_func_ptr)->func);                \
+                       __data = (it_func_ptr)->data;                   \
+                       __DO_TRACE_CALL(name)(args);                    \
                }                                                       \
                                                                        \
                if (rcuidle) {                                          \
@@ -205,7 +210,7 @@ static inline struct tracepoint *tracepoint_ptr_deref(tracepoint_ptr_t *p)
        static inline void trace_##name##_rcuidle(proto)                \
        {                                                               \
                if (static_key_false(&__tracepoint_##name.key))         \
-                       __DO_TRACE(&__tracepoint_##name,                \
+                       __DO_TRACE(name,                                \
                                TP_PROTO(data_proto),                   \
                                TP_ARGS(data_args),                     \
                                TP_CONDITION(cond), 1);                 \
@@ -227,11 +232,13 @@ static inline struct tracepoint *tracepoint_ptr_deref(tracepoint_ptr_t *p)
  * poking RCU a bit.
  */
 #define __DECLARE_TRACE(name, proto, args, cond, data_proto, data_args) \
+       extern int __traceiter_##name(data_proto);                      \
+       DECLARE_STATIC_CALL(tp_func_##name, __traceiter_##name);        \
        extern struct tracepoint __tracepoint_##name;                   \
        static inline void trace_##name(proto)                          \
        {                                                               \
                if (static_key_false(&__tracepoint_##name.key))         \
-                       __DO_TRACE(&__tracepoint_##name,                \
+                       __DO_TRACE(name,                                \
                                TP_PROTO(data_proto),                   \
                                TP_ARGS(data_args),                     \
                                TP_CONDITION(cond), 0);                 \
@@ -277,21 +284,50 @@ static inline struct tracepoint *tracepoint_ptr_deref(tracepoint_ptr_t *p)
  * structures, so we create an array of pointers that will be used for iteration
  * on the tracepoints.
  */
-#define DEFINE_TRACE_FN(name, reg, unreg)                               \
-       static const char __tpstrtab_##name[]                            \
-       __section(__tracepoints_strings) = #name;                        \
-       struct tracepoint __tracepoint_##name __used                     \
-       __section(__tracepoints) =                                       \
-               { __tpstrtab_##name, STATIC_KEY_INIT_FALSE, reg, unreg, NULL };\
-       __TRACEPOINT_ENTRY(name);
+#define DEFINE_TRACE_FN(_name, _reg, _unreg, proto, args)              \
+       static const char __tpstrtab_##_name[]                          \
+       __section(__tracepoints_strings) = #_name;                      \
+       extern struct static_call_key STATIC_CALL_KEY(tp_func_##_name); \
+       int __traceiter_##_name(void *__data, proto);                   \
+       struct tracepoint __tracepoint_##_name  __used                  \
+       __section(__tracepoints) = {                                    \
+               .name = __tpstrtab_##_name,                             \
+               .key = STATIC_KEY_INIT_FALSE,                           \
+               .static_call_key = &STATIC_CALL_KEY(tp_func_##_name),   \
+               .static_call_tramp = STATIC_CALL_TRAMP_ADDR(tp_func_##_name), \
+               .iterator = &__traceiter_##_name,                       \
+               .regfunc = _reg,                                        \
+               .unregfunc = _unreg,                                    \
+               .funcs = NULL };                                        \
+       __TRACEPOINT_ENTRY(_name);                                      \
+       int __traceiter_##_name(void *__data, proto)                    \
+       {                                                               \
+               struct tracepoint_func *it_func_ptr;                    \
+               void *it_func;                                          \
+                                                                       \
+               it_func_ptr =                                           \
+                       rcu_dereference_raw((&__tracepoint_##_name)->funcs); \
+               do {                                                    \
+                       it_func = (it_func_ptr)->func;                  \
+                       __data = (it_func_ptr)->data;                   \
+                       ((void(*)(void *, proto))(it_func))(__data, args); \
+               } while ((++it_func_ptr)->func);                        \
+               return 0;                                               \
+       }                                                               \
+       DEFINE_STATIC_CALL(tp_func_##_name, __traceiter_##_name);
 
-#define DEFINE_TRACE(name)                                             \
-       DEFINE_TRACE_FN(name, NULL, NULL);
+#define DEFINE_TRACE(name, proto, args)                \
+       DEFINE_TRACE_FN(name, NULL, NULL, PARAMS(proto), PARAMS(args));
 
 #define EXPORT_TRACEPOINT_SYMBOL_GPL(name)                             \
-       EXPORT_SYMBOL_GPL(__tracepoint_##name)
+       EXPORT_SYMBOL_GPL(__tracepoint_##name);                         \
+       EXPORT_SYMBOL_GPL(__traceiter_##name);                          \
+       EXPORT_STATIC_CALL_GPL(tp_func_##name)
 #define EXPORT_TRACEPOINT_SYMBOL(name)                                 \
-       EXPORT_SYMBOL(__tracepoint_##name)
+       EXPORT_SYMBOL(__tracepoint_##name);                             \
+       EXPORT_SYMBOL(__traceiter_##name);                              \
+       EXPORT_STATIC_CALL(tp_func_##name)
+
 
 #else /* !TRACEPOINTS_ENABLED */
 #define __DECLARE_TRACE(name, proto, args, cond, data_proto, data_args) \
@@ -320,8 +356,8 @@ static inline struct tracepoint *tracepoint_ptr_deref(tracepoint_ptr_t *p)
                return false;                                           \
        }
 
-#define DEFINE_TRACE_FN(name, reg, unreg)
-#define DEFINE_TRACE(name)
+#define DEFINE_TRACE_FN(name, reg, unreg, proto, args)
+#define DEFINE_TRACE(name, proto, args)
 #define EXPORT_TRACEPOINT_SYMBOL_GPL(name)
 #define EXPORT_TRACEPOINT_SYMBOL(name)
 
index 454c2f6..48e319f 100644 (file)
@@ -81,7 +81,7 @@ struct uacce_queue {
        struct list_head list;
        struct uacce_qfile_region *qfrs[UACCE_MAX_REGION];
        enum uacce_q_state state;
-       int pasid;
+       u32 pasid;
        struct iommu_sva *handle;
 };
 
index 94b2854..1ae36bc 100644 (file)
@@ -179,6 +179,19 @@ copy_in_user(void __user *to, const void __user *from, unsigned long n)
 }
 #endif
 
+#ifndef copy_mc_to_kernel
+/*
+ * Without arch opt-in this generic copy_mc_to_kernel() will not handle
+ * #MC (or arch equivalent) during source read.
+ */
+static inline unsigned long __must_check
+copy_mc_to_kernel(void *dst, const void *src, size_t cnt)
+{
+       memcpy(dst, src, cnt);
+       return 0;
+}
+#endif
+
 static __always_inline void pagefault_disabled_inc(void)
 {
        current->pagefault_disabled++;
index 3835a8a..72d8856 100644 (file)
@@ -185,10 +185,10 @@ size_t _copy_from_iter_flushcache(void *addr, size_t bytes, struct iov_iter *i);
 #define _copy_from_iter_flushcache _copy_from_iter_nocache
 #endif
 
-#ifdef CONFIG_ARCH_HAS_UACCESS_MCSAFE
-size_t _copy_to_iter_mcsafe(const void *addr, size_t bytes, struct iov_iter *i);
+#ifdef CONFIG_ARCH_HAS_COPY_MC
+size_t _copy_mc_to_iter(const void *addr, size_t bytes, struct iov_iter *i);
 #else
-#define _copy_to_iter_mcsafe _copy_to_iter
+#define _copy_mc_to_iter _copy_to_iter
 #endif
 
 static __always_inline __must_check
@@ -201,12 +201,12 @@ size_t copy_from_iter_flushcache(void *addr, size_t bytes, struct iov_iter *i)
 }
 
 static __always_inline __must_check
-size_t copy_to_iter_mcsafe(void *addr, size_t bytes, struct iov_iter *i)
+size_t copy_mc_to_iter(void *addr, size_t bytes, struct iov_iter *i)
 {
        if (unlikely(!check_copy_size(addr, bytes, true)))
                return 0;
        else
-               return _copy_to_iter_mcsafe(addr, bytes, i);
+               return _copy_mc_to_iter(addr, bytes, i);
 }
 
 size_t iov_iter_zero(size_t bytes, struct iov_iter *);
@@ -266,17 +266,15 @@ bool csum_and_copy_from_iter_full(void *addr, size_t bytes, __wsum *csum, struct
 size_t hash_and_copy_to_iter(const void *addr, size_t bytes, void *hashp,
                struct iov_iter *i);
 
-ssize_t import_iovec(int type, const struct iovec __user * uvector,
-                unsigned nr_segs, unsigned fast_segs,
-                struct iovec **iov, struct iov_iter *i);
-
-#ifdef CONFIG_COMPAT
-struct compat_iovec;
-ssize_t compat_import_iovec(int type, const struct compat_iovec __user * uvector,
-                unsigned nr_segs, unsigned fast_segs,
-                struct iovec **iov, struct iov_iter *i);
-#endif
-
+struct iovec *iovec_from_user(const struct iovec __user *uvector,
+               unsigned long nr_segs, unsigned long fast_segs,
+               struct iovec *fast_iov, bool compat);
+ssize_t import_iovec(int type, const struct iovec __user *uvec,
+                unsigned nr_segs, unsigned fast_segs, struct iovec **iovp,
+                struct iov_iter *i);
+ssize_t __import_iovec(int type, const struct iovec __user *uvec,
+                unsigned nr_segs, unsigned fast_segs, struct iovec **iovp,
+                struct iov_iter *i, bool compat);
 int import_single_range(int type, void __user *buf, size_t len,
                 struct iovec *iov, struct iov_iter *i);
 
index 5e08db2..c994d1b 100644 (file)
@@ -122,6 +122,12 @@ static inline void remove_watch_list(struct watch_list *wlist, u64 id)
  */
 #define watch_sizeof(STRUCT) (sizeof(STRUCT) << WATCH_INFO_LENGTH__SHIFT)
 
+#else
+static inline int watch_queue_init(struct pipe_inode_info *pipe)
+{
+       return -ENOPKG;
+}
+
 #endif
 
 #endif /* _LINUX_WATCH_QUEUE_H */
index cb382a8..8721492 100644 (file)
@@ -166,8 +166,6 @@ int tcf_idr_create_from_flags(struct tc_action_net *tn, u32 index,
                              struct nlattr *est, struct tc_action **a,
                              const struct tc_action_ops *ops, int bind,
                              u32 flags);
-void tcf_idr_insert(struct tc_action_net *tn, struct tc_action *a);
-
 void tcf_idr_cleanup(struct tc_action_net *tn, u32 index);
 int tcf_idr_check_alloc(struct tc_action_net *tn, u32 *index,
                        struct tc_action **a, int bind);
index 46754ba..0d05b9e 100644 (file)
 #ifndef _HAVE_ARCH_COPY_AND_CSUM_FROM_USER
 static inline
 __wsum csum_and_copy_from_user (const void __user *src, void *dst,
-                                     int len, __wsum sum, int *err_ptr)
+                                     int len)
 {
        if (copy_from_user(dst, src, len))
-               *err_ptr = -EFAULT;
-       return csum_partial(dst, len, sum);
+               return 0;
+       return csum_partial(dst, len, ~0U);
 }
 #endif
 
 #ifndef HAVE_CSUM_COPY_USER
 static __inline__ __wsum csum_and_copy_to_user
-(const void *src, void __user *dst, int len, __wsum sum, int *err_ptr)
+(const void *src, void __user *dst, int len)
 {
-       sum = csum_partial(src, len, sum);
+       __wsum sum = csum_partial(src, len, ~0U);
 
        if (copy_to_user(dst, src, len) == 0)
                return sum;
-       if (len)
-               *err_ptr = -EFAULT;
+       return 0;
+}
+#endif
 
-       return (__force __wsum)-1; /* invalid checksum */
+#ifndef _HAVE_ARCH_CSUM_AND_COPY
+static inline __wsum
+csum_partial_copy_nocheck(const void *src, void *dst, int len)
+{
+       memcpy(dst, src, len);
+       return csum_partial(dst, len, 0);
 }
 #endif
 
index 6e5f1e1..8899d74 100644 (file)
@@ -138,6 +138,7 @@ genl_dumpit_info(struct netlink_callback *cb)
  * @cmd: command identifier
  * @internal_flags: flags used by the family
  * @flags: flags
+ * @validate: validation flags from enum genl_validate_flags
  * @doit: standard command callback
  * @start: start callback for dumps
  * @dumpit: callback for dumpers
index b09c48d..2a52787 100644 (file)
@@ -436,12 +436,18 @@ static inline unsigned int ip_dst_mtu_maybe_forward(const struct dst_entry *dst,
                                                    bool forwarding)
 {
        struct net *net = dev_net(dst->dev);
+       unsigned int mtu;
 
        if (net->ipv4.sysctl_ip_fwd_use_pmtu ||
            ip_mtu_locked(dst) ||
            !forwarding)
                return dst_mtu(dst);
 
+       /* 'forwarding = true' case should always honour route mtu */
+       mtu = dst_metric_raw(dst, RTAX_MTU);
+       if (mtu)
+               return mtu;
+
        return min(READ_ONCE(dst->dev->mtu), IP_MAX_MTU);
 }
 
index 8e0eb2c..271620f 100644 (file)
@@ -1934,7 +1934,8 @@ void nla_get_range_signed(const struct nla_policy *pt,
 int netlink_policy_dump_start(const struct nla_policy *policy,
                              unsigned int maxtype,
                              unsigned long *state);
-bool netlink_policy_dump_loop(unsigned long *state);
+bool netlink_policy_dump_loop(unsigned long state);
 int netlink_policy_dump_write(struct sk_buff *skb, unsigned long state);
+void netlink_policy_dump_free(unsigned long state);
 
 #endif
index 2737d24..9e806c7 100644 (file)
@@ -1773,21 +1773,17 @@ static inline unsigned int xfrm_replay_state_esn_len(struct xfrm_replay_state_es
 static inline int xfrm_replay_clone(struct xfrm_state *x,
                                     struct xfrm_state *orig)
 {
-       x->replay_esn = kzalloc(xfrm_replay_state_esn_len(orig->replay_esn),
+
+       x->replay_esn = kmemdup(orig->replay_esn,
+                               xfrm_replay_state_esn_len(orig->replay_esn),
                                GFP_KERNEL);
        if (!x->replay_esn)
                return -ENOMEM;
-
-       x->replay_esn->bmp_len = orig->replay_esn->bmp_len;
-       x->replay_esn->replay_window = orig->replay_esn->replay_window;
-
-       x->preplay_esn = kmemdup(x->replay_esn,
-                                xfrm_replay_state_esn_len(x->replay_esn),
+       x->preplay_esn = kmemdup(orig->preplay_esn,
+                                xfrm_replay_state_esn_len(orig->preplay_esn),
                                 GFP_KERNEL);
-       if (!x->preplay_esn) {
-               kfree(x->replay_esn);
+       if (!x->preplay_esn)
                return -ENOMEM;
-       }
 
        return 0;
 }
index 841c6ec..1669481 100644 (file)
 #define ANA_SG_CONFIG_REG_3_LIST_LENGTH_M                 GENMASK(18, 16)
 #define ANA_SG_CONFIG_REG_3_LIST_LENGTH_X(x)              (((x) & GENMASK(18, 16)) >> 16)
 #define ANA_SG_CONFIG_REG_3_GATE_ENABLE                   BIT(20)
-#define ANA_SG_CONFIG_REG_3_INIT_IPS(x)                   (((x) << 24) & GENMASK(27, 24))
-#define ANA_SG_CONFIG_REG_3_INIT_IPS_M                    GENMASK(27, 24)
-#define ANA_SG_CONFIG_REG_3_INIT_IPS_X(x)                 (((x) & GENMASK(27, 24)) >> 24)
-#define ANA_SG_CONFIG_REG_3_INIT_GATE_STATE               BIT(28)
+#define ANA_SG_CONFIG_REG_3_INIT_IPS(x)                   (((x) << 21) & GENMASK(24, 21))
+#define ANA_SG_CONFIG_REG_3_INIT_IPS_M                    GENMASK(24, 21)
+#define ANA_SG_CONFIG_REG_3_INIT_IPS_X(x)                 (((x) & GENMASK(24, 21)) >> 21)
+#define ANA_SG_CONFIG_REG_3_INIT_GATE_STATE               BIT(25)
 
 #define ANA_SG_GCL_GS_CONFIG_RSZ                          0x4
 
index bd75f97..0072393 100644 (file)
@@ -25,7 +25,7 @@
 
 #undef TRACE_EVENT
 #define TRACE_EVENT(name, proto, args, tstruct, assign, print) \
-       DEFINE_TRACE(name)
+       DEFINE_TRACE(name, PARAMS(proto), PARAMS(args))
 
 #undef TRACE_EVENT_CONDITION
 #define TRACE_EVENT_CONDITION(name, proto, args, cond, tstruct, assign, print) \
 #undef TRACE_EVENT_FN
 #define TRACE_EVENT_FN(name, proto, args, tstruct,             \
                assign, print, reg, unreg)                      \
-       DEFINE_TRACE_FN(name, reg, unreg)
+       DEFINE_TRACE_FN(name, reg, unreg, PARAMS(proto), PARAMS(args))
 
 #undef TRACE_EVENT_FN_COND
 #define TRACE_EVENT_FN_COND(name, proto, args, cond, tstruct,          \
                assign, print, reg, unreg)                      \
-       DEFINE_TRACE_FN(name, reg, unreg)
+       DEFINE_TRACE_FN(name, reg, unreg, PARAMS(proto), PARAMS(args))
 
 #undef TRACE_EVENT_NOP
 #define TRACE_EVENT_NOP(name, proto, args, struct, assign, print)
 
 #undef DEFINE_EVENT
 #define DEFINE_EVENT(template, name, proto, args) \
-       DEFINE_TRACE(name)
+       DEFINE_TRACE(name, PARAMS(proto), PARAMS(args))
 
 #undef DEFINE_EVENT_FN
 #define DEFINE_EVENT_FN(template, name, proto, args, reg, unreg) \
-       DEFINE_TRACE_FN(name, reg, unreg)
+       DEFINE_TRACE_FN(name, reg, unreg, PARAMS(proto), PARAMS(args))
 
 #undef DEFINE_EVENT_PRINT
 #define DEFINE_EVENT_PRINT(template, name, proto, args, print) \
-       DEFINE_TRACE(name)
+       DEFINE_TRACE(name, PARAMS(proto), PARAMS(args))
 
 #undef DEFINE_EVENT_CONDITION
 #define DEFINE_EVENT_CONDITION(template, name, proto, args, cond) \
@@ -70,7 +70,7 @@
 
 #undef DECLARE_TRACE
 #define DECLARE_TRACE(name, proto, args)       \
-       DEFINE_TRACE(name)
+       DEFINE_TRACE(name, PARAMS(proto), PARAMS(args))
 
 #undef TRACE_INCLUDE
 #undef __TRACE_INCLUDE
index c705e49..1646dad 100644 (file)
@@ -92,7 +92,7 @@ DECLARE_EVENT_CLASS(filelock_lock,
                __entry->ret = ret;
        ),
 
-       TP_printk("fl=0x%p dev=0x%x:0x%x ino=0x%lx fl_blocker=0x%p fl_owner=0x%p fl_pid=%u fl_flags=%s fl_type=%s fl_start=%lld fl_end=%lld ret=%d",
+       TP_printk("fl=%p dev=0x%x:0x%x ino=0x%lx fl_blocker=%p fl_owner=%p fl_pid=%u fl_flags=%s fl_type=%s fl_start=%lld fl_end=%lld ret=%d",
                __entry->fl, MAJOR(__entry->s_dev), MINOR(__entry->s_dev),
                __entry->i_ino, __entry->fl_blocker, __entry->fl_owner,
                __entry->fl_pid, show_fl_flags(__entry->fl_flags),
@@ -145,7 +145,7 @@ DECLARE_EVENT_CLASS(filelock_lease,
                __entry->fl_downgrade_time = fl ? fl->fl_downgrade_time : 0;
        ),
 
-       TP_printk("fl=0x%p dev=0x%x:0x%x ino=0x%lx fl_blocker=0x%p fl_owner=0x%p fl_flags=%s fl_type=%s fl_break_time=%lu fl_downgrade_time=%lu",
+       TP_printk("fl=%p dev=0x%x:0x%x ino=0x%lx fl_blocker=%p fl_owner=%p fl_flags=%s fl_type=%s fl_break_time=%lu fl_downgrade_time=%lu",
                __entry->fl, MAJOR(__entry->s_dev), MINOR(__entry->s_dev),
                __entry->i_ino, __entry->fl_blocker, __entry->fl_owner,
                show_fl_flags(__entry->fl_flags),
@@ -195,7 +195,7 @@ TRACE_EVENT(generic_add_lease,
                __entry->fl_type = fl->fl_type;
        ),
 
-       TP_printk("dev=0x%x:0x%x ino=0x%lx wcount=%d rcount=%d icount=%d fl_owner=0x%p fl_flags=%s fl_type=%s",
+       TP_printk("dev=0x%x:0x%x ino=0x%lx wcount=%d rcount=%d icount=%d fl_owner=%p fl_flags=%s fl_type=%s",
                MAJOR(__entry->s_dev), MINOR(__entry->s_dev),
                __entry->i_ino, __entry->wcount, __entry->rcount,
                __entry->icount, __entry->fl_owner,
@@ -228,7 +228,7 @@ TRACE_EVENT(leases_conflict,
                __entry->conflict = conflict;
        ),
 
-       TP_printk("conflict %d: lease=0x%p fl_flags=%s fl_type=%s; breaker=0x%p fl_flags=%s fl_type=%s",
+       TP_printk("conflict %d: lease=%p fl_flags=%s fl_type=%s; breaker=%p fl_flags=%s fl_type=%s",
                __entry->conflict,
                __entry->lease,
                show_fl_flags(__entry->l_fl_flags),
index 5fb7520..67018d3 100644 (file)
 #define IF_HAVE_PG_IDLE(flag,string)
 #endif
 
+#ifdef CONFIG_64BIT
+#define IF_HAVE_PG_ARCH_2(flag,string) ,{1UL << flag, string}
+#else
+#define IF_HAVE_PG_ARCH_2(flag,string)
+#endif
+
 #define __def_pageflag_names                                           \
        {1UL << PG_locked,              "locked"        },              \
        {1UL << PG_waiters,             "waiters"       },              \
@@ -105,7 +111,8 @@ IF_HAVE_PG_MLOCK(PG_mlocked,                "mlocked"       )               \
 IF_HAVE_PG_UNCACHED(PG_uncached,       "uncached"      )               \
 IF_HAVE_PG_HWPOISON(PG_hwpoison,       "hwpoison"      )               \
 IF_HAVE_PG_IDLE(PG_young,              "young"         )               \
-IF_HAVE_PG_IDLE(PG_idle,               "idle"          )
+IF_HAVE_PG_IDLE(PG_idle,               "idle"          )               \
+IF_HAVE_PG_ARCH_2(PG_arch_2,           "arch_2"        )
 
 #define show_page_flags(flags)                                         \
        (flags) ? __print_flags(flags, "|",                             \
index fec25b9..c96a433 100644 (file)
@@ -630,6 +630,10 @@ DECLARE_TRACE(pelt_se_tp,
        TP_PROTO(struct sched_entity *se),
        TP_ARGS(se));
 
+DECLARE_TRACE(sched_cpu_capacity_tp,
+       TP_PROTO(struct rq *rq),
+       TP_ARGS(rq));
+
 DECLARE_TRACE(sched_overutilized_tp,
        TP_PROTO(struct root_domain *rd, bool overutilized),
        TP_ARGS(rd, overutilized));
index a5ccfa6..3b61b58 100644 (file)
@@ -153,26 +153,6 @@ DECLARE_EVENT_CLASS(xen_mmu__set_pte,
 
 DEFINE_XEN_MMU_SET_PTE(xen_mmu_set_pte);
 
-TRACE_EVENT(xen_mmu_set_pte_at,
-           TP_PROTO(struct mm_struct *mm, unsigned long addr,
-                    pte_t *ptep, pte_t pteval),
-           TP_ARGS(mm, addr, ptep, pteval),
-           TP_STRUCT__entry(
-                   __field(struct mm_struct *, mm)
-                   __field(unsigned long, addr)
-                   __field(pte_t *, ptep)
-                   __field(pteval_t, pteval)
-                   ),
-           TP_fast_assign(__entry->mm = mm;
-                          __entry->addr = addr;
-                          __entry->ptep = ptep;
-                          __entry->pteval = pteval.pte),
-           TP_printk("mm %p addr %lx ptep %p pteval %0*llx (raw %0*llx)",
-                     __entry->mm, __entry->addr, __entry->ptep,
-                     (int)sizeof(pteval_t) * 2, (unsigned long long)pte_val(native_make_pte(__entry->pteval)),
-                     (int)sizeof(pteval_t) * 2, (unsigned long long)__entry->pteval)
-       );
-
 TRACE_DEFINE_SIZEOF(pmdval_t);
 
 TRACE_EVENT(xen_mmu_set_pmd,
index cb3d6c2..7aacf93 100644 (file)
@@ -229,7 +229,9 @@ typedef struct siginfo {
 #define SEGV_ACCADI    5       /* ADI not enabled for mapped object */
 #define SEGV_ADIDERR   6       /* Disrupting MCD error */
 #define SEGV_ADIPERR   7       /* Precise MCD exception */
-#define NSIGSEGV       7
+#define SEGV_MTEAERR   8       /* Asynchronous ARM MTE error */
+#define SEGV_MTESERR   9       /* Synchronous ARM MTE exception */
+#define NSIGSEGV       9
 
 /*
  * SIGBUS si_codes
index 995b36c..f2b5d72 100644 (file)
@@ -140,7 +140,7 @@ __SYSCALL(__NR_renameat, sys_renameat)
 #define __NR_umount2 39
 __SYSCALL(__NR_umount2, sys_umount)
 #define __NR_mount 40
-__SC_COMP(__NR_mount, sys_mount, compat_sys_mount)
+__SYSCALL(__NR_mount, sys_mount)
 #define __NR_pivot_root 41
 __SYSCALL(__NR_pivot_root, sys_pivot_root)
 
@@ -207,9 +207,9 @@ __SYSCALL(__NR_read, sys_read)
 #define __NR_write 64
 __SYSCALL(__NR_write, sys_write)
 #define __NR_readv 65
-__SC_COMP(__NR_readv, sys_readv, compat_sys_readv)
+__SC_COMP(__NR_readv, sys_readv, sys_readv)
 #define __NR_writev 66
-__SC_COMP(__NR_writev, sys_writev, compat_sys_writev)
+__SC_COMP(__NR_writev, sys_writev, sys_writev)
 #define __NR_pread64 67
 __SC_COMP(__NR_pread64, sys_pread64, compat_sys_pread64)
 #define __NR_pwrite64 68
@@ -237,7 +237,7 @@ __SC_COMP(__NR_signalfd4, sys_signalfd4, compat_sys_signalfd4)
 
 /* fs/splice.c */
 #define __NR_vmsplice 75
-__SC_COMP(__NR_vmsplice, sys_vmsplice, compat_sys_vmsplice)
+__SYSCALL(__NR_vmsplice, sys_vmsplice)
 #define __NR_splice 76
 __SYSCALL(__NR_splice, sys_splice)
 #define __NR_tee 77
@@ -727,11 +727,9 @@ __SYSCALL(__NR_setns, sys_setns)
 #define __NR_sendmmsg 269
 __SC_COMP(__NR_sendmmsg, sys_sendmmsg, compat_sys_sendmmsg)
 #define __NR_process_vm_readv 270
-__SC_COMP(__NR_process_vm_readv, sys_process_vm_readv, \
-          compat_sys_process_vm_readv)
+__SYSCALL(__NR_process_vm_readv, sys_process_vm_readv)
 #define __NR_process_vm_writev 271
-__SC_COMP(__NR_process_vm_writev, sys_process_vm_writev, \
-          compat_sys_process_vm_writev)
+__SYSCALL(__NR_process_vm_writev, sys_process_vm_writev)
 #define __NR_kcmp 272
 __SYSCALL(__NR_kcmp, sys_kcmp)
 #define __NR_finit_module 273
index 2222094..30f68b4 100644 (file)
@@ -425,6 +425,7 @@ typedef struct elf64_shdr {
 #define NT_ARM_PAC_MASK                0x406   /* ARM pointer authentication code masks */
 #define NT_ARM_PACA_KEYS       0x407   /* ARM pointer authentication address keys */
 #define NT_ARM_PACG_KEYS       0x408   /* ARM pointer authentication generic key */
+#define NT_ARM_TAGGED_ADDR_CTRL        0x409   /* arm64 tagged address control (prctl()) */
 #define NT_ARC_V2      0x600           /* ARCv2 accumulator/extra registers */
 #define NT_VMCOREDD    0x700           /* Vmcore Device Dump Note */
 #define NT_MIPS_DSP    0x800           /* MIPS DSP ASE registers */
index 7875709..e5de603 100644 (file)
@@ -45,7 +45,6 @@ struct fscrypt_policy_v1 {
        __u8 flags;
        __u8 master_key_descriptor[FSCRYPT_KEY_DESCRIPTOR_SIZE];
 };
-#define fscrypt_policy fscrypt_policy_v1
 
 /*
  * Process-subscribed "logon" key description prefix and payload format.
@@ -156,9 +155,9 @@ struct fscrypt_get_key_status_arg {
        __u32 __out_reserved[13];
 };
 
-#define FS_IOC_SET_ENCRYPTION_POLICY           _IOR('f', 19, struct fscrypt_policy)
+#define FS_IOC_SET_ENCRYPTION_POLICY           _IOR('f', 19, struct fscrypt_policy_v1)
 #define FS_IOC_GET_ENCRYPTION_PWSALT           _IOW('f', 20, __u8[16])
-#define FS_IOC_GET_ENCRYPTION_POLICY           _IOW('f', 21, struct fscrypt_policy)
+#define FS_IOC_GET_ENCRYPTION_POLICY           _IOW('f', 21, struct fscrypt_policy_v1)
 #define FS_IOC_GET_ENCRYPTION_POLICY_EX                _IOWR('f', 22, __u8[9]) /* size + version */
 #define FS_IOC_ADD_ENCRYPTION_KEY              _IOWR('f', 23, struct fscrypt_add_key_arg)
 #define FS_IOC_REMOVE_ENCRYPTION_KEY           _IOWR('f', 24, struct fscrypt_remove_key_arg)
@@ -170,6 +169,7 @@ struct fscrypt_get_key_status_arg {
 
 /* old names; don't add anything new here! */
 #ifndef __KERNEL__
+#define fscrypt_policy                 fscrypt_policy_v1
 #define FS_KEY_DESCRIPTOR_SIZE         FSCRYPT_KEY_DESCRIPTOR_SIZE
 #define FS_POLICY_FLAGS_PAD_4          FSCRYPT_POLICY_FLAGS_PAD_4
 #define FS_POLICY_FLAGS_PAD_8          FSCRYPT_POLICY_FLAGS_PAD_8
index bc2bcde..60b7c2e 100644 (file)
@@ -35,6 +35,7 @@ struct af_alg_iv {
 #define ALG_SET_OP                     3
 #define ALG_SET_AEAD_ASSOCLEN          4
 #define ALG_SET_AEAD_AUTHSIZE          5
+#define ALG_SET_DRBG_ENTROPY           6
 
 /* Operations */
 #define ALG_OP_DECRYPT                 0
index 5891d76..7376058 100644 (file)
  *                          If this command is not implemented by an
  *                          architecture, -EINVAL is returned.
  *                          Returns 0 on success.
+ * @MEMBARRIER_CMD_PRIVATE_EXPEDITED_RSEQ:
+ *                          Ensure the caller thread, upon return from
+ *                          system call, that all its running thread
+ *                          siblings have any currently running rseq
+ *                          critical sections restarted if @flags
+ *                          parameter is 0; if @flags parameter is
+ *                          MEMBARRIER_CMD_FLAG_CPU,
+ *                          then this operation is performed only
+ *                          on CPU indicated by @cpu_id. If this command is
+ *                          not implemented by an architecture, -EINVAL
+ *                          is returned. A process needs to register its
+ *                          intent to use the private expedited rseq
+ *                          command prior to using it, otherwise
+ *                          this command returns -EPERM.
+ * @MEMBARRIER_CMD_REGISTER_PRIVATE_EXPEDITED_RSEQ:
+ *                          Register the process intent to use
+ *                          MEMBARRIER_CMD_PRIVATE_EXPEDITED_RSEQ.
+ *                          If this command is not implemented by an
+ *                          architecture, -EINVAL is returned.
+ *                          Returns 0 on success.
  * @MEMBARRIER_CMD_SHARED:
  *                          Alias to MEMBARRIER_CMD_GLOBAL. Provided for
  *                          header backward compatibility.
@@ -131,9 +151,15 @@ enum membarrier_cmd {
        MEMBARRIER_CMD_REGISTER_PRIVATE_EXPEDITED               = (1 << 4),
        MEMBARRIER_CMD_PRIVATE_EXPEDITED_SYNC_CORE              = (1 << 5),
        MEMBARRIER_CMD_REGISTER_PRIVATE_EXPEDITED_SYNC_CORE     = (1 << 6),
+       MEMBARRIER_CMD_PRIVATE_EXPEDITED_RSEQ                   = (1 << 7),
+       MEMBARRIER_CMD_REGISTER_PRIVATE_EXPEDITED_RSEQ          = (1 << 8),
 
        /* Alias for header backward compatibility. */
        MEMBARRIER_CMD_SHARED                   = MEMBARRIER_CMD_GLOBAL,
 };
 
+enum membarrier_cmd_flag {
+       MEMBARRIER_CMD_FLAG_CPU         = (1 << 0),
+};
+
 #endif /* _UAPI_LINUX_MEMBARRIER_H */
index 07b4f81..7f08277 100644 (file)
@@ -233,6 +233,15 @@ struct prctl_mm_map {
 #define PR_SET_TAGGED_ADDR_CTRL                55
 #define PR_GET_TAGGED_ADDR_CTRL                56
 # define PR_TAGGED_ADDR_ENABLE         (1UL << 0)
+/* MTE tag check fault modes */
+# define PR_MTE_TCF_SHIFT              1
+# define PR_MTE_TCF_NONE               (0UL << PR_MTE_TCF_SHIFT)
+# define PR_MTE_TCF_SYNC               (1UL << PR_MTE_TCF_SHIFT)
+# define PR_MTE_TCF_ASYNC              (2UL << PR_MTE_TCF_SHIFT)
+# define PR_MTE_TCF_MASK               (3UL << PR_MTE_TCF_SHIFT)
+/* MTE tag inclusion mask */
+# define PR_MTE_TAG_SHIFT              3
+# define PR_MTE_TAG_MASK               (0xffffUL << PR_MTE_TAG_SHIFT)
 
 /* Control reclaim behavior when allocating memory */
 #define PR_SET_IO_FLUSHER              57
index 4accfa7..8f8dc7a 100644 (file)
@@ -51,11 +51,11 @@ enum rxrpc_cmsg_type {
        RXRPC_BUSY              = 6,    /* -r: server busy received [terminal] */
        RXRPC_LOCAL_ERROR       = 7,    /* -r: local error generated [terminal] */
        RXRPC_NEW_CALL          = 8,    /* -r: [Service] new incoming call notification */
-       RXRPC_ACCEPT            = 9,    /* s-: [Service] accept request */
        RXRPC_EXCLUSIVE_CALL    = 10,   /* s-: Call should be on exclusive connection */
        RXRPC_UPGRADE_SERVICE   = 11,   /* s-: Request service upgrade for client call */
        RXRPC_TX_LENGTH         = 12,   /* s-: Total length of Tx data */
        RXRPC_SET_CALL_TIMEOUT  = 13,   /* s-: Set one or more call timeouts */
+       RXRPC_CHARGE_ACCEPT     = 14,   /* s-: Charge the accept pool with a user call ID */
        RXRPC__SUPPORTED
 };
 
index cee9f8e..f84e7bc 100644 (file)
@@ -288,6 +288,7 @@ enum
        LINUX_MIB_TCPTIMEOUTREHASH,             /* TCPTimeoutRehash */
        LINUX_MIB_TCPDUPLICATEDATAREHASH,       /* TCPDuplicateDataRehash */
        LINUX_MIB_TCPDSACKRECVSEGS,             /* TCPDSACKRecvSegs */
+       LINUX_MIB_TCPDSACKIGNOREDDUBIOUS,       /* TCPDSACKIgnoredDubious */
        __LINUX_MIB_MAX
 };
 
index 39df751..ac1b654 100644 (file)
@@ -83,6 +83,9 @@ static inline unsigned long bfn_to_pfn(unsigned long bfn)
        })
 #define gfn_to_virt(m)         (__va(gfn_to_pfn(m) << XEN_PAGE_SHIFT))
 
+#define percpu_to_gfn(v)       \
+       (pfn_to_gfn(per_cpu_ptr_to_phys(v) >> XEN_PAGE_SHIFT))
+
 /* Only used in PV code. But ARM guests are always HVM. */
 static inline xmaddr_t arbitrary_virt_to_machine(void *vaddr)
 {
index d6a0b31..c0f56e4 100644 (file)
@@ -1986,7 +1986,7 @@ config MMAP_ALLOW_UNINITIALIZED
          userspace.  Since that isn't generally a problem on no-MMU systems,
          it is normally safe to say Y here.
 
-         See Documentation/mm/nommu-mmap.rst for more information.
+         See Documentation/admin-guide/mm/nommu-mmap.rst for more information.
 
 config SYSTEM_DATA_VERIFICATION
        def_bool n
index 9a20016..b74820d 100644 (file)
@@ -111,6 +111,7 @@ obj-$(CONFIG_CPU_PM) += cpu_pm.o
 obj-$(CONFIG_BPF) += bpf/
 obj-$(CONFIG_KCSAN) += kcsan/
 obj-$(CONFIG_SHADOW_CALL_STACK) += scs.o
+obj-$(CONFIG_HAVE_STATIC_CALL_INLINE) += static_call.o
 
 obj-$(CONFIG_PERF_EVENTS) += events/
 
index 3b49577..11b3380 100644 (file)
@@ -30,15 +30,15 @@ static struct kobject *btf_kobj;
 
 static int __init btf_vmlinux_init(void)
 {
-       if (!__start_BTF)
+       bin_attr_btf_vmlinux.size = __stop_BTF - __start_BTF;
+
+       if (!__start_BTF || bin_attr_btf_vmlinux.size == 0)
                return 0;
 
        btf_kobj = kobject_create_and_add("btf", kernel_kobj);
        if (!btf_kobj)
                return -ENOMEM;
 
-       bin_attr_btf_vmlinux.size = __stop_BTF - __start_BTF;
-
        return sysfs_create_bin_file(btf_kobj, &bin_attr_btf_vmlinux);
 }
 
index 47e74f0..fba52d9 100644 (file)
@@ -5667,8 +5667,8 @@ static void scalar32_min_max_or(struct bpf_reg_state *dst_reg,
        bool src_known = tnum_subreg_is_const(src_reg->var_off);
        bool dst_known = tnum_subreg_is_const(dst_reg->var_off);
        struct tnum var32_off = tnum_subreg(dst_reg->var_off);
-       s32 smin_val = src_reg->smin_value;
-       u32 umin_val = src_reg->umin_value;
+       s32 smin_val = src_reg->s32_min_value;
+       u32 umin_val = src_reg->u32_min_value;
 
        /* Assuming scalar64_min_max_or will be called so it is safe
         * to skip updating register for known case.
@@ -5691,8 +5691,8 @@ static void scalar32_min_max_or(struct bpf_reg_state *dst_reg,
                /* ORing two positives gives a positive, so safe to
                 * cast result into s64.
                 */
-               dst_reg->s32_min_value = dst_reg->umin_value;
-               dst_reg->s32_max_value = dst_reg->umax_value;
+               dst_reg->s32_min_value = dst_reg->u32_min_value;
+               dst_reg->s32_max_value = dst_reg->u32_max_value;
        }
 }
 
index 44a2593..f7e1d0e 100644 (file)
 
 static ATOMIC_NOTIFIER_HEAD(cpu_pm_notifier_chain);
 
-static int cpu_pm_notify(enum cpu_pm_event event, int nr_to_call, int *nr_calls)
+static int cpu_pm_notify(enum cpu_pm_event event)
 {
        int ret;
 
        /*
-        * __atomic_notifier_call_chain has a RCU read critical section, which
+        * atomic_notifier_call_chain has a RCU read critical section, which
         * could be disfunctional in cpu idle. Copy RCU_NONIDLE code to let
         * RCU know this.
         */
        rcu_irq_enter_irqson();
-       ret = __atomic_notifier_call_chain(&cpu_pm_notifier_chain, event, NULL,
-               nr_to_call, nr_calls);
+       ret = atomic_notifier_call_chain(&cpu_pm_notifier_chain, event, NULL);
+       rcu_irq_exit_irqson();
+
+       return notifier_to_errno(ret);
+}
+
+static int cpu_pm_notify_robust(enum cpu_pm_event event_up, enum cpu_pm_event event_down)
+{
+       int ret;
+
+       rcu_irq_enter_irqson();
+       ret = atomic_notifier_call_chain_robust(&cpu_pm_notifier_chain, event_up, event_down, NULL);
        rcu_irq_exit_irqson();
 
        return notifier_to_errno(ret);
@@ -80,18 +90,7 @@ EXPORT_SYMBOL_GPL(cpu_pm_unregister_notifier);
  */
 int cpu_pm_enter(void)
 {
-       int nr_calls = 0;
-       int ret = 0;
-
-       ret = cpu_pm_notify(CPU_PM_ENTER, -1, &nr_calls);
-       if (ret)
-               /*
-                * Inform listeners (nr_calls - 1) about failure of CPU PM
-                * PM entry who are notified earlier to prepare for it.
-                */
-               cpu_pm_notify(CPU_PM_ENTER_FAILED, nr_calls - 1, NULL);
-
-       return ret;
+       return cpu_pm_notify_robust(CPU_PM_ENTER, CPU_PM_ENTER_FAILED);
 }
 EXPORT_SYMBOL_GPL(cpu_pm_enter);
 
@@ -109,7 +108,7 @@ EXPORT_SYMBOL_GPL(cpu_pm_enter);
  */
 int cpu_pm_exit(void)
 {
-       return cpu_pm_notify(CPU_PM_EXIT, -1, NULL);
+       return cpu_pm_notify(CPU_PM_EXIT);
 }
 EXPORT_SYMBOL_GPL(cpu_pm_exit);
 
@@ -131,18 +130,7 @@ EXPORT_SYMBOL_GPL(cpu_pm_exit);
  */
 int cpu_cluster_pm_enter(void)
 {
-       int nr_calls = 0;
-       int ret = 0;
-
-       ret = cpu_pm_notify(CPU_CLUSTER_PM_ENTER, -1, &nr_calls);
-       if (ret)
-               /*
-                * Inform listeners (nr_calls - 1) about failure of CPU cluster
-                * PM entry who are notified earlier to prepare for it.
-                */
-               cpu_pm_notify(CPU_CLUSTER_PM_ENTER_FAILED, nr_calls - 1, NULL);
-
-       return ret;
+       return cpu_pm_notify_robust(CPU_CLUSTER_PM_ENTER, CPU_CLUSTER_PM_ENTER_FAILED);
 }
 EXPORT_SYMBOL_GPL(cpu_cluster_pm_enter);
 
@@ -163,7 +151,7 @@ EXPORT_SYMBOL_GPL(cpu_cluster_pm_enter);
  */
 int cpu_cluster_pm_exit(void)
 {
-       return cpu_pm_notify(CPU_CLUSTER_PM_EXIT, -1, NULL);
+       return cpu_pm_notify(CPU_CLUSTER_PM_EXIT);
 }
 EXPORT_SYMBOL_GPL(cpu_cluster_pm_exit);
 
index 6fdb610..145ab11 100644 (file)
@@ -208,7 +208,7 @@ static inline bool report_single_step(unsigned long ti_work)
 /*
  * If TIF_SYSCALL_EMU is set, then the only reason to report is when
  * TIF_SINGLESTEP is set (i.e. PTRACE_SYSEMU_SINGLESTEP).  This syscall
- * instruction has been already reported in syscall_enter_from_usermode().
+ * instruction has been already reported in syscall_enter_from_user_mode().
  */
 #define SYSEMU_STEP    (_TIF_SINGLESTEP | _TIF_SYSCALL_EMU)
 
index 7ed5248..da467e1 100644 (file)
@@ -99,7 +99,7 @@ static void remote_function(void *data)
  * retry due to any failures in smp_call_function_single(), such as if the
  * task_cpu() goes offline concurrently.
  *
- * returns @func return value or -ESRCH when the process isn't running
+ * returns @func return value or -ESRCH or -ENXIO when the process isn't running
  */
 static int
 task_function_call(struct task_struct *p, remote_function_f func, void *info)
@@ -115,7 +115,8 @@ task_function_call(struct task_struct *p, remote_function_f func, void *info)
        for (;;) {
                ret = smp_call_function_single(task_cpu(p), remote_function,
                                               &data, 1);
-               ret = !ret ? data.ret : -EAGAIN;
+               if (!ret)
+                       ret = data.ret;
 
                if (ret != -EAGAIN)
                        break;
@@ -382,7 +383,6 @@ static DEFINE_MUTEX(perf_sched_mutex);
 static atomic_t perf_sched_count;
 
 static DEFINE_PER_CPU(atomic_t, perf_cgroup_events);
-static DEFINE_PER_CPU(int, perf_sched_cb_usages);
 static DEFINE_PER_CPU(struct pmu_event_list, pmu_sb_events);
 
 static atomic_t nr_mmap_events __read_mostly;
@@ -2133,8 +2133,24 @@ static inline struct list_head *get_event_list(struct perf_event *event)
        return event->attr.pinned ? &ctx->pinned_active : &ctx->flexible_active;
 }
 
+/*
+ * Events that have PERF_EV_CAP_SIBLING require being part of a group and
+ * cannot exist on their own, schedule them out and move them into the ERROR
+ * state. Also see _perf_event_enable(), it will not be able to recover
+ * this ERROR state.
+ */
+static inline void perf_remove_sibling_event(struct perf_event *event)
+{
+       struct perf_event_context *ctx = event->ctx;
+       struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
+
+       event_sched_out(event, cpuctx, ctx);
+       perf_event_set_state(event, PERF_EVENT_STATE_ERROR);
+}
+
 static void perf_group_detach(struct perf_event *event)
 {
+       struct perf_event *leader = event->group_leader;
        struct perf_event *sibling, *tmp;
        struct perf_event_context *ctx = event->ctx;
 
@@ -2153,7 +2169,7 @@ static void perf_group_detach(struct perf_event *event)
        /*
         * If this is a sibling, remove it from its group.
         */
-       if (event->group_leader != event) {
+       if (leader != event) {
                list_del_init(&event->sibling_list);
                event->group_leader->nr_siblings--;
                goto out;
@@ -2166,6 +2182,9 @@ static void perf_group_detach(struct perf_event *event)
         */
        list_for_each_entry_safe(sibling, tmp, &event->sibling_list, sibling_list) {
 
+               if (sibling->event_caps & PERF_EV_CAP_SIBLING)
+                       perf_remove_sibling_event(sibling);
+
                sibling->group_leader = sibling;
                list_del_init(&sibling->sibling_list);
 
@@ -2183,10 +2202,10 @@ static void perf_group_detach(struct perf_event *event)
        }
 
 out:
-       perf_event__header_size(event->group_leader);
-
-       for_each_sibling_event(tmp, event->group_leader)
+       for_each_sibling_event(tmp, leader)
                perf_event__header_size(tmp);
+
+       perf_event__header_size(leader);
 }
 
 static bool is_orphaned_event(struct perf_event *event)
@@ -2979,6 +2998,7 @@ static void _perf_event_enable(struct perf_event *event)
        raw_spin_lock_irq(&ctx->lock);
        if (event->state >= PERF_EVENT_STATE_INACTIVE ||
            event->state <  PERF_EVENT_STATE_ERROR) {
+out:
                raw_spin_unlock_irq(&ctx->lock);
                return;
        }
@@ -2990,8 +3010,16 @@ static void _perf_event_enable(struct perf_event *event)
         * has gone back into error state, as distinct from the task having
         * been scheduled away before the cross-call arrived.
         */
-       if (event->state == PERF_EVENT_STATE_ERROR)
+       if (event->state == PERF_EVENT_STATE_ERROR) {
+               /*
+                * Detached SIBLING events cannot leave ERROR state.
+                */
+               if (event->event_caps & PERF_EV_CAP_SIBLING &&
+                   event->group_leader == event)
+                       goto out;
+
                event->state = PERF_EVENT_STATE_OFF;
+       }
        raw_spin_unlock_irq(&ctx->lock);
 
        event_function_call(event, __perf_event_enable, NULL);
@@ -3356,10 +3384,12 @@ static void perf_event_context_sched_out(struct task_struct *task, int ctxn,
        struct perf_event_context *parent, *next_parent;
        struct perf_cpu_context *cpuctx;
        int do_switch = 1;
+       struct pmu *pmu;
 
        if (likely(!ctx))
                return;
 
+       pmu = ctx->pmu;
        cpuctx = __get_cpu_context(ctx);
        if (!cpuctx->task_ctx)
                return;
@@ -3389,11 +3419,15 @@ static void perf_event_context_sched_out(struct task_struct *task, int ctxn,
                raw_spin_lock(&ctx->lock);
                raw_spin_lock_nested(&next_ctx->lock, SINGLE_DEPTH_NESTING);
                if (context_equiv(ctx, next_ctx)) {
-                       struct pmu *pmu = ctx->pmu;
 
                        WRITE_ONCE(ctx->task, next);
                        WRITE_ONCE(next_ctx->task, task);
 
+                       perf_pmu_disable(pmu);
+
+                       if (cpuctx->sched_cb_usage && pmu->sched_task)
+                               pmu->sched_task(ctx, false);
+
                        /*
                         * PMU specific parts of task perf context can require
                         * additional synchronization. As an example of such
@@ -3405,6 +3439,8 @@ static void perf_event_context_sched_out(struct task_struct *task, int ctxn,
                        else
                                swap(ctx->task_ctx_data, next_ctx->task_ctx_data);
 
+                       perf_pmu_enable(pmu);
+
                        /*
                         * RCU_INIT_POINTER here is safe because we've not
                         * modified the ctx and the above modification of
@@ -3427,21 +3463,22 @@ unlock:
 
        if (do_switch) {
                raw_spin_lock(&ctx->lock);
+               perf_pmu_disable(pmu);
+
+               if (cpuctx->sched_cb_usage && pmu->sched_task)
+                       pmu->sched_task(ctx, false);
                task_ctx_sched_out(cpuctx, ctx, EVENT_ALL);
+
+               perf_pmu_enable(pmu);
                raw_spin_unlock(&ctx->lock);
        }
 }
 
-static DEFINE_PER_CPU(struct list_head, sched_cb_list);
-
 void perf_sched_cb_dec(struct pmu *pmu)
 {
        struct perf_cpu_context *cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
 
-       this_cpu_dec(perf_sched_cb_usages);
-
-       if (!--cpuctx->sched_cb_usage)
-               list_del(&cpuctx->sched_cb_entry);
+       --cpuctx->sched_cb_usage;
 }
 
 
@@ -3449,10 +3486,7 @@ void perf_sched_cb_inc(struct pmu *pmu)
 {
        struct perf_cpu_context *cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
 
-       if (!cpuctx->sched_cb_usage++)
-               list_add(&cpuctx->sched_cb_entry, this_cpu_ptr(&sched_cb_list));
-
-       this_cpu_inc(perf_sched_cb_usages);
+       cpuctx->sched_cb_usage++;
 }
 
 /*
@@ -3463,30 +3497,22 @@ void perf_sched_cb_inc(struct pmu *pmu)
  * PEBS requires this to provide PID/TID information. This requires we flush
  * all queued PEBS records before we context switch to a new task.
  */
-static void perf_pmu_sched_task(struct task_struct *prev,
-                               struct task_struct *next,
-                               bool sched_in)
+static void __perf_pmu_sched_task(struct perf_cpu_context *cpuctx, bool sched_in)
 {
-       struct perf_cpu_context *cpuctx;
        struct pmu *pmu;
 
-       if (prev == next)
-               return;
-
-       list_for_each_entry(cpuctx, this_cpu_ptr(&sched_cb_list), sched_cb_entry) {
-               pmu = cpuctx->ctx.pmu; /* software PMUs will not have sched_task */
+       pmu = cpuctx->ctx.pmu; /* software PMUs will not have sched_task */
 
-               if (WARN_ON_ONCE(!pmu->sched_task))
-                       continue;
+       if (WARN_ON_ONCE(!pmu->sched_task))
+               return;
 
-               perf_ctx_lock(cpuctx, cpuctx->task_ctx);
-               perf_pmu_disable(pmu);
+       perf_ctx_lock(cpuctx, cpuctx->task_ctx);
+       perf_pmu_disable(pmu);
 
-               pmu->sched_task(cpuctx->task_ctx, sched_in);
+       pmu->sched_task(cpuctx->task_ctx, sched_in);
 
-               perf_pmu_enable(pmu);
-               perf_ctx_unlock(cpuctx, cpuctx->task_ctx);
-       }
+       perf_pmu_enable(pmu);
+       perf_ctx_unlock(cpuctx, cpuctx->task_ctx);
 }
 
 static void perf_event_switch(struct task_struct *task,
@@ -3511,9 +3537,6 @@ void __perf_event_task_sched_out(struct task_struct *task,
 {
        int ctxn;
 
-       if (__this_cpu_read(perf_sched_cb_usages))
-               perf_pmu_sched_task(task, next, false);
-
        if (atomic_read(&nr_switch_events))
                perf_event_switch(task, next, false);
 
@@ -3745,10 +3768,14 @@ static void perf_event_context_sched_in(struct perf_event_context *ctx,
                                        struct task_struct *task)
 {
        struct perf_cpu_context *cpuctx;
+       struct pmu *pmu = ctx->pmu;
 
        cpuctx = __get_cpu_context(ctx);
-       if (cpuctx->task_ctx == ctx)
+       if (cpuctx->task_ctx == ctx) {
+               if (cpuctx->sched_cb_usage)
+                       __perf_pmu_sched_task(cpuctx, true);
                return;
+       }
 
        perf_ctx_lock(cpuctx, ctx);
        /*
@@ -3758,7 +3785,7 @@ static void perf_event_context_sched_in(struct perf_event_context *ctx,
        if (!ctx->nr_events)
                goto unlock;
 
-       perf_pmu_disable(ctx->pmu);
+       perf_pmu_disable(pmu);
        /*
         * We want to keep the following priority order:
         * cpu pinned (that don't need to move), task pinned,
@@ -3770,7 +3797,11 @@ static void perf_event_context_sched_in(struct perf_event_context *ctx,
        if (!RB_EMPTY_ROOT(&ctx->pinned_groups.tree))
                cpu_ctx_sched_out(cpuctx, EVENT_FLEXIBLE);
        perf_event_sched_in(cpuctx, ctx, task);
-       perf_pmu_enable(ctx->pmu);
+
+       if (cpuctx->sched_cb_usage && pmu->sched_task)
+               pmu->sched_task(cpuctx->task_ctx, true);
+
+       perf_pmu_enable(pmu);
 
 unlock:
        perf_ctx_unlock(cpuctx, ctx);
@@ -3813,9 +3844,6 @@ void __perf_event_task_sched_in(struct task_struct *prev,
 
        if (atomic_read(&nr_switch_events))
                perf_event_switch(task, prev, true);
-
-       if (__this_cpu_read(perf_sched_cb_usages))
-               perf_pmu_sched_task(prev, task, true);
 }
 
 static u64 perf_calculate_period(struct perf_event *event, u64 nsec, u64 count)
@@ -5868,11 +5896,11 @@ static void perf_pmu_output_stop(struct perf_event *event);
 static void perf_mmap_close(struct vm_area_struct *vma)
 {
        struct perf_event *event = vma->vm_file->private_data;
-
        struct perf_buffer *rb = ring_buffer_get(event);
        struct user_struct *mmap_user = rb->mmap_user;
        int mmap_locked = rb->mmap_locked;
        unsigned long size = perf_data_size(rb);
+       bool detach_rest = false;
 
        if (event->pmu->event_unmapped)
                event->pmu->event_unmapped(event, vma->vm_mm);
@@ -5903,7 +5931,8 @@ static void perf_mmap_close(struct vm_area_struct *vma)
                mutex_unlock(&event->mmap_mutex);
        }
 
-       atomic_dec(&rb->mmap_count);
+       if (atomic_dec_and_test(&rb->mmap_count))
+               detach_rest = true;
 
        if (!atomic_dec_and_mutex_lock(&event->mmap_count, &event->mmap_mutex))
                goto out_put;
@@ -5912,7 +5941,7 @@ static void perf_mmap_close(struct vm_area_struct *vma)
        mutex_unlock(&event->mmap_mutex);
 
        /* If there's still other mmap()s of this buffer, we're done. */
-       if (atomic_read(&rb->mmap_count))
+       if (!detach_rest)
                goto out_put;
 
        /*
@@ -12828,7 +12857,6 @@ static void __init perf_event_init_all_cpus(void)
 #ifdef CONFIG_CGROUP_PERF
                INIT_LIST_HEAD(&per_cpu(cgrp_cpuctx_list, cpu));
 #endif
-               INIT_LIST_HEAD(&per_cpu(sched_cb_list, cpu));
        }
 }
 
index 857f5f4..b9b9618 100644 (file)
@@ -945,6 +945,33 @@ void handle_percpu_devid_irq(struct irq_desc *desc)
 }
 
 /**
+ * handle_percpu_devid_fasteoi_ipi - Per CPU local IPI handler with per cpu
+ *                                  dev ids
+ * @desc:      the interrupt description structure for this irq
+ *
+ * The biggest difference with the IRQ version is that the interrupt is
+ * EOIed early, as the IPI could result in a context switch, and we need to
+ * make sure the IPI can fire again. We also assume that the arch code has
+ * registered an action. If not, we are positively doomed.
+ */
+void handle_percpu_devid_fasteoi_ipi(struct irq_desc *desc)
+{
+       struct irq_chip *chip = irq_desc_get_chip(desc);
+       struct irqaction *action = desc->action;
+       unsigned int irq = irq_desc_get_irq(desc);
+       irqreturn_t res;
+
+       __kstat_incr_irqs_this_cpu(desc);
+
+       if (chip->irq_eoi)
+               chip->irq_eoi(&desc->irq_data);
+
+       trace_irq_handler_entry(irq, action);
+       res = action->handler(irq, raw_cpu_ptr(action->percpu_dev_id));
+       trace_irq_handler_exit(irq, action, res);
+}
+
+/**
  * handle_percpu_devid_fasteoi_nmi - Per CPU local NMI handler with per cpu
  *                                  dev ids
  * @desc:      the interrupt description structure for this irq
@@ -1541,18 +1568,17 @@ EXPORT_SYMBOL_GPL(irq_chip_release_resources_parent);
  */
 int irq_chip_compose_msi_msg(struct irq_data *data, struct msi_msg *msg)
 {
-       struct irq_data *pos = NULL;
+       struct irq_data *pos;
 
-#ifdef CONFIG_IRQ_DOMAIN_HIERARCHY
-       for (; data; data = data->parent_data)
-#endif
+       for (pos = NULL; !pos && data; data = irqd_get_parent_data(data)) {
                if (data->chip && data->chip->irq_compose_msi_msg)
                        pos = data;
+       }
+
        if (!pos)
                return -ENOSYS;
 
        pos->chip->irq_compose_msi_msg(pos, msg);
-
        return 0;
 }
 
index b95ff5d..e4cff35 100644 (file)
@@ -57,6 +57,7 @@ static const struct irq_bit_descr irqchip_flags[] = {
        BIT_MASK_DESCR(IRQCHIP_EOI_THREADED),
        BIT_MASK_DESCR(IRQCHIP_SUPPORTS_LEVEL_MSI),
        BIT_MASK_DESCR(IRQCHIP_SUPPORTS_NMI),
+       BIT_MASK_DESCR(IRQCHIP_ENABLE_WAKEUP_ON_SUSPEND),
 };
 
 static void
@@ -125,6 +126,8 @@ static const struct irq_bit_descr irqdata_states[] = {
        BIT_MASK_DESCR(IRQD_DEFAULT_TRIGGER_SET),
 
        BIT_MASK_DESCR(IRQD_HANDLE_ENFORCE_IRQCTX),
+
+       BIT_MASK_DESCR(IRQD_IRQ_ENABLED_ON_SUSPEND),
 };
 
 static const struct irq_bit_descr irqdesc_states[] = {
@@ -136,6 +139,7 @@ static const struct irq_bit_descr irqdesc_states[] = {
        BIT_MASK_DESCR(_IRQ_PER_CPU_DEVID),
        BIT_MASK_DESCR(_IRQ_IS_POLLED),
        BIT_MASK_DESCR(_IRQ_DISABLE_UNLAZY),
+       BIT_MASK_DESCR(_IRQ_HIDDEN),
 };
 
 static const struct irq_bit_descr irqdesc_istates[] = {
index 7db284b..5436352 100644 (file)
@@ -473,6 +473,15 @@ static inline void irq_domain_deactivate_irq(struct irq_data *data)
 }
 #endif
 
+static inline struct irq_data *irqd_get_parent_data(struct irq_data *irqd)
+{
+#ifdef CONFIG_IRQ_DOMAIN_HIERARCHY
+       return irqd->parent_data;
+#else
+       return NULL;
+#endif
+}
+
 #ifdef CONFIG_GENERIC_IRQ_DEBUGFS
 #include <linux/debugfs.h>
 
index 76cd7eb..cf8b374 100644 (file)
@@ -1136,6 +1136,17 @@ static struct irq_data *irq_domain_insert_irq_data(struct irq_domain *domain,
        return irq_data;
 }
 
+static void __irq_domain_free_hierarchy(struct irq_data *irq_data)
+{
+       struct irq_data *tmp;
+
+       while (irq_data) {
+               tmp = irq_data;
+               irq_data = irq_data->parent_data;
+               kfree(tmp);
+       }
+}
+
 static void irq_domain_free_irq_data(unsigned int virq, unsigned int nr_irqs)
 {
        struct irq_data *irq_data, *tmp;
@@ -1147,12 +1158,83 @@ static void irq_domain_free_irq_data(unsigned int virq, unsigned int nr_irqs)
                irq_data->parent_data = NULL;
                irq_data->domain = NULL;
 
-               while (tmp) {
-                       irq_data = tmp;
-                       tmp = tmp->parent_data;
-                       kfree(irq_data);
+               __irq_domain_free_hierarchy(tmp);
+       }
+}
+
+/**
+ * irq_domain_disconnect_hierarchy - Mark the first unused level of a hierarchy
+ * @domain:    IRQ domain from which the hierarchy is to be disconnected
+ * @virq:      IRQ number where the hierarchy is to be trimmed
+ *
+ * Marks the @virq level belonging to @domain as disconnected.
+ * Returns -EINVAL if @virq doesn't have a valid irq_data pointing
+ * to @domain.
+ *
+ * Its only use is to be able to trim levels of hierarchy that do not
+ * have any real meaning for this interrupt, and that the driver marks
+ * as such from its .alloc() callback.
+ */
+int irq_domain_disconnect_hierarchy(struct irq_domain *domain,
+                                   unsigned int virq)
+{
+       struct irq_data *irqd;
+
+       irqd = irq_domain_get_irq_data(domain, virq);
+       if (!irqd)
+               return -EINVAL;
+
+       irqd->chip = ERR_PTR(-ENOTCONN);
+       return 0;
+}
+
+static int irq_domain_trim_hierarchy(unsigned int virq)
+{
+       struct irq_data *tail, *irqd, *irq_data;
+
+       irq_data = irq_get_irq_data(virq);
+       tail = NULL;
+
+       /* The first entry must have a valid irqchip */
+       if (!irq_data->chip || IS_ERR(irq_data->chip))
+               return -EINVAL;
+
+       /*
+        * Validate that the irq_data chain is sane in the presence of
+        * a hierarchy trimming marker.
+        */
+       for (irqd = irq_data->parent_data; irqd; irq_data = irqd, irqd = irqd->parent_data) {
+               /* Can't have a valid irqchip after a trim marker */
+               if (irqd->chip && tail)
+                       return -EINVAL;
+
+               /* Can't have an empty irqchip before a trim marker */
+               if (!irqd->chip && !tail)
+                       return -EINVAL;
+
+               if (IS_ERR(irqd->chip)) {
+                       /* Only -ENOTCONN is a valid trim marker */
+                       if (PTR_ERR(irqd->chip) != -ENOTCONN)
+                               return -EINVAL;
+
+                       tail = irq_data;
                }
        }
+
+       /* No trim marker, nothing to do */
+       if (!tail)
+               return 0;
+
+       pr_info("IRQ%d: trimming hierarchy from %s\n",
+               virq, tail->parent_data->domain->name);
+
+       /* Sever the inner part of the hierarchy...  */
+       irqd = tail;
+       tail = tail->parent_data;
+       irqd->parent_data = NULL;
+       __irq_domain_free_hierarchy(tail);
+
+       return 0;
 }
 
 static int irq_domain_alloc_irq_data(struct irq_domain *domain,
@@ -1362,6 +1444,15 @@ int __irq_domain_alloc_irqs(struct irq_domain *domain, int irq_base,
                mutex_unlock(&irq_domain_mutex);
                goto out_free_irq_data;
        }
+
+       for (i = 0; i < nr_irqs; i++) {
+               ret = irq_domain_trim_hierarchy(virq + i);
+               if (ret) {
+                       mutex_unlock(&irq_domain_mutex);
+                       goto out_free_irq_data;
+               }
+       }
+       
        for (i = 0; i < nr_irqs; i++)
                irq_domain_insert_irq(virq + i);
        mutex_unlock(&irq_domain_mutex);
index eb95f61..2c0c4d6 100644 (file)
@@ -187,7 +187,6 @@ static const struct irq_domain_ops msi_domain_ops = {
        .deactivate     = msi_domain_deactivate,
 };
 
-#ifdef GENERIC_MSI_DOMAIN_OPS
 static irq_hw_number_t msi_domain_ops_get_hwirq(struct msi_domain_info *info,
                                                msi_alloc_info_t *arg)
 {
@@ -206,11 +205,6 @@ static void msi_domain_ops_set_desc(msi_alloc_info_t *arg,
 {
        arg->desc = desc;
 }
-#else
-#define msi_domain_ops_get_hwirq       NULL
-#define msi_domain_ops_prepare         NULL
-#define msi_domain_ops_set_desc                NULL
-#endif /* !GENERIC_MSI_DOMAIN_OPS */
 
 static int msi_domain_ops_init(struct irq_domain *domain,
                               struct msi_domain_info *info,
@@ -235,11 +229,13 @@ static int msi_domain_ops_check(struct irq_domain *domain,
 }
 
 static struct msi_domain_ops msi_domain_ops_default = {
-       .get_hwirq      = msi_domain_ops_get_hwirq,
-       .msi_init       = msi_domain_ops_init,
-       .msi_check      = msi_domain_ops_check,
-       .msi_prepare    = msi_domain_ops_prepare,
-       .set_desc       = msi_domain_ops_set_desc,
+       .get_hwirq              = msi_domain_ops_get_hwirq,
+       .msi_init               = msi_domain_ops_init,
+       .msi_check              = msi_domain_ops_check,
+       .msi_prepare            = msi_domain_ops_prepare,
+       .set_desc               = msi_domain_ops_set_desc,
+       .domain_alloc_irqs      = __msi_domain_alloc_irqs,
+       .domain_free_irqs       = __msi_domain_free_irqs,
 };
 
 static void msi_domain_update_dom_ops(struct msi_domain_info *info)
@@ -251,6 +247,14 @@ static void msi_domain_update_dom_ops(struct msi_domain_info *info)
                return;
        }
 
+       if (ops->domain_alloc_irqs == NULL)
+               ops->domain_alloc_irqs = msi_domain_ops_default.domain_alloc_irqs;
+       if (ops->domain_free_irqs == NULL)
+               ops->domain_free_irqs = msi_domain_ops_default.domain_free_irqs;
+
+       if (!(info->flags & MSI_FLAG_USE_DEF_DOM_OPS))
+               return;
+
        if (ops->get_hwirq == NULL)
                ops->get_hwirq = msi_domain_ops_default.get_hwirq;
        if (ops->msi_init == NULL)
@@ -284,8 +288,7 @@ struct irq_domain *msi_create_irq_domain(struct fwnode_handle *fwnode,
 {
        struct irq_domain *domain;
 
-       if (info->flags & MSI_FLAG_USE_DEF_DOM_OPS)
-               msi_domain_update_dom_ops(info);
+       msi_domain_update_dom_ops(info);
        if (info->flags & MSI_FLAG_USE_DEF_CHIP_OPS)
                msi_domain_update_chip_ops(info);
 
@@ -370,8 +373,13 @@ static bool msi_check_reservation_mode(struct irq_domain *domain,
 {
        struct msi_desc *desc;
 
-       if (domain->bus_token != DOMAIN_BUS_PCI_MSI)
+       switch(domain->bus_token) {
+       case DOMAIN_BUS_PCI_MSI:
+       case DOMAIN_BUS_VMD_MSI:
+               break;
+       default:
                return false;
+       }
 
        if (!(info->flags & MSI_FLAG_MUST_REACTIVATE))
                return false;
@@ -387,17 +395,8 @@ static bool msi_check_reservation_mode(struct irq_domain *domain,
        return desc->msi_attrib.is_msix || desc->msi_attrib.maskbit;
 }
 
-/**
- * msi_domain_alloc_irqs - Allocate interrupts from a MSI interrupt domain
- * @domain:    The domain to allocate from
- * @dev:       Pointer to device struct of the device for which the interrupts
- *             are allocated
- * @nvec:      The number of interrupts to allocate
- *
- * Returns 0 on success or an error code.
- */
-int msi_domain_alloc_irqs(struct irq_domain *domain, struct device *dev,
-                         int nvec)
+int __msi_domain_alloc_irqs(struct irq_domain *domain, struct device *dev,
+                           int nvec)
 {
        struct msi_domain_info *info = domain->host_data;
        struct msi_domain_ops *ops = info->ops;
@@ -491,12 +490,24 @@ cleanup:
 }
 
 /**
- * msi_domain_free_irqs - Free interrupts from a MSI interrupt @domain associated tp @dev
- * @domain:    The domain to managing the interrupts
+ * msi_domain_alloc_irqs - Allocate interrupts from a MSI interrupt domain
+ * @domain:    The domain to allocate from
  * @dev:       Pointer to device struct of the device for which the interrupts
- *             are free
+ *             are allocated
+ * @nvec:      The number of interrupts to allocate
+ *
+ * Returns 0 on success or an error code.
  */
-void msi_domain_free_irqs(struct irq_domain *domain, struct device *dev)
+int msi_domain_alloc_irqs(struct irq_domain *domain, struct device *dev,
+                         int nvec)
+{
+       struct msi_domain_info *info = domain->host_data;
+       struct msi_domain_ops *ops = info->ops;
+
+       return ops->domain_alloc_irqs(domain, dev, nvec);
+}
+
+void __msi_domain_free_irqs(struct irq_domain *domain, struct device *dev)
 {
        struct msi_desc *desc;
 
@@ -514,6 +525,20 @@ void msi_domain_free_irqs(struct irq_domain *domain, struct device *dev)
 }
 
 /**
+ * __msi_domain_free_irqs - Free interrupts from a MSI interrupt @domain associated tp @dev
+ * @domain:    The domain to managing the interrupts
+ * @dev:       Pointer to device struct of the device for which the interrupts
+ *             are free
+ */
+void msi_domain_free_irqs(struct irq_domain *domain, struct device *dev)
+{
+       struct msi_domain_info *info = domain->host_data;
+       struct msi_domain_ops *ops = info->ops;
+
+       return ops->domain_free_irqs(domain, dev);
+}
+
+/**
  * msi_get_domain_info - Get the MSI interrupt domain info for @domain
  * @domain:    The interrupt domain to retrieve data from
  *
index c6c7e18..ce0adb2 100644 (file)
@@ -69,12 +69,26 @@ void irq_pm_remove_action(struct irq_desc *desc, struct irqaction *action)
 
 static bool suspend_device_irq(struct irq_desc *desc)
 {
+       unsigned long chipflags = irq_desc_get_chip(desc)->flags;
+       struct irq_data *irqd = &desc->irq_data;
+
        if (!desc->action || irq_desc_is_chained(desc) ||
            desc->no_suspend_depth)
                return false;
 
-       if (irqd_is_wakeup_set(&desc->irq_data)) {
-               irqd_set(&desc->irq_data, IRQD_WAKEUP_ARMED);
+       if (irqd_is_wakeup_set(irqd)) {
+               irqd_set(irqd, IRQD_WAKEUP_ARMED);
+
+               if ((chipflags & IRQCHIP_ENABLE_WAKEUP_ON_SUSPEND) &&
+                    irqd_irq_disabled(irqd)) {
+                       /*
+                        * Interrupt marked for wakeup is in disabled state.
+                        * Enable interrupt here to unmask/enable in irqchip
+                        * to be able to resume with such interrupts.
+                        */
+                       __enable_irq(desc);
+                       irqd_set(irqd, IRQD_IRQ_ENABLED_ON_SUSPEND);
+               }
                /*
                 * We return true here to force the caller to issue
                 * synchronize_irq(). We need to make sure that the
@@ -93,7 +107,7 @@ static bool suspend_device_irq(struct irq_desc *desc)
         * chip level. The chip implementation indicates that with
         * IRQCHIP_MASK_ON_SUSPEND.
         */
-       if (irq_desc_get_chip(desc)->flags & IRQCHIP_MASK_ON_SUSPEND)
+       if (chipflags & IRQCHIP_MASK_ON_SUSPEND)
                mask_irq(desc);
        return true;
 }
@@ -137,7 +151,19 @@ EXPORT_SYMBOL_GPL(suspend_device_irqs);
 
 static void resume_irq(struct irq_desc *desc)
 {
-       irqd_clear(&desc->irq_data, IRQD_WAKEUP_ARMED);
+       struct irq_data *irqd = &desc->irq_data;
+
+       irqd_clear(irqd, IRQD_WAKEUP_ARMED);
+
+       if (irqd_is_enabled_on_suspend(irqd)) {
+               /*
+                * Interrupt marked for wakeup was enabled during suspend
+                * entry. Disable such interrupts to restore them back to
+                * original state.
+                */
+               __disable_irq(desc);
+               irqd_clear(irqd, IRQD_IRQ_ENABLED_ON_SUSPEND);
+       }
 
        if (desc->istate & IRQS_SUSPENDED)
                goto resume;
index 32c071d..72513ed 100644 (file)
@@ -485,7 +485,7 @@ int show_interrupts(struct seq_file *p, void *v)
 
        rcu_read_lock();
        desc = irq_to_desc(i);
-       if (!desc)
+       if (!desc || irq_settings_is_hidden(desc))
                goto outsparse;
 
        if (desc->kstat_irqs)
index c48ce19..8ccd32a 100644 (file)
@@ -86,6 +86,18 @@ static int irq_sw_resend(struct irq_desc *desc)
 }
 #endif
 
+static int try_retrigger(struct irq_desc *desc)
+{
+       if (desc->irq_data.chip->irq_retrigger)
+               return desc->irq_data.chip->irq_retrigger(&desc->irq_data);
+
+#ifdef CONFIG_IRQ_DOMAIN_HIERARCHY
+       return irq_chip_retrigger_hierarchy(&desc->irq_data);
+#else
+       return 0;
+#endif
+}
+
 /*
  * IRQ resend
  *
@@ -113,8 +125,7 @@ int check_irq_resend(struct irq_desc *desc, bool inject)
 
        desc->istate &= ~IRQS_PENDING;
 
-       if (!desc->irq_data.chip->irq_retrigger ||
-           !desc->irq_data.chip->irq_retrigger(&desc->irq_data))
+       if (!try_retrigger(desc))
                err = irq_sw_resend(desc);
 
        /* If the retrigger was successfull, mark it with the REPLAY bit */
index e43795c..403378b 100644 (file)
@@ -17,6 +17,7 @@ enum {
        _IRQ_PER_CPU_DEVID      = IRQ_PER_CPU_DEVID,
        _IRQ_IS_POLLED          = IRQ_IS_POLLED,
        _IRQ_DISABLE_UNLAZY     = IRQ_DISABLE_UNLAZY,
+       _IRQ_HIDDEN             = IRQ_HIDDEN,
        _IRQF_MODIFY_MASK       = IRQF_MODIFY_MASK,
 };
 
@@ -31,6 +32,7 @@ enum {
 #define IRQ_PER_CPU_DEVID      GOT_YOU_MORON
 #define IRQ_IS_POLLED          GOT_YOU_MORON
 #define IRQ_DISABLE_UNLAZY     GOT_YOU_MORON
+#define IRQ_HIDDEN             GOT_YOU_MORON
 #undef IRQF_MODIFY_MASK
 #define IRQF_MODIFY_MASK       GOT_YOU_MORON
 
@@ -167,3 +169,8 @@ static inline void irq_settings_clr_disable_unlazy(struct irq_desc *desc)
 {
        desc->status_use_accessors &= ~_IRQ_DISABLE_UNLAZY;
 }
+
+static inline bool irq_settings_is_hidden(struct irq_desc *desc)
+{
+       return desc->status_use_accessors & _IRQ_HIDDEN;
+}
index cdb3ffa..e661c61 100644 (file)
@@ -539,19 +539,25 @@ static void static_key_set_mod(struct static_key *key,
 static int __jump_label_mod_text_reserved(void *start, void *end)
 {
        struct module *mod;
+       int ret;
 
        preempt_disable();
        mod = __module_text_address((unsigned long)start);
        WARN_ON_ONCE(__module_text_address((unsigned long)end) != mod);
+       if (!try_module_get(mod))
+               mod = NULL;
        preempt_enable();
 
        if (!mod)
                return 0;
 
-
-       return __jump_label_text_reserved(mod->jump_entries,
+       ret = __jump_label_text_reserved(mod->jump_entries,
                                mod->jump_entries + mod->num_jump_entries,
                                start, end);
+
+       module_put(mod);
+
+       return ret;
 }
 
 static void __jump_label_mod_update(struct static_key *key)
index 9147ff6..3994a21 100644 (file)
@@ -1,5 +1,7 @@
 // SPDX-License-Identifier: GPL-2.0
 
+#define pr_fmt(fmt) "kcsan: " fmt
+
 #include <linux/atomic.h>
 #include <linux/bug.h>
 #include <linux/delay.h>
@@ -98,6 +100,9 @@ static atomic_long_t watchpoints[CONFIG_KCSAN_NUM_WATCHPOINTS + NUM_SLOTS-1];
  */
 static DEFINE_PER_CPU(long, kcsan_skip);
 
+/* For kcsan_prandom_u32_max(). */
+static DEFINE_PER_CPU(struct rnd_state, kcsan_rand_state);
+
 static __always_inline atomic_long_t *find_watchpoint(unsigned long addr,
                                                      size_t size,
                                                      bool expect_write,
@@ -223,7 +228,7 @@ is_atomic(const volatile void *ptr, size_t size, int type, struct kcsan_ctx *ctx
 
        if (IS_ENABLED(CONFIG_KCSAN_ASSUME_PLAIN_WRITES_ATOMIC) &&
            (type & KCSAN_ACCESS_WRITE) && size <= sizeof(long) &&
-           IS_ALIGNED((unsigned long)ptr, size))
+           !(type & KCSAN_ACCESS_COMPOUND) && IS_ALIGNED((unsigned long)ptr, size))
                return true; /* Assume aligned writes up to word size are atomic. */
 
        if (ctx->atomic_next > 0) {
@@ -269,11 +274,28 @@ should_watch(const volatile void *ptr, size_t size, int type, struct kcsan_ctx *
        return true;
 }
 
+/*
+ * Returns a pseudo-random number in interval [0, ep_ro). See prandom_u32_max()
+ * for more details.
+ *
+ * The open-coded version here is using only safe primitives for all contexts
+ * where we can have KCSAN instrumentation. In particular, we cannot use
+ * prandom_u32() directly, as its tracepoint could cause recursion.
+ */
+static u32 kcsan_prandom_u32_max(u32 ep_ro)
+{
+       struct rnd_state *state = &get_cpu_var(kcsan_rand_state);
+       const u32 res = prandom_u32_state(state);
+
+       put_cpu_var(kcsan_rand_state);
+       return (u32)(((u64) res * ep_ro) >> 32);
+}
+
 static inline void reset_kcsan_skip(void)
 {
        long skip_count = kcsan_skip_watch -
                          (IS_ENABLED(CONFIG_KCSAN_SKIP_WATCH_RANDOMIZE) ?
-                                  prandom_u32_max(kcsan_skip_watch) :
+                                  kcsan_prandom_u32_max(kcsan_skip_watch) :
                                   0);
        this_cpu_write(kcsan_skip, skip_count);
 }
@@ -283,12 +305,18 @@ static __always_inline bool kcsan_is_enabled(void)
        return READ_ONCE(kcsan_enabled) && get_ctx()->disable_count == 0;
 }
 
-static inline unsigned int get_delay(void)
+/* Introduce delay depending on context and configuration. */
+static void delay_access(int type)
 {
        unsigned int delay = in_task() ? kcsan_udelay_task : kcsan_udelay_interrupt;
-       return delay - (IS_ENABLED(CONFIG_KCSAN_DELAY_RANDOMIZE) ?
-                               prandom_u32_max(delay) :
-                               0);
+       /* For certain access types, skew the random delay to be longer. */
+       unsigned int skew_delay_order =
+               (type & (KCSAN_ACCESS_COMPOUND | KCSAN_ACCESS_ASSERT)) ? 1 : 0;
+
+       delay -= IS_ENABLED(CONFIG_KCSAN_DELAY_RANDOMIZE) ?
+                              kcsan_prandom_u32_max(delay >> skew_delay_order) :
+                              0;
+       udelay(delay);
 }
 
 void kcsan_save_irqtrace(struct task_struct *task)
@@ -361,13 +389,13 @@ static noinline void kcsan_found_watchpoint(const volatile void *ptr,
                 * already removed the watchpoint, or another thread consumed
                 * the watchpoint before this thread.
                 */
-               kcsan_counter_inc(KCSAN_COUNTER_REPORT_RACES);
+               atomic_long_inc(&kcsan_counters[KCSAN_COUNTER_REPORT_RACES]);
        }
 
        if ((type & KCSAN_ACCESS_ASSERT) != 0)
-               kcsan_counter_inc(KCSAN_COUNTER_ASSERT_FAILURES);
+               atomic_long_inc(&kcsan_counters[KCSAN_COUNTER_ASSERT_FAILURES]);
        else
-               kcsan_counter_inc(KCSAN_COUNTER_DATA_RACES);
+               atomic_long_inc(&kcsan_counters[KCSAN_COUNTER_DATA_RACES]);
 
        user_access_restore(flags);
 }
@@ -408,7 +436,7 @@ kcsan_setup_watchpoint(const volatile void *ptr, size_t size, int type)
                goto out;
 
        if (!check_encodable((unsigned long)ptr, size)) {
-               kcsan_counter_inc(KCSAN_COUNTER_UNENCODABLE_ACCESSES);
+               atomic_long_inc(&kcsan_counters[KCSAN_COUNTER_UNENCODABLE_ACCESSES]);
                goto out;
        }
 
@@ -428,12 +456,12 @@ kcsan_setup_watchpoint(const volatile void *ptr, size_t size, int type)
                 * with which should_watch() returns true should be tweaked so
                 * that this case happens very rarely.
                 */
-               kcsan_counter_inc(KCSAN_COUNTER_NO_CAPACITY);
+               atomic_long_inc(&kcsan_counters[KCSAN_COUNTER_NO_CAPACITY]);
                goto out_unlock;
        }
 
-       kcsan_counter_inc(KCSAN_COUNTER_SETUP_WATCHPOINTS);
-       kcsan_counter_inc(KCSAN_COUNTER_USED_WATCHPOINTS);
+       atomic_long_inc(&kcsan_counters[KCSAN_COUNTER_SETUP_WATCHPOINTS]);
+       atomic_long_inc(&kcsan_counters[KCSAN_COUNTER_USED_WATCHPOINTS]);
 
        /*
         * Read the current value, to later check and infer a race if the data
@@ -459,7 +487,7 @@ kcsan_setup_watchpoint(const volatile void *ptr, size_t size, int type)
 
        if (IS_ENABLED(CONFIG_KCSAN_DEBUG)) {
                kcsan_disable_current();
-               pr_err("KCSAN: watching %s, size: %zu, addr: %px [slot: %d, encoded: %lx]\n",
+               pr_err("watching %s, size: %zu, addr: %px [slot: %d, encoded: %lx]\n",
                       is_write ? "write" : "read", size, ptr,
                       watchpoint_slot((unsigned long)ptr),
                       encode_watchpoint((unsigned long)ptr, size, is_write));
@@ -470,7 +498,7 @@ kcsan_setup_watchpoint(const volatile void *ptr, size_t size, int type)
         * Delay this thread, to increase probability of observing a racy
         * conflicting access.
         */
-       udelay(get_delay());
+       delay_access(type);
 
        /*
         * Re-read value, and check if it is as expected; if not, we infer a
@@ -535,16 +563,16 @@ kcsan_setup_watchpoint(const volatile void *ptr, size_t size, int type)
                 * increment this counter.
                 */
                if (is_assert && value_change == KCSAN_VALUE_CHANGE_TRUE)
-                       kcsan_counter_inc(KCSAN_COUNTER_ASSERT_FAILURES);
+                       atomic_long_inc(&kcsan_counters[KCSAN_COUNTER_ASSERT_FAILURES]);
 
                kcsan_report(ptr, size, type, value_change, KCSAN_REPORT_RACE_SIGNAL,
                             watchpoint - watchpoints);
        } else if (value_change == KCSAN_VALUE_CHANGE_TRUE) {
                /* Inferring a race, since the value should not have changed. */
 
-               kcsan_counter_inc(KCSAN_COUNTER_RACES_UNKNOWN_ORIGIN);
+               atomic_long_inc(&kcsan_counters[KCSAN_COUNTER_RACES_UNKNOWN_ORIGIN]);
                if (is_assert)
-                       kcsan_counter_inc(KCSAN_COUNTER_ASSERT_FAILURES);
+                       atomic_long_inc(&kcsan_counters[KCSAN_COUNTER_ASSERT_FAILURES]);
 
                if (IS_ENABLED(CONFIG_KCSAN_REPORT_RACE_UNKNOWN_ORIGIN) || is_assert)
                        kcsan_report(ptr, size, type, KCSAN_VALUE_CHANGE_TRUE,
@@ -557,7 +585,7 @@ kcsan_setup_watchpoint(const volatile void *ptr, size_t size, int type)
         * reused after this point.
         */
        remove_watchpoint(watchpoint);
-       kcsan_counter_dec(KCSAN_COUNTER_USED_WATCHPOINTS);
+       atomic_long_dec(&kcsan_counters[KCSAN_COUNTER_USED_WATCHPOINTS]);
 out_unlock:
        if (!kcsan_interrupt_watcher)
                local_irq_restore(irq_flags);
@@ -614,13 +642,16 @@ void __init kcsan_init(void)
        BUG_ON(!in_task());
 
        kcsan_debugfs_init();
+       prandom_seed_full_state(&kcsan_rand_state);
 
        /*
         * We are in the init task, and no other tasks should be running;
         * WRITE_ONCE without memory barrier is sufficient.
         */
-       if (kcsan_early_enable)
+       if (kcsan_early_enable) {
+               pr_info("enabled early\n");
                WRITE_ONCE(kcsan_enabled, true);
+       }
 }
 
 /* === Exported interface =================================================== */
@@ -793,7 +824,17 @@ EXPORT_SYMBOL(__kcsan_check_access);
        EXPORT_SYMBOL(__tsan_write##size);                                     \
        void __tsan_unaligned_write##size(void *ptr)                           \
                __alias(__tsan_write##size);                                   \
-       EXPORT_SYMBOL(__tsan_unaligned_write##size)
+       EXPORT_SYMBOL(__tsan_unaligned_write##size);                           \
+       void __tsan_read_write##size(void *ptr);                               \
+       void __tsan_read_write##size(void *ptr)                                \
+       {                                                                      \
+               check_access(ptr, size,                                        \
+                            KCSAN_ACCESS_COMPOUND | KCSAN_ACCESS_WRITE);      \
+       }                                                                      \
+       EXPORT_SYMBOL(__tsan_read_write##size);                                \
+       void __tsan_unaligned_read_write##size(void *ptr)                      \
+               __alias(__tsan_read_write##size);                              \
+       EXPORT_SYMBOL(__tsan_unaligned_read_write##size)
 
 DEFINE_TSAN_READ_WRITE(1);
 DEFINE_TSAN_READ_WRITE(2);
@@ -879,3 +920,130 @@ void __tsan_init(void)
 {
 }
 EXPORT_SYMBOL(__tsan_init);
+
+/*
+ * Instrumentation for atomic builtins (__atomic_*, __sync_*).
+ *
+ * Normal kernel code _should not_ be using them directly, but some
+ * architectures may implement some or all atomics using the compilers'
+ * builtins.
+ *
+ * Note: If an architecture decides to fully implement atomics using the
+ * builtins, because they are implicitly instrumented by KCSAN (and KASAN,
+ * etc.), implementing the ARCH_ATOMIC interface (to get instrumentation via
+ * atomic-instrumented) is no longer necessary.
+ *
+ * TSAN instrumentation replaces atomic accesses with calls to any of the below
+ * functions, whose job is to also execute the operation itself.
+ */
+
+#define DEFINE_TSAN_ATOMIC_LOAD_STORE(bits)                                                        \
+       u##bits __tsan_atomic##bits##_load(const u##bits *ptr, int memorder);                      \
+       u##bits __tsan_atomic##bits##_load(const u##bits *ptr, int memorder)                       \
+       {                                                                                          \
+               if (!IS_ENABLED(CONFIG_KCSAN_IGNORE_ATOMICS)) {                                    \
+                       check_access(ptr, bits / BITS_PER_BYTE, KCSAN_ACCESS_ATOMIC);              \
+               }                                                                                  \
+               return __atomic_load_n(ptr, memorder);                                             \
+       }                                                                                          \
+       EXPORT_SYMBOL(__tsan_atomic##bits##_load);                                                 \
+       void __tsan_atomic##bits##_store(u##bits *ptr, u##bits v, int memorder);                   \
+       void __tsan_atomic##bits##_store(u##bits *ptr, u##bits v, int memorder)                    \
+       {                                                                                          \
+               if (!IS_ENABLED(CONFIG_KCSAN_IGNORE_ATOMICS)) {                                    \
+                       check_access(ptr, bits / BITS_PER_BYTE,                                    \
+                                    KCSAN_ACCESS_WRITE | KCSAN_ACCESS_ATOMIC);                    \
+               }                                                                                  \
+               __atomic_store_n(ptr, v, memorder);                                                \
+       }                                                                                          \
+       EXPORT_SYMBOL(__tsan_atomic##bits##_store)
+
+#define DEFINE_TSAN_ATOMIC_RMW(op, bits, suffix)                                                   \
+       u##bits __tsan_atomic##bits##_##op(u##bits *ptr, u##bits v, int memorder);                 \
+       u##bits __tsan_atomic##bits##_##op(u##bits *ptr, u##bits v, int memorder)                  \
+       {                                                                                          \
+               if (!IS_ENABLED(CONFIG_KCSAN_IGNORE_ATOMICS)) {                                    \
+                       check_access(ptr, bits / BITS_PER_BYTE,                                    \
+                                    KCSAN_ACCESS_COMPOUND | KCSAN_ACCESS_WRITE |                  \
+                                            KCSAN_ACCESS_ATOMIC);                                 \
+               }                                                                                  \
+               return __atomic_##op##suffix(ptr, v, memorder);                                    \
+       }                                                                                          \
+       EXPORT_SYMBOL(__tsan_atomic##bits##_##op)
+
+/*
+ * Note: CAS operations are always classified as write, even in case they
+ * fail. We cannot perform check_access() after a write, as it might lead to
+ * false positives, in cases such as:
+ *
+ *     T0: __atomic_compare_exchange_n(&p->flag, &old, 1, ...)
+ *
+ *     T1: if (__atomic_load_n(&p->flag, ...)) {
+ *             modify *p;
+ *             p->flag = 0;
+ *         }
+ *
+ * The only downside is that, if there are 3 threads, with one CAS that
+ * succeeds, another CAS that fails, and an unmarked racing operation, we may
+ * point at the wrong CAS as the source of the race. However, if we assume that
+ * all CAS can succeed in some other execution, the data race is still valid.
+ */
+#define DEFINE_TSAN_ATOMIC_CMPXCHG(bits, strength, weak)                                           \
+       int __tsan_atomic##bits##_compare_exchange_##strength(u##bits *ptr, u##bits *exp,          \
+                                                             u##bits val, int mo, int fail_mo);   \
+       int __tsan_atomic##bits##_compare_exchange_##strength(u##bits *ptr, u##bits *exp,          \
+                                                             u##bits val, int mo, int fail_mo)    \
+       {                                                                                          \
+               if (!IS_ENABLED(CONFIG_KCSAN_IGNORE_ATOMICS)) {                                    \
+                       check_access(ptr, bits / BITS_PER_BYTE,                                    \
+                                    KCSAN_ACCESS_COMPOUND | KCSAN_ACCESS_WRITE |                  \
+                                            KCSAN_ACCESS_ATOMIC);                                 \
+               }                                                                                  \
+               return __atomic_compare_exchange_n(ptr, exp, val, weak, mo, fail_mo);              \
+       }                                                                                          \
+       EXPORT_SYMBOL(__tsan_atomic##bits##_compare_exchange_##strength)
+
+#define DEFINE_TSAN_ATOMIC_CMPXCHG_VAL(bits)                                                       \
+       u##bits __tsan_atomic##bits##_compare_exchange_val(u##bits *ptr, u##bits exp, u##bits val, \
+                                                          int mo, int fail_mo);                   \
+       u##bits __tsan_atomic##bits##_compare_exchange_val(u##bits *ptr, u##bits exp, u##bits val, \
+                                                          int mo, int fail_mo)                    \
+       {                                                                                          \
+               if (!IS_ENABLED(CONFIG_KCSAN_IGNORE_ATOMICS)) {                                    \
+                       check_access(ptr, bits / BITS_PER_BYTE,                                    \
+                                    KCSAN_ACCESS_COMPOUND | KCSAN_ACCESS_WRITE |                  \
+                                            KCSAN_ACCESS_ATOMIC);                                 \
+               }                                                                                  \
+               __atomic_compare_exchange_n(ptr, &exp, val, 0, mo, fail_mo);                       \
+               return exp;                                                                        \
+       }                                                                                          \
+       EXPORT_SYMBOL(__tsan_atomic##bits##_compare_exchange_val)
+
+#define DEFINE_TSAN_ATOMIC_OPS(bits)                                                               \
+       DEFINE_TSAN_ATOMIC_LOAD_STORE(bits);                                                       \
+       DEFINE_TSAN_ATOMIC_RMW(exchange, bits, _n);                                                \
+       DEFINE_TSAN_ATOMIC_RMW(fetch_add, bits, );                                                 \
+       DEFINE_TSAN_ATOMIC_RMW(fetch_sub, bits, );                                                 \
+       DEFINE_TSAN_ATOMIC_RMW(fetch_and, bits, );                                                 \
+       DEFINE_TSAN_ATOMIC_RMW(fetch_or, bits, );                                                  \
+       DEFINE_TSAN_ATOMIC_RMW(fetch_xor, bits, );                                                 \
+       DEFINE_TSAN_ATOMIC_RMW(fetch_nand, bits, );                                                \
+       DEFINE_TSAN_ATOMIC_CMPXCHG(bits, strong, 0);                                               \
+       DEFINE_TSAN_ATOMIC_CMPXCHG(bits, weak, 1);                                                 \
+       DEFINE_TSAN_ATOMIC_CMPXCHG_VAL(bits)
+
+DEFINE_TSAN_ATOMIC_OPS(8);
+DEFINE_TSAN_ATOMIC_OPS(16);
+DEFINE_TSAN_ATOMIC_OPS(32);
+DEFINE_TSAN_ATOMIC_OPS(64);
+
+void __tsan_atomic_thread_fence(int memorder);
+void __tsan_atomic_thread_fence(int memorder)
+{
+       __atomic_thread_fence(memorder);
+}
+EXPORT_SYMBOL(__tsan_atomic_thread_fence);
+
+void __tsan_atomic_signal_fence(int memorder);
+void __tsan_atomic_signal_fence(int memorder) { }
+EXPORT_SYMBOL(__tsan_atomic_signal_fence);
index 023e49c..3c8093a 100644 (file)
@@ -1,5 +1,7 @@
 // SPDX-License-Identifier: GPL-2.0
 
+#define pr_fmt(fmt) "kcsan: " fmt
+
 #include <linux/atomic.h>
 #include <linux/bsearch.h>
 #include <linux/bug.h>
 
 #include "kcsan.h"
 
-/*
- * Statistics counters.
- */
-static atomic_long_t counters[KCSAN_COUNTER_COUNT];
+atomic_long_t kcsan_counters[KCSAN_COUNTER_COUNT];
+static const char *const counter_names[] = {
+       [KCSAN_COUNTER_USED_WATCHPOINTS]                = "used_watchpoints",
+       [KCSAN_COUNTER_SETUP_WATCHPOINTS]               = "setup_watchpoints",
+       [KCSAN_COUNTER_DATA_RACES]                      = "data_races",
+       [KCSAN_COUNTER_ASSERT_FAILURES]                 = "assert_failures",
+       [KCSAN_COUNTER_NO_CAPACITY]                     = "no_capacity",
+       [KCSAN_COUNTER_REPORT_RACES]                    = "report_races",
+       [KCSAN_COUNTER_RACES_UNKNOWN_ORIGIN]            = "races_unknown_origin",
+       [KCSAN_COUNTER_UNENCODABLE_ACCESSES]            = "unencodable_accesses",
+       [KCSAN_COUNTER_ENCODING_FALSE_POSITIVES]        = "encoding_false_positives",
+};
+static_assert(ARRAY_SIZE(counter_names) == KCSAN_COUNTER_COUNT);
 
 /*
  * Addresses for filtering functions from reporting. This list can be used as a
@@ -39,34 +50,6 @@ static struct {
 };
 static DEFINE_SPINLOCK(report_filterlist_lock);
 
-static const char *counter_to_name(enum kcsan_counter_id id)
-{
-       switch (id) {
-       case KCSAN_COUNTER_USED_WATCHPOINTS:            return "used_watchpoints";
-       case KCSAN_COUNTER_SETUP_WATCHPOINTS:           return "setup_watchpoints";
-       case KCSAN_COUNTER_DATA_RACES:                  return "data_races";
-       case KCSAN_COUNTER_ASSERT_FAILURES:             return "assert_failures";
-       case KCSAN_COUNTER_NO_CAPACITY:                 return "no_capacity";
-       case KCSAN_COUNTER_REPORT_RACES:                return "report_races";
-       case KCSAN_COUNTER_RACES_UNKNOWN_ORIGIN:        return "races_unknown_origin";
-       case KCSAN_COUNTER_UNENCODABLE_ACCESSES:        return "unencodable_accesses";
-       case KCSAN_COUNTER_ENCODING_FALSE_POSITIVES:    return "encoding_false_positives";
-       case KCSAN_COUNTER_COUNT:
-               BUG();
-       }
-       return NULL;
-}
-
-void kcsan_counter_inc(enum kcsan_counter_id id)
-{
-       atomic_long_inc(&counters[id]);
-}
-
-void kcsan_counter_dec(enum kcsan_counter_id id)
-{
-       atomic_long_dec(&counters[id]);
-}
-
 /*
  * The microbenchmark allows benchmarking KCSAN core runtime only. To run
  * multiple threads, pipe 'microbench=<iters>' from multiple tasks into the
@@ -86,7 +69,7 @@ static noinline void microbenchmark(unsigned long iters)
         */
        WRITE_ONCE(kcsan_enabled, false);
 
-       pr_info("KCSAN: %s begin | iters: %lu\n", __func__, iters);
+       pr_info("%s begin | iters: %lu\n", __func__, iters);
 
        cycles = get_cycles();
        while (iters--) {
@@ -97,73 +80,13 @@ static noinline void microbenchmark(unsigned long iters)
        }
        cycles = get_cycles() - cycles;
 
-       pr_info("KCSAN: %s end   | cycles: %llu\n", __func__, cycles);
+       pr_info("%s end   | cycles: %llu\n", __func__, cycles);
 
        WRITE_ONCE(kcsan_enabled, was_enabled);
        /* restore context */
        current->kcsan_ctx = ctx_save;
 }
 
-/*
- * Simple test to create conflicting accesses. Write 'test=<iters>' to KCSAN's
- * debugfs file from multiple tasks to generate real conflicts and show reports.
- */
-static long test_dummy;
-static long test_flags;
-static long test_scoped;
-static noinline void test_thread(unsigned long iters)
-{
-       const long CHANGE_BITS = 0xff00ff00ff00ff00L;
-       const struct kcsan_ctx ctx_save = current->kcsan_ctx;
-       cycles_t cycles;
-
-       /* We may have been called from an atomic region; reset context. */
-       memset(&current->kcsan_ctx, 0, sizeof(current->kcsan_ctx));
-
-       pr_info("KCSAN: %s begin | iters: %lu\n", __func__, iters);
-       pr_info("test_dummy@%px, test_flags@%px, test_scoped@%px,\n",
-               &test_dummy, &test_flags, &test_scoped);
-
-       cycles = get_cycles();
-       while (iters--) {
-               /* These all should generate reports. */
-               __kcsan_check_read(&test_dummy, sizeof(test_dummy));
-               ASSERT_EXCLUSIVE_WRITER(test_dummy);
-               ASSERT_EXCLUSIVE_ACCESS(test_dummy);
-
-               ASSERT_EXCLUSIVE_BITS(test_flags, ~CHANGE_BITS); /* no report */
-               __kcsan_check_read(&test_flags, sizeof(test_flags)); /* no report */
-
-               ASSERT_EXCLUSIVE_BITS(test_flags, CHANGE_BITS); /* report */
-               __kcsan_check_read(&test_flags, sizeof(test_flags)); /* no report */
-
-               /* not actually instrumented */
-               WRITE_ONCE(test_dummy, iters);  /* to observe value-change */
-               __kcsan_check_write(&test_dummy, sizeof(test_dummy));
-
-               test_flags ^= CHANGE_BITS; /* generate value-change */
-               __kcsan_check_write(&test_flags, sizeof(test_flags));
-
-               BUG_ON(current->kcsan_ctx.scoped_accesses.prev);
-               {
-                       /* Should generate reports anywhere in this block. */
-                       ASSERT_EXCLUSIVE_WRITER_SCOPED(test_scoped);
-                       ASSERT_EXCLUSIVE_ACCESS_SCOPED(test_scoped);
-                       BUG_ON(!current->kcsan_ctx.scoped_accesses.prev);
-                       /* Unrelated accesses. */
-                       __kcsan_check_access(&cycles, sizeof(cycles), 0);
-                       __kcsan_check_access(&cycles, sizeof(cycles), KCSAN_ACCESS_ATOMIC);
-               }
-               BUG_ON(current->kcsan_ctx.scoped_accesses.prev);
-       }
-       cycles = get_cycles() - cycles;
-
-       pr_info("KCSAN: %s end   | cycles: %llu\n", __func__, cycles);
-
-       /* restore context */
-       current->kcsan_ctx = ctx_save;
-}
-
 static int cmp_filterlist_addrs(const void *rhs, const void *lhs)
 {
        const unsigned long a = *(const unsigned long *)rhs;
@@ -220,7 +143,7 @@ static ssize_t insert_report_filterlist(const char *func)
        ssize_t ret = 0;
 
        if (!addr) {
-               pr_err("KCSAN: could not find function: '%s'\n", func);
+               pr_err("could not find function: '%s'\n", func);
                return -ENOENT;
        }
 
@@ -270,9 +193,10 @@ static int show_info(struct seq_file *file, void *v)
 
        /* show stats */
        seq_printf(file, "enabled: %i\n", READ_ONCE(kcsan_enabled));
-       for (i = 0; i < KCSAN_COUNTER_COUNT; ++i)
-               seq_printf(file, "%s: %ld\n", counter_to_name(i),
-                          atomic_long_read(&counters[i]));
+       for (i = 0; i < KCSAN_COUNTER_COUNT; ++i) {
+               seq_printf(file, "%s: %ld\n", counter_names[i],
+                          atomic_long_read(&kcsan_counters[i]));
+       }
 
        /* show filter functions, and filter type */
        spin_lock_irqsave(&report_filterlist_lock, flags);
@@ -307,18 +231,12 @@ debugfs_write(struct file *file, const char __user *buf, size_t count, loff_t *o
                WRITE_ONCE(kcsan_enabled, true);
        } else if (!strcmp(arg, "off")) {
                WRITE_ONCE(kcsan_enabled, false);
-       } else if (!strncmp(arg, "microbench=", sizeof("microbench=") - 1)) {
+       } else if (str_has_prefix(arg, "microbench=")) {
                unsigned long iters;
 
-               if (kstrtoul(&arg[sizeof("microbench=") - 1], 0, &iters))
+               if (kstrtoul(&arg[strlen("microbench=")], 0, &iters))
                        return -EINVAL;
                microbenchmark(iters);
-       } else if (!strncmp(arg, "test=", sizeof("test=") - 1)) {
-               unsigned long iters;
-
-               if (kstrtoul(&arg[sizeof("test=") - 1], 0, &iters))
-                       return -EINVAL;
-               test_thread(iters);
        } else if (!strcmp(arg, "whitelist")) {
                set_report_filterlist_whitelist(true);
        } else if (!strcmp(arg, "blacklist")) {
index fed6fcb..ebe7fd2 100644 (file)
 #include <linux/types.h>
 #include <trace/events/printk.h>
 
+#ifdef CONFIG_CC_HAS_TSAN_COMPOUND_READ_BEFORE_WRITE
+#define __KCSAN_ACCESS_RW(alt) (KCSAN_ACCESS_COMPOUND | KCSAN_ACCESS_WRITE)
+#else
+#define __KCSAN_ACCESS_RW(alt) (alt)
+#endif
+
 /* Points to current test-case memory access "kernels". */
 static void (*access_kernels[2])(void);
 
@@ -186,20 +192,21 @@ static bool report_matches(const struct expect_report *r)
 
        /* Access 1 & 2 */
        for (i = 0; i < 2; ++i) {
+               const int ty = r->access[i].type;
                const char *const access_type =
-                       (r->access[i].type & KCSAN_ACCESS_ASSERT) ?
-                               ((r->access[i].type & KCSAN_ACCESS_WRITE) ?
-                                        "assert no accesses" :
-                                        "assert no writes") :
-                               ((r->access[i].type & KCSAN_ACCESS_WRITE) ?
-                                        "write" :
-                                        "read");
+                       (ty & KCSAN_ACCESS_ASSERT) ?
+                                     ((ty & KCSAN_ACCESS_WRITE) ?
+                                              "assert no accesses" :
+                                              "assert no writes") :
+                                     ((ty & KCSAN_ACCESS_WRITE) ?
+                                              ((ty & KCSAN_ACCESS_COMPOUND) ?
+                                                       "read-write" :
+                                                       "write") :
+                                              "read");
                const char *const access_type_aux =
-                       (r->access[i].type & KCSAN_ACCESS_ATOMIC) ?
-                               " (marked)" :
-                               ((r->access[i].type & KCSAN_ACCESS_SCOPED) ?
-                                        " (scoped)" :
-                                        "");
+                       (ty & KCSAN_ACCESS_ATOMIC) ?
+                                     " (marked)" :
+                                     ((ty & KCSAN_ACCESS_SCOPED) ? " (scoped)" : "");
 
                if (i == 1) {
                        /* Access 2 */
@@ -277,6 +284,12 @@ static noinline void test_kernel_write_atomic(void)
        WRITE_ONCE(test_var, READ_ONCE_NOCHECK(test_sink) + 1);
 }
 
+static noinline void test_kernel_atomic_rmw(void)
+{
+       /* Use builtin, so we can set up the "bad" atomic/non-atomic scenario. */
+       __atomic_fetch_add(&test_var, 1, __ATOMIC_RELAXED);
+}
+
 __no_kcsan
 static noinline void test_kernel_write_uninstrumented(void) { test_var++; }
 
@@ -390,6 +403,15 @@ static noinline void test_kernel_seqlock_writer(void)
        write_sequnlock_irqrestore(&test_seqlock, flags);
 }
 
+static noinline void test_kernel_atomic_builtins(void)
+{
+       /*
+        * Generate concurrent accesses, expecting no reports, ensuring KCSAN
+        * treats builtin atomics as actually atomic.
+        */
+       __atomic_load_n(&test_var, __ATOMIC_RELAXED);
+}
+
 /* ===== Test cases ===== */
 
 /* Simple test with normal data race. */
@@ -430,8 +452,8 @@ static void test_concurrent_races(struct kunit *test)
        const struct expect_report expect = {
                .access = {
                        /* NULL will match any address. */
-                       { test_kernel_rmw_array, NULL, 0, KCSAN_ACCESS_WRITE },
-                       { test_kernel_rmw_array, NULL, 0, 0 },
+                       { test_kernel_rmw_array, NULL, 0, __KCSAN_ACCESS_RW(KCSAN_ACCESS_WRITE) },
+                       { test_kernel_rmw_array, NULL, 0, __KCSAN_ACCESS_RW(0) },
                },
        };
        static const struct expect_report never = {
@@ -620,6 +642,29 @@ static void test_read_plain_atomic_write(struct kunit *test)
        KUNIT_EXPECT_TRUE(test, match_expect);
 }
 
+/* Test that atomic RMWs generate correct report. */
+__no_kcsan
+static void test_read_plain_atomic_rmw(struct kunit *test)
+{
+       const struct expect_report expect = {
+               .access = {
+                       { test_kernel_read, &test_var, sizeof(test_var), 0 },
+                       { test_kernel_atomic_rmw, &test_var, sizeof(test_var),
+                               KCSAN_ACCESS_COMPOUND | KCSAN_ACCESS_WRITE | KCSAN_ACCESS_ATOMIC },
+               },
+       };
+       bool match_expect = false;
+
+       if (IS_ENABLED(CONFIG_KCSAN_IGNORE_ATOMICS))
+               return;
+
+       begin_test_checks(test_kernel_read, test_kernel_atomic_rmw);
+       do {
+               match_expect = report_matches(&expect);
+       } while (!end_test_checks(match_expect));
+       KUNIT_EXPECT_TRUE(test, match_expect);
+}
+
 /* Zero-sized accesses should never cause data race reports. */
 __no_kcsan
 static void test_zero_size_access(struct kunit *test)
@@ -853,6 +898,59 @@ static void test_seqlock_noreport(struct kunit *test)
 }
 
 /*
+ * Test atomic builtins work and required instrumentation functions exist. We
+ * also test that KCSAN understands they're atomic by racing with them via
+ * test_kernel_atomic_builtins(), and expect no reports.
+ *
+ * The atomic builtins _SHOULD NOT_ be used in normal kernel code!
+ */
+static void test_atomic_builtins(struct kunit *test)
+{
+       bool match_never = false;
+
+       begin_test_checks(test_kernel_atomic_builtins, test_kernel_atomic_builtins);
+       do {
+               long tmp;
+
+               kcsan_enable_current();
+
+               __atomic_store_n(&test_var, 42L, __ATOMIC_RELAXED);
+               KUNIT_EXPECT_EQ(test, 42L, __atomic_load_n(&test_var, __ATOMIC_RELAXED));
+
+               KUNIT_EXPECT_EQ(test, 42L, __atomic_exchange_n(&test_var, 20, __ATOMIC_RELAXED));
+               KUNIT_EXPECT_EQ(test, 20L, test_var);
+
+               tmp = 20L;
+               KUNIT_EXPECT_TRUE(test, __atomic_compare_exchange_n(&test_var, &tmp, 30L,
+                                                                   0, __ATOMIC_RELAXED,
+                                                                   __ATOMIC_RELAXED));
+               KUNIT_EXPECT_EQ(test, tmp, 20L);
+               KUNIT_EXPECT_EQ(test, test_var, 30L);
+               KUNIT_EXPECT_FALSE(test, __atomic_compare_exchange_n(&test_var, &tmp, 40L,
+                                                                    1, __ATOMIC_RELAXED,
+                                                                    __ATOMIC_RELAXED));
+               KUNIT_EXPECT_EQ(test, tmp, 30L);
+               KUNIT_EXPECT_EQ(test, test_var, 30L);
+
+               KUNIT_EXPECT_EQ(test, 30L, __atomic_fetch_add(&test_var, 1, __ATOMIC_RELAXED));
+               KUNIT_EXPECT_EQ(test, 31L, __atomic_fetch_sub(&test_var, 1, __ATOMIC_RELAXED));
+               KUNIT_EXPECT_EQ(test, 30L, __atomic_fetch_and(&test_var, 0xf, __ATOMIC_RELAXED));
+               KUNIT_EXPECT_EQ(test, 14L, __atomic_fetch_xor(&test_var, 0xf, __ATOMIC_RELAXED));
+               KUNIT_EXPECT_EQ(test, 1L, __atomic_fetch_or(&test_var, 0xf0, __ATOMIC_RELAXED));
+               KUNIT_EXPECT_EQ(test, 241L, __atomic_fetch_nand(&test_var, 0xf, __ATOMIC_RELAXED));
+               KUNIT_EXPECT_EQ(test, -2L, test_var);
+
+               __atomic_thread_fence(__ATOMIC_SEQ_CST);
+               __atomic_signal_fence(__ATOMIC_SEQ_CST);
+
+               kcsan_disable_current();
+
+               match_never = report_available();
+       } while (!end_test_checks(match_never));
+       KUNIT_EXPECT_FALSE(test, match_never);
+}
+
+/*
  * Each test case is run with different numbers of threads. Until KUnit supports
  * passing arguments for each test case, we encode #threads in the test case
  * name (read by get_num_threads()). [The '-' was chosen as a stylistic
@@ -880,6 +978,7 @@ static struct kunit_case kcsan_test_cases[] = {
        KCSAN_KUNIT_CASE(test_write_write_struct_part),
        KCSAN_KUNIT_CASE(test_read_atomic_write_atomic),
        KCSAN_KUNIT_CASE(test_read_plain_atomic_write),
+       KCSAN_KUNIT_CASE(test_read_plain_atomic_rmw),
        KCSAN_KUNIT_CASE(test_zero_size_access),
        KCSAN_KUNIT_CASE(test_data_race),
        KCSAN_KUNIT_CASE(test_assert_exclusive_writer),
@@ -891,6 +990,7 @@ static struct kunit_case kcsan_test_cases[] = {
        KCSAN_KUNIT_CASE(test_assert_exclusive_access_scoped),
        KCSAN_KUNIT_CASE(test_jiffies_noreport),
        KCSAN_KUNIT_CASE(test_seqlock_noreport),
+       KCSAN_KUNIT_CASE(test_atomic_builtins),
        {},
 };
 
index 2948001..8d4bf34 100644 (file)
@@ -8,6 +8,7 @@
 #ifndef _KERNEL_KCSAN_KCSAN_H
 #define _KERNEL_KCSAN_KCSAN_H
 
+#include <linux/atomic.h>
 #include <linux/kcsan.h>
 #include <linux/sched.h>
 
@@ -34,6 +35,10 @@ void kcsan_restore_irqtrace(struct task_struct *task);
  */
 void kcsan_debugfs_init(void);
 
+/*
+ * Statistics counters displayed via debugfs; should only be modified in
+ * slow-paths.
+ */
 enum kcsan_counter_id {
        /*
         * Number of watchpoints currently in use.
@@ -86,12 +91,7 @@ enum kcsan_counter_id {
 
        KCSAN_COUNTER_COUNT, /* number of counters */
 };
-
-/*
- * Increment/decrement counter with given id; avoid calling these in fast-path.
- */
-extern void kcsan_counter_inc(enum kcsan_counter_id id);
-extern void kcsan_counter_dec(enum kcsan_counter_id id);
+extern atomic_long_t kcsan_counters[KCSAN_COUNTER_COUNT];
 
 /*
  * Returns true if data races in the function symbol that maps to func_addr
index 9d07e17..d3bf87e 100644 (file)
@@ -228,6 +228,10 @@ static const char *get_access_type(int type)
                return "write";
        case KCSAN_ACCESS_WRITE | KCSAN_ACCESS_ATOMIC:
                return "write (marked)";
+       case KCSAN_ACCESS_COMPOUND | KCSAN_ACCESS_WRITE:
+               return "read-write";
+       case KCSAN_ACCESS_COMPOUND | KCSAN_ACCESS_WRITE | KCSAN_ACCESS_ATOMIC:
+               return "read-write (marked)";
        case KCSAN_ACCESS_SCOPED:
                return "read (scoped)";
        case KCSAN_ACCESS_SCOPED | KCSAN_ACCESS_ATOMIC:
@@ -275,8 +279,8 @@ static int get_stack_skipnr(const unsigned long stack_entries[], int num_entries
 
                cur = strnstr(buf, "kcsan_", len);
                if (cur) {
-                       cur += sizeof("kcsan_") - 1;
-                       if (strncmp(cur, "test", sizeof("test") - 1))
+                       cur += strlen("kcsan_");
+                       if (!str_has_prefix(cur, "test"))
                                continue; /* KCSAN runtime function. */
                        /* KCSAN related test. */
                }
@@ -555,7 +559,7 @@ static bool prepare_report_consumer(unsigned long *flags,
                 * If the actual accesses to not match, this was a false
                 * positive due to watchpoint encoding.
                 */
-               kcsan_counter_inc(KCSAN_COUNTER_ENCODING_FALSE_POSITIVES);
+               atomic_long_inc(&kcsan_counters[KCSAN_COUNTER_ENCODING_FALSE_POSITIVES]);
                goto discard;
        }
 
index d26a052..d98bc20 100644 (file)
@@ -1,5 +1,7 @@
 // SPDX-License-Identifier: GPL-2.0
 
+#define pr_fmt(fmt) "kcsan: " fmt
+
 #include <linux/init.h>
 #include <linux/kernel.h>
 #include <linux/printk.h>
@@ -116,16 +118,16 @@ static int __init kcsan_selftest(void)
                if (do_test())                                                 \
                        ++passed;                                              \
                else                                                           \
-                       pr_err("KCSAN selftest: " #do_test " failed");         \
+                       pr_err("selftest: " #do_test " failed");               \
        } while (0)
 
        RUN_TEST(test_requires);
        RUN_TEST(test_encode_decode);
        RUN_TEST(test_matching_access);
 
-       pr_info("KCSAN selftest: %d/%d tests passed\n", passed, total);
+       pr_info("selftest: %d/%d tests passed\n", passed, total);
        if (passed != total)
-               panic("KCSAN selftests failed");
+               panic("selftests failed");
        return 0;
 }
 postcore_initcall(kcsan_selftest);
index e995541..789002d 100644 (file)
@@ -36,6 +36,7 @@
 #include <linux/cpu.h>
 #include <linux/jump_label.h>
 #include <linux/perf_event.h>
+#include <linux/static_call.h>
 
 #include <asm/sections.h>
 #include <asm/cacheflush.h>
@@ -1223,8 +1224,7 @@ void kprobes_inc_nmissed_count(struct kprobe *p)
 }
 NOKPROBE_SYMBOL(kprobes_inc_nmissed_count);
 
-void recycle_rp_inst(struct kretprobe_instance *ri,
-                    struct hlist_head *head)
+static void recycle_rp_inst(struct kretprobe_instance *ri)
 {
        struct kretprobe *rp = ri->rp;
 
@@ -1236,12 +1236,11 @@ void recycle_rp_inst(struct kretprobe_instance *ri,
                hlist_add_head(&ri->hlist, &rp->free_instances);
                raw_spin_unlock(&rp->lock);
        } else
-               /* Unregistering */
-               hlist_add_head(&ri->hlist, head);
+               kfree_rcu(ri, rcu);
 }
 NOKPROBE_SYMBOL(recycle_rp_inst);
 
-void kretprobe_hash_lock(struct task_struct *tsk,
+static void kretprobe_hash_lock(struct task_struct *tsk,
                         struct hlist_head **head, unsigned long *flags)
 __acquires(hlist_lock)
 {
@@ -1263,7 +1262,7 @@ __acquires(hlist_lock)
 }
 NOKPROBE_SYMBOL(kretprobe_table_lock);
 
-void kretprobe_hash_unlock(struct task_struct *tsk,
+static void kretprobe_hash_unlock(struct task_struct *tsk,
                           unsigned long *flags)
 __releases(hlist_lock)
 {
@@ -1284,7 +1283,7 @@ __releases(hlist_lock)
 }
 NOKPROBE_SYMBOL(kretprobe_table_unlock);
 
-struct kprobe kprobe_busy = {
+static struct kprobe kprobe_busy = {
        .addr = (void *) get_kprobe,
 };
 
@@ -1313,7 +1312,7 @@ void kprobe_busy_end(void)
 void kprobe_flush_task(struct task_struct *tk)
 {
        struct kretprobe_instance *ri;
-       struct hlist_head *head, empty_rp;
+       struct hlist_head *head;
        struct hlist_node *tmp;
        unsigned long hash, flags = 0;
 
@@ -1323,19 +1322,14 @@ void kprobe_flush_task(struct task_struct *tk)
 
        kprobe_busy_begin();
 
-       INIT_HLIST_HEAD(&empty_rp);
        hash = hash_ptr(tk, KPROBE_HASH_BITS);
        head = &kretprobe_inst_table[hash];
        kretprobe_table_lock(hash, &flags);
        hlist_for_each_entry_safe(ri, tmp, head, hlist) {
                if (ri->task == tk)
-                       recycle_rp_inst(ri, &empty_rp);
+                       recycle_rp_inst(ri);
        }
        kretprobe_table_unlock(hash, &flags);
-       hlist_for_each_entry_safe(ri, tmp, &empty_rp, hlist) {
-               hlist_del(&ri->hlist);
-               kfree(ri);
-       }
 
        kprobe_busy_end();
 }
@@ -1359,7 +1353,8 @@ static void cleanup_rp_inst(struct kretprobe *rp)
        struct hlist_node *next;
        struct hlist_head *head;
 
-       /* No race here */
+       /* To avoid recursive kretprobe by NMI, set kprobe busy here */
+       kprobe_busy_begin();
        for (hash = 0; hash < KPROBE_TABLE_SIZE; hash++) {
                kretprobe_table_lock(hash, &flags);
                head = &kretprobe_inst_table[hash];
@@ -1369,6 +1364,8 @@ static void cleanup_rp_inst(struct kretprobe *rp)
                }
                kretprobe_table_unlock(hash, &flags);
        }
+       kprobe_busy_end();
+
        free_rp_inst(rp);
 }
 NOKPROBE_SYMBOL(cleanup_rp_inst);
@@ -1634,6 +1631,7 @@ static int check_kprobe_address_safe(struct kprobe *p,
        if (!kernel_text_address((unsigned long) p->addr) ||
            within_kprobe_blacklist((unsigned long) p->addr) ||
            jump_label_text_reserved(p->addr, p->addr) ||
+           static_call_text_reserved(p->addr, p->addr) ||
            find_bug((unsigned long)p->addr)) {
                ret = -EINVAL;
                goto out;
@@ -1927,6 +1925,97 @@ unsigned long __weak arch_deref_entry_point(void *entry)
 }
 
 #ifdef CONFIG_KRETPROBES
+
+unsigned long __kretprobe_trampoline_handler(struct pt_regs *regs,
+                                            void *trampoline_address,
+                                            void *frame_pointer)
+{
+       struct kretprobe_instance *ri = NULL, *last = NULL;
+       struct hlist_head *head;
+       struct hlist_node *tmp;
+       unsigned long flags;
+       kprobe_opcode_t *correct_ret_addr = NULL;
+       bool skipped = false;
+
+       kretprobe_hash_lock(current, &head, &flags);
+
+       /*
+        * It is possible to have multiple instances associated with a given
+        * task either because multiple functions in the call path have
+        * return probes installed on them, and/or more than one
+        * return probe was registered for a target function.
+        *
+        * We can handle this because:
+        *     - instances are always pushed into the head of the list
+        *     - when multiple return probes are registered for the same
+        *       function, the (chronologically) first instance's ret_addr
+        *       will be the real return address, and all the rest will
+        *       point to kretprobe_trampoline.
+        */
+       hlist_for_each_entry(ri, head, hlist) {
+               if (ri->task != current)
+                       /* another task is sharing our hash bucket */
+                       continue;
+               /*
+                * Return probes must be pushed on this hash list correct
+                * order (same as return order) so that it can be popped
+                * correctly. However, if we find it is pushed it incorrect
+                * order, this means we find a function which should not be
+                * probed, because the wrong order entry is pushed on the
+                * path of processing other kretprobe itself.
+                */
+               if (ri->fp != frame_pointer) {
+                       if (!skipped)
+                               pr_warn("kretprobe is stacked incorrectly. Trying to fixup.\n");
+                       skipped = true;
+                       continue;
+               }
+
+               correct_ret_addr = ri->ret_addr;
+               if (skipped)
+                       pr_warn("%ps must be blacklisted because of incorrect kretprobe order\n",
+                               ri->rp->kp.addr);
+
+               if (correct_ret_addr != trampoline_address)
+                       /*
+                        * This is the real return address. Any other
+                        * instances associated with this task are for
+                        * other calls deeper on the call stack
+                        */
+                       break;
+       }
+
+       BUG_ON(!correct_ret_addr || (correct_ret_addr == trampoline_address));
+       last = ri;
+
+       hlist_for_each_entry_safe(ri, tmp, head, hlist) {
+               if (ri->task != current)
+                       /* another task is sharing our hash bucket */
+                       continue;
+               if (ri->fp != frame_pointer)
+                       continue;
+
+               if (ri->rp && ri->rp->handler) {
+                       struct kprobe *prev = kprobe_running();
+
+                       __this_cpu_write(current_kprobe, &ri->rp->kp);
+                       ri->ret_addr = correct_ret_addr;
+                       ri->rp->handler(ri, regs);
+                       __this_cpu_write(current_kprobe, prev);
+               }
+
+               recycle_rp_inst(ri);
+
+               if (ri == last)
+                       break;
+       }
+
+       kretprobe_hash_unlock(current, &flags);
+
+       return (unsigned long)correct_ret_addr;
+}
+NOKPROBE_SYMBOL(__kretprobe_trampoline_handler)
+
 /*
  * This kprobe pre_handler is registered with every kretprobe. When probe
  * hits it will set up the return probe.
@@ -1937,17 +2026,6 @@ static int pre_handler_kretprobe(struct kprobe *p, struct pt_regs *regs)
        unsigned long hash, flags = 0;
        struct kretprobe_instance *ri;
 
-       /*
-        * To avoid deadlocks, prohibit return probing in NMI contexts,
-        * just skip the probe and increase the (inexact) 'nmissed'
-        * statistical counter, so that the user is informed that
-        * something happened:
-        */
-       if (unlikely(in_nmi())) {
-               rp->nmissed++;
-               return 0;
-       }
-
        /* TODO: consider to only swap the RA after the last pre_handler fired */
        hash = hash_ptr(current, KPROBE_HASH_BITS);
        raw_spin_lock_irqsave(&rp->lock, flags);
index 2facbbd..3e99dfe 100644 (file)
@@ -76,6 +76,23 @@ module_param(lock_stat, int, 0644);
 #define lock_stat 0
 #endif
 
+DEFINE_PER_CPU(unsigned int, lockdep_recursion);
+EXPORT_PER_CPU_SYMBOL_GPL(lockdep_recursion);
+
+static inline bool lockdep_enabled(void)
+{
+       if (!debug_locks)
+               return false;
+
+       if (raw_cpu_read(lockdep_recursion))
+               return false;
+
+       if (current->lockdep_recursion)
+               return false;
+
+       return true;
+}
+
 /*
  * lockdep_lock: protects the lockdep graph, the hashes and the
  *               class/list/hash allocators.
@@ -93,7 +110,7 @@ static inline void lockdep_lock(void)
 
        arch_spin_lock(&__lock);
        __owner = current;
-       current->lockdep_recursion++;
+       __this_cpu_inc(lockdep_recursion);
 }
 
 static inline void lockdep_unlock(void)
@@ -101,7 +118,7 @@ static inline void lockdep_unlock(void)
        if (debug_locks && DEBUG_LOCKS_WARN_ON(__owner != current))
                return;
 
-       current->lockdep_recursion--;
+       __this_cpu_dec(lockdep_recursion);
        __owner = NULL;
        arch_spin_unlock(&__lock);
 }
@@ -372,6 +389,21 @@ static struct hlist_head classhash_table[CLASSHASH_SIZE];
 static struct hlist_head chainhash_table[CHAINHASH_SIZE];
 
 /*
+ * the id of held_lock
+ */
+static inline u16 hlock_id(struct held_lock *hlock)
+{
+       BUILD_BUG_ON(MAX_LOCKDEP_KEYS_BITS + 2 > 16);
+
+       return (hlock->class_idx | (hlock->read << MAX_LOCKDEP_KEYS_BITS));
+}
+
+static inline unsigned int chain_hlock_class_idx(u16 hlock_id)
+{
+       return hlock_id & (MAX_LOCKDEP_KEYS - 1);
+}
+
+/*
  * The hash key of the lock dependency chains is a hash itself too:
  * it's a hash of all locks taken up to that lock, including that lock.
  * It's a 64-bit hash, because it's important for the keys to be
@@ -393,10 +425,15 @@ void lockdep_init_task(struct task_struct *task)
        task->lockdep_recursion = 0;
 }
 
+static __always_inline void lockdep_recursion_inc(void)
+{
+       __this_cpu_inc(lockdep_recursion);
+}
+
 static __always_inline void lockdep_recursion_finish(void)
 {
-       if (WARN_ON_ONCE((--current->lockdep_recursion) & LOCKDEP_RECURSION_MASK))
-               current->lockdep_recursion = 0;
+       if (WARN_ON_ONCE(__this_cpu_dec_return(lockdep_recursion)))
+               __this_cpu_write(lockdep_recursion, 0);
 }
 
 void lockdep_set_selftest_task(struct task_struct *task)
@@ -585,6 +622,8 @@ static const char *usage_str[] =
 #include "lockdep_states.h"
 #undef LOCKDEP_STATE
        [LOCK_USED] = "INITIAL USE",
+       [LOCK_USED_READ] = "INITIAL READ USE",
+       /* abused as string storage for verify_lock_unused() */
        [LOCK_USAGE_STATES] = "IN-NMI",
 };
 #endif
@@ -1320,7 +1359,7 @@ static struct lock_list *alloc_list_entry(void)
  */
 static int add_lock_to_list(struct lock_class *this,
                            struct lock_class *links_to, struct list_head *head,
-                           unsigned long ip, int distance,
+                           unsigned long ip, u16 distance, u8 dep,
                            const struct lock_trace *trace)
 {
        struct lock_list *entry;
@@ -1334,6 +1373,7 @@ static int add_lock_to_list(struct lock_class *this,
 
        entry->class = this;
        entry->links_to = links_to;
+       entry->dep = dep;
        entry->distance = distance;
        entry->trace = trace;
        /*
@@ -1421,23 +1461,19 @@ static inline unsigned int  __cq_get_elem_count(struct circular_queue *cq)
        return (cq->rear - cq->front) & CQ_MASK;
 }
 
-static inline void mark_lock_accessed(struct lock_list *lock,
-                                       struct lock_list *parent)
+static inline void mark_lock_accessed(struct lock_list *lock)
 {
-       unsigned long nr;
+       lock->class->dep_gen_id = lockdep_dependency_gen_id;
+}
 
-       nr = lock - list_entries;
-       WARN_ON(nr >= ARRAY_SIZE(list_entries)); /* Out-of-bounds, input fail */
+static inline void visit_lock_entry(struct lock_list *lock,
+                                   struct lock_list *parent)
+{
        lock->parent = parent;
-       lock->class->dep_gen_id = lockdep_dependency_gen_id;
 }
 
 static inline unsigned long lock_accessed(struct lock_list *lock)
 {
-       unsigned long nr;
-
-       nr = lock - list_entries;
-       WARN_ON(nr >= ARRAY_SIZE(list_entries)); /* Out-of-bounds, input fail */
        return lock->class->dep_gen_id == lockdep_dependency_gen_id;
 }
 
@@ -1471,85 +1507,283 @@ static inline struct list_head *get_dep_list(struct lock_list *lock, int offset)
 
        return lock_class + offset;
 }
+/*
+ * Return values of a bfs search:
+ *
+ * BFS_E* indicates an error
+ * BFS_R* indicates a result (match or not)
+ *
+ * BFS_EINVALIDNODE: Find a invalid node in the graph.
+ *
+ * BFS_EQUEUEFULL: The queue is full while doing the bfs.
+ *
+ * BFS_RMATCH: Find the matched node in the graph, and put that node into
+ *             *@target_entry.
+ *
+ * BFS_RNOMATCH: Haven't found the matched node and keep *@target_entry
+ *               _unchanged_.
+ */
+enum bfs_result {
+       BFS_EINVALIDNODE = -2,
+       BFS_EQUEUEFULL = -1,
+       BFS_RMATCH = 0,
+       BFS_RNOMATCH = 1,
+};
+
+/*
+ * bfs_result < 0 means error
+ */
+static inline bool bfs_error(enum bfs_result res)
+{
+       return res < 0;
+}
+
+/*
+ * DEP_*_BIT in lock_list::dep
+ *
+ * For dependency @prev -> @next:
+ *
+ *   SR: @prev is shared reader (->read != 0) and @next is recursive reader
+ *       (->read == 2)
+ *   ER: @prev is exclusive locker (->read == 0) and @next is recursive reader
+ *   SN: @prev is shared reader and @next is non-recursive locker (->read != 2)
+ *   EN: @prev is exclusive locker and @next is non-recursive locker
+ *
+ * Note that we define the value of DEP_*_BITs so that:
+ *   bit0 is prev->read == 0
+ *   bit1 is next->read != 2
+ */
+#define DEP_SR_BIT (0 + (0 << 1)) /* 0 */
+#define DEP_ER_BIT (1 + (0 << 1)) /* 1 */
+#define DEP_SN_BIT (0 + (1 << 1)) /* 2 */
+#define DEP_EN_BIT (1 + (1 << 1)) /* 3 */
+
+#define DEP_SR_MASK (1U << (DEP_SR_BIT))
+#define DEP_ER_MASK (1U << (DEP_ER_BIT))
+#define DEP_SN_MASK (1U << (DEP_SN_BIT))
+#define DEP_EN_MASK (1U << (DEP_EN_BIT))
+
+static inline unsigned int
+__calc_dep_bit(struct held_lock *prev, struct held_lock *next)
+{
+       return (prev->read == 0) + ((next->read != 2) << 1);
+}
+
+static inline u8 calc_dep(struct held_lock *prev, struct held_lock *next)
+{
+       return 1U << __calc_dep_bit(prev, next);
+}
+
+/*
+ * calculate the dep_bit for backwards edges. We care about whether @prev is
+ * shared and whether @next is recursive.
+ */
+static inline unsigned int
+__calc_dep_bitb(struct held_lock *prev, struct held_lock *next)
+{
+       return (next->read != 2) + ((prev->read == 0) << 1);
+}
+
+static inline u8 calc_depb(struct held_lock *prev, struct held_lock *next)
+{
+       return 1U << __calc_dep_bitb(prev, next);
+}
+
+/*
+ * Initialize a lock_list entry @lock belonging to @class as the root for a BFS
+ * search.
+ */
+static inline void __bfs_init_root(struct lock_list *lock,
+                                  struct lock_class *class)
+{
+       lock->class = class;
+       lock->parent = NULL;
+       lock->only_xr = 0;
+}
+
+/*
+ * Initialize a lock_list entry @lock based on a lock acquisition @hlock as the
+ * root for a BFS search.
+ *
+ * ->only_xr of the initial lock node is set to @hlock->read == 2, to make sure
+ * that <prev> -> @hlock and @hlock -> <whatever __bfs() found> is not -(*R)->
+ * and -(S*)->.
+ */
+static inline void bfs_init_root(struct lock_list *lock,
+                                struct held_lock *hlock)
+{
+       __bfs_init_root(lock, hlock_class(hlock));
+       lock->only_xr = (hlock->read == 2);
+}
 
 /*
- * Forward- or backward-dependency search, used for both circular dependency
- * checking and hardirq-unsafe/softirq-unsafe checking.
+ * Similar to bfs_init_root() but initialize the root for backwards BFS.
+ *
+ * ->only_xr of the initial lock node is set to @hlock->read != 0, to make sure
+ * that <next> -> @hlock and @hlock -> <whatever backwards BFS found> is not
+ * -(*S)-> and -(R*)-> (reverse order of -(*R)-> and -(S*)->).
  */
-static int __bfs(struct lock_list *source_entry,
-                void *data,
-                int (*match)(struct lock_list *entry, void *data),
-                struct lock_list **target_entry,
-                int offset)
+static inline void bfs_init_rootb(struct lock_list *lock,
+                                 struct held_lock *hlock)
+{
+       __bfs_init_root(lock, hlock_class(hlock));
+       lock->only_xr = (hlock->read != 0);
+}
+
+static inline struct lock_list *__bfs_next(struct lock_list *lock, int offset)
 {
+       if (!lock || !lock->parent)
+               return NULL;
+
+       return list_next_or_null_rcu(get_dep_list(lock->parent, offset),
+                                    &lock->entry, struct lock_list, entry);
+}
+
+/*
+ * Breadth-First Search to find a strong path in the dependency graph.
+ *
+ * @source_entry: the source of the path we are searching for.
+ * @data: data used for the second parameter of @match function
+ * @match: match function for the search
+ * @target_entry: pointer to the target of a matched path
+ * @offset: the offset to struct lock_class to determine whether it is
+ *          locks_after or locks_before
+ *
+ * We may have multiple edges (considering different kinds of dependencies,
+ * e.g. ER and SN) between two nodes in the dependency graph. But
+ * only the strong dependency path in the graph is relevant to deadlocks. A
+ * strong dependency path is a dependency path that doesn't have two adjacent
+ * dependencies as -(*R)-> -(S*)->, please see:
+ *
+ *         Documentation/locking/lockdep-design.rst
+ *
+ * for more explanation of the definition of strong dependency paths
+ *
+ * In __bfs(), we only traverse in the strong dependency path:
+ *
+ *     In lock_list::only_xr, we record whether the previous dependency only
+ *     has -(*R)-> in the search, and if it does (prev only has -(*R)->), we
+ *     filter out any -(S*)-> in the current dependency and after that, the
+ *     ->only_xr is set according to whether we only have -(*R)-> left.
+ */
+static enum bfs_result __bfs(struct lock_list *source_entry,
+                            void *data,
+                            bool (*match)(struct lock_list *entry, void *data),
+                            struct lock_list **target_entry,
+                            int offset)
+{
+       struct circular_queue *cq = &lock_cq;
+       struct lock_list *lock = NULL;
        struct lock_list *entry;
-       struct lock_list *lock;
        struct list_head *head;
-       struct circular_queue *cq = &lock_cq;
-       int ret = 1;
+       unsigned int cq_depth;
+       bool first;
 
        lockdep_assert_locked();
 
-       if (match(source_entry, data)) {
-               *target_entry = source_entry;
-               ret = 0;
-               goto exit;
-       }
-
-       head = get_dep_list(source_entry, offset);
-       if (list_empty(head))
-               goto exit;
-
        __cq_init(cq);
        __cq_enqueue(cq, source_entry);
 
-       while ((lock = __cq_dequeue(cq))) {
+       while ((lock = __bfs_next(lock, offset)) || (lock = __cq_dequeue(cq))) {
+               if (!lock->class)
+                       return BFS_EINVALIDNODE;
+
+               /*
+                * Step 1: check whether we already finish on this one.
+                *
+                * If we have visited all the dependencies from this @lock to
+                * others (iow, if we have visited all lock_list entries in
+                * @lock->class->locks_{after,before}) we skip, otherwise go
+                * and visit all the dependencies in the list and mark this
+                * list accessed.
+                */
+               if (lock_accessed(lock))
+                       continue;
+               else
+                       mark_lock_accessed(lock);
 
-               if (!lock->class) {
-                       ret = -2;
-                       goto exit;
+               /*
+                * Step 2: check whether prev dependency and this form a strong
+                *         dependency path.
+                */
+               if (lock->parent) { /* Parent exists, check prev dependency */
+                       u8 dep = lock->dep;
+                       bool prev_only_xr = lock->parent->only_xr;
+
+                       /*
+                        * Mask out all -(S*)-> if we only have *R in previous
+                        * step, because -(*R)-> -(S*)-> don't make up a strong
+                        * dependency.
+                        */
+                       if (prev_only_xr)
+                               dep &= ~(DEP_SR_MASK | DEP_SN_MASK);
+
+                       /* If nothing left, we skip */
+                       if (!dep)
+                               continue;
+
+                       /* If there are only -(*R)-> left, set that for the next step */
+                       lock->only_xr = !(dep & (DEP_SN_MASK | DEP_EN_MASK));
                }
 
-               head = get_dep_list(lock, offset);
+               /*
+                * Step 3: we haven't visited this and there is a strong
+                *         dependency path to this, so check with @match.
+                */
+               if (match(lock, data)) {
+                       *target_entry = lock;
+                       return BFS_RMATCH;
+               }
 
+               /*
+                * Step 4: if not match, expand the path by adding the
+                *         forward or backwards dependencis in the search
+                *
+                */
+               first = true;
+               head = get_dep_list(lock, offset);
                list_for_each_entry_rcu(entry, head, entry) {
-                       if (!lock_accessed(entry)) {
-                               unsigned int cq_depth;
-                               mark_lock_accessed(entry, lock);
-                               if (match(entry, data)) {
-                                       *target_entry = entry;
-                                       ret = 0;
-                                       goto exit;
-                               }
+                       visit_lock_entry(entry, lock);
 
-                               if (__cq_enqueue(cq, entry)) {
-                                       ret = -1;
-                                       goto exit;
-                               }
-                               cq_depth = __cq_get_elem_count(cq);
-                               if (max_bfs_queue_depth < cq_depth)
-                                       max_bfs_queue_depth = cq_depth;
-                       }
+                       /*
+                        * Note we only enqueue the first of the list into the
+                        * queue, because we can always find a sibling
+                        * dependency from one (see __bfs_next()), as a result
+                        * the space of queue is saved.
+                        */
+                       if (!first)
+                               continue;
+
+                       first = false;
+
+                       if (__cq_enqueue(cq, entry))
+                               return BFS_EQUEUEFULL;
+
+                       cq_depth = __cq_get_elem_count(cq);
+                       if (max_bfs_queue_depth < cq_depth)
+                               max_bfs_queue_depth = cq_depth;
                }
        }
-exit:
-       return ret;
+
+       return BFS_RNOMATCH;
 }
 
-static inline int __bfs_forwards(struct lock_list *src_entry,
-                       void *data,
-                       int (*match)(struct lock_list *entry, void *data),
-                       struct lock_list **target_entry)
+static inline enum bfs_result
+__bfs_forwards(struct lock_list *src_entry,
+              void *data,
+              bool (*match)(struct lock_list *entry, void *data),
+              struct lock_list **target_entry)
 {
        return __bfs(src_entry, data, match, target_entry,
                     offsetof(struct lock_class, locks_after));
 
 }
 
-static inline int __bfs_backwards(struct lock_list *src_entry,
-                       void *data,
-                       int (*match)(struct lock_list *entry, void *data),
-                       struct lock_list **target_entry)
+static inline enum bfs_result
+__bfs_backwards(struct lock_list *src_entry,
+               void *data,
+               bool (*match)(struct lock_list *entry, void *data),
+               struct lock_list **target_entry)
 {
        return __bfs(src_entry, data, match, target_entry,
                     offsetof(struct lock_class, locks_before));
@@ -1659,15 +1893,72 @@ print_circular_bug_header(struct lock_list *entry, unsigned int depth,
        print_circular_bug_entry(entry, depth);
 }
 
-static inline int class_equal(struct lock_list *entry, void *data)
+/*
+ * We are about to add A -> B into the dependency graph, and in __bfs() a
+ * strong dependency path A -> .. -> B is found: hlock_class equals
+ * entry->class.
+ *
+ * If A -> .. -> B can replace A -> B in any __bfs() search (means the former
+ * is _stronger_ than or equal to the latter), we consider A -> B as redundant.
+ * For example if A -> .. -> B is -(EN)-> (i.e. A -(E*)-> .. -(*N)-> B), and A
+ * -> B is -(ER)-> or -(EN)->, then we don't need to add A -> B into the
+ * dependency graph, as any strong path ..-> A -> B ->.. we can get with
+ * having dependency A -> B, we could already get a equivalent path ..-> A ->
+ * .. -> B -> .. with A -> .. -> B. Therefore A -> B is reduntant.
+ *
+ * We need to make sure both the start and the end of A -> .. -> B is not
+ * weaker than A -> B. For the start part, please see the comment in
+ * check_redundant(). For the end part, we need:
+ *
+ * Either
+ *
+ *     a) A -> B is -(*R)-> (everything is not weaker than that)
+ *
+ * or
+ *
+ *     b) A -> .. -> B is -(*N)-> (nothing is stronger than this)
+ *
+ */
+static inline bool hlock_equal(struct lock_list *entry, void *data)
+{
+       struct held_lock *hlock = (struct held_lock *)data;
+
+       return hlock_class(hlock) == entry->class && /* Found A -> .. -> B */
+              (hlock->read == 2 ||  /* A -> B is -(*R)-> */
+               !entry->only_xr); /* A -> .. -> B is -(*N)-> */
+}
+
+/*
+ * We are about to add B -> A into the dependency graph, and in __bfs() a
+ * strong dependency path A -> .. -> B is found: hlock_class equals
+ * entry->class.
+ *
+ * We will have a deadlock case (conflict) if A -> .. -> B -> A is a strong
+ * dependency cycle, that means:
+ *
+ * Either
+ *
+ *     a) B -> A is -(E*)->
+ *
+ * or
+ *
+ *     b) A -> .. -> B is -(*N)-> (i.e. A -> .. -(*N)-> B)
+ *
+ * as then we don't have -(*R)-> -(S*)-> in the cycle.
+ */
+static inline bool hlock_conflict(struct lock_list *entry, void *data)
 {
-       return entry->class == data;
+       struct held_lock *hlock = (struct held_lock *)data;
+
+       return hlock_class(hlock) == entry->class && /* Found A -> .. -> B */
+              (hlock->read == 0 || /* B -> A is -(E*)-> */
+               !entry->only_xr); /* A -> .. -> B is -(*N)-> */
 }
 
 static noinline void print_circular_bug(struct lock_list *this,
-                                       struct lock_list *target,
-                                       struct held_lock *check_src,
-                                       struct held_lock *check_tgt)
+                               struct lock_list *target,
+                               struct held_lock *check_src,
+                               struct held_lock *check_tgt)
 {
        struct task_struct *curr = current;
        struct lock_list *parent;
@@ -1714,10 +2005,10 @@ static noinline void print_bfs_bug(int ret)
        WARN(1, "lockdep bfs error:%d\n", ret);
 }
 
-static int noop_count(struct lock_list *entry, void *data)
+static bool noop_count(struct lock_list *entry, void *data)
 {
        (*(unsigned long *)data)++;
-       return 0;
+       return false;
 }
 
 static unsigned long __lockdep_count_forward_deps(struct lock_list *this)
@@ -1734,8 +2025,7 @@ unsigned long lockdep_count_forward_deps(struct lock_class *class)
        unsigned long ret, flags;
        struct lock_list this;
 
-       this.parent = NULL;
-       this.class = class;
+       __bfs_init_root(&this, class);
 
        raw_local_irq_save(flags);
        lockdep_lock();
@@ -1761,8 +2051,7 @@ unsigned long lockdep_count_backward_deps(struct lock_class *class)
        unsigned long ret, flags;
        struct lock_list this;
 
-       this.parent = NULL;
-       this.class = class;
+       __bfs_init_root(&this, class);
 
        raw_local_irq_save(flags);
        lockdep_lock();
@@ -1775,18 +2064,18 @@ unsigned long lockdep_count_backward_deps(struct lock_class *class)
 
 /*
  * Check that the dependency graph starting at <src> can lead to
- * <target> or not. Print an error and return 0 if it does.
+ * <target> or not.
  */
-static noinline int
-check_path(struct lock_class *target, struct lock_list *src_entry,
+static noinline enum bfs_result
+check_path(struct held_lock *target, struct lock_list *src_entry,
+          bool (*match)(struct lock_list *entry, void *data),
           struct lock_list **target_entry)
 {
-       int ret;
+       enum bfs_result ret;
 
-       ret = __bfs_forwards(src_entry, (void *)target, class_equal,
-                            target_entry);
+       ret = __bfs_forwards(src_entry, target, match, target_entry);
 
-       if (unlikely(ret < 0))
+       if (unlikely(bfs_error(ret)))
                print_bfs_bug(ret);
 
        return ret;
@@ -1797,24 +2086,23 @@ check_path(struct lock_class *target, struct lock_list *src_entry,
  * lead to <target>. If it can, there is a circle when adding
  * <target> -> <src> dependency.
  *
- * Print an error and return 0 if it does.
+ * Print an error and return BFS_RMATCH if it does.
  */
-static noinline int
+static noinline enum bfs_result
 check_noncircular(struct held_lock *src, struct held_lock *target,
                  struct lock_trace **const trace)
 {
-       int ret;
+       enum bfs_result ret;
        struct lock_list *target_entry;
-       struct lock_list src_entry = {
-               .class = hlock_class(src),
-               .parent = NULL,
-       };
+       struct lock_list src_entry;
+
+       bfs_init_root(&src_entry, src);
 
        debug_atomic_inc(nr_cyclic_checks);
 
-       ret = check_path(hlock_class(target), &src_entry, &target_entry);
+       ret = check_path(target, &src_entry, hlock_conflict, &target_entry);
 
-       if (unlikely(!ret)) {
+       if (unlikely(ret == BFS_RMATCH)) {
                if (!*trace) {
                        /*
                         * If save_trace fails here, the printing might
@@ -1836,27 +2124,35 @@ check_noncircular(struct held_lock *src, struct held_lock *target,
  * <target> or not. If it can, <src> -> <target> dependency is already
  * in the graph.
  *
- * Print an error and return 2 if it does or 1 if it does not.
+ * Return BFS_RMATCH if it does, or BFS_RMATCH if it does not, return BFS_E* if
+ * any error appears in the bfs search.
  */
-static noinline int
+static noinline enum bfs_result
 check_redundant(struct held_lock *src, struct held_lock *target)
 {
-       int ret;
+       enum bfs_result ret;
        struct lock_list *target_entry;
-       struct lock_list src_entry = {
-               .class = hlock_class(src),
-               .parent = NULL,
-       };
+       struct lock_list src_entry;
+
+       bfs_init_root(&src_entry, src);
+       /*
+        * Special setup for check_redundant().
+        *
+        * To report redundant, we need to find a strong dependency path that
+        * is equal to or stronger than <src> -> <target>. So if <src> is E,
+        * we need to let __bfs() only search for a path starting at a -(E*)->,
+        * we achieve this by setting the initial node's ->only_xr to true in
+        * that case. And if <prev> is S, we set initial ->only_xr to false
+        * because both -(S*)-> (equal) and -(E*)-> (stronger) are redundant.
+        */
+       src_entry.only_xr = src->read == 0;
 
        debug_atomic_inc(nr_redundant_checks);
 
-       ret = check_path(hlock_class(target), &src_entry, &target_entry);
+       ret = check_path(target, &src_entry, hlock_equal, &target_entry);
 
-       if (!ret) {
+       if (ret == BFS_RMATCH)
                debug_atomic_inc(nr_redundant);
-               ret = 2;
-       } else if (ret < 0)
-               ret = 0;
 
        return ret;
 }
@@ -1864,39 +2160,86 @@ check_redundant(struct held_lock *src, struct held_lock *target)
 
 #ifdef CONFIG_TRACE_IRQFLAGS
 
-static inline int usage_accumulate(struct lock_list *entry, void *mask)
-{
-       *(unsigned long *)mask |= entry->class->usage_mask;
-
-       return 0;
-}
-
 /*
  * Forwards and backwards subgraph searching, for the purposes of
  * proving that two subgraphs can be connected by a new dependency
  * without creating any illegal irq-safe -> irq-unsafe lock dependency.
+ *
+ * A irq safe->unsafe deadlock happens with the following conditions:
+ *
+ * 1) We have a strong dependency path A -> ... -> B
+ *
+ * 2) and we have ENABLED_IRQ usage of B and USED_IN_IRQ usage of A, therefore
+ *    irq can create a new dependency B -> A (consider the case that a holder
+ *    of B gets interrupted by an irq whose handler will try to acquire A).
+ *
+ * 3) the dependency circle A -> ... -> B -> A we get from 1) and 2) is a
+ *    strong circle:
+ *
+ *      For the usage bits of B:
+ *        a) if A -> B is -(*N)->, then B -> A could be any type, so any
+ *           ENABLED_IRQ usage suffices.
+ *        b) if A -> B is -(*R)->, then B -> A must be -(E*)->, so only
+ *           ENABLED_IRQ_*_READ usage suffices.
+ *
+ *      For the usage bits of A:
+ *        c) if A -> B is -(E*)->, then B -> A could be any type, so any
+ *           USED_IN_IRQ usage suffices.
+ *        d) if A -> B is -(S*)->, then B -> A must be -(*N)->, so only
+ *           USED_IN_IRQ_*_READ usage suffices.
  */
 
-static inline int usage_match(struct lock_list *entry, void *mask)
+/*
+ * There is a strong dependency path in the dependency graph: A -> B, and now
+ * we need to decide which usage bit of A should be accumulated to detect
+ * safe->unsafe bugs.
+ *
+ * Note that usage_accumulate() is used in backwards search, so ->only_xr
+ * stands for whether A -> B only has -(S*)-> (in this case ->only_xr is true).
+ *
+ * As above, if only_xr is false, which means A -> B has -(E*)-> dependency
+ * path, any usage of A should be considered. Otherwise, we should only
+ * consider _READ usage.
+ */
+static inline bool usage_accumulate(struct lock_list *entry, void *mask)
 {
-       return entry->class->usage_mask & *(unsigned long *)mask;
+       if (!entry->only_xr)
+               *(unsigned long *)mask |= entry->class->usage_mask;
+       else /* Mask out _READ usage bits */
+               *(unsigned long *)mask |= (entry->class->usage_mask & LOCKF_IRQ);
+
+       return false;
+}
+
+/*
+ * There is a strong dependency path in the dependency graph: A -> B, and now
+ * we need to decide which usage bit of B conflicts with the usage bits of A,
+ * i.e. which usage bit of B may introduce safe->unsafe deadlocks.
+ *
+ * As above, if only_xr is false, which means A -> B has -(*N)-> dependency
+ * path, any usage of B should be considered. Otherwise, we should only
+ * consider _READ usage.
+ */
+static inline bool usage_match(struct lock_list *entry, void *mask)
+{
+       if (!entry->only_xr)
+               return !!(entry->class->usage_mask & *(unsigned long *)mask);
+       else /* Mask out _READ usage bits */
+               return !!((entry->class->usage_mask & LOCKF_IRQ) & *(unsigned long *)mask);
 }
 
 /*
  * Find a node in the forwards-direction dependency sub-graph starting
  * at @root->class that matches @bit.
  *
- * Return 0 if such a node exists in the subgraph, and put that node
+ * Return BFS_MATCH if such a node exists in the subgraph, and put that node
  * into *@target_entry.
- *
- * Return 1 otherwise and keep *@target_entry unchanged.
- * Return <0 on error.
  */
-static int
+static enum bfs_result
 find_usage_forwards(struct lock_list *root, unsigned long usage_mask,
                        struct lock_list **target_entry)
 {
-       int result;
+       enum bfs_result result;
 
        debug_atomic_inc(nr_find_usage_forwards_checks);
 
@@ -1908,18 +2251,12 @@ find_usage_forwards(struct lock_list *root, unsigned long usage_mask,
 /*
  * Find a node in the backwards-direction dependency sub-graph starting
  * at @root->class that matches @bit.
- *
- * Return 0 if such a node exists in the subgraph, and put that node
- * into *@target_entry.
- *
- * Return 1 otherwise and keep *@target_entry unchanged.
- * Return <0 on error.
  */
-static int
+static enum bfs_result
 find_usage_backwards(struct lock_list *root, unsigned long usage_mask,
                        struct lock_list **target_entry)
 {
-       int result;
+       enum bfs_result result;
 
        debug_atomic_inc(nr_find_usage_backwards_checks);
 
@@ -1939,7 +2276,7 @@ static void print_lock_class_header(struct lock_class *class, int depth)
 #endif
        printk(KERN_CONT " {\n");
 
-       for (bit = 0; bit < LOCK_USAGE_STATES; bit++) {
+       for (bit = 0; bit < LOCK_TRACE_STATES; bit++) {
                if (class->usage_mask & (1 << bit)) {
                        int len = depth;
 
@@ -2179,17 +2516,39 @@ static unsigned long invert_dir_mask(unsigned long mask)
 }
 
 /*
- * As above, we clear bitnr0 (LOCK_*_READ off) with bitmask ops. First, for all
- * bits with bitnr0 set (LOCK_*_READ), add those with bitnr0 cleared (LOCK_*).
- * And then mask out all bitnr0.
+ * Note that a LOCK_ENABLED_IRQ_*_READ usage and a LOCK_USED_IN_IRQ_*_READ
+ * usage may cause deadlock too, for example:
+ *
+ * P1                          P2
+ * <irq disabled>
+ * write_lock(l1);             <irq enabled>
+ *                             read_lock(l2);
+ * write_lock(l2);
+ *                             <in irq>
+ *                             read_lock(l1);
+ *
+ * , in above case, l1 will be marked as LOCK_USED_IN_IRQ_HARDIRQ_READ and l2
+ * will marked as LOCK_ENABLE_IRQ_HARDIRQ_READ, and this is a possible
+ * deadlock.
+ *
+ * In fact, all of the following cases may cause deadlocks:
+ *
+ *      LOCK_USED_IN_IRQ_* -> LOCK_ENABLED_IRQ_*
+ *      LOCK_USED_IN_IRQ_*_READ -> LOCK_ENABLED_IRQ_*
+ *      LOCK_USED_IN_IRQ_* -> LOCK_ENABLED_IRQ_*_READ
+ *      LOCK_USED_IN_IRQ_*_READ -> LOCK_ENABLED_IRQ_*_READ
+ *
+ * As a result, to calculate the "exclusive mask", first we invert the
+ * direction (USED_IN/ENABLED) of the original mask, and 1) for all bits with
+ * bitnr0 set (LOCK_*_READ), add those with bitnr0 cleared (LOCK_*). 2) for all
+ * bits with bitnr0 cleared (LOCK_*_READ), add those with bitnr0 set (LOCK_*).
  */
 static unsigned long exclusive_mask(unsigned long mask)
 {
        unsigned long excl = invert_dir_mask(mask);
 
-       /* Strip read */
        excl |= (excl & LOCKF_IRQ_READ) >> LOCK_USAGE_READ_MASK;
-       excl &= ~LOCKF_IRQ_READ;
+       excl |= (excl & LOCKF_IRQ) << LOCK_USAGE_READ_MASK;
 
        return excl;
 }
@@ -2206,6 +2565,7 @@ static unsigned long original_mask(unsigned long mask)
        unsigned long excl = invert_dir_mask(mask);
 
        /* Include read in existing usages */
+       excl |= (excl & LOCKF_IRQ_READ) >> LOCK_USAGE_READ_MASK;
        excl |= (excl & LOCKF_IRQ) << LOCK_USAGE_READ_MASK;
 
        return excl;
@@ -2220,14 +2580,24 @@ static int find_exclusive_match(unsigned long mask,
                                enum lock_usage_bit *bitp,
                                enum lock_usage_bit *excl_bitp)
 {
-       int bit, excl;
+       int bit, excl, excl_read;
 
        for_each_set_bit(bit, &mask, LOCK_USED) {
+               /*
+                * exclusive_bit() strips the read bit, however,
+                * LOCK_ENABLED_IRQ_*_READ may cause deadlocks too, so we need
+                * to search excl | LOCK_USAGE_READ_MASK as well.
+                */
                excl = exclusive_bit(bit);
+               excl_read = excl | LOCK_USAGE_READ_MASK;
                if (excl_mask & lock_flag(excl)) {
                        *bitp = bit;
                        *excl_bitp = excl;
                        return 0;
+               } else if (excl_mask & lock_flag(excl_read)) {
+                       *bitp = bit;
+                       *excl_bitp = excl_read;
+                       return 0;
                }
        }
        return -1;
@@ -2247,17 +2617,16 @@ static int check_irq_usage(struct task_struct *curr, struct held_lock *prev,
        struct lock_list *target_entry1;
        struct lock_list *target_entry;
        struct lock_list this, that;
-       int ret;
+       enum bfs_result ret;
 
        /*
         * Step 1: gather all hard/soft IRQs usages backward in an
         * accumulated usage mask.
         */
-       this.parent = NULL;
-       this.class = hlock_class(prev);
+       bfs_init_rootb(&this, prev);
 
        ret = __bfs_backwards(&this, &usage_mask, usage_accumulate, NULL);
-       if (ret < 0) {
+       if (bfs_error(ret)) {
                print_bfs_bug(ret);
                return 0;
        }
@@ -2272,16 +2641,15 @@ static int check_irq_usage(struct task_struct *curr, struct held_lock *prev,
         */
        forward_mask = exclusive_mask(usage_mask);
 
-       that.parent = NULL;
-       that.class = hlock_class(next);
+       bfs_init_root(&that, next);
 
        ret = find_usage_forwards(&that, forward_mask, &target_entry1);
-       if (ret < 0) {
+       if (bfs_error(ret)) {
                print_bfs_bug(ret);
                return 0;
        }
-       if (ret == 1)
-               return ret;
+       if (ret == BFS_RNOMATCH)
+               return 1;
 
        /*
         * Step 3: we found a bad match! Now retrieve a lock from the backward
@@ -2291,11 +2659,11 @@ static int check_irq_usage(struct task_struct *curr, struct held_lock *prev,
        backward_mask = original_mask(target_entry1->class->usage_mask);
 
        ret = find_usage_backwards(&this, backward_mask, &target_entry);
-       if (ret < 0) {
+       if (bfs_error(ret)) {
                print_bfs_bug(ret);
                return 0;
        }
-       if (DEBUG_LOCKS_WARN_ON(ret == 1))
+       if (DEBUG_LOCKS_WARN_ON(ret == BFS_RNOMATCH))
                return 1;
 
        /*
@@ -2459,11 +2827,11 @@ check_deadlock(struct task_struct *curr, struct held_lock *next)
  */
 static int
 check_prev_add(struct task_struct *curr, struct held_lock *prev,
-              struct held_lock *next, int distance,
+              struct held_lock *next, u16 distance,
               struct lock_trace **const trace)
 {
        struct lock_list *entry;
-       int ret;
+       enum bfs_result ret;
 
        if (!hlock_class(prev)->key || !hlock_class(next)->key) {
                /*
@@ -2494,23 +2862,13 @@ check_prev_add(struct task_struct *curr, struct held_lock *prev,
         * in the graph whose neighbours are to be checked.
         */
        ret = check_noncircular(next, prev, trace);
-       if (unlikely(ret <= 0))
+       if (unlikely(bfs_error(ret) || ret == BFS_RMATCH))
                return 0;
 
        if (!check_irq_usage(curr, prev, next))
                return 0;
 
        /*
-        * For recursive read-locks we do all the dependency checks,
-        * but we dont store read-triggered dependencies (only
-        * write-triggered dependencies). This ensures that only the
-        * write-side dependencies matter, and that if for example a
-        * write-lock never takes any other locks, then the reads are
-        * equivalent to a NOP.
-        */
-       if (next->read == 2 || prev->read == 2)
-               return 1;
-       /*
         * Is the <prev> -> <next> dependency already present?
         *
         * (this may occur even though this is a new chain: consider
@@ -2522,7 +2880,35 @@ check_prev_add(struct task_struct *curr, struct held_lock *prev,
                if (entry->class == hlock_class(next)) {
                        if (distance == 1)
                                entry->distance = 1;
-                       return 1;
+                       entry->dep |= calc_dep(prev, next);
+
+                       /*
+                        * Also, update the reverse dependency in @next's
+                        * ->locks_before list.
+                        *
+                        *  Here we reuse @entry as the cursor, which is fine
+                        *  because we won't go to the next iteration of the
+                        *  outer loop:
+                        *
+                        *  For normal cases, we return in the inner loop.
+                        *
+                        *  If we fail to return, we have inconsistency, i.e.
+                        *  <prev>::locks_after contains <next> while
+                        *  <next>::locks_before doesn't contain <prev>. In
+                        *  that case, we return after the inner and indicate
+                        *  something is wrong.
+                        */
+                       list_for_each_entry(entry, &hlock_class(next)->locks_before, entry) {
+                               if (entry->class == hlock_class(prev)) {
+                                       if (distance == 1)
+                                               entry->distance = 1;
+                                       entry->dep |= calc_depb(prev, next);
+                                       return 1;
+                               }
+                       }
+
+                       /* <prev> is not found in <next>::locks_before */
+                       return 0;
                }
        }
 
@@ -2531,8 +2917,10 @@ check_prev_add(struct task_struct *curr, struct held_lock *prev,
         * Is the <prev> -> <next> link redundant?
         */
        ret = check_redundant(prev, next);
-       if (ret != 1)
-               return ret;
+       if (bfs_error(ret))
+               return 0;
+       else if (ret == BFS_RMATCH)
+               return 2;
 #endif
 
        if (!*trace) {
@@ -2547,14 +2935,18 @@ check_prev_add(struct task_struct *curr, struct held_lock *prev,
         */
        ret = add_lock_to_list(hlock_class(next), hlock_class(prev),
                               &hlock_class(prev)->locks_after,
-                              next->acquire_ip, distance, *trace);
+                              next->acquire_ip, distance,
+                              calc_dep(prev, next),
+                              *trace);
 
        if (!ret)
                return 0;
 
        ret = add_lock_to_list(hlock_class(prev), hlock_class(next),
                               &hlock_class(next)->locks_before,
-                              next->acquire_ip, distance, *trace);
+                              next->acquire_ip, distance,
+                              calc_depb(prev, next),
+                              *trace);
        if (!ret)
                return 0;
 
@@ -2590,16 +2982,11 @@ check_prevs_add(struct task_struct *curr, struct held_lock *next)
                goto out_bug;
 
        for (;;) {
-               int distance = curr->lockdep_depth - depth + 1;
+               u16 distance = curr->lockdep_depth - depth + 1;
                hlock = curr->held_locks + depth - 1;
 
-               /*
-                * Only non-recursive-read entries get new dependencies
-                * added:
-                */
-               if (hlock->read != 2 && hlock->check) {
-                       int ret = check_prev_add(curr, hlock, next, distance,
-                                                &trace);
+               if (hlock->check) {
+                       int ret = check_prev_add(curr, hlock, next, distance, &trace);
                        if (!ret)
                                return 0;
 
@@ -2875,7 +3262,10 @@ static inline void free_chain_hlocks(int base, int size)
 
 struct lock_class *lock_chain_get_class(struct lock_chain *chain, int i)
 {
-       return lock_classes + chain_hlocks[chain->base + i];
+       u16 chain_hlock = chain_hlocks[chain->base + i];
+       unsigned int class_idx = chain_hlock_class_idx(chain_hlock);
+
+       return lock_classes + class_idx - 1;
 }
 
 /*
@@ -2901,12 +3291,12 @@ static inline int get_first_held_lock(struct task_struct *curr,
 /*
  * Returns the next chain_key iteration
  */
-static u64 print_chain_key_iteration(int class_idx, u64 chain_key)
+static u64 print_chain_key_iteration(u16 hlock_id, u64 chain_key)
 {
-       u64 new_chain_key = iterate_chain_key(chain_key, class_idx);
+       u64 new_chain_key = iterate_chain_key(chain_key, hlock_id);
 
-       printk(" class_idx:%d -> chain_key:%016Lx",
-               class_idx,
+       printk(" hlock_id:%d -> chain_key:%016Lx",
+               (unsigned int)hlock_id,
                (unsigned long long)new_chain_key);
        return new_chain_key;
 }
@@ -2923,12 +3313,12 @@ print_chain_keys_held_locks(struct task_struct *curr, struct held_lock *hlock_ne
                hlock_next->irq_context);
        for (; i < depth; i++) {
                hlock = curr->held_locks + i;
-               chain_key = print_chain_key_iteration(hlock->class_idx, chain_key);
+               chain_key = print_chain_key_iteration(hlock_id(hlock), chain_key);
 
                print_lock(hlock);
        }
 
-       print_chain_key_iteration(hlock_next->class_idx, chain_key);
+       print_chain_key_iteration(hlock_id(hlock_next), chain_key);
        print_lock(hlock_next);
 }
 
@@ -2936,14 +3326,14 @@ static void print_chain_keys_chain(struct lock_chain *chain)
 {
        int i;
        u64 chain_key = INITIAL_CHAIN_KEY;
-       int class_id;
+       u16 hlock_id;
 
        printk("depth: %u\n", chain->depth);
        for (i = 0; i < chain->depth; i++) {
-               class_id = chain_hlocks[chain->base + i];
-               chain_key = print_chain_key_iteration(class_id, chain_key);
+               hlock_id = chain_hlocks[chain->base + i];
+               chain_key = print_chain_key_iteration(hlock_id, chain_key);
 
-               print_lock_name(lock_classes + class_id);
+               print_lock_name(lock_classes + chain_hlock_class_idx(hlock_id) - 1);
                printk("\n");
        }
 }
@@ -2992,7 +3382,7 @@ static int check_no_collision(struct task_struct *curr,
        }
 
        for (j = 0; j < chain->depth - 1; j++, i++) {
-               id = curr->held_locks[i].class_idx;
+               id = hlock_id(&curr->held_locks[i]);
 
                if (DEBUG_LOCKS_WARN_ON(chain_hlocks[chain->base + j] != id)) {
                        print_collision(curr, hlock, chain);
@@ -3041,7 +3431,6 @@ static inline int add_chain_cache(struct task_struct *curr,
                                  struct held_lock *hlock,
                                  u64 chain_key)
 {
-       struct lock_class *class = hlock_class(hlock);
        struct hlist_head *hash_head = chainhashentry(chain_key);
        struct lock_chain *chain;
        int i, j;
@@ -3084,11 +3473,11 @@ static inline int add_chain_cache(struct task_struct *curr,
 
        chain->base = j;
        for (j = 0; j < chain->depth - 1; j++, i++) {
-               int lock_id = curr->held_locks[i].class_idx;
+               int lock_id = hlock_id(curr->held_locks + i);
 
                chain_hlocks[chain->base + j] = lock_id;
        }
-       chain_hlocks[chain->base + j] = class - lock_classes;
+       chain_hlocks[chain->base + j] = hlock_id(hlock);
        hlist_add_head_rcu(&chain->entry, hash_head);
        debug_atomic_inc(chain_lookup_misses);
        inc_chains(chain->irq_context);
@@ -3275,7 +3664,7 @@ static void check_chain_key(struct task_struct *curr)
                if (prev_hlock && (prev_hlock->irq_context !=
                                                        hlock->irq_context))
                        chain_key = INITIAL_CHAIN_KEY;
-               chain_key = iterate_chain_key(chain_key, hlock->class_idx);
+               chain_key = iterate_chain_key(chain_key, hlock_id(hlock));
                prev_hlock = hlock;
        }
        if (chain_key != curr->curr_chain_key) {
@@ -3434,24 +3823,32 @@ print_irq_inversion_bug(struct task_struct *curr,
  */
 static int
 check_usage_forwards(struct task_struct *curr, struct held_lock *this,
-                    enum lock_usage_bit bit, const char *irqclass)
+                    enum lock_usage_bit bit)
 {
-       int ret;
+       enum bfs_result ret;
        struct lock_list root;
        struct lock_list *target_entry;
+       enum lock_usage_bit read_bit = bit + LOCK_USAGE_READ_MASK;
+       unsigned usage_mask = lock_flag(bit) | lock_flag(read_bit);
 
-       root.parent = NULL;
-       root.class = hlock_class(this);
-       ret = find_usage_forwards(&root, lock_flag(bit), &target_entry);
-       if (ret < 0) {
+       bfs_init_root(&root, this);
+       ret = find_usage_forwards(&root, usage_mask, &target_entry);
+       if (bfs_error(ret)) {
                print_bfs_bug(ret);
                return 0;
        }
-       if (ret == 1)
-               return ret;
+       if (ret == BFS_RNOMATCH)
+               return 1;
+
+       /* Check whether write or read usage is the match */
+       if (target_entry->class->usage_mask & lock_flag(bit)) {
+               print_irq_inversion_bug(curr, &root, target_entry,
+                                       this, 1, state_name(bit));
+       } else {
+               print_irq_inversion_bug(curr, &root, target_entry,
+                                       this, 1, state_name(read_bit));
+       }
 
-       print_irq_inversion_bug(curr, &root, target_entry,
-                               this, 1, irqclass);
        return 0;
 }
 
@@ -3461,24 +3858,32 @@ check_usage_forwards(struct task_struct *curr, struct held_lock *this,
  */
 static int
 check_usage_backwards(struct task_struct *curr, struct held_lock *this,
-                     enum lock_usage_bit bit, const char *irqclass)
+                     enum lock_usage_bit bit)
 {
-       int ret;
+       enum bfs_result ret;
        struct lock_list root;
        struct lock_list *target_entry;
+       enum lock_usage_bit read_bit = bit + LOCK_USAGE_READ_MASK;
+       unsigned usage_mask = lock_flag(bit) | lock_flag(read_bit);
 
-       root.parent = NULL;
-       root.class = hlock_class(this);
-       ret = find_usage_backwards(&root, lock_flag(bit), &target_entry);
-       if (ret < 0) {
+       bfs_init_rootb(&root, this);
+       ret = find_usage_backwards(&root, usage_mask, &target_entry);
+       if (bfs_error(ret)) {
                print_bfs_bug(ret);
                return 0;
        }
-       if (ret == 1)
-               return ret;
+       if (ret == BFS_RNOMATCH)
+               return 1;
+
+       /* Check whether write or read usage is the match */
+       if (target_entry->class->usage_mask & lock_flag(bit)) {
+               print_irq_inversion_bug(curr, &root, target_entry,
+                                       this, 0, state_name(bit));
+       } else {
+               print_irq_inversion_bug(curr, &root, target_entry,
+                                       this, 0, state_name(read_bit));
+       }
 
-       print_irq_inversion_bug(curr, &root, target_entry,
-                               this, 0, irqclass);
        return 0;
 }
 
@@ -3517,8 +3922,6 @@ static int SOFTIRQ_verbose(struct lock_class *class)
        return 0;
 }
 
-#define STRICT_READ_CHECKS     1
-
 static int (*state_verbose_f[])(struct lock_class *class) = {
 #define LOCKDEP_STATE(__STATE) \
        __STATE##_verbose,
@@ -3544,16 +3947,6 @@ mark_lock_irq(struct task_struct *curr, struct held_lock *this,
        int dir = new_bit & LOCK_USAGE_DIR_MASK;
 
        /*
-        * mark USED_IN has to look forwards -- to ensure no dependency
-        * has ENABLED state, which would allow recursion deadlocks.
-        *
-        * mark ENABLED has to look backwards -- to ensure no dependee
-        * has USED_IN state, which, again, would allow  recursion deadlocks.
-        */
-       check_usage_f usage = dir ?
-               check_usage_backwards : check_usage_forwards;
-
-       /*
         * Validate that this particular lock does not have conflicting
         * usage states.
         */
@@ -3561,23 +3954,30 @@ mark_lock_irq(struct task_struct *curr, struct held_lock *this,
                return 0;
 
        /*
-        * Validate that the lock dependencies don't have conflicting usage
-        * states.
+        * Check for read in write conflicts
         */
-       if ((!read || STRICT_READ_CHECKS) &&
-                       !usage(curr, this, excl_bit, state_name(new_bit & ~LOCK_USAGE_READ_MASK)))
+       if (!read && !valid_state(curr, this, new_bit,
+                                 excl_bit + LOCK_USAGE_READ_MASK))
                return 0;
 
+
        /*
-        * Check for read in write conflicts
+        * Validate that the lock dependencies don't have conflicting usage
+        * states.
         */
-       if (!read) {
-               if (!valid_state(curr, this, new_bit, excl_bit + LOCK_USAGE_READ_MASK))
+       if (dir) {
+               /*
+                * mark ENABLED has to look backwards -- to ensure no dependee
+                * has USED_IN state, which, again, would allow  recursion deadlocks.
+                */
+               if (!check_usage_backwards(curr, this, excl_bit))
                        return 0;
-
-               if (STRICT_READ_CHECKS &&
-                       !usage(curr, this, excl_bit + LOCK_USAGE_READ_MASK,
-                               state_name(new_bit + LOCK_USAGE_READ_MASK)))
+       } else {
+               /*
+                * mark USED_IN has to look forwards -- to ensure no dependency
+                * has ENABLED state, which would allow recursion deadlocks.
+                */
+               if (!check_usage_forwards(curr, this, excl_bit))
                        return 0;
        }
 
@@ -3657,7 +4057,7 @@ void lockdep_hardirqs_on_prepare(unsigned long ip)
        if (unlikely(in_nmi()))
                return;
 
-       if (unlikely(current->lockdep_recursion & LOCKDEP_RECURSION_MASK))
+       if (unlikely(__this_cpu_read(lockdep_recursion)))
                return;
 
        if (unlikely(lockdep_hardirqs_enabled())) {
@@ -3693,7 +4093,7 @@ void lockdep_hardirqs_on_prepare(unsigned long ip)
 
        current->hardirq_chain_key = current->curr_chain_key;
 
-       current->lockdep_recursion++;
+       lockdep_recursion_inc();
        __trace_hardirqs_on_caller();
        lockdep_recursion_finish();
 }
@@ -3726,7 +4126,7 @@ void noinstr lockdep_hardirqs_on(unsigned long ip)
                goto skip_checks;
        }
 
-       if (unlikely(current->lockdep_recursion & LOCKDEP_RECURSION_MASK))
+       if (unlikely(__this_cpu_read(lockdep_recursion)))
                return;
 
        if (lockdep_hardirqs_enabled()) {
@@ -3779,7 +4179,7 @@ void noinstr lockdep_hardirqs_off(unsigned long ip)
        if (in_nmi()) {
                if (!IS_ENABLED(CONFIG_TRACE_IRQFLAGS_NMI))
                        return;
-       } else if (current->lockdep_recursion & LOCKDEP_RECURSION_MASK)
+       } else if (__this_cpu_read(lockdep_recursion))
                return;
 
        /*
@@ -3812,7 +4212,7 @@ void lockdep_softirqs_on(unsigned long ip)
 {
        struct irqtrace_events *trace = &current->irqtrace;
 
-       if (unlikely(!debug_locks || current->lockdep_recursion))
+       if (unlikely(!lockdep_enabled()))
                return;
 
        /*
@@ -3827,7 +4227,7 @@ void lockdep_softirqs_on(unsigned long ip)
                return;
        }
 
-       current->lockdep_recursion++;
+       lockdep_recursion_inc();
        /*
         * We'll do an OFF -> ON transition:
         */
@@ -3850,7 +4250,7 @@ void lockdep_softirqs_on(unsigned long ip)
  */
 void lockdep_softirqs_off(unsigned long ip)
 {
-       if (unlikely(!debug_locks || current->lockdep_recursion))
+       if (unlikely(!lockdep_enabled()))
                return;
 
        /*
@@ -3969,7 +4369,7 @@ static int separate_irq_context(struct task_struct *curr,
 static int mark_lock(struct task_struct *curr, struct held_lock *this,
                             enum lock_usage_bit new_bit)
 {
-       unsigned int old_mask, new_mask, ret = 1;
+       unsigned int new_mask, ret = 1;
 
        if (new_bit >= LOCK_USAGE_STATES) {
                DEBUG_LOCKS_WARN_ON(1);
@@ -3996,30 +4396,26 @@ static int mark_lock(struct task_struct *curr, struct held_lock *this,
        if (unlikely(hlock_class(this)->usage_mask & new_mask))
                goto unlock;
 
-       old_mask = hlock_class(this)->usage_mask;
        hlock_class(this)->usage_mask |= new_mask;
 
-       /*
-        * Save one usage_traces[] entry and map both LOCK_USED and
-        * LOCK_USED_READ onto the same entry.
-        */
-       if (new_bit == LOCK_USED || new_bit == LOCK_USED_READ) {
-               if (old_mask & (LOCKF_USED | LOCKF_USED_READ))
-                       goto unlock;
-               new_bit = LOCK_USED;
+       if (new_bit < LOCK_TRACE_STATES) {
+               if (!(hlock_class(this)->usage_traces[new_bit] = save_trace()))
+                       return 0;
        }
 
-       if (!(hlock_class(this)->usage_traces[new_bit] = save_trace()))
-               return 0;
-
        switch (new_bit) {
+       case 0 ... LOCK_USED-1:
+               ret = mark_lock_irq(curr, this, new_bit);
+               if (!ret)
+                       return 0;
+               break;
+
        case LOCK_USED:
                debug_atomic_dec(nr_unused_locks);
                break;
+
        default:
-               ret = mark_lock_irq(curr, this, new_bit);
-               if (!ret)
-                       return 0;
+               break;
        }
 
 unlock:
@@ -4235,11 +4631,11 @@ void lockdep_init_map_waits(struct lockdep_map *lock, const char *name,
        if (subclass) {
                unsigned long flags;
 
-               if (DEBUG_LOCKS_WARN_ON(current->lockdep_recursion))
+               if (DEBUG_LOCKS_WARN_ON(!lockdep_enabled()))
                        return;
 
                raw_local_irq_save(flags);
-               current->lockdep_recursion++;
+               lockdep_recursion_inc();
                register_lock_class(lock, subclass, 1);
                lockdep_recursion_finish();
                raw_local_irq_restore(flags);
@@ -4426,7 +4822,7 @@ static int __lock_acquire(struct lockdep_map *lock, unsigned int subclass,
                chain_key = INITIAL_CHAIN_KEY;
                chain_head = 1;
        }
-       chain_key = iterate_chain_key(chain_key, class_idx);
+       chain_key = iterate_chain_key(chain_key, hlock_id(hlock));
 
        if (nest_lock && !__lock_is_held(nest_lock, -1)) {
                print_lock_nested_lock_not_held(curr, hlock, ip);
@@ -4922,11 +5318,11 @@ void lock_set_class(struct lockdep_map *lock, const char *name,
 {
        unsigned long flags;
 
-       if (unlikely(current->lockdep_recursion))
+       if (unlikely(!lockdep_enabled()))
                return;
 
        raw_local_irq_save(flags);
-       current->lockdep_recursion++;
+       lockdep_recursion_inc();
        check_flags(flags);
        if (__lock_set_class(lock, name, key, subclass, ip))
                check_chain_key(current);
@@ -4939,11 +5335,11 @@ void lock_downgrade(struct lockdep_map *lock, unsigned long ip)
 {
        unsigned long flags;
 
-       if (unlikely(current->lockdep_recursion))
+       if (unlikely(!lockdep_enabled()))
                return;
 
        raw_local_irq_save(flags);
-       current->lockdep_recursion++;
+       lockdep_recursion_inc();
        check_flags(flags);
        if (__lock_downgrade(lock, ip))
                check_chain_key(current);
@@ -4981,7 +5377,7 @@ static void verify_lock_unused(struct lockdep_map *lock, struct held_lock *hlock
 
 static bool lockdep_nmi(void)
 {
-       if (current->lockdep_recursion & LOCKDEP_RECURSION_MASK)
+       if (raw_cpu_read(lockdep_recursion))
                return false;
 
        if (!in_nmi())
@@ -4991,6 +5387,20 @@ static bool lockdep_nmi(void)
 }
 
 /*
+ * read_lock() is recursive if:
+ * 1. We force lockdep think this way in selftests or
+ * 2. The implementation is not queued read/write lock or
+ * 3. The locker is at an in_interrupt() context.
+ */
+bool read_lock_is_recursive(void)
+{
+       return force_read_lock_recursive ||
+              !IS_ENABLED(CONFIG_QUEUED_RWLOCKS) ||
+              in_interrupt();
+}
+EXPORT_SYMBOL_GPL(read_lock_is_recursive);
+
+/*
  * We are not always called with irqs disabled - do that here,
  * and also avoid lockdep recursion:
  */
@@ -5002,7 +5412,10 @@ void lock_acquire(struct lockdep_map *lock, unsigned int subclass,
 
        trace_lock_acquire(lock, subclass, trylock, read, check, nest_lock, ip);
 
-       if (unlikely(current->lockdep_recursion)) {
+       if (!debug_locks)
+               return;
+
+       if (unlikely(!lockdep_enabled())) {
                /* XXX allow trylock from NMI ?!? */
                if (lockdep_nmi() && !trylock) {
                        struct held_lock hlock;
@@ -5025,7 +5438,7 @@ void lock_acquire(struct lockdep_map *lock, unsigned int subclass,
        raw_local_irq_save(flags);
        check_flags(flags);
 
-       current->lockdep_recursion++;
+       lockdep_recursion_inc();
        __lock_acquire(lock, subclass, trylock, read, check,
                       irqs_disabled_flags(flags), nest_lock, ip, 0, 0);
        lockdep_recursion_finish();
@@ -5039,13 +5452,13 @@ void lock_release(struct lockdep_map *lock, unsigned long ip)
 
        trace_lock_release(lock, ip);
 
-       if (unlikely(current->lockdep_recursion))
+       if (unlikely(!lockdep_enabled()))
                return;
 
        raw_local_irq_save(flags);
        check_flags(flags);
 
-       current->lockdep_recursion++;
+       lockdep_recursion_inc();
        if (__lock_release(lock, ip))
                check_chain_key(current);
        lockdep_recursion_finish();
@@ -5058,13 +5471,13 @@ noinstr int lock_is_held_type(const struct lockdep_map *lock, int read)
        unsigned long flags;
        int ret = 0;
 
-       if (unlikely(current->lockdep_recursion))
+       if (unlikely(!lockdep_enabled()))
                return 1; /* avoid false negative lockdep_assert_held() */
 
        raw_local_irq_save(flags);
        check_flags(flags);
 
-       current->lockdep_recursion++;
+       lockdep_recursion_inc();
        ret = __lock_is_held(lock, read);
        lockdep_recursion_finish();
        raw_local_irq_restore(flags);
@@ -5079,13 +5492,13 @@ struct pin_cookie lock_pin_lock(struct lockdep_map *lock)
        struct pin_cookie cookie = NIL_COOKIE;
        unsigned long flags;
 
-       if (unlikely(current->lockdep_recursion))
+       if (unlikely(!lockdep_enabled()))
                return cookie;
 
        raw_local_irq_save(flags);
        check_flags(flags);
 
-       current->lockdep_recursion++;
+       lockdep_recursion_inc();
        cookie = __lock_pin_lock(lock);
        lockdep_recursion_finish();
        raw_local_irq_restore(flags);
@@ -5098,13 +5511,13 @@ void lock_repin_lock(struct lockdep_map *lock, struct pin_cookie cookie)
 {
        unsigned long flags;
 
-       if (unlikely(current->lockdep_recursion))
+       if (unlikely(!lockdep_enabled()))
                return;
 
        raw_local_irq_save(flags);
        check_flags(flags);
 
-       current->lockdep_recursion++;
+       lockdep_recursion_inc();
        __lock_repin_lock(lock, cookie);
        lockdep_recursion_finish();
        raw_local_irq_restore(flags);
@@ -5115,13 +5528,13 @@ void lock_unpin_lock(struct lockdep_map *lock, struct pin_cookie cookie)
 {
        unsigned long flags;
 
-       if (unlikely(current->lockdep_recursion))
+       if (unlikely(!lockdep_enabled()))
                return;
 
        raw_local_irq_save(flags);
        check_flags(flags);
 
-       current->lockdep_recursion++;
+       lockdep_recursion_inc();
        __lock_unpin_lock(lock, cookie);
        lockdep_recursion_finish();
        raw_local_irq_restore(flags);
@@ -5251,15 +5664,12 @@ void lock_contended(struct lockdep_map *lock, unsigned long ip)
 
        trace_lock_acquired(lock, ip);
 
-       if (unlikely(!lock_stat || !debug_locks))
-               return;
-
-       if (unlikely(current->lockdep_recursion))
+       if (unlikely(!lock_stat || !lockdep_enabled()))
                return;
 
        raw_local_irq_save(flags);
        check_flags(flags);
-       current->lockdep_recursion++;
+       lockdep_recursion_inc();
        __lock_contended(lock, ip);
        lockdep_recursion_finish();
        raw_local_irq_restore(flags);
@@ -5272,15 +5682,12 @@ void lock_acquired(struct lockdep_map *lock, unsigned long ip)
 
        trace_lock_contended(lock, ip);
 
-       if (unlikely(!lock_stat || !debug_locks))
-               return;
-
-       if (unlikely(current->lockdep_recursion))
+       if (unlikely(!lock_stat || !lockdep_enabled()))
                return;
 
        raw_local_irq_save(flags);
        check_flags(flags);
-       current->lockdep_recursion++;
+       lockdep_recursion_inc();
        __lock_acquired(lock, ip);
        lockdep_recursion_finish();
        raw_local_irq_restore(flags);
@@ -5319,7 +5726,7 @@ static void remove_class_from_lock_chain(struct pending_free *pf,
        int i;
 
        for (i = chain->base; i < chain->base + chain->depth; i++) {
-               if (chain_hlocks[i] != class - lock_classes)
+               if (chain_hlock_class_idx(chain_hlocks[i]) != class - lock_classes)
                        continue;
                /*
                 * Each lock class occurs at most once in a lock chain so once
index b0be156..de49f9e 100644 (file)
@@ -20,9 +20,12 @@ enum lock_usage_bit {
 #undef LOCKDEP_STATE
        LOCK_USED,
        LOCK_USED_READ,
-       LOCK_USAGE_STATES
+       LOCK_USAGE_STATES,
 };
 
+/* states after LOCK_USED_READ are not traced and printed */
+static_assert(LOCK_TRACE_STATES == LOCK_USAGE_STATES);
+
 #define LOCK_USAGE_READ_MASK 1
 #define LOCK_USAGE_DIR_MASK  2
 #define LOCK_USAGE_STATE_MASK (~(LOCK_USAGE_READ_MASK | LOCK_USAGE_DIR_MASK))
@@ -121,7 +124,7 @@ static const unsigned long LOCKF_USED_IN_IRQ_READ =
 extern struct list_head all_lock_classes;
 extern struct lock_chain lock_chains[];
 
-#define LOCK_USAGE_CHARS (1+LOCK_USAGE_STATES/2)
+#define LOCK_USAGE_CHARS (2*XXX_LOCK_USAGE_STATES + 1)
 
 extern void get_usage_chars(struct lock_class *class,
                            char usage[LOCK_USAGE_CHARS]);
index 1c5cff3..c075a18 100644 (file)
@@ -3275,6 +3275,11 @@ static int find_module_sections(struct module *mod, struct load_info *info)
                                                sizeof(unsigned long),
                                                &mod->num_kprobe_blacklist);
 #endif
+#ifdef CONFIG_HAVE_STATIC_CALL_INLINE
+       mod->static_call_sites = section_objs(info, ".static_call_sites",
+                                             sizeof(*mod->static_call_sites),
+                                             &mod->num_static_call_sites);
+#endif
        mod->extable = section_objs(info, "__ex_table",
                                    sizeof(*mod->extable), &mod->num_exentries);
 
@@ -3792,9 +3797,13 @@ static int prepare_coming_module(struct module *mod)
        if (err)
                return err;
 
-       blocking_notifier_call_chain(&module_notify_list,
-                                    MODULE_STATE_COMING, mod);
-       return 0;
+       err = blocking_notifier_call_chain_robust(&module_notify_list,
+                       MODULE_STATE_COMING, MODULE_STATE_GOING, mod);
+       err = notifier_to_errno(err);
+       if (err)
+               klp_module_going(mod);
+
+       return err;
 }
 
 static int unknown_module_param_cb(char *param, char *val, const char *modname,
index 84c987d..1b019cb 100644 (file)
@@ -94,6 +94,34 @@ static int notifier_call_chain(struct notifier_block **nl,
 }
 NOKPROBE_SYMBOL(notifier_call_chain);
 
+/**
+ * notifier_call_chain_robust - Inform the registered notifiers about an event
+ *                              and rollback on error.
+ * @nl:                Pointer to head of the blocking notifier chain
+ * @val_up:    Value passed unmodified to the notifier function
+ * @val_down:  Value passed unmodified to the notifier function when recovering
+ *              from an error on @val_up
+ * @v          Pointer passed unmodified to the notifier function
+ *
+ * NOTE:       It is important the @nl chain doesn't change between the two
+ *             invocations of notifier_call_chain() such that we visit the
+ *             exact same notifier callbacks; this rules out any RCU usage.
+ *
+ * Returns:    the return value of the @val_up call.
+ */
+static int notifier_call_chain_robust(struct notifier_block **nl,
+                                    unsigned long val_up, unsigned long val_down,
+                                    void *v)
+{
+       int ret, nr = 0;
+
+       ret = notifier_call_chain(nl, val_up, v, -1, &nr);
+       if (ret & NOTIFY_STOP_MASK)
+               notifier_call_chain(nl, val_down, v, nr-1, NULL);
+
+       return ret;
+}
+
 /*
  *     Atomic notifier chain routines.  Registration and unregistration
  *     use a spinlock, and call_chain is synchronized by RCU (no locks).
@@ -144,13 +172,30 @@ int atomic_notifier_chain_unregister(struct atomic_notifier_head *nh,
 }
 EXPORT_SYMBOL_GPL(atomic_notifier_chain_unregister);
 
+int atomic_notifier_call_chain_robust(struct atomic_notifier_head *nh,
+               unsigned long val_up, unsigned long val_down, void *v)
+{
+       unsigned long flags;
+       int ret;
+
+       /*
+        * Musn't use RCU; because then the notifier list can
+        * change between the up and down traversal.
+        */
+       spin_lock_irqsave(&nh->lock, flags);
+       ret = notifier_call_chain_robust(&nh->head, val_up, val_down, v);
+       spin_unlock_irqrestore(&nh->lock, flags);
+
+       return ret;
+}
+EXPORT_SYMBOL_GPL(atomic_notifier_call_chain_robust);
+NOKPROBE_SYMBOL(atomic_notifier_call_chain_robust);
+
 /**
- *     __atomic_notifier_call_chain - Call functions in an atomic notifier chain
+ *     atomic_notifier_call_chain - Call functions in an atomic notifier chain
  *     @nh: Pointer to head of the atomic notifier chain
  *     @val: Value passed unmodified to notifier function
  *     @v: Pointer passed unmodified to notifier function
- *     @nr_to_call: See the comment for notifier_call_chain.
- *     @nr_calls: See the comment for notifier_call_chain.
  *
  *     Calls each function in a notifier chain in turn.  The functions
  *     run in an atomic context, so they must not block.
@@ -163,24 +208,16 @@ EXPORT_SYMBOL_GPL(atomic_notifier_chain_unregister);
  *     Otherwise the return value is the return value
  *     of the last notifier function called.
  */
-int __atomic_notifier_call_chain(struct atomic_notifier_head *nh,
-                                unsigned long val, void *v,
-                                int nr_to_call, int *nr_calls)
+int atomic_notifier_call_chain(struct atomic_notifier_head *nh,
+                              unsigned long val, void *v)
 {
        int ret;
 
        rcu_read_lock();
-       ret = notifier_call_chain(&nh->head, val, v, nr_to_call, nr_calls);
+       ret = notifier_call_chain(&nh->head, val, v, -1, NULL);
        rcu_read_unlock();
-       return ret;
-}
-EXPORT_SYMBOL_GPL(__atomic_notifier_call_chain);
-NOKPROBE_SYMBOL(__atomic_notifier_call_chain);
 
-int atomic_notifier_call_chain(struct atomic_notifier_head *nh,
-                              unsigned long val, void *v)
-{
-       return __atomic_notifier_call_chain(nh, val, v, -1, NULL);
+       return ret;
 }
 EXPORT_SYMBOL_GPL(atomic_notifier_call_chain);
 NOKPROBE_SYMBOL(atomic_notifier_call_chain);
@@ -250,13 +287,30 @@ int blocking_notifier_chain_unregister(struct blocking_notifier_head *nh,
 }
 EXPORT_SYMBOL_GPL(blocking_notifier_chain_unregister);
 
+int blocking_notifier_call_chain_robust(struct blocking_notifier_head *nh,
+               unsigned long val_up, unsigned long val_down, void *v)
+{
+       int ret = NOTIFY_DONE;
+
+       /*
+        * We check the head outside the lock, but if this access is
+        * racy then it does not matter what the result of the test
+        * is, we re-check the list after having taken the lock anyway:
+        */
+       if (rcu_access_pointer(nh->head)) {
+               down_read(&nh->rwsem);
+               ret = notifier_call_chain_robust(&nh->head, val_up, val_down, v);
+               up_read(&nh->rwsem);
+       }
+       return ret;
+}
+EXPORT_SYMBOL_GPL(blocking_notifier_call_chain_robust);
+
 /**
- *     __blocking_notifier_call_chain - Call functions in a blocking notifier chain
+ *     blocking_notifier_call_chain - Call functions in a blocking notifier chain
  *     @nh: Pointer to head of the blocking notifier chain
  *     @val: Value passed unmodified to notifier function
  *     @v: Pointer passed unmodified to notifier function
- *     @nr_to_call: See comment for notifier_call_chain.
- *     @nr_calls: See comment for notifier_call_chain.
  *
  *     Calls each function in a notifier chain in turn.  The functions
  *     run in a process context, so they are allowed to block.
@@ -268,9 +322,8 @@ EXPORT_SYMBOL_GPL(blocking_notifier_chain_unregister);
  *     Otherwise the return value is the return value
  *     of the last notifier function called.
  */
-int __blocking_notifier_call_chain(struct blocking_notifier_head *nh,
-                                  unsigned long val, void *v,
-                                  int nr_to_call, int *nr_calls)
+int blocking_notifier_call_chain(struct blocking_notifier_head *nh,
+               unsigned long val, void *v)
 {
        int ret = NOTIFY_DONE;
 
@@ -281,19 +334,11 @@ int __blocking_notifier_call_chain(struct blocking_notifier_head *nh,
         */
        if (rcu_access_pointer(nh->head)) {
                down_read(&nh->rwsem);
-               ret = notifier_call_chain(&nh->head, val, v, nr_to_call,
-                                       nr_calls);
+               ret = notifier_call_chain(&nh->head, val, v, -1, NULL);
                up_read(&nh->rwsem);
        }
        return ret;
 }
-EXPORT_SYMBOL_GPL(__blocking_notifier_call_chain);
-
-int blocking_notifier_call_chain(struct blocking_notifier_head *nh,
-               unsigned long val, void *v)
-{
-       return __blocking_notifier_call_chain(nh, val, v, -1, NULL);
-}
 EXPORT_SYMBOL_GPL(blocking_notifier_call_chain);
 
 /*
@@ -335,13 +380,18 @@ int raw_notifier_chain_unregister(struct raw_notifier_head *nh,
 }
 EXPORT_SYMBOL_GPL(raw_notifier_chain_unregister);
 
+int raw_notifier_call_chain_robust(struct raw_notifier_head *nh,
+               unsigned long val_up, unsigned long val_down, void *v)
+{
+       return notifier_call_chain_robust(&nh->head, val_up, val_down, v);
+}
+EXPORT_SYMBOL_GPL(raw_notifier_call_chain_robust);
+
 /**
- *     __raw_notifier_call_chain - Call functions in a raw notifier chain
+ *     raw_notifier_call_chain - Call functions in a raw notifier chain
  *     @nh: Pointer to head of the raw notifier chain
  *     @val: Value passed unmodified to notifier function
  *     @v: Pointer passed unmodified to notifier function
- *     @nr_to_call: See comment for notifier_call_chain.
- *     @nr_calls: See comment for notifier_call_chain
  *
  *     Calls each function in a notifier chain in turn.  The functions
  *     run in an undefined context.
@@ -354,18 +404,10 @@ EXPORT_SYMBOL_GPL(raw_notifier_chain_unregister);
  *     Otherwise the return value is the return value
  *     of the last notifier function called.
  */
-int __raw_notifier_call_chain(struct raw_notifier_head *nh,
-                             unsigned long val, void *v,
-                             int nr_to_call, int *nr_calls)
-{
-       return notifier_call_chain(&nh->head, val, v, nr_to_call, nr_calls);
-}
-EXPORT_SYMBOL_GPL(__raw_notifier_call_chain);
-
 int raw_notifier_call_chain(struct raw_notifier_head *nh,
                unsigned long val, void *v)
 {
-       return __raw_notifier_call_chain(nh, val, v, -1, NULL);
+       return notifier_call_chain(&nh->head, val, v, -1, NULL);
 }
 EXPORT_SYMBOL_GPL(raw_notifier_call_chain);
 
@@ -437,12 +479,10 @@ int srcu_notifier_chain_unregister(struct srcu_notifier_head *nh,
 EXPORT_SYMBOL_GPL(srcu_notifier_chain_unregister);
 
 /**
- *     __srcu_notifier_call_chain - Call functions in an SRCU notifier chain
+ *     srcu_notifier_call_chain - Call functions in an SRCU notifier chain
  *     @nh: Pointer to head of the SRCU notifier chain
  *     @val: Value passed unmodified to notifier function
  *     @v: Pointer passed unmodified to notifier function
- *     @nr_to_call: See comment for notifier_call_chain.
- *     @nr_calls: See comment for notifier_call_chain
  *
  *     Calls each function in a notifier chain in turn.  The functions
  *     run in a process context, so they are allowed to block.
@@ -454,25 +494,17 @@ EXPORT_SYMBOL_GPL(srcu_notifier_chain_unregister);
  *     Otherwise the return value is the return value
  *     of the last notifier function called.
  */
-int __srcu_notifier_call_chain(struct srcu_notifier_head *nh,
-                              unsigned long val, void *v,
-                              int nr_to_call, int *nr_calls)
+int srcu_notifier_call_chain(struct srcu_notifier_head *nh,
+               unsigned long val, void *v)
 {
        int ret;
        int idx;
 
        idx = srcu_read_lock(&nh->srcu);
-       ret = notifier_call_chain(&nh->head, val, v, nr_to_call, nr_calls);
+       ret = notifier_call_chain(&nh->head, val, v, -1, NULL);
        srcu_read_unlock(&nh->srcu, idx);
        return ret;
 }
-EXPORT_SYMBOL_GPL(__srcu_notifier_call_chain);
-
-int srcu_notifier_call_chain(struct srcu_notifier_head *nh,
-               unsigned long val, void *v)
-{
-       return __srcu_notifier_call_chain(nh, val, v, -1, NULL);
-}
 EXPORT_SYMBOL_GPL(srcu_notifier_call_chain);
 
 /**
index e7aa57f..1dee708 100644 (file)
@@ -706,8 +706,8 @@ static int load_image_and_restore(void)
  */
 int hibernate(void)
 {
-       int error, nr_calls = 0;
        bool snapshot_test = false;
+       int error;
 
        if (!hibernation_available()) {
                pm_pr_dbg("Hibernation not available.\n");
@@ -723,11 +723,9 @@ int hibernate(void)
 
        pr_info("hibernation entry\n");
        pm_prepare_console();
-       error = __pm_notifier_call_chain(PM_HIBERNATION_PREPARE, -1, &nr_calls);
-       if (error) {
-               nr_calls--;
-               goto Exit;
-       }
+       error = pm_notifier_call_chain_robust(PM_HIBERNATION_PREPARE, PM_POST_HIBERNATION);
+       if (error)
+               goto Restore;
 
        ksys_sync_helper();
 
@@ -785,7 +783,8 @@ int hibernate(void)
        /* Don't bother checking whether freezer_test_done is true */
        freezer_test_done = false;
  Exit:
-       __pm_notifier_call_chain(PM_POST_HIBERNATION, nr_calls, NULL);
+       pm_notifier_call_chain(PM_POST_HIBERNATION);
+ Restore:
        pm_restore_console();
        hibernate_release();
  Unlock:
@@ -804,7 +803,7 @@ int hibernate(void)
  */
 int hibernate_quiet_exec(int (*func)(void *data), void *data)
 {
-       int error, nr_calls = 0;
+       int error;
 
        lock_system_sleep();
 
@@ -815,11 +814,9 @@ int hibernate_quiet_exec(int (*func)(void *data), void *data)
 
        pm_prepare_console();
 
-       error = __pm_notifier_call_chain(PM_HIBERNATION_PREPARE, -1, &nr_calls);
-       if (error) {
-               nr_calls--;
-               goto exit;
-       }
+       error = pm_notifier_call_chain_robust(PM_HIBERNATION_PREPARE, PM_POST_HIBERNATION);
+       if (error)
+               goto restore;
 
        error = freeze_processes();
        if (error)
@@ -880,8 +877,9 @@ thaw:
        thaw_processes();
 
 exit:
-       __pm_notifier_call_chain(PM_POST_HIBERNATION, nr_calls, NULL);
+       pm_notifier_call_chain(PM_POST_HIBERNATION);
 
+restore:
        pm_restore_console();
 
        hibernate_release();
@@ -910,7 +908,7 @@ EXPORT_SYMBOL_GPL(hibernate_quiet_exec);
  */
 static int software_resume(void)
 {
-       int error, nr_calls = 0;
+       int error;
 
        /*
         * If the user said "noresume".. bail out early.
@@ -997,11 +995,9 @@ static int software_resume(void)
 
        pr_info("resume from hibernation\n");
        pm_prepare_console();
-       error = __pm_notifier_call_chain(PM_RESTORE_PREPARE, -1, &nr_calls);
-       if (error) {
-               nr_calls--;
-               goto Close_Finish;
-       }
+       error = pm_notifier_call_chain_robust(PM_RESTORE_PREPARE, PM_POST_RESTORE);
+       if (error)
+               goto Restore;
 
        pm_pr_dbg("Preparing processes for hibernation restore.\n");
        error = freeze_processes();
@@ -1017,7 +1013,8 @@ static int software_resume(void)
        error = load_image_and_restore();
        thaw_processes();
  Finish:
-       __pm_notifier_call_chain(PM_POST_RESTORE, nr_calls, NULL);
+       pm_notifier_call_chain(PM_POST_RESTORE);
+ Restore:
        pm_restore_console();
        pr_info("resume failed (%d)\n", error);
        hibernate_release();
index 40f86ec..0aefd6f 100644 (file)
@@ -80,18 +80,18 @@ int unregister_pm_notifier(struct notifier_block *nb)
 }
 EXPORT_SYMBOL_GPL(unregister_pm_notifier);
 
-int __pm_notifier_call_chain(unsigned long val, int nr_to_call, int *nr_calls)
+int pm_notifier_call_chain_robust(unsigned long val_up, unsigned long val_down)
 {
        int ret;
 
-       ret = __blocking_notifier_call_chain(&pm_chain_head, val, NULL,
-                                               nr_to_call, nr_calls);
+       ret = blocking_notifier_call_chain_robust(&pm_chain_head, val_up, val_down, NULL);
 
        return notifier_to_errno(ret);
 }
+
 int pm_notifier_call_chain(unsigned long val)
 {
-       return __pm_notifier_call_chain(val, -1, NULL);
+       return blocking_notifier_call_chain(&pm_chain_head, val, NULL);
 }
 
 /* If set, devices may be suspended and resumed asynchronously. */
index 32fc89a..24f12d5 100644 (file)
@@ -210,8 +210,7 @@ static inline void suspend_test_finish(const char *label) {}
 
 #ifdef CONFIG_PM_SLEEP
 /* kernel/power/main.c */
-extern int __pm_notifier_call_chain(unsigned long val, int nr_to_call,
-                                   int *nr_calls);
+extern int pm_notifier_call_chain_robust(unsigned long val_up, unsigned long val_down);
 extern int pm_notifier_call_chain(unsigned long val);
 #endif
 
index 8b1bb5e..32391ac 100644 (file)
@@ -342,18 +342,16 @@ static int suspend_test(int level)
  */
 static int suspend_prepare(suspend_state_t state)
 {
-       int error, nr_calls = 0;
+       int error;
 
        if (!sleep_state_supported(state))
                return -EPERM;
 
        pm_prepare_console();
 
-       error = __pm_notifier_call_chain(PM_SUSPEND_PREPARE, -1, &nr_calls);
-       if (error) {
-               nr_calls--;
-               goto Finish;
-       }
+       error = pm_notifier_call_chain_robust(PM_SUSPEND_PREPARE, PM_POST_SUSPEND);
+       if (error)
+               goto Restore;
 
        trace_suspend_resume(TPS("freeze_processes"), 0, true);
        error = suspend_freeze_processes();
@@ -363,8 +361,8 @@ static int suspend_prepare(suspend_state_t state)
 
        suspend_stats.failed_freeze++;
        dpm_save_failed_step(SUSPEND_FREEZE);
- Finish:
-       __pm_notifier_call_chain(PM_POST_SUSPEND, nr_calls, NULL);
+       pm_notifier_call_chain(PM_POST_SUSPEND);
+ Restore:
        pm_restore_console();
        return error;
 }
index d5eedc2..047f598 100644 (file)
@@ -46,7 +46,7 @@ int is_hibernate_resume_dev(const struct inode *bd_inode)
 static int snapshot_open(struct inode *inode, struct file *filp)
 {
        struct snapshot_data *data;
-       int error, nr_calls = 0;
+       int error;
 
        if (!hibernation_available())
                return -EPERM;
@@ -73,9 +73,7 @@ static int snapshot_open(struct inode *inode, struct file *filp)
                        swap_type_of(swsusp_resume_device, 0, NULL) : -1;
                data->mode = O_RDONLY;
                data->free_bitmaps = false;
-               error = __pm_notifier_call_chain(PM_HIBERNATION_PREPARE, -1, &nr_calls);
-               if (error)
-                       __pm_notifier_call_chain(PM_POST_HIBERNATION, --nr_calls, NULL);
+               error = pm_notifier_call_chain_robust(PM_HIBERNATION_PREPARE, PM_POST_HIBERNATION);
        } else {
                /*
                 * Resuming.  We may need to wait for the image device to
@@ -85,15 +83,11 @@ static int snapshot_open(struct inode *inode, struct file *filp)
 
                data->swap = -1;
                data->mode = O_WRONLY;
-               error = __pm_notifier_call_chain(PM_RESTORE_PREPARE, -1, &nr_calls);
+               error = pm_notifier_call_chain_robust(PM_RESTORE_PREPARE, PM_POST_RESTORE);
                if (!error) {
                        error = create_basic_memory_bitmaps();
                        data->free_bitmaps = !error;
-               } else
-                       nr_calls--;
-
-               if (error)
-                       __pm_notifier_call_chain(PM_POST_RESTORE, nr_calls, NULL);
+               }
        }
        if (error)
                hibernate_release();
index cf66a3c..e01cba5 100644 (file)
@@ -167,7 +167,7 @@ static inline unsigned long rcu_seq_diff(unsigned long new, unsigned long old)
 # define STATE_RCU_HEAD_READY  0
 # define STATE_RCU_HEAD_QUEUED 1
 
-extern struct debug_obj_descr rcuhead_debug_descr;
+extern const struct debug_obj_descr rcuhead_debug_descr;
 
 static inline int debug_rcu_head_queue(struct rcu_head *head)
 {
index 2de49b5..3e0f4bc 100644 (file)
@@ -469,7 +469,7 @@ void destroy_rcu_head_on_stack(struct rcu_head *head)
 }
 EXPORT_SYMBOL_GPL(destroy_rcu_head_on_stack);
 
-struct debug_obj_descr rcuhead_debug_descr = {
+const struct debug_obj_descr rcuhead_debug_descr = {
        .name = "rcu_head",
        .is_static_object = rcuhead_is_static_object,
 };
index 2d95dc3..8160ab5 100644 (file)
@@ -36,6 +36,7 @@ EXPORT_TRACEPOINT_SYMBOL_GPL(pelt_rt_tp);
 EXPORT_TRACEPOINT_SYMBOL_GPL(pelt_dl_tp);
 EXPORT_TRACEPOINT_SYMBOL_GPL(pelt_irq_tp);
 EXPORT_TRACEPOINT_SYMBOL_GPL(pelt_se_tp);
+EXPORT_TRACEPOINT_SYMBOL_GPL(sched_cpu_capacity_tp);
 EXPORT_TRACEPOINT_SYMBOL_GPL(sched_overutilized_tp);
 EXPORT_TRACEPOINT_SYMBOL_GPL(sched_util_est_cfs_tp);
 EXPORT_TRACEPOINT_SYMBOL_GPL(sched_util_est_se_tp);
@@ -940,11 +941,6 @@ static inline unsigned int uclamp_bucket_id(unsigned int clamp_value)
        return clamp_value / UCLAMP_BUCKET_DELTA;
 }
 
-static inline unsigned int uclamp_bucket_base_value(unsigned int clamp_value)
-{
-       return UCLAMP_BUCKET_DELTA * uclamp_bucket_id(clamp_value);
-}
-
 static inline unsigned int uclamp_none(enum uclamp_id clamp_id)
 {
        if (clamp_id == UCLAMP_MIN)
@@ -4551,9 +4547,12 @@ void __noreturn do_task_dead(void)
 
 static inline void sched_submit_work(struct task_struct *tsk)
 {
+       unsigned int task_flags;
+
        if (!tsk->state)
                return;
 
+       task_flags = tsk->flags;
        /*
         * If a worker went to sleep, notify and ask workqueue whether
         * it wants to wake up a task to maintain concurrency.
@@ -4562,9 +4561,9 @@ static inline void sched_submit_work(struct task_struct *tsk)
         * in the possible wakeup of a kworker and because wq_worker_sleeping()
         * requires it.
         */
-       if (tsk->flags & (PF_WQ_WORKER | PF_IO_WORKER)) {
+       if (task_flags & (PF_WQ_WORKER | PF_IO_WORKER)) {
                preempt_disable();
-               if (tsk->flags & PF_WQ_WORKER)
+               if (task_flags & PF_WQ_WORKER)
                        wq_worker_sleeping(tsk);
                else
                        io_wq_worker_sleeping(tsk);
index 3862a28..6d93f45 100644 (file)
@@ -1525,14 +1525,38 @@ static void enqueue_task_dl(struct rq *rq, struct task_struct *p, int flags)
         */
        if (pi_task && dl_prio(pi_task->normal_prio) && p->dl.dl_boosted) {
                pi_se = &pi_task->dl;
+               /*
+                * Because of delays in the detection of the overrun of a
+                * thread's runtime, it might be the case that a thread
+                * goes to sleep in a rt mutex with negative runtime. As
+                * a consequence, the thread will be throttled.
+                *
+                * While waiting for the mutex, this thread can also be
+                * boosted via PI, resulting in a thread that is throttled
+                * and boosted at the same time.
+                *
+                * In this case, the boost overrides the throttle.
+                */
+               if (p->dl.dl_throttled) {
+                       /*
+                        * The replenish timer needs to be canceled. No
+                        * problem if it fires concurrently: boosted threads
+                        * are ignored in dl_task_timer().
+                        */
+                       hrtimer_try_to_cancel(&p->dl.dl_timer);
+                       p->dl.dl_throttled = 0;
+               }
        } else if (!dl_prio(p->normal_prio)) {
                /*
-                * Special case in which we have a !SCHED_DEADLINE task
-                * that is going to be deboosted, but exceeds its
-                * runtime while doing so. No point in replenishing
-                * it, as it's going to return back to its original
-                * scheduling class after this.
+                * Special case in which we have a !SCHED_DEADLINE task that is going
+                * to be deboosted, but exceeds its runtime while doing so. No point in
+                * replenishing it, as it's going to return back to its original
+                * scheduling class after this. If it has been throttled, we need to
+                * clear the flag, otherwise the task may wake up as throttled after
+                * being boosted again with no means to replenish the runtime and clear
+                * the throttle.
                 */
+               p->dl.dl_throttled = 0;
                BUG_ON(!p->dl.dl_boosted || flags != ENQUEUE_REPLENISH);
                return;
        }
index 36c5426..0655524 100644 (file)
@@ -245,6 +245,60 @@ set_table_entry(struct ctl_table *entry,
        entry->proc_handler = proc_handler;
 }
 
+static int sd_ctl_doflags(struct ctl_table *table, int write,
+                         void *buffer, size_t *lenp, loff_t *ppos)
+{
+       unsigned long flags = *(unsigned long *)table->data;
+       size_t data_size = 0;
+       size_t len = 0;
+       char *tmp;
+       int idx;
+
+       if (write)
+               return 0;
+
+       for_each_set_bit(idx, &flags, __SD_FLAG_CNT) {
+               char *name = sd_flag_debug[idx].name;
+
+               /* Name plus whitespace */
+               data_size += strlen(name) + 1;
+       }
+
+       if (*ppos > data_size) {
+               *lenp = 0;
+               return 0;
+       }
+
+       tmp = kcalloc(data_size + 1, sizeof(*tmp), GFP_KERNEL);
+       if (!tmp)
+               return -ENOMEM;
+
+       for_each_set_bit(idx, &flags, __SD_FLAG_CNT) {
+               char *name = sd_flag_debug[idx].name;
+
+               len += snprintf(tmp + len, strlen(name) + 2, "%s ", name);
+       }
+
+       tmp += *ppos;
+       len -= *ppos;
+
+       if (len > *lenp)
+               len = *lenp;
+       if (len)
+               memcpy(buffer, tmp, len);
+       if (len < *lenp) {
+               ((char *)buffer)[len] = '\n';
+               len++;
+       }
+
+       *lenp = len;
+       *ppos += len;
+
+       kfree(tmp);
+
+       return 0;
+}
+
 static struct ctl_table *
 sd_alloc_ctl_domain_table(struct sched_domain *sd)
 {
@@ -258,7 +312,7 @@ sd_alloc_ctl_domain_table(struct sched_domain *sd)
        set_table_entry(&table[2], "busy_factor",         &sd->busy_factor,         sizeof(int),  0644, proc_dointvec_minmax);
        set_table_entry(&table[3], "imbalance_pct",       &sd->imbalance_pct,       sizeof(int),  0644, proc_dointvec_minmax);
        set_table_entry(&table[4], "cache_nice_tries",    &sd->cache_nice_tries,    sizeof(int),  0644, proc_dointvec_minmax);
-       set_table_entry(&table[5], "flags",               &sd->flags,               sizeof(int),  0444, proc_dointvec_minmax);
+       set_table_entry(&table[5], "flags",               &sd->flags,               sizeof(int),  0444, sd_ctl_doflags);
        set_table_entry(&table[6], "max_newidle_lb_cost", &sd->max_newidle_lb_cost, sizeof(long), 0644, proc_doulongvec_minmax);
        set_table_entry(&table[7], "name",                sd->name,            CORENAME_MAX_SIZE, 0444, proc_dostring);
        /* &table[8] is terminator */
index 1a68a05..aa4c622 100644 (file)
@@ -831,7 +831,7 @@ void init_entity_runnable_average(struct sched_entity *se)
 void post_init_entity_util_avg(struct task_struct *p)
 {
 }
-static void update_tg_load_avg(struct cfs_rq *cfs_rq, int force)
+static void update_tg_load_avg(struct cfs_rq *cfs_rq)
 {
 }
 #endif /* CONFIG_SMP */
@@ -1504,6 +1504,7 @@ enum numa_type {
 /* Cached statistics for all CPUs within a node */
 struct numa_stats {
        unsigned long load;
+       unsigned long runnable;
        unsigned long util;
        /* Total compute capacity of CPUs on a node */
        unsigned long compute_capacity;
@@ -1547,19 +1548,22 @@ struct task_numa_env {
 };
 
 static unsigned long cpu_load(struct rq *rq);
+static unsigned long cpu_runnable(struct rq *rq);
 static unsigned long cpu_util(int cpu);
-static inline long adjust_numa_imbalance(int imbalance, int src_nr_running);
+static inline long adjust_numa_imbalance(int imbalance, int nr_running);
 
 static inline enum
 numa_type numa_classify(unsigned int imbalance_pct,
                         struct numa_stats *ns)
 {
        if ((ns->nr_running > ns->weight) &&
-           ((ns->compute_capacity * 100) < (ns->util * imbalance_pct)))
+           (((ns->compute_capacity * 100) < (ns->util * imbalance_pct)) ||
+            ((ns->compute_capacity * imbalance_pct) < (ns->runnable * 100))))
                return node_overloaded;
 
        if ((ns->nr_running < ns->weight) ||
-           ((ns->compute_capacity * 100) > (ns->util * imbalance_pct)))
+           (((ns->compute_capacity * 100) > (ns->util * imbalance_pct)) &&
+            ((ns->compute_capacity * imbalance_pct) > (ns->runnable * 100))))
                return node_has_spare;
 
        return node_fully_busy;
@@ -1610,6 +1614,7 @@ static void update_numa_stats(struct task_numa_env *env,
                struct rq *rq = cpu_rq(cpu);
 
                ns->load += cpu_load(rq);
+               ns->runnable += cpu_runnable(rq);
                ns->util += cpu_util(cpu);
                ns->nr_running += rq->cfs.h_nr_running;
                ns->compute_capacity += capacity_of(cpu);
@@ -1925,7 +1930,7 @@ static void task_numa_find_cpu(struct task_numa_env *env,
                src_running = env->src_stats.nr_running - 1;
                dst_running = env->dst_stats.nr_running + 1;
                imbalance = max(0, dst_running - src_running);
-               imbalance = adjust_numa_imbalance(imbalance, src_running);
+               imbalance = adjust_numa_imbalance(imbalance, dst_running);
 
                /* Use idle CPU if there is no imbalance */
                if (!imbalance) {
@@ -3084,7 +3089,7 @@ static void reweight_entity(struct cfs_rq *cfs_rq, struct sched_entity *se,
                /* commit outstanding execution time */
                if (cfs_rq->curr == se)
                        update_curr(cfs_rq);
-               account_entity_dequeue(cfs_rq, se);
+               update_load_sub(&cfs_rq->load, se->load.weight);
        }
        dequeue_load_avg(cfs_rq, se);
 
@@ -3100,7 +3105,7 @@ static void reweight_entity(struct cfs_rq *cfs_rq, struct sched_entity *se,
 
        enqueue_load_avg(cfs_rq, se);
        if (se->on_rq)
-               account_entity_enqueue(cfs_rq, se);
+               update_load_add(&cfs_rq->load, se->load.weight);
 
 }
 
@@ -3288,7 +3293,6 @@ static inline void cfs_rq_util_change(struct cfs_rq *cfs_rq, int flags)
 /**
  * update_tg_load_avg - update the tg's load avg
  * @cfs_rq: the cfs_rq whose avg changed
- * @force: update regardless of how small the difference
  *
  * This function 'ensures': tg->load_avg := \Sum tg->cfs_rq[]->avg.load.
  * However, because tg->load_avg is a global value there are performance
@@ -3300,7 +3304,7 @@ static inline void cfs_rq_util_change(struct cfs_rq *cfs_rq, int flags)
  *
  * Updating tg's load_avg is necessary before update_cfs_share().
  */
-static inline void update_tg_load_avg(struct cfs_rq *cfs_rq, int force)
+static inline void update_tg_load_avg(struct cfs_rq *cfs_rq)
 {
        long delta = cfs_rq->avg.load_avg - cfs_rq->tg_load_avg_contrib;
 
@@ -3310,7 +3314,7 @@ static inline void update_tg_load_avg(struct cfs_rq *cfs_rq, int force)
        if (cfs_rq->tg == &root_task_group)
                return;
 
-       if (force || abs(delta) > cfs_rq->tg_load_avg_contrib / 64) {
+       if (abs(delta) > cfs_rq->tg_load_avg_contrib / 64) {
                atomic_long_add(delta, &cfs_rq->tg->load_avg);
                cfs_rq->tg_load_avg_contrib = cfs_rq->avg.load_avg;
        }
@@ -3612,7 +3616,7 @@ static inline bool skip_blocked_update(struct sched_entity *se)
 
 #else /* CONFIG_FAIR_GROUP_SCHED */
 
-static inline void update_tg_load_avg(struct cfs_rq *cfs_rq, int force) {}
+static inline void update_tg_load_avg(struct cfs_rq *cfs_rq) {}
 
 static inline int propagate_entity_load_avg(struct sched_entity *se)
 {
@@ -3800,13 +3804,13 @@ static inline void update_load_avg(struct cfs_rq *cfs_rq, struct sched_entity *s
                 * IOW we're enqueueing a task on a new CPU.
                 */
                attach_entity_load_avg(cfs_rq, se);
-               update_tg_load_avg(cfs_rq, 0);
+               update_tg_load_avg(cfs_rq);
 
        } else if (decayed) {
                cfs_rq_util_change(cfs_rq, 0);
 
                if (flags & UPDATE_TG)
-                       update_tg_load_avg(cfs_rq, 0);
+                       update_tg_load_avg(cfs_rq);
        }
 }
 
@@ -4461,17 +4465,17 @@ pick_next_entity(struct cfs_rq *cfs_rq, struct sched_entity *curr)
                        se = second;
        }
 
-       /*
-        * Prefer last buddy, try to return the CPU to a preempted task.
-        */
-       if (cfs_rq->last && wakeup_preempt_entity(cfs_rq->last, left) < 1)
-               se = cfs_rq->last;
-
-       /*
-        * Someone really wants this to run. If it's not unfair, run it.
-        */
-       if (cfs_rq->next && wakeup_preempt_entity(cfs_rq->next, left) < 1)
+       if (cfs_rq->next && wakeup_preempt_entity(cfs_rq->next, left) < 1) {
+               /*
+                * Someone really wants this to run. If it's not unfair, run it.
+                */
                se = cfs_rq->next;
+       } else if (cfs_rq->last && wakeup_preempt_entity(cfs_rq->last, left) < 1) {
+               /*
+                * Prefer last buddy, try to return the CPU to a preempted task.
+                */
+               se = cfs_rq->last;
+       }
 
        clear_buddies(cfs_rq, se);
 
@@ -6075,7 +6079,7 @@ static int select_idle_core(struct task_struct *p, struct sched_domain *sd, int
 /*
  * Scan the local SMT mask for idle CPUs.
  */
-static int select_idle_smt(struct task_struct *p, int target)
+static int select_idle_smt(struct task_struct *p, struct sched_domain *sd, int target)
 {
        int cpu;
 
@@ -6083,7 +6087,8 @@ static int select_idle_smt(struct task_struct *p, int target)
                return -1;
 
        for_each_cpu(cpu, cpu_smt_mask(target)) {
-               if (!cpumask_test_cpu(cpu, p->cpus_ptr))
+               if (!cpumask_test_cpu(cpu, p->cpus_ptr) ||
+                   !cpumask_test_cpu(cpu, sched_domain_span(sd)))
                        continue;
                if (available_idle_cpu(cpu) || sched_idle_cpu(cpu))
                        return cpu;
@@ -6099,7 +6104,7 @@ static inline int select_idle_core(struct task_struct *p, struct sched_domain *s
        return -1;
 }
 
-static inline int select_idle_smt(struct task_struct *p, int target)
+static inline int select_idle_smt(struct task_struct *p, struct sched_domain *sd, int target)
 {
        return -1;
 }
@@ -6274,7 +6279,7 @@ symmetric:
        if ((unsigned)i < nr_cpumask_bits)
                return i;
 
-       i = select_idle_smt(p, target);
+       i = select_idle_smt(p, sd, target);
        if ((unsigned)i < nr_cpumask_bits)
                return i;
 
@@ -6594,7 +6599,8 @@ static int find_energy_efficient_cpu(struct task_struct *p, int prev_cpu)
 
                        util = cpu_util_next(cpu, p, cpu);
                        cpu_cap = capacity_of(cpu);
-                       spare_cap = cpu_cap - util;
+                       spare_cap = cpu_cap;
+                       lsub_positive(&spare_cap, util);
 
                        /*
                         * Skip CPUs that cannot satisfy the capacity request.
@@ -7402,6 +7408,10 @@ static int task_hot(struct task_struct *p, struct lb_env *env)
        if (unlikely(task_has_idle_policy(p)))
                return 0;
 
+       /* SMT siblings share cache */
+       if (env->sd->flags & SD_SHARE_CPUCAPACITY)
+               return 0;
+
        /*
         * Buddy candidates are cache hot:
         */
@@ -7669,8 +7679,8 @@ static int detach_tasks(struct lb_env *env)
                         * scheduler fails to find a good waiting task to
                         * migrate.
                         */
-                       if (load/2 > env->imbalance &&
-                           env->sd->nr_balance_failed <= env->sd->cache_nice_tries)
+
+                       if ((load >> env->sd->nr_balance_failed) > env->imbalance)
                                goto next;
 
                        env->imbalance -= load;
@@ -7887,7 +7897,7 @@ static bool __update_blocked_fair(struct rq *rq, bool *done)
                struct sched_entity *se;
 
                if (update_cfs_rq_load_avg(cfs_rq_clock_pelt(cfs_rq), cfs_rq)) {
-                       update_tg_load_avg(cfs_rq, 0);
+                       update_tg_load_avg(cfs_rq);
 
                        if (cfs_rq == &rq->cfs)
                                decayed = true;
@@ -8098,6 +8108,8 @@ static void update_cpu_capacity(struct sched_domain *sd, int cpu)
                capacity = 1;
 
        cpu_rq(cpu)->cpu_capacity = capacity;
+       trace_sched_cpu_capacity_tp(cpu_rq(cpu));
+
        sdg->sgc->capacity = capacity;
        sdg->sgc->min_capacity = capacity;
        sdg->sgc->max_capacity = capacity;
@@ -8957,7 +8969,7 @@ next_group:
        }
 }
 
-static inline long adjust_numa_imbalance(int imbalance, int src_nr_running)
+static inline long adjust_numa_imbalance(int imbalance, int nr_running)
 {
        unsigned int imbalance_min;
 
@@ -8966,7 +8978,7 @@ static inline long adjust_numa_imbalance(int imbalance, int src_nr_running)
         * tasks that remain local when the source domain is almost idle.
         */
        imbalance_min = 2;
-       if (src_nr_running <= imbalance_min)
+       if (nr_running <= imbalance_min)
                return 0;
 
        return imbalance;
@@ -9780,6 +9792,15 @@ get_sd_balance_interval(struct sched_domain *sd, int cpu_busy)
 
        /* scale ms to jiffies */
        interval = msecs_to_jiffies(interval);
+
+       /*
+        * Reduce likelihood of busy balancing at higher domains racing with
+        * balancing at lower domains by preventing their balancing periods
+        * from being multiples of each other.
+        */
+       if (cpu_busy)
+               interval -= 1;
+
        interval = clamp(interval, 1UL, max_load_balance_interval);
 
        return interval;
@@ -10786,7 +10807,7 @@ static void detach_entity_cfs_rq(struct sched_entity *se)
        /* Catch up with the cfs_rq and remove our load when we leave */
        update_load_avg(cfs_rq, se, 0);
        detach_entity_load_avg(cfs_rq, se);
-       update_tg_load_avg(cfs_rq, false);
+       update_tg_load_avg(cfs_rq);
        propagate_entity_cfs_rq(se);
 }
 
@@ -10805,7 +10826,7 @@ static void attach_entity_cfs_rq(struct sched_entity *se)
        /* Synchronize entity with its cfs_rq */
        update_load_avg(cfs_rq, se, sched_feat(ATTACH_AGE_LOAD) ? 0 : SKIP_AGE_LOAD);
        attach_entity_load_avg(cfs_rq, se);
-       update_tg_load_avg(cfs_rq, false);
+       update_tg_load_avg(cfs_rq);
        propagate_entity_cfs_rq(se);
 }
 
@@ -11302,6 +11323,18 @@ int sched_trace_rq_cpu(struct rq *rq)
 }
 EXPORT_SYMBOL_GPL(sched_trace_rq_cpu);
 
+int sched_trace_rq_cpu_capacity(struct rq *rq)
+{
+       return rq ?
+#ifdef CONFIG_SMP
+               rq->cpu_capacity
+#else
+               SCHED_CAPACITY_SCALE
+#endif
+               : -1;
+}
+EXPORT_SYMBOL_GPL(sched_trace_rq_cpu_capacity);
+
 const struct cpumask *sched_trace_rd_span(struct root_domain *rd)
 {
 #ifdef CONFIG_SMP
index 7481cd9..68d369c 100644 (file)
@@ -77,7 +77,7 @@ SCHED_FEAT(WARN_DOUBLE_CLOCK, false)
 SCHED_FEAT(RT_PUSH_IPI, true)
 #endif
 
-SCHED_FEAT(RT_RUNTIME_SHARE, true)
+SCHED_FEAT(RT_RUNTIME_SHARE, false)
 SCHED_FEAT(LB_MIN, false)
 SCHED_FEAT(ATTACH_AGE_LOAD, true)
 
index 168479a..e23e74d 100644 (file)
 #define MEMBARRIER_PRIVATE_EXPEDITED_SYNC_CORE_BITMASK 0
 #endif
 
+#ifdef CONFIG_RSEQ
+#define MEMBARRIER_CMD_PRIVATE_EXPEDITED_RSEQ_BITMASK          \
+       (MEMBARRIER_CMD_PRIVATE_EXPEDITED_RSEQ                  \
+       | MEMBARRIER_CMD_REGISTER_PRIVATE_EXPEDITED_RSEQ_BITMASK)
+#else
+#define MEMBARRIER_CMD_PRIVATE_EXPEDITED_RSEQ_BITMASK  0
+#endif
+
 #define MEMBARRIER_CMD_BITMASK                                         \
        (MEMBARRIER_CMD_GLOBAL | MEMBARRIER_CMD_GLOBAL_EXPEDITED        \
        | MEMBARRIER_CMD_REGISTER_GLOBAL_EXPEDITED                      \
@@ -30,6 +38,11 @@ static void ipi_mb(void *info)
        smp_mb();       /* IPIs should be serializing but paranoid. */
 }
 
+static void ipi_rseq(void *info)
+{
+       rseq_preempt(current);
+}
+
 static void ipi_sync_rq_state(void *info)
 {
        struct mm_struct *mm = (struct mm_struct *) info;
@@ -129,19 +142,27 @@ static int membarrier_global_expedited(void)
        return 0;
 }
 
-static int membarrier_private_expedited(int flags)
+static int membarrier_private_expedited(int flags, int cpu_id)
 {
-       int cpu;
        cpumask_var_t tmpmask;
        struct mm_struct *mm = current->mm;
+       smp_call_func_t ipi_func = ipi_mb;
 
-       if (flags & MEMBARRIER_FLAG_SYNC_CORE) {
+       if (flags == MEMBARRIER_FLAG_SYNC_CORE) {
                if (!IS_ENABLED(CONFIG_ARCH_HAS_MEMBARRIER_SYNC_CORE))
                        return -EINVAL;
                if (!(atomic_read(&mm->membarrier_state) &
                      MEMBARRIER_STATE_PRIVATE_EXPEDITED_SYNC_CORE_READY))
                        return -EPERM;
+       } else if (flags == MEMBARRIER_FLAG_RSEQ) {
+               if (!IS_ENABLED(CONFIG_RSEQ))
+                       return -EINVAL;
+               if (!(atomic_read(&mm->membarrier_state) &
+                     MEMBARRIER_STATE_PRIVATE_EXPEDITED_RSEQ_READY))
+                       return -EPERM;
+               ipi_func = ipi_rseq;
        } else {
+               WARN_ON_ONCE(flags);
                if (!(atomic_read(&mm->membarrier_state) &
                      MEMBARRIER_STATE_PRIVATE_EXPEDITED_READY))
                        return -EPERM;
@@ -156,35 +177,59 @@ static int membarrier_private_expedited(int flags)
         */
        smp_mb();       /* system call entry is not a mb. */
 
-       if (!zalloc_cpumask_var(&tmpmask, GFP_KERNEL))
+       if (cpu_id < 0 && !zalloc_cpumask_var(&tmpmask, GFP_KERNEL))
                return -ENOMEM;
 
        cpus_read_lock();
-       rcu_read_lock();
-       for_each_online_cpu(cpu) {
+
+       if (cpu_id >= 0) {
                struct task_struct *p;
 
-               /*
-                * Skipping the current CPU is OK even through we can be
-                * migrated at any point. The current CPU, at the point
-                * where we read raw_smp_processor_id(), is ensured to
-                * be in program order with respect to the caller
-                * thread. Therefore, we can skip this CPU from the
-                * iteration.
-                */
-               if (cpu == raw_smp_processor_id())
-                       continue;
-               p = rcu_dereference(cpu_rq(cpu)->curr);
-               if (p && p->mm == mm)
-                       __cpumask_set_cpu(cpu, tmpmask);
+               if (cpu_id >= nr_cpu_ids || !cpu_online(cpu_id))
+                       goto out;
+               if (cpu_id == raw_smp_processor_id())
+                       goto out;
+               rcu_read_lock();
+               p = rcu_dereference(cpu_rq(cpu_id)->curr);
+               if (!p || p->mm != mm) {
+                       rcu_read_unlock();
+                       goto out;
+               }
+               rcu_read_unlock();
+       } else {
+               int cpu;
+
+               rcu_read_lock();
+               for_each_online_cpu(cpu) {
+                       struct task_struct *p;
+
+                       /*
+                        * Skipping the current CPU is OK even through we can be
+                        * migrated at any point. The current CPU, at the point
+                        * where we read raw_smp_processor_id(), is ensured to
+                        * be in program order with respect to the caller
+                        * thread. Therefore, we can skip this CPU from the
+                        * iteration.
+                        */
+                       if (cpu == raw_smp_processor_id())
+                               continue;
+                       p = rcu_dereference(cpu_rq(cpu)->curr);
+                       if (p && p->mm == mm)
+                               __cpumask_set_cpu(cpu, tmpmask);
+               }
+               rcu_read_unlock();
        }
-       rcu_read_unlock();
 
        preempt_disable();
-       smp_call_function_many(tmpmask, ipi_mb, NULL, 1);
+       if (cpu_id >= 0)
+               smp_call_function_single(cpu_id, ipi_func, NULL, 1);
+       else
+               smp_call_function_many(tmpmask, ipi_func, NULL, 1);
        preempt_enable();
 
-       free_cpumask_var(tmpmask);
+out:
+       if (cpu_id < 0)
+               free_cpumask_var(tmpmask);
        cpus_read_unlock();
 
        /*
@@ -283,11 +328,18 @@ static int membarrier_register_private_expedited(int flags)
            set_state = MEMBARRIER_STATE_PRIVATE_EXPEDITED,
            ret;
 
-       if (flags & MEMBARRIER_FLAG_SYNC_CORE) {
+       if (flags == MEMBARRIER_FLAG_SYNC_CORE) {
                if (!IS_ENABLED(CONFIG_ARCH_HAS_MEMBARRIER_SYNC_CORE))
                        return -EINVAL;
                ready_state =
                        MEMBARRIER_STATE_PRIVATE_EXPEDITED_SYNC_CORE_READY;
+       } else if (flags == MEMBARRIER_FLAG_RSEQ) {
+               if (!IS_ENABLED(CONFIG_RSEQ))
+                       return -EINVAL;
+               ready_state =
+                       MEMBARRIER_STATE_PRIVATE_EXPEDITED_RSEQ_READY;
+       } else {
+               WARN_ON_ONCE(flags);
        }
 
        /*
@@ -299,6 +351,8 @@ static int membarrier_register_private_expedited(int flags)
                return 0;
        if (flags & MEMBARRIER_FLAG_SYNC_CORE)
                set_state |= MEMBARRIER_STATE_PRIVATE_EXPEDITED_SYNC_CORE;
+       if (flags & MEMBARRIER_FLAG_RSEQ)
+               set_state |= MEMBARRIER_STATE_PRIVATE_EXPEDITED_RSEQ;
        atomic_or(set_state, &mm->membarrier_state);
        ret = sync_runqueues_membarrier_state(mm);
        if (ret)
@@ -310,8 +364,15 @@ static int membarrier_register_private_expedited(int flags)
 
 /**
  * sys_membarrier - issue memory barriers on a set of threads
- * @cmd:   Takes command values defined in enum membarrier_cmd.
- * @flags: Currently needs to be 0. For future extensions.
+ * @cmd:    Takes command values defined in enum membarrier_cmd.
+ * @flags:  Currently needs to be 0 for all commands other than
+ *          MEMBARRIER_CMD_PRIVATE_EXPEDITED_RSEQ: in the latter
+ *          case it can be MEMBARRIER_CMD_FLAG_CPU, indicating that @cpu_id
+ *          contains the CPU on which to interrupt (= restart)
+ *          the RSEQ critical section.
+ * @cpu_id: if @flags == MEMBARRIER_CMD_FLAG_CPU, indicates the cpu on which
+ *          RSEQ CS should be interrupted (@cmd must be
+ *          MEMBARRIER_CMD_PRIVATE_EXPEDITED_RSEQ).
  *
  * If this system call is not implemented, -ENOSYS is returned. If the
  * command specified does not exist, not available on the running
@@ -337,10 +398,21 @@ static int membarrier_register_private_expedited(int flags)
  *        smp_mb()           X           O            O
  *        sys_membarrier()   O           O            O
  */
-SYSCALL_DEFINE2(membarrier, int, cmd, int, flags)
+SYSCALL_DEFINE3(membarrier, int, cmd, unsigned int, flags, int, cpu_id)
 {
-       if (unlikely(flags))
-               return -EINVAL;
+       switch (cmd) {
+       case MEMBARRIER_CMD_PRIVATE_EXPEDITED_RSEQ:
+               if (unlikely(flags && flags != MEMBARRIER_CMD_FLAG_CPU))
+                       return -EINVAL;
+               break;
+       default:
+               if (unlikely(flags))
+                       return -EINVAL;
+       }
+
+       if (!(flags & MEMBARRIER_CMD_FLAG_CPU))
+               cpu_id = -1;
+
        switch (cmd) {
        case MEMBARRIER_CMD_QUERY:
        {
@@ -362,13 +434,17 @@ SYSCALL_DEFINE2(membarrier, int, cmd, int, flags)
        case MEMBARRIER_CMD_REGISTER_GLOBAL_EXPEDITED:
                return membarrier_register_global_expedited();
        case MEMBARRIER_CMD_PRIVATE_EXPEDITED:
-               return membarrier_private_expedited(0);
+               return membarrier_private_expedited(0, cpu_id);
        case MEMBARRIER_CMD_REGISTER_PRIVATE_EXPEDITED:
                return membarrier_register_private_expedited(0);
        case MEMBARRIER_CMD_PRIVATE_EXPEDITED_SYNC_CORE:
-               return membarrier_private_expedited(MEMBARRIER_FLAG_SYNC_CORE);
+               return membarrier_private_expedited(MEMBARRIER_FLAG_SYNC_CORE, cpu_id);
        case MEMBARRIER_CMD_REGISTER_PRIVATE_EXPEDITED_SYNC_CORE:
                return membarrier_register_private_expedited(MEMBARRIER_FLAG_SYNC_CORE);
+       case MEMBARRIER_CMD_PRIVATE_EXPEDITED_RSEQ:
+               return membarrier_private_expedited(MEMBARRIER_FLAG_RSEQ, cpu_id);
+       case MEMBARRIER_CMD_REGISTER_PRIVATE_EXPEDITED_RSEQ:
+               return membarrier_register_private_expedited(MEMBARRIER_FLAG_RSEQ);
        default:
                return -EINVAL;
        }
index 1bd7e3a..dd77702 100644 (file)
@@ -25,10 +25,18 @@ static inline bool sched_debug(void)
        return sched_debug_enabled;
 }
 
+#define SD_FLAG(_name, mflags) [__##_name] = { .meta_flags = mflags, .name = #_name },
+const struct sd_flag_debug sd_flag_debug[] = {
+#include <linux/sched/sd_flags.h>
+};
+#undef SD_FLAG
+
 static int sched_domain_debug_one(struct sched_domain *sd, int cpu, int level,
                                  struct cpumask *groupmask)
 {
        struct sched_group *group = sd->groups;
+       unsigned long flags = sd->flags;
+       unsigned int idx;
 
        cpumask_clear(groupmask);
 
@@ -43,6 +51,21 @@ static int sched_domain_debug_one(struct sched_domain *sd, int cpu, int level,
                printk(KERN_ERR "ERROR: domain->groups does not contain CPU%d\n", cpu);
        }
 
+       for_each_set_bit(idx, &flags, __SD_FLAG_CNT) {
+               unsigned int flag = BIT(idx);
+               unsigned int meta_flags = sd_flag_debug[idx].meta_flags;
+
+               if ((meta_flags & SDF_SHARED_CHILD) && sd->child &&
+                   !(sd->child->flags & flag))
+                       printk(KERN_ERR "ERROR: flag %s set here but not in child\n",
+                              sd_flag_debug[idx].name);
+
+               if ((meta_flags & SDF_SHARED_PARENT) && sd->parent &&
+                   !(sd->parent->flags & flag))
+                       printk(KERN_ERR "ERROR: flag %s set here but not in parent\n",
+                              sd_flag_debug[idx].name);
+       }
+
        printk(KERN_DEBUG "%*s groups:", level + 1, "");
        do {
                if (!group) {
@@ -137,22 +160,22 @@ static inline bool sched_debug(void)
 }
 #endif /* CONFIG_SCHED_DEBUG */
 
+/* Generate a mask of SD flags with the SDF_NEEDS_GROUPS metaflag */
+#define SD_FLAG(name, mflags) (name * !!((mflags) & SDF_NEEDS_GROUPS)) |
+static const unsigned int SD_DEGENERATE_GROUPS_MASK =
+#include <linux/sched/sd_flags.h>
+0;
+#undef SD_FLAG
+
 static int sd_degenerate(struct sched_domain *sd)
 {
        if (cpumask_weight(sched_domain_span(sd)) == 1)
                return 1;
 
        /* Following flags need at least 2 groups */
-       if (sd->flags & (SD_BALANCE_NEWIDLE |
-                        SD_BALANCE_FORK |
-                        SD_BALANCE_EXEC |
-                        SD_SHARE_CPUCAPACITY |
-                        SD_ASYM_CPUCAPACITY |
-                        SD_SHARE_PKG_RESOURCES |
-                        SD_SHARE_POWERDOMAIN)) {
-               if (sd->groups != sd->groups->next)
-                       return 0;
-       }
+       if ((sd->flags & SD_DEGENERATE_GROUPS_MASK) &&
+           (sd->groups != sd->groups->next))
+               return 0;
 
        /* Following flags don't use groups */
        if (sd->flags & (SD_WAKE_AFFINE))
@@ -173,18 +196,9 @@ sd_parent_degenerate(struct sched_domain *sd, struct sched_domain *parent)
                return 0;
 
        /* Flags needing groups don't count if only 1 group in parent */
-       if (parent->groups == parent->groups->next) {
-               pflags &= ~(SD_BALANCE_NEWIDLE |
-                           SD_BALANCE_FORK |
-                           SD_BALANCE_EXEC |
-                           SD_ASYM_CPUCAPACITY |
-                           SD_SHARE_CPUCAPACITY |
-                           SD_SHARE_PKG_RESOURCES |
-                           SD_PREFER_SIBLING |
-                           SD_SHARE_POWERDOMAIN);
-               if (nr_node_ids == 1)
-                       pflags &= ~SD_SERIALIZE;
-       }
+       if (parent->groups == parent->groups->next)
+               pflags &= ~SD_DEGENERATE_GROUPS_MASK;
+
        if (~cflags & pflags)
                return 0;
 
@@ -1292,7 +1306,6 @@ int __read_mostly         node_reclaim_distance = RECLAIM_DISTANCE;
  *   SD_SHARE_CPUCAPACITY   - describes SMT topologies
  *   SD_SHARE_PKG_RESOURCES - describes shared caches
  *   SD_NUMA                - describes NUMA topologies
- *   SD_SHARE_POWERDOMAIN   - describes shared power domain
  *
  * Odd one out, which beside describing the topology has a quirk also
  * prescribes the desired behaviour that goes along with it:
@@ -1303,8 +1316,7 @@ int __read_mostly         node_reclaim_distance = RECLAIM_DISTANCE;
        (SD_SHARE_CPUCAPACITY   |       \
         SD_SHARE_PKG_RESOURCES |       \
         SD_NUMA                |       \
-        SD_ASYM_PACKING        |       \
-        SD_SHARE_POWERDOMAIN)
+        SD_ASYM_PACKING)
 
 static struct sched_domain *
 sd_init(struct sched_domain_topology_level *tl,
@@ -1336,8 +1348,8 @@ sd_init(struct sched_domain_topology_level *tl,
        *sd = (struct sched_domain){
                .min_interval           = sd_weight,
                .max_interval           = 2*sd_weight,
-               .busy_factor            = 32,
-               .imbalance_pct          = 125,
+               .busy_factor            = 16,
+               .imbalance_pct          = 117,
 
                .cache_nice_tries       = 0,
 
@@ -1989,11 +2001,10 @@ build_sched_domains(const struct cpumask *cpu_map, struct sched_domain_attr *att
        /* Set up domains for CPUs specified by the cpu_map: */
        for_each_cpu(i, cpu_map) {
                struct sched_domain_topology_level *tl;
+               int dflags = 0;
 
                sd = NULL;
                for_each_sd_topology(tl) {
-                       int dflags = 0;
-
                        if (tl == tl_asym) {
                                dflags |= SD_ASYM_CPUCAPACITY;
                                has_asym = true;
index bf88d7f..09229ad 100644 (file)
@@ -481,6 +481,7 @@ void raise_softirq(unsigned int nr)
 
 void __raise_softirq_irqoff(unsigned int nr)
 {
+       lockdep_assert_irqs_disabled();
        trace_softirq_raise(nr);
        or_softirq_pending(1UL << nr);
 }
index 946f44a..9f8117c 100644 (file)
@@ -78,8 +78,7 @@ struct stacktrace_cookie {
        unsigned int    len;
 };
 
-static bool stack_trace_consume_entry(void *cookie, unsigned long addr,
-                                     bool reliable)
+static bool stack_trace_consume_entry(void *cookie, unsigned long addr)
 {
        struct stacktrace_cookie *c = cookie;
 
@@ -94,12 +93,11 @@ static bool stack_trace_consume_entry(void *cookie, unsigned long addr,
        return c->len < c->size;
 }
 
-static bool stack_trace_consume_entry_nosched(void *cookie, unsigned long addr,
-                                             bool reliable)
+static bool stack_trace_consume_entry_nosched(void *cookie, unsigned long addr)
 {
        if (in_sched_functions(addr))
                return true;
-       return stack_trace_consume_entry(cookie, addr, reliable);
+       return stack_trace_consume_entry(cookie, addr);
 }
 
 /**
diff --git a/kernel/static_call.c b/kernel/static_call.c
new file mode 100644 (file)
index 0000000..84565c2
--- /dev/null
@@ -0,0 +1,482 @@
+// SPDX-License-Identifier: GPL-2.0
+#include <linux/init.h>
+#include <linux/static_call.h>
+#include <linux/bug.h>
+#include <linux/smp.h>
+#include <linux/sort.h>
+#include <linux/slab.h>
+#include <linux/module.h>
+#include <linux/cpu.h>
+#include <linux/processor.h>
+#include <asm/sections.h>
+
+extern struct static_call_site __start_static_call_sites[],
+                              __stop_static_call_sites[];
+
+static bool static_call_initialized;
+
+/* mutex to protect key modules/sites */
+static DEFINE_MUTEX(static_call_mutex);
+
+static void static_call_lock(void)
+{
+       mutex_lock(&static_call_mutex);
+}
+
+static void static_call_unlock(void)
+{
+       mutex_unlock(&static_call_mutex);
+}
+
+static inline void *static_call_addr(struct static_call_site *site)
+{
+       return (void *)((long)site->addr + (long)&site->addr);
+}
+
+
+static inline struct static_call_key *static_call_key(const struct static_call_site *site)
+{
+       return (struct static_call_key *)
+               (((long)site->key + (long)&site->key) & ~STATIC_CALL_SITE_FLAGS);
+}
+
+/* These assume the key is word-aligned. */
+static inline bool static_call_is_init(struct static_call_site *site)
+{
+       return ((long)site->key + (long)&site->key) & STATIC_CALL_SITE_INIT;
+}
+
+static inline bool static_call_is_tail(struct static_call_site *site)
+{
+       return ((long)site->key + (long)&site->key) & STATIC_CALL_SITE_TAIL;
+}
+
+static inline void static_call_set_init(struct static_call_site *site)
+{
+       site->key = ((long)static_call_key(site) | STATIC_CALL_SITE_INIT) -
+                   (long)&site->key;
+}
+
+static int static_call_site_cmp(const void *_a, const void *_b)
+{
+       const struct static_call_site *a = _a;
+       const struct static_call_site *b = _b;
+       const struct static_call_key *key_a = static_call_key(a);
+       const struct static_call_key *key_b = static_call_key(b);
+
+       if (key_a < key_b)
+               return -1;
+
+       if (key_a > key_b)
+               return 1;
+
+       return 0;
+}
+
+static void static_call_site_swap(void *_a, void *_b, int size)
+{
+       long delta = (unsigned long)_a - (unsigned long)_b;
+       struct static_call_site *a = _a;
+       struct static_call_site *b = _b;
+       struct static_call_site tmp = *a;
+
+       a->addr = b->addr  - delta;
+       a->key  = b->key   - delta;
+
+       b->addr = tmp.addr + delta;
+       b->key  = tmp.key  + delta;
+}
+
+static inline void static_call_sort_entries(struct static_call_site *start,
+                                           struct static_call_site *stop)
+{
+       sort(start, stop - start, sizeof(struct static_call_site),
+            static_call_site_cmp, static_call_site_swap);
+}
+
+static inline bool static_call_key_has_mods(struct static_call_key *key)
+{
+       return !(key->type & 1);
+}
+
+static inline struct static_call_mod *static_call_key_next(struct static_call_key *key)
+{
+       if (!static_call_key_has_mods(key))
+               return NULL;
+
+       return key->mods;
+}
+
+static inline struct static_call_site *static_call_key_sites(struct static_call_key *key)
+{
+       if (static_call_key_has_mods(key))
+               return NULL;
+
+       return (struct static_call_site *)(key->type & ~1);
+}
+
+void __static_call_update(struct static_call_key *key, void *tramp, void *func)
+{
+       struct static_call_site *site, *stop;
+       struct static_call_mod *site_mod, first;
+
+       cpus_read_lock();
+       static_call_lock();
+
+       if (key->func == func)
+               goto done;
+
+       key->func = func;
+
+       arch_static_call_transform(NULL, tramp, func, false);
+
+       /*
+        * If uninitialized, we'll not update the callsites, but they still
+        * point to the trampoline and we just patched that.
+        */
+       if (WARN_ON_ONCE(!static_call_initialized))
+               goto done;
+
+       first = (struct static_call_mod){
+               .next = static_call_key_next(key),
+               .mod = NULL,
+               .sites = static_call_key_sites(key),
+       };
+
+       for (site_mod = &first; site_mod; site_mod = site_mod->next) {
+               struct module *mod = site_mod->mod;
+
+               if (!site_mod->sites) {
+                       /*
+                        * This can happen if the static call key is defined in
+                        * a module which doesn't use it.
+                        *
+                        * It also happens in the has_mods case, where the
+                        * 'first' entry has no sites associated with it.
+                        */
+                       continue;
+               }
+
+               stop = __stop_static_call_sites;
+
+#ifdef CONFIG_MODULES
+               if (mod) {
+                       stop = mod->static_call_sites +
+                              mod->num_static_call_sites;
+               }
+#endif
+
+               for (site = site_mod->sites;
+                    site < stop && static_call_key(site) == key; site++) {
+                       void *site_addr = static_call_addr(site);
+
+                       if (static_call_is_init(site)) {
+                               /*
+                                * Don't write to call sites which were in
+                                * initmem and have since been freed.
+                                */
+                               if (!mod && system_state >= SYSTEM_RUNNING)
+                                       continue;
+                               if (mod && !within_module_init((unsigned long)site_addr, mod))
+                                       continue;
+                       }
+
+                       if (!kernel_text_address((unsigned long)site_addr)) {
+                               WARN_ONCE(1, "can't patch static call site at %pS",
+                                         site_addr);
+                               continue;
+                       }
+
+                       arch_static_call_transform(site_addr, NULL, func,
+                               static_call_is_tail(site));
+               }
+       }
+
+done:
+       static_call_unlock();
+       cpus_read_unlock();
+}
+EXPORT_SYMBOL_GPL(__static_call_update);
+
+static int __static_call_init(struct module *mod,
+                             struct static_call_site *start,
+                             struct static_call_site *stop)
+{
+       struct static_call_site *site;
+       struct static_call_key *key, *prev_key = NULL;
+       struct static_call_mod *site_mod;
+
+       if (start == stop)
+               return 0;
+
+       static_call_sort_entries(start, stop);
+
+       for (site = start; site < stop; site++) {
+               void *site_addr = static_call_addr(site);
+
+               if ((mod && within_module_init((unsigned long)site_addr, mod)) ||
+                   (!mod && init_section_contains(site_addr, 1)))
+                       static_call_set_init(site);
+
+               key = static_call_key(site);
+               if (key != prev_key) {
+                       prev_key = key;
+
+                       /*
+                        * For vmlinux (!mod) avoid the allocation by storing
+                        * the sites pointer in the key itself. Also see
+                        * __static_call_update()'s @first.
+                        *
+                        * This allows architectures (eg. x86) to call
+                        * static_call_init() before memory allocation works.
+                        */
+                       if (!mod) {
+                               key->sites = site;
+                               key->type |= 1;
+                               goto do_transform;
+                       }
+
+                       site_mod = kzalloc(sizeof(*site_mod), GFP_KERNEL);
+                       if (!site_mod)
+                               return -ENOMEM;
+
+                       /*
+                        * When the key has a direct sites pointer, extract
+                        * that into an explicit struct static_call_mod, so we
+                        * can have a list of modules.
+                        */
+                       if (static_call_key_sites(key)) {
+                               site_mod->mod = NULL;
+                               site_mod->next = NULL;
+                               site_mod->sites = static_call_key_sites(key);
+
+                               key->mods = site_mod;
+
+                               site_mod = kzalloc(sizeof(*site_mod), GFP_KERNEL);
+                               if (!site_mod)
+                                       return -ENOMEM;
+                       }
+
+                       site_mod->mod = mod;
+                       site_mod->sites = site;
+                       site_mod->next = static_call_key_next(key);
+                       key->mods = site_mod;
+               }
+
+do_transform:
+               arch_static_call_transform(site_addr, NULL, key->func,
+                               static_call_is_tail(site));
+       }
+
+       return 0;
+}
+
+static int addr_conflict(struct static_call_site *site, void *start, void *end)
+{
+       unsigned long addr = (unsigned long)static_call_addr(site);
+
+       if (addr <= (unsigned long)end &&
+           addr + CALL_INSN_SIZE > (unsigned long)start)
+               return 1;
+
+       return 0;
+}
+
+static int __static_call_text_reserved(struct static_call_site *iter_start,
+                                      struct static_call_site *iter_stop,
+                                      void *start, void *end)
+{
+       struct static_call_site *iter = iter_start;
+
+       while (iter < iter_stop) {
+               if (addr_conflict(iter, start, end))
+                       return 1;
+               iter++;
+       }
+
+       return 0;
+}
+
+#ifdef CONFIG_MODULES
+
+static int __static_call_mod_text_reserved(void *start, void *end)
+{
+       struct module *mod;
+       int ret;
+
+       preempt_disable();
+       mod = __module_text_address((unsigned long)start);
+       WARN_ON_ONCE(__module_text_address((unsigned long)end) != mod);
+       if (!try_module_get(mod))
+               mod = NULL;
+       preempt_enable();
+
+       if (!mod)
+               return 0;
+
+       ret = __static_call_text_reserved(mod->static_call_sites,
+                       mod->static_call_sites + mod->num_static_call_sites,
+                       start, end);
+
+       module_put(mod);
+
+       return ret;
+}
+
+static int static_call_add_module(struct module *mod)
+{
+       return __static_call_init(mod, mod->static_call_sites,
+                                 mod->static_call_sites + mod->num_static_call_sites);
+}
+
+static void static_call_del_module(struct module *mod)
+{
+       struct static_call_site *start = mod->static_call_sites;
+       struct static_call_site *stop = mod->static_call_sites +
+                                       mod->num_static_call_sites;
+       struct static_call_key *key, *prev_key = NULL;
+       struct static_call_mod *site_mod, **prev;
+       struct static_call_site *site;
+
+       for (site = start; site < stop; site++) {
+               key = static_call_key(site);
+               if (key == prev_key)
+                       continue;
+
+               prev_key = key;
+
+               for (prev = &key->mods, site_mod = key->mods;
+                    site_mod && site_mod->mod != mod;
+                    prev = &site_mod->next, site_mod = site_mod->next)
+                       ;
+
+               if (!site_mod)
+                       continue;
+
+               *prev = site_mod->next;
+               kfree(site_mod);
+       }
+}
+
+static int static_call_module_notify(struct notifier_block *nb,
+                                    unsigned long val, void *data)
+{
+       struct module *mod = data;
+       int ret = 0;
+
+       cpus_read_lock();
+       static_call_lock();
+
+       switch (val) {
+       case MODULE_STATE_COMING:
+               ret = static_call_add_module(mod);
+               if (ret) {
+                       WARN(1, "Failed to allocate memory for static calls");
+                       static_call_del_module(mod);
+               }
+               break;
+       case MODULE_STATE_GOING:
+               static_call_del_module(mod);
+               break;
+       }
+
+       static_call_unlock();
+       cpus_read_unlock();
+
+       return notifier_from_errno(ret);
+}
+
+static struct notifier_block static_call_module_nb = {
+       .notifier_call = static_call_module_notify,
+};
+
+#else
+
+static inline int __static_call_mod_text_reserved(void *start, void *end)
+{
+       return 0;
+}
+
+#endif /* CONFIG_MODULES */
+
+int static_call_text_reserved(void *start, void *end)
+{
+       int ret = __static_call_text_reserved(__start_static_call_sites,
+                       __stop_static_call_sites, start, end);
+
+       if (ret)
+               return ret;
+
+       return __static_call_mod_text_reserved(start, end);
+}
+
+int __init static_call_init(void)
+{
+       int ret;
+
+       if (static_call_initialized)
+               return 0;
+
+       cpus_read_lock();
+       static_call_lock();
+       ret = __static_call_init(NULL, __start_static_call_sites,
+                                __stop_static_call_sites);
+       static_call_unlock();
+       cpus_read_unlock();
+
+       if (ret) {
+               pr_err("Failed to allocate memory for static_call!\n");
+               BUG();
+       }
+
+       static_call_initialized = true;
+
+#ifdef CONFIG_MODULES
+       register_module_notifier(&static_call_module_nb);
+#endif
+       return 0;
+}
+early_initcall(static_call_init);
+
+#ifdef CONFIG_STATIC_CALL_SELFTEST
+
+static int func_a(int x)
+{
+       return x+1;
+}
+
+static int func_b(int x)
+{
+       return x+2;
+}
+
+DEFINE_STATIC_CALL(sc_selftest, func_a);
+
+static struct static_call_data {
+      int (*func)(int);
+      int val;
+      int expect;
+} static_call_data [] __initdata = {
+      { NULL,   2, 3 },
+      { func_b, 2, 4 },
+      { func_a, 2, 3 }
+};
+
+static int __init test_static_call_init(void)
+{
+      int i;
+
+      for (i = 0; i < ARRAY_SIZE(static_call_data); i++ ) {
+             struct static_call_data *scd = &static_call_data[i];
+
+              if (scd->func)
+                      static_call_update(sc_selftest, scd->func);
+
+              WARN_ON(static_call(sc_selftest)(scd->val) != scd->expect);
+      }
+
+      return 0;
+}
+early_initcall(test_static_call_init);
+
+#endif /* CONFIG_STATIC_CALL_SELFTEST */
index 4d59775..c925d1e 100644 (file)
@@ -369,7 +369,6 @@ COND_SYSCALL_COMPAT(fanotify_mark);
 /* x86 */
 COND_SYSCALL(vm86old);
 COND_SYSCALL(modify_ldt);
-COND_SYSCALL_COMPAT(quotactl32);
 COND_SYSCALL(vm86);
 COND_SYSCALL(kexec_file_load);
 
index ca223a8..f4ace1b 100644 (file)
@@ -908,7 +908,7 @@ static int __init alarmtimer_init(void)
        /* Initialize alarm bases */
        alarm_bases[ALARM_REALTIME].base_clockid = CLOCK_REALTIME;
        alarm_bases[ALARM_REALTIME].get_ktime = &ktime_get_real;
-       alarm_bases[ALARM_REALTIME].get_timespec = ktime_get_real_ts64,
+       alarm_bases[ALARM_REALTIME].get_timespec = ktime_get_real_ts64;
        alarm_bases[ALARM_BOOTTIME].base_clockid = CLOCK_BOOTTIME;
        alarm_bases[ALARM_BOOTTIME].get_ktime = &ktime_get_boottime;
        alarm_bases[ALARM_BOOTTIME].get_timespec = get_boottime_timespec;
index 95b6a70..3624b9b 100644 (file)
@@ -342,7 +342,7 @@ EXPORT_SYMBOL_GPL(ktime_add_safe);
 
 #ifdef CONFIG_DEBUG_OBJECTS_TIMERS
 
-static struct debug_obj_descr hrtimer_debug_descr;
+static const struct debug_obj_descr hrtimer_debug_descr;
 
 static void *hrtimer_debug_hint(void *addr)
 {
@@ -401,7 +401,7 @@ static bool hrtimer_fixup_free(void *addr, enum debug_obj_state state)
        }
 }
 
-static struct debug_obj_descr hrtimer_debug_descr = {
+static const struct debug_obj_descr hrtimer_debug_descr = {
        .name           = "hrtimer",
        .debug_hint     = hrtimer_debug_hint,
        .fixup_init     = hrtimer_fixup_init,
index 1c03eec..0642013 100644 (file)
@@ -35,7 +35,7 @@
  * into a single 64-byte cache line.
  */
 struct clock_data {
-       seqcount_t              seq;
+       seqcount_latch_t        seq;
        struct clock_read_data  read_data[2];
        ktime_t                 wrap_kt;
        unsigned long           rate;
@@ -76,7 +76,7 @@ struct clock_read_data *sched_clock_read_begin(unsigned int *seq)
 
 int sched_clock_read_retry(unsigned int seq)
 {
-       return read_seqcount_retry(&cd.seq, seq);
+       return read_seqcount_latch_retry(&cd.seq, seq);
 }
 
 unsigned long long notrace sched_clock(void)
@@ -258,7 +258,7 @@ void __init generic_sched_clock_init(void)
  */
 static u64 notrace suspended_sched_clock_read(void)
 {
-       unsigned int seq = raw_read_seqcount(&cd.seq);
+       unsigned int seq = raw_read_seqcount_latch(&cd.seq);
 
        return cd.read_data[seq & 1].epoch_cyc;
 }
index 4c47f38..6858a31 100644 (file)
@@ -54,6 +54,9 @@ static struct {
 
 static struct timekeeper shadow_timekeeper;
 
+/* flag for if timekeeping is suspended */
+int __read_mostly timekeeping_suspended;
+
 /**
  * struct tk_fast - NMI safe timekeeper
  * @seq:       Sequence counter for protecting updates. The lowest bit
@@ -64,7 +67,7 @@ static struct timekeeper shadow_timekeeper;
  * See @update_fast_timekeeper() below.
  */
 struct tk_fast {
-       seqcount_raw_spinlock_t seq;
+       seqcount_latch_t        seq;
        struct tk_read_base     base[2];
 };
 
@@ -73,28 +76,42 @@ static u64 cycles_at_suspend;
 
 static u64 dummy_clock_read(struct clocksource *cs)
 {
-       return cycles_at_suspend;
+       if (timekeeping_suspended)
+               return cycles_at_suspend;
+       return local_clock();
 }
 
 static struct clocksource dummy_clock = {
        .read = dummy_clock_read,
 };
 
+/*
+ * Boot time initialization which allows local_clock() to be utilized
+ * during early boot when clocksources are not available. local_clock()
+ * returns nanoseconds already so no conversion is required, hence mult=1
+ * and shift=0. When the first proper clocksource is installed then
+ * the fast time keepers are updated with the correct values.
+ */
+#define FAST_TK_INIT                                           \
+       {                                                       \
+               .clock          = &dummy_clock,                 \
+               .mask           = CLOCKSOURCE_MASK(64),         \
+               .mult           = 1,                            \
+               .shift          = 0,                            \
+       }
+
 static struct tk_fast tk_fast_mono ____cacheline_aligned = {
-       .seq     = SEQCNT_RAW_SPINLOCK_ZERO(tk_fast_mono.seq, &timekeeper_lock),
-       .base[0] = { .clock = &dummy_clock, },
-       .base[1] = { .clock = &dummy_clock, },
+       .seq     = SEQCNT_LATCH_ZERO(tk_fast_mono.seq),
+       .base[0] = FAST_TK_INIT,
+       .base[1] = FAST_TK_INIT,
 };
 
 static struct tk_fast tk_fast_raw  ____cacheline_aligned = {
-       .seq     = SEQCNT_RAW_SPINLOCK_ZERO(tk_fast_raw.seq, &timekeeper_lock),
-       .base[0] = { .clock = &dummy_clock, },
-       .base[1] = { .clock = &dummy_clock, },
+       .seq     = SEQCNT_LATCH_ZERO(tk_fast_raw.seq),
+       .base[0] = FAST_TK_INIT,
+       .base[1] = FAST_TK_INIT,
 };
 
-/* flag for if timekeeping is suspended */
-int __read_mostly timekeeping_suspended;
-
 static inline void tk_normalize_xtime(struct timekeeper *tk)
 {
        while (tk->tkr_mono.xtime_nsec >= ((u64)NSEC_PER_SEC << tk->tkr_mono.shift)) {
@@ -467,7 +484,7 @@ static __always_inline u64 __ktime_get_fast_ns(struct tk_fast *tkf)
                                        tk_clock_read(tkr),
                                        tkr->cycle_last,
                                        tkr->mask));
-       } while (read_seqcount_retry(&tkf->seq, seq));
+       } while (read_seqcount_latch_retry(&tkf->seq, seq));
 
        return now;
 }
@@ -513,29 +530,29 @@ u64 notrace ktime_get_boot_fast_ns(void)
 }
 EXPORT_SYMBOL_GPL(ktime_get_boot_fast_ns);
 
-
 /*
  * See comment for __ktime_get_fast_ns() vs. timestamp ordering
  */
-static __always_inline u64 __ktime_get_real_fast_ns(struct tk_fast *tkf)
+static __always_inline u64 __ktime_get_real_fast(struct tk_fast *tkf, u64 *mono)
 {
        struct tk_read_base *tkr;
+       u64 basem, baser, delta;
        unsigned int seq;
-       u64 now;
 
        do {
                seq = raw_read_seqcount_latch(&tkf->seq);
                tkr = tkf->base + (seq & 0x01);
-               now = ktime_to_ns(tkr->base_real);
+               basem = ktime_to_ns(tkr->base);
+               baser = ktime_to_ns(tkr->base_real);
 
-               now += timekeeping_delta_to_ns(tkr,
-                               clocksource_delta(
-                                       tk_clock_read(tkr),
-                                       tkr->cycle_last,
-                                       tkr->mask));
-       } while (read_seqcount_retry(&tkf->seq, seq));
+               delta = timekeeping_delta_to_ns(tkr,
+                               clocksource_delta(tk_clock_read(tkr),
+                               tkr->cycle_last, tkr->mask));
+       } while (read_seqcount_latch_retry(&tkf->seq, seq));
 
-       return now;
+       if (mono)
+               *mono = basem + delta;
+       return baser + delta;
 }
 
 /**
@@ -543,11 +560,65 @@ static __always_inline u64 __ktime_get_real_fast_ns(struct tk_fast *tkf)
  */
 u64 ktime_get_real_fast_ns(void)
 {
-       return __ktime_get_real_fast_ns(&tk_fast_mono);
+       return __ktime_get_real_fast(&tk_fast_mono, NULL);
 }
 EXPORT_SYMBOL_GPL(ktime_get_real_fast_ns);
 
 /**
+ * ktime_get_fast_timestamps: - NMI safe timestamps
+ * @snapshot:  Pointer to timestamp storage
+ *
+ * Stores clock monotonic, boottime and realtime timestamps.
+ *
+ * Boot time is a racy access on 32bit systems if the sleep time injection
+ * happens late during resume and not in timekeeping_resume(). That could
+ * be avoided by expanding struct tk_read_base with boot offset for 32bit
+ * and adding more overhead to the update. As this is a hard to observe
+ * once per resume event which can be filtered with reasonable effort using
+ * the accurate mono/real timestamps, it's probably not worth the trouble.
+ *
+ * Aside of that it might be possible on 32 and 64 bit to observe the
+ * following when the sleep time injection happens late:
+ *
+ * CPU 0                               CPU 1
+ * timekeeping_resume()
+ * ktime_get_fast_timestamps()
+ *     mono, real = __ktime_get_real_fast()
+ *                                     inject_sleep_time()
+ *                                        update boot offset
+ *     boot = mono + bootoffset;
+ *
+ * That means that boot time already has the sleep time adjustment, but
+ * real time does not. On the next readout both are in sync again.
+ *
+ * Preventing this for 64bit is not really feasible without destroying the
+ * careful cache layout of the timekeeper because the sequence count and
+ * struct tk_read_base would then need two cache lines instead of one.
+ *
+ * Access to the time keeper clock source is disabled accross the innermost
+ * steps of suspend/resume. The accessors still work, but the timestamps
+ * are frozen until time keeping is resumed which happens very early.
+ *
+ * For regular suspend/resume there is no observable difference vs. sched
+ * clock, but it might affect some of the nasty low level debug printks.
+ *
+ * OTOH, access to sched clock is not guaranteed accross suspend/resume on
+ * all systems either so it depends on the hardware in use.
+ *
+ * If that turns out to be a real problem then this could be mitigated by
+ * using sched clock in a similar way as during early boot. But it's not as
+ * trivial as on early boot because it needs some careful protection
+ * against the clock monotonic timestamp jumping backwards on resume.
+ */
+void ktime_get_fast_timestamps(struct ktime_timestamps *snapshot)
+{
+       struct timekeeper *tk = &tk_core.timekeeper;
+
+       snapshot->real = __ktime_get_real_fast(&tk_fast_mono, &snapshot->mono);
+       snapshot->boot = snapshot->mono + ktime_to_ns(data_race(tk->offs_boot));
+}
+
+/**
  * halt_fast_timekeeper - Prevent fast timekeeper from accessing clocksource.
  * @tk: Timekeeper to snapshot.
  *
index a50364d..dda05f4 100644 (file)
@@ -611,7 +611,7 @@ static void internal_add_timer(struct timer_base *base, struct timer_list *timer
 
 #ifdef CONFIG_DEBUG_OBJECTS_TIMERS
 
-static struct debug_obj_descr timer_debug_descr;
+static const struct debug_obj_descr timer_debug_descr;
 
 static void *timer_debug_hint(void *addr)
 {
@@ -707,7 +707,7 @@ static bool timer_fixup_assert_init(void *addr, enum debug_obj_state state)
        }
 }
 
-static struct debug_obj_descr timer_debug_descr = {
+static const struct debug_obj_descr timer_debug_descr = {
        .name                   = "timer_list",
        .debug_hint             = timer_debug_hint,
        .is_static_object       = timer_is_static_object,
@@ -794,6 +794,8 @@ static void do_init_timer(struct timer_list *timer,
 {
        timer->entry.pprev = NULL;
        timer->function = func;
+       if (WARN_ON_ONCE(flags & ~TIMER_INIT_FLAGS))
+               flags &= TIMER_INIT_FLAGS;
        timer->flags = flags | raw_smp_processor_id();
        lockdep_init_map(&timer->lockdep_map, name, key, 0);
 }
index a8d4f25..2ecf789 100644 (file)
@@ -2027,10 +2027,11 @@ static int bpf_event_notify(struct notifier_block *nb, unsigned long op,
 {
        struct bpf_trace_module *btm, *tmp;
        struct module *mod = module;
+       int ret = 0;
 
        if (mod->num_bpf_raw_events == 0 ||
            (op != MODULE_STATE_COMING && op != MODULE_STATE_GOING))
-               return 0;
+               goto out;
 
        mutex_lock(&bpf_module_mutex);
 
@@ -2040,6 +2041,8 @@ static int bpf_event_notify(struct notifier_block *nb, unsigned long op,
                if (btm) {
                        btm->module = module;
                        list_add(&btm->list, &bpf_trace_modules);
+               } else {
+                       ret = -ENOMEM;
                }
                break;
        case MODULE_STATE_GOING:
@@ -2055,7 +2058,8 @@ static int bpf_event_notify(struct notifier_block *nb, unsigned long op,
 
        mutex_unlock(&bpf_module_mutex);
 
-       return 0;
+out:
+       return notifier_from_errno(ret);
 }
 
 static struct notifier_block bpf_module_nb = {
index d3e5de7..25b72a7 100644 (file)
@@ -9074,7 +9074,7 @@ static int trace_module_notify(struct notifier_block *self,
                break;
        }
 
-       return 0;
+       return NOTIFY_OK;
 }
 
 static struct notifier_block trace_module_nb = {
index a85effb..beebf2c 100644 (file)
@@ -2646,7 +2646,7 @@ static int trace_module_notify(struct notifier_block *self,
        mutex_unlock(&trace_types_lock);
        mutex_unlock(&event_mutex);
 
-       return 0;
+       return NOTIFY_OK;
 }
 
 static struct notifier_block trace_module_nb = {
index aefb606..19c00ee 100644 (file)
@@ -106,9 +106,10 @@ static nokprobe_inline bool trace_kprobe_has_gone(struct trace_kprobe *tk)
 static nokprobe_inline bool trace_kprobe_within_module(struct trace_kprobe *tk,
                                                 struct module *mod)
 {
-       int len = strlen(mod->name);
+       int len = strlen(module_name(mod));
        const char *name = trace_kprobe_symbol(tk);
-       return strncmp(mod->name, name, len) == 0 && name[len] == ':';
+
+       return strncmp(module_name(mod), name, len) == 0 && name[len] == ':';
 }
 
 static nokprobe_inline bool trace_kprobe_module_exist(struct trace_kprobe *tk)
@@ -688,7 +689,7 @@ static int trace_kprobe_module_callback(struct notifier_block *nb,
                        if (ret)
                                pr_warn("Failed to re-register probe %s on %s: %d\n",
                                        trace_probe_name(&tk->tp),
-                                       mod->name, ret);
+                                       module_name(mod), ret);
                }
        }
        mutex_unlock(&event_mutex);
index d4e31e9..bb7783b 100644 (file)
@@ -96,7 +96,7 @@ static int module_trace_bprintk_format_notify(struct notifier_block *self,
                if (val == MODULE_STATE_COMING)
                        hold_module_trace_bprintk_format(start, end);
        }
-       return 0;
+       return NOTIFY_OK;
 }
 
 /*
@@ -174,7 +174,7 @@ __init static int
 module_trace_bprintk_format_notify(struct notifier_block *self,
                unsigned long val, void *data)
 {
-       return 0;
+       return NOTIFY_OK;
 }
 static inline const char **
 find_next_mod_format(int start_index, void *v, const char **fmt, loff_t *pos)
index 73956ea..26efd22 100644 (file)
@@ -221,6 +221,29 @@ static void *func_remove(struct tracepoint_func **funcs,
        return old;
 }
 
+static void tracepoint_update_call(struct tracepoint *tp, struct tracepoint_func *tp_funcs, bool sync)
+{
+       void *func = tp->iterator;
+
+       /* Synthetic events do not have static call sites */
+       if (!tp->static_call_key)
+               return;
+
+       if (!tp_funcs[1].func) {
+               func = tp_funcs[0].func;
+               /*
+                * If going from the iterator back to a single caller,
+                * we need to synchronize with __DO_TRACE to make sure
+                * that the data passed to the callback is the one that
+                * belongs to that callback.
+                */
+               if (sync)
+                       tracepoint_synchronize_unregister();
+       }
+
+       __static_call_update(tp->static_call_key, tp->static_call_tramp, func);
+}
+
 /*
  * Add the probe function to a tracepoint.
  */
@@ -251,8 +274,9 @@ static int tracepoint_add_func(struct tracepoint *tp,
         * include/linux/tracepoint.h using rcu_dereference_sched().
         */
        rcu_assign_pointer(tp->funcs, tp_funcs);
-       if (!static_key_enabled(&tp->key))
-               static_key_slow_inc(&tp->key);
+       tracepoint_update_call(tp, tp_funcs, false);
+       static_key_enable(&tp->key);
+
        release_probes(old);
        return 0;
 }
@@ -281,10 +305,13 @@ static int tracepoint_remove_func(struct tracepoint *tp,
                if (tp->unregfunc && static_key_enabled(&tp->key))
                        tp->unregfunc();
 
-               if (static_key_enabled(&tp->key))
-                       static_key_slow_dec(&tp->key);
+               static_key_disable(&tp->key);
+               rcu_assign_pointer(tp->funcs, tp_funcs);
+       } else {
+               rcu_assign_pointer(tp->funcs, tp_funcs);
+               tracepoint_update_call(tp, tp_funcs,
+                                      tp_funcs[0].func != old[0].func);
        }
-       rcu_assign_pointer(tp->funcs, tp_funcs);
        release_probes(old);
        return 0;
 }
@@ -521,7 +548,7 @@ static int tracepoint_module_notify(struct notifier_block *self,
        case MODULE_STATE_UNFORMED:
                break;
        }
-       return ret;
+       return notifier_from_errno(ret);
 }
 
 static struct notifier_block tracepoint_module_nb = {
index fcf3ee8..3f64661 100644 (file)
@@ -14,6 +14,7 @@
 #include <linux/cred.h>
 #include <linux/file.h>
 #include <linux/fdtable.h>
+#include <linux/fs_struct.h>
 #include <linux/workqueue.h>
 #include <linux/security.h>
 #include <linux/mount.h>
@@ -72,6 +73,14 @@ static int call_usermodehelper_exec_async(void *data)
        spin_unlock_irq(&current->sighand->siglock);
 
        /*
+        * Initial kernel threads share ther FS with init, in order to
+        * get the init root directory. But we've now created a new
+        * thread that is going to execve a user process and has its own
+        * 'struct fs_struct'. Reset umask to the default.
+        */
+       current->fs->umask = 0022;
+
+       /*
         * Our parent (unbound workqueue) runs with elevated scheduling
         * priority. Avoid propagating that into the userspace child.
         */
index c41c3c1..ac088ce 100644 (file)
@@ -427,7 +427,7 @@ static void show_pwq(struct pool_workqueue *pwq);
 
 #ifdef CONFIG_DEBUG_OBJECTS_WORK
 
-static struct debug_obj_descr work_debug_descr;
+static const struct debug_obj_descr work_debug_descr;
 
 static void *work_debug_hint(void *addr)
 {
@@ -477,7 +477,7 @@ static bool work_fixup_free(void *addr, enum debug_obj_state state)
        }
 }
 
-static struct debug_obj_descr work_debug_descr = {
+static const struct debug_obj_descr work_debug_descr = {
        .name           = "work_struct",
        .debug_hint     = work_debug_hint,
        .is_static_object = work_is_static_object,
index b4b98a0..b46a9fd 100644 (file)
@@ -635,7 +635,12 @@ config UACCESS_MEMCPY
 config ARCH_HAS_UACCESS_FLUSHCACHE
        bool
 
-config ARCH_HAS_UACCESS_MCSAFE
+# arch has a concept of a recoverable synchronous exception due to a
+# memory-read error like x86 machine-check or ARM data-abort, and
+# implements copy_mc_to_{user,kernel} to abort and report
+# 'bytes-transferred' if that exception fires when accessing the source
+# buffer.
+config ARCH_HAS_COPY_MC
        bool
 
 # Temporary. Goes away when all archs are cleaned up
index 3d282d5..f271ff5 100644 (file)
@@ -40,6 +40,11 @@ menuconfig KCSAN
 
 if KCSAN
 
+# Compiler capabilities that should not fail the test if they are unavailable.
+config CC_HAS_TSAN_COMPOUND_READ_BEFORE_WRITE
+       def_bool (CC_IS_CLANG && $(cc-option,-fsanitize=thread -mllvm -tsan-compound-read-before-write=1)) || \
+                (CC_IS_GCC && $(cc-option,-fsanitize=thread --param tsan-compound-read-before-write=1))
+
 config KCSAN_VERBOSE
        bool "Show verbose reports with more information about system state"
        depends on PROVE_LOCKING
index c7861e8..6860d6b 100644 (file)
@@ -145,17 +145,6 @@ __sum16 ip_compute_csum(const void *buff, int len)
 }
 EXPORT_SYMBOL(ip_compute_csum);
 
-/*
- * copy from ds while checksumming, otherwise like csum_partial
- */
-__wsum
-csum_partial_copy_nocheck(const void *src, void *dst, int len, __wsum sum)
-{
-       memcpy(dst, src, len);
-       return csum_partial(dst, len, sum);
-}
-EXPORT_SYMBOL(csum_partial_copy_nocheck);
-
 #ifndef csum_tcpudp_nofold
 static inline u32 from64to32(u64 x)
 {
index 431e042..5850f3b 100644 (file)
@@ -251,9 +251,7 @@ bool chacha20poly1305_crypt_sg_inplace(struct scatterlist *src,
                        poly1305_update(&poly1305_state, pad0, 0x10 - (ad_len & 0xf));
        }
 
-       flags = SG_MITER_TO_SG;
-       if (!preemptible())
-               flags |= SG_MITER_ATOMIC;
+       flags = SG_MITER_TO_SG | SG_MITER_ATOMIC;
 
        sg_miter_start(&miter, src, sg_nents(src), flags);
 
index fe45579..9e14ae0 100644 (file)
@@ -19,6 +19,7 @@
 #include <linux/slab.h>
 #include <linux/hash.h>
 #include <linux/kmemleak.h>
+#include <linux/cpu.h>
 
 #define ODEBUG_HASH_BITS       14
 #define ODEBUG_HASH_SIZE       (1 << ODEBUG_HASH_BITS)
@@ -90,7 +91,7 @@ static int                    debug_objects_pool_size __read_mostly
                                = ODEBUG_POOL_SIZE;
 static int                     debug_objects_pool_min_level __read_mostly
                                = ODEBUG_POOL_MIN_LEVEL;
-static struct debug_obj_descr  *descr_test  __read_mostly;
+static const struct debug_obj_descr *descr_test  __read_mostly;
 static struct kmem_cache       *obj_cache __read_mostly;
 
 /*
@@ -223,7 +224,7 @@ static struct debug_obj *__alloc_object(struct hlist_head *list)
  * Must be called with interrupts disabled.
  */
 static struct debug_obj *
-alloc_object(void *addr, struct debug_bucket *b, struct debug_obj_descr *descr)
+alloc_object(void *addr, struct debug_bucket *b, const struct debug_obj_descr *descr)
 {
        struct debug_percpu_free *percpu_pool = this_cpu_ptr(&percpu_obj_pool);
        struct debug_obj *obj;
@@ -433,6 +434,25 @@ static void free_object(struct debug_obj *obj)
        }
 }
 
+#ifdef CONFIG_HOTPLUG_CPU
+static int object_cpu_offline(unsigned int cpu)
+{
+       struct debug_percpu_free *percpu_pool;
+       struct hlist_node *tmp;
+       struct debug_obj *obj;
+
+       /* Remote access is safe as the CPU is dead already */
+       percpu_pool = per_cpu_ptr(&percpu_obj_pool, cpu);
+       hlist_for_each_entry_safe(obj, tmp, &percpu_pool->free_objs, node) {
+               hlist_del(&obj->node);
+               kmem_cache_free(obj_cache, obj);
+       }
+       percpu_pool->obj_free = 0;
+
+       return 0;
+}
+#endif
+
 /*
  * We run out of memory. That means we probably have tons of objects
  * allocated.
@@ -475,7 +495,7 @@ static struct debug_bucket *get_bucket(unsigned long addr)
 
 static void debug_print_object(struct debug_obj *obj, char *msg)
 {
-       struct debug_obj_descr *descr = obj->descr;
+       const struct debug_obj_descr *descr = obj->descr;
        static int limit;
 
        if (limit < 5 && descr != descr_test) {
@@ -529,7 +549,7 @@ static void debug_object_is_on_stack(void *addr, int onstack)
 }
 
 static void
-__debug_object_init(void *addr, struct debug_obj_descr *descr, int onstack)
+__debug_object_init(void *addr, const struct debug_obj_descr *descr, int onstack)
 {
        enum debug_obj_state state;
        bool check_stack = false;
@@ -587,7 +607,7 @@ __debug_object_init(void *addr, struct debug_obj_descr *descr, int onstack)
  * @addr:      address of the object
  * @descr:     pointer to an object specific debug description structure
  */
-void debug_object_init(void *addr, struct debug_obj_descr *descr)
+void debug_object_init(void *addr, const struct debug_obj_descr *descr)
 {
        if (!debug_objects_enabled)
                return;
@@ -602,7 +622,7 @@ EXPORT_SYMBOL_GPL(debug_object_init);
  * @addr:      address of the object
  * @descr:     pointer to an object specific debug description structure
  */
-void debug_object_init_on_stack(void *addr, struct debug_obj_descr *descr)
+void debug_object_init_on_stack(void *addr, const struct debug_obj_descr *descr)
 {
        if (!debug_objects_enabled)
                return;
@@ -617,7 +637,7 @@ EXPORT_SYMBOL_GPL(debug_object_init_on_stack);
  * @descr:     pointer to an object specific debug description structure
  * Returns 0 for success, -EINVAL for check failed.
  */
-int debug_object_activate(void *addr, struct debug_obj_descr *descr)
+int debug_object_activate(void *addr, const struct debug_obj_descr *descr)
 {
        enum debug_obj_state state;
        struct debug_bucket *db;
@@ -695,7 +715,7 @@ EXPORT_SYMBOL_GPL(debug_object_activate);
  * @addr:      address of the object
  * @descr:     pointer to an object specific debug description structure
  */
-void debug_object_deactivate(void *addr, struct debug_obj_descr *descr)
+void debug_object_deactivate(void *addr, const struct debug_obj_descr *descr)
 {
        struct debug_bucket *db;
        struct debug_obj *obj;
@@ -747,7 +767,7 @@ EXPORT_SYMBOL_GPL(debug_object_deactivate);
  * @addr:      address of the object
  * @descr:     pointer to an object specific debug description structure
  */
-void debug_object_destroy(void *addr, struct debug_obj_descr *descr)
+void debug_object_destroy(void *addr, const struct debug_obj_descr *descr)
 {
        enum debug_obj_state state;
        struct debug_bucket *db;
@@ -797,7 +817,7 @@ EXPORT_SYMBOL_GPL(debug_object_destroy);
  * @addr:      address of the object
  * @descr:     pointer to an object specific debug description structure
  */
-void debug_object_free(void *addr, struct debug_obj_descr *descr)
+void debug_object_free(void *addr, const struct debug_obj_descr *descr)
 {
        enum debug_obj_state state;
        struct debug_bucket *db;
@@ -838,7 +858,7 @@ EXPORT_SYMBOL_GPL(debug_object_free);
  * @addr:      address of the object
  * @descr:     pointer to an object specific debug description structure
  */
-void debug_object_assert_init(void *addr, struct debug_obj_descr *descr)
+void debug_object_assert_init(void *addr, const struct debug_obj_descr *descr)
 {
        struct debug_bucket *db;
        struct debug_obj *obj;
@@ -886,7 +906,7 @@ EXPORT_SYMBOL_GPL(debug_object_assert_init);
  * @next:      state to move to if expected state is found
  */
 void
-debug_object_active_state(void *addr, struct debug_obj_descr *descr,
+debug_object_active_state(void *addr, const struct debug_obj_descr *descr,
                          unsigned int expect, unsigned int next)
 {
        struct debug_bucket *db;
@@ -934,7 +954,7 @@ EXPORT_SYMBOL_GPL(debug_object_active_state);
 static void __debug_check_no_obj_freed(const void *address, unsigned long size)
 {
        unsigned long flags, oaddr, saddr, eaddr, paddr, chunks;
-       struct debug_obj_descr *descr;
+       const struct debug_obj_descr *descr;
        enum debug_obj_state state;
        struct debug_bucket *db;
        struct hlist_node *tmp;
@@ -1052,7 +1072,7 @@ struct self_test {
        unsigned long   dummy2[3];
 };
 
-static __initdata struct debug_obj_descr descr_type_test;
+static __initconst const struct debug_obj_descr descr_type_test;
 
 static bool __init is_static_object(void *addr)
 {
@@ -1177,7 +1197,7 @@ out:
        return res;
 }
 
-static __initdata struct debug_obj_descr descr_type_test = {
+static __initconst const struct debug_obj_descr descr_type_test = {
        .name                   = "selftest",
        .is_static_object       = is_static_object,
        .fixup_init             = fixup_init,
@@ -1367,6 +1387,11 @@ void __init debug_objects_mem_init(void)
        } else
                debug_objects_selftest();
 
+#ifdef CONFIG_HOTPLUG_CPU
+       cpuhp_setup_state_nocalls(CPUHP_DEBUG_OBJ_DEAD, "object:offline", NULL,
+                                       object_cpu_offline);
+#endif
+
        /*
         * Increase the thresholds for allocating and freeing objects
         * according to the number of possible CPUs available in the system.
index 532f0ff..0e2deac 100644 (file)
@@ -8,8 +8,8 @@
 
 #define FONTDATAMAX 9216
 
-static const unsigned char fontdata_10x18[FONTDATAMAX] = {
-
+static struct font_data fontdata_10x18 = {
+       { 0, 0, FONTDATAMAX, 0 }, {
        /* 0 0x00 '^@' */
        0x00, 0x00, /* 0000000000 */
        0x00, 0x00, /* 0000000000 */
@@ -5129,8 +5129,7 @@ static const unsigned char fontdata_10x18[FONTDATAMAX] = {
        0x00, 0x00, /* 0000000000 */
        0x00, 0x00, /* 0000000000 */
        0x00, 0x00, /* 0000000000 */
-
-};
+} };
 
 
 const struct font_desc font_10x18 = {
@@ -5138,7 +5137,7 @@ const struct font_desc font_10x18 = {
        .name   = "10x18",
        .width  = 10,
        .height = 18,
-       .data   = fontdata_10x18,
+       .data   = fontdata_10x18.data,
 #ifdef __sparc__
        .pref   = 5,
 #else
index 09b2cc0..87da8ac 100644 (file)
@@ -1,8 +1,10 @@
 // SPDX-License-Identifier: GPL-2.0
 #include <linux/font.h>
 
-static const unsigned char fontdata_6x10[] = {
+#define FONTDATAMAX 2560
 
+static struct font_data fontdata_6x10 = {
+       { 0, 0, FONTDATAMAX, 0 }, {
        /* 0 0x00 '^@' */
        0x00, /* 00000000 */
        0x00, /* 00000000 */
@@ -3074,14 +3076,13 @@ static const unsigned char fontdata_6x10[] = {
        0x00, /* 00000000 */
        0x00, /* 00000000 */
        0x00, /* 00000000 */
-
-};
+} };
 
 const struct font_desc font_6x10 = {
        .idx    = FONT6x10_IDX,
        .name   = "6x10",
        .width  = 6,
        .height = 10,
-       .data   = fontdata_6x10,
+       .data   = fontdata_6x10.data,
        .pref   = 0,
 };
index d7136c3..5e975df 100644 (file)
@@ -9,8 +9,8 @@
 
 #define FONTDATAMAX (11*256)
 
-static const unsigned char fontdata_6x11[FONTDATAMAX] = {
-
+static struct font_data fontdata_6x11 = {
+       { 0, 0, FONTDATAMAX, 0 }, {
        /* 0 0x00 '^@' */
        0x00, /* 00000000 */
        0x00, /* 00000000 */
@@ -3338,8 +3338,7 @@ static const unsigned char fontdata_6x11[FONTDATAMAX] = {
        0x00, /* 00000000 */
        0x00, /* 00000000 */
        0x00, /* 00000000 */
-
-};
+} };
 
 
 const struct font_desc font_vga_6x11 = {
@@ -3347,7 +3346,7 @@ const struct font_desc font_vga_6x11 = {
        .name   = "ProFont6x11",
        .width  = 6,
        .height = 11,
-       .data   = fontdata_6x11,
+       .data   = fontdata_6x11.data,
        /* Try avoiding this font if possible unless on MAC */
        .pref   = -2000,
 };
index 89752d0..86d298f 100644 (file)
@@ -8,8 +8,8 @@
 
 #define FONTDATAMAX 3584
 
-static const unsigned char fontdata_7x14[FONTDATAMAX] = {
-
+static struct font_data fontdata_7x14 = {
+       { 0, 0, FONTDATAMAX, 0 }, {
        /* 0 0x00 '^@' */
        0x00, /* 0000000 */
        0x00, /* 0000000 */
@@ -4105,8 +4105,7 @@ static const unsigned char fontdata_7x14[FONTDATAMAX] = {
        0x00, /* 0000000 */
        0x00, /* 0000000 */
        0x00, /* 0000000 */
-
-};
+} };
 
 
 const struct font_desc font_7x14 = {
@@ -4114,6 +4113,6 @@ const struct font_desc font_7x14 = {
        .name   = "7x14",
        .width  = 7,
        .height = 14,
-       .data   = fontdata_7x14,
+       .data   = fontdata_7x14.data,
        .pref   = 0,
 };
index b7ab1f5..37cedd3 100644 (file)
@@ -10,8 +10,8 @@
 
 #define FONTDATAMAX 4096
 
-static const unsigned char fontdata_8x16[FONTDATAMAX] = {
-
+static struct font_data fontdata_8x16 = {
+       { 0, 0, FONTDATAMAX, 0 }, {
        /* 0 0x00 '^@' */
        0x00, /* 00000000 */
        0x00, /* 00000000 */
@@ -4619,8 +4619,7 @@ static const unsigned char fontdata_8x16[FONTDATAMAX] = {
        0x00, /* 00000000 */
        0x00, /* 00000000 */
        0x00, /* 00000000 */
-
-};
+} };
 
 
 const struct font_desc font_vga_8x16 = {
@@ -4628,7 +4627,7 @@ const struct font_desc font_vga_8x16 = {
        .name   = "VGA8x16",
        .width  = 8,
        .height = 16,
-       .data   = fontdata_8x16,
+       .data   = fontdata_8x16.data,
        .pref   = 0,
 };
 EXPORT_SYMBOL(font_vga_8x16);
index 2328ebc..8ab6955 100644 (file)
@@ -9,8 +9,8 @@
 
 #define FONTDATAMAX 2048
 
-static const unsigned char fontdata_8x8[FONTDATAMAX] = {
-
+static struct font_data fontdata_8x8 = {
+       { 0, 0, FONTDATAMAX, 0 }, {
        /* 0 0x00 '^@' */
        0x00, /* 00000000 */
        0x00, /* 00000000 */
@@ -2570,8 +2570,7 @@ static const unsigned char fontdata_8x8[FONTDATAMAX] = {
        0x00, /* 00000000 */
        0x00, /* 00000000 */
        0x00, /* 00000000 */
-
-};
+} };
 
 
 const struct font_desc font_vga_8x8 = {
@@ -2579,6 +2578,6 @@ const struct font_desc font_vga_8x8 = {
        .name   = "VGA8x8",
        .width  = 8,
        .height = 8,
-       .data   = fontdata_8x8,
+       .data   = fontdata_8x8.data,
        .pref   = 0,
 };
index 0ff0e85..069b3e8 100644 (file)
@@ -3,7 +3,10 @@
 
 #include <linux/font.h>
 
-static const unsigned char acorndata_8x8[] = {
+#define FONTDATAMAX 2048
+
+static struct font_data acorndata_8x8 = {
+{ 0, 0, FONTDATAMAX, 0 }, {
 /* 00 */  0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, /* ^@ */
 /* 01 */  0x7e, 0x81, 0xa5, 0x81, 0xbd, 0x99, 0x81, 0x7e, /* ^A */
 /* 02 */  0x7e, 0xff, 0xbd, 0xff, 0xc3, 0xe7, 0xff, 0x7e, /* ^B */
@@ -260,14 +263,14 @@ static const unsigned char acorndata_8x8[] = {
 /* FD */  0x38, 0x04, 0x18, 0x20, 0x3c, 0x00, 0x00, 0x00,
 /* FE */  0x00, 0x00, 0x3c, 0x3c, 0x3c, 0x3c, 0x00, 0x00,
 /* FF */  0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00
-};
+} };
 
 const struct font_desc font_acorn_8x8 = {
        .idx    = ACORN8x8_IDX,
        .name   = "Acorn8x8",
        .width  = 8,
        .height = 8,
-       .data   = acorndata_8x8,
+       .data   = acorndata_8x8.data,
 #ifdef CONFIG_ARCH_ACORN
        .pref   = 20,
 #else
index 838caa1..1449876 100644 (file)
@@ -43,8 +43,8 @@ __END__;
 
 #define FONTDATAMAX 1536
 
-static const unsigned char fontdata_mini_4x6[FONTDATAMAX] = {
-
+static struct font_data fontdata_mini_4x6 = {
+       { 0, 0, FONTDATAMAX, 0 }, {
        /*{*/
                /*   Char 0: ' '  */
        0xee,   /*=  [*** ]       */
@@ -2145,14 +2145,14 @@ static const unsigned char fontdata_mini_4x6[FONTDATAMAX] = {
        0xee,   /*=   [*** ]        */
        0x00,   /*=   [    ]        */
        /*}*/
-};
+} };
 
 const struct font_desc font_mini_4x6 = {
        .idx    = MINI4x6_IDX,
        .name   = "MINI4x6",
        .width  = 4,
        .height = 6,
-       .data   = fontdata_mini_4x6,
+       .data   = fontdata_mini_4x6.data,
        .pref   = 3,
 };
 
index b15d3c3..32d6555 100644 (file)
@@ -14,8 +14,8 @@
 
 #define FONTDATAMAX 2048
 
-static const unsigned char fontdata_pearl8x8[FONTDATAMAX] = {
-
+static struct font_data fontdata_pearl8x8 = {
+   { 0, 0, FONTDATAMAX, 0 }, {
    /* 0 0x00 '^@' */
    0x00, /* 00000000 */
    0x00, /* 00000000 */
@@ -2575,14 +2575,13 @@ static const unsigned char fontdata_pearl8x8[FONTDATAMAX] = {
    0x00, /* 00000000 */
    0x00, /* 00000000 */
    0x00, /* 00000000 */
-
-};
+} };
 
 const struct font_desc font_pearl_8x8 = {
        .idx    = PEARL8x8_IDX,
        .name   = "PEARL8x8",
        .width  = 8,
        .height = 8,
-       .data   = fontdata_pearl8x8,
+       .data   = fontdata_pearl8x8.data,
        .pref   = 2,
 };
index 955d6ee..641a6b4 100644 (file)
@@ -3,8 +3,8 @@
 
 #define FONTDATAMAX 11264
 
-static const unsigned char fontdata_sun12x22[FONTDATAMAX] = {
-
+static struct font_data fontdata_sun12x22 = {
+       { 0, 0, FONTDATAMAX, 0 }, {
        /* 0 0x00 '^@' */
        0x00, 0x00, /* 000000000000 */
        0x00, 0x00, /* 000000000000 */
@@ -6148,8 +6148,7 @@ static const unsigned char fontdata_sun12x22[FONTDATAMAX] = {
        0x00, 0x00, /* 000000000000 */
        0x00, 0x00, /* 000000000000 */
        0x00, 0x00, /* 000000000000 */
-
-};
+} };
 
 
 const struct font_desc font_sun_12x22 = {
@@ -6157,7 +6156,7 @@ const struct font_desc font_sun_12x22 = {
        .name   = "SUN12x22",
        .width  = 12,
        .height = 22,
-       .data   = fontdata_sun12x22,
+       .data   = fontdata_sun12x22.data,
 #ifdef __sparc__
        .pref   = 5,
 #else
index 03d71e5..193fe6d 100644 (file)
@@ -3,7 +3,8 @@
 
 #define FONTDATAMAX 4096
 
-static const unsigned char fontdata_sun8x16[FONTDATAMAX] = {
+static struct font_data fontdata_sun8x16 = {
+{ 0, 0, FONTDATAMAX, 0 }, {
 /* */ 0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,
 /* */ 0x00,0x00,0x7e,0x81,0xa5,0x81,0x81,0xbd,0x99,0x81,0x81,0x7e,0x00,0x00,0x00,0x00,
 /* */ 0x00,0x00,0x7e,0xff,0xdb,0xff,0xff,0xc3,0xe7,0xff,0xff,0x7e,0x00,0x00,0x00,0x00,
@@ -260,14 +261,14 @@ static const unsigned char fontdata_sun8x16[FONTDATAMAX] = {
 /* */ 0x00,0x70,0xd8,0x30,0x60,0xc8,0xf8,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,
 /* */ 0x00,0x00,0x00,0x00,0x7c,0x7c,0x7c,0x7c,0x7c,0x7c,0x7c,0x00,0x00,0x00,0x00,0x00,
 /* */ 0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,
-};
+} };
 
 const struct font_desc font_sun_8x16 = {
        .idx    = SUN8x16_IDX,
        .name   = "SUN8x16",
        .width  = 8,
        .height = 16,
-       .data   = fontdata_sun8x16,
+       .data   = fontdata_sun8x16.data,
 #ifdef __sparc__
        .pref   = 10,
 #else
index 3f0cf1c..91b9c28 100644 (file)
@@ -4,8 +4,8 @@
 
 #define FONTDATAMAX 16384
 
-static const unsigned char fontdata_ter16x32[FONTDATAMAX] = {
-
+static struct font_data fontdata_ter16x32 = {
+       { 0, 0, FONTDATAMAX, 0 }, {
        0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
        0x00, 0x00, 0x00, 0x00, 0x7f, 0xfc, 0x7f, 0xfc,
        0x70, 0x1c, 0x70, 0x1c, 0x70, 0x1c, 0x70, 0x1c,
@@ -2054,8 +2054,7 @@ static const unsigned char fontdata_ter16x32[FONTDATAMAX] = {
        0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
        0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
        0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, /* 255 */
-
-};
+} };
 
 
 const struct font_desc font_ter_16x32 = {
@@ -2063,7 +2062,7 @@ const struct font_desc font_ter_16x32 = {
        .name   = "TER16x32",
        .width  = 16,
        .height = 32,
-       .data   = fontdata_ter16x32,
+       .data   = fontdata_ter16x32.data,
 #ifdef __sparc__
        .pref   = 5,
 #else
index 5e40786..14cae25 100644 (file)
@@ -7,6 +7,7 @@
 #include <linux/slab.h>
 #include <linux/vmalloc.h>
 #include <linux/splice.h>
+#include <linux/compat.h>
 #include <net/checksum.h>
 #include <linux/scatterlist.h>
 #include <linux/instrumented.h>
@@ -581,7 +582,7 @@ static size_t copy_pipe_to_iter(const void *addr, size_t bytes,
 static __wsum csum_and_memcpy(void *to, const void *from, size_t len,
                              __wsum sum, size_t off)
 {
-       __wsum next = csum_partial_copy_nocheck(from, to, len, 0);
+       __wsum next = csum_partial_copy_nocheck(from, to, len);
        return csum_block_add(sum, next, off);
 }
 
@@ -637,30 +638,30 @@ size_t _copy_to_iter(const void *addr, size_t bytes, struct iov_iter *i)
 }
 EXPORT_SYMBOL(_copy_to_iter);
 
-#ifdef CONFIG_ARCH_HAS_UACCESS_MCSAFE
-static int copyout_mcsafe(void __user *to, const void *from, size_t n)
+#ifdef CONFIG_ARCH_HAS_COPY_MC
+static int copyout_mc(void __user *to, const void *from, size_t n)
 {
        if (access_ok(to, n)) {
                instrument_copy_to_user(to, from, n);
-               n = copy_to_user_mcsafe((__force void *) to, from, n);
+               n = copy_mc_to_user((__force void *) to, from, n);
        }
        return n;
 }
 
-static unsigned long memcpy_mcsafe_to_page(struct page *page, size_t offset,
+static unsigned long copy_mc_to_page(struct page *page, size_t offset,
                const char *from, size_t len)
 {
        unsigned long ret;
        char *to;
 
        to = kmap_atomic(page);
-       ret = memcpy_mcsafe(to + offset, from, len);
+       ret = copy_mc_to_kernel(to + offset, from, len);
        kunmap_atomic(to);
 
        return ret;
 }
 
-static size_t copy_pipe_to_iter_mcsafe(const void *addr, size_t bytes,
+static size_t copy_mc_pipe_to_iter(const void *addr, size_t bytes,
                                struct iov_iter *i)
 {
        struct pipe_inode_info *pipe = i->pipe;
@@ -678,7 +679,7 @@ static size_t copy_pipe_to_iter_mcsafe(const void *addr, size_t bytes,
                size_t chunk = min_t(size_t, n, PAGE_SIZE - off);
                unsigned long rem;
 
-               rem = memcpy_mcsafe_to_page(pipe->bufs[i_head & p_mask].page,
+               rem = copy_mc_to_page(pipe->bufs[i_head & p_mask].page,
                                            off, addr, chunk);
                i->head = i_head;
                i->iov_offset = off + chunk - rem;
@@ -695,18 +696,17 @@ static size_t copy_pipe_to_iter_mcsafe(const void *addr, size_t bytes,
 }
 
 /**
- * _copy_to_iter_mcsafe - copy to user with source-read error exception handling
+ * _copy_mc_to_iter - copy to iter with source memory error exception handling
  * @addr: source kernel address
  * @bytes: total transfer length
  * @iter: destination iterator
  *
- * The pmem driver arranges for filesystem-dax to use this facility via
- * dax_copy_to_iter() for protecting read/write to persistent memory.
- * Unless / until an architecture can guarantee identical performance
- * between _copy_to_iter_mcsafe() and _copy_to_iter() it would be a
- * performance regression to switch more users to the mcsafe version.
+ * The pmem driver deploys this for the dax operation
+ * (dax_copy_to_iter()) for dax reads (bypass page-cache and the
+ * block-layer). Upon #MC read(2) aborts and returns EIO or the bytes
+ * successfully copied.
  *
- * Otherwise, the main differences between this and typical _copy_to_iter().
+ * The main differences between this and typical _copy_to_iter().
  *
  * * Typical tail/residue handling after a fault retries the copy
  *   byte-by-byte until the fault happens again. Re-triggering machine
@@ -717,23 +717,22 @@ static size_t copy_pipe_to_iter_mcsafe(const void *addr, size_t bytes,
  * * ITER_KVEC, ITER_PIPE, and ITER_BVEC can return short copies.
  *   Compare to copy_to_iter() where only ITER_IOVEC attempts might return
  *   a short copy.
- *
- * See MCSAFE_TEST for self-test.
  */
-size_t _copy_to_iter_mcsafe(const void *addr, size_t bytes, struct iov_iter *i)
+size_t _copy_mc_to_iter(const void *addr, size_t bytes, struct iov_iter *i)
 {
        const char *from = addr;
        unsigned long rem, curr_addr, s_addr = (unsigned long) addr;
 
        if (unlikely(iov_iter_is_pipe(i)))
-               return copy_pipe_to_iter_mcsafe(addr, bytes, i);
+               return copy_mc_pipe_to_iter(addr, bytes, i);
        if (iter_is_iovec(i))
                might_fault();
        iterate_and_advance(i, bytes, v,
-               copyout_mcsafe(v.iov_base, (from += v.iov_len) - v.iov_len, v.iov_len),
+               copyout_mc(v.iov_base, (from += v.iov_len) - v.iov_len,
+                          v.iov_len),
                ({
-               rem = memcpy_mcsafe_to_page(v.bv_page, v.bv_offset,
-                               (from += v.bv_len) - v.bv_len, v.bv_len);
+               rem = copy_mc_to_page(v.bv_page, v.bv_offset,
+                                     (from += v.bv_len) - v.bv_len, v.bv_len);
                if (rem) {
                        curr_addr = (unsigned long) from;
                        bytes = curr_addr - s_addr - rem;
@@ -741,8 +740,8 @@ size_t _copy_to_iter_mcsafe(const void *addr, size_t bytes, struct iov_iter *i)
                }
                }),
                ({
-               rem = memcpy_mcsafe(v.iov_base, (from += v.iov_len) - v.iov_len,
-                               v.iov_len);
+               rem = copy_mc_to_kernel(v.iov_base, (from += v.iov_len)
+                                       - v.iov_len, v.iov_len);
                if (rem) {
                        curr_addr = (unsigned long) from;
                        bytes = curr_addr - s_addr - rem;
@@ -753,8 +752,8 @@ size_t _copy_to_iter_mcsafe(const void *addr, size_t bytes, struct iov_iter *i)
 
        return bytes;
 }
-EXPORT_SYMBOL_GPL(_copy_to_iter_mcsafe);
-#endif /* CONFIG_ARCH_HAS_UACCESS_MCSAFE */
+EXPORT_SYMBOL_GPL(_copy_mc_to_iter);
+#endif /* CONFIG_ARCH_HAS_COPY_MC */
 
 size_t _copy_from_iter(void *addr, size_t bytes, struct iov_iter *i)
 {
@@ -1449,15 +1448,14 @@ size_t csum_and_copy_from_iter(void *addr, size_t bytes, __wsum *csum,
                return 0;
        }
        iterate_and_advance(i, bytes, v, ({
-               int err = 0;
                next = csum_and_copy_from_user(v.iov_base,
                                               (to += v.iov_len) - v.iov_len,
-                                              v.iov_len, 0, &err);
-               if (!err) {
+                                              v.iov_len);
+               if (next) {
                        sum = csum_block_add(sum, next, off);
                        off += v.iov_len;
                }
-               err ? v.iov_len : 0;
+               next ? 0 : v.iov_len;
        }), ({
                char *p = kmap_atomic(v.bv_page);
                sum = csum_and_memcpy((to += v.bv_len) - v.bv_len,
@@ -1491,11 +1489,10 @@ bool csum_and_copy_from_iter_full(void *addr, size_t bytes, __wsum *csum,
        if (unlikely(i->count < bytes))
                return false;
        iterate_all_kinds(i, bytes, v, ({
-               int err = 0;
                next = csum_and_copy_from_user(v.iov_base,
                                               (to += v.iov_len) - v.iov_len,
-                                              v.iov_len, 0, &err);
-               if (err)
+                                              v.iov_len);
+               if (!next)
                        return false;
                sum = csum_block_add(sum, next, off);
                off += v.iov_len;
@@ -1537,15 +1534,14 @@ size_t csum_and_copy_to_iter(const void *addr, size_t bytes, void *csump,
                return 0;
        }
        iterate_and_advance(i, bytes, v, ({
-               int err = 0;
                next = csum_and_copy_to_user((from += v.iov_len) - v.iov_len,
                                             v.iov_base,
-                                            v.iov_len, 0, &err);
-               if (!err) {
+                                            v.iov_len);
+               if (next) {
                        sum = csum_block_add(sum, next, off);
                        off += v.iov_len;
                }
-               err ? v.iov_len : 0;
+               next ? 0 : v.iov_len;
        }), ({
                char *p = kmap_atomic(v.bv_page);
                sum = csum_and_memcpy(p + v.bv_offset,
@@ -1650,16 +1646,145 @@ const void *dup_iter(struct iov_iter *new, struct iov_iter *old, gfp_t flags)
 }
 EXPORT_SYMBOL(dup_iter);
 
+static int copy_compat_iovec_from_user(struct iovec *iov,
+               const struct iovec __user *uvec, unsigned long nr_segs)
+{
+       const struct compat_iovec __user *uiov =
+               (const struct compat_iovec __user *)uvec;
+       int ret = -EFAULT, i;
+
+       if (!user_access_begin(uvec, nr_segs * sizeof(*uvec)))
+               return -EFAULT;
+
+       for (i = 0; i < nr_segs; i++) {
+               compat_uptr_t buf;
+               compat_ssize_t len;
+
+               unsafe_get_user(len, &uiov[i].iov_len, uaccess_end);
+               unsafe_get_user(buf, &uiov[i].iov_base, uaccess_end);
+
+               /* check for compat_size_t not fitting in compat_ssize_t .. */
+               if (len < 0) {
+                       ret = -EINVAL;
+                       goto uaccess_end;
+               }
+               iov[i].iov_base = compat_ptr(buf);
+               iov[i].iov_len = len;
+       }
+
+       ret = 0;
+uaccess_end:
+       user_access_end();
+       return ret;
+}
+
+static int copy_iovec_from_user(struct iovec *iov,
+               const struct iovec __user *uvec, unsigned long nr_segs)
+{
+       unsigned long seg;
+
+       if (copy_from_user(iov, uvec, nr_segs * sizeof(*uvec)))
+               return -EFAULT;
+       for (seg = 0; seg < nr_segs; seg++) {
+               if ((ssize_t)iov[seg].iov_len < 0)
+                       return -EINVAL;
+       }
+
+       return 0;
+}
+
+struct iovec *iovec_from_user(const struct iovec __user *uvec,
+               unsigned long nr_segs, unsigned long fast_segs,
+               struct iovec *fast_iov, bool compat)
+{
+       struct iovec *iov = fast_iov;
+       int ret;
+
+       /*
+        * SuS says "The readv() function *may* fail if the iovcnt argument was
+        * less than or equal to 0, or greater than {IOV_MAX}.  Linux has
+        * traditionally returned zero for zero segments, so...
+        */
+       if (nr_segs == 0)
+               return iov;
+       if (nr_segs > UIO_MAXIOV)
+               return ERR_PTR(-EINVAL);
+       if (nr_segs > fast_segs) {
+               iov = kmalloc_array(nr_segs, sizeof(struct iovec), GFP_KERNEL);
+               if (!iov)
+                       return ERR_PTR(-ENOMEM);
+       }
+
+       if (compat)
+               ret = copy_compat_iovec_from_user(iov, uvec, nr_segs);
+       else
+               ret = copy_iovec_from_user(iov, uvec, nr_segs);
+       if (ret) {
+               if (iov != fast_iov)
+                       kfree(iov);
+               return ERR_PTR(ret);
+       }
+
+       return iov;
+}
+
+ssize_t __import_iovec(int type, const struct iovec __user *uvec,
+                unsigned nr_segs, unsigned fast_segs, struct iovec **iovp,
+                struct iov_iter *i, bool compat)
+{
+       ssize_t total_len = 0;
+       unsigned long seg;
+       struct iovec *iov;
+
+       iov = iovec_from_user(uvec, nr_segs, fast_segs, *iovp, compat);
+       if (IS_ERR(iov)) {
+               *iovp = NULL;
+               return PTR_ERR(iov);
+       }
+
+       /*
+        * According to the Single Unix Specification we should return EINVAL if
+        * an element length is < 0 when cast to ssize_t or if the total length
+        * would overflow the ssize_t return value of the system call.
+        *
+        * Linux caps all read/write calls to MAX_RW_COUNT, and avoids the
+        * overflow case.
+        */
+       for (seg = 0; seg < nr_segs; seg++) {
+               ssize_t len = (ssize_t)iov[seg].iov_len;
+
+               if (!access_ok(iov[seg].iov_base, len)) {
+                       if (iov != *iovp)
+                               kfree(iov);
+                       *iovp = NULL;
+                       return -EFAULT;
+               }
+
+               if (len > MAX_RW_COUNT - total_len) {
+                       len = MAX_RW_COUNT - total_len;
+                       iov[seg].iov_len = len;
+               }
+               total_len += len;
+       }
+
+       iov_iter_init(i, type, iov, nr_segs, total_len);
+       if (iov == *iovp)
+               *iovp = NULL;
+       else
+               *iovp = iov;
+       return total_len;
+}
+
 /**
  * import_iovec() - Copy an array of &struct iovec from userspace
  *     into the kernel, check that it is valid, and initialize a new
  *     &struct iov_iter iterator to access it.
  *
  * @type: One of %READ or %WRITE.
- * @uvector: Pointer to the userspace array.
+ * @uvec: Pointer to the userspace array.
  * @nr_segs: Number of elements in userspace array.
  * @fast_segs: Number of elements in @iov.
- * @iov: (input and output parameter) Pointer to pointer to (usually small
+ * @iovp: (input and output parameter) Pointer to pointer to (usually small
  *     on-stack) kernel array.
  * @i: Pointer to iterator that will be initialized on success.
  *
@@ -1672,51 +1797,15 @@ EXPORT_SYMBOL(dup_iter);
  *
  * Return: Negative error code on error, bytes imported on success
  */
-ssize_t import_iovec(int type, const struct iovec __user * uvector,
+ssize_t import_iovec(int type, const struct iovec __user *uvec,
                 unsigned nr_segs, unsigned fast_segs,
-                struct iovec **iov, struct iov_iter *i)
+                struct iovec **iovp, struct iov_iter *i)
 {
-       ssize_t n;
-       struct iovec *p;
-       n = rw_copy_check_uvector(type, uvector, nr_segs, fast_segs,
-                                 *iov, &p);
-       if (n < 0) {
-               if (p != *iov)
-                       kfree(p);
-               *iov = NULL;
-               return n;
-       }
-       iov_iter_init(i, type, p, nr_segs, n);
-       *iov = p == *iov ? NULL : p;
-       return n;
+       return __import_iovec(type, uvec, nr_segs, fast_segs, iovp, i,
+                             in_compat_syscall());
 }
 EXPORT_SYMBOL(import_iovec);
 
-#ifdef CONFIG_COMPAT
-#include <linux/compat.h>
-
-ssize_t compat_import_iovec(int type,
-               const struct compat_iovec __user * uvector,
-               unsigned nr_segs, unsigned fast_segs,
-               struct iovec **iov, struct iov_iter *i)
-{
-       ssize_t n;
-       struct iovec *p;
-       n = compat_rw_copy_check_uvector(type, uvector, nr_segs, fast_segs,
-                                 *iov, &p);
-       if (n < 0) {
-               if (p != *iov)
-                       kfree(p);
-               *iov = NULL;
-               return n;
-       }
-       iov_iter_init(i, type, p, nr_segs, n);
-       *iov = p == *iov ? NULL : p;
-       return n;
-}
-EXPORT_SYMBOL(compat_import_iovec);
-#endif
-
 int import_single_range(int rw, void __user *buf, size_t len,
                 struct iovec *iov, struct iov_iter *i)
 {
index 14f44f5..a899b3f 100644 (file)
@@ -28,6 +28,7 @@
  * Change this to 1 if you want to see the failure printouts:
  */
 static unsigned int debug_locks_verbose;
+unsigned int force_read_lock_recursive;
 
 static DEFINE_WD_CLASS(ww_lockdep);
 
@@ -399,6 +400,49 @@ static void rwsem_ABBA1(void)
  * read_lock(A)
  * spin_lock(B)
  *             spin_lock(B)
+ *             write_lock(A)
+ *
+ * This test case is aimed at poking whether the chain cache prevents us from
+ * detecting a read-lock/lock-write deadlock: if the chain cache doesn't differ
+ * read/write locks, the following case may happen
+ *
+ *     { read_lock(A)->lock(B) dependency exists }
+ *
+ *     P0:
+ *     lock(B);
+ *     read_lock(A);
+ *
+ *     { Not a deadlock, B -> A is added in the chain cache }
+ *
+ *     P1:
+ *     lock(B);
+ *     write_lock(A);
+ *
+ *     { B->A found in chain cache, not reported as a deadlock }
+ *
+ */
+static void rlock_chaincache_ABBA1(void)
+{
+       RL(X1);
+       L(Y1);
+       U(Y1);
+       RU(X1);
+
+       L(Y1);
+       RL(X1);
+       RU(X1);
+       U(Y1);
+
+       L(Y1);
+       WL(X1);
+       WU(X1);
+       U(Y1); // should fail
+}
+
+/*
+ * read_lock(A)
+ * spin_lock(B)
+ *             spin_lock(B)
  *             read_lock(A)
  */
 static void rlock_ABBA2(void)
@@ -991,6 +1035,133 @@ GENERATE_PERMUTATIONS_3_EVENTS(irq_inversion_soft_wlock)
 #undef E3
 
 /*
+ * write-read / write-read / write-read deadlock even if read is recursive
+ */
+
+#define E1()                           \
+                                       \
+       WL(X1);                         \
+       RL(Y1);                         \
+       RU(Y1);                         \
+       WU(X1);
+
+#define E2()                           \
+                                       \
+       WL(Y1);                         \
+       RL(Z1);                         \
+       RU(Z1);                         \
+       WU(Y1);
+
+#define E3()                           \
+                                       \
+       WL(Z1);                         \
+       RL(X1);                         \
+       RU(X1);                         \
+       WU(Z1);
+
+#include "locking-selftest-rlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(W1R2_W2R3_W3R1)
+
+#undef E1
+#undef E2
+#undef E3
+
+/*
+ * write-write / read-read / write-read deadlock even if read is recursive
+ */
+
+#define E1()                           \
+                                       \
+       WL(X1);                         \
+       WL(Y1);                         \
+       WU(Y1);                         \
+       WU(X1);
+
+#define E2()                           \
+                                       \
+       RL(Y1);                         \
+       RL(Z1);                         \
+       RU(Z1);                         \
+       RU(Y1);
+
+#define E3()                           \
+                                       \
+       WL(Z1);                         \
+       RL(X1);                         \
+       RU(X1);                         \
+       WU(Z1);
+
+#include "locking-selftest-rlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(W1W2_R2R3_W3R1)
+
+#undef E1
+#undef E2
+#undef E3
+
+/*
+ * write-write / read-read / read-write is not deadlock when read is recursive
+ */
+
+#define E1()                           \
+                                       \
+       WL(X1);                         \
+       WL(Y1);                         \
+       WU(Y1);                         \
+       WU(X1);
+
+#define E2()                           \
+                                       \
+       RL(Y1);                         \
+       RL(Z1);                         \
+       RU(Z1);                         \
+       RU(Y1);
+
+#define E3()                           \
+                                       \
+       RL(Z1);                         \
+       WL(X1);                         \
+       WU(X1);                         \
+       RU(Z1);
+
+#include "locking-selftest-rlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(W1R2_R2R3_W3W1)
+
+#undef E1
+#undef E2
+#undef E3
+
+/*
+ * write-read / read-read / write-write is not deadlock when read is recursive
+ */
+
+#define E1()                           \
+                                       \
+       WL(X1);                         \
+       RL(Y1);                         \
+       RU(Y1);                         \
+       WU(X1);
+
+#define E2()                           \
+                                       \
+       RL(Y1);                         \
+       RL(Z1);                         \
+       RU(Z1);                         \
+       RU(Y1);
+
+#define E3()                           \
+                                       \
+       WL(Z1);                         \
+       WL(X1);                         \
+       WU(X1);                         \
+       WU(Z1);
+
+#include "locking-selftest-rlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(W1W2_R2R3_R3W1)
+
+#undef E1
+#undef E2
+#undef E3
+/*
  * read-lock / write-lock recursion that is actually safe.
  */
 
@@ -1009,20 +1180,28 @@ GENERATE_PERMUTATIONS_3_EVENTS(irq_inversion_soft_wlock)
 #define E3()                           \
                                        \
        IRQ_ENTER();                    \
-       RL(A);                          \
+       LOCK(A);                        \
        L(B);                           \
        U(B);                           \
-       RU(A);                          \
+       UNLOCK(A);                      \
        IRQ_EXIT();
 
 /*
- * Generate 12 testcases:
+ * Generate 24 testcases:
  */
 #include "locking-selftest-hardirq.h"
-GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion_hard)
+#include "locking-selftest-rlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion_hard_rlock)
+
+#include "locking-selftest-wlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion_hard_wlock)
 
 #include "locking-selftest-softirq.h"
-GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion_soft)
+#include "locking-selftest-rlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion_soft_rlock)
+
+#include "locking-selftest-wlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion_soft_wlock)
 
 #undef E1
 #undef E2
@@ -1036,8 +1215,8 @@ GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion_soft)
                                        \
        IRQ_DISABLE();                  \
        L(B);                           \
-       WL(A);                          \
-       WU(A);                          \
+       LOCK(A);                        \
+       UNLOCK(A);                      \
        U(B);                           \
        IRQ_ENABLE();
 
@@ -1054,13 +1233,75 @@ GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion_soft)
        IRQ_EXIT();
 
 /*
- * Generate 12 testcases:
+ * Generate 24 testcases:
  */
 #include "locking-selftest-hardirq.h"
-// GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion2_hard)
+#include "locking-selftest-rlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion2_hard_rlock)
+
+#include "locking-selftest-wlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion2_hard_wlock)
 
 #include "locking-selftest-softirq.h"
-// GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion2_soft)
+#include "locking-selftest-rlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion2_soft_rlock)
+
+#include "locking-selftest-wlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion2_soft_wlock)
+
+#undef E1
+#undef E2
+#undef E3
+/*
+ * read-lock / write-lock recursion that is unsafe.
+ *
+ * A is a ENABLED_*_READ lock
+ * B is a USED_IN_*_READ lock
+ *
+ * read_lock(A);
+ *                     write_lock(B);
+ * <interrupt>
+ * read_lock(B);
+ *                     write_lock(A); // if this one is read_lock(), no deadlock
+ */
+
+#define E1()                           \
+                                       \
+       IRQ_DISABLE();                  \
+       WL(B);                          \
+       LOCK(A);                        \
+       UNLOCK(A);                      \
+       WU(B);                          \
+       IRQ_ENABLE();
+
+#define E2()                           \
+                                       \
+       RL(A);                          \
+       RU(A);                          \
+
+#define E3()                           \
+                                       \
+       IRQ_ENTER();                    \
+       RL(B);                          \
+       RU(B);                          \
+       IRQ_EXIT();
+
+/*
+ * Generate 24 testcases:
+ */
+#include "locking-selftest-hardirq.h"
+#include "locking-selftest-rlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion3_hard_rlock)
+
+#include "locking-selftest-wlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion3_hard_wlock)
+
+#include "locking-selftest-softirq.h"
+#include "locking-selftest-rlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion3_soft_rlock)
+
+#include "locking-selftest-wlock.h"
+GENERATE_PERMUTATIONS_3_EVENTS(irq_read_recursion3_soft_wlock)
 
 #ifdef CONFIG_DEBUG_LOCK_ALLOC
 # define I_SPINLOCK(x) lockdep_reset_lock(&lock_##x.dep_map)
@@ -1199,6 +1440,19 @@ static inline void print_testname(const char *testname)
        dotest(name##_##nr, FAILURE, LOCKTYPE_RWLOCK);          \
        pr_cont("\n");
 
+#define DO_TESTCASE_1RR(desc, name, nr)                                \
+       print_testname(desc"/"#nr);                             \
+       pr_cont("             |");                              \
+       dotest(name##_##nr, SUCCESS, LOCKTYPE_RWLOCK);          \
+       pr_cont("\n");
+
+#define DO_TESTCASE_1RRB(desc, name, nr)                       \
+       print_testname(desc"/"#nr);                             \
+       pr_cont("             |");                              \
+       dotest(name##_##nr, FAILURE, LOCKTYPE_RWLOCK);          \
+       pr_cont("\n");
+
+
 #define DO_TESTCASE_3(desc, name, nr)                          \
        print_testname(desc"/"#nr);                             \
        dotest(name##_spin_##nr, FAILURE, LOCKTYPE_SPIN);       \
@@ -1213,6 +1467,25 @@ static inline void print_testname(const char *testname)
        dotest(name##_rlock_##nr, SUCCESS, LOCKTYPE_RWLOCK);    \
        pr_cont("\n");
 
+#define DO_TESTCASE_2RW(desc, name, nr)                                \
+       print_testname(desc"/"#nr);                             \
+       pr_cont("      |");                                     \
+       dotest(name##_wlock_##nr, FAILURE, LOCKTYPE_RWLOCK);    \
+       dotest(name##_rlock_##nr, SUCCESS, LOCKTYPE_RWLOCK);    \
+       pr_cont("\n");
+
+#define DO_TESTCASE_2x2RW(desc, name, nr)                      \
+       DO_TESTCASE_2RW("hard-"desc, name##_hard, nr)           \
+       DO_TESTCASE_2RW("soft-"desc, name##_soft, nr)           \
+
+#define DO_TESTCASE_6x2x2RW(desc, name)                                \
+       DO_TESTCASE_2x2RW(desc, name, 123);                     \
+       DO_TESTCASE_2x2RW(desc, name, 132);                     \
+       DO_TESTCASE_2x2RW(desc, name, 213);                     \
+       DO_TESTCASE_2x2RW(desc, name, 231);                     \
+       DO_TESTCASE_2x2RW(desc, name, 312);                     \
+       DO_TESTCASE_2x2RW(desc, name, 321);
+
 #define DO_TESTCASE_6(desc, name)                              \
        print_testname(desc);                                   \
        dotest(name##_spin, FAILURE, LOCKTYPE_SPIN);            \
@@ -1289,6 +1562,22 @@ static inline void print_testname(const char *testname)
        DO_TESTCASE_2IB(desc, name, 312);                       \
        DO_TESTCASE_2IB(desc, name, 321);
 
+#define DO_TESTCASE_6x1RR(desc, name)                          \
+       DO_TESTCASE_1RR(desc, name, 123);                       \
+       DO_TESTCASE_1RR(desc, name, 132);                       \
+       DO_TESTCASE_1RR(desc, name, 213);                       \
+       DO_TESTCASE_1RR(desc, name, 231);                       \
+       DO_TESTCASE_1RR(desc, name, 312);                       \
+       DO_TESTCASE_1RR(desc, name, 321);
+
+#define DO_TESTCASE_6x1RRB(desc, name)                         \
+       DO_TESTCASE_1RRB(desc, name, 123);                      \
+       DO_TESTCASE_1RRB(desc, name, 132);                      \
+       DO_TESTCASE_1RRB(desc, name, 213);                      \
+       DO_TESTCASE_1RRB(desc, name, 231);                      \
+       DO_TESTCASE_1RRB(desc, name, 312);                      \
+       DO_TESTCASE_1RRB(desc, name, 321);
+
 #define DO_TESTCASE_6x6(desc, name)                            \
        DO_TESTCASE_6I(desc, name, 123);                        \
        DO_TESTCASE_6I(desc, name, 132);                        \
@@ -1966,6 +2255,108 @@ static void ww_tests(void)
        pr_cont("\n");
 }
 
+
+/*
+ * <in hardirq handler>
+ * read_lock(&A);
+ *                     <hardirq disable>
+ *                     spin_lock(&B);
+ * spin_lock(&B);
+ *                     read_lock(&A);
+ *
+ * is a deadlock.
+ */
+static void queued_read_lock_hardirq_RE_Er(void)
+{
+       HARDIRQ_ENTER();
+       read_lock(&rwlock_A);
+       LOCK(B);
+       UNLOCK(B);
+       read_unlock(&rwlock_A);
+       HARDIRQ_EXIT();
+
+       HARDIRQ_DISABLE();
+       LOCK(B);
+       read_lock(&rwlock_A);
+       read_unlock(&rwlock_A);
+       UNLOCK(B);
+       HARDIRQ_ENABLE();
+}
+
+/*
+ * <in hardirq handler>
+ * spin_lock(&B);
+ *                     <hardirq disable>
+ *                     read_lock(&A);
+ * read_lock(&A);
+ *                     spin_lock(&B);
+ *
+ * is not a deadlock.
+ */
+static void queued_read_lock_hardirq_ER_rE(void)
+{
+       HARDIRQ_ENTER();
+       LOCK(B);
+       read_lock(&rwlock_A);
+       read_unlock(&rwlock_A);
+       UNLOCK(B);
+       HARDIRQ_EXIT();
+
+       HARDIRQ_DISABLE();
+       read_lock(&rwlock_A);
+       LOCK(B);
+       UNLOCK(B);
+       read_unlock(&rwlock_A);
+       HARDIRQ_ENABLE();
+}
+
+/*
+ * <hardirq disable>
+ * spin_lock(&B);
+ *                     read_lock(&A);
+ *                     <in hardirq handler>
+ *                     spin_lock(&B);
+ * read_lock(&A);
+ *
+ * is a deadlock. Because the two read_lock()s are both non-recursive readers.
+ */
+static void queued_read_lock_hardirq_inversion(void)
+{
+
+       HARDIRQ_ENTER();
+       LOCK(B);
+       UNLOCK(B);
+       HARDIRQ_EXIT();
+
+       HARDIRQ_DISABLE();
+       LOCK(B);
+       read_lock(&rwlock_A);
+       read_unlock(&rwlock_A);
+       UNLOCK(B);
+       HARDIRQ_ENABLE();
+
+       read_lock(&rwlock_A);
+       read_unlock(&rwlock_A);
+}
+
+static void queued_read_lock_tests(void)
+{
+       printk("  --------------------------------------------------------------------------\n");
+       printk("  | queued read lock tests |\n");
+       printk("  ---------------------------\n");
+       print_testname("hardirq read-lock/lock-read");
+       dotest(queued_read_lock_hardirq_RE_Er, FAILURE, LOCKTYPE_RWLOCK);
+       pr_cont("\n");
+
+       print_testname("hardirq lock-read/read-lock");
+       dotest(queued_read_lock_hardirq_ER_rE, SUCCESS, LOCKTYPE_RWLOCK);
+       pr_cont("\n");
+
+       print_testname("hardirq inversion");
+       dotest(queued_read_lock_hardirq_inversion, FAILURE, LOCKTYPE_RWLOCK);
+       pr_cont("\n");
+}
+
 void locking_selftest(void)
 {
        /*
@@ -1979,6 +2370,11 @@ void locking_selftest(void)
        }
 
        /*
+        * treats read_lock() as recursive read locks for testing purpose
+        */
+       force_read_lock_recursive = 1;
+
+       /*
         * Run the testsuite:
         */
        printk("------------------------\n");
@@ -2033,14 +2429,6 @@ void locking_selftest(void)
        print_testname("mixed read-lock/lock-write ABBA");
        pr_cont("             |");
        dotest(rlock_ABBA1, FAILURE, LOCKTYPE_RWLOCK);
-#ifdef CONFIG_PROVE_LOCKING
-       /*
-        * Lockdep does indeed fail here, but there's nothing we can do about
-        * that now.  Don't kill lockdep for it.
-        */
-       unexpected_testcase_failures--;
-#endif
-
        pr_cont("             |");
        dotest(rwsem_ABBA1, FAILURE, LOCKTYPE_RWSEM);
 
@@ -2056,6 +2444,15 @@ void locking_selftest(void)
        pr_cont("             |");
        dotest(rwsem_ABBA3, FAILURE, LOCKTYPE_RWSEM);
 
+       print_testname("chain cached mixed R-L/L-W ABBA");
+       pr_cont("             |");
+       dotest(rlock_chaincache_ABBA1, FAILURE, LOCKTYPE_RWLOCK);
+
+       DO_TESTCASE_6x1RRB("rlock W1R2/W2R3/W3R1", W1R2_W2R3_W3R1);
+       DO_TESTCASE_6x1RRB("rlock W1W2/R2R3/W3R1", W1W2_R2R3_W3R1);
+       DO_TESTCASE_6x1RR("rlock W1W2/R2R3/R3W1", W1W2_R2R3_R3W1);
+       DO_TESTCASE_6x1RR("rlock W1R2/R2R3/W3W1", W1R2_R2R3_W3W1);
+
        printk("  --------------------------------------------------------------------------\n");
 
        /*
@@ -2068,11 +2465,19 @@ void locking_selftest(void)
        DO_TESTCASE_6x6("safe-A + unsafe-B #2", irqsafe4);
        DO_TESTCASE_6x6RW("irq lock-inversion", irq_inversion);
 
-       DO_TESTCASE_6x2("irq read-recursion", irq_read_recursion);
-//     DO_TESTCASE_6x2B("irq read-recursion #2", irq_read_recursion2);
+       DO_TESTCASE_6x2x2RW("irq read-recursion", irq_read_recursion);
+       DO_TESTCASE_6x2x2RW("irq read-recursion #2", irq_read_recursion2);
+       DO_TESTCASE_6x2x2RW("irq read-recursion #3", irq_read_recursion3);
 
        ww_tests();
 
+       force_read_lock_recursive = 0;
+       /*
+        * queued_read_lock() specific test cases can be put here
+        */
+       if (IS_ENABLED(CONFIG_QUEUED_RWLOCKS))
+               queued_read_lock_tests();
+
        if (unexpected_testcase_failures) {
                printk("-----------------------------------------------------------------\n");
                debug_locks = 0;
index 43b8fce..6e6ef9a 100644 (file)
@@ -13,10 +13,16 @@ mpi-y = \
        generic_mpih-rshift.o           \
        generic_mpih-sub1.o             \
        generic_mpih-add1.o             \
+       ec.o                            \
        mpicoder.o                      \
+       mpi-add.o                       \
        mpi-bit.o                       \
        mpi-cmp.o                       \
        mpi-sub-ui.o                    \
+       mpi-div.o                       \
+       mpi-inv.o                       \
+       mpi-mod.o                       \
+       mpi-mul.o                       \
        mpih-cmp.o                      \
        mpih-div.o                      \
        mpih-mul.o                      \
diff --git a/lib/mpi/ec.c b/lib/mpi/ec.c
new file mode 100644 (file)
index 0000000..c214701
--- /dev/null
@@ -0,0 +1,1509 @@
+/* ec.c -  Elliptic Curve functions
+ * Copyright (C) 2007 Free Software Foundation, Inc.
+ * Copyright (C) 2013 g10 Code GmbH
+ *
+ * This file is part of Libgcrypt.
+ *
+ * Libgcrypt is free software; you can redistribute it and/or modify
+ * it under the terms of the GNU Lesser General Public License as
+ * published by the Free Software Foundation; either version 2.1 of
+ * the License, or (at your option) any later version.
+ *
+ * Libgcrypt is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+ * GNU Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this program; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#include "mpi-internal.h"
+#include "longlong.h"
+
+#define point_init(a)  mpi_point_init((a))
+#define point_free(a)  mpi_point_free_parts((a))
+
+#define log_error(fmt, ...) pr_err(fmt, ##__VA_ARGS__)
+#define log_fatal(fmt, ...) pr_err(fmt, ##__VA_ARGS__)
+
+#define DIM(v) (sizeof(v)/sizeof((v)[0]))
+
+
+/* Create a new point option.  NBITS gives the size in bits of one
+ * coordinate; it is only used to pre-allocate some resources and
+ * might also be passed as 0 to use a default value.
+ */
+MPI_POINT mpi_point_new(unsigned int nbits)
+{
+       MPI_POINT p;
+
+       (void)nbits;  /* Currently not used.  */
+
+       p = kmalloc(sizeof(*p), GFP_KERNEL);
+       if (p)
+               mpi_point_init(p);
+       return p;
+}
+EXPORT_SYMBOL_GPL(mpi_point_new);
+
+/* Release the point object P.  P may be NULL. */
+void mpi_point_release(MPI_POINT p)
+{
+       if (p) {
+               mpi_point_free_parts(p);
+               kfree(p);
+       }
+}
+EXPORT_SYMBOL_GPL(mpi_point_release);
+
+/* Initialize the fields of a point object.  gcry_mpi_point_free_parts
+ * may be used to release the fields.
+ */
+void mpi_point_init(MPI_POINT p)
+{
+       p->x = mpi_new(0);
+       p->y = mpi_new(0);
+       p->z = mpi_new(0);
+}
+EXPORT_SYMBOL_GPL(mpi_point_init);
+
+/* Release the parts of a point object. */
+void mpi_point_free_parts(MPI_POINT p)
+{
+       mpi_free(p->x); p->x = NULL;
+       mpi_free(p->y); p->y = NULL;
+       mpi_free(p->z); p->z = NULL;
+}
+EXPORT_SYMBOL_GPL(mpi_point_free_parts);
+
+/* Set the value from S into D.  */
+static void point_set(MPI_POINT d, MPI_POINT s)
+{
+       mpi_set(d->x, s->x);
+       mpi_set(d->y, s->y);
+       mpi_set(d->z, s->z);
+}
+
+static void point_resize(MPI_POINT p, struct mpi_ec_ctx *ctx)
+{
+       size_t nlimbs = ctx->p->nlimbs;
+
+       mpi_resize(p->x, nlimbs);
+       p->x->nlimbs = nlimbs;
+       mpi_resize(p->z, nlimbs);
+       p->z->nlimbs = nlimbs;
+
+       if (ctx->model != MPI_EC_MONTGOMERY) {
+               mpi_resize(p->y, nlimbs);
+               p->y->nlimbs = nlimbs;
+       }
+}
+
+static void point_swap_cond(MPI_POINT d, MPI_POINT s, unsigned long swap,
+               struct mpi_ec_ctx *ctx)
+{
+       mpi_swap_cond(d->x, s->x, swap);
+       if (ctx->model != MPI_EC_MONTGOMERY)
+               mpi_swap_cond(d->y, s->y, swap);
+       mpi_swap_cond(d->z, s->z, swap);
+}
+
+
+/* W = W mod P.  */
+static void ec_mod(MPI w, struct mpi_ec_ctx *ec)
+{
+       if (ec->t.p_barrett)
+               mpi_mod_barrett(w, w, ec->t.p_barrett);
+       else
+               mpi_mod(w, w, ec->p);
+}
+
+static void ec_addm(MPI w, MPI u, MPI v, struct mpi_ec_ctx *ctx)
+{
+       mpi_add(w, u, v);
+       ec_mod(w, ctx);
+}
+
+static void ec_subm(MPI w, MPI u, MPI v, struct mpi_ec_ctx *ec)
+{
+       mpi_sub(w, u, v);
+       while (w->sign)
+               mpi_add(w, w, ec->p);
+       /*ec_mod(w, ec);*/
+}
+
+static void ec_mulm(MPI w, MPI u, MPI v, struct mpi_ec_ctx *ctx)
+{
+       mpi_mul(w, u, v);
+       ec_mod(w, ctx);
+}
+
+/* W = 2 * U mod P.  */
+static void ec_mul2(MPI w, MPI u, struct mpi_ec_ctx *ctx)
+{
+       mpi_lshift(w, u, 1);
+       ec_mod(w, ctx);
+}
+
+static void ec_powm(MPI w, const MPI b, const MPI e,
+               struct mpi_ec_ctx *ctx)
+{
+       mpi_powm(w, b, e, ctx->p);
+       /* mpi_abs(w); */
+}
+
+/* Shortcut for
+ * ec_powm(B, B, mpi_const(MPI_C_TWO), ctx);
+ * for easier optimization.
+ */
+static void ec_pow2(MPI w, const MPI b, struct mpi_ec_ctx *ctx)
+{
+       /* Using mpi_mul is slightly faster (at least on amd64).  */
+       /* mpi_powm(w, b, mpi_const(MPI_C_TWO), ctx->p); */
+       ec_mulm(w, b, b, ctx);
+}
+
+/* Shortcut for
+ * ec_powm(B, B, mpi_const(MPI_C_THREE), ctx);
+ * for easier optimization.
+ */
+static void ec_pow3(MPI w, const MPI b, struct mpi_ec_ctx *ctx)
+{
+       mpi_powm(w, b, mpi_const(MPI_C_THREE), ctx->p);
+}
+
+static void ec_invm(MPI x, MPI a, struct mpi_ec_ctx *ctx)
+{
+       if (!mpi_invm(x, a, ctx->p))
+               log_error("ec_invm: inverse does not exist:\n");
+}
+
+static void mpih_set_cond(mpi_ptr_t wp, mpi_ptr_t up,
+               mpi_size_t usize, unsigned long set)
+{
+       mpi_size_t i;
+       mpi_limb_t mask = ((mpi_limb_t)0) - set;
+       mpi_limb_t x;
+
+       for (i = 0; i < usize; i++) {
+               x = mask & (wp[i] ^ up[i]);
+               wp[i] = wp[i] ^ x;
+       }
+}
+
+/* Routines for 2^255 - 19.  */
+
+#define LIMB_SIZE_25519 ((256+BITS_PER_MPI_LIMB-1)/BITS_PER_MPI_LIMB)
+
+static void ec_addm_25519(MPI w, MPI u, MPI v, struct mpi_ec_ctx *ctx)
+{
+       mpi_ptr_t wp, up, vp;
+       mpi_size_t wsize = LIMB_SIZE_25519;
+       mpi_limb_t n[LIMB_SIZE_25519];
+       mpi_limb_t borrow;
+
+       if (w->nlimbs != wsize || u->nlimbs != wsize || v->nlimbs != wsize)
+               log_bug("addm_25519: different sizes\n");
+
+       memset(n, 0, sizeof(n));
+       up = u->d;
+       vp = v->d;
+       wp = w->d;
+
+       mpihelp_add_n(wp, up, vp, wsize);
+       borrow = mpihelp_sub_n(wp, wp, ctx->p->d, wsize);
+       mpih_set_cond(n, ctx->p->d, wsize, (borrow != 0UL));
+       mpihelp_add_n(wp, wp, n, wsize);
+       wp[LIMB_SIZE_25519-1] &= ~((mpi_limb_t)1 << (255 % BITS_PER_MPI_LIMB));
+}
+
+static void ec_subm_25519(MPI w, MPI u, MPI v, struct mpi_ec_ctx *ctx)
+{
+       mpi_ptr_t wp, up, vp;
+       mpi_size_t wsize = LIMB_SIZE_25519;
+       mpi_limb_t n[LIMB_SIZE_25519];
+       mpi_limb_t borrow;
+
+       if (w->nlimbs != wsize || u->nlimbs != wsize || v->nlimbs != wsize)
+               log_bug("subm_25519: different sizes\n");
+
+       memset(n, 0, sizeof(n));
+       up = u->d;
+       vp = v->d;
+       wp = w->d;
+
+       borrow = mpihelp_sub_n(wp, up, vp, wsize);
+       mpih_set_cond(n, ctx->p->d, wsize, (borrow != 0UL));
+       mpihelp_add_n(wp, wp, n, wsize);
+       wp[LIMB_SIZE_25519-1] &= ~((mpi_limb_t)1 << (255 % BITS_PER_MPI_LIMB));
+}
+
+static void ec_mulm_25519(MPI w, MPI u, MPI v, struct mpi_ec_ctx *ctx)
+{
+       mpi_ptr_t wp, up, vp;
+       mpi_size_t wsize = LIMB_SIZE_25519;
+       mpi_limb_t n[LIMB_SIZE_25519*2];
+       mpi_limb_t m[LIMB_SIZE_25519+1];
+       mpi_limb_t cy;
+       int msb;
+
+       (void)ctx;
+       if (w->nlimbs != wsize || u->nlimbs != wsize || v->nlimbs != wsize)
+               log_bug("mulm_25519: different sizes\n");
+
+       up = u->d;
+       vp = v->d;
+       wp = w->d;
+
+       mpihelp_mul_n(n, up, vp, wsize);
+       memcpy(wp, n, wsize * BYTES_PER_MPI_LIMB);
+       wp[LIMB_SIZE_25519-1] &= ~((mpi_limb_t)1 << (255 % BITS_PER_MPI_LIMB));
+
+       memcpy(m, n+LIMB_SIZE_25519-1, (wsize+1) * BYTES_PER_MPI_LIMB);
+       mpihelp_rshift(m, m, LIMB_SIZE_25519+1, (255 % BITS_PER_MPI_LIMB));
+
+       memcpy(n, m, wsize * BYTES_PER_MPI_LIMB);
+       cy = mpihelp_lshift(m, m, LIMB_SIZE_25519, 4);
+       m[LIMB_SIZE_25519] = cy;
+       cy = mpihelp_add_n(m, m, n, wsize);
+       m[LIMB_SIZE_25519] += cy;
+       cy = mpihelp_add_n(m, m, n, wsize);
+       m[LIMB_SIZE_25519] += cy;
+       cy = mpihelp_add_n(m, m, n, wsize);
+       m[LIMB_SIZE_25519] += cy;
+
+       cy = mpihelp_add_n(wp, wp, m, wsize);
+       m[LIMB_SIZE_25519] += cy;
+
+       memset(m, 0, wsize * BYTES_PER_MPI_LIMB);
+       msb = (wp[LIMB_SIZE_25519-1] >> (255 % BITS_PER_MPI_LIMB));
+       m[0] = (m[LIMB_SIZE_25519] * 2 + msb) * 19;
+       wp[LIMB_SIZE_25519-1] &= ~((mpi_limb_t)1 << (255 % BITS_PER_MPI_LIMB));
+       mpihelp_add_n(wp, wp, m, wsize);
+
+       m[0] = 0;
+       cy = mpihelp_sub_n(wp, wp, ctx->p->d, wsize);
+       mpih_set_cond(m, ctx->p->d, wsize, (cy != 0UL));
+       mpihelp_add_n(wp, wp, m, wsize);
+}
+
+static void ec_mul2_25519(MPI w, MPI u, struct mpi_ec_ctx *ctx)
+{
+       ec_addm_25519(w, u, u, ctx);
+}
+
+static void ec_pow2_25519(MPI w, const MPI b, struct mpi_ec_ctx *ctx)
+{
+       ec_mulm_25519(w, b, b, ctx);
+}
+
+/* Routines for 2^448 - 2^224 - 1.  */
+
+#define LIMB_SIZE_448 ((448+BITS_PER_MPI_LIMB-1)/BITS_PER_MPI_LIMB)
+#define LIMB_SIZE_HALF_448 ((LIMB_SIZE_448+1)/2)
+
+static void ec_addm_448(MPI w, MPI u, MPI v, struct mpi_ec_ctx *ctx)
+{
+       mpi_ptr_t wp, up, vp;
+       mpi_size_t wsize = LIMB_SIZE_448;
+       mpi_limb_t n[LIMB_SIZE_448];
+       mpi_limb_t cy;
+
+       if (w->nlimbs != wsize || u->nlimbs != wsize || v->nlimbs != wsize)
+               log_bug("addm_448: different sizes\n");
+
+       memset(n, 0, sizeof(n));
+       up = u->d;
+       vp = v->d;
+       wp = w->d;
+
+       cy = mpihelp_add_n(wp, up, vp, wsize);
+       mpih_set_cond(n, ctx->p->d, wsize, (cy != 0UL));
+       mpihelp_sub_n(wp, wp, n, wsize);
+}
+
+static void ec_subm_448(MPI w, MPI u, MPI v, struct mpi_ec_ctx *ctx)
+{
+       mpi_ptr_t wp, up, vp;
+       mpi_size_t wsize = LIMB_SIZE_448;
+       mpi_limb_t n[LIMB_SIZE_448];
+       mpi_limb_t borrow;
+
+       if (w->nlimbs != wsize || u->nlimbs != wsize || v->nlimbs != wsize)
+               log_bug("subm_448: different sizes\n");
+
+       memset(n, 0, sizeof(n));
+       up = u->d;
+       vp = v->d;
+       wp = w->d;
+
+       borrow = mpihelp_sub_n(wp, up, vp, wsize);
+       mpih_set_cond(n, ctx->p->d, wsize, (borrow != 0UL));
+       mpihelp_add_n(wp, wp, n, wsize);
+}
+
+static void ec_mulm_448(MPI w, MPI u, MPI v, struct mpi_ec_ctx *ctx)
+{
+       mpi_ptr_t wp, up, vp;
+       mpi_size_t wsize = LIMB_SIZE_448;
+       mpi_limb_t n[LIMB_SIZE_448*2];
+       mpi_limb_t a2[LIMB_SIZE_HALF_448];
+       mpi_limb_t a3[LIMB_SIZE_HALF_448];
+       mpi_limb_t b0[LIMB_SIZE_HALF_448];
+       mpi_limb_t b1[LIMB_SIZE_HALF_448];
+       mpi_limb_t cy;
+       int i;
+#if (LIMB_SIZE_HALF_448 > LIMB_SIZE_448/2)
+       mpi_limb_t b1_rest, a3_rest;
+#endif
+
+       if (w->nlimbs != wsize || u->nlimbs != wsize || v->nlimbs != wsize)
+               log_bug("mulm_448: different sizes\n");
+
+       up = u->d;
+       vp = v->d;
+       wp = w->d;
+
+       mpihelp_mul_n(n, up, vp, wsize);
+
+       for (i = 0; i < (wsize + 1) / 2; i++) {
+               b0[i] = n[i];
+               b1[i] = n[i+wsize/2];
+               a2[i] = n[i+wsize];
+               a3[i] = n[i+wsize+wsize/2];
+       }
+
+#if (LIMB_SIZE_HALF_448 > LIMB_SIZE_448/2)
+       b0[LIMB_SIZE_HALF_448-1] &= ((mpi_limb_t)1UL << 32)-1;
+       a2[LIMB_SIZE_HALF_448-1] &= ((mpi_limb_t)1UL << 32)-1;
+
+       b1_rest = 0;
+       a3_rest = 0;
+
+       for (i = (wsize + 1) / 2 - 1; i >= 0; i--) {
+               mpi_limb_t b1v, a3v;
+               b1v = b1[i];
+               a3v = a3[i];
+               b1[i] = (b1_rest << 32) | (b1v >> 32);
+               a3[i] = (a3_rest << 32) | (a3v >> 32);
+               b1_rest = b1v & (((mpi_limb_t)1UL << 32)-1);
+               a3_rest = a3v & (((mpi_limb_t)1UL << 32)-1);
+       }
+#endif
+
+       cy = mpihelp_add_n(b0, b0, a2, LIMB_SIZE_HALF_448);
+       cy += mpihelp_add_n(b0, b0, a3, LIMB_SIZE_HALF_448);
+       for (i = 0; i < (wsize + 1) / 2; i++)
+               wp[i] = b0[i];
+#if (LIMB_SIZE_HALF_448 > LIMB_SIZE_448/2)
+       wp[LIMB_SIZE_HALF_448-1] &= (((mpi_limb_t)1UL << 32)-1);
+#endif
+
+#if (LIMB_SIZE_HALF_448 > LIMB_SIZE_448/2)
+       cy = b0[LIMB_SIZE_HALF_448-1] >> 32;
+#endif
+
+       cy = mpihelp_add_1(b1, b1, LIMB_SIZE_HALF_448, cy);
+       cy += mpihelp_add_n(b1, b1, a2, LIMB_SIZE_HALF_448);
+       cy += mpihelp_add_n(b1, b1, a3, LIMB_SIZE_HALF_448);
+       cy += mpihelp_add_n(b1, b1, a3, LIMB_SIZE_HALF_448);
+#if (LIMB_SIZE_HALF_448 > LIMB_SIZE_448/2)
+       b1_rest = 0;
+       for (i = (wsize + 1) / 2 - 1; i >= 0; i--) {
+               mpi_limb_t b1v = b1[i];
+               b1[i] = (b1_rest << 32) | (b1v >> 32);
+               b1_rest = b1v & (((mpi_limb_t)1UL << 32)-1);
+       }
+       wp[LIMB_SIZE_HALF_448-1] |= (b1_rest << 32);
+#endif
+       for (i = 0; i < wsize / 2; i++)
+               wp[i+(wsize + 1) / 2] = b1[i];
+
+#if (LIMB_SIZE_HALF_448 > LIMB_SIZE_448/2)
+       cy = b1[LIMB_SIZE_HALF_448-1];
+#endif
+
+       memset(n, 0, wsize * BYTES_PER_MPI_LIMB);
+
+#if (LIMB_SIZE_HALF_448 > LIMB_SIZE_448/2)
+       n[LIMB_SIZE_HALF_448-1] = cy << 32;
+#else
+       n[LIMB_SIZE_HALF_448] = cy;
+#endif
+       n[0] = cy;
+       mpihelp_add_n(wp, wp, n, wsize);
+
+       memset(n, 0, wsize * BYTES_PER_MPI_LIMB);
+       cy = mpihelp_sub_n(wp, wp, ctx->p->d, wsize);
+       mpih_set_cond(n, ctx->p->d, wsize, (cy != 0UL));
+       mpihelp_add_n(wp, wp, n, wsize);
+}
+
+static void ec_mul2_448(MPI w, MPI u, struct mpi_ec_ctx *ctx)
+{
+       ec_addm_448(w, u, u, ctx);
+}
+
+static void ec_pow2_448(MPI w, const MPI b, struct mpi_ec_ctx *ctx)
+{
+       ec_mulm_448(w, b, b, ctx);
+}
+
+struct field_table {
+       const char *p;
+
+       /* computation routines for the field.  */
+       void (*addm)(MPI w, MPI u, MPI v, struct mpi_ec_ctx *ctx);
+       void (*subm)(MPI w, MPI u, MPI v, struct mpi_ec_ctx *ctx);
+       void (*mulm)(MPI w, MPI u, MPI v, struct mpi_ec_ctx *ctx);
+       void (*mul2)(MPI w, MPI u, struct mpi_ec_ctx *ctx);
+       void (*pow2)(MPI w, const MPI b, struct mpi_ec_ctx *ctx);
+};
+
+static const struct field_table field_table[] = {
+       {
+               "0x7FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFED",
+               ec_addm_25519,
+               ec_subm_25519,
+               ec_mulm_25519,
+               ec_mul2_25519,
+               ec_pow2_25519
+       },
+       {
+               "0xFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFE"
+               "FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF",
+               ec_addm_448,
+               ec_subm_448,
+               ec_mulm_448,
+               ec_mul2_448,
+               ec_pow2_448
+       },
+       { NULL, NULL, NULL, NULL, NULL, NULL },
+};
+
+/* Force recomputation of all helper variables.  */
+static void mpi_ec_get_reset(struct mpi_ec_ctx *ec)
+{
+       ec->t.valid.a_is_pminus3 = 0;
+       ec->t.valid.two_inv_p = 0;
+}
+
+/* Accessor for helper variable.  */
+static int ec_get_a_is_pminus3(struct mpi_ec_ctx *ec)
+{
+       MPI tmp;
+
+       if (!ec->t.valid.a_is_pminus3) {
+               ec->t.valid.a_is_pminus3 = 1;
+               tmp = mpi_alloc_like(ec->p);
+               mpi_sub_ui(tmp, ec->p, 3);
+               ec->t.a_is_pminus3 = !mpi_cmp(ec->a, tmp);
+               mpi_free(tmp);
+       }
+
+       return ec->t.a_is_pminus3;
+}
+
+/* Accessor for helper variable.  */
+static MPI ec_get_two_inv_p(struct mpi_ec_ctx *ec)
+{
+       if (!ec->t.valid.two_inv_p) {
+               ec->t.valid.two_inv_p = 1;
+               if (!ec->t.two_inv_p)
+                       ec->t.two_inv_p = mpi_alloc(0);
+               ec_invm(ec->t.two_inv_p, mpi_const(MPI_C_TWO), ec);
+       }
+       return ec->t.two_inv_p;
+}
+
+static const char *const curve25519_bad_points[] = {
+       "0x7fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffed",
+       "0x0000000000000000000000000000000000000000000000000000000000000000",
+       "0x0000000000000000000000000000000000000000000000000000000000000001",
+       "0x00b8495f16056286fdb1329ceb8d09da6ac49ff1fae35616aeb8413b7c7aebe0",
+       "0x57119fd0dd4e22d8868e1c58c45c44045bef839c55b1d0b1248c50a3bc959c5f",
+       "0x7fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffec",
+       "0x7fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffee",
+       NULL
+};
+
+static const char *const curve448_bad_points[] = {
+       "0xfffffffffffffffffffffffffffffffffffffffffffffffffffffffe"
+       "ffffffffffffffffffffffffffffffffffffffffffffffffffffffff",
+       "0x00000000000000000000000000000000000000000000000000000000"
+       "00000000000000000000000000000000000000000000000000000000",
+       "0x00000000000000000000000000000000000000000000000000000000"
+       "00000000000000000000000000000000000000000000000000000001",
+       "0xfffffffffffffffffffffffffffffffffffffffffffffffffffffffe"
+       "fffffffffffffffffffffffffffffffffffffffffffffffffffffffe",
+       "0xffffffffffffffffffffffffffffffffffffffffffffffffffffffff"
+       "00000000000000000000000000000000000000000000000000000000",
+       NULL
+};
+
+static const char *const *bad_points_table[] = {
+       curve25519_bad_points,
+       curve448_bad_points,
+};
+
+static void mpi_ec_coefficient_normalize(MPI a, MPI p)
+{
+       if (a->sign) {
+               mpi_resize(a, p->nlimbs);
+               mpihelp_sub_n(a->d, p->d, a->d, p->nlimbs);
+               a->nlimbs = p->nlimbs;
+               a->sign = 0;
+       }
+}
+
+/* This function initialized a context for elliptic curve based on the
+ * field GF(p).  P is the prime specifying this field, A is the first
+ * coefficient.  CTX is expected to be zeroized.
+ */
+void mpi_ec_init(struct mpi_ec_ctx *ctx, enum gcry_mpi_ec_models model,
+                       enum ecc_dialects dialect,
+                       int flags, MPI p, MPI a, MPI b)
+{
+       int i;
+       static int use_barrett = -1 /* TODO: 1 or -1 */;
+
+       mpi_ec_coefficient_normalize(a, p);
+       mpi_ec_coefficient_normalize(b, p);
+
+       /* Fixme: Do we want to check some constraints? e.g.  a < p  */
+
+       ctx->model = model;
+       ctx->dialect = dialect;
+       ctx->flags = flags;
+       if (dialect == ECC_DIALECT_ED25519)
+               ctx->nbits = 256;
+       else
+               ctx->nbits = mpi_get_nbits(p);
+       ctx->p = mpi_copy(p);
+       ctx->a = mpi_copy(a);
+       ctx->b = mpi_copy(b);
+
+       ctx->t.p_barrett = use_barrett > 0 ? mpi_barrett_init(ctx->p, 0) : NULL;
+
+       mpi_ec_get_reset(ctx);
+
+       if (model == MPI_EC_MONTGOMERY) {
+               for (i = 0; i < DIM(bad_points_table); i++) {
+                       MPI p_candidate = mpi_scanval(bad_points_table[i][0]);
+                       int match_p = !mpi_cmp(ctx->p, p_candidate);
+                       int j;
+
+                       mpi_free(p_candidate);
+                       if (!match_p)
+                               continue;
+
+                       for (j = 0; i < DIM(ctx->t.scratch) && bad_points_table[i][j]; j++)
+                               ctx->t.scratch[j] = mpi_scanval(bad_points_table[i][j]);
+               }
+       } else {
+               /* Allocate scratch variables.  */
+               for (i = 0; i < DIM(ctx->t.scratch); i++)
+                       ctx->t.scratch[i] = mpi_alloc_like(ctx->p);
+       }
+
+       ctx->addm = ec_addm;
+       ctx->subm = ec_subm;
+       ctx->mulm = ec_mulm;
+       ctx->mul2 = ec_mul2;
+       ctx->pow2 = ec_pow2;
+
+       for (i = 0; field_table[i].p; i++) {
+               MPI f_p;
+
+               f_p = mpi_scanval(field_table[i].p);
+               if (!f_p)
+                       break;
+
+               if (!mpi_cmp(p, f_p)) {
+                       ctx->addm = field_table[i].addm;
+                       ctx->subm = field_table[i].subm;
+                       ctx->mulm = field_table[i].mulm;
+                       ctx->mul2 = field_table[i].mul2;
+                       ctx->pow2 = field_table[i].pow2;
+                       mpi_free(f_p);
+
+                       mpi_resize(ctx->a, ctx->p->nlimbs);
+                       ctx->a->nlimbs = ctx->p->nlimbs;
+
+                       mpi_resize(ctx->b, ctx->p->nlimbs);
+                       ctx->b->nlimbs = ctx->p->nlimbs;
+
+                       for (i = 0; i < DIM(ctx->t.scratch) && ctx->t.scratch[i]; i++)
+                               ctx->t.scratch[i]->nlimbs = ctx->p->nlimbs;
+
+                       break;
+               }
+
+               mpi_free(f_p);
+       }
+}
+EXPORT_SYMBOL_GPL(mpi_ec_init);
+
+void mpi_ec_deinit(struct mpi_ec_ctx *ctx)
+{
+       int i;
+
+       mpi_barrett_free(ctx->t.p_barrett);
+
+       /* Domain parameter.  */
+       mpi_free(ctx->p);
+       mpi_free(ctx->a);
+       mpi_free(ctx->b);
+       mpi_point_release(ctx->G);
+       mpi_free(ctx->n);
+
+       /* The key.  */
+       mpi_point_release(ctx->Q);
+       mpi_free(ctx->d);
+
+       /* Private data of ec.c.  */
+       mpi_free(ctx->t.two_inv_p);
+
+       for (i = 0; i < DIM(ctx->t.scratch); i++)
+               mpi_free(ctx->t.scratch[i]);
+}
+EXPORT_SYMBOL_GPL(mpi_ec_deinit);
+
+/* Compute the affine coordinates from the projective coordinates in
+ * POINT.  Set them into X and Y.  If one coordinate is not required,
+ * X or Y may be passed as NULL.  CTX is the usual context. Returns: 0
+ * on success or !0 if POINT is at infinity.
+ */
+int mpi_ec_get_affine(MPI x, MPI y, MPI_POINT point, struct mpi_ec_ctx *ctx)
+{
+       if (!mpi_cmp_ui(point->z, 0))
+               return -1;
+
+       switch (ctx->model) {
+       case MPI_EC_WEIERSTRASS: /* Using Jacobian coordinates.  */
+               {
+                       MPI z1, z2, z3;
+
+                       z1 = mpi_new(0);
+                       z2 = mpi_new(0);
+                       ec_invm(z1, point->z, ctx);  /* z1 = z^(-1) mod p  */
+                       ec_mulm(z2, z1, z1, ctx);    /* z2 = z^(-2) mod p  */
+
+                       if (x)
+                               ec_mulm(x, point->x, z2, ctx);
+
+                       if (y) {
+                               z3 = mpi_new(0);
+                               ec_mulm(z3, z2, z1, ctx);      /* z3 = z^(-3) mod p */
+                               ec_mulm(y, point->y, z3, ctx);
+                               mpi_free(z3);
+                       }
+
+                       mpi_free(z2);
+                       mpi_free(z1);
+               }
+               return 0;
+
+       case MPI_EC_MONTGOMERY:
+               {
+                       if (x)
+                               mpi_set(x, point->x);
+
+                       if (y) {
+                               log_fatal("%s: Getting Y-coordinate on %s is not supported\n",
+                                               "mpi_ec_get_affine", "Montgomery");
+                               return -1;
+                       }
+               }
+               return 0;
+
+       case MPI_EC_EDWARDS:
+               {
+                       MPI z;
+
+                       z = mpi_new(0);
+                       ec_invm(z, point->z, ctx);
+
+                       mpi_resize(z, ctx->p->nlimbs);
+                       z->nlimbs = ctx->p->nlimbs;
+
+                       if (x) {
+                               mpi_resize(x, ctx->p->nlimbs);
+                               x->nlimbs = ctx->p->nlimbs;
+                               ctx->mulm(x, point->x, z, ctx);
+                       }
+                       if (y) {
+                               mpi_resize(y, ctx->p->nlimbs);
+                               y->nlimbs = ctx->p->nlimbs;
+                               ctx->mulm(y, point->y, z, ctx);
+                       }
+
+                       mpi_free(z);
+               }
+               return 0;
+
+       default:
+               return -1;
+       }
+}
+EXPORT_SYMBOL_GPL(mpi_ec_get_affine);
+
+/*  RESULT = 2 * POINT  (Weierstrass version). */
+static void dup_point_weierstrass(MPI_POINT result,
+               MPI_POINT point, struct mpi_ec_ctx *ctx)
+{
+#define x3 (result->x)
+#define y3 (result->y)
+#define z3 (result->z)
+#define t1 (ctx->t.scratch[0])
+#define t2 (ctx->t.scratch[1])
+#define t3 (ctx->t.scratch[2])
+#define l1 (ctx->t.scratch[3])
+#define l2 (ctx->t.scratch[4])
+#define l3 (ctx->t.scratch[5])
+
+       if (!mpi_cmp_ui(point->y, 0) || !mpi_cmp_ui(point->z, 0)) {
+               /* P_y == 0 || P_z == 0 => [1:1:0] */
+               mpi_set_ui(x3, 1);
+               mpi_set_ui(y3, 1);
+               mpi_set_ui(z3, 0);
+       } else {
+               if (ec_get_a_is_pminus3(ctx)) {
+                       /* Use the faster case.  */
+                       /* L1 = 3(X - Z^2)(X + Z^2) */
+                       /*                          T1: used for Z^2. */
+                       /*                          T2: used for the right term. */
+                       ec_pow2(t1, point->z, ctx);
+                       ec_subm(l1, point->x, t1, ctx);
+                       ec_mulm(l1, l1, mpi_const(MPI_C_THREE), ctx);
+                       ec_addm(t2, point->x, t1, ctx);
+                       ec_mulm(l1, l1, t2, ctx);
+               } else {
+                       /* Standard case. */
+                       /* L1 = 3X^2 + aZ^4 */
+                       /*                          T1: used for aZ^4. */
+                       ec_pow2(l1, point->x, ctx);
+                       ec_mulm(l1, l1, mpi_const(MPI_C_THREE), ctx);
+                       ec_powm(t1, point->z, mpi_const(MPI_C_FOUR), ctx);
+                       ec_mulm(t1, t1, ctx->a, ctx);
+                       ec_addm(l1, l1, t1, ctx);
+               }
+               /* Z3 = 2YZ */
+               ec_mulm(z3, point->y, point->z, ctx);
+               ec_mul2(z3, z3, ctx);
+
+               /* L2 = 4XY^2 */
+               /*                              T2: used for Y2; required later. */
+               ec_pow2(t2, point->y, ctx);
+               ec_mulm(l2, t2, point->x, ctx);
+               ec_mulm(l2, l2, mpi_const(MPI_C_FOUR), ctx);
+
+               /* X3 = L1^2 - 2L2 */
+               /*                              T1: used for L2^2. */
+               ec_pow2(x3, l1, ctx);
+               ec_mul2(t1, l2, ctx);
+               ec_subm(x3, x3, t1, ctx);
+
+               /* L3 = 8Y^4 */
+               /*                              T2: taken from above. */
+               ec_pow2(t2, t2, ctx);
+               ec_mulm(l3, t2, mpi_const(MPI_C_EIGHT), ctx);
+
+               /* Y3 = L1(L2 - X3) - L3 */
+               ec_subm(y3, l2, x3, ctx);
+               ec_mulm(y3, y3, l1, ctx);
+               ec_subm(y3, y3, l3, ctx);
+       }
+
+#undef x3
+#undef y3
+#undef z3
+#undef t1
+#undef t2
+#undef t3
+#undef l1
+#undef l2
+#undef l3
+}
+
+/*  RESULT = 2 * POINT  (Montgomery version). */
+static void dup_point_montgomery(MPI_POINT result,
+                               MPI_POINT point, struct mpi_ec_ctx *ctx)
+{
+       (void)result;
+       (void)point;
+       (void)ctx;
+       log_fatal("%s: %s not yet supported\n",
+                       "mpi_ec_dup_point", "Montgomery");
+}
+
+/*  RESULT = 2 * POINT  (Twisted Edwards version). */
+static void dup_point_edwards(MPI_POINT result,
+               MPI_POINT point, struct mpi_ec_ctx *ctx)
+{
+#define X1 (point->x)
+#define Y1 (point->y)
+#define Z1 (point->z)
+#define X3 (result->x)
+#define Y3 (result->y)
+#define Z3 (result->z)
+#define B (ctx->t.scratch[0])
+#define C (ctx->t.scratch[1])
+#define D (ctx->t.scratch[2])
+#define E (ctx->t.scratch[3])
+#define F (ctx->t.scratch[4])
+#define H (ctx->t.scratch[5])
+#define J (ctx->t.scratch[6])
+
+       /* Compute: (X_3 : Y_3 : Z_3) = 2( X_1 : Y_1 : Z_1 ) */
+
+       /* B = (X_1 + Y_1)^2  */
+       ctx->addm(B, X1, Y1, ctx);
+       ctx->pow2(B, B, ctx);
+
+       /* C = X_1^2 */
+       /* D = Y_1^2 */
+       ctx->pow2(C, X1, ctx);
+       ctx->pow2(D, Y1, ctx);
+
+       /* E = aC */
+       if (ctx->dialect == ECC_DIALECT_ED25519)
+               ctx->subm(E, ctx->p, C, ctx);
+       else
+               ctx->mulm(E, ctx->a, C, ctx);
+
+       /* F = E + D */
+       ctx->addm(F, E, D, ctx);
+
+       /* H = Z_1^2 */
+       ctx->pow2(H, Z1, ctx);
+
+       /* J = F - 2H */
+       ctx->mul2(J, H, ctx);
+       ctx->subm(J, F, J, ctx);
+
+       /* X_3 = (B - C - D) · J */
+       ctx->subm(X3, B, C, ctx);
+       ctx->subm(X3, X3, D, ctx);
+       ctx->mulm(X3, X3, J, ctx);
+
+       /* Y_3 = F · (E - D) */
+       ctx->subm(Y3, E, D, ctx);
+       ctx->mulm(Y3, Y3, F, ctx);
+
+       /* Z_3 = F · J */
+       ctx->mulm(Z3, F, J, ctx);
+
+#undef X1
+#undef Y1
+#undef Z1
+#undef X3
+#undef Y3
+#undef Z3
+#undef B
+#undef C
+#undef D
+#undef E
+#undef F
+#undef H
+#undef J
+}
+
+/*  RESULT = 2 * POINT  */
+static void
+mpi_ec_dup_point(MPI_POINT result, MPI_POINT point, struct mpi_ec_ctx *ctx)
+{
+       switch (ctx->model) {
+       case MPI_EC_WEIERSTRASS:
+               dup_point_weierstrass(result, point, ctx);
+               break;
+       case MPI_EC_MONTGOMERY:
+               dup_point_montgomery(result, point, ctx);
+               break;
+       case MPI_EC_EDWARDS:
+               dup_point_edwards(result, point, ctx);
+               break;
+       }
+}
+
+/* RESULT = P1 + P2  (Weierstrass version).*/
+static void add_points_weierstrass(MPI_POINT result,
+               MPI_POINT p1, MPI_POINT p2,
+               struct mpi_ec_ctx *ctx)
+{
+#define x1 (p1->x)
+#define y1 (p1->y)
+#define z1 (p1->z)
+#define x2 (p2->x)
+#define y2 (p2->y)
+#define z2 (p2->z)
+#define x3 (result->x)
+#define y3 (result->y)
+#define z3 (result->z)
+#define l1 (ctx->t.scratch[0])
+#define l2 (ctx->t.scratch[1])
+#define l3 (ctx->t.scratch[2])
+#define l4 (ctx->t.scratch[3])
+#define l5 (ctx->t.scratch[4])
+#define l6 (ctx->t.scratch[5])
+#define l7 (ctx->t.scratch[6])
+#define l8 (ctx->t.scratch[7])
+#define l9 (ctx->t.scratch[8])
+#define t1 (ctx->t.scratch[9])
+#define t2 (ctx->t.scratch[10])
+
+       if ((!mpi_cmp(x1, x2)) && (!mpi_cmp(y1, y2)) && (!mpi_cmp(z1, z2))) {
+               /* Same point; need to call the duplicate function.  */
+               mpi_ec_dup_point(result, p1, ctx);
+       } else if (!mpi_cmp_ui(z1, 0)) {
+               /* P1 is at infinity.  */
+               mpi_set(x3, p2->x);
+               mpi_set(y3, p2->y);
+               mpi_set(z3, p2->z);
+       } else if (!mpi_cmp_ui(z2, 0)) {
+               /* P2 is at infinity.  */
+               mpi_set(x3, p1->x);
+               mpi_set(y3, p1->y);
+               mpi_set(z3, p1->z);
+       } else {
+               int z1_is_one = !mpi_cmp_ui(z1, 1);
+               int z2_is_one = !mpi_cmp_ui(z2, 1);
+
+               /* l1 = x1 z2^2  */
+               /* l2 = x2 z1^2  */
+               if (z2_is_one)
+                       mpi_set(l1, x1);
+               else {
+                       ec_pow2(l1, z2, ctx);
+                       ec_mulm(l1, l1, x1, ctx);
+               }
+               if (z1_is_one)
+                       mpi_set(l2, x2);
+               else {
+                       ec_pow2(l2, z1, ctx);
+                       ec_mulm(l2, l2, x2, ctx);
+               }
+               /* l3 = l1 - l2 */
+               ec_subm(l3, l1, l2, ctx);
+               /* l4 = y1 z2^3  */
+               ec_powm(l4, z2, mpi_const(MPI_C_THREE), ctx);
+               ec_mulm(l4, l4, y1, ctx);
+               /* l5 = y2 z1^3  */
+               ec_powm(l5, z1, mpi_const(MPI_C_THREE), ctx);
+               ec_mulm(l5, l5, y2, ctx);
+               /* l6 = l4 - l5  */
+               ec_subm(l6, l4, l5, ctx);
+
+               if (!mpi_cmp_ui(l3, 0)) {
+                       if (!mpi_cmp_ui(l6, 0)) {
+                               /* P1 and P2 are the same - use duplicate function. */
+                               mpi_ec_dup_point(result, p1, ctx);
+                       } else {
+                               /* P1 is the inverse of P2.  */
+                               mpi_set_ui(x3, 1);
+                               mpi_set_ui(y3, 1);
+                               mpi_set_ui(z3, 0);
+                       }
+               } else {
+                       /* l7 = l1 + l2  */
+                       ec_addm(l7, l1, l2, ctx);
+                       /* l8 = l4 + l5  */
+                       ec_addm(l8, l4, l5, ctx);
+                       /* z3 = z1 z2 l3  */
+                       ec_mulm(z3, z1, z2, ctx);
+                       ec_mulm(z3, z3, l3, ctx);
+                       /* x3 = l6^2 - l7 l3^2  */
+                       ec_pow2(t1, l6, ctx);
+                       ec_pow2(t2, l3, ctx);
+                       ec_mulm(t2, t2, l7, ctx);
+                       ec_subm(x3, t1, t2, ctx);
+                       /* l9 = l7 l3^2 - 2 x3  */
+                       ec_mul2(t1, x3, ctx);
+                       ec_subm(l9, t2, t1, ctx);
+                       /* y3 = (l9 l6 - l8 l3^3)/2  */
+                       ec_mulm(l9, l9, l6, ctx);
+                       ec_powm(t1, l3, mpi_const(MPI_C_THREE), ctx); /* fixme: Use saved value*/
+                       ec_mulm(t1, t1, l8, ctx);
+                       ec_subm(y3, l9, t1, ctx);
+                       ec_mulm(y3, y3, ec_get_two_inv_p(ctx), ctx);
+               }
+       }
+
+#undef x1
+#undef y1
+#undef z1
+#undef x2
+#undef y2
+#undef z2
+#undef x3
+#undef y3
+#undef z3
+#undef l1
+#undef l2
+#undef l3
+#undef l4
+#undef l5
+#undef l6
+#undef l7
+#undef l8
+#undef l9
+#undef t1
+#undef t2
+}
+
+/* RESULT = P1 + P2  (Montgomery version).*/
+static void add_points_montgomery(MPI_POINT result,
+               MPI_POINT p1, MPI_POINT p2,
+               struct mpi_ec_ctx *ctx)
+{
+       (void)result;
+       (void)p1;
+       (void)p2;
+       (void)ctx;
+       log_fatal("%s: %s not yet supported\n",
+                       "mpi_ec_add_points", "Montgomery");
+}
+
+/* RESULT = P1 + P2  (Twisted Edwards version).*/
+static void add_points_edwards(MPI_POINT result,
+               MPI_POINT p1, MPI_POINT p2,
+               struct mpi_ec_ctx *ctx)
+{
+#define X1 (p1->x)
+#define Y1 (p1->y)
+#define Z1 (p1->z)
+#define X2 (p2->x)
+#define Y2 (p2->y)
+#define Z2 (p2->z)
+#define X3 (result->x)
+#define Y3 (result->y)
+#define Z3 (result->z)
+#define A (ctx->t.scratch[0])
+#define B (ctx->t.scratch[1])
+#define C (ctx->t.scratch[2])
+#define D (ctx->t.scratch[3])
+#define E (ctx->t.scratch[4])
+#define F (ctx->t.scratch[5])
+#define G (ctx->t.scratch[6])
+#define tmp (ctx->t.scratch[7])
+
+       point_resize(result, ctx);
+
+       /* Compute: (X_3 : Y_3 : Z_3) = (X_1 : Y_1 : Z_1) + (X_2 : Y_2 : Z_3) */
+
+       /* A = Z1 · Z2 */
+       ctx->mulm(A, Z1, Z2, ctx);
+
+       /* B = A^2 */
+       ctx->pow2(B, A, ctx);
+
+       /* C = X1 · X2 */
+       ctx->mulm(C, X1, X2, ctx);
+
+       /* D = Y1 · Y2 */
+       ctx->mulm(D, Y1, Y2, ctx);
+
+       /* E = d · C · D */
+       ctx->mulm(E, ctx->b, C, ctx);
+       ctx->mulm(E, E, D, ctx);
+
+       /* F = B - E */
+       ctx->subm(F, B, E, ctx);
+
+       /* G = B + E */
+       ctx->addm(G, B, E, ctx);
+
+       /* X_3 = A · F · ((X_1 + Y_1) · (X_2 + Y_2) - C - D) */
+       ctx->addm(tmp, X1, Y1, ctx);
+       ctx->addm(X3, X2, Y2, ctx);
+       ctx->mulm(X3, X3, tmp, ctx);
+       ctx->subm(X3, X3, C, ctx);
+       ctx->subm(X3, X3, D, ctx);
+       ctx->mulm(X3, X3, F, ctx);
+       ctx->mulm(X3, X3, A, ctx);
+
+       /* Y_3 = A · G · (D - aC) */
+       if (ctx->dialect == ECC_DIALECT_ED25519) {
+               ctx->addm(Y3, D, C, ctx);
+       } else {
+               ctx->mulm(Y3, ctx->a, C, ctx);
+               ctx->subm(Y3, D, Y3, ctx);
+       }
+       ctx->mulm(Y3, Y3, G, ctx);
+       ctx->mulm(Y3, Y3, A, ctx);
+
+       /* Z_3 = F · G */
+       ctx->mulm(Z3, F, G, ctx);
+
+
+#undef X1
+#undef Y1
+#undef Z1
+#undef X2
+#undef Y2
+#undef Z2
+#undef X3
+#undef Y3
+#undef Z3
+#undef A
+#undef B
+#undef C
+#undef D
+#undef E
+#undef F
+#undef G
+#undef tmp
+}
+
+/* Compute a step of Montgomery Ladder (only use X and Z in the point).
+ * Inputs:  P1, P2, and x-coordinate of DIF = P1 - P1.
+ * Outputs: PRD = 2 * P1 and  SUM = P1 + P2.
+ */
+static void montgomery_ladder(MPI_POINT prd, MPI_POINT sum,
+               MPI_POINT p1, MPI_POINT p2, MPI dif_x,
+               struct mpi_ec_ctx *ctx)
+{
+       ctx->addm(sum->x, p2->x, p2->z, ctx);
+       ctx->subm(p2->z, p2->x, p2->z, ctx);
+       ctx->addm(prd->x, p1->x, p1->z, ctx);
+       ctx->subm(p1->z, p1->x, p1->z, ctx);
+       ctx->mulm(p2->x, p1->z, sum->x, ctx);
+       ctx->mulm(p2->z, prd->x, p2->z, ctx);
+       ctx->pow2(p1->x, prd->x, ctx);
+       ctx->pow2(p1->z, p1->z, ctx);
+       ctx->addm(sum->x, p2->x, p2->z, ctx);
+       ctx->subm(p2->z, p2->x, p2->z, ctx);
+       ctx->mulm(prd->x, p1->x, p1->z, ctx);
+       ctx->subm(p1->z, p1->x, p1->z, ctx);
+       ctx->pow2(sum->x, sum->x, ctx);
+       ctx->pow2(sum->z, p2->z, ctx);
+       ctx->mulm(prd->z, p1->z, ctx->a, ctx); /* CTX->A: (a-2)/4 */
+       ctx->mulm(sum->z, sum->z, dif_x, ctx);
+       ctx->addm(prd->z, p1->x, prd->z, ctx);
+       ctx->mulm(prd->z, prd->z, p1->z, ctx);
+}
+
+/* RESULT = P1 + P2 */
+void mpi_ec_add_points(MPI_POINT result,
+               MPI_POINT p1, MPI_POINT p2,
+               struct mpi_ec_ctx *ctx)
+{
+       switch (ctx->model) {
+       case MPI_EC_WEIERSTRASS:
+               add_points_weierstrass(result, p1, p2, ctx);
+               break;
+       case MPI_EC_MONTGOMERY:
+               add_points_montgomery(result, p1, p2, ctx);
+               break;
+       case MPI_EC_EDWARDS:
+               add_points_edwards(result, p1, p2, ctx);
+               break;
+       }
+}
+EXPORT_SYMBOL_GPL(mpi_ec_add_points);
+
+/* Scalar point multiplication - the main function for ECC.  If takes
+ * an integer SCALAR and a POINT as well as the usual context CTX.
+ * RESULT will be set to the resulting point.
+ */
+void mpi_ec_mul_point(MPI_POINT result,
+                       MPI scalar, MPI_POINT point,
+                       struct mpi_ec_ctx *ctx)
+{
+       MPI x1, y1, z1, k, h, yy;
+       unsigned int i, loops;
+       struct gcry_mpi_point p1, p2, p1inv;
+
+       if (ctx->model == MPI_EC_EDWARDS) {
+               /* Simple left to right binary method.  Algorithm 3.27 from
+                * {author={Hankerson, Darrel and Menezes, Alfred J. and Vanstone, Scott},
+                *  title = {Guide to Elliptic Curve Cryptography},
+                *  year = {2003}, isbn = {038795273X},
+                *  url = {http://www.cacr.math.uwaterloo.ca/ecc/},
+                *  publisher = {Springer-Verlag New York, Inc.}}
+                */
+               unsigned int nbits;
+               int j;
+
+               if (mpi_cmp(scalar, ctx->p) >= 0)
+                       nbits = mpi_get_nbits(scalar);
+               else
+                       nbits = mpi_get_nbits(ctx->p);
+
+               mpi_set_ui(result->x, 0);
+               mpi_set_ui(result->y, 1);
+               mpi_set_ui(result->z, 1);
+               point_resize(point, ctx);
+
+               point_resize(result, ctx);
+               point_resize(point, ctx);
+
+               for (j = nbits-1; j >= 0; j--) {
+                       mpi_ec_dup_point(result, result, ctx);
+                       if (mpi_test_bit(scalar, j))
+                               mpi_ec_add_points(result, result, point, ctx);
+               }
+               return;
+       } else if (ctx->model == MPI_EC_MONTGOMERY) {
+               unsigned int nbits;
+               int j;
+               struct gcry_mpi_point p1_, p2_;
+               MPI_POINT q1, q2, prd, sum;
+               unsigned long sw;
+               mpi_size_t rsize;
+               int scalar_copied = 0;
+
+               /* Compute scalar point multiplication with Montgomery Ladder.
+                * Note that we don't use Y-coordinate in the points at all.
+                * RESULT->Y will be filled by zero.
+                */
+
+               nbits = mpi_get_nbits(scalar);
+               point_init(&p1);
+               point_init(&p2);
+               point_init(&p1_);
+               point_init(&p2_);
+               mpi_set_ui(p1.x, 1);
+               mpi_free(p2.x);
+               p2.x = mpi_copy(point->x);
+               mpi_set_ui(p2.z, 1);
+
+               point_resize(&p1, ctx);
+               point_resize(&p2, ctx);
+               point_resize(&p1_, ctx);
+               point_resize(&p2_, ctx);
+
+               mpi_resize(point->x, ctx->p->nlimbs);
+               point->x->nlimbs = ctx->p->nlimbs;
+
+               q1 = &p1;
+               q2 = &p2;
+               prd = &p1_;
+               sum = &p2_;
+
+               for (j = nbits-1; j >= 0; j--) {
+                       MPI_POINT t;
+
+                       sw = mpi_test_bit(scalar, j);
+                       point_swap_cond(q1, q2, sw, ctx);
+                       montgomery_ladder(prd, sum, q1, q2, point->x, ctx);
+                       point_swap_cond(prd, sum, sw, ctx);
+                       t = q1;  q1 = prd;  prd = t;
+                       t = q2;  q2 = sum;  sum = t;
+               }
+
+               mpi_clear(result->y);
+               sw = (nbits & 1);
+               point_swap_cond(&p1, &p1_, sw, ctx);
+
+               rsize = p1.z->nlimbs;
+               MPN_NORMALIZE(p1.z->d, rsize);
+               if (rsize == 0) {
+                       mpi_set_ui(result->x, 1);
+                       mpi_set_ui(result->z, 0);
+               } else {
+                       z1 = mpi_new(0);
+                       ec_invm(z1, p1.z, ctx);
+                       ec_mulm(result->x, p1.x, z1, ctx);
+                       mpi_set_ui(result->z, 1);
+                       mpi_free(z1);
+               }
+
+               point_free(&p1);
+               point_free(&p2);
+               point_free(&p1_);
+               point_free(&p2_);
+               if (scalar_copied)
+                       mpi_free(scalar);
+               return;
+       }
+
+       x1 = mpi_alloc_like(ctx->p);
+       y1 = mpi_alloc_like(ctx->p);
+       h  = mpi_alloc_like(ctx->p);
+       k  = mpi_copy(scalar);
+       yy = mpi_copy(point->y);
+
+       if (mpi_has_sign(k)) {
+               k->sign = 0;
+               ec_invm(yy, yy, ctx);
+       }
+
+       if (!mpi_cmp_ui(point->z, 1)) {
+               mpi_set(x1, point->x);
+               mpi_set(y1, yy);
+       } else {
+               MPI z2, z3;
+
+               z2 = mpi_alloc_like(ctx->p);
+               z3 = mpi_alloc_like(ctx->p);
+               ec_mulm(z2, point->z, point->z, ctx);
+               ec_mulm(z3, point->z, z2, ctx);
+               ec_invm(z2, z2, ctx);
+               ec_mulm(x1, point->x, z2, ctx);
+               ec_invm(z3, z3, ctx);
+               ec_mulm(y1, yy, z3, ctx);
+               mpi_free(z2);
+               mpi_free(z3);
+       }
+       z1 = mpi_copy(mpi_const(MPI_C_ONE));
+
+       mpi_mul(h, k, mpi_const(MPI_C_THREE)); /* h = 3k */
+       loops = mpi_get_nbits(h);
+       if (loops < 2) {
+               /* If SCALAR is zero, the above mpi_mul sets H to zero and thus
+                * LOOPs will be zero.  To avoid an underflow of I in the main
+                * loop we set LOOP to 2 and the result to (0,0,0).
+                */
+               loops = 2;
+               mpi_clear(result->x);
+               mpi_clear(result->y);
+               mpi_clear(result->z);
+       } else {
+               mpi_set(result->x, point->x);
+               mpi_set(result->y, yy);
+               mpi_set(result->z, point->z);
+       }
+       mpi_free(yy); yy = NULL;
+
+       p1.x = x1; x1 = NULL;
+       p1.y = y1; y1 = NULL;
+       p1.z = z1; z1 = NULL;
+       point_init(&p2);
+       point_init(&p1inv);
+
+       /* Invert point: y = p - y mod p  */
+       point_set(&p1inv, &p1);
+       ec_subm(p1inv.y, ctx->p, p1inv.y, ctx);
+
+       for (i = loops-2; i > 0; i--) {
+               mpi_ec_dup_point(result, result, ctx);
+               if (mpi_test_bit(h, i) == 1 && mpi_test_bit(k, i) == 0) {
+                       point_set(&p2, result);
+                       mpi_ec_add_points(result, &p2, &p1, ctx);
+               }
+               if (mpi_test_bit(h, i) == 0 && mpi_test_bit(k, i) == 1) {
+                       point_set(&p2, result);
+                       mpi_ec_add_points(result, &p2, &p1inv, ctx);
+               }
+       }
+
+       point_free(&p1);
+       point_free(&p2);
+       point_free(&p1inv);
+       mpi_free(h);
+       mpi_free(k);
+}
+EXPORT_SYMBOL_GPL(mpi_ec_mul_point);
+
+/* Return true if POINT is on the curve described by CTX.  */
+int mpi_ec_curve_point(MPI_POINT point, struct mpi_ec_ctx *ctx)
+{
+       int res = 0;
+       MPI x, y, w;
+
+       x = mpi_new(0);
+       y = mpi_new(0);
+       w = mpi_new(0);
+
+       /* Check that the point is in range.  This needs to be done here and
+        * not after conversion to affine coordinates.
+        */
+       if (mpi_cmpabs(point->x, ctx->p) >= 0)
+               goto leave;
+       if (mpi_cmpabs(point->y, ctx->p) >= 0)
+               goto leave;
+       if (mpi_cmpabs(point->z, ctx->p) >= 0)
+               goto leave;
+
+       switch (ctx->model) {
+       case MPI_EC_WEIERSTRASS:
+               {
+                       MPI xxx;
+
+                       if (mpi_ec_get_affine(x, y, point, ctx))
+                               goto leave;
+
+                       xxx = mpi_new(0);
+
+                       /* y^2 == x^3 + a·x + b */
+                       ec_pow2(y, y, ctx);
+
+                       ec_pow3(xxx, x, ctx);
+                       ec_mulm(w, ctx->a, x, ctx);
+                       ec_addm(w, w, ctx->b, ctx);
+                       ec_addm(w, w, xxx, ctx);
+
+                       if (!mpi_cmp(y, w))
+                               res = 1;
+
+                       mpi_free(xxx);
+               }
+               break;
+
+       case MPI_EC_MONTGOMERY:
+               {
+#define xx y
+                       /* With Montgomery curve, only X-coordinate is valid. */
+                       if (mpi_ec_get_affine(x, NULL, point, ctx))
+                               goto leave;
+
+                       /* The equation is: b * y^2 == x^3 + a · x^2 + x */
+                       /* We check if right hand is quadratic residue or not by
+                        * Euler's criterion.
+                        */
+                       /* CTX->A has (a-2)/4 and CTX->B has b^-1 */
+                       ec_mulm(w, ctx->a, mpi_const(MPI_C_FOUR), ctx);
+                       ec_addm(w, w, mpi_const(MPI_C_TWO), ctx);
+                       ec_mulm(w, w, x, ctx);
+                       ec_pow2(xx, x, ctx);
+                       ec_addm(w, w, xx, ctx);
+                       ec_addm(w, w, mpi_const(MPI_C_ONE), ctx);
+                       ec_mulm(w, w, x, ctx);
+                       ec_mulm(w, w, ctx->b, ctx);
+#undef xx
+                       /* Compute Euler's criterion: w^(p-1)/2 */
+#define p_minus1 y
+                       ec_subm(p_minus1, ctx->p, mpi_const(MPI_C_ONE), ctx);
+                       mpi_rshift(p_minus1, p_minus1, 1);
+                       ec_powm(w, w, p_minus1, ctx);
+
+                       res = !mpi_cmp_ui(w, 1);
+#undef p_minus1
+               }
+               break;
+
+       case MPI_EC_EDWARDS:
+               {
+                       if (mpi_ec_get_affine(x, y, point, ctx))
+                               goto leave;
+
+                       mpi_resize(w, ctx->p->nlimbs);
+                       w->nlimbs = ctx->p->nlimbs;
+
+                       /* a · x^2 + y^2 - 1 - b · x^2 · y^2 == 0 */
+                       ctx->pow2(x, x, ctx);
+                       ctx->pow2(y, y, ctx);
+                       if (ctx->dialect == ECC_DIALECT_ED25519)
+                               ctx->subm(w, ctx->p, x, ctx);
+                       else
+                               ctx->mulm(w, ctx->a, x, ctx);
+                       ctx->addm(w, w, y, ctx);
+                       ctx->mulm(x, x, y, ctx);
+                       ctx->mulm(x, x, ctx->b, ctx);
+                       ctx->subm(w, w, x, ctx);
+                       if (!mpi_cmp_ui(w, 1))
+                               res = 1;
+               }
+               break;
+       }
+
+leave:
+       mpi_free(w);
+       mpi_free(x);
+       mpi_free(y);
+
+       return res;
+}
+EXPORT_SYMBOL_GPL(mpi_ec_curve_point);
diff --git a/lib/mpi/mpi-add.c b/lib/mpi/mpi-add.c
new file mode 100644 (file)
index 0000000..2cdae54
--- /dev/null
@@ -0,0 +1,155 @@
+/* mpi-add.c  -  MPI functions
+ * Copyright (C) 1994, 1996, 1998, 2001, 2002,
+ *               2003 Free Software Foundation, Inc.
+ *
+ * This file is part of Libgcrypt.
+ *
+ * Note: This code is heavily based on the GNU MP Library.
+ *      Actually it's the same code with only minor changes in the
+ *      way the data is stored; this is to support the abstraction
+ *      of an optional secure memory allocation which may be used
+ *      to avoid revealing of sensitive data due to paging etc.
+ */
+
+#include "mpi-internal.h"
+
+/****************
+ * Add the unsigned integer V to the mpi-integer U and store the
+ * result in W. U and V may be the same.
+ */
+void mpi_add_ui(MPI w, MPI u, unsigned long v)
+{
+       mpi_ptr_t wp, up;
+       mpi_size_t usize, wsize;
+       int usign, wsign;
+
+       usize = u->nlimbs;
+       usign = u->sign;
+       wsign = 0;
+
+       /* If not space for W (and possible carry), increase space.  */
+       wsize = usize + 1;
+       if (w->alloced < wsize)
+               mpi_resize(w, wsize);
+
+       /* These must be after realloc (U may be the same as W).  */
+       up = u->d;
+       wp = w->d;
+
+       if (!usize) {  /* simple */
+               wp[0] = v;
+               wsize = v ? 1:0;
+       } else if (!usign) {  /* mpi is not negative */
+               mpi_limb_t cy;
+               cy = mpihelp_add_1(wp, up, usize, v);
+               wp[usize] = cy;
+               wsize = usize + cy;
+       } else {
+               /* The signs are different.  Need exact comparison to determine
+                * which operand to subtract from which.
+                */
+               if (usize == 1 && up[0] < v) {
+                       wp[0] = v - up[0];
+                       wsize = 1;
+               } else {
+                       mpihelp_sub_1(wp, up, usize, v);
+                       /* Size can decrease with at most one limb. */
+                       wsize = usize - (wp[usize-1] == 0);
+                       wsign = 1;
+               }
+       }
+
+       w->nlimbs = wsize;
+       w->sign   = wsign;
+}
+
+
+void mpi_add(MPI w, MPI u, MPI v)
+{
+       mpi_ptr_t wp, up, vp;
+       mpi_size_t usize, vsize, wsize;
+       int usign, vsign, wsign;
+
+       if (u->nlimbs < v->nlimbs) { /* Swap U and V. */
+               usize = v->nlimbs;
+               usign = v->sign;
+               vsize = u->nlimbs;
+               vsign = u->sign;
+               wsize = usize + 1;
+               RESIZE_IF_NEEDED(w, wsize);
+               /* These must be after realloc (u or v may be the same as w).  */
+               up = v->d;
+               vp = u->d;
+       } else {
+               usize = u->nlimbs;
+               usign = u->sign;
+               vsize = v->nlimbs;
+               vsign = v->sign;
+               wsize = usize + 1;
+               RESIZE_IF_NEEDED(w, wsize);
+               /* These must be after realloc (u or v may be the same as w).  */
+               up = u->d;
+               vp = v->d;
+       }
+       wp = w->d;
+       wsign = 0;
+
+       if (!vsize) {  /* simple */
+               MPN_COPY(wp, up, usize);
+               wsize = usize;
+               wsign = usign;
+       } else if (usign != vsign) { /* different sign */
+               /* This test is right since USIZE >= VSIZE */
+               if (usize != vsize) {
+                       mpihelp_sub(wp, up, usize, vp, vsize);
+                       wsize = usize;
+                       MPN_NORMALIZE(wp, wsize);
+                       wsign = usign;
+               } else if (mpihelp_cmp(up, vp, usize) < 0) {
+                       mpihelp_sub_n(wp, vp, up, usize);
+                       wsize = usize;
+                       MPN_NORMALIZE(wp, wsize);
+                       if (!usign)
+                               wsign = 1;
+               } else {
+                       mpihelp_sub_n(wp, up, vp, usize);
+                       wsize = usize;
+                       MPN_NORMALIZE(wp, wsize);
+                       if (usign)
+                               wsign = 1;
+               }
+       } else { /* U and V have same sign. Add them. */
+               mpi_limb_t cy = mpihelp_add(wp, up, usize, vp, vsize);
+               wp[usize] = cy;
+               wsize = usize + cy;
+               if (usign)
+                       wsign = 1;
+       }
+
+       w->nlimbs = wsize;
+       w->sign = wsign;
+}
+EXPORT_SYMBOL_GPL(mpi_add);
+
+void mpi_sub(MPI w, MPI u, MPI v)
+{
+       MPI vv = mpi_copy(v);
+       vv->sign = !vv->sign;
+       mpi_add(w, u, vv);
+       mpi_free(vv);
+}
+
+
+void mpi_addm(MPI w, MPI u, MPI v, MPI m)
+{
+       mpi_add(w, u, v);
+       mpi_mod(w, w, m);
+}
+EXPORT_SYMBOL_GPL(mpi_addm);
+
+void mpi_subm(MPI w, MPI u, MPI v, MPI m)
+{
+       mpi_sub(w, u, v);
+       mpi_mod(w, w, m);
+}
+EXPORT_SYMBOL_GPL(mpi_subm);
index 503537e..a5119a2 100644 (file)
@@ -32,6 +32,7 @@ void mpi_normalize(MPI a)
        for (; a->nlimbs && !a->d[a->nlimbs - 1]; a->nlimbs--)
                ;
 }
+EXPORT_SYMBOL_GPL(mpi_normalize);
 
 /****************
  * Return the number of bits in A.
@@ -54,3 +55,253 @@ unsigned mpi_get_nbits(MPI a)
        return n;
 }
 EXPORT_SYMBOL_GPL(mpi_get_nbits);
+
+/****************
+ * Test whether bit N is set.
+ */
+int mpi_test_bit(MPI a, unsigned int n)
+{
+       unsigned int limbno, bitno;
+       mpi_limb_t limb;
+
+       limbno = n / BITS_PER_MPI_LIMB;
+       bitno  = n % BITS_PER_MPI_LIMB;
+
+       if (limbno >= a->nlimbs)
+               return 0; /* too far left: this is a 0 */
+       limb = a->d[limbno];
+       return (limb & (A_LIMB_1 << bitno)) ? 1 : 0;
+}
+EXPORT_SYMBOL_GPL(mpi_test_bit);
+
+/****************
+ * Set bit N of A.
+ */
+void mpi_set_bit(MPI a, unsigned int n)
+{
+       unsigned int i, limbno, bitno;
+
+       limbno = n / BITS_PER_MPI_LIMB;
+       bitno  = n % BITS_PER_MPI_LIMB;
+
+       if (limbno >= a->nlimbs) {
+               for (i = a->nlimbs; i < a->alloced; i++)
+                       a->d[i] = 0;
+               mpi_resize(a, limbno+1);
+               a->nlimbs = limbno+1;
+       }
+       a->d[limbno] |= (A_LIMB_1<<bitno);
+}
+
+/****************
+ * Set bit N of A. and clear all bits above
+ */
+void mpi_set_highbit(MPI a, unsigned int n)
+{
+       unsigned int i, limbno, bitno;
+
+       limbno = n / BITS_PER_MPI_LIMB;
+       bitno  = n % BITS_PER_MPI_LIMB;
+
+       if (limbno >= a->nlimbs) {
+               for (i = a->nlimbs; i < a->alloced; i++)
+                       a->d[i] = 0;
+               mpi_resize(a, limbno+1);
+               a->nlimbs = limbno+1;
+       }
+       a->d[limbno] |= (A_LIMB_1<<bitno);
+       for (bitno++; bitno < BITS_PER_MPI_LIMB; bitno++)
+               a->d[limbno] &= ~(A_LIMB_1 << bitno);
+       a->nlimbs = limbno+1;
+}
+EXPORT_SYMBOL_GPL(mpi_set_highbit);
+
+/****************
+ * clear bit N of A and all bits above
+ */
+void mpi_clear_highbit(MPI a, unsigned int n)
+{
+       unsigned int limbno, bitno;
+
+       limbno = n / BITS_PER_MPI_LIMB;
+       bitno  = n % BITS_PER_MPI_LIMB;
+
+       if (limbno >= a->nlimbs)
+               return; /* not allocated, therefore no need to clear bits :-) */
+
+       for ( ; bitno < BITS_PER_MPI_LIMB; bitno++)
+               a->d[limbno] &= ~(A_LIMB_1 << bitno);
+       a->nlimbs = limbno+1;
+}
+
+/****************
+ * Clear bit N of A.
+ */
+void mpi_clear_bit(MPI a, unsigned int n)
+{
+       unsigned int limbno, bitno;
+
+       limbno = n / BITS_PER_MPI_LIMB;
+       bitno  = n % BITS_PER_MPI_LIMB;
+
+       if (limbno >= a->nlimbs)
+               return; /* Don't need to clear this bit, it's far too left.  */
+       a->d[limbno] &= ~(A_LIMB_1 << bitno);
+}
+EXPORT_SYMBOL_GPL(mpi_clear_bit);
+
+
+/****************
+ * Shift A by COUNT limbs to the right
+ * This is used only within the MPI library
+ */
+void mpi_rshift_limbs(MPI a, unsigned int count)
+{
+       mpi_ptr_t ap = a->d;
+       mpi_size_t n = a->nlimbs;
+       unsigned int i;
+
+       if (count >= n) {
+               a->nlimbs = 0;
+               return;
+       }
+
+       for (i = 0; i < n - count; i++)
+               ap[i] = ap[i+count];
+       ap[i] = 0;
+       a->nlimbs -= count;
+}
+
+/*
+ * Shift A by N bits to the right.
+ */
+void mpi_rshift(MPI x, MPI a, unsigned int n)
+{
+       mpi_size_t xsize;
+       unsigned int i;
+       unsigned int nlimbs = (n/BITS_PER_MPI_LIMB);
+       unsigned int nbits = (n%BITS_PER_MPI_LIMB);
+
+       if (x == a) {
+               /* In-place operation.  */
+               if (nlimbs >= x->nlimbs) {
+                       x->nlimbs = 0;
+                       return;
+               }
+
+               if (nlimbs) {
+                       for (i = 0; i < x->nlimbs - nlimbs; i++)
+                               x->d[i] = x->d[i+nlimbs];
+                       x->d[i] = 0;
+                       x->nlimbs -= nlimbs;
+               }
+               if (x->nlimbs && nbits)
+                       mpihelp_rshift(x->d, x->d, x->nlimbs, nbits);
+       } else if (nlimbs) {
+               /* Copy and shift by more or equal bits than in a limb. */
+               xsize = a->nlimbs;
+               x->sign = a->sign;
+               RESIZE_IF_NEEDED(x, xsize);
+               x->nlimbs = xsize;
+               for (i = 0; i < a->nlimbs; i++)
+                       x->d[i] = a->d[i];
+               x->nlimbs = i;
+
+               if (nlimbs >= x->nlimbs) {
+                       x->nlimbs = 0;
+                       return;
+               }
+
+               if (nlimbs) {
+                       for (i = 0; i < x->nlimbs - nlimbs; i++)
+                               x->d[i] = x->d[i+nlimbs];
+                       x->d[i] = 0;
+                       x->nlimbs -= nlimbs;
+               }
+
+               if (x->nlimbs && nbits)
+                       mpihelp_rshift(x->d, x->d, x->nlimbs, nbits);
+       } else {
+               /* Copy and shift by less than bits in a limb.  */
+               xsize = a->nlimbs;
+               x->sign = a->sign;
+               RESIZE_IF_NEEDED(x, xsize);
+               x->nlimbs = xsize;
+
+               if (xsize) {
+                       if (nbits)
+                               mpihelp_rshift(x->d, a->d, x->nlimbs, nbits);
+                       else {
+                               /* The rshift helper function is not specified for
+                                * NBITS==0, thus we do a plain copy here.
+                                */
+                               for (i = 0; i < x->nlimbs; i++)
+                                       x->d[i] = a->d[i];
+                       }
+               }
+       }
+       MPN_NORMALIZE(x->d, x->nlimbs);
+}
+
+/****************
+ * Shift A by COUNT limbs to the left
+ * This is used only within the MPI library
+ */
+void mpi_lshift_limbs(MPI a, unsigned int count)
+{
+       mpi_ptr_t ap;
+       int n = a->nlimbs;
+       int i;
+
+       if (!count || !n)
+               return;
+
+       RESIZE_IF_NEEDED(a, n+count);
+
+       ap = a->d;
+       for (i = n-1; i >= 0; i--)
+               ap[i+count] = ap[i];
+       for (i = 0; i < count; i++)
+               ap[i] = 0;
+       a->nlimbs += count;
+}
+
+/*
+ * Shift A by N bits to the left.
+ */
+void mpi_lshift(MPI x, MPI a, unsigned int n)
+{
+       unsigned int nlimbs = (n/BITS_PER_MPI_LIMB);
+       unsigned int nbits = (n%BITS_PER_MPI_LIMB);
+
+       if (x == a && !n)
+               return;  /* In-place shift with an amount of zero.  */
+
+       if (x != a) {
+               /* Copy A to X.  */
+               unsigned int alimbs = a->nlimbs;
+               int asign = a->sign;
+               mpi_ptr_t xp, ap;
+
+               RESIZE_IF_NEEDED(x, alimbs+nlimbs+1);
+               xp = x->d;
+               ap = a->d;
+               MPN_COPY(xp, ap, alimbs);
+               x->nlimbs = alimbs;
+               x->flags = a->flags;
+               x->sign = asign;
+       }
+
+       if (nlimbs && !nbits) {
+               /* Shift a full number of limbs.  */
+               mpi_lshift_limbs(x, nlimbs);
+       } else if (n) {
+               /* We use a very dump approach: Shift left by the number of
+                * limbs plus one and than fix it up by an rshift.
+                */
+               mpi_lshift_limbs(x, nlimbs+1);
+               mpi_rshift(x, x, BITS_PER_MPI_LIMB - nbits);
+       }
+
+       MPN_NORMALIZE(x->d, x->nlimbs);
+}
index d25e9e9..c4cfa3f 100644 (file)
@@ -41,28 +41,54 @@ int mpi_cmp_ui(MPI u, unsigned long v)
 }
 EXPORT_SYMBOL_GPL(mpi_cmp_ui);
 
-int mpi_cmp(MPI u, MPI v)
+static int do_mpi_cmp(MPI u, MPI v, int absmode)
 {
-       mpi_size_t usize, vsize;
+       mpi_size_t usize;
+       mpi_size_t vsize;
+       int usign;
+       int vsign;
        int cmp;
 
        mpi_normalize(u);
        mpi_normalize(v);
+
        usize = u->nlimbs;
        vsize = v->nlimbs;
-       if (!u->sign && v->sign)
+       usign = absmode ? 0 : u->sign;
+       vsign = absmode ? 0 : v->sign;
+
+       /* Compare sign bits.  */
+
+       if (!usign && vsign)
                return 1;
-       if (u->sign && !v->sign)
+       if (usign && !vsign)
                return -1;
-       if (usize != vsize && !u->sign && !v->sign)
+
+       /* U and V are either both positive or both negative.  */
+
+       if (usize != vsize && !usign && !vsign)
                return usize - vsize;
-       if (usize != vsize && u->sign && v->sign)
-               return vsize - usize;
+       if (usize != vsize && usign && vsign)
+               return vsize + usize;
        if (!usize)
                return 0;
        cmp = mpihelp_cmp(u->d, v->d, usize);
-       if (u->sign)
-               return -cmp;
-       return cmp;
+       if (!cmp)
+               return 0;
+       if ((cmp < 0?1:0) == (usign?1:0))
+               return 1;
+
+       return -1;
+}
+
+int mpi_cmp(MPI u, MPI v)
+{
+       return do_mpi_cmp(u, v, 0);
 }
 EXPORT_SYMBOL_GPL(mpi_cmp);
+
+int mpi_cmpabs(MPI u, MPI v)
+{
+       return do_mpi_cmp(u, v, 1);
+}
+EXPORT_SYMBOL_GPL(mpi_cmpabs);
diff --git a/lib/mpi/mpi-div.c b/lib/mpi/mpi-div.c
new file mode 100644 (file)
index 0000000..45beab8
--- /dev/null
@@ -0,0 +1,234 @@
+/* mpi-div.c  -  MPI functions
+ * Copyright (C) 1994, 1996, 1998, 2001, 2002,
+ *               2003 Free Software Foundation, Inc.
+ *
+ * This file is part of Libgcrypt.
+ *
+ * Note: This code is heavily based on the GNU MP Library.
+ *      Actually it's the same code with only minor changes in the
+ *      way the data is stored; this is to support the abstraction
+ *      of an optional secure memory allocation which may be used
+ *      to avoid revealing of sensitive data due to paging etc.
+ */
+
+#include "mpi-internal.h"
+#include "longlong.h"
+
+void mpi_tdiv_qr(MPI quot, MPI rem, MPI num, MPI den);
+void mpi_fdiv_qr(MPI quot, MPI rem, MPI dividend, MPI divisor);
+
+void mpi_fdiv_r(MPI rem, MPI dividend, MPI divisor)
+{
+       int divisor_sign = divisor->sign;
+       MPI temp_divisor = NULL;
+
+       /* We need the original value of the divisor after the remainder has been
+        * preliminary calculated.      We have to copy it to temporary space if it's
+        * the same variable as REM.
+        */
+       if (rem == divisor) {
+               temp_divisor = mpi_copy(divisor);
+               divisor = temp_divisor;
+       }
+
+       mpi_tdiv_r(rem, dividend, divisor);
+
+       if (((divisor_sign?1:0) ^ (dividend->sign?1:0)) && rem->nlimbs)
+               mpi_add(rem, rem, divisor);
+
+       if (temp_divisor)
+               mpi_free(temp_divisor);
+}
+
+void mpi_fdiv_q(MPI quot, MPI dividend, MPI divisor)
+{
+       MPI tmp = mpi_alloc(mpi_get_nlimbs(quot));
+       mpi_fdiv_qr(quot, tmp, dividend, divisor);
+       mpi_free(tmp);
+}
+
+void mpi_fdiv_qr(MPI quot, MPI rem, MPI dividend, MPI divisor)
+{
+       int divisor_sign = divisor->sign;
+       MPI temp_divisor = NULL;
+
+       if (quot == divisor || rem == divisor) {
+               temp_divisor = mpi_copy(divisor);
+               divisor = temp_divisor;
+       }
+
+       mpi_tdiv_qr(quot, rem, dividend, divisor);
+
+       if ((divisor_sign ^ dividend->sign) && rem->nlimbs) {
+               mpi_sub_ui(quot, quot, 1);
+               mpi_add(rem, rem, divisor);
+       }
+
+       if (temp_divisor)
+               mpi_free(temp_divisor);
+}
+
+/* If den == quot, den needs temporary storage.
+ * If den == rem, den needs temporary storage.
+ * If num == quot, num needs temporary storage.
+ * If den has temporary storage, it can be normalized while being copied,
+ *   i.e no extra storage should be allocated.
+ */
+
+void mpi_tdiv_r(MPI rem, MPI num, MPI den)
+{
+       mpi_tdiv_qr(NULL, rem, num, den);
+}
+
+void mpi_tdiv_qr(MPI quot, MPI rem, MPI num, MPI den)
+{
+       mpi_ptr_t np, dp;
+       mpi_ptr_t qp, rp;
+       mpi_size_t nsize = num->nlimbs;
+       mpi_size_t dsize = den->nlimbs;
+       mpi_size_t qsize, rsize;
+       mpi_size_t sign_remainder = num->sign;
+       mpi_size_t sign_quotient = num->sign ^ den->sign;
+       unsigned int normalization_steps;
+       mpi_limb_t q_limb;
+       mpi_ptr_t marker[5];
+       int markidx = 0;
+
+       /* Ensure space is enough for quotient and remainder.
+        * We need space for an extra limb in the remainder, because it's
+        * up-shifted (normalized) below.
+        */
+       rsize = nsize + 1;
+       mpi_resize(rem, rsize);
+
+       qsize = rsize - dsize;    /* qsize cannot be bigger than this.  */
+       if (qsize <= 0) {
+               if (num != rem) {
+                       rem->nlimbs = num->nlimbs;
+                       rem->sign = num->sign;
+                       MPN_COPY(rem->d, num->d, nsize);
+               }
+               if (quot) {
+                       /* This needs to follow the assignment to rem, in case the
+                        * numerator and quotient are the same.
+                        */
+                       quot->nlimbs = 0;
+                       quot->sign = 0;
+               }
+               return;
+       }
+
+       if (quot)
+               mpi_resize(quot, qsize);
+
+       /* Read pointers here, when reallocation is finished.  */
+       np = num->d;
+       dp = den->d;
+       rp = rem->d;
+
+       /* Optimize division by a single-limb divisor.  */
+       if (dsize == 1) {
+               mpi_limb_t rlimb;
+               if (quot) {
+                       qp = quot->d;
+                       rlimb = mpihelp_divmod_1(qp, np, nsize, dp[0]);
+                       qsize -= qp[qsize - 1] == 0;
+                       quot->nlimbs = qsize;
+                       quot->sign = sign_quotient;
+               } else
+                       rlimb = mpihelp_mod_1(np, nsize, dp[0]);
+               rp[0] = rlimb;
+               rsize = rlimb != 0?1:0;
+               rem->nlimbs = rsize;
+               rem->sign = sign_remainder;
+               return;
+       }
+
+
+       if (quot) {
+               qp = quot->d;
+               /* Make sure QP and NP point to different objects.  Otherwise the
+                * numerator would be gradually overwritten by the quotient limbs.
+                */
+               if (qp == np) { /* Copy NP object to temporary space.  */
+                       np = marker[markidx++] = mpi_alloc_limb_space(nsize);
+                       MPN_COPY(np, qp, nsize);
+               }
+       } else /* Put quotient at top of remainder. */
+               qp = rp + dsize;
+
+       normalization_steps = count_leading_zeros(dp[dsize - 1]);
+
+       /* Normalize the denominator, i.e. make its most significant bit set by
+        * shifting it NORMALIZATION_STEPS bits to the left.  Also shift the
+        * numerator the same number of steps (to keep the quotient the same!).
+        */
+       if (normalization_steps) {
+               mpi_ptr_t tp;
+               mpi_limb_t nlimb;
+
+               /* Shift up the denominator setting the most significant bit of
+                * the most significant word.  Use temporary storage not to clobber
+                * the original contents of the denominator.
+                */
+               tp = marker[markidx++] = mpi_alloc_limb_space(dsize);
+               mpihelp_lshift(tp, dp, dsize, normalization_steps);
+               dp = tp;
+
+               /* Shift up the numerator, possibly introducing a new most
+                * significant word.  Move the shifted numerator in the remainder
+                * meanwhile.
+                */
+               nlimb = mpihelp_lshift(rp, np, nsize, normalization_steps);
+               if (nlimb) {
+                       rp[nsize] = nlimb;
+                       rsize = nsize + 1;
+               } else
+                       rsize = nsize;
+       } else {
+               /* The denominator is already normalized, as required.  Copy it to
+                * temporary space if it overlaps with the quotient or remainder.
+                */
+               if (dp == rp || (quot && (dp == qp))) {
+                       mpi_ptr_t tp;
+
+                       tp = marker[markidx++] = mpi_alloc_limb_space(dsize);
+                       MPN_COPY(tp, dp, dsize);
+                       dp = tp;
+               }
+
+               /* Move the numerator to the remainder.  */
+               if (rp != np)
+                       MPN_COPY(rp, np, nsize);
+
+               rsize = nsize;
+       }
+
+       q_limb = mpihelp_divrem(qp, 0, rp, rsize, dp, dsize);
+
+       if (quot) {
+               qsize = rsize - dsize;
+               if (q_limb) {
+                       qp[qsize] = q_limb;
+                       qsize += 1;
+               }
+
+               quot->nlimbs = qsize;
+               quot->sign = sign_quotient;
+       }
+
+       rsize = dsize;
+       MPN_NORMALIZE(rp, rsize);
+
+       if (normalization_steps && rsize) {
+               mpihelp_rshift(rp, rp, rsize, normalization_steps);
+               rsize -= rp[rsize - 1] == 0?1:0;
+       }
+
+       rem->nlimbs = rsize;
+       rem->sign       = sign_remainder;
+       while (markidx) {
+               markidx--;
+               mpi_free_limb_space(marker[markidx]);
+       }
+}
index 91df5f0..5540021 100644 (file)
 typedef mpi_limb_t *mpi_ptr_t; /* pointer to a limb */
 typedef int mpi_size_t;                /* (must be a signed type) */
 
+#define RESIZE_IF_NEEDED(a, b)                 \
+       do {                                    \
+               if ((a)->alloced < (b))         \
+                       mpi_resize((a), (b));   \
+       } while (0)
+
 /* Copy N limbs from S to D.  */
 #define MPN_COPY(d, s, n) \
        do {                                    \
@@ -60,6 +66,14 @@ typedef int mpi_size_t;              /* (must be a signed type) */
                        (d)[_i] = (s)[_i];      \
        } while (0)
 
+#define MPN_COPY_INCR(d, s, n)         \
+       do {                                    \
+               mpi_size_t _i;                  \
+               for (_i = 0; _i < (n); _i++)    \
+                       (d)[_i] = (s)[_i];      \
+       } while (0)
+
+
 #define MPN_COPY_DECR(d, s, n) \
        do {                                    \
                mpi_size_t _i;                  \
@@ -92,6 +106,38 @@ typedef int mpi_size_t;             /* (must be a signed type) */
                        mul_n(prodp, up, vp, size, tspace);     \
        } while (0);
 
+/* Divide the two-limb number in (NH,,NL) by D, with DI being the largest
+ * limb not larger than (2**(2*BITS_PER_MP_LIMB))/D - (2**BITS_PER_MP_LIMB).
+ * If this would yield overflow, DI should be the largest possible number
+ * (i.e., only ones).  For correct operation, the most significant bit of D
+ * has to be set.  Put the quotient in Q and the remainder in R.
+ */
+#define UDIV_QRNND_PREINV(q, r, nh, nl, d, di)                         \
+       do {                                                            \
+               mpi_limb_t _ql __maybe_unused;                          \
+               mpi_limb_t _q, _r;                                      \
+               mpi_limb_t _xh, _xl;                                    \
+               umul_ppmm(_q, _ql, (nh), (di));                         \
+               _q += (nh);     /* DI is 2**BITS_PER_MPI_LIMB too small */ \
+               umul_ppmm(_xh, _xl, _q, (d));                           \
+               sub_ddmmss(_xh, _r, (nh), (nl), _xh, _xl);              \
+               if (_xh) {                                              \
+                       sub_ddmmss(_xh, _r, _xh, _r, 0, (d));           \
+                       _q++;                                           \
+                       if (_xh) {                                      \
+                               sub_ddmmss(_xh, _r, _xh, _r, 0, (d));   \
+                               _q++;                                   \
+                       }                                               \
+               }                                                       \
+               if (_r >= (d)) {                                        \
+                       _r -= (d);                                      \
+                       _q++;                                           \
+               }                                                       \
+               (r) = _r;                                               \
+               (q) = _q;                                               \
+       } while (0)
+
+
 /*-- mpiutil.c --*/
 mpi_ptr_t mpi_alloc_limb_space(unsigned nlimbs);
 void mpi_free_limb_space(mpi_ptr_t a);
@@ -135,6 +181,8 @@ int mpihelp_mul(mpi_ptr_t prodp, mpi_ptr_t up, mpi_size_t usize,
 void mpih_sqr_n_basecase(mpi_ptr_t prodp, mpi_ptr_t up, mpi_size_t size);
 void mpih_sqr_n(mpi_ptr_t prodp, mpi_ptr_t up, mpi_size_t size,
                mpi_ptr_t tspace);
+void mpihelp_mul_n(mpi_ptr_t prodp,
+               mpi_ptr_t up, mpi_ptr_t vp, mpi_size_t size);
 
 int mpihelp_mul_karatsuba_case(mpi_ptr_t prodp,
                               mpi_ptr_t up, mpi_size_t usize,
@@ -146,9 +194,14 @@ mpi_limb_t mpihelp_mul_1(mpi_ptr_t res_ptr, mpi_ptr_t s1_ptr,
                         mpi_size_t s1_size, mpi_limb_t s2_limb);
 
 /*-- mpih-div.c --*/
+mpi_limb_t mpihelp_mod_1(mpi_ptr_t dividend_ptr, mpi_size_t dividend_size,
+                        mpi_limb_t divisor_limb);
 mpi_limb_t mpihelp_divrem(mpi_ptr_t qp, mpi_size_t qextra_limbs,
                          mpi_ptr_t np, mpi_size_t nsize,
                          mpi_ptr_t dp, mpi_size_t dsize);
+mpi_limb_t mpihelp_divmod_1(mpi_ptr_t quot_ptr,
+                           mpi_ptr_t dividend_ptr, mpi_size_t dividend_size,
+                           mpi_limb_t divisor_limb);
 
 /*-- generic_mpih-[lr]shift.c --*/
 mpi_limb_t mpihelp_lshift(mpi_ptr_t wp, mpi_ptr_t up, mpi_size_t usize,
diff --git a/lib/mpi/mpi-inv.c b/lib/mpi/mpi-inv.c
new file mode 100644 (file)
index 0000000..61e37d1
--- /dev/null
@@ -0,0 +1,143 @@
+/* mpi-inv.c  -  MPI functions
+ *     Copyright (C) 1998, 2001, 2002, 2003 Free Software Foundation, Inc.
+ *
+ * This file is part of Libgcrypt.
+ *
+ * Libgcrypt is free software; you can redistribute it and/or modify
+ * it under the terms of the GNU Lesser General Public License as
+ * published by the Free Software Foundation; either version 2.1 of
+ * the License, or (at your option) any later version.
+ *
+ * Libgcrypt is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+ * GNU Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this program; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#include "mpi-internal.h"
+
+/****************
+ * Calculate the multiplicative inverse X of A mod N
+ * That is: Find the solution x for
+ *             1 = (a*x) mod n
+ */
+int mpi_invm(MPI x, MPI a, MPI n)
+{
+       /* Extended Euclid's algorithm (See TAOCP Vol II, 4.5.2, Alg X)
+        * modified according to Michael Penk's solution for Exercise 35
+        * with further enhancement
+        */
+       MPI u, v, u1, u2 = NULL, u3, v1, v2 = NULL, v3, t1, t2 = NULL, t3;
+       unsigned int k;
+       int sign;
+       int odd;
+
+       if (!mpi_cmp_ui(a, 0))
+               return 0; /* Inverse does not exists.  */
+       if (!mpi_cmp_ui(n, 1))
+               return 0; /* Inverse does not exists.  */
+
+       u = mpi_copy(a);
+       v = mpi_copy(n);
+
+       for (k = 0; !mpi_test_bit(u, 0) && !mpi_test_bit(v, 0); k++) {
+               mpi_rshift(u, u, 1);
+               mpi_rshift(v, v, 1);
+       }
+       odd = mpi_test_bit(v, 0);
+
+       u1 = mpi_alloc_set_ui(1);
+       if (!odd)
+               u2 = mpi_alloc_set_ui(0);
+       u3 = mpi_copy(u);
+       v1 = mpi_copy(v);
+       if (!odd) {
+               v2 = mpi_alloc(mpi_get_nlimbs(u));
+               mpi_sub(v2, u1, u); /* U is used as const 1 */
+       }
+       v3 = mpi_copy(v);
+       if (mpi_test_bit(u, 0)) { /* u is odd */
+               t1 = mpi_alloc_set_ui(0);
+               if (!odd) {
+                       t2 = mpi_alloc_set_ui(1);
+                       t2->sign = 1;
+               }
+               t3 = mpi_copy(v);
+               t3->sign = !t3->sign;
+               goto Y4;
+       } else {
+               t1 = mpi_alloc_set_ui(1);
+               if (!odd)
+                       t2 = mpi_alloc_set_ui(0);
+               t3 = mpi_copy(u);
+       }
+
+       do {
+               do {
+                       if (!odd) {
+                               if (mpi_test_bit(t1, 0) || mpi_test_bit(t2, 0)) {
+                                       /* one is odd */
+                                       mpi_add(t1, t1, v);
+                                       mpi_sub(t2, t2, u);
+                               }
+                               mpi_rshift(t1, t1, 1);
+                               mpi_rshift(t2, t2, 1);
+                               mpi_rshift(t3, t3, 1);
+                       } else {
+                               if (mpi_test_bit(t1, 0))
+                                       mpi_add(t1, t1, v);
+                               mpi_rshift(t1, t1, 1);
+                               mpi_rshift(t3, t3, 1);
+                       }
+Y4:
+                       ;
+               } while (!mpi_test_bit(t3, 0)); /* while t3 is even */
+
+               if (!t3->sign) {
+                       mpi_set(u1, t1);
+                       if (!odd)
+                               mpi_set(u2, t2);
+                       mpi_set(u3, t3);
+               } else {
+                       mpi_sub(v1, v, t1);
+                       sign = u->sign; u->sign = !u->sign;
+                       if (!odd)
+                               mpi_sub(v2, u, t2);
+                       u->sign = sign;
+                       sign = t3->sign; t3->sign = !t3->sign;
+                       mpi_set(v3, t3);
+                       t3->sign = sign;
+               }
+               mpi_sub(t1, u1, v1);
+               if (!odd)
+                       mpi_sub(t2, u2, v2);
+               mpi_sub(t3, u3, v3);
+               if (t1->sign) {
+                       mpi_add(t1, t1, v);
+                       if (!odd)
+                               mpi_sub(t2, t2, u);
+               }
+       } while (mpi_cmp_ui(t3, 0)); /* while t3 != 0 */
+       /* mpi_lshift( u3, k ); */
+       mpi_set(x, u1);
+
+       mpi_free(u1);
+       mpi_free(v1);
+       mpi_free(t1);
+       if (!odd) {
+               mpi_free(u2);
+               mpi_free(v2);
+               mpi_free(t2);
+       }
+       mpi_free(u3);
+       mpi_free(v3);
+       mpi_free(t3);
+
+       mpi_free(u);
+       mpi_free(v);
+       return 1;
+}
+EXPORT_SYMBOL_GPL(mpi_invm);
diff --git a/lib/mpi/mpi-mod.c b/lib/mpi/mpi-mod.c
new file mode 100644 (file)
index 0000000..47bc59e
--- /dev/null
@@ -0,0 +1,155 @@
+/* mpi-mod.c -  Modular reduction
+ * Copyright (C) 1998, 1999, 2001, 2002, 2003,
+ *               2007  Free Software Foundation, Inc.
+ *
+ * This file is part of Libgcrypt.
+ */
+
+
+#include "mpi-internal.h"
+#include "longlong.h"
+
+/* Context used with Barrett reduction.  */
+struct barrett_ctx_s {
+       MPI m;   /* The modulus - may not be modified. */
+       int m_copied;   /* If true, M needs to be released.  */
+       int k;
+       MPI y;
+       MPI r1;  /* Helper MPI. */
+       MPI r2;  /* Helper MPI. */
+       MPI r3;  /* Helper MPI allocated on demand. */
+};
+
+
+
+void mpi_mod(MPI rem, MPI dividend, MPI divisor)
+{
+       mpi_fdiv_r(rem, dividend, divisor);
+}
+
+/* This function returns a new context for Barrett based operations on
+ * the modulus M.  This context needs to be released using
+ * _gcry_mpi_barrett_free.  If COPY is true M will be transferred to
+ * the context and the user may change M.  If COPY is false, M may not
+ * be changed until gcry_mpi_barrett_free has been called.
+ */
+mpi_barrett_t mpi_barrett_init(MPI m, int copy)
+{
+       mpi_barrett_t ctx;
+       MPI tmp;
+
+       mpi_normalize(m);
+       ctx = kcalloc(1, sizeof(*ctx), GFP_KERNEL);
+
+       if (copy) {
+               ctx->m = mpi_copy(m);
+               ctx->m_copied = 1;
+       } else
+               ctx->m = m;
+
+       ctx->k = mpi_get_nlimbs(m);
+       tmp = mpi_alloc(ctx->k + 1);
+
+       /* Barrett precalculation: y = floor(b^(2k) / m). */
+       mpi_set_ui(tmp, 1);
+       mpi_lshift_limbs(tmp, 2 * ctx->k);
+       mpi_fdiv_q(tmp, tmp, m);
+
+       ctx->y  = tmp;
+       ctx->r1 = mpi_alloc(2 * ctx->k + 1);
+       ctx->r2 = mpi_alloc(2 * ctx->k + 1);
+
+       return ctx;
+}
+
+void mpi_barrett_free(mpi_barrett_t ctx)
+{
+       if (ctx) {
+               mpi_free(ctx->y);
+               mpi_free(ctx->r1);
+               mpi_free(ctx->r2);
+               if (ctx->r3)
+                       mpi_free(ctx->r3);
+               if (ctx->m_copied)
+                       mpi_free(ctx->m);
+               kfree(ctx);
+       }
+}
+
+
+/* R = X mod M
+ *
+ * Using Barrett reduction.  Before using this function
+ * _gcry_mpi_barrett_init must have been called to do the
+ * precalculations.  CTX is the context created by this precalculation
+ * and also conveys M.  If the Barret reduction could no be done a
+ * straightforward reduction method is used.
+ *
+ * We assume that these conditions are met:
+ * Input:  x =(x_2k-1 ...x_0)_b
+ *     m =(m_k-1 ....m_0)_b      with m_k-1 != 0
+ * Output: r = x mod m
+ */
+void mpi_mod_barrett(MPI r, MPI x, mpi_barrett_t ctx)
+{
+       MPI m = ctx->m;
+       int k = ctx->k;
+       MPI y = ctx->y;
+       MPI r1 = ctx->r1;
+       MPI r2 = ctx->r2;
+       int sign;
+
+       mpi_normalize(x);
+       if (mpi_get_nlimbs(x) > 2*k) {
+               mpi_mod(r, x, m);
+               return;
+       }
+
+       sign = x->sign;
+       x->sign = 0;
+
+       /* 1. q1 = floor( x / b^k-1)
+        *    q2 = q1 * y
+        *    q3 = floor( q2 / b^k+1 )
+        * Actually, we don't need qx, we can work direct on r2
+        */
+       mpi_set(r2, x);
+       mpi_rshift_limbs(r2, k-1);
+       mpi_mul(r2, r2, y);
+       mpi_rshift_limbs(r2, k+1);
+
+       /* 2. r1 = x mod b^k+1
+        *      r2 = q3 * m mod b^k+1
+        *      r  = r1 - r2
+        * 3. if r < 0 then  r = r + b^k+1
+        */
+       mpi_set(r1, x);
+       if (r1->nlimbs > k+1) /* Quick modulo operation.  */
+               r1->nlimbs = k+1;
+       mpi_mul(r2, r2, m);
+       if (r2->nlimbs > k+1) /* Quick modulo operation. */
+               r2->nlimbs = k+1;
+       mpi_sub(r, r1, r2);
+
+       if (mpi_has_sign(r)) {
+               if (!ctx->r3) {
+                       ctx->r3 = mpi_alloc(k + 2);
+                       mpi_set_ui(ctx->r3, 1);
+                       mpi_lshift_limbs(ctx->r3, k + 1);
+               }
+               mpi_add(r, r, ctx->r3);
+       }
+
+       /* 4. while r >= m do r = r - m */
+       while (mpi_cmp(r, m) >= 0)
+               mpi_sub(r, r, m);
+
+       x->sign = sign;
+}
+
+
+void mpi_mul_barrett(MPI w, MPI u, MPI v, mpi_barrett_t ctx)
+{
+       mpi_mul(w, u, v);
+       mpi_mod_barrett(w, w, ctx);
+}
diff --git a/lib/mpi/mpi-mul.c b/lib/mpi/mpi-mul.c
new file mode 100644 (file)
index 0000000..8f5fa20
--- /dev/null
@@ -0,0 +1,91 @@
+/* mpi-mul.c  -  MPI functions
+ * Copyright (C) 1994, 1996, 1998, 2001, 2002,
+ *               2003 Free Software Foundation, Inc.
+ *
+ * This file is part of Libgcrypt.
+ *
+ * Note: This code is heavily based on the GNU MP Library.
+ *      Actually it's the same code with only minor changes in the
+ *      way the data is stored; this is to support the abstraction
+ *      of an optional secure memory allocation which may be used
+ *      to avoid revealing of sensitive data due to paging etc.
+ */
+
+#include "mpi-internal.h"
+
+void mpi_mul(MPI w, MPI u, MPI v)
+{
+       mpi_size_t usize, vsize, wsize;
+       mpi_ptr_t up, vp, wp;
+       mpi_limb_t cy;
+       int usign, vsign, sign_product;
+       int assign_wp = 0;
+       mpi_ptr_t tmp_limb = NULL;
+
+       if (u->nlimbs < v->nlimbs) {
+               /* Swap U and V. */
+               usize = v->nlimbs;
+               usign = v->sign;
+               up    = v->d;
+               vsize = u->nlimbs;
+               vsign = u->sign;
+               vp    = u->d;
+       } else {
+               usize = u->nlimbs;
+               usign = u->sign;
+               up    = u->d;
+               vsize = v->nlimbs;
+               vsign = v->sign;
+               vp    = v->d;
+       }
+       sign_product = usign ^ vsign;
+       wp = w->d;
+
+       /* Ensure W has space enough to store the result.  */
+       wsize = usize + vsize;
+       if (w->alloced < wsize) {
+               if (wp == up || wp == vp) {
+                       wp = mpi_alloc_limb_space(wsize);
+                       assign_wp = 1;
+               } else {
+                       mpi_resize(w, wsize);
+                       wp = w->d;
+               }
+       } else { /* Make U and V not overlap with W.    */
+               if (wp == up) {
+                       /* W and U are identical.  Allocate temporary space for U. */
+                       up = tmp_limb = mpi_alloc_limb_space(usize);
+                       /* Is V identical too?  Keep it identical with U.  */
+                       if (wp == vp)
+                               vp = up;
+                       /* Copy to the temporary space.  */
+                       MPN_COPY(up, wp, usize);
+               } else if (wp == vp) {
+                       /* W and V are identical.  Allocate temporary space for V. */
+                       vp = tmp_limb = mpi_alloc_limb_space(vsize);
+                       /* Copy to the temporary space.  */
+                       MPN_COPY(vp, wp, vsize);
+               }
+       }
+
+       if (!vsize)
+               wsize = 0;
+       else {
+               mpihelp_mul(wp, up, usize, vp, vsize, &cy);
+               wsize -= cy ? 0:1;
+       }
+
+       if (assign_wp)
+               mpi_assign_limb_space(w, wp, wsize);
+       w->nlimbs = wsize;
+       w->sign = sign_product;
+       if (tmp_limb)
+               mpi_free_limb_space(tmp_limb);
+}
+
+void mpi_mulm(MPI w, MPI u, MPI v, MPI m)
+{
+       mpi_mul(w, u, v);
+       mpi_tdiv_r(w, w, m);
+}
+EXPORT_SYMBOL_GPL(mpi_mulm);
index eead4b3..7ea225b 100644 (file)
@@ -25,6 +25,7 @@
 #include <linux/string.h>
 #include "mpi-internal.h"
 
+#define MAX_EXTERN_SCAN_BYTES (16*1024*1024)
 #define MAX_EXTERN_MPI_BITS 16384
 
 /**
@@ -109,6 +110,112 @@ MPI mpi_read_from_buffer(const void *xbuffer, unsigned *ret_nread)
 }
 EXPORT_SYMBOL_GPL(mpi_read_from_buffer);
 
+/****************
+ * Fill the mpi VAL from the hex string in STR.
+ */
+int mpi_fromstr(MPI val, const char *str)
+{
+       int sign = 0;
+       int prepend_zero = 0;
+       int i, j, c, c1, c2;
+       unsigned int nbits, nbytes, nlimbs;
+       mpi_limb_t a;
+
+       if (*str == '-') {
+               sign = 1;
+               str++;
+       }
+
+       /* Skip optional hex prefix.  */
+       if (*str == '0' && str[1] == 'x')
+               str += 2;
+
+       nbits = strlen(str);
+       if (nbits > MAX_EXTERN_SCAN_BYTES) {
+               mpi_clear(val);
+               return -EINVAL;
+       }
+       nbits *= 4;
+       if ((nbits % 8))
+               prepend_zero = 1;
+
+       nbytes = (nbits+7) / 8;
+       nlimbs = (nbytes+BYTES_PER_MPI_LIMB-1) / BYTES_PER_MPI_LIMB;
+
+       if (val->alloced < nlimbs)
+               mpi_resize(val, nlimbs);
+
+       i = BYTES_PER_MPI_LIMB - (nbytes % BYTES_PER_MPI_LIMB);
+       i %= BYTES_PER_MPI_LIMB;
+       j = val->nlimbs = nlimbs;
+       val->sign = sign;
+       for (; j > 0; j--) {
+               a = 0;
+               for (; i < BYTES_PER_MPI_LIMB; i++) {
+                       if (prepend_zero) {
+                               c1 = '0';
+                               prepend_zero = 0;
+                       } else
+                               c1 = *str++;
+
+                       if (!c1) {
+                               mpi_clear(val);
+                               return -EINVAL;
+                       }
+                       c2 = *str++;
+                       if (!c2) {
+                               mpi_clear(val);
+                               return -EINVAL;
+                       }
+                       if (c1 >= '0' && c1 <= '9')
+                               c = c1 - '0';
+                       else if (c1 >= 'a' && c1 <= 'f')
+                               c = c1 - 'a' + 10;
+                       else if (c1 >= 'A' && c1 <= 'F')
+                               c = c1 - 'A' + 10;
+                       else {
+                               mpi_clear(val);
+                               return -EINVAL;
+                       }
+                       c <<= 4;
+                       if (c2 >= '0' && c2 <= '9')
+                               c |= c2 - '0';
+                       else if (c2 >= 'a' && c2 <= 'f')
+                               c |= c2 - 'a' + 10;
+                       else if (c2 >= 'A' && c2 <= 'F')
+                               c |= c2 - 'A' + 10;
+                       else {
+                               mpi_clear(val);
+                               return -EINVAL;
+                       }
+                       a <<= 8;
+                       a |= c;
+               }
+               i = 0;
+               val->d[j-1] = a;
+       }
+
+       return 0;
+}
+EXPORT_SYMBOL_GPL(mpi_fromstr);
+
+MPI mpi_scanval(const char *string)
+{
+       MPI a;
+
+       a = mpi_alloc(0);
+       if (!a)
+               return NULL;
+
+       if (mpi_fromstr(a, string)) {
+               mpi_free(a);
+               return NULL;
+       }
+       mpi_normalize(a);
+       return a;
+}
+EXPORT_SYMBOL_GPL(mpi_scanval);
+
 static int count_lzeros(MPI a)
 {
        mpi_limb_t alimb;
@@ -413,3 +520,232 @@ MPI mpi_read_raw_from_sgl(struct scatterlist *sgl, unsigned int nbytes)
        return val;
 }
 EXPORT_SYMBOL_GPL(mpi_read_raw_from_sgl);
+
+/* Perform a two's complement operation on buffer P of size N bytes.  */
+static void twocompl(unsigned char *p, unsigned int n)
+{
+       int i;
+
+       for (i = n-1; i >= 0 && !p[i]; i--)
+               ;
+       if (i >= 0) {
+               if ((p[i] & 0x01))
+                       p[i] = (((p[i] ^ 0xfe) | 0x01) & 0xff);
+               else if ((p[i] & 0x02))
+                       p[i] = (((p[i] ^ 0xfc) | 0x02) & 0xfe);
+               else if ((p[i] & 0x04))
+                       p[i] = (((p[i] ^ 0xf8) | 0x04) & 0xfc);
+               else if ((p[i] & 0x08))
+                       p[i] = (((p[i] ^ 0xf0) | 0x08) & 0xf8);
+               else if ((p[i] & 0x10))
+                       p[i] = (((p[i] ^ 0xe0) | 0x10) & 0xf0);
+               else if ((p[i] & 0x20))
+                       p[i] = (((p[i] ^ 0xc0) | 0x20) & 0xe0);
+               else if ((p[i] & 0x40))
+                       p[i] = (((p[i] ^ 0x80) | 0x40) & 0xc0);
+               else
+                       p[i] = 0x80;
+
+               for (i--; i >= 0; i--)
+                       p[i] ^= 0xff;
+       }
+}
+
+int mpi_print(enum gcry_mpi_format format, unsigned char *buffer,
+                       size_t buflen, size_t *nwritten, MPI a)
+{
+       unsigned int nbits = mpi_get_nbits(a);
+       size_t len;
+       size_t dummy_nwritten;
+       int negative;
+
+       if (!nwritten)
+               nwritten = &dummy_nwritten;
+
+       /* Libgcrypt does no always care to set clear the sign if the value
+        * is 0.  For printing this is a bit of a surprise, in particular
+        * because if some of the formats don't support negative numbers but
+        * should be able to print a zero.  Thus we need this extra test
+        * for a negative number.
+        */
+       if (a->sign && mpi_cmp_ui(a, 0))
+               negative = 1;
+       else
+               negative = 0;
+
+       len = buflen;
+       *nwritten = 0;
+       if (format == GCRYMPI_FMT_STD) {
+               unsigned char *tmp;
+               int extra = 0;
+               unsigned int n;
+
+               tmp = mpi_get_buffer(a, &n, NULL);
+               if (!tmp)
+                       return -EINVAL;
+
+               if (negative) {
+                       twocompl(tmp, n);
+                       if (!(*tmp & 0x80)) {
+                               /* Need to extend the sign.  */
+                               n++;
+                               extra = 2;
+                       }
+               } else if (n && (*tmp & 0x80)) {
+                       /* Positive but the high bit of the returned buffer is set.
+                        * Thus we need to print an extra leading 0x00 so that the
+                        * output is interpreted as a positive number.
+                        */
+                       n++;
+                       extra = 1;
+               }
+
+               if (buffer && n > len) {
+                       /* The provided buffer is too short. */
+                       kfree(tmp);
+                       return -E2BIG;
+               }
+               if (buffer) {
+                       unsigned char *s = buffer;
+
+                       if (extra == 1)
+                               *s++ = 0;
+                       else if (extra)
+                               *s++ = 0xff;
+                       memcpy(s, tmp, n-!!extra);
+               }
+               kfree(tmp);
+               *nwritten = n;
+               return 0;
+       } else if (format == GCRYMPI_FMT_USG) {
+               unsigned int n = (nbits + 7)/8;
+
+               /* Note:  We ignore the sign for this format.  */
+               /* FIXME: for performance reasons we should put this into
+                * mpi_aprint because we can then use the buffer directly.
+                */
+
+               if (buffer && n > len)
+                       return -E2BIG;
+               if (buffer) {
+                       unsigned char *tmp;
+
+                       tmp = mpi_get_buffer(a, &n, NULL);
+                       if (!tmp)
+                               return -EINVAL;
+                       memcpy(buffer, tmp, n);
+                       kfree(tmp);
+               }
+               *nwritten = n;
+               return 0;
+       } else if (format == GCRYMPI_FMT_PGP) {
+               unsigned int n = (nbits + 7)/8;
+
+               /* The PGP format can only handle unsigned integers.  */
+               if (negative)
+                       return -EINVAL;
+
+               if (buffer && n+2 > len)
+                       return -E2BIG;
+
+               if (buffer) {
+                       unsigned char *tmp;
+                       unsigned char *s = buffer;
+
+                       s[0] = nbits >> 8;
+                       s[1] = nbits;
+
+                       tmp = mpi_get_buffer(a, &n, NULL);
+                       if (!tmp)
+                               return -EINVAL;
+                       memcpy(s+2, tmp, n);
+                       kfree(tmp);
+               }
+               *nwritten = n+2;
+               return 0;
+       } else if (format == GCRYMPI_FMT_SSH) {
+               unsigned char *tmp;
+               int extra = 0;
+               unsigned int n;
+
+               tmp = mpi_get_buffer(a, &n, NULL);
+               if (!tmp)
+                       return -EINVAL;
+
+               if (negative) {
+                       twocompl(tmp, n);
+                       if (!(*tmp & 0x80)) {
+                               /* Need to extend the sign.  */
+                               n++;
+                               extra = 2;
+                       }
+               } else if (n && (*tmp & 0x80)) {
+                       n++;
+                       extra = 1;
+               }
+
+               if (buffer && n+4 > len) {
+                       kfree(tmp);
+                       return -E2BIG;
+               }
+
+               if (buffer) {
+                       unsigned char *s = buffer;
+
+                       *s++ = n >> 24;
+                       *s++ = n >> 16;
+                       *s++ = n >> 8;
+                       *s++ = n;
+                       if (extra == 1)
+                               *s++ = 0;
+                       else if (extra)
+                               *s++ = 0xff;
+                       memcpy(s, tmp, n-!!extra);
+               }
+               kfree(tmp);
+               *nwritten = 4+n;
+               return 0;
+       } else if (format == GCRYMPI_FMT_HEX) {
+               unsigned char *tmp;
+               int i;
+               int extra = 0;
+               unsigned int n = 0;
+
+               tmp = mpi_get_buffer(a, &n, NULL);
+               if (!tmp)
+                       return -EINVAL;
+               if (!n || (*tmp & 0x80))
+                       extra = 2;
+
+               if (buffer && 2*n + extra + negative + 1 > len) {
+                       kfree(tmp);
+                       return -E2BIG;
+               }
+               if (buffer) {
+                       unsigned char *s = buffer;
+
+                       if (negative)
+                               *s++ = '-';
+                       if (extra) {
+                               *s++ = '0';
+                               *s++ = '0';
+                       }
+
+                       for (i = 0; i < n; i++) {
+                               unsigned int c = tmp[i];
+
+                               *s++ = (c >> 4) < 10 ? '0'+(c>>4) : 'A'+(c>>4)-10;
+                               c &= 15;
+                               *s++ = c < 10 ? '0'+c : 'A'+c-10;
+                       }
+                       *s++ = 0;
+                       *nwritten = s - buffer;
+               } else {
+                       *nwritten = 2*n + extra + negative + 1;
+               }
+               kfree(tmp);
+               return 0;
+       } else
+               return -EINVAL;
+}
+EXPORT_SYMBOL_GPL(mpi_print);
index 913a519..be70ee2 100644 (file)
 #define UDIV_TIME UMUL_TIME
 #endif
 
+
+mpi_limb_t
+mpihelp_mod_1(mpi_ptr_t dividend_ptr, mpi_size_t dividend_size,
+                       mpi_limb_t divisor_limb)
+{
+       mpi_size_t i;
+       mpi_limb_t n1, n0, r;
+       mpi_limb_t dummy __maybe_unused;
+
+       /* Botch: Should this be handled at all?  Rely on callers?      */
+       if (!dividend_size)
+               return 0;
+
+       /* If multiplication is much faster than division, and the
+        * dividend is large, pre-invert the divisor, and use
+        * only multiplications in the inner loop.
+        *
+        * This test should be read:
+        *       Does it ever help to use udiv_qrnnd_preinv?
+        *         && Does what we save compensate for the inversion overhead?
+        */
+       if (UDIV_TIME > (2 * UMUL_TIME + 6)
+                       && (UDIV_TIME - (2 * UMUL_TIME + 6)) * dividend_size > UDIV_TIME) {
+               int normalization_steps;
+
+               normalization_steps = count_leading_zeros(divisor_limb);
+               if (normalization_steps) {
+                       mpi_limb_t divisor_limb_inverted;
+
+                       divisor_limb <<= normalization_steps;
+
+                       /* Compute (2**2N - 2**N * DIVISOR_LIMB) / DIVISOR_LIMB.  The
+                        * result is a (N+1)-bit approximation to 1/DIVISOR_LIMB, with the
+                        * most significant bit (with weight 2**N) implicit.
+                        *
+                        * Special case for DIVISOR_LIMB == 100...000.
+                        */
+                       if (!(divisor_limb << 1))
+                               divisor_limb_inverted = ~(mpi_limb_t)0;
+                       else
+                               udiv_qrnnd(divisor_limb_inverted, dummy,
+                                               -divisor_limb, 0, divisor_limb);
+
+                       n1 = dividend_ptr[dividend_size - 1];
+                       r = n1 >> (BITS_PER_MPI_LIMB - normalization_steps);
+
+                       /* Possible optimization:
+                        * if (r == 0
+                        * && divisor_limb > ((n1 << normalization_steps)
+                        *                     | (dividend_ptr[dividend_size - 2] >> ...)))
+                        * ...one division less...
+                        */
+                       for (i = dividend_size - 2; i >= 0; i--) {
+                               n0 = dividend_ptr[i];
+                               UDIV_QRNND_PREINV(dummy, r, r,
+                                               ((n1 << normalization_steps)
+                                                | (n0 >> (BITS_PER_MPI_LIMB - normalization_steps))),
+                                               divisor_limb, divisor_limb_inverted);
+                               n1 = n0;
+                       }
+                       UDIV_QRNND_PREINV(dummy, r, r,
+                                       n1 << normalization_steps,
+                                       divisor_limb, divisor_limb_inverted);
+                       return r >> normalization_steps;
+               } else {
+                       mpi_limb_t divisor_limb_inverted;
+
+                       /* Compute (2**2N - 2**N * DIVISOR_LIMB) / DIVISOR_LIMB.  The
+                        * result is a (N+1)-bit approximation to 1/DIVISOR_LIMB, with the
+                        * most significant bit (with weight 2**N) implicit.
+                        *
+                        * Special case for DIVISOR_LIMB == 100...000.
+                        */
+                       if (!(divisor_limb << 1))
+                               divisor_limb_inverted = ~(mpi_limb_t)0;
+                       else
+                               udiv_qrnnd(divisor_limb_inverted, dummy,
+                                               -divisor_limb, 0, divisor_limb);
+
+                       i = dividend_size - 1;
+                       r = dividend_ptr[i];
+
+                       if (r >= divisor_limb)
+                               r = 0;
+                       else
+                               i--;
+
+                       for ( ; i >= 0; i--) {
+                               n0 = dividend_ptr[i];
+                               UDIV_QRNND_PREINV(dummy, r, r,
+                                               n0, divisor_limb, divisor_limb_inverted);
+                       }
+                       return r;
+               }
+       } else {
+               if (UDIV_NEEDS_NORMALIZATION) {
+                       int normalization_steps;
+
+                       normalization_steps = count_leading_zeros(divisor_limb);
+                       if (normalization_steps) {
+                               divisor_limb <<= normalization_steps;
+
+                               n1 = dividend_ptr[dividend_size - 1];
+                               r = n1 >> (BITS_PER_MPI_LIMB - normalization_steps);
+
+                               /* Possible optimization:
+                                * if (r == 0
+                                * && divisor_limb > ((n1 << normalization_steps)
+                                *                 | (dividend_ptr[dividend_size - 2] >> ...)))
+                                * ...one division less...
+                                */
+                               for (i = dividend_size - 2; i >= 0; i--) {
+                                       n0 = dividend_ptr[i];
+                                       udiv_qrnnd(dummy, r, r,
+                                               ((n1 << normalization_steps)
+                                                | (n0 >> (BITS_PER_MPI_LIMB - normalization_steps))),
+                                               divisor_limb);
+                                       n1 = n0;
+                               }
+                               udiv_qrnnd(dummy, r, r,
+                                               n1 << normalization_steps,
+                                               divisor_limb);
+                               return r >> normalization_steps;
+                       }
+               }
+               /* No normalization needed, either because udiv_qrnnd doesn't require
+                * it, or because DIVISOR_LIMB is already normalized.
+                */
+               i = dividend_size - 1;
+               r = dividend_ptr[i];
+
+               if (r >= divisor_limb)
+                       r = 0;
+               else
+                       i--;
+
+               for (; i >= 0; i--) {
+                       n0 = dividend_ptr[i];
+                       udiv_qrnnd(dummy, r, r, n0, divisor_limb);
+               }
+               return r;
+       }
+}
+
 /* Divide num (NP/NSIZE) by den (DP/DSIZE) and write
  * the NSIZE-DSIZE least significant quotient limbs at QP
  * and the DSIZE long remainder at NP. If QEXTRA_LIMBS is
@@ -221,3 +365,153 @@ q_test:
 
        return most_significant_q_limb;
 }
+
+/****************
+ * Divide (DIVIDEND_PTR,,DIVIDEND_SIZE) by DIVISOR_LIMB.
+ * Write DIVIDEND_SIZE limbs of quotient at QUOT_PTR.
+ * Return the single-limb remainder.
+ * There are no constraints on the value of the divisor.
+ *
+ * QUOT_PTR and DIVIDEND_PTR might point to the same limb.
+ */
+
+mpi_limb_t
+mpihelp_divmod_1(mpi_ptr_t quot_ptr,
+               mpi_ptr_t dividend_ptr, mpi_size_t dividend_size,
+               mpi_limb_t divisor_limb)
+{
+       mpi_size_t i;
+       mpi_limb_t n1, n0, r;
+       mpi_limb_t dummy __maybe_unused;
+
+       if (!dividend_size)
+               return 0;
+
+       /* If multiplication is much faster than division, and the
+        * dividend is large, pre-invert the divisor, and use
+        * only multiplications in the inner loop.
+        *
+        * This test should be read:
+        * Does it ever help to use udiv_qrnnd_preinv?
+        * && Does what we save compensate for the inversion overhead?
+        */
+       if (UDIV_TIME > (2 * UMUL_TIME + 6)
+                       && (UDIV_TIME - (2 * UMUL_TIME + 6)) * dividend_size > UDIV_TIME) {
+               int normalization_steps;
+
+               normalization_steps = count_leading_zeros(divisor_limb);
+               if (normalization_steps) {
+                       mpi_limb_t divisor_limb_inverted;
+
+                       divisor_limb <<= normalization_steps;
+
+                       /* Compute (2**2N - 2**N * DIVISOR_LIMB) / DIVISOR_LIMB.  The
+                        * result is a (N+1)-bit approximation to 1/DIVISOR_LIMB, with the
+                        * most significant bit (with weight 2**N) implicit.
+                        */
+                       /* Special case for DIVISOR_LIMB == 100...000.  */
+                       if (!(divisor_limb << 1))
+                               divisor_limb_inverted = ~(mpi_limb_t)0;
+                       else
+                               udiv_qrnnd(divisor_limb_inverted, dummy,
+                                               -divisor_limb, 0, divisor_limb);
+
+                       n1 = dividend_ptr[dividend_size - 1];
+                       r = n1 >> (BITS_PER_MPI_LIMB - normalization_steps);
+
+                       /* Possible optimization:
+                        * if (r == 0
+                        * && divisor_limb > ((n1 << normalization_steps)
+                        *                     | (dividend_ptr[dividend_size - 2] >> ...)))
+                        * ...one division less...
+                        */
+                       for (i = dividend_size - 2; i >= 0; i--) {
+                               n0 = dividend_ptr[i];
+                               UDIV_QRNND_PREINV(quot_ptr[i + 1], r, r,
+                                               ((n1 << normalization_steps)
+                                                | (n0 >> (BITS_PER_MPI_LIMB - normalization_steps))),
+                                               divisor_limb, divisor_limb_inverted);
+                               n1 = n0;
+                       }
+                       UDIV_QRNND_PREINV(quot_ptr[0], r, r,
+                                       n1 << normalization_steps,
+                                       divisor_limb, divisor_limb_inverted);
+                       return r >> normalization_steps;
+               } else {
+                       mpi_limb_t divisor_limb_inverted;
+
+                       /* Compute (2**2N - 2**N * DIVISOR_LIMB) / DIVISOR_LIMB.  The
+                        * result is a (N+1)-bit approximation to 1/DIVISOR_LIMB, with the
+                        * most significant bit (with weight 2**N) implicit.
+                        */
+                       /* Special case for DIVISOR_LIMB == 100...000.  */
+                       if (!(divisor_limb << 1))
+                               divisor_limb_inverted = ~(mpi_limb_t) 0;
+                       else
+                               udiv_qrnnd(divisor_limb_inverted, dummy,
+                                               -divisor_limb, 0, divisor_limb);
+
+                       i = dividend_size - 1;
+                       r = dividend_ptr[i];
+
+                       if (r >= divisor_limb)
+                               r = 0;
+                       else
+                               quot_ptr[i--] = 0;
+
+                       for ( ; i >= 0; i--) {
+                               n0 = dividend_ptr[i];
+                               UDIV_QRNND_PREINV(quot_ptr[i], r, r,
+                                               n0, divisor_limb, divisor_limb_inverted);
+                       }
+                       return r;
+               }
+       } else {
+               if (UDIV_NEEDS_NORMALIZATION) {
+                       int normalization_steps;
+
+                       normalization_steps = count_leading_zeros(divisor_limb);
+                       if (normalization_steps) {
+                               divisor_limb <<= normalization_steps;
+
+                               n1 = dividend_ptr[dividend_size - 1];
+                               r = n1 >> (BITS_PER_MPI_LIMB - normalization_steps);
+
+                               /* Possible optimization:
+                                * if (r == 0
+                                * && divisor_limb > ((n1 << normalization_steps)
+                                *                 | (dividend_ptr[dividend_size - 2] >> ...)))
+                                * ...one division less...
+                                */
+                               for (i = dividend_size - 2; i >= 0; i--) {
+                                       n0 = dividend_ptr[i];
+                                       udiv_qrnnd(quot_ptr[i + 1], r, r,
+                                               ((n1 << normalization_steps)
+                                                | (n0 >> (BITS_PER_MPI_LIMB - normalization_steps))),
+                                               divisor_limb);
+                                       n1 = n0;
+                               }
+                               udiv_qrnnd(quot_ptr[0], r, r,
+                                               n1 << normalization_steps,
+                                               divisor_limb);
+                               return r >> normalization_steps;
+                       }
+               }
+               /* No normalization needed, either because udiv_qrnnd doesn't require
+                * it, or because DIVISOR_LIMB is already normalized.
+                */
+               i = dividend_size - 1;
+               r = dividend_ptr[i];
+
+               if (r >= divisor_limb)
+                       r = 0;
+               else
+                       quot_ptr[i--] = 0;
+
+               for (; i >= 0; i--) {
+                       n0 = dividend_ptr[i];
+                       udiv_qrnnd(quot_ptr[i], r, r, n0, divisor_limb);
+               }
+               return r;
+       }
+}
index a936475..e5f1c84 100644 (file)
@@ -317,6 +317,31 @@ mpih_sqr_n(mpi_ptr_t prodp, mpi_ptr_t up, mpi_size_t size, mpi_ptr_t tspace)
        }
 }
 
+
+void mpihelp_mul_n(mpi_ptr_t prodp,
+               mpi_ptr_t up, mpi_ptr_t vp, mpi_size_t size)
+{
+       if (up == vp) {
+               if (size < KARATSUBA_THRESHOLD)
+                       mpih_sqr_n_basecase(prodp, up, size);
+               else {
+                       mpi_ptr_t tspace;
+                       tspace = mpi_alloc_limb_space(2 * size);
+                       mpih_sqr_n(prodp, up, size, tspace);
+                       mpi_free_limb_space(tspace);
+               }
+       } else {
+               if (size < KARATSUBA_THRESHOLD)
+                       mul_n_basecase(prodp, up, vp, size);
+               else {
+                       mpi_ptr_t tspace;
+                       tspace = mpi_alloc_limb_space(2 * size);
+                       mul_n(prodp, up, vp, size, tspace);
+                       mpi_free_limb_space(tspace);
+               }
+       }
+}
+
 int
 mpihelp_mul_karatsuba_case(mpi_ptr_t prodp,
                           mpi_ptr_t up, mpi_size_t usize,
index 4cd2b33..3c63710 100644 (file)
 
 #include "mpi-internal.h"
 
+/* Constants allocated right away at startup.  */
+static MPI constants[MPI_NUMBER_OF_CONSTANTS];
+
+/* Initialize the MPI subsystem.  This is called early and allows to
+ * do some initialization without taking care of threading issues.
+ */
+static int __init mpi_init(void)
+{
+       int idx;
+       unsigned long value;
+
+       for (idx = 0; idx < MPI_NUMBER_OF_CONSTANTS; idx++) {
+               switch (idx) {
+               case MPI_C_ZERO:
+                       value = 0;
+                       break;
+               case MPI_C_ONE:
+                       value = 1;
+                       break;
+               case MPI_C_TWO:
+                       value = 2;
+                       break;
+               case MPI_C_THREE:
+                       value = 3;
+                       break;
+               case MPI_C_FOUR:
+                       value = 4;
+                       break;
+               case MPI_C_EIGHT:
+                       value = 8;
+                       break;
+               default:
+                       pr_err("MPI: invalid mpi_const selector %d\n", idx);
+                       return -EFAULT;
+               }
+               constants[idx] = mpi_alloc_set_ui(value);
+               constants[idx]->flags = (16|32);
+       }
+
+       return 0;
+}
+postcore_initcall(mpi_init);
+
+/* Return a constant MPI descripbed by NO which is one of the
+ * MPI_C_xxx macros.  There is no need to copy this returned value; it
+ * may be used directly.
+ */
+MPI mpi_const(enum gcry_mpi_constants no)
+{
+       if ((int)no < 0 || no > MPI_NUMBER_OF_CONSTANTS)
+               pr_err("MPI: invalid mpi_const selector %d\n", no);
+       if (!constants[no])
+               pr_err("MPI: MPI subsystem not initialized\n");
+       return constants[no];
+}
+EXPORT_SYMBOL_GPL(mpi_const);
+
 /****************
  * Note:  It was a bad idea to use the number of limbs to allocate
  *       because on a alpha the limbs are large but we normally need
@@ -106,6 +163,15 @@ int mpi_resize(MPI a, unsigned nlimbs)
        return 0;
 }
 
+void mpi_clear(MPI a)
+{
+       if (!a)
+               return;
+       a->nlimbs = 0;
+       a->flags = 0;
+}
+EXPORT_SYMBOL_GPL(mpi_clear);
+
 void mpi_free(MPI a)
 {
        if (!a)
@@ -122,5 +188,143 @@ void mpi_free(MPI a)
 }
 EXPORT_SYMBOL_GPL(mpi_free);
 
+/****************
+ * Note: This copy function should not interpret the MPI
+ *      but copy it transparently.
+ */
+MPI mpi_copy(MPI a)
+{
+       int i;
+       MPI b;
+
+       if (a) {
+               b = mpi_alloc(a->nlimbs);
+               b->nlimbs = a->nlimbs;
+               b->sign = a->sign;
+               b->flags = a->flags;
+               b->flags &= ~(16|32); /* Reset the immutable and constant flags. */
+               for (i = 0; i < b->nlimbs; i++)
+                       b->d[i] = a->d[i];
+       } else
+               b = NULL;
+       return b;
+}
+
+/****************
+ * This function allocates an MPI which is optimized to hold
+ * a value as large as the one given in the argument and allocates it
+ * with the same flags as A.
+ */
+MPI mpi_alloc_like(MPI a)
+{
+       MPI b;
+
+       if (a) {
+               b = mpi_alloc(a->nlimbs);
+               b->nlimbs = 0;
+               b->sign = 0;
+               b->flags = a->flags;
+       } else
+               b = NULL;
+
+       return b;
+}
+
+
+/* Set U into W and release U.  If W is NULL only U will be released. */
+void mpi_snatch(MPI w, MPI u)
+{
+       if (w) {
+               mpi_assign_limb_space(w, u->d, u->alloced);
+               w->nlimbs = u->nlimbs;
+               w->sign   = u->sign;
+               w->flags  = u->flags;
+               u->alloced = 0;
+               u->nlimbs = 0;
+               u->d = NULL;
+       }
+       mpi_free(u);
+}
+
+
+MPI mpi_set(MPI w, MPI u)
+{
+       mpi_ptr_t wp, up;
+       mpi_size_t usize = u->nlimbs;
+       int usign = u->sign;
+
+       if (!w)
+               w = mpi_alloc(mpi_get_nlimbs(u));
+       RESIZE_IF_NEEDED(w, usize);
+       wp = w->d;
+       up = u->d;
+       MPN_COPY(wp, up, usize);
+       w->nlimbs = usize;
+       w->flags = u->flags;
+       w->flags &= ~(16|32); /* Reset the immutable and constant flags.  */
+       w->sign = usign;
+       return w;
+}
+EXPORT_SYMBOL_GPL(mpi_set);
+
+MPI mpi_set_ui(MPI w, unsigned long u)
+{
+       if (!w)
+               w = mpi_alloc(1);
+       /* FIXME: If U is 0 we have no need to resize and thus possible
+        * allocating the the limbs.
+        */
+       RESIZE_IF_NEEDED(w, 1);
+       w->d[0] = u;
+       w->nlimbs = u ? 1 : 0;
+       w->sign = 0;
+       w->flags = 0;
+       return w;
+}
+EXPORT_SYMBOL_GPL(mpi_set_ui);
+
+MPI mpi_alloc_set_ui(unsigned long u)
+{
+       MPI w = mpi_alloc(1);
+       w->d[0] = u;
+       w->nlimbs = u ? 1 : 0;
+       w->sign = 0;
+       return w;
+}
+
+/****************
+ * Swap the value of A and B, when SWAP is 1.
+ * Leave the value when SWAP is 0.
+ * This implementation should be constant-time regardless of SWAP.
+ */
+void mpi_swap_cond(MPI a, MPI b, unsigned long swap)
+{
+       mpi_size_t i;
+       mpi_size_t nlimbs;
+       mpi_limb_t mask = ((mpi_limb_t)0) - swap;
+       mpi_limb_t x;
+
+       if (a->alloced > b->alloced)
+               nlimbs = b->alloced;
+       else
+               nlimbs = a->alloced;
+       if (a->nlimbs > nlimbs || b->nlimbs > nlimbs)
+               return;
+
+       for (i = 0; i < nlimbs; i++) {
+               x = mask & (a->d[i] ^ b->d[i]);
+               a->d[i] = a->d[i] ^ x;
+               b->d[i] = b->d[i] ^ x;
+       }
+
+       x = mask & (a->nlimbs ^ b->nlimbs);
+       a->nlimbs = a->nlimbs ^ x;
+       b->nlimbs = b->nlimbs ^ x;
+
+       x = mask & (a->sign ^ b->sign);
+       a->sign = a->sign ^ x;
+       b->sign = b->sign ^ x;
+}
+
 MODULE_DESCRIPTION("Multiprecision maths library");
 MODULE_LICENSE("GPL");
index a2345de..f61689a 100644 (file)
@@ -17,7 +17,7 @@ static DEFINE_SPINLOCK(percpu_counters_lock);
 
 #ifdef CONFIG_DEBUG_OBJECTS_PERCPU_COUNTER
 
-static struct debug_obj_descr percpu_counter_debug_descr;
+static const struct debug_obj_descr percpu_counter_debug_descr;
 
 static bool percpu_counter_fixup_free(void *addr, enum debug_obj_state state)
 {
@@ -33,7 +33,7 @@ static bool percpu_counter_fixup_free(void *addr, enum debug_obj_state state)
        }
 }
 
-static struct debug_obj_descr percpu_counter_debug_descr = {
+static const struct debug_obj_descr percpu_counter_debug_descr = {
        .name           = "percpu_counter",
        .fixup_free     = percpu_counter_fixup_free,
 };
index 6c97488..e3ee7b3 100644 (file)
@@ -383,7 +383,7 @@ config NOMMU_INITIAL_TRIM_EXCESS
          This option specifies the initial value of this option.  The default
          of 1 says that all excess pages should be trimmed.
 
-         See Documentation/mm/nommu-mmap.rst for more information.
+         See Documentation/admin-guide/mm/nommu-mmap.rst for more information.
 
 config TRANSPARENT_HUGEPAGE
        bool "Transparent Hugepage Support"
index da39777..ec0f0cc 100644 (file)
@@ -2370,6 +2370,9 @@ static void __split_huge_page_tail(struct page *head, int tail,
                         (1L << PG_workingset) |
                         (1L << PG_locked) |
                         (1L << PG_unevictable) |
+#ifdef CONFIG_64BIT
+                        (1L << PG_arch_2) |
+#endif
                         (1L << PG_dirty)));
 
        /* ->mapping in first tail page is compound_mapcount */
index cfa0dba..58b0d9c 100644 (file)
@@ -56,6 +56,9 @@ enum scan_result {
 #define CREATE_TRACE_POINTS
 #include <trace/events/huge_memory.h>
 
+static struct task_struct *khugepaged_thread __read_mostly;
+static DEFINE_MUTEX(khugepaged_mutex);
+
 /* default scan 8*512 pte (or vmas) every 30 second */
 static unsigned int khugepaged_pages_to_scan __read_mostly;
 static unsigned int khugepaged_pages_collapsed;
@@ -914,6 +917,18 @@ static struct page *khugepaged_alloc_hugepage(bool *wait)
 
 static bool khugepaged_prealloc_page(struct page **hpage, bool *wait)
 {
+       /*
+        * If the hpage allocated earlier was briefly exposed in page cache
+        * before collapse_file() failed, it is possible that racing lookups
+        * have not yet completed, and would then be unpleasantly surprised by
+        * finding the hpage reused for the same mapping at a different offset.
+        * Just release the previous allocation if there is any danger of that.
+        */
+       if (*hpage && page_count(*hpage) > 1) {
+               put_page(*hpage);
+               *hpage = NULL;
+       }
+
        if (!*hpage)
                *hpage = khugepaged_alloc_hugepage(wait);
 
@@ -2292,8 +2307,6 @@ static void set_recommended_min_free_kbytes(void)
 
 int start_stop_khugepaged(void)
 {
-       static struct task_struct *khugepaged_thread __read_mostly;
-       static DEFINE_MUTEX(khugepaged_mutex);
        int err = 0;
 
        mutex_lock(&khugepaged_mutex);
@@ -2320,3 +2333,11 @@ fail:
        mutex_unlock(&khugepaged_mutex);
        return err;
 }
+
+void khugepaged_min_free_kbytes_update(void)
+{
+       mutex_lock(&khugepaged_mutex);
+       if (khugepaged_enabled() && khugepaged_thread)
+               set_recommended_min_free_kbytes();
+       mutex_unlock(&khugepaged_mutex);
+}
index fcfc4ca..eeae590 100644 (file)
@@ -806,8 +806,6 @@ copy_present_page(struct mm_struct *dst_mm, struct mm_struct *src_mm,
                return 1;
 
        /*
-        * The trick starts.
-        *
         * What we want to do is to check whether this page may
         * have been pinned by the parent process.  If so,
         * instead of wrprotect the pte on both sides, we copy
@@ -815,47 +813,16 @@ copy_present_page(struct mm_struct *dst_mm, struct mm_struct *src_mm,
         * the pinned page won't be randomly replaced in the
         * future.
         *
-        * To achieve this, we do the following:
-        *
-        * 1. Write-protect the pte if it's writable.  This is
-        *    to protect concurrent write fast-gup with
-        *    FOLL_PIN, so that we'll fail the fast-gup with
-        *    the write bit removed.
-        *
-        * 2. Check page_maybe_dma_pinned() to see whether this
-        *    page may have been pinned.
-        *
-        * The order of these steps is important to serialize
-        * against the fast-gup code (gup_pte_range()) on the
-        * pte check and try_grab_compound_head(), so that
-        * we'll make sure either we'll capture that fast-gup
-        * so we'll copy the pinned page here, or we'll fail
-        * that fast-gup.
-        *
-        * NOTE! Even if we don't end up copying the page,
-        * we won't undo this wrprotect(), because the normal
-        * reference copy will need it anyway.
-        */
-       if (pte_write(pte))
-               ptep_set_wrprotect(src_mm, addr, src_pte);
-
-       /*
-        * These are the "normally we can just copy by reference"
-        * checks.
+        * The page pinning checks are just "has this mm ever
+        * seen pinning", along with the (inexact) check of
+        * the page count. That might give false positives for
+        * for pinning, but it will work correctly.
         */
        if (likely(!atomic_read(&src_mm->has_pinned)))
                return 1;
        if (likely(!page_maybe_dma_pinned(page)))
                return 1;
 
-       /*
-        * Uhhuh. It looks like the page might be a pinned page,
-        * and we actually need to copy it. Now we can set the
-        * source pte back to being writable.
-        */
-       if (pte_write(pte))
-               set_pte_at(src_mm, addr, src_pte, pte);
-
        new_page = *prealloc;
        if (!new_page)
                return -EAGAIN;
index 40248d8..f793eb7 100644 (file)
--- a/mm/mmap.c
+++ b/mm/mmap.c
@@ -1781,7 +1781,11 @@ unsigned long mmap_region(struct file *file, unsigned long addr,
                        merge = vma_merge(mm, prev, vma->vm_start, vma->vm_end, vma->vm_flags,
                                NULL, vma->vm_file, vma->vm_pgoff, NULL, NULL_VM_UFFD_CTX);
                        if (merge) {
-                               fput(file);
+                               /* ->mmap() can change vma->vm_file and fput the original file. So
+                                * fput the vma->vm_file here or we would add an extra fput for file
+                                * and cause general protection fault ultimately.
+                                */
+                               fput(vma->vm_file);
                                vm_area_free(vma);
                                vma = merge;
                                /* Update vm_flags and possible addr to pick up the change. We don't
@@ -1812,6 +1816,15 @@ unsigned long mmap_region(struct file *file, unsigned long addr,
                vma_set_anonymous(vma);
        }
 
+       /* Allow architectures to sanity-check the vm_flags */
+       if (!arch_validate_flags(vma->vm_flags)) {
+               error = -EINVAL;
+               if (file)
+                       goto unmap_and_free_vma;
+               else
+                       goto free_vma;
+       }
+
        vma_link(mm, vma, prev, rb_link, rb_parent);
        /* Once vma denies write, undo our temporary denial count */
        if (file) {
index ce8b8a5..56c02be 100644 (file)
@@ -603,6 +603,12 @@ static int do_mprotect_pkey(unsigned long start, size_t len,
                        goto out;
                }
 
+               /* Allow architectures to sanity-check the new flags */
+               if (!arch_validate_flags(newflags)) {
+                       error = -EINVAL;
+                       goto out;
+               }
+
                error = security_file_mprotect(vma, reqprot, prot);
                if (error)
                        goto out;
index 75a3271..0df7ca3 100644 (file)
@@ -5,7 +5,7 @@
  *  Replacement code for mm functions to support CPU's that don't
  *  have any form of memory management unit (thus no virtual memory).
  *
- *  See Documentation/mm/nommu-mmap.rst
+ *  See Documentation/admin-guide/mm/nommu-mmap.rst
  *
  *  Copyright (c) 2004-2008 David Howells <dhowells@redhat.com>
  *  Copyright (c) 2000-2003 David McCullough <davidm@snapgear.com>
index 6866533..780c8f0 100644 (file)
@@ -69,6 +69,7 @@
 #include <linux/nmi.h>
 #include <linux/psi.h>
 #include <linux/padata.h>
+#include <linux/khugepaged.h>
 
 #include <asm/sections.h>
 #include <asm/tlbflush.h>
@@ -7904,6 +7905,8 @@ int __meminit init_per_zone_wmark_min(void)
        setup_min_slab_ratio();
 #endif
 
+       khugepaged_min_free_kbytes_update();
+
        return 0;
 }
 postcore_initcall(init_per_zone_wmark_min)
index e485a6e..4ca28aa 100644 (file)
@@ -252,6 +252,16 @@ int swap_writepage(struct page *page, struct writeback_control *wbc)
                unlock_page(page);
                goto out;
        }
+       /*
+        * Arch code may have to preserve more data than just the page
+        * contents, e.g. memory tags.
+        */
+       ret = arch_prepare_to_swap(page);
+       if (ret) {
+               set_page_dirty(page);
+               unlock_page(page);
+               goto out;
+       }
        if (frontswap_store(page) == 0) {
                set_page_writeback(page);
                unlock_page(page);
index 29c0520..fd12da8 100644 (file)
 #include <linux/slab.h>
 #include <linux/syscalls.h>
 
-#ifdef CONFIG_COMPAT
-#include <linux/compat.h>
-#endif
-
 /**
  * process_vm_rw_pages - read/write pages from task specified
  * @pages: array of pointers to pages we want to copy
@@ -276,20 +272,17 @@ static ssize_t process_vm_rw(pid_t pid,
        if (rc < 0)
                return rc;
        if (!iov_iter_count(&iter))
-               goto free_iovecs;
-
-       rc = rw_copy_check_uvector(CHECK_IOVEC_ONLY, rvec, riovcnt, UIO_FASTIOV,
-                                  iovstack_r, &iov_r);
-       if (rc <= 0)
-               goto free_iovecs;
-
+               goto free_iov_l;
+       iov_r = iovec_from_user(rvec, riovcnt, UIO_FASTIOV, iovstack_r, false);
+       if (IS_ERR(iov_r)) {
+               rc = PTR_ERR(iov_r);
+               goto free_iov_l;
+       }
        rc = process_vm_rw_core(pid, &iter, iov_r, riovcnt, flags, vm_write);
-
-free_iovecs:
        if (iov_r != iovstack_r)
                kfree(iov_r);
+free_iov_l:
        kfree(iov_l);
-
        return rc;
 }
 
@@ -307,68 +300,3 @@ SYSCALL_DEFINE6(process_vm_writev, pid_t, pid,
 {
        return process_vm_rw(pid, lvec, liovcnt, rvec, riovcnt, flags, 1);
 }
-
-#ifdef CONFIG_COMPAT
-
-static ssize_t
-compat_process_vm_rw(compat_pid_t pid,
-                    const struct compat_iovec __user *lvec,
-                    unsigned long liovcnt,
-                    const struct compat_iovec __user *rvec,
-                    unsigned long riovcnt,
-                    unsigned long flags, int vm_write)
-{
-       struct iovec iovstack_l[UIO_FASTIOV];
-       struct iovec iovstack_r[UIO_FASTIOV];
-       struct iovec *iov_l = iovstack_l;
-       struct iovec *iov_r = iovstack_r;
-       struct iov_iter iter;
-       ssize_t rc = -EFAULT;
-       int dir = vm_write ? WRITE : READ;
-
-       if (flags != 0)
-               return -EINVAL;
-
-       rc = compat_import_iovec(dir, lvec, liovcnt, UIO_FASTIOV, &iov_l, &iter);
-       if (rc < 0)
-               return rc;
-       if (!iov_iter_count(&iter))
-               goto free_iovecs;
-       rc = compat_rw_copy_check_uvector(CHECK_IOVEC_ONLY, rvec, riovcnt,
-                                         UIO_FASTIOV, iovstack_r,
-                                         &iov_r);
-       if (rc <= 0)
-               goto free_iovecs;
-
-       rc = process_vm_rw_core(pid, &iter, iov_r, riovcnt, flags, vm_write);
-
-free_iovecs:
-       if (iov_r != iovstack_r)
-               kfree(iov_r);
-       kfree(iov_l);
-       return rc;
-}
-
-COMPAT_SYSCALL_DEFINE6(process_vm_readv, compat_pid_t, pid,
-                      const struct compat_iovec __user *, lvec,
-                      compat_ulong_t, liovcnt,
-                      const struct compat_iovec __user *, rvec,
-                      compat_ulong_t, riovcnt,
-                      compat_ulong_t, flags)
-{
-       return compat_process_vm_rw(pid, lvec, liovcnt, rvec,
-                                   riovcnt, flags, 0);
-}
-
-COMPAT_SYSCALL_DEFINE6(process_vm_writev, compat_pid_t, pid,
-                      const struct compat_iovec __user *, lvec,
-                      compat_ulong_t, liovcnt,
-                      const struct compat_iovec __user *, rvec,
-                      compat_ulong_t, riovcnt,
-                      compat_ulong_t, flags)
-{
-       return compat_process_vm_rw(pid, lvec, liovcnt, rvec,
-                                   riovcnt, flags, 1);
-}
-
-#endif
index 8e2b35b..d42c27e 100644 (file)
@@ -1736,6 +1736,12 @@ static int shmem_swapin_page(struct inode *inode, pgoff_t index,
        }
        wait_on_page_writeback(page);
 
+       /*
+        * Some architectures may have to restore extra metadata to the
+        * physical page after reading from swap.
+        */
+       arch_swap_restore(swap, page);
+
        if (shmem_should_replace_page(page, gfp)) {
                error = shmem_replace_page(&page, gfp, info, index);
                if (error)
@@ -2269,6 +2275,9 @@ static int shmem_mmap(struct file *file, struct vm_area_struct *vma)
                        vma->vm_flags &= ~(VM_MAYWRITE);
        }
 
+       /* arm64 - allow memory tagging on RAM-based files */
+       vma->vm_flags |= VM_MTE_ALLOWED;
+
        file_accessed(file);
        vma->vm_ops = &shmem_vm_ops;
        if (IS_ENABLED(CONFIG_TRANSPARENT_HUGEPAGE) &&
index e7bdf09..65ef7e3 100644 (file)
--- a/mm/swap.c
+++ b/mm/swap.c
@@ -763,10 +763,20 @@ static void lru_add_drain_per_cpu(struct work_struct *dummy)
  */
 void lru_add_drain_all(void)
 {
-       static seqcount_t seqcount = SEQCNT_ZERO(seqcount);
-       static DEFINE_MUTEX(lock);
+       /*
+        * lru_drain_gen - Global pages generation number
+        *
+        * (A) Definition: global lru_drain_gen = x implies that all generations
+        *     0 < n <= x are already *scheduled* for draining.
+        *
+        * This is an optimization for the highly-contended use case where a
+        * user space workload keeps constantly generating a flow of pages for
+        * each CPU.
+        */
+       static unsigned int lru_drain_gen;
        static struct cpumask has_work;
-       int cpu, seq;
+       static DEFINE_MUTEX(lock);
+       unsigned cpu, this_gen;
 
        /*
         * Make sure nobody triggers this path before mm_percpu_wq is fully
@@ -775,21 +785,54 @@ void lru_add_drain_all(void)
        if (WARN_ON(!mm_percpu_wq))
                return;
 
-       seq = raw_read_seqcount_latch(&seqcount);
+       /*
+        * Guarantee pagevec counter stores visible by this CPU are visible to
+        * other CPUs before loading the current drain generation.
+        */
+       smp_mb();
+
+       /*
+        * (B) Locally cache global LRU draining generation number
+        *
+        * The read barrier ensures that the counter is loaded before the mutex
+        * is taken. It pairs with smp_mb() inside the mutex critical section
+        * at (D).
+        */
+       this_gen = smp_load_acquire(&lru_drain_gen);
 
        mutex_lock(&lock);
 
        /*
-        * Piggyback on drain started and finished while we waited for lock:
-        * all pages pended at the time of our enter were drained from vectors.
+        * (C) Exit the draining operation if a newer generation, from another
+        * lru_add_drain_all(), was already scheduled for draining. Check (A).
         */
-       if (__read_seqcount_retry(&seqcount, seq))
+       if (unlikely(this_gen != lru_drain_gen))
                goto done;
 
-       raw_write_seqcount_latch(&seqcount);
+       /*
+        * (D) Increment global generation number
+        *
+        * Pairs with smp_load_acquire() at (B), outside of the critical
+        * section. Use a full memory barrier to guarantee that the new global
+        * drain generation number is stored before loading pagevec counters.
+        *
+        * This pairing must be done here, before the for_each_online_cpu loop
+        * below which drains the page vectors.
+        *
+        * Let x, y, and z represent some system CPU numbers, where x < y < z.
+        * Assume CPU #z is is in the middle of the for_each_online_cpu loop
+        * below and has already reached CPU #y's per-cpu data. CPU #x comes
+        * along, adds some pages to its per-cpu vectors, then calls
+        * lru_add_drain_all().
+        *
+        * If the paired barrier is done at any later step, e.g. after the
+        * loop, CPU #x will just exit at (C) and miss flushing out all of its
+        * added pages.
+        */
+       WRITE_ONCE(lru_drain_gen, lru_drain_gen + 1);
+       smp_mb();
 
        cpumask_clear(&has_work);
-
        for_each_online_cpu(cpu) {
                struct work_struct *work = &per_cpu(lru_add_drain_work, cpu);
 
@@ -801,7 +844,7 @@ void lru_add_drain_all(void)
                    need_activate_page_drain(cpu)) {
                        INIT_WORK(work, lru_add_drain_per_cpu);
                        queue_work_on(cpu, mm_percpu_wq, work);
-                       cpumask_set_cpu(cpu, &has_work);
+                       __cpumask_set_cpu(cpu, &has_work);
                }
        }
 
@@ -816,7 +859,7 @@ void lru_add_drain_all(void)
 {
        lru_add_drain();
 }
-#endif
+#endif /* CONFIG_SMP */
 
 /**
  * release_pages - batched put_page()
index debc941..4951f53 100644 (file)
@@ -717,6 +717,7 @@ static void swap_range_free(struct swap_info_struct *si, unsigned long offset,
        else
                swap_slot_free_notify = NULL;
        while (offset <= end) {
+               arch_swap_invalidate_page(si->type, offset);
                frontswap_invalidate_page(si->type, offset);
                if (swap_slot_free_notify)
                        swap_slot_free_notify(si->bdev, offset);
@@ -2682,6 +2683,7 @@ SYSCALL_DEFINE1(swapoff, const char __user *, specialfile)
        frontswap_map = frontswap_map_get(p);
        spin_unlock(&p->lock);
        spin_unlock(&swap_lock);
+       arch_swap_invalidate_area(p->type);
        frontswap_invalidate_area(p->type);
        frontswap_map_set(p, NULL);
        mutex_unlock(&swapon_mutex);
index 5ef378a..4e21fe7 100644 (file)
--- a/mm/util.c
+++ b/mm/util.c
@@ -957,7 +957,7 @@ out:
        return res;
 }
 
-int memcmp_pages(struct page *page1, struct page *page2)
+int __weak memcmp_pages(struct page *page1, struct page *page2)
 {
        char *addr1, *addr2;
        int ret;
index b18cdf0..dfec65e 100644 (file)
@@ -88,9 +88,10 @@ static void br_arp_send(struct net_bridge *br, struct net_bridge_port *p,
        }
 }
 
-static int br_chk_addr_ip(struct net_device *dev, void *data)
+static int br_chk_addr_ip(struct net_device *dev,
+                         struct netdev_nested_priv *priv)
 {
-       __be32 ip = *(__be32 *)data;
+       __be32 ip = *(__be32 *)priv->data;
        struct in_device *in_dev;
        __be32 addr = 0;
 
@@ -107,11 +108,15 @@ static int br_chk_addr_ip(struct net_device *dev, void *data)
 
 static bool br_is_local_ip(struct net_device *dev, __be32 ip)
 {
-       if (br_chk_addr_ip(dev, &ip))
+       struct netdev_nested_priv priv = {
+               .data = (void *)&ip,
+       };
+
+       if (br_chk_addr_ip(dev, &priv))
                return true;
 
        /* check if ip is configured on upper dev */
-       if (netdev_walk_all_upper_dev_rcu(dev, br_chk_addr_ip, &ip))
+       if (netdev_walk_all_upper_dev_rcu(dev, br_chk_addr_ip, &priv))
                return true;
 
        return false;
@@ -361,9 +366,10 @@ static void br_nd_send(struct net_bridge *br, struct net_bridge_port *p,
        }
 }
 
-static int br_chk_addr_ip6(struct net_device *dev, void *data)
+static int br_chk_addr_ip6(struct net_device *dev,
+                          struct netdev_nested_priv *priv)
 {
-       struct in6_addr *addr = (struct in6_addr *)data;
+       struct in6_addr *addr = (struct in6_addr *)priv->data;
 
        if (ipv6_chk_addr(dev_net(dev), addr, dev, 0))
                return 1;
@@ -374,11 +380,15 @@ static int br_chk_addr_ip6(struct net_device *dev, void *data)
 static bool br_is_local_ip6(struct net_device *dev, struct in6_addr *addr)
 
 {
-       if (br_chk_addr_ip6(dev, addr))
+       struct netdev_nested_priv priv = {
+               .data = (void *)addr,
+       };
+
+       if (br_chk_addr_ip6(dev, &priv))
                return true;
 
        /* check if ip is configured on upper dev */
-       if (netdev_walk_all_upper_dev_rcu(dev, br_chk_addr_ip6, addr))
+       if (netdev_walk_all_upper_dev_rcu(dev, br_chk_addr_ip6, &priv))
                return true;
 
        return false;
index 9db504b..32ac834 100644 (file)
@@ -413,6 +413,8 @@ void br_fdb_delete_by_port(struct net_bridge *br,
 
                if (!do_all)
                        if (test_bit(BR_FDB_STATIC, &f->flags) ||
+                           (test_bit(BR_FDB_ADDED_BY_EXT_LEARN, &f->flags) &&
+                            !test_bit(BR_FDB_OFFLOADED, &f->flags)) ||
                            (vid && f->key.vlan_id != vid))
                                continue;
 
index 147d525..da310f0 100644 (file)
@@ -380,6 +380,7 @@ static int br_fill_ifinfo(struct sk_buff *skb,
                          u32 filter_mask, const struct net_device *dev)
 {
        u8 operstate = netif_running(dev) ? dev->operstate : IF_OPER_DOWN;
+       struct nlattr *af = NULL;
        struct net_bridge *br;
        struct ifinfomsg *hdr;
        struct nlmsghdr *nlh;
@@ -423,11 +424,18 @@ static int br_fill_ifinfo(struct sk_buff *skb,
                nla_nest_end(skb, nest);
        }
 
+       if (filter_mask & (RTEXT_FILTER_BRVLAN |
+                          RTEXT_FILTER_BRVLAN_COMPRESSED |
+                          RTEXT_FILTER_MRP)) {
+               af = nla_nest_start_noflag(skb, IFLA_AF_SPEC);
+               if (!af)
+                       goto nla_put_failure;
+       }
+
        /* Check if  the VID information is requested */
        if ((filter_mask & RTEXT_FILTER_BRVLAN) ||
            (filter_mask & RTEXT_FILTER_BRVLAN_COMPRESSED)) {
                struct net_bridge_vlan_group *vg;
-               struct nlattr *af;
                int err;
 
                /* RCU needed because of the VLAN locking rules (rcu || rtnl) */
@@ -441,11 +449,6 @@ static int br_fill_ifinfo(struct sk_buff *skb,
                        rcu_read_unlock();
                        goto done;
                }
-               af = nla_nest_start_noflag(skb, IFLA_AF_SPEC);
-               if (!af) {
-                       rcu_read_unlock();
-                       goto nla_put_failure;
-               }
                if (filter_mask & RTEXT_FILTER_BRVLAN_COMPRESSED)
                        err = br_fill_ifvlaninfo_compressed(skb, vg);
                else
@@ -456,32 +459,25 @@ static int br_fill_ifinfo(struct sk_buff *skb,
                rcu_read_unlock();
                if (err)
                        goto nla_put_failure;
-
-               nla_nest_end(skb, af);
        }
 
        if (filter_mask & RTEXT_FILTER_MRP) {
-               struct nlattr *af;
                int err;
 
                if (!br_mrp_enabled(br) || port)
                        goto done;
 
-               af = nla_nest_start_noflag(skb, IFLA_AF_SPEC);
-               if (!af)
-                       goto nla_put_failure;
-
                rcu_read_lock();
                err = br_mrp_fill_info(skb, br);
                rcu_read_unlock();
 
                if (err)
                        goto nla_put_failure;
-
-               nla_nest_end(skb, af);
        }
 
 done:
+       if (af)
+               nla_nest_end(skb, af);
        nlmsg_end(skb, nlh);
        return 0;
 
index 61c94ce..ee87800 100644 (file)
@@ -1360,7 +1360,7 @@ static int br_vlan_is_bind_vlan_dev(const struct net_device *dev)
 }
 
 static int br_vlan_is_bind_vlan_dev_fn(struct net_device *dev,
-                                      __always_unused void *data)
+                              __always_unused struct netdev_nested_priv *priv)
 {
        return br_vlan_is_bind_vlan_dev(dev);
 }
@@ -1383,9 +1383,9 @@ struct br_vlan_bind_walk_data {
 };
 
 static int br_vlan_match_bind_vlan_dev_fn(struct net_device *dev,
-                                         void *data_in)
+                                         struct netdev_nested_priv *priv)
 {
-       struct br_vlan_bind_walk_data *data = data_in;
+       struct br_vlan_bind_walk_data *data = priv->data;
        int found = 0;
 
        if (br_vlan_is_bind_vlan_dev(dev) &&
@@ -1403,10 +1403,13 @@ br_vlan_get_upper_bind_vlan_dev(struct net_device *dev, u16 vid)
        struct br_vlan_bind_walk_data data = {
                .vid = vid,
        };
+       struct netdev_nested_priv priv = {
+               .data = (void *)&data,
+       };
 
        rcu_read_lock();
        netdev_walk_all_upper_dev_rcu(dev, br_vlan_match_bind_vlan_dev_fn,
-                                     &data);
+                                     &priv);
        rcu_read_unlock();
 
        return data.result;
@@ -1487,9 +1490,9 @@ struct br_vlan_link_state_walk_data {
 };
 
 static int br_vlan_link_state_change_fn(struct net_device *vlan_dev,
-                                       void *data_in)
+                                       struct netdev_nested_priv *priv)
 {
-       struct br_vlan_link_state_walk_data *data = data_in;
+       struct br_vlan_link_state_walk_data *data = priv->data;
 
        if (br_vlan_is_bind_vlan_dev(vlan_dev))
                br_vlan_set_vlan_dev_state(data->br, vlan_dev);
@@ -1503,10 +1506,13 @@ static void br_vlan_link_state_change(struct net_device *dev,
        struct br_vlan_link_state_walk_data data = {
                .br = br
        };
+       struct netdev_nested_priv priv = {
+               .data = (void *)&data,
+       };
 
        rcu_read_lock();
        netdev_walk_all_upper_dev_rcu(dev, br_vlan_link_state_change_fn,
-                                     &data);
+                                     &priv);
        rcu_read_unlock();
 }
 
index bdfd66b..d4d7a0e 100644 (file)
@@ -575,7 +575,7 @@ static int ceph_tcp_sendpage(struct socket *sock, struct page *page,
         * coalescing neighboring slab objects into a single frag which
         * triggers one of hardened usercopy checks.
         */
-       if (page_count(page) >= 1 && !PageSlab(page))
+       if (sendpage_ok(page))
                sendpage = sock->ops->sendpage;
        else
                sendpage = sock_no_sendpage;
index 95ce707..ddd15af 100644 (file)
@@ -98,8 +98,8 @@ int get_compat_msghdr(struct msghdr *kmsg,
        if (err)
                return err;
 
-       err = compat_import_iovec(save_addr ? READ : WRITE, compat_ptr(ptr),
-                                  len, UIO_FASTIOV, iov, &kmsg->msg_iter);
+       err = import_iovec(save_addr ? READ : WRITE, compat_ptr(ptr), len,
+                          UIO_FASTIOV, iov, &kmsg->msg_iter);
        return err < 0 ? err : 0;
 }
 
index 266073e..4906b44 100644 (file)
@@ -6812,9 +6812,10 @@ static struct netdev_adjacent *__netdev_find_adj(struct net_device *adj_dev,
        return NULL;
 }
 
-static int ____netdev_has_upper_dev(struct net_device *upper_dev, void *data)
+static int ____netdev_has_upper_dev(struct net_device *upper_dev,
+                                   struct netdev_nested_priv *priv)
 {
-       struct net_device *dev = data;
+       struct net_device *dev = (struct net_device *)priv->data;
 
        return upper_dev == dev;
 }
@@ -6831,10 +6832,14 @@ static int ____netdev_has_upper_dev(struct net_device *upper_dev, void *data)
 bool netdev_has_upper_dev(struct net_device *dev,
                          struct net_device *upper_dev)
 {
+       struct netdev_nested_priv priv = {
+               .data = (void *)upper_dev,
+       };
+
        ASSERT_RTNL();
 
        return netdev_walk_all_upper_dev_rcu(dev, ____netdev_has_upper_dev,
-                                            upper_dev);
+                                            &priv);
 }
 EXPORT_SYMBOL(netdev_has_upper_dev);
 
@@ -6851,8 +6856,12 @@ EXPORT_SYMBOL(netdev_has_upper_dev);
 bool netdev_has_upper_dev_all_rcu(struct net_device *dev,
                                  struct net_device *upper_dev)
 {
+       struct netdev_nested_priv priv = {
+               .data = (void *)upper_dev,
+       };
+
        return !!netdev_walk_all_upper_dev_rcu(dev, ____netdev_has_upper_dev,
-                                              upper_dev);
+                                              &priv);
 }
 EXPORT_SYMBOL(netdev_has_upper_dev_all_rcu);
 
@@ -6997,8 +7006,8 @@ static struct net_device *netdev_next_upper_dev_rcu(struct net_device *dev,
 
 static int __netdev_walk_all_upper_dev(struct net_device *dev,
                                       int (*fn)(struct net_device *dev,
-                                                void *data),
-                                      void *data)
+                                        struct netdev_nested_priv *priv),
+                                      struct netdev_nested_priv *priv)
 {
        struct net_device *udev, *next, *now, *dev_stack[MAX_NEST_DEV + 1];
        struct list_head *niter, *iter, *iter_stack[MAX_NEST_DEV + 1];
@@ -7010,7 +7019,7 @@ static int __netdev_walk_all_upper_dev(struct net_device *dev,
 
        while (1) {
                if (now != dev) {
-                       ret = fn(now, data);
+                       ret = fn(now, priv);
                        if (ret)
                                return ret;
                }
@@ -7046,8 +7055,8 @@ static int __netdev_walk_all_upper_dev(struct net_device *dev,
 
 int netdev_walk_all_upper_dev_rcu(struct net_device *dev,
                                  int (*fn)(struct net_device *dev,
-                                           void *data),
-                                 void *data)
+                                           struct netdev_nested_priv *priv),
+                                 struct netdev_nested_priv *priv)
 {
        struct net_device *udev, *next, *now, *dev_stack[MAX_NEST_DEV + 1];
        struct list_head *niter, *iter, *iter_stack[MAX_NEST_DEV + 1];
@@ -7058,7 +7067,7 @@ int netdev_walk_all_upper_dev_rcu(struct net_device *dev,
 
        while (1) {
                if (now != dev) {
-                       ret = fn(now, data);
+                       ret = fn(now, priv);
                        if (ret)
                                return ret;
                }
@@ -7094,10 +7103,15 @@ EXPORT_SYMBOL_GPL(netdev_walk_all_upper_dev_rcu);
 static bool __netdev_has_upper_dev(struct net_device *dev,
                                   struct net_device *upper_dev)
 {
+       struct netdev_nested_priv priv = {
+               .flags = 0,
+               .data = (void *)upper_dev,
+       };
+
        ASSERT_RTNL();
 
        return __netdev_walk_all_upper_dev(dev, ____netdev_has_upper_dev,
-                                          upper_dev);
+                                          &priv);
 }
 
 /**
@@ -7215,8 +7229,8 @@ static struct net_device *__netdev_next_lower_dev(struct net_device *dev,
 
 int netdev_walk_all_lower_dev(struct net_device *dev,
                              int (*fn)(struct net_device *dev,
-                                       void *data),
-                             void *data)
+                                       struct netdev_nested_priv *priv),
+                             struct netdev_nested_priv *priv)
 {
        struct net_device *ldev, *next, *now, *dev_stack[MAX_NEST_DEV + 1];
        struct list_head *niter, *iter, *iter_stack[MAX_NEST_DEV + 1];
@@ -7227,7 +7241,7 @@ int netdev_walk_all_lower_dev(struct net_device *dev,
 
        while (1) {
                if (now != dev) {
-                       ret = fn(now, data);
+                       ret = fn(now, priv);
                        if (ret)
                                return ret;
                }
@@ -7262,8 +7276,8 @@ EXPORT_SYMBOL_GPL(netdev_walk_all_lower_dev);
 
 static int __netdev_walk_all_lower_dev(struct net_device *dev,
                                       int (*fn)(struct net_device *dev,
-                                                void *data),
-                                      void *data)
+                                        struct netdev_nested_priv *priv),
+                                      struct netdev_nested_priv *priv)
 {
        struct net_device *ldev, *next, *now, *dev_stack[MAX_NEST_DEV + 1];
        struct list_head *niter, *iter, *iter_stack[MAX_NEST_DEV + 1];
@@ -7275,7 +7289,7 @@ static int __netdev_walk_all_lower_dev(struct net_device *dev,
 
        while (1) {
                if (now != dev) {
-                       ret = fn(now, data);
+                       ret = fn(now, priv);
                        if (ret)
                                return ret;
                }
@@ -7364,22 +7378,34 @@ static u8 __netdev_lower_depth(struct net_device *dev)
        return max_depth;
 }
 
-static int __netdev_update_upper_level(struct net_device *dev, void *data)
+static int __netdev_update_upper_level(struct net_device *dev,
+                                      struct netdev_nested_priv *__unused)
 {
        dev->upper_level = __netdev_upper_depth(dev) + 1;
        return 0;
 }
 
-static int __netdev_update_lower_level(struct net_device *dev, void *data)
+static int __netdev_update_lower_level(struct net_device *dev,
+                                      struct netdev_nested_priv *priv)
 {
        dev->lower_level = __netdev_lower_depth(dev) + 1;
+
+#ifdef CONFIG_LOCKDEP
+       if (!priv)
+               return 0;
+
+       if (priv->flags & NESTED_SYNC_IMM)
+               dev->nested_level = dev->lower_level - 1;
+       if (priv->flags & NESTED_SYNC_TODO)
+               net_unlink_todo(dev);
+#endif
        return 0;
 }
 
 int netdev_walk_all_lower_dev_rcu(struct net_device *dev,
                                  int (*fn)(struct net_device *dev,
-                                           void *data),
-                                 void *data)
+                                           struct netdev_nested_priv *priv),
+                                 struct netdev_nested_priv *priv)
 {
        struct net_device *ldev, *next, *now, *dev_stack[MAX_NEST_DEV + 1];
        struct list_head *niter, *iter, *iter_stack[MAX_NEST_DEV + 1];
@@ -7390,7 +7416,7 @@ int netdev_walk_all_lower_dev_rcu(struct net_device *dev,
 
        while (1) {
                if (now != dev) {
-                       ret = fn(now, data);
+                       ret = fn(now, priv);
                        if (ret)
                                return ret;
                }
@@ -7650,6 +7676,7 @@ static void __netdev_adjacent_dev_unlink_neighbour(struct net_device *dev,
 static int __netdev_upper_dev_link(struct net_device *dev,
                                   struct net_device *upper_dev, bool master,
                                   void *upper_priv, void *upper_info,
+                                  struct netdev_nested_priv *priv,
                                   struct netlink_ext_ack *extack)
 {
        struct netdev_notifier_changeupper_info changeupper_info = {
@@ -7706,9 +7733,9 @@ static int __netdev_upper_dev_link(struct net_device *dev,
        __netdev_update_upper_level(dev, NULL);
        __netdev_walk_all_lower_dev(dev, __netdev_update_upper_level, NULL);
 
-       __netdev_update_lower_level(upper_dev, NULL);
+       __netdev_update_lower_level(upper_dev, priv);
        __netdev_walk_all_upper_dev(upper_dev, __netdev_update_lower_level,
-                                   NULL);
+                                   priv);
 
        return 0;
 
@@ -7733,8 +7760,13 @@ int netdev_upper_dev_link(struct net_device *dev,
                          struct net_device *upper_dev,
                          struct netlink_ext_ack *extack)
 {
+       struct netdev_nested_priv priv = {
+               .flags = NESTED_SYNC_IMM | NESTED_SYNC_TODO,
+               .data = NULL,
+       };
+
        return __netdev_upper_dev_link(dev, upper_dev, false,
-                                      NULL, NULL, extack);
+                                      NULL, NULL, &priv, extack);
 }
 EXPORT_SYMBOL(netdev_upper_dev_link);
 
@@ -7757,21 +7789,19 @@ int netdev_master_upper_dev_link(struct net_device *dev,
                                 void *upper_priv, void *upper_info,
                                 struct netlink_ext_ack *extack)
 {
+       struct netdev_nested_priv priv = {
+               .flags = NESTED_SYNC_IMM | NESTED_SYNC_TODO,
+               .data = NULL,
+       };
+
        return __netdev_upper_dev_link(dev, upper_dev, true,
-                                      upper_priv, upper_info, extack);
+                                      upper_priv, upper_info, &priv, extack);
 }
 EXPORT_SYMBOL(netdev_master_upper_dev_link);
 
-/**
- * netdev_upper_dev_unlink - Removes a link to upper device
- * @dev: device
- * @upper_dev: new upper device
- *
- * Removes a link to device which is upper to this one. The caller must hold
- * the RTNL lock.
- */
-void netdev_upper_dev_unlink(struct net_device *dev,
-                            struct net_device *upper_dev)
+static void __netdev_upper_dev_unlink(struct net_device *dev,
+                                     struct net_device *upper_dev,
+                                     struct netdev_nested_priv *priv)
 {
        struct netdev_notifier_changeupper_info changeupper_info = {
                .info = {
@@ -7796,9 +7826,28 @@ void netdev_upper_dev_unlink(struct net_device *dev,
        __netdev_update_upper_level(dev, NULL);
        __netdev_walk_all_lower_dev(dev, __netdev_update_upper_level, NULL);
 
-       __netdev_update_lower_level(upper_dev, NULL);
+       __netdev_update_lower_level(upper_dev, priv);
        __netdev_walk_all_upper_dev(upper_dev, __netdev_update_lower_level,
-                                   NULL);
+                                   priv);
+}
+
+/**
+ * netdev_upper_dev_unlink - Removes a link to upper device
+ * @dev: device
+ * @upper_dev: new upper device
+ *
+ * Removes a link to device which is upper to this one. The caller must hold
+ * the RTNL lock.
+ */
+void netdev_upper_dev_unlink(struct net_device *dev,
+                            struct net_device *upper_dev)
+{
+       struct netdev_nested_priv priv = {
+               .flags = NESTED_SYNC_TODO,
+               .data = NULL,
+       };
+
+       __netdev_upper_dev_unlink(dev, upper_dev, &priv);
 }
 EXPORT_SYMBOL(netdev_upper_dev_unlink);
 
@@ -7834,6 +7883,10 @@ int netdev_adjacent_change_prepare(struct net_device *old_dev,
                                   struct net_device *dev,
                                   struct netlink_ext_ack *extack)
 {
+       struct netdev_nested_priv priv = {
+               .flags = 0,
+               .data = NULL,
+       };
        int err;
 
        if (!new_dev)
@@ -7841,8 +7894,8 @@ int netdev_adjacent_change_prepare(struct net_device *old_dev,
 
        if (old_dev && new_dev != old_dev)
                netdev_adjacent_dev_disable(dev, old_dev);
-
-       err = netdev_upper_dev_link(new_dev, dev, extack);
+       err = __netdev_upper_dev_link(new_dev, dev, false, NULL, NULL, &priv,
+                                     extack);
        if (err) {
                if (old_dev && new_dev != old_dev)
                        netdev_adjacent_dev_enable(dev, old_dev);
@@ -7857,6 +7910,11 @@ void netdev_adjacent_change_commit(struct net_device *old_dev,
                                   struct net_device *new_dev,
                                   struct net_device *dev)
 {
+       struct netdev_nested_priv priv = {
+               .flags = NESTED_SYNC_IMM | NESTED_SYNC_TODO,
+               .data = NULL,
+       };
+
        if (!new_dev || !old_dev)
                return;
 
@@ -7864,7 +7922,7 @@ void netdev_adjacent_change_commit(struct net_device *old_dev,
                return;
 
        netdev_adjacent_dev_enable(dev, old_dev);
-       netdev_upper_dev_unlink(old_dev, dev);
+       __netdev_upper_dev_unlink(old_dev, dev, &priv);
 }
 EXPORT_SYMBOL(netdev_adjacent_change_commit);
 
@@ -7872,13 +7930,18 @@ void netdev_adjacent_change_abort(struct net_device *old_dev,
                                  struct net_device *new_dev,
                                  struct net_device *dev)
 {
+       struct netdev_nested_priv priv = {
+               .flags = 0,
+               .data = NULL,
+       };
+
        if (!new_dev)
                return;
 
        if (old_dev && new_dev != old_dev)
                netdev_adjacent_dev_enable(dev, old_dev);
 
-       netdev_upper_dev_unlink(new_dev, dev);
+       __netdev_upper_dev_unlink(new_dev, dev, &priv);
 }
 EXPORT_SYMBOL(netdev_adjacent_change_abort);
 
@@ -10062,6 +10125,19 @@ static void netdev_wait_allrefs(struct net_device *dev)
 void netdev_run_todo(void)
 {
        struct list_head list;
+#ifdef CONFIG_LOCKDEP
+       struct list_head unlink_list;
+
+       list_replace_init(&net_unlink_list, &unlink_list);
+
+       while (!list_empty(&unlink_list)) {
+               struct net_device *dev = list_first_entry(&unlink_list,
+                                                         struct net_device,
+                                                         unlink_list);
+               list_del(&dev->unlink_list);
+               dev->nested_level = dev->lower_level - 1;
+       }
+#endif
 
        /* Snapshot list, allow later requests */
        list_replace_init(&net_todo_list, &list);
@@ -10274,6 +10350,10 @@ struct net_device *alloc_netdev_mqs(int sizeof_priv, const char *name,
        dev->gso_max_segs = GSO_MAX_SEGS;
        dev->upper_level = 1;
        dev->lower_level = 1;
+#ifdef CONFIG_LOCKDEP
+       dev->nested_level = 0;
+       INIT_LIST_HEAD(&dev->unlink_list);
+#endif
 
        INIT_LIST_HEAD(&dev->napi_list);
        INIT_LIST_HEAD(&dev->unreg_list);
index 54cd568..fa1c37e 100644 (file)
@@ -637,7 +637,7 @@ int dev_uc_sync(struct net_device *to, struct net_device *from)
        if (to->addr_len != from->addr_len)
                return -EINVAL;
 
-       netif_addr_lock_nested(to);
+       netif_addr_lock(to);
        err = __hw_addr_sync(&to->uc, &from->uc, to->addr_len);
        if (!err)
                __dev_set_rx_mode(to);
@@ -667,7 +667,7 @@ int dev_uc_sync_multiple(struct net_device *to, struct net_device *from)
        if (to->addr_len != from->addr_len)
                return -EINVAL;
 
-       netif_addr_lock_nested(to);
+       netif_addr_lock(to);
        err = __hw_addr_sync_multiple(&to->uc, &from->uc, to->addr_len);
        if (!err)
                __dev_set_rx_mode(to);
@@ -700,7 +700,7 @@ void dev_uc_unsync(struct net_device *to, struct net_device *from)
         * larger.
         */
        netif_addr_lock_bh(from);
-       netif_addr_lock_nested(to);
+       netif_addr_lock(to);
        __hw_addr_unsync(&to->uc, &from->uc, to->addr_len);
        __dev_set_rx_mode(to);
        netif_addr_unlock(to);
@@ -867,7 +867,7 @@ int dev_mc_sync(struct net_device *to, struct net_device *from)
        if (to->addr_len != from->addr_len)
                return -EINVAL;
 
-       netif_addr_lock_nested(to);
+       netif_addr_lock(to);
        err = __hw_addr_sync(&to->mc, &from->mc, to->addr_len);
        if (!err)
                __dev_set_rx_mode(to);
@@ -897,7 +897,7 @@ int dev_mc_sync_multiple(struct net_device *to, struct net_device *from)
        if (to->addr_len != from->addr_len)
                return -EINVAL;
 
-       netif_addr_lock_nested(to);
+       netif_addr_lock(to);
        err = __hw_addr_sync_multiple(&to->mc, &from->mc, to->addr_len);
        if (!err)
                __dev_set_rx_mode(to);
@@ -922,7 +922,7 @@ void dev_mc_unsync(struct net_device *to, struct net_device *from)
 
        /* See the above comments inside dev_uc_unsync(). */
        netif_addr_lock_bh(from);
-       netif_addr_lock_nested(to);
+       netif_addr_lock(to);
        __hw_addr_unsync(&to->mc, &from->mc, to->addr_len);
        __dev_set_rx_mode(to);
        netif_addr_unlock(to);
index 21eaf3b..b5f3faa 100644 (file)
@@ -9558,6 +9558,12 @@ const struct bpf_func_proto bpf_skc_to_tcp_sock_proto = {
 
 BPF_CALL_1(bpf_skc_to_tcp_timewait_sock, struct sock *, sk)
 {
+       /* BTF types for tcp_timewait_sock and inet_timewait_sock are not
+        * generated if CONFIG_INET=n. Trigger an explicit generation here.
+        */
+       BTF_TYPE_EMIT(struct inet_timewait_sock);
+       BTF_TYPE_EMIT(struct tcp_timewait_sock);
+
 #ifdef CONFIG_INET
        if (sk && sk->sk_prot == &tcp_prot && sk->sk_state == TCP_TIME_WAIT)
                return (unsigned long)sk;
index 6faf73d..5cd6d48 100644 (file)
@@ -2725,19 +2725,20 @@ EXPORT_SYMBOL(skb_checksum);
 /* Both of above in one bottle. */
 
 __wsum skb_copy_and_csum_bits(const struct sk_buff *skb, int offset,
-                                   u8 *to, int len, __wsum csum)
+                                   u8 *to, int len)
 {
        int start = skb_headlen(skb);
        int i, copy = start - offset;
        struct sk_buff *frag_iter;
        int pos = 0;
+       __wsum csum = 0;
 
        /* Copy header. */
        if (copy > 0) {
                if (copy > len)
                        copy = len;
                csum = csum_partial_copy_nocheck(skb->data + offset, to,
-                                                copy, csum);
+                                                copy);
                if ((len -= copy) == 0)
                        return csum;
                offset += copy;
@@ -2767,7 +2768,7 @@ __wsum skb_copy_and_csum_bits(const struct sk_buff *skb, int offset,
                                vaddr = kmap_atomic(p);
                                csum2 = csum_partial_copy_nocheck(vaddr + p_off,
                                                                  to + copied,
-                                                                 p_len, 0);
+                                                                 p_len);
                                kunmap_atomic(vaddr);
                                csum = csum_block_add(csum, csum2, pos);
                                pos += p_len;
@@ -2793,7 +2794,7 @@ __wsum skb_copy_and_csum_bits(const struct sk_buff *skb, int offset,
                                copy = len;
                        csum2 = skb_copy_and_csum_bits(frag_iter,
                                                       offset - start,
-                                                      to, copy, 0);
+                                                      to, copy);
                        csum = csum_block_add(csum, csum2, pos);
                        if ((len -= copy) == 0)
                                return csum;
@@ -3013,7 +3014,7 @@ void skb_copy_and_csum_dev(const struct sk_buff *skb, u8 *to)
        csum = 0;
        if (csstart != skb->len)
                csum = skb_copy_and_csum_bits(skb, csstart, to + csstart,
-                                             skb->len - csstart, 0);
+                                             skb->len - csstart);
 
        if (skb->ip_summed == CHECKSUM_PARTIAL) {
                long csstuff = csstart + skb->csum_offset;
@@ -3934,7 +3935,7 @@ normal:
                                        skb_copy_and_csum_bits(head_skb, offset,
                                                               skb_put(nskb,
                                                                       len),
-                                                              len, 0);
+                                                              len);
                                SKB_GSO_CB(nskb)->csum_start =
                                        skb_headroom(nskb) + doffset;
                        } else {
@@ -5622,7 +5623,7 @@ int skb_mpls_push(struct sk_buff *skb, __be32 mpls_lse, __be16 mpls_proto,
        lse->label_stack_entry = mpls_lse;
        skb_postpush_rcsum(skb, lse, MPLS_HLEN);
 
-       if (ethernet)
+       if (ethernet && mac_len >= ETH_HLEN)
                skb_mod_eth_type(skb, eth_hdr(skb), mpls_proto);
        skb->protocol = mpls_proto;
 
@@ -5662,7 +5663,7 @@ int skb_mpls_pop(struct sk_buff *skb, __be16 next_proto, int mac_len,
        skb_reset_mac_header(skb);
        skb_set_network_header(skb, mac_len);
 
-       if (ethernet) {
+       if (ethernet && mac_len >= ETH_HLEN) {
                struct ethhdr *hdr;
 
                /* use mpls_hdr() to get ethertype to account for VLANs. */
index 5c20727..0c3f54b 100644 (file)
@@ -866,7 +866,7 @@ static const struct genl_multicast_group ethtool_nl_mcgrps[] = {
        [ETHNL_MCGRP_MONITOR] = { .name = ETHTOOL_MCGRP_MONITOR_NAME },
 };
 
-static struct genl_family ethtool_genl_family = {
+static struct genl_family ethtool_genl_family __ro_after_init = {
        .name           = ETHTOOL_GENL_NAME,
        .version        = ETHTOOL_GENL_VERSION,
        .netnsok        = true,
index cf36f95..bdaaee5 100644 (file)
@@ -352,7 +352,7 @@ static int icmp_glue_bits(void *from, char *to, int offset, int len, int odd,
 
        csum = skb_copy_and_csum_bits(icmp_param->skb,
                                      icmp_param->offset + offset,
-                                     to, len, 0);
+                                     to, len);
 
        skb->csum = csum_block_add(skb->csum, csum, odd);
        if (icmp_pointers[icmp_param->data.icmph.type].error)
@@ -376,15 +376,15 @@ static void icmp_push_reply(struct icmp_bxm *icmp_param,
                ip_flush_pending_frames(sk);
        } else if ((skb = skb_peek(&sk->sk_write_queue)) != NULL) {
                struct icmphdr *icmph = icmp_hdr(skb);
-               __wsum csum = 0;
+               __wsum csum;
                struct sk_buff *skb1;
 
+               csum = csum_partial_copy_nocheck((void *)&icmp_param->data,
+                                                (char *)icmph,
+                                                icmp_param->head_len);
                skb_queue_walk(&sk->sk_write_queue, skb1) {
                        csum = csum_add(csum, skb1->csum);
                }
-               csum = csum_partial_copy_nocheck((void *)&icmp_param->data,
-                                                (char *)icmph,
-                                                icmp_param->head_len, csum);
                icmph->checksum = csum_fold(csum);
                skb->ip_summed = CHECKSUM_NONE;
                ip_push_pending_frames(sk, fl4);
index e6f2ada..5131cf7 100644 (file)
@@ -1127,7 +1127,7 @@ alloc_new_skb:
                        if (fraggap) {
                                skb->csum = skb_copy_and_csum_bits(
                                        skb_prev, maxfraglen,
-                                       data + transhdrlen, fraggap, 0);
+                                       data + transhdrlen, fraggap);
                                skb_prev->csum = csum_sub(skb_prev->csum,
                                                          skb->csum);
                                data += fraggap;
@@ -1412,7 +1412,7 @@ ssize_t   ip_append_page(struct sock *sk, struct flowi4 *fl4, struct page *page,
                                skb->csum = skb_copy_and_csum_bits(skb_prev,
                                                                   maxfraglen,
                                                    skb_transport_header(skb),
-                                                                  fraggap, 0);
+                                                                  fraggap);
                                skb_prev->csum = csum_sub(skb_prev->csum,
                                                          skb->csum);
                                pskb_trim_unique(skb_prev, maxfraglen);
@@ -1649,7 +1649,7 @@ static int ip_reply_glue_bits(void *dptr, char *to, int offset,
 {
        __wsum csum;
 
-       csum = csum_partial_copy_nocheck(dptr+offset, to, len, 0);
+       csum = csum_partial_copy_nocheck(dptr+offset, to, len);
        skb->csum = csum_block_add(skb->csum, csum, odd);
        return 0;
 }
index 49daaed..f687abb 100644 (file)
@@ -490,6 +490,7 @@ static struct xfrm_tunnel vti_ipip_handler __read_mostly = {
        .priority       =       0,
 };
 
+#if IS_ENABLED(CONFIG_IPV6)
 static struct xfrm_tunnel vti_ipip6_handler __read_mostly = {
        .handler        =       vti_rcv_tunnel,
        .cb_handler     =       vti_rcv_cb,
@@ -497,6 +498,7 @@ static struct xfrm_tunnel vti_ipip6_handler __read_mostly = {
        .priority       =       0,
 };
 #endif
+#endif
 
 static int __net_init vti_init_net(struct net *net)
 {
index 1074df7..8d5e169 100644 (file)
@@ -293,6 +293,7 @@ static const struct snmp_mib snmp4_net_list[] = {
        SNMP_MIB_ITEM("TcpTimeoutRehash", LINUX_MIB_TCPTIMEOUTREHASH),
        SNMP_MIB_ITEM("TcpDuplicateDataRehash", LINUX_MIB_TCPDUPLICATEDATAREHASH),
        SNMP_MIB_ITEM("TCPDSACKRecvSegs", LINUX_MIB_TCPDSACKRECVSEGS),
+       SNMP_MIB_ITEM("TCPDSACKIgnoredDubious", LINUX_MIB_TCPDSACKIGNOREDDUBIOUS),
        SNMP_MIB_SENTINEL
 };
 
index 407956b..355f3ca 100644 (file)
@@ -478,7 +478,7 @@ static int raw_getfrag(void *from, char *to, int offset, int len, int odd,
                        skb->csum = csum_block_add(
                                skb->csum,
                                csum_partial_copy_nocheck(rfv->hdr.c + offset,
-                                                         to, copy, 0),
+                                                         to, copy),
                                odd);
 
                odd = 0;
index f0794f0..e037566 100644 (file)
@@ -214,7 +214,7 @@ struct sock *tcp_get_cookie_sock(struct sock *sk, struct sk_buff *skb,
                sock_rps_save_rxhash(child, skb);
 
                if (rsk_drop_req(req)) {
-                       refcount_set(&req->rsk_refcnt, 2);
+                       reqsk_put(req);
                        return child;
                }
 
index 31f3b85..2135ee7 100644 (file)
@@ -970,7 +970,8 @@ ssize_t do_tcp_sendpages(struct sock *sk, struct page *page, int offset,
        long timeo = sock_sndtimeo(sk, flags & MSG_DONTWAIT);
 
        if (IS_ENABLED(CONFIG_DEBUG_VM) &&
-           WARN_ONCE(PageSlab(page), "page must not be a Slab one"))
+           WARN_ONCE(!sendpage_ok(page),
+                     "page must not be a Slab one and have page_count > 0"))
                return -EINVAL;
 
        /* Wait for a connection to finish. One exception is TCP Fast Open
index 184ea55..b1ce205 100644 (file)
@@ -885,21 +885,34 @@ struct tcp_sacktag_state {
        struct rate_sample *rate;
 };
 
-/* Take a notice that peer is sending D-SACKs */
+/* Take a notice that peer is sending D-SACKs. Skip update of data delivery
+ * and spurious retransmission information if this DSACK is unlikely caused by
+ * sender's action:
+ * - DSACKed sequence range is larger than maximum receiver's window.
+ * - Total no. of DSACKed segments exceed the total no. of retransmitted segs.
+ */
 static u32 tcp_dsack_seen(struct tcp_sock *tp, u32 start_seq,
                          u32 end_seq, struct tcp_sacktag_state *state)
 {
        u32 seq_len, dup_segs = 1;
 
-       if (before(start_seq, end_seq)) {
-               seq_len = end_seq - start_seq;
-               if (seq_len > tp->mss_cache)
-                       dup_segs = DIV_ROUND_UP(seq_len, tp->mss_cache);
-       }
+       if (!before(start_seq, end_seq))
+               return 0;
+
+       seq_len = end_seq - start_seq;
+       /* Dubious DSACK: DSACKed range greater than maximum advertised rwnd */
+       if (seq_len > tp->max_window)
+               return 0;
+       if (seq_len > tp->mss_cache)
+               dup_segs = DIV_ROUND_UP(seq_len, tp->mss_cache);
+
+       tp->dsack_dups += dup_segs;
+       /* Skip the DSACK if dup segs weren't retransmitted by sender */
+       if (tp->dsack_dups > tp->total_retrans)
+               return 0;
 
        tp->rx_opt.sack_ok |= TCP_DSACK_SEEN;
        tp->rack.dsack_seen = 1;
-       tp->dsack_dups += dup_segs;
 
        state->flag |= FLAG_DSACKING_ACK;
        /* A spurious retransmission is delivered */
@@ -1153,6 +1166,11 @@ static bool tcp_check_dsack(struct sock *sk, const struct sk_buff *ack_skb,
        }
 
        dup_segs = tcp_dsack_seen(tp, start_seq_0, end_seq_0, state);
+       if (!dup_segs) {        /* Skip dubious DSACK */
+               NET_INC_STATS(sock_net(sk), LINUX_MIB_TCPDSACKIGNOREDDUBIOUS);
+               return false;
+       }
+
        NET_ADD_STATS(sock_net(sk), LINUX_MIB_TCPDSACKRECVSEGS, dup_segs);
 
        /* D-SACK for already forgotten data... Do dumb counting. */
index 5084333..592c739 100644 (file)
@@ -1788,12 +1788,12 @@ bool tcp_add_backlog(struct sock *sk, struct sk_buff *skb)
 
        __skb_pull(skb, hdrlen);
        if (skb_try_coalesce(tail, skb, &fragstolen, &delta)) {
-               thtail->window = th->window;
-
                TCP_SKB_CB(tail)->end_seq = TCP_SKB_CB(skb)->end_seq;
 
-               if (after(TCP_SKB_CB(skb)->ack_seq, TCP_SKB_CB(tail)->ack_seq))
+               if (likely(!before(TCP_SKB_CB(skb)->ack_seq, TCP_SKB_CB(tail)->ack_seq))) {
                        TCP_SKB_CB(tail)->ack_seq = TCP_SKB_CB(skb)->ack_seq;
+                       thtail->window = th->window;
+               }
 
                /* We have to update both TCP_SKB_CB(tail)->tcp_flags and
                 * thtail->fin, so that the fast path in tcp_rcv_established()
index a4e4912..83b2511 100644 (file)
@@ -314,10 +314,10 @@ static int icmpv6_getfrag(void *from, char *to, int offset, int len, int odd, st
 {
        struct icmpv6_msg *msg = (struct icmpv6_msg *) from;
        struct sk_buff *org_skb = msg->skb;
-       __wsum csum = 0;
+       __wsum csum;
 
        csum = skb_copy_and_csum_bits(org_skb, msg->offset + offset,
-                                     to, len, csum);
+                                     to, len);
        skb->csum = csum_block_add(skb->csum, csum, odd);
        if (!(msg->type & ICMPV6_INFOMSG_MASK))
                nf_ct_attach(skb, org_skb);
index c78e67d..2689498 100644 (file)
@@ -1615,7 +1615,7 @@ alloc_new_skb:
                        if (fraggap) {
                                skb->csum = skb_copy_and_csum_bits(
                                        skb_prev, maxfraglen,
-                                       data + transhdrlen, fraggap, 0);
+                                       data + transhdrlen, fraggap);
                                skb_prev->csum = csum_sub(skb_prev->csum,
                                                          skb->csum);
                                data += fraggap;
index 874f01c..6e4ab80 100644 (file)
@@ -746,7 +746,7 @@ static int raw6_getfrag(void *from, char *to, int offset, int len, int odd,
                        skb->csum = csum_block_add(
                                skb->csum,
                                csum_partial_copy_nocheck(rfv->c + offset,
-                                                         to, copy, 0),
+                                                         to, copy),
                                odd);
 
                odd = 0;
index 7fa822b..888bbbb 100644 (file)
@@ -451,7 +451,10 @@ static bool mptcp_established_options_mp(struct sock *sk, struct sk_buff *skb,
 static void mptcp_write_data_fin(struct mptcp_subflow_context *subflow,
                                 struct sk_buff *skb, struct mptcp_ext *ext)
 {
-       u64 data_fin_tx_seq = READ_ONCE(mptcp_sk(subflow->conn)->write_seq);
+       /* The write_seq value has already been incremented, so the actual
+        * sequence number for the DATA_FIN is one less.
+        */
+       u64 data_fin_tx_seq = READ_ONCE(mptcp_sk(subflow->conn)->write_seq) - 1;
 
        if (!ext->use_map || !skb->len) {
                /* RFC6824 requires a DSS mapping with specific values
@@ -460,10 +463,7 @@ static void mptcp_write_data_fin(struct mptcp_subflow_context *subflow,
                ext->data_fin = 1;
                ext->use_map = 1;
                ext->dsn64 = 1;
-               /* The write_seq value has already been incremented, so
-                * the actual sequence number for the DATA_FIN is one less.
-                */
-               ext->data_seq = data_fin_tx_seq - 1;
+               ext->data_seq = data_fin_tx_seq;
                ext->subflow_seq = 0;
                ext->data_len = 1;
        } else if (ext->data_seq + ext->data_len == data_fin_tx_seq) {
@@ -518,11 +518,11 @@ static bool mptcp_established_options_dss(struct sock *sk, struct sk_buff *skb,
 
        if (subflow->use_64bit_ack) {
                ack_size = TCPOLEN_MPTCP_DSS_ACK64;
-               opts->ext_copy.data_ack = msk->ack_seq;
+               opts->ext_copy.data_ack = READ_ONCE(msk->ack_seq);
                opts->ext_copy.ack64 = 1;
        } else {
                ack_size = TCPOLEN_MPTCP_DSS_ACK32;
-               opts->ext_copy.data_ack32 = (uint32_t)(msk->ack_seq);
+               opts->ext_copy.data_ack32 = (uint32_t)READ_ONCE(msk->ack_seq);
                opts->ext_copy.ack64 = 0;
        }
        opts->ext_copy.use_ack = 1;
@@ -782,7 +782,7 @@ static void update_una(struct mptcp_sock *msk,
        }
 }
 
-bool mptcp_update_rcv_data_fin(struct mptcp_sock *msk, u64 data_fin_seq)
+bool mptcp_update_rcv_data_fin(struct mptcp_sock *msk, u64 data_fin_seq, bool use_64bit)
 {
        /* Skip if DATA_FIN was already received.
         * If updating simultaneously with the recvmsg loop, values
@@ -792,7 +792,8 @@ bool mptcp_update_rcv_data_fin(struct mptcp_sock *msk, u64 data_fin_seq)
        if (READ_ONCE(msk->rcv_data_fin) || !READ_ONCE(msk->first))
                return false;
 
-       WRITE_ONCE(msk->rcv_data_fin_seq, data_fin_seq);
+       WRITE_ONCE(msk->rcv_data_fin_seq,
+                  expand_ack(READ_ONCE(msk->ack_seq), data_fin_seq, use_64bit));
        WRITE_ONCE(msk->rcv_data_fin, 1);
 
        return true;
@@ -875,7 +876,7 @@ void mptcp_incoming_options(struct sock *sk, struct sk_buff *skb,
         */
        if (TCP_SKB_CB(skb)->seq == TCP_SKB_CB(skb)->end_seq) {
                if (mp_opt.data_fin && mp_opt.data_len == 1 &&
-                   mptcp_update_rcv_data_fin(msk, mp_opt.data_seq) &&
+                   mptcp_update_rcv_data_fin(msk, mp_opt.data_seq, mp_opt.dsn64) &&
                    schedule_work(&msk->work))
                        sock_hold(subflow->conn);
 
index 365ba96..5d747c6 100644 (file)
@@ -123,7 +123,7 @@ static void __mptcp_move_skb(struct mptcp_sock *msk, struct sock *ssk,
 
        skb_ext_reset(skb);
        skb_orphan(skb);
-       msk->ack_seq += copy_len;
+       WRITE_ONCE(msk->ack_seq, msk->ack_seq + copy_len);
 
        tail = skb_peek_tail(&sk->sk_receive_queue);
        if (offset == 0 && tail) {
@@ -261,7 +261,7 @@ static void mptcp_check_data_fin(struct sock *sk)
        if (mptcp_pending_data_fin(sk, &rcv_data_fin_seq)) {
                struct mptcp_subflow_context *subflow;
 
-               msk->ack_seq++;
+               WRITE_ONCE(msk->ack_seq, msk->ack_seq + 1);
                WRITE_ONCE(msk->rcv_data_fin, 0);
 
                sk->sk_shutdown |= RCV_SHUTDOWN;
@@ -1720,7 +1720,7 @@ struct sock *mptcp_sk_clone(const struct sock *sk,
                msk->remote_key = mp_opt->sndr_key;
                mptcp_crypto_key_sha(msk->remote_key, NULL, &ack_seq);
                ack_seq++;
-               msk->ack_seq = ack_seq;
+               WRITE_ONCE(msk->ack_seq, ack_seq);
        }
 
        sock_reset_flag(nsk, SOCK_RCU_FREE);
@@ -2072,7 +2072,7 @@ bool mptcp_finish_join(struct sock *sk)
        parent_sock = READ_ONCE(parent->sk_socket);
        if (parent_sock && !sk->sk_socket)
                mptcp_sock_graft(sk, parent_sock);
-       subflow->map_seq = msk->ack_seq;
+       subflow->map_seq = READ_ONCE(msk->ack_seq);
        return true;
 }
 
index 60b27d4..20f04ac 100644 (file)
@@ -387,7 +387,7 @@ void mptcp_data_ready(struct sock *sk, struct sock *ssk);
 bool mptcp_finish_join(struct sock *sk);
 void mptcp_data_acked(struct sock *sk);
 void mptcp_subflow_eof(struct sock *sk);
-bool mptcp_update_rcv_data_fin(struct mptcp_sock *msk, u64 data_fin_seq);
+bool mptcp_update_rcv_data_fin(struct mptcp_sock *msk, u64 data_fin_seq, bool use_64bit);
 
 void __init mptcp_token_init(void);
 static inline void mptcp_token_init_request(struct request_sock *req)
index 9ead43f..6f035af 100644 (file)
@@ -731,7 +731,8 @@ static enum mapping_status get_mapping_status(struct sock *ssk,
 
        if (mpext->data_fin == 1) {
                if (data_len == 1) {
-                       mptcp_update_rcv_data_fin(msk, mpext->data_seq);
+                       bool updated = mptcp_update_rcv_data_fin(msk, mpext->data_seq,
+                                                                mpext->dsn64);
                        pr_debug("DATA_FIN with no payload seq=%llu", mpext->data_seq);
                        if (subflow->map_valid) {
                                /* A DATA_FIN might arrive in a DSS
@@ -742,11 +743,23 @@ static enum mapping_status get_mapping_status(struct sock *ssk,
                                skb_ext_del(skb, SKB_EXT_MPTCP);
                                return MAPPING_OK;
                        } else {
+                               if (updated && schedule_work(&msk->work))
+                                       sock_hold((struct sock *)msk);
+
                                return MAPPING_DATA_FIN;
                        }
                } else {
-                       mptcp_update_rcv_data_fin(msk, mpext->data_seq + data_len);
-                       pr_debug("DATA_FIN with mapping seq=%llu", mpext->data_seq + data_len);
+                       u64 data_fin_seq = mpext->data_seq + data_len - 1;
+
+                       /* If mpext->data_seq is a 32-bit value, data_fin_seq
+                        * must also be limited to 32 bits.
+                        */
+                       if (!mpext->dsn64)
+                               data_fin_seq &= GENMASK_ULL(31, 0);
+
+                       mptcp_update_rcv_data_fin(msk, data_fin_seq, mpext->dsn64);
+                       pr_debug("DATA_FIN with mapping seq=%llu dsn64=%d",
+                                data_fin_seq, mpext->dsn64);
                }
 
                /* Adjust for DATA_FIN using 1 byte of sequence space */
index 1eb65a7..c4b4d33 100644 (file)
@@ -1079,7 +1079,7 @@ static int ctrl_dumppolicy(struct sk_buff *skb, struct netlink_callback *cb)
        if (err)
                return err;
 
-       while (netlink_policy_dump_loop(&cb->args[1])) {
+       while (netlink_policy_dump_loop(cb->args[1])) {
                void *hdr;
                struct nlattr *nest;
 
@@ -1113,6 +1113,12 @@ nla_put_failure:
        return skb->len;
 }
 
+static int ctrl_dumppolicy_done(struct netlink_callback *cb)
+{
+       netlink_policy_dump_free(cb->args[1]);
+       return 0;
+}
+
 static const struct genl_ops genl_ctrl_ops[] = {
        {
                .cmd            = CTRL_CMD_GETFAMILY,
@@ -1123,6 +1129,7 @@ static const struct genl_ops genl_ctrl_ops[] = {
        {
                .cmd            = CTRL_CMD_GETPOLICY,
                .dumpit         = ctrl_dumppolicy,
+               .done           = ctrl_dumppolicy_done,
        },
 };
 
index 641ffbd..0176b59 100644 (file)
@@ -84,7 +84,6 @@ int netlink_policy_dump_start(const struct nla_policy *policy,
        unsigned int policy_idx;
        int err;
 
-       /* also returns 0 if "*_state" is our ERR_PTR() end marker */
        if (*_state)
                return 0;
 
@@ -140,21 +139,11 @@ static bool netlink_policy_dump_finished(struct nl_policy_dump *state)
               !state->policies[state->policy_idx].policy;
 }
 
-bool netlink_policy_dump_loop(unsigned long *_state)
+bool netlink_policy_dump_loop(unsigned long _state)
 {
-       struct nl_policy_dump *state = (void *)*_state;
-
-       if (IS_ERR(state))
-               return false;
-
-       if (netlink_policy_dump_finished(state)) {
-               kfree(state);
-               /* store end marker instead of freed state */
-               *_state = (unsigned long)ERR_PTR(-ENOENT);
-               return false;
-       }
+       struct nl_policy_dump *state = (void *)_state;
 
-       return true;
+       return !netlink_policy_dump_finished(state);
 }
 
 int netlink_policy_dump_write(struct sk_buff *skb, unsigned long _state)
@@ -309,3 +298,10 @@ nla_put_failure:
        nla_nest_cancel(skb, policy);
        return -ENOBUFS;
 }
+
+void netlink_policy_dump_free(unsigned long _state)
+{
+       struct nl_policy_dump *state = (void *)_state;
+
+       kfree(state);
+}
index a3f1204..12d42ab 100644 (file)
@@ -905,15 +905,19 @@ static int ovs_ct_nat(struct net *net, struct sw_flow_key *key,
        }
        err = ovs_ct_nat_execute(skb, ct, ctinfo, &info->range, maniptype);
 
-       if (err == NF_ACCEPT &&
-           ct->status & IPS_SRC_NAT && ct->status & IPS_DST_NAT) {
-               if (maniptype == NF_NAT_MANIP_SRC)
-                       maniptype = NF_NAT_MANIP_DST;
-               else
-                       maniptype = NF_NAT_MANIP_SRC;
-
-               err = ovs_ct_nat_execute(skb, ct, ctinfo, &info->range,
-                                        maniptype);
+       if (err == NF_ACCEPT && ct->status & IPS_DST_NAT) {
+               if (ct->status & IPS_SRC_NAT) {
+                       if (maniptype == NF_NAT_MANIP_SRC)
+                               maniptype = NF_NAT_MANIP_DST;
+                       else
+                               maniptype = NF_NAT_MANIP_SRC;
+
+                       err = ovs_ct_nat_execute(skb, ct, ctinfo, &info->range,
+                                                maniptype);
+               } else if (CTINFO2DIR(ctinfo) == IP_CT_DIR_ORIGINAL) {
+                       err = ovs_ct_nat_execute(skb, ct, ctinfo, NULL,
+                                                NF_NAT_MANIP_SRC);
+               }
        }
 
        /* Mark NAT done if successful and update the flow key. */
index d8252fd..b8559c8 100644 (file)
@@ -199,17 +199,30 @@ static int announce_servers(struct sockaddr_qrtr *sq)
        if (!node)
                return 0;
 
+       rcu_read_lock();
        /* Announce the list of servers registered in this node */
        radix_tree_for_each_slot(slot, &node->servers, &iter, 0) {
                srv = radix_tree_deref_slot(slot);
+               if (!srv)
+                       continue;
+               if (radix_tree_deref_retry(srv)) {
+                       slot = radix_tree_iter_retry(&iter);
+                       continue;
+               }
+               slot = radix_tree_iter_resume(slot, &iter);
+               rcu_read_unlock();
 
                ret = service_announce_new(sq, srv);
                if (ret < 0) {
                        pr_err("failed to announce new service\n");
                        return ret;
                }
+
+               rcu_read_lock();
        }
 
+       rcu_read_unlock();
+
        return 0;
 }
 
@@ -344,11 +357,22 @@ static int ctrl_cmd_bye(struct sockaddr_qrtr *from)
        if (!node)
                return 0;
 
+       rcu_read_lock();
        /* Advertise removal of this client to all servers of remote node */
        radix_tree_for_each_slot(slot, &node->servers, &iter, 0) {
                srv = radix_tree_deref_slot(slot);
+               if (!srv)
+                       continue;
+               if (radix_tree_deref_retry(srv)) {
+                       slot = radix_tree_iter_retry(&iter);
+                       continue;
+               }
+               slot = radix_tree_iter_resume(slot, &iter);
+               rcu_read_unlock();
                server_del(node, srv->port);
+               rcu_read_lock();
        }
+       rcu_read_unlock();
 
        /* Advertise the removal of this client to all local servers */
        local_node = node_get(qrtr_ns.local_node);
@@ -359,8 +383,17 @@ static int ctrl_cmd_bye(struct sockaddr_qrtr *from)
        pkt.cmd = cpu_to_le32(QRTR_TYPE_BYE);
        pkt.client.node = cpu_to_le32(from->sq_node);
 
+       rcu_read_lock();
        radix_tree_for_each_slot(slot, &local_node->servers, &iter, 0) {
                srv = radix_tree_deref_slot(slot);
+               if (!srv)
+                       continue;
+               if (radix_tree_deref_retry(srv)) {
+                       slot = radix_tree_iter_retry(&iter);
+                       continue;
+               }
+               slot = radix_tree_iter_resume(slot, &iter);
+               rcu_read_unlock();
 
                sq.sq_family = AF_QIPCRTR;
                sq.sq_node = srv->node;
@@ -374,8 +407,11 @@ static int ctrl_cmd_bye(struct sockaddr_qrtr *from)
                        pr_err("failed to send bye cmd\n");
                        return ret;
                }
+               rcu_read_lock();
        }
 
+       rcu_read_unlock();
+
        return 0;
 }
 
@@ -434,8 +470,17 @@ static int ctrl_cmd_del_client(struct sockaddr_qrtr *from,
        pkt.client.node = cpu_to_le32(node_id);
        pkt.client.port = cpu_to_le32(port);
 
+       rcu_read_lock();
        radix_tree_for_each_slot(slot, &local_node->servers, &iter, 0) {
                srv = radix_tree_deref_slot(slot);
+               if (!srv)
+                       continue;
+               if (radix_tree_deref_retry(srv)) {
+                       slot = radix_tree_iter_retry(&iter);
+                       continue;
+               }
+               slot = radix_tree_iter_resume(slot, &iter);
+               rcu_read_unlock();
 
                sq.sq_family = AF_QIPCRTR;
                sq.sq_node = srv->node;
@@ -449,8 +494,11 @@ static int ctrl_cmd_del_client(struct sockaddr_qrtr *from,
                        pr_err("failed to send del client cmd\n");
                        return ret;
                }
+               rcu_read_lock();
        }
 
+       rcu_read_unlock();
+
        return 0;
 }
 
@@ -554,20 +602,40 @@ static int ctrl_cmd_new_lookup(struct sockaddr_qrtr *from,
        filter.service = service;
        filter.instance = instance;
 
+       rcu_read_lock();
        radix_tree_for_each_slot(node_slot, &nodes, &node_iter, 0) {
                node = radix_tree_deref_slot(node_slot);
+               if (!node)
+                       continue;
+               if (radix_tree_deref_retry(node)) {
+                       node_slot = radix_tree_iter_retry(&node_iter);
+                       continue;
+               }
+               node_slot = radix_tree_iter_resume(node_slot, &node_iter);
 
                radix_tree_for_each_slot(srv_slot, &node->servers,
                                         &srv_iter, 0) {
                        struct qrtr_server *srv;
 
                        srv = radix_tree_deref_slot(srv_slot);
+                       if (!srv)
+                               continue;
+                       if (radix_tree_deref_retry(srv)) {
+                               srv_slot = radix_tree_iter_retry(&srv_iter);
+                               continue;
+                       }
+
                        if (!server_match(srv, &filter))
                                continue;
 
+                       srv_slot = radix_tree_iter_resume(srv_slot, &srv_iter);
+
+                       rcu_read_unlock();
                        lookup_notify(from, srv, true);
+                       rcu_read_lock();
                }
        }
+       rcu_read_unlock();
 
        /* Empty notification, to indicate end of listing */
        lookup_notify(from, NULL, true);
index 884cff7..97aebb5 100644 (file)
@@ -518,7 +518,6 @@ enum rxrpc_call_state {
        RXRPC_CALL_CLIENT_RECV_REPLY,   /* - client receiving reply phase */
        RXRPC_CALL_SERVER_PREALLOC,     /* - service preallocation */
        RXRPC_CALL_SERVER_SECURING,     /* - server securing request connection */
-       RXRPC_CALL_SERVER_ACCEPTING,    /* - server accepting request */
        RXRPC_CALL_SERVER_RECV_REQUEST, /* - server receiving request */
        RXRPC_CALL_SERVER_ACK_REQUEST,  /* - server pending ACK of request */
        RXRPC_CALL_SERVER_SEND_REPLY,   /* - server sending reply */
@@ -714,8 +713,8 @@ struct rxrpc_ack_summary {
 enum rxrpc_command {
        RXRPC_CMD_SEND_DATA,            /* send data message */
        RXRPC_CMD_SEND_ABORT,           /* request abort generation */
-       RXRPC_CMD_ACCEPT,               /* [server] accept incoming call */
        RXRPC_CMD_REJECT_BUSY,          /* [server] reject a call as busy */
+       RXRPC_CMD_CHARGE_ACCEPT,        /* [server] charge accept preallocation */
 };
 
 struct rxrpc_call_params {
@@ -755,9 +754,7 @@ struct rxrpc_call *rxrpc_new_incoming_call(struct rxrpc_local *,
                                           struct rxrpc_sock *,
                                           struct sk_buff *);
 void rxrpc_accept_incoming_calls(struct rxrpc_local *);
-struct rxrpc_call *rxrpc_accept_call(struct rxrpc_sock *, unsigned long,
-                                    rxrpc_notify_rx_t);
-int rxrpc_reject_call(struct rxrpc_sock *);
+int rxrpc_user_charge_accept(struct rxrpc_sock *, unsigned long);
 
 /*
  * call_event.c
index ef16056..8df1964 100644 (file)
@@ -39,8 +39,9 @@ static int rxrpc_service_prealloc_one(struct rxrpc_sock *rx,
                                      unsigned int debug_id)
 {
        const void *here = __builtin_return_address(0);
-       struct rxrpc_call *call;
+       struct rxrpc_call *call, *xcall;
        struct rxrpc_net *rxnet = rxrpc_net(sock_net(&rx->sk));
+       struct rb_node *parent, **pp;
        int max, tmp;
        unsigned int size = RXRPC_BACKLOG_MAX;
        unsigned int head, tail, call_head, call_tail;
@@ -94,7 +95,7 @@ static int rxrpc_service_prealloc_one(struct rxrpc_sock *rx,
        }
 
        /* Now it gets complicated, because calls get registered with the
-        * socket here, particularly if a user ID is preassigned by the user.
+        * socket here, with a user ID preassigned by the user.
         */
        call = rxrpc_alloc_call(rx, gfp, debug_id);
        if (!call)
@@ -107,34 +108,33 @@ static int rxrpc_service_prealloc_one(struct rxrpc_sock *rx,
                         here, (const void *)user_call_ID);
 
        write_lock(&rx->call_lock);
-       if (user_attach_call) {
-               struct rxrpc_call *xcall;
-               struct rb_node *parent, **pp;
-
-               /* Check the user ID isn't already in use */
-               pp = &rx->calls.rb_node;
-               parent = NULL;
-               while (*pp) {
-                       parent = *pp;
-                       xcall = rb_entry(parent, struct rxrpc_call, sock_node);
-                       if (user_call_ID < xcall->user_call_ID)
-                               pp = &(*pp)->rb_left;
-                       else if (user_call_ID > xcall->user_call_ID)
-                               pp = &(*pp)->rb_right;
-                       else
-                               goto id_in_use;
-               }
 
-               call->user_call_ID = user_call_ID;
-               call->notify_rx = notify_rx;
+       /* Check the user ID isn't already in use */
+       pp = &rx->calls.rb_node;
+       parent = NULL;
+       while (*pp) {
+               parent = *pp;
+               xcall = rb_entry(parent, struct rxrpc_call, sock_node);
+               if (user_call_ID < xcall->user_call_ID)
+                       pp = &(*pp)->rb_left;
+               else if (user_call_ID > xcall->user_call_ID)
+                       pp = &(*pp)->rb_right;
+               else
+                       goto id_in_use;
+       }
+
+       call->user_call_ID = user_call_ID;
+       call->notify_rx = notify_rx;
+       if (user_attach_call) {
                rxrpc_get_call(call, rxrpc_call_got_kernel);
                user_attach_call(call, user_call_ID);
-               rxrpc_get_call(call, rxrpc_call_got_userid);
-               rb_link_node(&call->sock_node, parent, pp);
-               rb_insert_color(&call->sock_node, &rx->calls);
-               set_bit(RXRPC_CALL_HAS_USERID, &call->flags);
        }
 
+       rxrpc_get_call(call, rxrpc_call_got_userid);
+       rb_link_node(&call->sock_node, parent, pp);
+       rb_insert_color(&call->sock_node, &rx->calls);
+       set_bit(RXRPC_CALL_HAS_USERID, &call->flags);
+
        list_add(&call->sock_link, &rx->sock_calls);
 
        write_unlock(&rx->call_lock);
@@ -157,11 +157,8 @@ id_in_use:
 }
 
 /*
- * Preallocate sufficient service connections, calls and peers to cover the
- * entire backlog of a socket.  When a new call comes in, if we don't have
- * sufficient of each available, the call gets rejected as busy or ignored.
- *
- * The backlog is replenished when a connection is accepted or rejected.
+ * Allocate the preallocation buffers for incoming service calls.  These must
+ * be charged manually.
  */
 int rxrpc_service_prealloc(struct rxrpc_sock *rx, gfp_t gfp)
 {
@@ -174,13 +171,6 @@ int rxrpc_service_prealloc(struct rxrpc_sock *rx, gfp_t gfp)
                rx->backlog = b;
        }
 
-       if (rx->discard_new_call)
-               return 0;
-
-       while (rxrpc_service_prealloc_one(rx, b, NULL, NULL, 0, gfp,
-                                         atomic_inc_return(&rxrpc_debug_id)) == 0)
-               ;
-
        return 0;
 }
 
@@ -333,6 +323,7 @@ static struct rxrpc_call *rxrpc_alloc_incoming_call(struct rxrpc_sock *rx,
        rxrpc_see_call(call);
        call->conn = conn;
        call->security = conn->security;
+       call->security_ix = conn->security_ix;
        call->peer = rxrpc_get_peer(conn->params.peer);
        call->cong_cwnd = call->peer->cong_cwnd;
        return call;
@@ -402,8 +393,6 @@ struct rxrpc_call *rxrpc_new_incoming_call(struct rxrpc_local *local,
 
        if (rx->notify_new_call)
                rx->notify_new_call(&rx->sk, call, call->user_call_ID);
-       else
-               sk_acceptq_added(&rx->sk);
 
        spin_lock(&conn->state_lock);
        switch (conn->state) {
@@ -415,12 +404,8 @@ struct rxrpc_call *rxrpc_new_incoming_call(struct rxrpc_local *local,
 
        case RXRPC_CONN_SERVICE:
                write_lock(&call->state_lock);
-               if (call->state < RXRPC_CALL_COMPLETE) {
-                       if (rx->discard_new_call)
-                               call->state = RXRPC_CALL_SERVER_RECV_REQUEST;
-                       else
-                               call->state = RXRPC_CALL_SERVER_ACCEPTING;
-               }
+               if (call->state < RXRPC_CALL_COMPLETE)
+                       call->state = RXRPC_CALL_SERVER_RECV_REQUEST;
                write_unlock(&call->state_lock);
                break;
 
@@ -440,9 +425,6 @@ struct rxrpc_call *rxrpc_new_incoming_call(struct rxrpc_local *local,
 
        rxrpc_send_ping(call, skb);
 
-       if (call->state == RXRPC_CALL_SERVER_ACCEPTING)
-               rxrpc_notify_socket(call);
-
        /* We have to discard the prealloc queue's ref here and rely on a
         * combination of the RCU read lock and refs held either by the socket
         * (recvmsg queue, to-be-accepted queue or user ID tree) or the kernel
@@ -460,187 +442,18 @@ no_call:
 }
 
 /*
- * handle acceptance of a call by userspace
- * - assign the user call ID to the call at the front of the queue
- * - called with the socket locked.
+ * Charge up socket with preallocated calls, attaching user call IDs.
  */
-struct rxrpc_call *rxrpc_accept_call(struct rxrpc_sock *rx,
-                                    unsigned long user_call_ID,
-                                    rxrpc_notify_rx_t notify_rx)
-       __releases(&rx->sk.sk_lock.slock)
-       __acquires(call->user_mutex)
+int rxrpc_user_charge_accept(struct rxrpc_sock *rx, unsigned long user_call_ID)
 {
-       struct rxrpc_call *call;
-       struct rb_node *parent, **pp;
-       int ret;
-
-       _enter(",%lx", user_call_ID);
-
-       ASSERT(!irqs_disabled());
-
-       write_lock(&rx->call_lock);
-
-       if (list_empty(&rx->to_be_accepted)) {
-               write_unlock(&rx->call_lock);
-               release_sock(&rx->sk);
-               kleave(" = -ENODATA [empty]");
-               return ERR_PTR(-ENODATA);
-       }
-
-       /* check the user ID isn't already in use */
-       pp = &rx->calls.rb_node;
-       parent = NULL;
-       while (*pp) {
-               parent = *pp;
-               call = rb_entry(parent, struct rxrpc_call, sock_node);
-
-               if (user_call_ID < call->user_call_ID)
-                       pp = &(*pp)->rb_left;
-               else if (user_call_ID > call->user_call_ID)
-                       pp = &(*pp)->rb_right;
-               else
-                       goto id_in_use;
-       }
-
-       /* Dequeue the first call and check it's still valid.  We gain
-        * responsibility for the queue's reference.
-        */
-       call = list_entry(rx->to_be_accepted.next,
-                         struct rxrpc_call, accept_link);
-       write_unlock(&rx->call_lock);
-
-       /* We need to gain the mutex from the interrupt handler without
-        * upsetting lockdep, so we have to release it there and take it here.
-        * We are, however, still holding the socket lock, so other accepts
-        * must wait for us and no one can add the user ID behind our backs.
-        */
-       if (mutex_lock_interruptible(&call->user_mutex) < 0) {
-               release_sock(&rx->sk);
-               kleave(" = -ERESTARTSYS");
-               return ERR_PTR(-ERESTARTSYS);
-       }
-
-       write_lock(&rx->call_lock);
-       list_del_init(&call->accept_link);
-       sk_acceptq_removed(&rx->sk);
-       rxrpc_see_call(call);
-
-       /* Find the user ID insertion point. */
-       pp = &rx->calls.rb_node;
-       parent = NULL;
-       while (*pp) {
-               parent = *pp;
-               call = rb_entry(parent, struct rxrpc_call, sock_node);
-
-               if (user_call_ID < call->user_call_ID)
-                       pp = &(*pp)->rb_left;
-               else if (user_call_ID > call->user_call_ID)
-                       pp = &(*pp)->rb_right;
-               else
-                       BUG();
-       }
-
-       write_lock_bh(&call->state_lock);
-       switch (call->state) {
-       case RXRPC_CALL_SERVER_ACCEPTING:
-               call->state = RXRPC_CALL_SERVER_RECV_REQUEST;
-               break;
-       case RXRPC_CALL_COMPLETE:
-               ret = call->error;
-               goto out_release;
-       default:
-               BUG();
-       }
-
-       /* formalise the acceptance */
-       call->notify_rx = notify_rx;
-       call->user_call_ID = user_call_ID;
-       rxrpc_get_call(call, rxrpc_call_got_userid);
-       rb_link_node(&call->sock_node, parent, pp);
-       rb_insert_color(&call->sock_node, &rx->calls);
-       if (test_and_set_bit(RXRPC_CALL_HAS_USERID, &call->flags))
-               BUG();
-
-       write_unlock_bh(&call->state_lock);
-       write_unlock(&rx->call_lock);
-       rxrpc_notify_socket(call);
-       rxrpc_service_prealloc(rx, GFP_KERNEL);
-       release_sock(&rx->sk);
-       _leave(" = %p{%d}", call, call->debug_id);
-       return call;
-
-out_release:
-       _debug("release %p", call);
-       write_unlock_bh(&call->state_lock);
-       write_unlock(&rx->call_lock);
-       rxrpc_release_call(rx, call);
-       rxrpc_put_call(call, rxrpc_call_put);
-       goto out;
-
-id_in_use:
-       ret = -EBADSLT;
-       write_unlock(&rx->call_lock);
-out:
-       rxrpc_service_prealloc(rx, GFP_KERNEL);
-       release_sock(&rx->sk);
-       _leave(" = %d", ret);
-       return ERR_PTR(ret);
-}
-
-/*
- * Handle rejection of a call by userspace
- * - reject the call at the front of the queue
- */
-int rxrpc_reject_call(struct rxrpc_sock *rx)
-{
-       struct rxrpc_call *call;
-       bool abort = false;
-       int ret;
-
-       _enter("");
-
-       ASSERT(!irqs_disabled());
-
-       write_lock(&rx->call_lock);
-
-       if (list_empty(&rx->to_be_accepted)) {
-               write_unlock(&rx->call_lock);
-               return -ENODATA;
-       }
-
-       /* Dequeue the first call and check it's still valid.  We gain
-        * responsibility for the queue's reference.
-        */
-       call = list_entry(rx->to_be_accepted.next,
-                         struct rxrpc_call, accept_link);
-       list_del_init(&call->accept_link);
-       sk_acceptq_removed(&rx->sk);
-       rxrpc_see_call(call);
+       struct rxrpc_backlog *b = rx->backlog;
 
-       write_lock_bh(&call->state_lock);
-       switch (call->state) {
-       case RXRPC_CALL_SERVER_ACCEPTING:
-               __rxrpc_abort_call("REJ", call, 1, RX_USER_ABORT, -ECONNABORTED);
-               abort = true;
-               fallthrough;
-       case RXRPC_CALL_COMPLETE:
-               ret = call->error;
-               goto out_discard;
-       default:
-               BUG();
-       }
+       if (rx->sk.sk_state == RXRPC_CLOSE)
+               return -ESHUTDOWN;
 
-out_discard:
-       write_unlock_bh(&call->state_lock);
-       write_unlock(&rx->call_lock);
-       if (abort) {
-               rxrpc_send_abort_packet(call);
-               rxrpc_release_call(rx, call);
-               rxrpc_put_call(call, rxrpc_call_put);
-       }
-       rxrpc_service_prealloc(rx, GFP_KERNEL);
-       _leave(" = %d", ret);
-       return ret;
+       return rxrpc_service_prealloc_one(rx, b, NULL, NULL, user_call_ID,
+                                         GFP_KERNEL,
+                                         atomic_inc_return(&rxrpc_debug_id));
 }
 
 /*
index a40fae0..ed49769 100644 (file)
@@ -23,7 +23,6 @@ const char *const rxrpc_call_states[NR__RXRPC_CALL_STATES] = {
        [RXRPC_CALL_CLIENT_RECV_REPLY]          = "ClRcvRpl",
        [RXRPC_CALL_SERVER_PREALLOC]            = "SvPrealc",
        [RXRPC_CALL_SERVER_SECURING]            = "SvSecure",
-       [RXRPC_CALL_SERVER_ACCEPTING]           = "SvAccept",
        [RXRPC_CALL_SERVER_RECV_REQUEST]        = "SvRcvReq",
        [RXRPC_CALL_SERVER_ACK_REQUEST]         = "SvAckReq",
        [RXRPC_CALL_SERVER_SEND_REPLY]          = "SvSndRpl",
@@ -352,9 +351,7 @@ void rxrpc_incoming_call(struct rxrpc_sock *rx,
        call->call_id           = sp->hdr.callNumber;
        call->service_id        = sp->hdr.serviceId;
        call->cid               = sp->hdr.cid;
-       call->state             = RXRPC_CALL_SERVER_ACCEPTING;
-       if (sp->hdr.securityIndex > 0)
-               call->state     = RXRPC_CALL_SERVER_SECURING;
+       call->state             = RXRPC_CALL_SERVER_SECURING;
        call->cong_tstamp       = skb->tstamp;
 
        /* Set the channel for this call.  We don't get channel_lock as we're
index 447f55c..64ace29 100644 (file)
@@ -269,7 +269,7 @@ static void rxrpc_call_is_secure(struct rxrpc_call *call)
        if (call) {
                write_lock_bh(&call->state_lock);
                if (call->state == RXRPC_CALL_SERVER_SECURING) {
-                       call->state = RXRPC_CALL_SERVER_ACCEPTING;
+                       call->state = RXRPC_CALL_SERVER_RECV_REQUEST;
                        rxrpc_notify_socket(call);
                }
                write_unlock_bh(&call->state_lock);
@@ -340,18 +340,18 @@ static int rxrpc_process_event(struct rxrpc_connection *conn,
                        return ret;
 
                spin_lock(&conn->channel_lock);
-               spin_lock(&conn->state_lock);
+               spin_lock_bh(&conn->state_lock);
 
                if (conn->state == RXRPC_CONN_SERVICE_CHALLENGING) {
                        conn->state = RXRPC_CONN_SERVICE;
-                       spin_unlock(&conn->state_lock);
+                       spin_unlock_bh(&conn->state_lock);
                        for (loop = 0; loop < RXRPC_MAXCALLS; loop++)
                                rxrpc_call_is_secure(
                                        rcu_dereference_protected(
                                                conn->channels[loop].call,
                                                lockdep_is_held(&conn->channel_lock)));
                } else {
-                       spin_unlock(&conn->state_lock);
+                       spin_unlock_bh(&conn->state_lock);
                }
 
                spin_unlock(&conn->channel_lock);
index 94c3df3..2e8bd3b 100644 (file)
@@ -903,7 +903,7 @@ int rxrpc_request_key(struct rxrpc_sock *rx, sockptr_t optval, int optlen)
 
        _enter("");
 
-       if (optlen <= 0 || optlen > PAGE_SIZE - 1)
+       if (optlen <= 0 || optlen > PAGE_SIZE - 1 || rx->securities)
                return -EINVAL;
 
        description = memdup_sockptr_nul(optval, optlen);
@@ -940,7 +940,7 @@ int rxrpc_server_keyring(struct rxrpc_sock *rx, sockptr_t optval, int optlen)
        if (IS_ERR(description))
                return PTR_ERR(description);
 
-       key = request_key_net(&key_type_keyring, description, sock_net(&rx->sk), NULL);
+       key = request_key(&key_type_keyring, description, NULL);
        if (IS_ERR(key)) {
                kfree(description);
                _leave(" = %ld", PTR_ERR(key));
@@ -1072,7 +1072,7 @@ static long rxrpc_read(const struct key *key,
 
                switch (token->security_index) {
                case RXRPC_SECURITY_RXKAD:
-                       toksize += 9 * 4;       /* viceid, kvno, key*2 + len, begin,
+                       toksize += 8 * 4;       /* viceid, kvno, key*2, begin,
                                                 * end, primary, tktlen */
                        toksize += RND(token->kad->ticket_len);
                        break;
@@ -1107,7 +1107,8 @@ static long rxrpc_read(const struct key *key,
                        break;
 
                default: /* we have a ticket we can't encode */
-                       BUG();
+                       pr_err("Unsupported key token type (%u)\n",
+                              token->security_index);
                        continue;
                }
 
@@ -1138,6 +1139,14 @@ static long rxrpc_read(const struct key *key,
                        memcpy((u8 *)xdr + _l, &zero, 4 - (_l & 3));    \
                xdr += (_l + 3) >> 2;                                   \
        } while(0)
+#define ENCODE_BYTES(l, s)                                             \
+       do {                                                            \
+               u32 _l = (l);                                           \
+               memcpy(xdr, (s), _l);                                   \
+               if (_l & 3)                                             \
+                       memcpy((u8 *)xdr + _l, &zero, 4 - (_l & 3));    \
+               xdr += (_l + 3) >> 2;                                   \
+       } while(0)
 #define ENCODE64(x)                                    \
        do {                                            \
                __be64 y = cpu_to_be64(x);              \
@@ -1165,7 +1174,7 @@ static long rxrpc_read(const struct key *key,
                case RXRPC_SECURITY_RXKAD:
                        ENCODE(token->kad->vice_id);
                        ENCODE(token->kad->kvno);
-                       ENCODE_DATA(8, token->kad->session_key);
+                       ENCODE_BYTES(8, token->kad->session_key);
                        ENCODE(token->kad->start);
                        ENCODE(token->kad->expiry);
                        ENCODE(token->kad->primary_flag);
@@ -1215,7 +1224,6 @@ static long rxrpc_read(const struct key *key,
                        break;
 
                default:
-                       BUG();
                        break;
                }
 
index c4684dd..2c84285 100644 (file)
@@ -179,37 +179,6 @@ static int rxrpc_recvmsg_term(struct rxrpc_call *call, struct msghdr *msg)
 }
 
 /*
- * Pass back notification of a new call.  The call is added to the
- * to-be-accepted list.  This means that the next call to be accepted might not
- * be the last call seen awaiting acceptance, but unless we leave this on the
- * front of the queue and block all other messages until someone gives us a
- * user_ID for it, there's not a lot we can do.
- */
-static int rxrpc_recvmsg_new_call(struct rxrpc_sock *rx,
-                                 struct rxrpc_call *call,
-                                 struct msghdr *msg, int flags)
-{
-       int tmp = 0, ret;
-
-       ret = put_cmsg(msg, SOL_RXRPC, RXRPC_NEW_CALL, 0, &tmp);
-
-       if (ret == 0 && !(flags & MSG_PEEK)) {
-               _debug("to be accepted");
-               write_lock_bh(&rx->recvmsg_lock);
-               list_del_init(&call->recvmsg_link);
-               write_unlock_bh(&rx->recvmsg_lock);
-
-               rxrpc_get_call(call, rxrpc_call_got);
-               write_lock(&rx->call_lock);
-               list_add_tail(&call->accept_link, &rx->to_be_accepted);
-               write_unlock(&rx->call_lock);
-       }
-
-       trace_rxrpc_recvmsg(call, rxrpc_recvmsg_to_be_accepted, 1, 0, 0, ret);
-       return ret;
-}
-
-/*
  * End the packet reception phase.
  */
 static void rxrpc_end_rx_phase(struct rxrpc_call *call, rxrpc_serial_t serial)
@@ -630,9 +599,6 @@ try_again:
        }
 
        switch (READ_ONCE(call->state)) {
-       case RXRPC_CALL_SERVER_ACCEPTING:
-               ret = rxrpc_recvmsg_new_call(rx, call, msg, flags);
-               break;
        case RXRPC_CALL_CLIENT_RECV_REPLY:
        case RXRPC_CALL_SERVER_RECV_REQUEST:
        case RXRPC_CALL_SERVER_ACK_REQUEST:
@@ -728,7 +694,7 @@ int rxrpc_kernel_recv_data(struct socket *sock, struct rxrpc_call *call,
               call->debug_id, rxrpc_call_states[call->state],
               iov_iter_count(iter), want_more);
 
-       ASSERTCMP(call->state, !=, RXRPC_CALL_SERVER_ACCEPTING);
+       ASSERTCMP(call->state, !=, RXRPC_CALL_SERVER_SECURING);
 
        mutex_lock(&call->user_mutex);
 
index 0824e10..d27140c 100644 (file)
@@ -530,10 +530,10 @@ static int rxrpc_sendmsg_cmsg(struct msghdr *msg, struct rxrpc_send_params *p)
                                return -EINVAL;
                        break;
 
-               case RXRPC_ACCEPT:
+               case RXRPC_CHARGE_ACCEPT:
                        if (p->command != RXRPC_CMD_SEND_DATA)
                                return -EINVAL;
-                       p->command = RXRPC_CMD_ACCEPT;
+                       p->command = RXRPC_CMD_CHARGE_ACCEPT;
                        if (len != 0)
                                return -EINVAL;
                        break;
@@ -659,16 +659,12 @@ int rxrpc_do_sendmsg(struct rxrpc_sock *rx, struct msghdr *msg, size_t len)
        if (ret < 0)
                goto error_release_sock;
 
-       if (p.command == RXRPC_CMD_ACCEPT) {
+       if (p.command == RXRPC_CMD_CHARGE_ACCEPT) {
                ret = -EINVAL;
                if (rx->sk.sk_state != RXRPC_SERVER_LISTENING)
                        goto error_release_sock;
-               call = rxrpc_accept_call(rx, p.call.user_call_ID, NULL);
-               /* The socket is now unlocked. */
-               if (IS_ERR(call))
-                       return PTR_ERR(call);
-               ret = 0;
-               goto out_put_unlock;
+               ret = rxrpc_user_charge_accept(rx, p.call.user_call_ID);
+               goto error_release_sock;
        }
 
        call = rxrpc_find_call_by_user_ID(rx, p.call.user_call_ID);
@@ -690,7 +686,6 @@ int rxrpc_do_sendmsg(struct rxrpc_sock *rx, struct msghdr *msg, size_t len)
                case RXRPC_CALL_CLIENT_AWAIT_CONN:
                case RXRPC_CALL_SERVER_PREALLOC:
                case RXRPC_CALL_SERVER_SECURING:
-               case RXRPC_CALL_SERVER_ACCEPTING:
                        rxrpc_put_call(call, rxrpc_call_put);
                        ret = -EBUSY;
                        goto error_release_sock;
index 063d8aa..798430e 100644 (file)
@@ -235,6 +235,8 @@ static int tcf_dump_walker(struct tcf_idrinfo *idrinfo, struct sk_buff *skb,
                index++;
                if (index < s_i)
                        continue;
+               if (IS_ERR(p))
+                       continue;
 
                if (jiffy_since &&
                    time_after(jiffy_since,
@@ -307,6 +309,8 @@ static int tcf_del_walker(struct tcf_idrinfo *idrinfo, struct sk_buff *skb,
 
        mutex_lock(&idrinfo->lock);
        idr_for_each_entry_ul(idr, p, tmp, id) {
+               if (IS_ERR(p))
+                       continue;
                ret = tcf_idr_release_unsafe(p);
                if (ret == ACT_P_DELETED) {
                        module_put(ops->owner);
@@ -467,17 +471,6 @@ int tcf_idr_create_from_flags(struct tc_action_net *tn, u32 index,
 }
 EXPORT_SYMBOL(tcf_idr_create_from_flags);
 
-void tcf_idr_insert(struct tc_action_net *tn, struct tc_action *a)
-{
-       struct tcf_idrinfo *idrinfo = tn->idrinfo;
-
-       mutex_lock(&idrinfo->lock);
-       /* Replace ERR_PTR(-EBUSY) allocated by tcf_idr_check_alloc */
-       WARN_ON(!IS_ERR(idr_replace(&idrinfo->action_idr, a, a->tcfa_index)));
-       mutex_unlock(&idrinfo->lock);
-}
-EXPORT_SYMBOL(tcf_idr_insert);
-
 /* Cleanup idr index that was allocated but not initialized. */
 
 void tcf_idr_cleanup(struct tc_action_net *tn, u32 index)
@@ -731,13 +724,6 @@ int tcf_action_destroy(struct tc_action *actions[], int bind)
        return ret;
 }
 
-static int tcf_action_destroy_1(struct tc_action *a, int bind)
-{
-       struct tc_action *actions[] = { a, NULL };
-
-       return tcf_action_destroy(actions, bind);
-}
-
 static int tcf_action_put(struct tc_action *p)
 {
        return __tcf_action_put(p, false);
@@ -902,6 +888,26 @@ static const struct nla_policy tcf_action_policy[TCA_ACT_MAX + 1] = {
        [TCA_ACT_HW_STATS]      = NLA_POLICY_BITFIELD32(TCA_ACT_HW_STATS_ANY),
 };
 
+static void tcf_idr_insert_many(struct tc_action *actions[])
+{
+       int i;
+
+       for (i = 0; i < TCA_ACT_MAX_PRIO; i++) {
+               struct tc_action *a = actions[i];
+               struct tcf_idrinfo *idrinfo;
+
+               if (!a)
+                       continue;
+               idrinfo = a->idrinfo;
+               mutex_lock(&idrinfo->lock);
+               /* Replace ERR_PTR(-EBUSY) allocated by tcf_idr_check_alloc if
+                * it is just created, otherwise this is just a nop.
+                */
+               idr_replace(&idrinfo->action_idr, a, a->tcfa_index);
+               mutex_unlock(&idrinfo->lock);
+       }
+}
+
 struct tc_action *tcf_action_init_1(struct net *net, struct tcf_proto *tp,
                                    struct nlattr *nla, struct nlattr *est,
                                    char *name, int ovr, int bind,
@@ -1002,13 +1008,6 @@ struct tc_action *tcf_action_init_1(struct net *net, struct tcf_proto *tp,
        if (err != ACT_P_CREATED)
                module_put(a_o->owner);
 
-       if (TC_ACT_EXT_CMP(a->tcfa_action, TC_ACT_GOTO_CHAIN) &&
-           !rcu_access_pointer(a->goto_chain)) {
-               tcf_action_destroy_1(a, bind);
-               NL_SET_ERR_MSG(extack, "can't use goto chain with NULL chain");
-               return ERR_PTR(-EINVAL);
-       }
-
        return a;
 
 err_mod:
@@ -1051,6 +1050,11 @@ int tcf_action_init(struct net *net, struct tcf_proto *tp, struct nlattr *nla,
                actions[i - 1] = act;
        }
 
+       /* We have to commit them all together, because if any error happened in
+        * between, we could not handle the failure gracefully.
+        */
+       tcf_idr_insert_many(actions);
+
        *attr_size = tcf_action_full_attrs_size(sz);
        return i - 1;
 
index 54d5652..a4c7ba3 100644 (file)
@@ -365,9 +365,7 @@ static int tcf_bpf_init(struct net *net, struct nlattr *nla,
        if (goto_ch)
                tcf_chain_put_by_act(goto_ch);
 
-       if (res == ACT_P_CREATED) {
-               tcf_idr_insert(tn, *act);
-       } else {
+       if (res != ACT_P_CREATED) {
                /* make sure the program being replaced is no longer executing */
                synchronize_rcu();
                tcf_bpf_cfg_cleanup(&old);
index f901421..e19885d 100644 (file)
@@ -139,7 +139,6 @@ static int tcf_connmark_init(struct net *net, struct nlattr *nla,
                ci->net = net;
                ci->zone = parm->zone;
 
-               tcf_idr_insert(tn, *a);
                ret = ACT_P_CREATED;
        } else if (ret > 0) {
                ci = to_connmark(*a);
index f5826e4..4fa4fcb 100644 (file)
@@ -110,9 +110,6 @@ static int tcf_csum_init(struct net *net, struct nlattr *nla,
        if (params_new)
                kfree_rcu(params_new, rcu);
 
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
-
        return ret;
 put_chain:
        if (goto_ch)
index 2c36191..a780afd 100644 (file)
@@ -1297,8 +1297,6 @@ static int tcf_ct_init(struct net *net, struct nlattr *nla,
                tcf_chain_put_by_act(goto_ch);
        if (params)
                call_rcu(&params->rcu, tcf_ct_params_free);
-       if (res == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
 
        return res;
 
index b5042f3..6084300 100644 (file)
@@ -269,9 +269,6 @@ static int tcf_ctinfo_init(struct net *net, struct nlattr *nla,
        if (cp_new)
                kfree_rcu(cp_new, rcu);
 
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
-
        return ret;
 
 put_chain:
index 410e3bb..73c3926 100644 (file)
@@ -140,8 +140,6 @@ static int tcf_gact_init(struct net *net, struct nlattr *nla,
        if (goto_ch)
                tcf_chain_put_by_act(goto_ch);
 
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
        return ret;
 release_idr:
        tcf_idr_release(*a, bind);
index 1fb8d42..7c0771d 100644 (file)
@@ -437,9 +437,6 @@ static int tcf_gate_init(struct net *net, struct nlattr *nla,
        if (goto_ch)
                tcf_chain_put_by_act(goto_ch);
 
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
-
        return ret;
 
 chain_put:
index 5c56875..a2ddea0 100644 (file)
@@ -627,9 +627,6 @@ static int tcf_ife_init(struct net *net, struct nlattr *nla,
        if (p)
                kfree_rcu(p, rcu);
 
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
-
        return ret;
 metadata_parse_err:
        if (goto_ch)
index 400a2cf..8dc3bec 100644 (file)
@@ -189,8 +189,6 @@ static int __tcf_ipt_init(struct net *net, unsigned int id, struct nlattr *nla,
        ipt->tcfi_t     = t;
        ipt->tcfi_hook  = hook;
        spin_unlock_bh(&ipt->tcf_lock);
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
        return ret;
 
 err3:
index b270531..e24b7e2 100644 (file)
@@ -194,8 +194,6 @@ static int tcf_mirred_init(struct net *net, struct nlattr *nla,
                spin_lock(&mirred_list_lock);
                list_add(&m->tcfm_list, &mirred_list);
                spin_unlock(&mirred_list_lock);
-
-               tcf_idr_insert(tn, *a);
        }
 
        return ret;
index 8118e26..e298ec3 100644 (file)
@@ -273,8 +273,6 @@ static int tcf_mpls_init(struct net *net, struct nlattr *nla,
        if (p)
                kfree_rcu(p, rcu);
 
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
        return ret;
 put_chain:
        if (goto_ch)
index 855a6fa..1ebd2a8 100644 (file)
@@ -93,9 +93,6 @@ static int tcf_nat_init(struct net *net, struct nlattr *nla, struct nlattr *est,
        if (goto_ch)
                tcf_chain_put_by_act(goto_ch);
 
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
-
        return ret;
 release_idr:
        tcf_idr_release(*a, bind);
index c158bfe..b453044 100644 (file)
@@ -238,8 +238,6 @@ static int tcf_pedit_init(struct net *net, struct nlattr *nla,
        spin_unlock_bh(&p->tcf_lock);
        if (goto_ch)
                tcf_chain_put_by_act(goto_ch);
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
        return ret;
 
 put_chain:
index 0b431d4..8d8452b 100644 (file)
@@ -201,8 +201,6 @@ static int tcf_police_init(struct net *net, struct nlattr *nla,
        if (new)
                kfree_rcu(new, rcu);
 
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
        return ret;
 
 failure:
index 5e2df59..3ebf9ed 100644 (file)
@@ -116,8 +116,6 @@ static int tcf_sample_init(struct net *net, struct nlattr *nla,
        if (goto_ch)
                tcf_chain_put_by_act(goto_ch);
 
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
        return ret;
 put_chain:
        if (goto_ch)
index 9813ca4..a4f3d0f 100644 (file)
@@ -157,8 +157,6 @@ static int tcf_simp_init(struct net *net, struct nlattr *nla,
                        goto release_idr;
        }
 
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
        return ret;
 put_chain:
        if (goto_ch)
index d065238..e5f3fb8 100644 (file)
@@ -225,8 +225,6 @@ static int tcf_skbedit_init(struct net *net, struct nlattr *nla,
        if (goto_ch)
                tcf_chain_put_by_act(goto_ch);
 
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
        return ret;
 put_chain:
        if (goto_ch)
index 39e6d94..81a1c67 100644 (file)
@@ -190,8 +190,6 @@ static int tcf_skbmod_init(struct net *net, struct nlattr *nla,
        if (goto_ch)
                tcf_chain_put_by_act(goto_ch);
 
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
        return ret;
 put_chain:
        if (goto_ch)
index 37f1e10..a229751 100644 (file)
@@ -537,9 +537,6 @@ static int tunnel_key_init(struct net *net, struct nlattr *nla,
        if (goto_ch)
                tcf_chain_put_by_act(goto_ch);
 
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
-
        return ret;
 
 put_chain:
index a5ff9f6..163b038 100644 (file)
@@ -229,8 +229,6 @@ static int tcf_vlan_init(struct net *net, struct nlattr *nla,
        if (p)
                kfree_rcu(p, rcu);
 
-       if (ret == ACT_P_CREATED)
-               tcf_idr_insert(tn, *a);
        return ret;
 put_chain:
        if (goto_ch)
index 9e289c7..7e59d8a 100644 (file)
@@ -494,6 +494,7 @@ int sctp_auth_init_hmacs(struct sctp_endpoint *ep, gfp_t gfp)
 out_err:
        /* Clean up any successful allocations */
        sctp_auth_destroy_hmacs(ep->auth_hmacs);
+       ep->auth_hmacs = NULL;
        return -ENOMEM;
 }
 
index 0c01446..58cac2d 100644 (file)
@@ -3638,9 +3638,11 @@ EXPORT_SYMBOL(kernel_getpeername);
 int kernel_sendpage(struct socket *sock, struct page *page, int offset,
                    size_t size, int flags)
 {
-       if (sock->ops->sendpage)
+       if (sock->ops->sendpage) {
+               /* Warn in case the improper page to zero-copy send */
+               WARN_ONCE(!sendpage_ok(page), "improper page for zero-copy send");
                return sock->ops->sendpage(sock, page, offset, size, flags);
-
+       }
        return sock_no_sendpage(sock, page, offset, size, flags);
 }
 EXPORT_SYMBOL(kernel_sendpage);
index 3bcf985..bbbb5af 100644 (file)
@@ -21,7 +21,6 @@ config RPCSEC_GSS_KRB5
        depends on SUNRPC && CRYPTO
        depends on CRYPTO_MD5 && CRYPTO_DES && CRYPTO_CBC && CRYPTO_CTS
        depends on CRYPTO_ECB && CRYPTO_HMAC && CRYPTO_SHA1 && CRYPTO_AES
-       depends on CRYPTO_ARC4
        default y
        select SUNRPC_GSS
        help
index 794fb30..634b6c6 100644 (file)
@@ -138,135 +138,6 @@ checksummer(struct scatterlist *sg, void *data)
        return crypto_ahash_update(req);
 }
 
-static int
-arcfour_hmac_md5_usage_to_salt(unsigned int usage, u8 salt[4])
-{
-       unsigned int ms_usage;
-
-       switch (usage) {
-       case KG_USAGE_SIGN:
-               ms_usage = 15;
-               break;
-       case KG_USAGE_SEAL:
-               ms_usage = 13;
-               break;
-       default:
-               return -EINVAL;
-       }
-       salt[0] = (ms_usage >> 0) & 0xff;
-       salt[1] = (ms_usage >> 8) & 0xff;
-       salt[2] = (ms_usage >> 16) & 0xff;
-       salt[3] = (ms_usage >> 24) & 0xff;
-
-       return 0;
-}
-
-static u32
-make_checksum_hmac_md5(struct krb5_ctx *kctx, char *header, int hdrlen,
-                      struct xdr_buf *body, int body_offset, u8 *cksumkey,
-                      unsigned int usage, struct xdr_netobj *cksumout)
-{
-       struct scatterlist              sg[1];
-       int err = -1;
-       u8 *checksumdata;
-       u8 *rc4salt;
-       struct crypto_ahash *md5;
-       struct crypto_ahash *hmac_md5;
-       struct ahash_request *req;
-
-       if (cksumkey == NULL)
-               return GSS_S_FAILURE;
-
-       if (cksumout->len < kctx->gk5e->cksumlength) {
-               dprintk("%s: checksum buffer length, %u, too small for %s\n",
-                       __func__, cksumout->len, kctx->gk5e->name);
-               return GSS_S_FAILURE;
-       }
-
-       rc4salt = kmalloc_array(4, sizeof(*rc4salt), GFP_NOFS);
-       if (!rc4salt)
-               return GSS_S_FAILURE;
-
-       if (arcfour_hmac_md5_usage_to_salt(usage, rc4salt)) {
-               dprintk("%s: invalid usage value %u\n", __func__, usage);
-               goto out_free_rc4salt;
-       }
-
-       checksumdata = kmalloc(GSS_KRB5_MAX_CKSUM_LEN, GFP_NOFS);
-       if (!checksumdata)
-               goto out_free_rc4salt;
-
-       md5 = crypto_alloc_ahash("md5", 0, CRYPTO_ALG_ASYNC);
-       if (IS_ERR(md5))
-               goto out_free_cksum;
-
-       hmac_md5 = crypto_alloc_ahash(kctx->gk5e->cksum_name, 0,
-                                     CRYPTO_ALG_ASYNC);
-       if (IS_ERR(hmac_md5))
-               goto out_free_md5;
-
-       req = ahash_request_alloc(md5, GFP_NOFS);
-       if (!req)
-               goto out_free_hmac_md5;
-
-       ahash_request_set_callback(req, CRYPTO_TFM_REQ_MAY_SLEEP, NULL, NULL);
-
-       err = crypto_ahash_init(req);
-       if (err)
-               goto out;
-       sg_init_one(sg, rc4salt, 4);
-       ahash_request_set_crypt(req, sg, NULL, 4);
-       err = crypto_ahash_update(req);
-       if (err)
-               goto out;
-
-       sg_init_one(sg, header, hdrlen);
-       ahash_request_set_crypt(req, sg, NULL, hdrlen);
-       err = crypto_ahash_update(req);
-       if (err)
-               goto out;
-       err = xdr_process_buf(body, body_offset, body->len - body_offset,
-                             checksummer, req);
-       if (err)
-               goto out;
-       ahash_request_set_crypt(req, NULL, checksumdata, 0);
-       err = crypto_ahash_final(req);
-       if (err)
-               goto out;
-
-       ahash_request_free(req);
-       req = ahash_request_alloc(hmac_md5, GFP_NOFS);
-       if (!req)
-               goto out_free_hmac_md5;
-
-       ahash_request_set_callback(req, CRYPTO_TFM_REQ_MAY_SLEEP, NULL, NULL);
-
-       err = crypto_ahash_setkey(hmac_md5, cksumkey, kctx->gk5e->keylength);
-       if (err)
-               goto out;
-
-       sg_init_one(sg, checksumdata, crypto_ahash_digestsize(md5));
-       ahash_request_set_crypt(req, sg, checksumdata,
-                               crypto_ahash_digestsize(md5));
-       err = crypto_ahash_digest(req);
-       if (err)
-               goto out;
-
-       memcpy(cksumout->data, checksumdata, kctx->gk5e->cksumlength);
-       cksumout->len = kctx->gk5e->cksumlength;
-out:
-       ahash_request_free(req);
-out_free_hmac_md5:
-       crypto_free_ahash(hmac_md5);
-out_free_md5:
-       crypto_free_ahash(md5);
-out_free_cksum:
-       kfree(checksumdata);
-out_free_rc4salt:
-       kfree(rc4salt);
-       return err ? GSS_S_FAILURE : 0;
-}
-
 /*
  * checksum the plaintext data and hdrlen bytes of the token header
  * The checksum is performed over the first 8 bytes of the
@@ -284,11 +155,6 @@ make_checksum(struct krb5_ctx *kctx, char *header, int hdrlen,
        u8 *checksumdata;
        unsigned int checksumlen;
 
-       if (kctx->gk5e->ctype == CKSUMTYPE_HMAC_MD5_ARCFOUR)
-               return make_checksum_hmac_md5(kctx, header, hdrlen,
-                                             body, body_offset,
-                                             cksumkey, usage, cksumout);
-
        if (cksumout->len < kctx->gk5e->cksumlength) {
                dprintk("%s: checksum buffer length, %u, too small for %s\n",
                        __func__, cksumout->len, kctx->gk5e->name);
@@ -942,145 +808,3 @@ out_err:
                ret = GSS_S_FAILURE;
        return ret;
 }
-
-/*
- * Compute Kseq given the initial session key and the checksum.
- * Set the key of the given cipher.
- */
-int
-krb5_rc4_setup_seq_key(struct krb5_ctx *kctx,
-                      struct crypto_sync_skcipher *cipher,
-                      unsigned char *cksum)
-{
-       struct crypto_shash *hmac;
-       struct shash_desc *desc;
-       u8 Kseq[GSS_KRB5_MAX_KEYLEN];
-       u32 zeroconstant = 0;
-       int err;
-
-       dprintk("%s: entered\n", __func__);
-
-       hmac = crypto_alloc_shash(kctx->gk5e->cksum_name, 0, 0);
-       if (IS_ERR(hmac)) {
-               dprintk("%s: error %ld, allocating hash '%s'\n",
-                       __func__, PTR_ERR(hmac), kctx->gk5e->cksum_name);
-               return PTR_ERR(hmac);
-       }
-
-       desc = kmalloc(sizeof(*desc) + crypto_shash_descsize(hmac),
-                      GFP_NOFS);
-       if (!desc) {
-               dprintk("%s: failed to allocate shash descriptor for '%s'\n",
-                       __func__, kctx->gk5e->cksum_name);
-               crypto_free_shash(hmac);
-               return -ENOMEM;
-       }
-
-       desc->tfm = hmac;
-
-       /* Compute intermediate Kseq from session key */
-       err = crypto_shash_setkey(hmac, kctx->Ksess, kctx->gk5e->keylength);
-       if (err)
-               goto out_err;
-
-       err = crypto_shash_digest(desc, (u8 *)&zeroconstant, 4, Kseq);
-       if (err)
-               goto out_err;
-
-       /* Compute final Kseq from the checksum and intermediate Kseq */
-       err = crypto_shash_setkey(hmac, Kseq, kctx->gk5e->keylength);
-       if (err)
-               goto out_err;
-
-       err = crypto_shash_digest(desc, cksum, 8, Kseq);
-       if (err)
-               goto out_err;
-
-       err = crypto_sync_skcipher_setkey(cipher, Kseq, kctx->gk5e->keylength);
-       if (err)
-               goto out_err;
-
-       err = 0;
-
-out_err:
-       kfree_sensitive(desc);
-       crypto_free_shash(hmac);
-       dprintk("%s: returning %d\n", __func__, err);
-       return err;
-}
-
-/*
- * Compute Kcrypt given the initial session key and the plaintext seqnum.
- * Set the key of cipher kctx->enc.
- */
-int
-krb5_rc4_setup_enc_key(struct krb5_ctx *kctx,
-                      struct crypto_sync_skcipher *cipher,
-                      s32 seqnum)
-{
-       struct crypto_shash *hmac;
-       struct shash_desc *desc;
-       u8 Kcrypt[GSS_KRB5_MAX_KEYLEN];
-       u8 zeroconstant[4] = {0};
-       u8 seqnumarray[4];
-       int err, i;
-
-       dprintk("%s: entered, seqnum %u\n", __func__, seqnum);
-
-       hmac = crypto_alloc_shash(kctx->gk5e->cksum_name, 0, 0);
-       if (IS_ERR(hmac)) {
-               dprintk("%s: error %ld, allocating hash '%s'\n",
-                       __func__, PTR_ERR(hmac), kctx->gk5e->cksum_name);
-               return PTR_ERR(hmac);
-       }
-
-       desc = kmalloc(sizeof(*desc) + crypto_shash_descsize(hmac),
-                      GFP_NOFS);
-       if (!desc) {
-               dprintk("%s: failed to allocate shash descriptor for '%s'\n",
-                       __func__, kctx->gk5e->cksum_name);
-               crypto_free_shash(hmac);
-               return -ENOMEM;
-       }
-
-       desc->tfm = hmac;
-
-       /* Compute intermediate Kcrypt from session key */
-       for (i = 0; i < kctx->gk5e->keylength; i++)
-               Kcrypt[i] = kctx->Ksess[i] ^ 0xf0;
-
-       err = crypto_shash_setkey(hmac, Kcrypt, kctx->gk5e->keylength);
-       if (err)
-               goto out_err;
-
-       err = crypto_shash_digest(desc, zeroconstant, 4, Kcrypt);
-       if (err)
-               goto out_err;
-
-       /* Compute final Kcrypt from the seqnum and intermediate Kcrypt */
-       err = crypto_shash_setkey(hmac, Kcrypt, kctx->gk5e->keylength);
-       if (err)
-               goto out_err;
-
-       seqnumarray[0] = (unsigned char) ((seqnum >> 24) & 0xff);
-       seqnumarray[1] = (unsigned char) ((seqnum >> 16) & 0xff);
-       seqnumarray[2] = (unsigned char) ((seqnum >> 8) & 0xff);
-       seqnumarray[3] = (unsigned char) ((seqnum >> 0) & 0xff);
-
-       err = crypto_shash_digest(desc, seqnumarray, 4, Kcrypt);
-       if (err)
-               goto out_err;
-
-       err = crypto_sync_skcipher_setkey(cipher, Kcrypt,
-                                         kctx->gk5e->keylength);
-       if (err)
-               goto out_err;
-
-       err = 0;
-
-out_err:
-       kfree_sensitive(desc);
-       crypto_free_shash(hmac);
-       dprintk("%s: returning %d\n", __func__, err);
-       return err;
-}
index a84a5b2..ae9acf3 100644 (file)
@@ -52,27 +52,6 @@ static const struct gss_krb5_enctype supported_gss_krb5_enctypes[] = {
        },
 #endif /* CONFIG_SUNRPC_DISABLE_INSECURE_ENCTYPES */
        /*
-        * RC4-HMAC
-        */
-       {
-         .etype = ENCTYPE_ARCFOUR_HMAC,
-         .ctype = CKSUMTYPE_HMAC_MD5_ARCFOUR,
-         .name = "rc4-hmac",
-         .encrypt_name = "ecb(arc4)",
-         .cksum_name = "hmac(md5)",
-         .encrypt = krb5_encrypt,
-         .decrypt = krb5_decrypt,
-         .mk_key = NULL,
-         .signalg = SGN_ALG_HMAC_MD5,
-         .sealalg = SEAL_ALG_MICROSOFT_RC4,
-         .keybytes = 16,
-         .keylength = 16,
-         .blocksize = 1,
-         .conflen = 8,
-         .cksumlength = 8,
-         .keyed_cksum = 1,
-       },
-       /*
         * 3DES
         */
        {
@@ -401,78 +380,6 @@ out_err:
        return -EINVAL;
 }
 
-/*
- * Note that RC4 depends on deriving keys using the sequence
- * number or the checksum of a token.  Therefore, the final keys
- * cannot be calculated until the token is being constructed!
- */
-static int
-context_derive_keys_rc4(struct krb5_ctx *ctx)
-{
-       struct crypto_shash *hmac;
-       char sigkeyconstant[] = "signaturekey";
-       int slen = strlen(sigkeyconstant) + 1;  /* include null terminator */
-       struct shash_desc *desc;
-       int err;
-
-       dprintk("RPC:       %s: entered\n", __func__);
-       /*
-        * derive cksum (aka Ksign) key
-        */
-       hmac = crypto_alloc_shash(ctx->gk5e->cksum_name, 0, 0);
-       if (IS_ERR(hmac)) {
-               dprintk("%s: error %ld allocating hash '%s'\n",
-                       __func__, PTR_ERR(hmac), ctx->gk5e->cksum_name);
-               err = PTR_ERR(hmac);
-               goto out_err;
-       }
-
-       err = crypto_shash_setkey(hmac, ctx->Ksess, ctx->gk5e->keylength);
-       if (err)
-               goto out_err_free_hmac;
-
-
-       desc = kmalloc(sizeof(*desc) + crypto_shash_descsize(hmac), GFP_NOFS);
-       if (!desc) {
-               dprintk("%s: failed to allocate hash descriptor for '%s'\n",
-                       __func__, ctx->gk5e->cksum_name);
-               err = -ENOMEM;
-               goto out_err_free_hmac;
-       }
-
-       desc->tfm = hmac;
-
-       err = crypto_shash_digest(desc, sigkeyconstant, slen, ctx->cksum);
-       kfree_sensitive(desc);
-       if (err)
-               goto out_err_free_hmac;
-       /*
-        * allocate hash, and skciphers for data and seqnum encryption
-        */
-       ctx->enc = crypto_alloc_sync_skcipher(ctx->gk5e->encrypt_name, 0, 0);
-       if (IS_ERR(ctx->enc)) {
-               err = PTR_ERR(ctx->enc);
-               goto out_err_free_hmac;
-       }
-
-       ctx->seq = crypto_alloc_sync_skcipher(ctx->gk5e->encrypt_name, 0, 0);
-       if (IS_ERR(ctx->seq)) {
-               crypto_free_sync_skcipher(ctx->enc);
-               err = PTR_ERR(ctx->seq);
-               goto out_err_free_hmac;
-       }
-
-       dprintk("RPC:       %s: returning success\n", __func__);
-
-       err = 0;
-
-out_err_free_hmac:
-       crypto_free_shash(hmac);
-out_err:
-       dprintk("RPC:       %s: returning %d\n", __func__, err);
-       return err;
-}
-
 static int
 context_derive_keys_new(struct krb5_ctx *ctx, gfp_t gfp_mask)
 {
@@ -649,8 +556,6 @@ gss_import_v2_context(const void *p, const void *end, struct krb5_ctx *ctx,
        switch (ctx->enctype) {
        case ENCTYPE_DES3_CBC_RAW:
                return context_derive_keys_des3(ctx, gfp_mask);
-       case ENCTYPE_ARCFOUR_HMAC:
-               return context_derive_keys_rc4(ctx);
        case ENCTYPE_AES128_CTS_HMAC_SHA1_96:
        case ENCTYPE_AES256_CTS_HMAC_SHA1_96:
                return context_derive_keys_new(ctx, gfp_mask);
index f1d280a..3306141 100644 (file)
@@ -214,7 +214,6 @@ gss_get_mic_kerberos(struct gss_ctx *gss_ctx, struct xdr_buf *text,
                BUG();
        case ENCTYPE_DES_CBC_RAW:
        case ENCTYPE_DES3_CBC_RAW:
-       case ENCTYPE_ARCFOUR_HMAC:
                return gss_get_mic_v1(ctx, text, token);
        case ENCTYPE_AES128_CTS_HMAC_SHA1_96:
        case ENCTYPE_AES256_CTS_HMAC_SHA1_96:
index 5071051..fb11781 100644 (file)
 # define RPCDBG_FACILITY        RPCDBG_AUTH
 #endif
 
-static s32
-krb5_make_rc4_seq_num(struct krb5_ctx *kctx, int direction, s32 seqnum,
-                     unsigned char *cksum, unsigned char *buf)
-{
-       struct crypto_sync_skcipher *cipher;
-       unsigned char *plain;
-       s32 code;
-
-       dprintk("RPC:       %s:\n", __func__);
-       cipher = crypto_alloc_sync_skcipher(kctx->gk5e->encrypt_name, 0, 0);
-       if (IS_ERR(cipher))
-               return PTR_ERR(cipher);
-
-       plain = kmalloc(8, GFP_NOFS);
-       if (!plain)
-               return -ENOMEM;
-
-       plain[0] = (unsigned char) ((seqnum >> 24) & 0xff);
-       plain[1] = (unsigned char) ((seqnum >> 16) & 0xff);
-       plain[2] = (unsigned char) ((seqnum >> 8) & 0xff);
-       plain[3] = (unsigned char) ((seqnum >> 0) & 0xff);
-       plain[4] = direction;
-       plain[5] = direction;
-       plain[6] = direction;
-       plain[7] = direction;
-
-       code = krb5_rc4_setup_seq_key(kctx, cipher, cksum);
-       if (code)
-               goto out;
-
-       code = krb5_encrypt(cipher, cksum, plain, buf, 8);
-out:
-       kfree(plain);
-       crypto_free_sync_skcipher(cipher);
-       return code;
-}
 s32
 krb5_make_seq_num(struct krb5_ctx *kctx,
                struct crypto_sync_skcipher *key,
@@ -85,10 +49,6 @@ krb5_make_seq_num(struct krb5_ctx *kctx,
        unsigned char *plain;
        s32 code;
 
-       if (kctx->enctype == ENCTYPE_ARCFOUR_HMAC)
-               return krb5_make_rc4_seq_num(kctx, direction, seqnum,
-                                            cksum, buf);
-
        plain = kmalloc(8, GFP_NOFS);
        if (!plain)
                return -ENOMEM;
@@ -108,50 +68,6 @@ krb5_make_seq_num(struct krb5_ctx *kctx,
        return code;
 }
 
-static s32
-krb5_get_rc4_seq_num(struct krb5_ctx *kctx, unsigned char *cksum,
-                    unsigned char *buf, int *direction, s32 *seqnum)
-{
-       struct crypto_sync_skcipher *cipher;
-       unsigned char *plain;
-       s32 code;
-
-       dprintk("RPC:       %s:\n", __func__);
-       cipher = crypto_alloc_sync_skcipher(kctx->gk5e->encrypt_name, 0, 0);
-       if (IS_ERR(cipher))
-               return PTR_ERR(cipher);
-
-       code = krb5_rc4_setup_seq_key(kctx, cipher, cksum);
-       if (code)
-               goto out;
-
-       plain = kmalloc(8, GFP_NOFS);
-       if (!plain) {
-               code = -ENOMEM;
-               goto out;
-       }
-
-       code = krb5_decrypt(cipher, cksum, buf, plain, 8);
-       if (code)
-               goto out_plain;
-
-       if ((plain[4] != plain[5]) || (plain[4] != plain[6])
-                                  || (plain[4] != plain[7])) {
-               code = (s32)KG_BAD_SEQ;
-               goto out_plain;
-       }
-
-       *direction = plain[4];
-
-       *seqnum = ((plain[0] << 24) | (plain[1] << 16) |
-                                       (plain[2] << 8) | (plain[3]));
-out_plain:
-       kfree(plain);
-out:
-       crypto_free_sync_skcipher(cipher);
-       return code;
-}
-
 s32
 krb5_get_seq_num(struct krb5_ctx *kctx,
               unsigned char *cksum,
@@ -164,9 +80,6 @@ krb5_get_seq_num(struct krb5_ctx *kctx,
 
        dprintk("RPC:       krb5_get_seq_num:\n");
 
-       if (kctx->enctype == ENCTYPE_ARCFOUR_HMAC)
-               return krb5_get_rc4_seq_num(kctx, cksum, buf,
-                                           direction, seqnum);
        plain = kmalloc(8, GFP_NOFS);
        if (!plain)
                return -ENOMEM;
index aaab91c..ba04e3e 100644 (file)
@@ -218,7 +218,6 @@ gss_verify_mic_kerberos(struct gss_ctx *gss_ctx,
                BUG();
        case ENCTYPE_DES_CBC_RAW:
        case ENCTYPE_DES3_CBC_RAW:
-       case ENCTYPE_ARCFOUR_HMAC:
                return gss_verify_mic_v1(ctx, message_buffer, read_token);
        case ENCTYPE_AES128_CTS_HMAC_SHA1_96:
        case ENCTYPE_AES256_CTS_HMAC_SHA1_96:
index 8b300b7..e95c009 100644 (file)
@@ -236,26 +236,9 @@ gss_wrap_kerberos_v1(struct krb5_ctx *kctx, int offset,
                               seq_send, ptr + GSS_KRB5_TOK_HDR_LEN, ptr + 8)))
                return GSS_S_FAILURE;
 
-       if (kctx->enctype == ENCTYPE_ARCFOUR_HMAC) {
-               struct crypto_sync_skcipher *cipher;
-               int err;
-               cipher = crypto_alloc_sync_skcipher(kctx->gk5e->encrypt_name,
-                                                   0, 0);
-               if (IS_ERR(cipher))
-                       return GSS_S_FAILURE;
-
-               krb5_rc4_setup_enc_key(kctx, cipher, seq_send);
-
-               err = gss_encrypt_xdr_buf(cipher, buf,
-                                         offset + headlen - conflen, pages);
-               crypto_free_sync_skcipher(cipher);
-               if (err)
-                       return GSS_S_FAILURE;
-       } else {
-               if (gss_encrypt_xdr_buf(kctx->enc, buf,
-                                       offset + headlen - conflen, pages))
-                       return GSS_S_FAILURE;
-       }
+       if (gss_encrypt_xdr_buf(kctx->enc, buf,
+                               offset + headlen - conflen, pages))
+               return GSS_S_FAILURE;
 
        return (kctx->endtime < now) ? GSS_S_CONTEXT_EXPIRED : GSS_S_COMPLETE;
 }
@@ -316,37 +299,9 @@ gss_unwrap_kerberos_v1(struct krb5_ctx *kctx, int offset, int len,
        crypt_offset = ptr + (GSS_KRB5_TOK_HDR_LEN + kctx->gk5e->cksumlength) -
                                        (unsigned char *)buf->head[0].iov_base;
 
-       /*
-        * Need plaintext seqnum to derive encryption key for arcfour-hmac
-        */
-       if (krb5_get_seq_num(kctx, ptr + GSS_KRB5_TOK_HDR_LEN,
-                            ptr + 8, &direction, &seqnum))
-               return GSS_S_BAD_SIG;
-
-       if ((kctx->initiate && direction != 0xff) ||
-           (!kctx->initiate && direction != 0))
-               return GSS_S_BAD_SIG;
-
        buf->len = len;
-       if (kctx->enctype == ENCTYPE_ARCFOUR_HMAC) {
-               struct crypto_sync_skcipher *cipher;
-               int err;
-
-               cipher = crypto_alloc_sync_skcipher(kctx->gk5e->encrypt_name,
-                                                   0, 0);
-               if (IS_ERR(cipher))
-                       return GSS_S_FAILURE;
-
-               krb5_rc4_setup_enc_key(kctx, cipher, seqnum);
-
-               err = gss_decrypt_xdr_buf(cipher, buf, crypt_offset);
-               crypto_free_sync_skcipher(cipher);
-               if (err)
-                       return GSS_S_DEFECTIVE_TOKEN;
-       } else {
-               if (gss_decrypt_xdr_buf(kctx->enc, buf, crypt_offset))
-                       return GSS_S_DEFECTIVE_TOKEN;
-       }
+       if (gss_decrypt_xdr_buf(kctx->enc, buf, crypt_offset))
+               return GSS_S_DEFECTIVE_TOKEN;
 
        if (kctx->gk5e->keyed_cksum)
                cksumkey = kctx->cksum;
@@ -370,6 +325,14 @@ gss_unwrap_kerberos_v1(struct krb5_ctx *kctx, int offset, int len,
 
        /* do sequencing checks */
 
+       if (krb5_get_seq_num(kctx, ptr + GSS_KRB5_TOK_HDR_LEN,
+                            ptr + 8, &direction, &seqnum))
+               return GSS_S_BAD_SIG;
+
+       if ((kctx->initiate && direction != 0xff) ||
+           (!kctx->initiate && direction != 0))
+               return GSS_S_BAD_SIG;
+
        /* Copy the data back to the right position.  XXX: Would probably be
         * better to copy and encrypt at the same time. */
 
@@ -605,7 +568,6 @@ gss_wrap_kerberos(struct gss_ctx *gctx, int offset,
                BUG();
        case ENCTYPE_DES_CBC_RAW:
        case ENCTYPE_DES3_CBC_RAW:
-       case ENCTYPE_ARCFOUR_HMAC:
                return gss_wrap_kerberos_v1(kctx, offset, buf, pages);
        case ENCTYPE_AES128_CTS_HMAC_SHA1_96:
        case ENCTYPE_AES256_CTS_HMAC_SHA1_96:
@@ -624,7 +586,6 @@ gss_unwrap_kerberos(struct gss_ctx *gctx, int offset,
                BUG();
        case ENCTYPE_DES_CBC_RAW:
        case ENCTYPE_DES3_CBC_RAW:
-       case ENCTYPE_ARCFOUR_HMAC:
                return gss_unwrap_kerberos_v1(kctx, offset, len, buf,
                                              &gctx->slack, &gctx->align);
        case ENCTYPE_AES128_CTS_HMAC_SHA1_96:
index 3fc8af8..d52313a 100644 (file)
@@ -70,7 +70,7 @@ static size_t xdr_skb_read_and_csum_bits(struct xdr_skb_reader *desc, void *to,
        if (len > desc->count)
                len = desc->count;
        pos = desc->offset;
-       csum2 = skb_copy_and_csum_bits(desc->skb, pos, to, len, 0);
+       csum2 = skb_copy_and_csum_bits(desc->skb, pos, to, len);
        desc->csum = csum_block_add(desc->csum, csum2, pos);
        desc->count -= len;
        desc->offset += len;
index 865f3e0..23d8685 100644 (file)
@@ -404,7 +404,7 @@ EXPORT_SYMBOL_GPL(unregister_switchdev_notifier);
  *     @val: value passed unmodified to notifier function
  *     @dev: port device
  *     @info: notifier information data
- *
+ *     @extack: netlink extended ack
  *     Call all network notifier blocks.
  */
 int call_switchdev_notifiers(unsigned long val, struct net_device *dev,
index 9a3d9fe..95ab554 100644 (file)
@@ -2143,10 +2143,15 @@ void tls_sw_release_resources_tx(struct sock *sk)
        struct tls_context *tls_ctx = tls_get_ctx(sk);
        struct tls_sw_context_tx *ctx = tls_sw_ctx_tx(tls_ctx);
        struct tls_rec *rec, *tmp;
+       int pending;
 
        /* Wait for any pending async encryptions to complete */
-       smp_store_mb(ctx->async_notify, true);
-       if (atomic_read(&ctx->encrypt_pending))
+       spin_lock_bh(&ctx->encrypt_compl_lock);
+       ctx->async_notify = true;
+       pending = atomic_read(&ctx->encrypt_pending);
+       spin_unlock_bh(&ctx->encrypt_compl_lock);
+
+       if (pending)
                crypto_wait_req(-EINPROGRESS, &ctx->async_wait);
 
        tls_tx_records(sk, -1);
index 2c9e9a2..7fd45f6 100644 (file)
@@ -4172,6 +4172,9 @@ static int nl80211_del_key(struct sk_buff *skb, struct genl_info *info)
        if (err)
                return err;
 
+       if (key.idx < 0)
+               return -EINVAL;
+
        if (info->attrs[NL80211_ATTR_MAC])
                mac_addr = nla_data(info->attrs[NL80211_ATTR_MAC]);
 
index c323162..6c5e09e 100644 (file)
@@ -377,15 +377,30 @@ static int xsk_generic_xmit(struct sock *sk)
                skb_shinfo(skb)->destructor_arg = (void *)(long)desc.addr;
                skb->destructor = xsk_destruct_skb;
 
+               /* Hinder dev_direct_xmit from freeing the packet and
+                * therefore completing it in the destructor
+                */
+               refcount_inc(&skb->users);
                err = dev_direct_xmit(skb, xs->queue_id);
+               if  (err == NETDEV_TX_BUSY) {
+                       /* Tell user-space to retry the send */
+                       skb->destructor = sock_wfree;
+                       /* Free skb without triggering the perf drop trace */
+                       consume_skb(skb);
+                       err = -EAGAIN;
+                       goto out;
+               }
+
                xskq_cons_release(xs->tx);
                /* Ignore NET_XMIT_CN as packet might have been sent */
-               if (err == NET_XMIT_DROP || err == NETDEV_TX_BUSY) {
+               if (err == NET_XMIT_DROP) {
                        /* SKB completed but not sent */
+                       kfree_skb(skb);
                        err = -EBUSY;
                        goto out;
                }
 
+               consume_skb(skb);
                sent_frame = true;
        }
 
index 827ccdf..1f08ebf 100644 (file)
@@ -29,8 +29,12 @@ static void handle_nonesp(struct espintcp_ctx *ctx, struct sk_buff *skb,
 
 static void handle_esp(struct sk_buff *skb, struct sock *sk)
 {
+       struct tcp_skb_cb *tcp_cb = (struct tcp_skb_cb *)skb->cb;
+
        skb_reset_transport_header(skb);
-       memset(skb->cb, 0, sizeof(skb->cb));
+
+       /* restore IP CB, we need at least IP6CB->nhoff */
+       memmove(skb->cb, &tcp_cb->header, sizeof(tcp_cb->header));
 
        rcu_read_lock();
        skb->dev = dev_get_by_index_rcu(sock_net(sk), skb->skb_iif);
index eb81819..a8f6611 100644 (file)
@@ -303,7 +303,7 @@ xfrmi_xmit2(struct sk_buff *skb, struct net_device *dev, struct flowi *fl)
        }
 
        mtu = dst_mtu(dst);
-       if (!skb->ignore_df && skb->len > mtu) {
+       if (skb->len > mtu) {
                skb_dst_update_pmtu_no_confirm(skb, mtu);
 
                if (skb->protocol == htons(ETH_P_IPV6)) {
index 69520ad..efc89a9 100644 (file)
@@ -1019,7 +1019,8 @@ static void xfrm_state_look_at(struct xfrm_policy *pol, struct xfrm_state *x,
         */
        if (x->km.state == XFRM_STATE_VALID) {
                if ((x->sel.family &&
-                    !xfrm_selector_match(&x->sel, fl, x->sel.family)) ||
+                    (x->sel.family != family ||
+                     !xfrm_selector_match(&x->sel, fl, family))) ||
                    !security_xfrm_state_pol_flow_match(x, pol, fl))
                        return;
 
@@ -1032,7 +1033,9 @@ static void xfrm_state_look_at(struct xfrm_policy *pol, struct xfrm_state *x,
                *acq_in_progress = 1;
        } else if (x->km.state == XFRM_STATE_ERROR ||
                   x->km.state == XFRM_STATE_EXPIRED) {
-               if (xfrm_selector_match(&x->sel, fl, x->sel.family) &&
+               if ((!x->sel.family ||
+                    (x->sel.family == family &&
+                     xfrm_selector_match(&x->sel, fl, family))) &&
                    security_xfrm_state_pol_flow_match(x, pol, fl))
                        *error = -ESRCH;
        }
@@ -1072,7 +1075,7 @@ xfrm_state_find(const xfrm_address_t *daddr, const xfrm_address_t *saddr,
                    tmpl->mode == x->props.mode &&
                    tmpl->id.proto == x->id.proto &&
                    (tmpl->id.spi == x->id.spi || !tmpl->id.spi))
-                       xfrm_state_look_at(pol, x, fl, encap_family,
+                       xfrm_state_look_at(pol, x, fl, family,
                                           &best, &acquire_in_progress, &error);
        }
        if (best || acquire_in_progress)
@@ -1089,7 +1092,7 @@ xfrm_state_find(const xfrm_address_t *daddr, const xfrm_address_t *saddr,
                    tmpl->mode == x->props.mode &&
                    tmpl->id.proto == x->id.proto &&
                    (tmpl->id.spi == x->id.spi || !tmpl->id.spi))
-                       xfrm_state_look_at(pol, x, fl, encap_family,
+                       xfrm_state_look_at(pol, x, fl, family,
                                           &best, &acquire_in_progress, &error);
        }
 
@@ -1441,6 +1444,30 @@ out:
 EXPORT_SYMBOL(xfrm_state_add);
 
 #ifdef CONFIG_XFRM_MIGRATE
+static inline int clone_security(struct xfrm_state *x, struct xfrm_sec_ctx *security)
+{
+       struct xfrm_user_sec_ctx *uctx;
+       int size = sizeof(*uctx) + security->ctx_len;
+       int err;
+
+       uctx = kmalloc(size, GFP_KERNEL);
+       if (!uctx)
+               return -ENOMEM;
+
+       uctx->exttype = XFRMA_SEC_CTX;
+       uctx->len = size;
+       uctx->ctx_doi = security->ctx_doi;
+       uctx->ctx_alg = security->ctx_alg;
+       uctx->ctx_len = security->ctx_len;
+       memcpy(uctx + 1, security->ctx_str, security->ctx_len);
+       err = security_xfrm_state_alloc(x, uctx);
+       kfree(uctx);
+       if (err)
+               return err;
+
+       return 0;
+}
+
 static struct xfrm_state *xfrm_state_clone(struct xfrm_state *orig,
                                           struct xfrm_encap_tmpl *encap)
 {
@@ -1497,6 +1524,10 @@ static struct xfrm_state *xfrm_state_clone(struct xfrm_state *orig,
                        goto error;
        }
 
+       if (orig->security)
+               if (clone_security(x, orig->security))
+                       goto error;
+
        if (orig->coaddr) {
                x->coaddr = kmemdup(orig->coaddr, sizeof(*x->coaddr),
                                    GFP_KERNEL);
@@ -1510,6 +1541,7 @@ static struct xfrm_state *xfrm_state_clone(struct xfrm_state *orig,
        }
 
        memcpy(&x->mark, &orig->mark, sizeof(x->mark));
+       memcpy(&x->props.smark, &orig->props.smark, sizeof(x->props.smark));
 
        if (xfrm_init_state(x) < 0)
                goto error;
@@ -1521,7 +1553,7 @@ static struct xfrm_state *xfrm_state_clone(struct xfrm_state *orig,
        x->tfcpad = orig->tfcpad;
        x->replay_maxdiff = orig->replay_maxdiff;
        x->replay_maxage = orig->replay_maxage;
-       x->curlft.add_time = orig->curlft.add_time;
+       memcpy(&x->curlft, &orig->curlft, sizeof(x->curlft));
        x->km.state = orig->km.state;
        x->km.seq = orig->km.seq;
        x->replay = orig->replay;
index 240f243..8b71894 100644 (file)
@@ -5,7 +5,7 @@
  * stack trace and selected registers when _do_fork() is called.
  *
  * For more information on theory of operation of kprobes, see
- * Documentation/staging/kprobes.rst
+ * Documentation/trace/kprobes.rst
  *
  * You will see the trace data in /var/log/messages and on the console
  * whenever _do_fork() is invoked to create a new process.
index 78a2da6..69fd123 100644 (file)
@@ -11,7 +11,7 @@
  * If no func_name is specified, _do_fork is instrumented
  *
  * For more information on theory of operation of kretprobes, see
- * Documentation/staging/kprobes.rst
+ * Documentation/trace/kprobes.rst
  *
  * Build and insert the kernel module as done in the kprobe example.
  * You will see the trace data in /var/log/messages and on the console
index c50f27b..c37f951 100644 (file)
@@ -11,5 +11,5 @@ endif
 # of some options does not break KCSAN nor causes false positive reports.
 CFLAGS_KCSAN := -fsanitize=thread \
        $(call cc-option,$(call cc-param,tsan-instrument-func-entry-exit=0) -fno-optimize-sibling-calls) \
-       $(call cc-option,$(call cc-param,tsan-instrument-read-before-write=1)) \
+       $(call cc-option,$(call cc-param,tsan-compound-read-before-write=1),$(call cc-option,$(call cc-param,tsan-instrument-read-before-write=1))) \
        $(call cc-param,tsan-distinguish-volatile=1)
index 8378c63..82748d4 100755 (executable)
@@ -16,6 +16,7 @@ fi
 cat <<EOF |
 asm-generic/atomic-instrumented.h
 asm-generic/atomic-long.h
+linux/atomic-arch-fallback.h
 linux/atomic-fallback.h
 EOF
 while read header; do
index 6afadf7..2b7fec7 100755 (executable)
@@ -5,9 +5,10 @@ ATOMICDIR=$(dirname $0)
 
 . ${ATOMICDIR}/atomic-tbl.sh
 
-#gen_param_check(arg)
+#gen_param_check(meta, arg)
 gen_param_check()
 {
+       local meta="$1"; shift
        local arg="$1"; shift
        local type="${arg%%:*}"
        local name="$(gen_param_name "${arg}")"
@@ -17,17 +18,25 @@ gen_param_check()
        i) return;;
        esac
 
-       # We don't write to constant parameters
-       [ ${type#c} != ${type} ] && rw="read"
+       if [ ${type#c} != ${type} ]; then
+               # We don't write to constant parameters.
+               rw="read"
+       elif [ "${meta}" != "s" ]; then
+               # An atomic RMW: if this parameter is not a constant, and this atomic is
+               # not just a 's'tore, this parameter is both read from and written to.
+               rw="read_write"
+       fi
 
        printf "\tinstrument_atomic_${rw}(${name}, sizeof(*${name}));\n"
 }
 
-#gen_param_check(arg...)
+#gen_params_checks(meta, arg...)
 gen_params_checks()
 {
+       local meta="$1"; shift
+
        while [ "$#" -gt 0 ]; do
-               gen_param_check "$1"
+               gen_param_check "$meta" "$1"
                shift;
        done
 }
@@ -77,7 +86,7 @@ gen_proto_order_variant()
 
        local ret="$(gen_ret_type "${meta}" "${int}")"
        local params="$(gen_params "${int}" "${atomic}" "$@")"
-       local checks="$(gen_params_checks "$@")"
+       local checks="$(gen_params_checks "${meta}" "$@")"
        local args="$(gen_args "$@")"
        local retstmt="$(gen_ret_stmt "${meta}")"
 
index d8ec4bb..a28dc06 100644 (file)
@@ -1,6 +1,6 @@
 // SPDX-License-Identifier: GPL-2.0-only
 ///
-/// From Documentation/filesystems/sysfs.txt:
+/// From Documentation/filesystems/sysfs.rst:
 ///  show() must not use snprintf() when formatting the value to be
 ///  returned to user space. If you can guarantee that an overflow
 ///  will never happen you can use sprintf() otherwise you must use
index d1b4456..724528f 100755 (executable)
@@ -1083,7 +1083,7 @@ sub dump_struct($$) {
     my $x = shift;
     my $file = shift;
 
-    if ($x =~ /(struct|union)\s+(\w+)\s*\{(.*)\}(\s*(__packed|__aligned|____cacheline_aligned_in_smp|__attribute__\s*\(\([a-z0-9,_\s\(\)]*\)\)))*/) {
+    if ($x =~ /(struct|union)\s+(\w+)\s*\{(.*)\}(\s*(__packed|__aligned|____cacheline_aligned_in_smp|____cacheline_aligned|__attribute__\s*\(\([a-z0-9,_\s\(\)]*\)\)))*/) {
        my $decl_type = $1;
        $declaration_name = $2;
        my $members = $3;
@@ -1099,6 +1099,7 @@ sub dump_struct($$) {
        $members =~ s/\s*__packed\s*/ /gos;
        $members =~ s/\s*CRYPTO_MINALIGN_ATTR/ /gos;
        $members =~ s/\s*____cacheline_aligned_in_smp/ /gos;
+       $members =~ s/\s*____cacheline_aligned/ /gos;
 
        # replace DECLARE_BITMAP
        $members =~ s/__ETHTOOL_DECLARE_LINK_MODE_MASK\s*\(([^\)]+)\)/DECLARE_BITMAP($1, __ETHTOOL_LINK_MODE_MASK_NBITS)/gos;
@@ -1594,6 +1595,8 @@ sub dump_function($$) {
     my $file = shift;
     my $noret = 0;
 
+    print_lineno($.);
+
     $prototype =~ s/^static +//;
     $prototype =~ s/^extern +//;
     $prototype =~ s/^asmlinkage +//;
index 850f4cc..fd96734 100755 (executable)
@@ -205,6 +205,8 @@ regex_c=(
        '/\<DEVICE_ATTR_\(RW\|RO\|WO\)(\([[:alnum:]_]\+\)/dev_attr_\2/'
        '/\<DRIVER_ATTR_\(RW\|RO\|WO\)(\([[:alnum:]_]\+\)/driver_attr_\2/'
        '/\<\(DEFINE\|DECLARE\)_STATIC_KEY_\(TRUE\|FALSE\)\(\|_RO\)(\([[:alnum:]_]\+\)/\4/'
+       '/^SEQCOUNT_LOCKTYPE(\([^,]*\),[[:space:]]*\([^,]*\),[^)]*)/seqcount_\2_t/'
+       '/^SEQCOUNT_LOCKTYPE(\([^,]*\),[[:space:]]*\([^,]*\),[^)]*)/seqcount_\2_init/'
 )
 regex_kconfig=(
        '/^[[:blank:]]*\(menu\|\)config[[:blank:]]\+\([[:alnum:]_]\+\)/\2/'
index cfa4127..b86a4a8 100644 (file)
@@ -99,14 +99,22 @@ int asymmetric_verify(struct key *keyring, const char *sig,
        memset(&pks, 0, sizeof(pks));
 
        pks.hash_algo = hash_algo_name[hdr->hash_algo];
-       if (hdr->hash_algo == HASH_ALGO_STREEBOG_256 ||
-           hdr->hash_algo == HASH_ALGO_STREEBOG_512) {
+       switch (hdr->hash_algo) {
+       case HASH_ALGO_STREEBOG_256:
+       case HASH_ALGO_STREEBOG_512:
                /* EC-RDSA and Streebog should go together. */
                pks.pkey_algo = "ecrdsa";
                pks.encoding = "raw";
-       } else {
+               break;
+       case HASH_ALGO_SM3_256:
+               /* SM2 and SM3 should go together. */
+               pks.pkey_algo = "sm2";
+               pks.encoding = "raw";
+               break;
+       default:
                pks.pkey_algo = "rsa";
                pks.encoding = "pkcs1";
+               break;
        }
        pks.digest = (u8 *)data;
        pks.digest_size = datalen;
index 253fb9a..ee4b4c6 100644 (file)
@@ -66,6 +66,65 @@ static __init void *get_cert_list(efi_char16_t *name, efi_guid_t *guid,
 }
 
 /*
+ * load_moklist_certs() - Load MokList certs
+ *
+ * Load the certs contained in the UEFI MokListRT database into the
+ * platform trusted keyring.
+ *
+ * This routine checks the EFI MOK config table first. If and only if
+ * that fails, this routine uses the MokListRT ordinary UEFI variable.
+ *
+ * Return:     Status
+ */
+static int __init load_moklist_certs(void)
+{
+       struct efi_mokvar_table_entry *mokvar_entry;
+       efi_guid_t mok_var = EFI_SHIM_LOCK_GUID;
+       void *mok;
+       unsigned long moksize;
+       efi_status_t status;
+       int rc;
+
+       /* First try to load certs from the EFI MOKvar config table.
+        * It's not an error if the MOKvar config table doesn't exist
+        * or the MokListRT entry is not found in it.
+        */
+       mokvar_entry = efi_mokvar_entry_find("MokListRT");
+       if (mokvar_entry) {
+               rc = parse_efi_signature_list("UEFI:MokListRT (MOKvar table)",
+                                             mokvar_entry->data,
+                                             mokvar_entry->data_size,
+                                             get_handler_for_db);
+               /* All done if that worked. */
+               if (!rc)
+                       return rc;
+
+               pr_err("Couldn't parse MokListRT signatures from EFI MOKvar config table: %d\n",
+                      rc);
+       }
+
+       /* Get MokListRT. It might not exist, so it isn't an error
+        * if we can't get it.
+        */
+       mok = get_cert_list(L"MokListRT", &mok_var, &moksize, &status);
+       if (mok) {
+               rc = parse_efi_signature_list("UEFI:MokListRT",
+                                             mok, moksize, get_handler_for_db);
+               kfree(mok);
+               if (rc)
+                       pr_err("Couldn't parse MokListRT signatures: %d\n", rc);
+               return rc;
+       }
+       if (status == EFI_NOT_FOUND)
+               pr_debug("MokListRT variable wasn't found\n");
+       else
+               pr_info("Couldn't get UEFI MokListRT\n");
+       return 0;
+}
+
+/*
+ * load_uefi_certs() - Load certs from UEFI sources
+ *
  * Load the certs contained in the UEFI databases into the platform trusted
  * keyring and the UEFI blacklisted X.509 cert SHA256 hashes into the blacklist
  * keyring.
@@ -73,17 +132,16 @@ static __init void *get_cert_list(efi_char16_t *name, efi_guid_t *guid,
 static int __init load_uefi_certs(void)
 {
        efi_guid_t secure_var = EFI_IMAGE_SECURITY_DATABASE_GUID;
-       efi_guid_t mok_var = EFI_SHIM_LOCK_GUID;
-       void *db = NULL, *dbx = NULL, *mok = NULL;
-       unsigned long dbsize = 0, dbxsize = 0, moksize = 0;
+       void *db = NULL, *dbx = NULL;
+       unsigned long dbsize = 0, dbxsize = 0;
        efi_status_t status;
        int rc = 0;
 
        if (!efi_rt_services_supported(EFI_RT_SUPPORTED_GET_VARIABLE))
                return false;
 
-       /* Get db, MokListRT, and dbx.  They might not exist, so it isn't
-        * an error if we can't get them.
+       /* Get db and dbx.  They might not exist, so it isn't an error
+        * if we can't get them.
         */
        if (!uefi_check_ignore_db()) {
                db = get_cert_list(L"db", &secure_var, &dbsize, &status);
@@ -102,20 +160,6 @@ static int __init load_uefi_certs(void)
                }
        }
 
-       mok = get_cert_list(L"MokListRT", &mok_var, &moksize, &status);
-       if (!mok) {
-               if (status == EFI_NOT_FOUND)
-                       pr_debug("MokListRT variable wasn't found\n");
-               else
-                       pr_info("Couldn't get UEFI MokListRT\n");
-       } else {
-               rc = parse_efi_signature_list("UEFI:MokListRT",
-                                             mok, moksize, get_handler_for_db);
-               if (rc)
-                       pr_err("Couldn't parse MokListRT signatures: %d\n", rc);
-               kfree(mok);
-       }
-
        dbx = get_cert_list(L"dbx", &secure_var, &dbxsize, &status);
        if (!dbx) {
                if (status == EFI_NOT_FOUND)
@@ -131,6 +175,9 @@ static int __init load_uefi_certs(void)
                kfree(dbx);
        }
 
+       /* Load the MokListRT certs */
+       rc = load_moklist_certs();
+
        return rc;
 }
 late_initcall(load_uefi_certs);
index 6ee9d8f..1545efd 100644 (file)
 #include "internal.h"
 
 /*
- * Instantiate a key with the specified compatibility multipart payload and
- * link the key into the destination keyring if one is given.
- *
- * The caller must have the appropriate instantiation permit set for this to
- * work (see keyctl_assume_authority).  No other permissions are required.
- *
- * If successful, 0 will be returned.
- */
-static long compat_keyctl_instantiate_key_iov(
-       key_serial_t id,
-       const struct compat_iovec __user *_payload_iov,
-       unsigned ioc,
-       key_serial_t ringid)
-{
-       struct iovec iovstack[UIO_FASTIOV], *iov = iovstack;
-       struct iov_iter from;
-       long ret;
-
-       if (!_payload_iov)
-               ioc = 0;
-
-       ret = compat_import_iovec(WRITE, _payload_iov, ioc,
-                                 ARRAY_SIZE(iovstack), &iov,
-                                 &from);
-       if (ret < 0)
-               return ret;
-
-       ret = keyctl_instantiate_key_common(id, &from, ringid);
-       kfree(iov);
-       return ret;
-}
-
-/*
  * The key control system call, 32-bit compatibility version for 64-bit archs
  */
 COMPAT_SYSCALL_DEFINE5(keyctl, u32, option,
@@ -114,8 +81,8 @@ COMPAT_SYSCALL_DEFINE5(keyctl, u32, option,
                return keyctl_reject_key(arg2, arg3, arg4, arg5);
 
        case KEYCTL_INSTANTIATE_IOV:
-               return compat_keyctl_instantiate_key_iov(
-                       arg2, compat_ptr(arg3), arg4, arg5);
+               return keyctl_instantiate_key_iov(arg2, compat_ptr(arg3), arg4,
+                                                 arg5);
 
        case KEYCTL_INVALIDATE:
                return keyctl_invalidate_key(arg2);
index 338a526..9b9cf3b 100644 (file)
@@ -262,11 +262,6 @@ extern long keyctl_instantiate_key_iov(key_serial_t,
                                       const struct iovec __user *,
                                       unsigned, key_serial_t);
 extern long keyctl_invalidate_key(key_serial_t);
-
-struct iov_iter;
-extern long keyctl_instantiate_key_common(key_serial_t,
-                                         struct iov_iter *,
-                                         key_serial_t);
 extern long keyctl_restrict_keyring(key_serial_t id,
                                    const char __user *_type,
                                    const char __user *_restriction);
index 9febd37..e26bbcc 100644 (file)
@@ -1164,7 +1164,7 @@ static int keyctl_change_reqkey_auth(struct key *key)
  *
  * If successful, 0 will be returned.
  */
-long keyctl_instantiate_key_common(key_serial_t id,
+static long keyctl_instantiate_key_common(key_serial_t id,
                                   struct iov_iter *from,
                                   key_serial_t ringid)
 {
diff --git a/tools/arch/x86/include/asm/mcsafe_test.h b/tools/arch/x86/include/asm/mcsafe_test.h
deleted file mode 100644 (file)
index 2ccd588..0000000
+++ /dev/null
@@ -1,13 +0,0 @@
-/* SPDX-License-Identifier: GPL-2.0 */
-#ifndef _MCSAFE_TEST_H_
-#define _MCSAFE_TEST_H_
-
-.macro MCSAFE_TEST_CTL
-.endm
-
-.macro MCSAFE_TEST_SRC reg count target
-.endm
-
-.macro MCSAFE_TEST_DST reg count target
-.endm
-#endif /* _MCSAFE_TEST_H_ */
index 45f8e1b..0b5b8ae 100644 (file)
@@ -4,7 +4,6 @@
 #include <linux/linkage.h>
 #include <asm/errno.h>
 #include <asm/cpufeatures.h>
-#include <asm/mcsafe_test.h>
 #include <asm/alternative-asm.h>
 #include <asm/export.h>
 
@@ -187,117 +186,3 @@ SYM_FUNC_START(memcpy_orig)
 SYM_FUNC_END(memcpy_orig)
 
 .popsection
-
-#ifndef CONFIG_UML
-
-MCSAFE_TEST_CTL
-
-/*
- * __memcpy_mcsafe - memory copy with machine check exception handling
- * Note that we only catch machine checks when reading the source addresses.
- * Writes to target are posted and don't generate machine checks.
- */
-SYM_FUNC_START(__memcpy_mcsafe)
-       cmpl $8, %edx
-       /* Less than 8 bytes? Go to byte copy loop */
-       jb .L_no_whole_words
-
-       /* Check for bad alignment of source */
-       testl $7, %esi
-       /* Already aligned */
-       jz .L_8byte_aligned
-
-       /* Copy one byte at a time until source is 8-byte aligned */
-       movl %esi, %ecx
-       andl $7, %ecx
-       subl $8, %ecx
-       negl %ecx
-       subl %ecx, %edx
-.L_read_leading_bytes:
-       movb (%rsi), %al
-       MCSAFE_TEST_SRC %rsi 1 .E_leading_bytes
-       MCSAFE_TEST_DST %rdi 1 .E_leading_bytes
-.L_write_leading_bytes:
-       movb %al, (%rdi)
-       incq %rsi
-       incq %rdi
-       decl %ecx
-       jnz .L_read_leading_bytes
-
-.L_8byte_aligned:
-       movl %edx, %ecx
-       andl $7, %edx
-       shrl $3, %ecx
-       jz .L_no_whole_words
-
-.L_read_words:
-       movq (%rsi), %r8
-       MCSAFE_TEST_SRC %rsi 8 .E_read_words
-       MCSAFE_TEST_DST %rdi 8 .E_write_words
-.L_write_words:
-       movq %r8, (%rdi)
-       addq $8, %rsi
-       addq $8, %rdi
-       decl %ecx
-       jnz .L_read_words
-
-       /* Any trailing bytes? */
-.L_no_whole_words:
-       andl %edx, %edx
-       jz .L_done_memcpy_trap
-
-       /* Copy trailing bytes */
-       movl %edx, %ecx
-.L_read_trailing_bytes:
-       movb (%rsi), %al
-       MCSAFE_TEST_SRC %rsi 1 .E_trailing_bytes
-       MCSAFE_TEST_DST %rdi 1 .E_trailing_bytes
-.L_write_trailing_bytes:
-       movb %al, (%rdi)
-       incq %rsi
-       incq %rdi
-       decl %ecx
-       jnz .L_read_trailing_bytes
-
-       /* Copy successful. Return zero */
-.L_done_memcpy_trap:
-       xorl %eax, %eax
-.L_done:
-       ret
-SYM_FUNC_END(__memcpy_mcsafe)
-EXPORT_SYMBOL_GPL(__memcpy_mcsafe)
-
-       .section .fixup, "ax"
-       /*
-        * Return number of bytes not copied for any failure. Note that
-        * there is no "tail" handling since the source buffer is 8-byte
-        * aligned and poison is cacheline aligned.
-        */
-.E_read_words:
-       shll    $3, %ecx
-.E_leading_bytes:
-       addl    %edx, %ecx
-.E_trailing_bytes:
-       mov     %ecx, %eax
-       jmp     .L_done
-
-       /*
-        * For write fault handling, given the destination is unaligned,
-        * we handle faults on multi-byte writes with a byte-by-byte
-        * copy up to the write-protected page.
-        */
-.E_write_words:
-       shll    $3, %ecx
-       addl    %edx, %ecx
-       movl    %ecx, %edx
-       jmp mcsafe_handle_tail
-
-       .previous
-
-       _ASM_EXTABLE_FAULT(.L_read_leading_bytes, .E_leading_bytes)
-       _ASM_EXTABLE_FAULT(.L_read_words, .E_read_words)
-       _ASM_EXTABLE_FAULT(.L_read_trailing_bytes, .E_trailing_bytes)
-       _ASM_EXTABLE(.L_write_leading_bytes, .E_leading_bytes)
-       _ASM_EXTABLE(.L_write_words, .E_write_words)
-       _ASM_EXTABLE(.L_write_trailing_bytes, .E_trailing_bytes)
-#endif
index 8462690..4828913 100644 (file)
@@ -25,7 +25,7 @@ endif
 
 LIBBPF = $(LIBBPF_PATH)libbpf.a
 
-BPFTOOL_VERSION := $(shell make -rR --no-print-directory -sC ../../.. kernelversion)
+BPFTOOL_VERSION ?= $(shell make -rR --no-print-directory -sC ../../.. kernelversion)
 
 $(LIBBPF): FORCE
        $(if $(LIBBPF_OUTPUT),@mkdir -p $(LIBBPF_OUTPUT))
diff --git a/tools/include/linux/static_call_types.h b/tools/include/linux/static_call_types.h
new file mode 100644 (file)
index 0000000..89135bb
--- /dev/null
@@ -0,0 +1,35 @@
+/* SPDX-License-Identifier: GPL-2.0 */
+#ifndef _STATIC_CALL_TYPES_H
+#define _STATIC_CALL_TYPES_H
+
+#include <linux/types.h>
+#include <linux/stringify.h>
+
+#define STATIC_CALL_KEY_PREFIX         __SCK__
+#define STATIC_CALL_KEY_PREFIX_STR     __stringify(STATIC_CALL_KEY_PREFIX)
+#define STATIC_CALL_KEY_PREFIX_LEN     (sizeof(STATIC_CALL_KEY_PREFIX_STR) - 1)
+#define STATIC_CALL_KEY(name)          __PASTE(STATIC_CALL_KEY_PREFIX, name)
+
+#define STATIC_CALL_TRAMP_PREFIX       __SCT__
+#define STATIC_CALL_TRAMP_PREFIX_STR   __stringify(STATIC_CALL_TRAMP_PREFIX)
+#define STATIC_CALL_TRAMP_PREFIX_LEN   (sizeof(STATIC_CALL_TRAMP_PREFIX_STR) - 1)
+#define STATIC_CALL_TRAMP(name)                __PASTE(STATIC_CALL_TRAMP_PREFIX, name)
+#define STATIC_CALL_TRAMP_STR(name)    __stringify(STATIC_CALL_TRAMP(name))
+
+/*
+ * Flags in the low bits of static_call_site::key.
+ */
+#define STATIC_CALL_SITE_TAIL 1UL      /* tail call */
+#define STATIC_CALL_SITE_INIT 2UL      /* init section */
+#define STATIC_CALL_SITE_FLAGS 3UL
+
+/*
+ * The static call site table needs to be created by external tooling (objtool
+ * or a compiler plugin).
+ */
+struct static_call_site {
+       s32 addr;
+       s32 key;
+};
+
+#endif /* _STATIC_CALL_TYPES_H */
index 995b36c..f2b5d72 100644 (file)
@@ -140,7 +140,7 @@ __SYSCALL(__NR_renameat, sys_renameat)
 #define __NR_umount2 39
 __SYSCALL(__NR_umount2, sys_umount)
 #define __NR_mount 40
-__SC_COMP(__NR_mount, sys_mount, compat_sys_mount)
+__SYSCALL(__NR_mount, sys_mount)
 #define __NR_pivot_root 41
 __SYSCALL(__NR_pivot_root, sys_pivot_root)
 
@@ -207,9 +207,9 @@ __SYSCALL(__NR_read, sys_read)
 #define __NR_write 64
 __SYSCALL(__NR_write, sys_write)
 #define __NR_readv 65
-__SC_COMP(__NR_readv, sys_readv, compat_sys_readv)
+__SC_COMP(__NR_readv, sys_readv, sys_readv)
 #define __NR_writev 66
-__SC_COMP(__NR_writev, sys_writev, compat_sys_writev)
+__SC_COMP(__NR_writev, sys_writev, sys_writev)
 #define __NR_pread64 67
 __SC_COMP(__NR_pread64, sys_pread64, compat_sys_pread64)
 #define __NR_pwrite64 68
@@ -237,7 +237,7 @@ __SC_COMP(__NR_signalfd4, sys_signalfd4, compat_sys_signalfd4)
 
 /* fs/splice.c */
 #define __NR_vmsplice 75
-__SC_COMP(__NR_vmsplice, sys_vmsplice, compat_sys_vmsplice)
+__SYSCALL(__NR_vmsplice, sys_vmsplice)
 #define __NR_splice 76
 __SYSCALL(__NR_splice, sys_splice)
 #define __NR_tee 77
@@ -727,11 +727,9 @@ __SYSCALL(__NR_setns, sys_setns)
 #define __NR_sendmmsg 269
 __SC_COMP(__NR_sendmmsg, sys_sendmmsg, compat_sys_sendmmsg)
 #define __NR_process_vm_readv 270
-__SC_COMP(__NR_process_vm_readv, sys_process_vm_readv, \
-          compat_sys_process_vm_readv)
+__SYSCALL(__NR_process_vm_readv, sys_process_vm_readv)
 #define __NR_process_vm_writev 271
-__SC_COMP(__NR_process_vm_writev, sys_process_vm_writev, \
-          compat_sys_process_vm_writev)
+__SYSCALL(__NR_process_vm_writev, sys_process_vm_writev)
 #define __NR_kcmp 272
 __SYSCALL(__NR_kcmp, sys_kcmp)
 #define __NR_finit_module 273
index 7dfca70..6bdbc38 100644 (file)
@@ -659,6 +659,12 @@ struct btf *btf__parse_raw(const char *path)
                err = -EIO;
                goto err_out;
        }
+       if (magic == __bswap_16(BTF_MAGIC)) {
+               /* non-native endian raw BTF */
+               pr_warn("non-native BTF endianness is not supported\n");
+               err = -LIBBPF_ERRNO__ENDIAN;
+               goto err_out;
+       }
        if (magic != BTF_MAGIC) {
                /* definitely not a raw BTF */
                err = -EPROTO;
index 7253b83..e493d60 100644 (file)
@@ -6925,7 +6925,7 @@ static const struct bpf_sec_def section_defs[] = {
                                                BPF_XDP_DEVMAP),
        BPF_EAPROG_SEC("xdp_cpumap/",           BPF_PROG_TYPE_XDP,
                                                BPF_XDP_CPUMAP),
-       BPF_EAPROG_SEC("xdp",                   BPF_PROG_TYPE_XDP,
+       BPF_APROG_SEC("xdp",                    BPF_PROG_TYPE_XDP,
                                                BPF_XDP),
        BPF_PROG_SEC("perf_event",              BPF_PROG_TYPE_PERF_EVENT),
        BPF_PROG_SEC("lwt_in",                  BPF_PROG_TYPE_LWT_IN),
index 33ba98d..99d0087 100644 (file)
@@ -3,9 +3,9 @@
                                C  Self  R  W  RMW  Self  R  W  DR  DW  RMW  SV
                               --  ----  -  -  ---  ----  -  -  --  --  ---  --
 
-Store, e.g., WRITE_ONCE()            Y                                       Y
-Load, e.g., READ_ONCE()              Y                          Y   Y        Y
-Unsuccessful RMW operation           Y                          Y   Y        Y
+Relaxed store                        Y                                       Y
+Relaxed load                         Y                          Y   Y        Y
+Relaxed RMW operation                Y                          Y   Y        Y
 rcu_dereference()                    Y                          Y   Y        Y
 Successful *_acquire()               R                   Y  Y   Y   Y    Y   Y
 Successful *_release()         C        Y  Y    Y     W                      Y
@@ -17,14 +17,19 @@ smp_mb__before_atomic()       CP        Y  Y    Y        a  a   a   a    Y
 smp_mb__after_atomic()        CP        a  a    Y        Y  Y   Y   Y    Y
 
 
-Key:   C:      Ordering is cumulative
-       P:      Ordering propagates
-       R:      Read, for example, READ_ONCE(), or read portion of RMW
-       W:      Write, for example, WRITE_ONCE(), or write portion of RMW
-       Y:      Provides ordering
-       a:      Provides ordering given intervening RMW atomic operation
-       DR:     Dependent read (address dependency)
-       DW:     Dependent write (address, data, or control dependency)
-       RMW:    Atomic read-modify-write operation
-       SELF:   Orders self, as opposed to accesses before and/or after
-       SV:     Orders later accesses to the same variable
+Key:   Relaxed:  A relaxed operation is either READ_ONCE(), WRITE_ONCE(),
+                 a *_relaxed() RMW operation, an unsuccessful RMW
+                 operation, a non-value-returning RMW operation such
+                 as atomic_inc(), or one of the atomic*_read() and
+                 atomic*_set() family of operations.
+       C:        Ordering is cumulative
+       P:        Ordering propagates
+       R:        Read, for example, READ_ONCE(), or read portion of RMW
+       W:        Write, for example, WRITE_ONCE(), or write portion of RMW
+       Y:        Provides ordering
+       a:        Provides ordering given intervening RMW atomic operation
+       DR:       Dependent read (address dependency)
+       DW:       Dependent write (address, data, or control dependency)
+       RMW:      Atomic read-modify-write operation
+       SELF:     Orders self, as opposed to accesses before and/or after
+       SV:       Orders later accesses to the same variable
diff --git a/tools/memory-model/Documentation/litmus-tests.txt b/tools/memory-model/Documentation/litmus-tests.txt
new file mode 100644 (file)
index 0000000..2f840dc
--- /dev/null
@@ -0,0 +1,1074 @@
+Linux-Kernel Memory Model Litmus Tests
+======================================
+
+This file describes the LKMM litmus-test format by example, describes
+some tricks and traps, and finally outlines LKMM's limitations.  Earlier
+versions of this material appeared in a number of LWN articles, including:
+
+https://lwn.net/Articles/720550/
+       A formal kernel memory-ordering model (part 2)
+https://lwn.net/Articles/608550/
+       Axiomatic validation of memory barriers and atomic instructions
+https://lwn.net/Articles/470681/
+       Validating Memory Barriers and Atomic Instructions
+
+This document presents information in decreasing order of applicability,
+so that, where possible, the information that has proven more commonly
+useful is shown near the beginning.
+
+For information on installing LKMM, including the underlying "herd7"
+tool, please see tools/memory-model/README.
+
+
+Copy-Pasta
+==========
+
+As with other software, it is often better (if less macho) to adapt an
+existing litmus test than it is to create one from scratch.  A number
+of litmus tests may be found in the kernel source tree:
+
+       tools/memory-model/litmus-tests/
+       Documentation/litmus-tests/
+
+Several thousand more example litmus tests are available on github
+and kernel.org:
+
+       https://github.com/paulmckrcu/litmus
+       https://git.kernel.org/pub/scm/linux/kernel/git/paulmck/perfbook.git/tree/CodeSamples/formal/herd
+       https://git.kernel.org/pub/scm/linux/kernel/git/paulmck/perfbook.git/tree/CodeSamples/formal/litmus
+
+The -l and -L arguments to "git grep" can be quite helpful in identifying
+existing litmus tests that are similar to the one you need.  But even if
+you start with an existing litmus test, it is still helpful to have a
+good understanding of the litmus-test format.
+
+
+Examples and Format
+===================
+
+This section describes the overall format of litmus tests, starting
+with a small example of the message-passing pattern and moving on to
+more complex examples that illustrate explicit initialization and LKMM's
+minimalistic set of flow-control statements.
+
+
+Message-Passing Example
+-----------------------
+
+This section gives an overview of the format of a litmus test using an
+example based on the common message-passing use case.  This use case
+appears often in the Linux kernel.  For example, a flag (modeled by "y"
+below) indicates that a buffer (modeled by "x" below) is now completely
+filled in and ready for use.  It would be very bad if the consumer saw the
+flag set, but, due to memory misordering, saw old values in the buffer.
+
+This example asks whether smp_store_release() and smp_load_acquire()
+suffices to avoid this bad outcome:
+
+ 1 C MP+pooncerelease+poacquireonce
+ 2
+ 3 {}
+ 4
+ 5 P0(int *x, int *y)
+ 6 {
+ 7   WRITE_ONCE(*x, 1);
+ 8   smp_store_release(y, 1);
+ 9 }
+10
+11 P1(int *x, int *y)
+12 {
+13   int r0;
+14   int r1;
+15
+16   r0 = smp_load_acquire(y);
+17   r1 = READ_ONCE(*x);
+18 }
+19
+20 exists (1:r0=1 /\ 1:r1=0)
+
+Line 1 starts with "C", which identifies this file as being in the
+LKMM C-language format (which, as we will see, is a small fragment
+of the full C language).  The remainder of line 1 is the name of
+the test, which by convention is the filename with the ".litmus"
+suffix stripped.  In this case, the actual test may be found in
+tools/memory-model/litmus-tests/MP+pooncerelease+poacquireonce.litmus
+in the Linux-kernel source tree.
+
+Mechanically generated litmus tests will often have an optional
+double-quoted comment string on the second line.  Such strings are ignored
+when running the test.  Yes, you can add your own comments to litmus
+tests, but this is a bit involved due to the use of multiple parsers.
+For now, you can use C-language comments in the C code, and these comments
+may be in either the "/* */" or the "//" style.  A later section will
+cover the full litmus-test commenting story.
+
+Line 3 is the initialization section.  Because the default initialization
+to zero suffices for this test, the "{}" syntax is used, which mean the
+initialization section is empty.  Litmus tests requiring non-default
+initialization must have non-empty initialization sections, as in the
+example that will be presented later in this document.
+
+Lines 5-9 show the first process and lines 11-18 the second process.  Each
+process corresponds to a Linux-kernel task (or kthread, workqueue, thread,
+and so on; LKMM discussions often use these terms interchangeably).
+The name of the first process is "P0" and that of the second "P1".
+You can name your processes anything you like as long as the names consist
+of a single "P" followed by a number, and as long as the numbers are
+consecutive starting with zero.  This can actually be quite helpful,
+for example, a .litmus file matching "^P1(" but not matching "^P2("
+must contain a two-process litmus test.
+
+The argument list for each function are pointers to the global variables
+used by that function.  Unlike normal C-language function parameters, the
+names are significant.  The fact that both P0() and P1() have a formal
+parameter named "x" means that these two processes are working with the
+same global variable, also named "x".  So the "int *x, int *y" on P0()
+and P1() mean that both processes are working with two shared global
+variables, "x" and "y".  Global variables are always passed to processes
+by reference, hence "P0(int *x, int *y)", but *never* "P0(int x, int y)".
+
+P0() has no local variables, but P1() has two of them named "r0" and "r1".
+These names may be freely chosen, but for historical reasons stemming from
+other litmus-test formats, it is conventional to use names consisting of
+"r" followed by a number as shown here.  A common bug in litmus tests
+is forgetting to add a global variable to a process's parameter list.
+This will sometimes result in an error message, but can also cause the
+intended global to instead be silently treated as an undeclared local
+variable.
+
+Each process's code is similar to Linux-kernel C, as can be seen on lines
+7-8 and 13-17.  This code may use many of the Linux kernel's atomic
+operations, some of its exclusive-lock functions, and some of its RCU
+and SRCU functions.  An approximate list of the currently supported
+functions may be found in the linux-kernel.def file.
+
+The P0() process does "WRITE_ONCE(*x, 1)" on line 7.  Because "x" is a
+pointer in P0()'s parameter list, this does an unordered store to global
+variable "x".  Line 8 does "smp_store_release(y, 1)", and because "y"
+is also in P0()'s parameter list, this does a release store to global
+variable "y".
+
+The P1() process declares two local variables on lines 13 and 14.
+Line 16 does "r0 = smp_load_acquire(y)" which does an acquire load
+from global variable "y" into local variable "r0".  Line 17 does a
+"r1 = READ_ONCE(*x)", which does an unordered load from "*x" into local
+variable "r1".  Both "x" and "y" are in P1()'s parameter list, so both
+reference the same global variables that are used by P0().
+
+Line 20 is the "exists" assertion expression to evaluate the final state.
+This final state is evaluated after the dust has settled: both processes
+have completed and all of their memory references and memory barriers
+have propagated to all parts of the system.  The references to the local
+variables "r0" and "r1" in line 24 must be prefixed with "1:" to specify
+which process they are local to.
+
+Note that the assertion expression is written in the litmus-test
+language rather than in C.  For example, single "=" is an equality
+operator rather than an assignment.  The "/\" character combination means
+"and".  Similarly, "\/" stands for "or".  Both of these are ASCII-art
+representations of the corresponding mathematical symbols.  Finally,
+"~" stands for "logical not", which is "!" in C, and not to be confused
+with the C-language "~" operator which instead stands for "bitwise not".
+Parentheses may be used to override precedence.
+
+The "exists" assertion on line 20 is satisfied if the consumer sees the
+flag ("y") set but the buffer ("x") as not yet filled in, that is, if P1()
+loaded a value from "x" that was equal to 1 but loaded a value from "y"
+that was still equal to zero.
+
+This example can be checked by running the following command, which
+absolutely must be run from the tools/memory-model directory and from
+this directory only:
+
+herd7 -conf linux-kernel.cfg litmus-tests/MP+pooncerelease+poacquireonce.litmus
+
+The output is the result of something similar to a full state-space
+search, and is as follows:
+
+ 1 Test MP+pooncerelease+poacquireonce Allowed
+ 2 States 3
+ 3 1:r0=0; 1:r1=0;
+ 4 1:r0=0; 1:r1=1;
+ 5 1:r0=1; 1:r1=1;
+ 6 No
+ 7 Witnesses
+ 8 Positive: 0 Negative: 3
+ 9 Condition exists (1:r0=1 /\ 1:r1=0)
+10 Observation MP+pooncerelease+poacquireonce Never 0 3
+11 Time MP+pooncerelease+poacquireonce 0.00
+12 Hash=579aaa14d8c35a39429b02e698241d09
+
+The most pertinent line is line 10, which contains "Never 0 3", which
+indicates that the bad result flagged by the "exists" clause never
+happens.  This line might instead say "Sometimes" to indicate that the
+bad result happened in some but not all executions, or it might say
+"Always" to indicate that the bad result happened in all executions.
+(The herd7 tool doesn't judge, so it is only an LKMM convention that the
+"exists" clause indicates a bad result.  To see this, invert the "exists"
+clause's condition and run the test.)  The numbers ("0 3") at the end
+of this line indicate the number of end states satisfying the "exists"
+clause (0) and the number not not satisfying that clause (3).
+
+Another important part of this output is shown in lines 2-5, repeated here:
+
+ 2 States 3
+ 3 1:r0=0; 1:r1=0;
+ 4 1:r0=0; 1:r1=1;
+ 5 1:r0=1; 1:r1=1;
+
+Line 2 gives the total number of end states, and each of lines 3-5 list
+one of these states, with the first ("1:r0=0; 1:r1=0;") indicating that
+both of P1()'s loads returned the value "0".  As expected, given the
+"Never" on line 10, the state flagged by the "exists" clause is not
+listed.  This full list of states can be helpful when debugging a new
+litmus test.
+
+The rest of the output is not normally needed, either due to irrelevance
+or due to being redundant with the lines discussed above.  However, the
+following paragraph lists them for the benefit of readers possessed of
+an insatiable curiosity.  Other readers should feel free to skip ahead.
+
+Line 1 echos the test name, along with the "Test" and "Allowed".  Line 6's
+"No" says that the "exists" clause was not satisfied by any execution,
+and as such it has the same meaning as line 10's "Never".  Line 7 is a
+lead-in to line 8's "Positive: 0 Negative: 3", which lists the number
+of end states satisfying and not satisfying the "exists" clause, just
+like the two numbers at the end of line 10.  Line 9 repeats the "exists"
+clause so that you don't have to look it up in the litmus-test file.
+The number at the end of line 11 (which begins with "Time") gives the
+time in seconds required to analyze the litmus test.  Small tests such
+as this one complete in a few milliseconds, so "0.00" is quite common.
+Line 12 gives a hash of the contents for the litmus-test file, and is used
+by tooling that manages litmus tests and their output.  This tooling is
+used by people modifying LKMM itself, and among other things lets such
+people know which of the several thousand relevant litmus tests were
+affected by a given change to LKMM.
+
+
+Initialization
+--------------
+
+The previous example relied on the default zero initialization for
+"x" and "y", but a similar litmus test could instead initialize them
+to some other value:
+
+ 1 C MP+pooncerelease+poacquireonce
+ 2
+ 3 {
+ 4   x=42;
+ 5   y=42;
+ 6 }
+ 7
+ 8 P0(int *x, int *y)
+ 9 {
+10   WRITE_ONCE(*x, 1);
+11   smp_store_release(y, 1);
+12 }
+13
+14 P1(int *x, int *y)
+15 {
+16   int r0;
+17   int r1;
+18
+19   r0 = smp_load_acquire(y);
+20   r1 = READ_ONCE(*x);
+21 }
+22
+23 exists (1:r0=1 /\ 1:r1=42)
+
+Lines 3-6 now initialize both "x" and "y" to the value 42.  This also
+means that the "exists" clause on line 23 must change "1:r1=0" to
+"1:r1=42".
+
+Running the test gives the same overall result as before, but with the
+value 42 appearing in place of the value zero:
+
+ 1 Test MP+pooncerelease+poacquireonce Allowed
+ 2 States 3
+ 3 1:r0=1; 1:r1=1;
+ 4 1:r0=42; 1:r1=1;
+ 5 1:r0=42; 1:r1=42;
+ 6 No
+ 7 Witnesses
+ 8 Positive: 0 Negative: 3
+ 9 Condition exists (1:r0=1 /\ 1:r1=42)
+10 Observation MP+pooncerelease+poacquireonce Never 0 3
+11 Time MP+pooncerelease+poacquireonce 0.02
+12 Hash=ab9a9b7940a75a792266be279a980156
+
+It is tempting to avoid the open-coded repetitions of the value "42"
+by defining another global variable "initval=42" and replacing all
+occurrences of "42" with "initval".  This will not, repeat *not*,
+initialize "x" and "y" to 42, but instead to the address of "initval"
+(try it!).  See the section below on linked lists to learn more about
+why this approach to initialization can be useful.
+
+
+Control Structures
+------------------
+
+LKMM supports the C-language "if" statement, which allows modeling of
+conditional branches.  In LKMM, conditional branches can affect ordering,
+but only if you are *very* careful (compilers are surprisingly able
+to optimize away conditional branches).  The following example shows
+the "load buffering" (LB) use case that is used in the Linux kernel to
+synchronize between ring-buffer producers and consumers.  In the example
+below, P0() is one side checking to see if an operation may proceed and
+P1() is the other side completing its update.
+
+ 1 C LB+fencembonceonce+ctrlonceonce
+ 2
+ 3 {}
+ 4
+ 5 P0(int *x, int *y)
+ 6 {
+ 7   int r0;
+ 8
+ 9   r0 = READ_ONCE(*x);
+10   if (r0)
+11     WRITE_ONCE(*y, 1);
+12 }
+13
+14 P1(int *x, int *y)
+15 {
+16   int r0;
+17
+18   r0 = READ_ONCE(*y);
+19   smp_mb();
+20   WRITE_ONCE(*x, 1);
+21 }
+22
+23 exists (0:r0=1 /\ 1:r0=1)
+
+P1()'s "if" statement on line 10 works as expected, so that line 11 is
+executed only if line 9 loads a non-zero value from "x".  Because P1()'s
+write of "1" to "x" happens only after P1()'s read from "y", one would
+hope that the "exists" clause cannot be satisfied.  LKMM agrees:
+
+ 1 Test LB+fencembonceonce+ctrlonceonce Allowed
+ 2 States 2
+ 3 0:r0=0; 1:r0=0;
+ 4 0:r0=1; 1:r0=0;
+ 5 No
+ 6 Witnesses
+ 7 Positive: 0 Negative: 2
+ 8 Condition exists (0:r0=1 /\ 1:r0=1)
+ 9 Observation LB+fencembonceonce+ctrlonceonce Never 0 2
+10 Time LB+fencembonceonce+ctrlonceonce 0.00
+11 Hash=e5260556f6de495fd39b556d1b831c3b
+
+However, there is no "while" statement due to the fact that full
+state-space search has some difficulty with iteration.  However, there
+are tricks that may be used to handle some special cases, which are
+discussed below.  In addition, loop-unrolling tricks may be applied,
+albeit sparingly.
+
+
+Tricks and Traps
+================
+
+This section covers extracting debug output from herd7, emulating
+spin loops, handling trivial linked lists, adding comments to litmus tests,
+emulating call_rcu(), and finally tricks to improve herd7 performance
+in order to better handle large litmus tests.
+
+
+Debug Output
+------------
+
+By default, the herd7 state output includes all variables mentioned
+in the "exists" clause.  But sometimes debugging efforts are greatly
+aided by the values of other variables.  Consider this litmus test
+(tools/memory-order/litmus-tests/SB+rfionceonce-poonceonces.litmus but
+slightly modified), which probes an obscure corner of hardware memory
+ordering:
+
+ 1 C SB+rfionceonce-poonceonces
+ 2
+ 3 {}
+ 4
+ 5 P0(int *x, int *y)
+ 6 {
+ 7   int r1;
+ 8   int r2;
+ 9
+10   WRITE_ONCE(*x, 1);
+11   r1 = READ_ONCE(*x);
+12   r2 = READ_ONCE(*y);
+13 }
+14
+15 P1(int *x, int *y)
+16 {
+17   int r3;
+18   int r4;
+19
+20   WRITE_ONCE(*y, 1);
+21   r3 = READ_ONCE(*y);
+22   r4 = READ_ONCE(*x);
+23 }
+24
+25 exists (0:r2=0 /\ 1:r4=0)
+
+The herd7 output is as follows:
+
+ 1 Test SB+rfionceonce-poonceonces Allowed
+ 2 States 4
+ 3 0:r2=0; 1:r4=0;
+ 4 0:r2=0; 1:r4=1;
+ 5 0:r2=1; 1:r4=0;
+ 6 0:r2=1; 1:r4=1;
+ 7 Ok
+ 8 Witnesses
+ 9 Positive: 1 Negative: 3
+10 Condition exists (0:r2=0 /\ 1:r4=0)
+11 Observation SB+rfionceonce-poonceonces Sometimes 1 3
+12 Time SB+rfionceonce-poonceonces 0.01
+13 Hash=c7f30fe0faebb7d565405d55b7318ada
+
+(This output indicates that CPUs are permitted to "snoop their own
+store buffers", which all of Linux's CPU families other than s390 will
+happily do.  Such snooping results in disagreement among CPUs on the
+order of stores from different CPUs, which is rarely an issue.)
+
+But the herd7 output shows only the two variables mentioned in the
+"exists" clause.  Someone modifying this test might wish to know the
+values of "x", "y", "0:r1", and "0:r3" as well.  The "locations"
+statement on line 25 shows how to cause herd7 to display additional
+variables:
+
+ 1 C SB+rfionceonce-poonceonces
+ 2
+ 3 {}
+ 4
+ 5 P0(int *x, int *y)
+ 6 {
+ 7   int r1;
+ 8   int r2;
+ 9
+10   WRITE_ONCE(*x, 1);
+11   r1 = READ_ONCE(*x);
+12   r2 = READ_ONCE(*y);
+13 }
+14
+15 P1(int *x, int *y)
+16 {
+17   int r3;
+18   int r4;
+19
+20   WRITE_ONCE(*y, 1);
+21   r3 = READ_ONCE(*y);
+22   r4 = READ_ONCE(*x);
+23 }
+24
+25 locations [0:r1; 1:r3; x; y]
+26 exists (0:r2=0 /\ 1:r4=0)
+
+The herd7 output then displays the values of all the variables:
+
+ 1 Test SB+rfionceonce-poonceonces Allowed
+ 2 States 4
+ 3 0:r1=1; 0:r2=0; 1:r3=1; 1:r4=0; x=1; y=1;
+ 4 0:r1=1; 0:r2=0; 1:r3=1; 1:r4=1; x=1; y=1;
+ 5 0:r1=1; 0:r2=1; 1:r3=1; 1:r4=0; x=1; y=1;
+ 6 0:r1=1; 0:r2=1; 1:r3=1; 1:r4=1; x=1; y=1;
+ 7 Ok
+ 8 Witnesses
+ 9 Positive: 1 Negative: 3
+10 Condition exists (0:r2=0 /\ 1:r4=0)
+11 Observation SB+rfionceonce-poonceonces Sometimes 1 3
+12 Time SB+rfionceonce-poonceonces 0.01
+13 Hash=40de8418c4b395388f6501cafd1ed38d
+
+What if you would like to know the value of a particular global variable
+at some particular point in a given process's execution?  One approach
+is to use a READ_ONCE() to load that global variable into a new local
+variable, then add that local variable to the "locations" clause.
+But be careful:  In some litmus tests, adding a READ_ONCE() will change
+the outcome!  For one example, please see the C-READ_ONCE.litmus and
+C-READ_ONCE-omitted.litmus tests located here:
+
+       https://github.com/paulmckrcu/litmus/blob/master/manual/kernel/
+
+
+Spin Loops
+----------
+
+The analysis carried out by herd7 explores full state space, which is
+at best of exponential time complexity.  Adding processes and increasing
+the amount of code in a give process can greatly increase execution time.
+Potentially infinite loops, such as those used to wait for locks to
+become available, are clearly problematic.
+
+Fortunately, it is possible to avoid state-space explosion by specially
+modeling such loops.  For example, the following litmus tests emulates
+locking using xchg_acquire(), but instead of enclosing xchg_acquire()
+in a spin loop, it instead excludes executions that fail to acquire the
+lock using a herd7 "filter" clause.  Note that for exclusive locking, you
+are better off using the spin_lock() and spin_unlock() that LKMM directly
+models, if for no other reason that these are much faster.  However, the
+techniques illustrated in this section can be used for other purposes,
+such as emulating reader-writer locking, which LKMM does not yet model.
+
+ 1 C C-SB+l-o-o-u+l-o-o-u-X
+ 2
+ 3 {
+ 4 }
+ 5
+ 6 P0(int *sl, int *x0, int *x1)
+ 7 {
+ 8   int r2;
+ 9   int r1;
+10
+11   r2 = xchg_acquire(sl, 1);
+12   WRITE_ONCE(*x0, 1);
+13   r1 = READ_ONCE(*x1);
+14   smp_store_release(sl, 0);
+15 }
+16
+17 P1(int *sl, int *x0, int *x1)
+18 {
+19   int r2;
+20   int r1;
+21
+22   r2 = xchg_acquire(sl, 1);
+23   WRITE_ONCE(*x1, 1);
+24   r1 = READ_ONCE(*x0);
+25   smp_store_release(sl, 0);
+26 }
+27
+28 filter (0:r2=0 /\ 1:r2=0)
+29 exists (0:r1=0 /\ 1:r1=0)
+
+This litmus test may be found here:
+
+https://git.kernel.org/pub/scm/linux/kernel/git/paulmck/perfbook.git/tree/CodeSamples/formal/herd/C-SB+l-o-o-u+l-o-o-u-X.litmus
+
+This test uses two global variables, "x1" and "x2", and also emulates a
+single global spinlock named "sl".  This spinlock is held by whichever
+process changes the value of "sl" from "0" to "1", and is released when
+that process sets "sl" back to "0".  P0()'s lock acquisition is emulated
+on line 11 using xchg_acquire(), which unconditionally stores the value
+"1" to "sl" and stores either "0" or "1" to "r2", depending on whether
+the lock acquisition was successful or unsuccessful (due to "sl" already
+having the value "1"), respectively.  P1() operates in a similar manner.
+
+Rather unconventionally, execution appears to proceed to the critical
+section on lines 12 and 13 in either case.  Line 14 then uses an
+smp_store_release() to store zero to "sl", thus emulating lock release.
+
+The case where xchg_acquire() fails to acquire the lock is handled by
+the "filter" clause on line 28, which tells herd7 to keep only those
+executions in which both "0:r2" and "1:r2" are zero, that is to pay
+attention only to those executions in which both locks are actually
+acquired.  Thus, the bogus executions that would execute the critical
+sections are discarded and any effects that they might have had are
+ignored.  Note well that the "filter" clause keeps those executions
+for which its expression is satisfied, that is, for which the expression
+evaluates to true.  In other words, the "filter" clause says what to
+keep, not what to discard.
+
+The result of running this test is as follows:
+
+ 1 Test C-SB+l-o-o-u+l-o-o-u-X Allowed
+ 2 States 2
+ 3 0:r1=0; 1:r1=1;
+ 4 0:r1=1; 1:r1=0;
+ 5 No
+ 6 Witnesses
+ 7 Positive: 0 Negative: 2
+ 8 Condition exists (0:r1=0 /\ 1:r1=0)
+ 9 Observation C-SB+l-o-o-u+l-o-o-u-X Never 0 2
+10 Time C-SB+l-o-o-u+l-o-o-u-X 0.03
+
+The "Never" on line 9 indicates that this use of xchg_acquire() and
+smp_store_release() really does correctly emulate locking.
+
+Why doesn't the litmus test take the simpler approach of using a spin loop
+to handle failed spinlock acquisitions, like the kernel does?  The key
+insight behind this litmus test is that spin loops have no effect on the
+possible "exists"-clause outcomes of program execution in the absence
+of deadlock.  In other words, given a high-quality lock-acquisition
+primitive in a deadlock-free program running on high-quality hardware,
+each lock acquisition will eventually succeed.  Because herd7 already
+explores the full state space, the length of time required to actually
+acquire the lock does not matter.  After all, herd7 already models all
+possible durations of the xchg_acquire() statements.
+
+Why not just add the "filter" clause to the "exists" clause, thus
+avoiding the "filter" clause entirely?  This does work, but is slower.
+The reason that the "filter" clause is faster is that (in the common case)
+herd7 knows to abandon an execution as soon as the "filter" expression
+fails to be satisfied.  In contrast, the "exists" clause is evaluated
+only at the end of time, thus requiring herd7 to waste time on bogus
+executions in which both critical sections proceed concurrently.  In
+addition, some LKMM users like the separation of concerns provided by
+using the both the "filter" and "exists" clauses.
+
+Readers lacking a pathological interest in odd corner cases should feel
+free to skip the remainder of this section.
+
+But what if the litmus test were to temporarily set "0:r2" to a non-zero
+value?  Wouldn't that cause herd7 to abandon the execution prematurely
+due to an early mismatch of the "filter" clause?
+
+Why not just try it?  Line 4 of the following modified litmus test
+introduces a new global variable "x2" that is initialized to "1".  Line 23
+of P1() reads that variable into "1:r2" to force an early mismatch with
+the "filter" clause.  Line 24 does a known-true "if" condition to avoid
+and static analysis that herd7 might do.  Finally the "exists" clause
+on line 32 is updated to a condition that is alway satisfied at the end
+of the test.
+
+ 1 C C-SB+l-o-o-u+l-o-o-u-X
+ 2
+ 3 {
+ 4   x2=1;
+ 5 }
+ 6
+ 7 P0(int *sl, int *x0, int *x1)
+ 8 {
+ 9   int r2;
+10   int r1;
+11
+12   r2 = xchg_acquire(sl, 1);
+13   WRITE_ONCE(*x0, 1);
+14   r1 = READ_ONCE(*x1);
+15   smp_store_release(sl, 0);
+16 }
+17
+18 P1(int *sl, int *x0, int *x1, int *x2)
+19 {
+20   int r2;
+21   int r1;
+22
+23   r2 = READ_ONCE(*x2);
+24   if (r2)
+25     r2 = xchg_acquire(sl, 1);
+26   WRITE_ONCE(*x1, 1);
+27   r1 = READ_ONCE(*x0);
+28   smp_store_release(sl, 0);
+29 }
+30
+31 filter (0:r2=0 /\ 1:r2=0)
+32 exists (x1=1)
+
+If the "filter" clause were to check each variable at each point in the
+execution, running this litmus test would display no executions because
+all executions would be filtered out at line 23.  However, the output
+is instead as follows:
+
+ 1 Test C-SB+l-o-o-u+l-o-o-u-X Allowed
+ 2 States 1
+ 3 x1=1;
+ 4 Ok
+ 5 Witnesses
+ 6 Positive: 2 Negative: 0
+ 7 Condition exists (x1=1)
+ 8 Observation C-SB+l-o-o-u+l-o-o-u-X Always 2 0
+ 9 Time C-SB+l-o-o-u+l-o-o-u-X 0.04
+10 Hash=080bc508da7f291e122c6de76c0088e3
+
+Line 3 shows that there is one execution that did not get filtered out,
+so the "filter" clause is evaluated only on the last assignment to
+the variables that it checks.  In this case, the "filter" clause is a
+disjunction, so it might be evaluated twice, once at the final (and only)
+assignment to "0:r2" and once at the final assignment to "1:r2".
+
+
+Linked Lists
+------------
+
+LKMM can handle linked lists, but only linked lists in which each node
+contains nothing except a pointer to the next node in the list.  This is
+of course quite restrictive, but there is nevertheless quite a bit that
+can be done within these confines, as can be seen in the litmus test
+at tools/memory-model/litmus-tests/MP+onceassign+derefonce.litmus:
+
+ 1 C MP+onceassign+derefonce
+ 2
+ 3 {
+ 4 y=z;
+ 5 z=0;
+ 6 }
+ 7
+ 8 P0(int *x, int **y)
+ 9 {
+10   WRITE_ONCE(*x, 1);
+11   rcu_assign_pointer(*y, x);
+12 }
+13
+14 P1(int *x, int **y)
+15 {
+16   int *r0;
+17   int r1;
+18
+19   rcu_read_lock();
+20   r0 = rcu_dereference(*y);
+21   r1 = READ_ONCE(*r0);
+22   rcu_read_unlock();
+23 }
+24
+25 exists (1:r0=x /\ 1:r1=0)
+
+Line 4's "y=z" may seem odd, given that "z" has not yet been initialized.
+But "y=z" does not set the value of "y" to that of "z", but instead
+sets the value of "y" to the *address* of "z".  Lines 4 and 5 therefore
+create a simple linked list, with "y" pointing to "z" and "z" having a
+NULL pointer.  A much longer linked list could be created if desired,
+and circular singly linked lists can also be created and manipulated.
+
+The "exists" clause works the same way, with the "1:r0=x" comparing P1()'s
+"r0" not to the value of "x", but again to its address.  This term of the
+"exists" clause therefore tests whether line 20's load from "y" saw the
+value stored by line 11, which is in fact what is required in this case.
+
+P0()'s line 10 initializes "x" to the value 1 then line 11 links to "x"
+from "y", replacing "z".
+
+P1()'s line 20 loads a pointer from "y", and line 21 dereferences that
+pointer.  The RCU read-side critical section spanning lines 19-22 is just
+for show in this example.  Note that the address used for line 21's load
+depends on (in this case, "is exactly the same as") the value loaded by
+line 20.  This is an example of what is called an "address dependency".
+This particular address dependency extends from the load on line 20 to the
+load on line 21.  Address dependencies provide a weak form of ordering.
+
+Running this test results in the following:
+
+ 1 Test MP+onceassign+derefonce Allowed
+ 2 States 2
+ 3 1:r0=x; 1:r1=1;
+ 4 1:r0=z; 1:r1=0;
+ 5 No
+ 6 Witnesses
+ 7 Positive: 0 Negative: 2
+ 8 Condition exists (1:r0=x /\ 1:r1=0)
+ 9 Observation MP+onceassign+derefonce Never 0 2
+10 Time MP+onceassign+derefonce 0.00
+11 Hash=49ef7a741563570102448a256a0c8568
+
+The only possible outcomes feature P1() loading a pointer to "z"
+(which contains zero) on the one hand and P1() loading a pointer to "x"
+(which contains the value one) on the other.  This should be reassuring
+because it says that RCU readers cannot see the old preinitialization
+values when accessing a newly inserted list node.  This undesirable
+scenario is flagged by the "exists" clause, and would occur if P1()
+loaded a pointer to "x", but obtained the pre-initialization value of
+zero after dereferencing that pointer.
+
+
+Comments
+--------
+
+Different portions of a litmus test are processed by different parsers,
+which has the charming effect of requiring different comment syntax in
+different portions of the litmus test.  The C-syntax portions use
+C-language comments (either "/* */" or "//"), while the other portions
+use Ocaml comments "(* *)".
+
+The following litmus test illustrates the comment style corresponding
+to each syntactic unit of the test:
+
+ 1 C MP+onceassign+derefonce (* A *)
+ 2
+ 3 (* B *)
+ 4
+ 5 {
+ 6 y=z; (* C *)
+ 7 z=0;
+ 8 } // D
+ 9
+10 // E
+11
+12 P0(int *x, int **y) // F
+13 {
+14   WRITE_ONCE(*x, 1);  // G
+15   rcu_assign_pointer(*y, x);
+16 }
+17
+18 // H
+19
+20 P1(int *x, int **y)
+21 {
+22   int *r0;
+23   int r1;
+24
+25   rcu_read_lock();
+26   r0 = rcu_dereference(*y);
+27   r1 = READ_ONCE(*r0);
+28   rcu_read_unlock();
+29 }
+30
+31 // I
+32
+33 exists (* J *) (1:r0=x /\ (* K *) 1:r1=0) (* L *)
+
+In short, use C-language comments in the C code and Ocaml comments in
+the rest of the litmus test.
+
+On the other hand, if you prefer C-style comments everywhere, the
+C preprocessor is your friend.
+
+
+Asynchronous RCU Grace Periods
+------------------------------
+
+The following litmus test is derived from the example show in
+Documentation/litmus-tests/rcu/RCU+sync+free.litmus, but converted to
+emulate call_rcu():
+
+ 1 C RCU+sync+free
+ 2
+ 3 {
+ 4 int x = 1;
+ 5 int *y = &x;
+ 6 int z = 1;
+ 7 }
+ 8
+ 9 P0(int *x, int *z, int **y)
+10 {
+11   int *r0;
+12   int r1;
+13
+14   rcu_read_lock();
+15   r0 = rcu_dereference(*y);
+16   r1 = READ_ONCE(*r0);
+17   rcu_read_unlock();
+18 }
+19
+20 P1(int *z, int **y, int *c)
+21 {
+22   rcu_assign_pointer(*y, z);
+23   smp_store_release(*c, 1); // Emulate call_rcu().
+24 }
+25
+26 P2(int *x, int *z, int **y, int *c)
+27 {
+28   int r0;
+29
+30   r0 = smp_load_acquire(*c); // Note call_rcu() request.
+31   synchronize_rcu(); // Wait one grace period.
+32   WRITE_ONCE(*x, 0); // Emulate the RCU callback.
+33 }
+34
+35 filter (2:r0=1) (* Reject too-early starts. *)
+36 exists (0:r0=x /\ 0:r1=0)
+
+Lines 4-6 initialize a linked list headed by "y" that initially contains
+"x".  In addition, "z" is pre-initialized to prepare for P1(), which
+will replace "x" with "z" in this list.
+
+P0() on lines 9-18 enters an RCU read-side critical section, loads the
+list header "y" and dereferences it, leaving the node in "0:r0" and
+the node's value in "0:r1".
+
+P1() on lines 20-24 updates the list header to instead reference "z",
+then emulates call_rcu() by doing a release store into "c".
+
+P2() on lines 27-33 emulates the behind-the-scenes effect of doing a
+call_rcu().  Line 30 first does an acquire load from "c", then line 31
+waits for an RCU grace period to elapse, and finally line 32 emulates
+the RCU callback, which in turn emulates a call to kfree().
+
+Of course, it is possible for P2() to start too soon, so that the
+value of "2:r0" is zero rather than the required value of "1".
+The "filter" clause on line 35 handles this possibility, rejecting
+all executions in which "2:r0" is not equal to the value "1".
+
+
+Performance
+-----------
+
+LKMM's exploration of the full state-space can be extremely helpful,
+but it does not come for free.  The price is exponential computational
+complexity in terms of the number of processes, the average number
+of statements in each process, and the total number of stores in the
+litmus test.
+
+So it is best to start small and then work up.  Where possible, break
+your code down into small pieces each representing a core concurrency
+requirement.
+
+That said, herd7 is quite fast.  On an unprepossessing x86 laptop, it
+was able to analyze the following 10-process RCU litmus test in about
+six seconds.
+
+https://github.com/paulmckrcu/litmus/blob/master/auto/C-RW-R+RW-R+RW-G+RW-G+RW-G+RW-G+RW-R+RW-R+RW-R+RW-R.litmus
+
+One way to make herd7 run faster is to use the "-speedcheck true" option.
+This option prevents herd7 from generating all possible end states,
+instead causing it to focus solely on whether or not the "exists"
+clause can be satisfied.  With this option, herd7 evaluates the above
+litmus test in about 300 milliseconds, for more than an order of magnitude
+improvement in performance.
+
+Larger 16-process litmus tests that would normally consume 15 minutes
+of time complete in about 40 seconds with this option.  To be fair,
+you do get an extra 65,535 states when you leave off the "-speedcheck
+true" option.
+
+https://github.com/paulmckrcu/litmus/blob/master/auto/C-RW-R+RW-R+RW-G+RW-G+RW-G+RW-G+RW-R+RW-R+RW-R+RW-R+RW-G+RW-G+RW-G+RW-G+RW-R+RW-R.litmus
+
+Nevertheless, litmus-test analysis really is of exponential complexity,
+whether with or without "-speedcheck true".  Increasing by just three
+processes to a 19-process litmus test requires 2 hours and 40 minutes
+without, and about 8 minutes with "-speedcheck true".  Each of these
+results represent roughly an order of magnitude slowdown compared to the
+16-process litmus test.  Again, to be fair, the multi-hour run explores
+no fewer than 524,287 additional states compared to the shorter one.
+
+https://github.com/paulmckrcu/litmus/blob/master/auto/C-RW-R+RW-R+RW-G+RW-G+RW-G+RW-G+RW-R+RW-R+RW-R+RW-R+RW-R+RW-R+RW-G+RW-G+RW-G+RW-G+RW-R+RW-R+RW-R.litmus
+
+If you don't like command-line arguments, you can obtain a similar speedup
+by adding a "filter" clause with exactly the same expression as your
+"exists" clause.
+
+However, please note that seeing the full set of states can be extremely
+helpful when developing and debugging litmus tests.
+
+
+LIMITATIONS
+===========
+
+Limitations of the Linux-kernel memory model (LKMM) include:
+
+1.     Compiler optimizations are not accurately modeled.  Of course,
+       the use of READ_ONCE() and WRITE_ONCE() limits the compiler's
+       ability to optimize, but under some circumstances it is possible
+       for the compiler to undermine the memory model.  For more
+       information, see Documentation/explanation.txt (in particular,
+       the "THE PROGRAM ORDER RELATION: po AND po-loc" and "A WARNING"
+       sections).
+
+       Note that this limitation in turn limits LKMM's ability to
+       accurately model address, control, and data dependencies.
+       For example, if the compiler can deduce the value of some variable
+       carrying a dependency, then the compiler can break that dependency
+       by substituting a constant of that value.
+
+2.     Multiple access sizes for a single variable are not supported,
+       and neither are misaligned or partially overlapping accesses.
+
+3.     Exceptions and interrupts are not modeled.  In some cases,
+       this limitation can be overcome by modeling the interrupt or
+       exception with an additional process.
+
+4.     I/O such as MMIO or DMA is not supported.
+
+5.     Self-modifying code (such as that found in the kernel's
+       alternatives mechanism, function tracer, Berkeley Packet Filter
+       JIT compiler, and module loader) is not supported.
+
+6.     Complete modeling of all variants of atomic read-modify-write
+       operations, locking primitives, and RCU is not provided.
+       For example, call_rcu() and rcu_barrier() are not supported.
+       However, a substantial amount of support is provided for these
+       operations, as shown in the linux-kernel.def file.
+
+       Here are specific limitations:
+
+       a.      When rcu_assign_pointer() is passed NULL, the Linux
+               kernel provides no ordering, but LKMM models this
+               case as a store release.
+
+       b.      The "unless" RMW operations are not currently modeled:
+               atomic_long_add_unless(), atomic_inc_unless_negative(),
+               and atomic_dec_unless_positive().  These can be emulated
+               in litmus tests, for example, by using atomic_cmpxchg().
+
+               One exception of this limitation is atomic_add_unless(),
+               which is provided directly by herd7 (so no corresponding
+               definition in linux-kernel.def).  atomic_add_unless() is
+               modeled by herd7 therefore it can be used in litmus tests.
+
+       c.      The call_rcu() function is not modeled.  As was shown above,
+               it can be emulated in litmus tests by adding another
+               process that invokes synchronize_rcu() and the body of the
+               callback function, with (for example) a release-acquire
+               from the site of the emulated call_rcu() to the beginning
+               of the additional process.
+
+       d.      The rcu_barrier() function is not modeled.  It can be
+               emulated in litmus tests emulating call_rcu() via
+               (for example) a release-acquire from the end of each
+               additional call_rcu() process to the site of the
+               emulated rcu-barrier().
+
+       e.      Although sleepable RCU (SRCU) is now modeled, there
+               are some subtle differences between its semantics and
+               those in the Linux kernel.  For example, the kernel
+               might interpret the following sequence as two partially
+               overlapping SRCU read-side critical sections:
+
+                        1  r1 = srcu_read_lock(&my_srcu);
+                        2  do_something_1();
+                        3  r2 = srcu_read_lock(&my_srcu);
+                        4  do_something_2();
+                        5  srcu_read_unlock(&my_srcu, r1);
+                        6  do_something_3();
+                        7  srcu_read_unlock(&my_srcu, r2);
+
+               In contrast, LKMM will interpret this as a nested pair of
+               SRCU read-side critical sections, with the outer critical
+               section spanning lines 1-7 and the inner critical section
+               spanning lines 3-5.
+
+               This difference would be more of a concern had anyone
+               identified a reasonable use case for partially overlapping
+               SRCU read-side critical sections.  For more information
+               on the trickiness of such overlapping, please see:
+               https://paulmck.livejournal.com/40593.html
+
+       f.      Reader-writer locking is not modeled.  It can be
+               emulated in litmus tests using atomic read-modify-write
+               operations.
+
+The fragment of the C language supported by these litmus tests is quite
+limited and in some ways non-standard:
+
+1.     There is no automatic C-preprocessor pass.  You can of course
+       run it manually, if you choose.
+
+2.     There is no way to create functions other than the Pn() functions
+       that model the concurrent processes.
+
+3.     The Pn() functions' formal parameters must be pointers to the
+       global shared variables.  Nothing can be passed by value into
+       these functions.
+
+4.     The only functions that can be invoked are those built directly
+       into herd7 or that are defined in the linux-kernel.def file.
+
+5.     The "switch", "do", "for", "while", and "goto" C statements are
+       not supported.  The "switch" statement can be emulated by the
+       "if" statement.  The "do", "for", and "while" statements can
+       often be emulated by manually unrolling the loop, or perhaps by
+       enlisting the aid of the C preprocessor to minimize the resulting
+       code duplication.  Some uses of "goto" can be emulated by "if",
+       and some others by unrolling.
+
+6.     Although you can use a wide variety of types in litmus-test
+       variable declarations, and especially in global-variable
+       declarations, the "herd7" tool understands only int and
+       pointer types.  There is no support for floating-point types,
+       enumerations, characters, strings, arrays, or structures.
+
+7.     Parsing of variable declarations is very loose, with almost no
+       type checking.
+
+8.     Initializers differ from their C-language counterparts.
+       For example, when an initializer contains the name of a shared
+       variable, that name denotes a pointer to that variable, not
+       the current value of that variable.  For example, "int x = y"
+       is interpreted the way "int x = &y" would be in C.
+
+9.     Dynamic memory allocation is not supported, although this can
+       be worked around in some cases by supplying multiple statically
+       allocated variables.
+
+Some of these limitations may be overcome in the future, but others are
+more likely to be addressed by incorporating the Linux-kernel memory model
+into other tools.
+
+Finally, please note that LKMM is subject to change as hardware, use cases,
+and compilers evolve.
index 63c4adf..03f58b1 100644 (file)
@@ -1,7 +1,7 @@
 This document provides "recipes", that is, litmus tests for commonly
 occurring situations, as well as a few that illustrate subtly broken but
 attractive nuisances.  Many of these recipes include example code from
-v4.13 of the Linux kernel.
+v5.7 of the Linux kernel.
 
 The first section covers simple special cases, the second section
 takes off the training wheels to cover more involved examples,
@@ -278,7 +278,7 @@ is present if the value loaded determines the address of a later access
 first place (control dependency).  Note that the term "data dependency"
 is sometimes casually used to cover both address and data dependencies.
 
-In lib/prime_numbers.c, the expand_to_next_prime() function invokes
+In lib/math/prime_numbers.c, the expand_to_next_prime() function invokes
 rcu_assign_pointer(), and the next_prime_number() function invokes
 rcu_dereference().  This combination mediates access to a bit vector
 that is expanded as additional primes are needed.
index ecbbaa5..c5fdfd1 100644 (file)
@@ -120,7 +120,7 @@ o   Jade Alglave, Luc Maranget, and Michael Tautschnig. 2014. "Herding
 
 o      Jade Alglave, Patrick Cousot, and Luc Maranget. 2016. "Syntax and
        semantics of the weak consistency model specification language
-       cat". CoRR abs/1608.07531 (2016). http://arxiv.org/abs/1608.07531
+       cat". CoRR abs/1608.07531 (2016). https://arxiv.org/abs/1608.07531
 
 
 Memory-model comparisons
diff --git a/tools/memory-model/Documentation/simple.txt b/tools/memory-model/Documentation/simple.txt
new file mode 100644 (file)
index 0000000..81e1a0e
--- /dev/null
@@ -0,0 +1,271 @@
+This document provides options for those wishing to keep their
+memory-ordering lives simple, as is necessary for those whose domain
+is complex.  After all, there are bugs other than memory-ordering bugs,
+and the time spent gaining memory-ordering knowledge is not available
+for gaining domain knowledge.  Furthermore Linux-kernel memory model
+(LKMM) is quite complex, with subtle differences in code often having
+dramatic effects on correctness.
+
+The options near the beginning of this list are quite simple.  The idea
+is not that kernel hackers don't already know about them, but rather
+that they might need the occasional reminder.
+
+Please note that this is a generic guide, and that specific subsystems
+will often have special requirements or idioms.  For example, developers
+of MMIO-based device drivers will often need to use mb(), rmb(), and
+wmb(), and therefore might find smp_mb(), smp_rmb(), and smp_wmb()
+to be more natural than smp_load_acquire() and smp_store_release().
+On the other hand, those coming in from other environments will likely
+be more familiar with these last two.
+
+
+Single-threaded code
+====================
+
+In single-threaded code, there is no reordering, at least assuming
+that your toolchain and hardware are working correctly.  In addition,
+it is generally a mistake to assume your code will only run in a single
+threaded context as the kernel can enter the same code path on multiple
+CPUs at the same time.  One important exception is a function that makes
+no external data references.
+
+In the general case, you will need to take explicit steps to ensure that
+your code really is executed within a single thread that does not access
+shared variables.  A simple way to achieve this is to define a global lock
+that you acquire at the beginning of your code and release at the end,
+taking care to ensure that all references to your code's shared data are
+also carried out under that same lock.  Because only one thread can hold
+this lock at a given time, your code will be executed single-threaded.
+This approach is called "code locking".
+
+Code locking can severely limit both performance and scalability, so it
+should be used with caution, and only on code paths that execute rarely.
+After all, a huge amount of effort was required to remove the Linux
+kernel's old "Big Kernel Lock", so let's please be very careful about
+adding new "little kernel locks".
+
+One of the advantages of locking is that, in happy contrast with the
+year 1981, almost all kernel developers are very familiar with locking.
+The Linux kernel's lockdep (CONFIG_PROVE_LOCKING=y) is very helpful with
+the formerly feared deadlock scenarios.
+
+Please use the standard locking primitives provided by the kernel rather
+than rolling your own.  For one thing, the standard primitives interact
+properly with lockdep.  For another thing, these primitives have been
+tuned to deal better with high contention.  And for one final thing, it is
+surprisingly hard to correctly code production-quality lock acquisition
+and release functions.  After all, even simple non-production-quality
+locking functions must carefully prevent both the CPU and the compiler
+from moving code in either direction across the locking function.
+
+Despite the scalability limitations of single-threaded code, RCU
+takes this approach for much of its grace-period processing and also
+for early-boot operation.  The reason RCU is able to scale despite
+single-threaded grace-period processing is use of batching, where all
+updates that accumulated during one grace period are handled by the
+next one.  In other words, slowing down grace-period processing makes
+it more efficient.  Nor is RCU unique:  Similar batching optimizations
+are used in many I/O operations.
+
+
+Packaged code
+=============
+
+Even if performance and scalability concerns prevent your code from
+being completely single-threaded, it is often possible to use library
+functions that handle the concurrency nearly or entirely on their own.
+This approach delegates any LKMM worries to the library maintainer.
+
+In the kernel, what is the "library"?  Quite a bit.  It includes the
+contents of the lib/ directory, much of the include/linux/ directory along
+with a lot of other heavily used APIs.  But heavily used examples include
+the list macros (for example, include/linux/{,rcu}list.h), workqueues,
+smp_call_function(), and the various hash tables and search trees.
+
+
+Data locking
+============
+
+With code locking, we use single-threaded code execution to guarantee
+serialized access to the data that the code is accessing.  However,
+we can also achieve this by instead associating the lock with specific
+instances of the data structures.  This creates a "critical section"
+in the code execution that will execute as though it is single threaded.
+By placing all the accesses and modifications to a shared data structure
+inside a critical section, we ensure that the execution context that
+holds the lock has exclusive access to the shared data.
+
+The poster boy for this approach is the hash table, where placing a lock
+in each hash bucket allows operations on different buckets to proceed
+concurrently.  This works because the buckets do not overlap with each
+other, so that an operation on one bucket does not interfere with any
+other bucket.
+
+As the number of buckets increases, data locking scales naturally.
+In particular, if the amount of data increases with the number of CPUs,
+increasing the number of buckets as the number of CPUs increase results
+in a naturally scalable data structure.
+
+
+Per-CPU processing
+==================
+
+Partitioning processing and data over CPUs allows each CPU to take
+a single-threaded approach while providing excellent performance and
+scalability.  Of course, there is no free lunch:  The dark side of this
+excellence is substantially increased memory footprint.
+
+In addition, it is sometimes necessary to occasionally update some global
+view of this processing and data, in which case something like locking
+must be used to protect this global view.  This is the approach taken
+by the percpu_counter infrastructure. In many cases, there are already
+generic/library variants of commonly used per-cpu constructs available.
+Please use them rather than rolling your own.
+
+RCU uses DEFINE_PER_CPU*() declaration to create a number of per-CPU
+data sets.  For example, each CPU does private quiescent-state processing
+within its instance of the per-CPU rcu_data structure, and then uses data
+locking to report quiescent states up the grace-period combining tree.
+
+
+Packaged primitives: Sequence locking
+=====================================
+
+Lockless programming is considered by many to be more difficult than
+lock-based programming, but there are a few lockless design patterns that
+have been built out into an API.  One of these APIs is sequence locking.
+Although this APIs can be used in extremely complex ways, there are simple
+and effective ways of using it that avoid the need to pay attention to
+memory ordering.
+
+The basic keep-things-simple rule for sequence locking is "do not write
+in read-side code".  Yes, you can do writes from within sequence-locking
+readers, but it won't be so simple.  For example, such writes will be
+lockless and should be idempotent.
+
+For more sophisticated use cases, LKMM can guide you, including use
+cases involving combining sequence locking with other synchronization
+primitives.  (LKMM does not yet know about sequence locking, so it is
+currently necessary to open-code it in your litmus tests.)
+
+Additional information may be found in include/linux/seqlock.h.
+
+Packaged primitives: RCU
+========================
+
+Another lockless design pattern that has been baked into an API
+is RCU.  The Linux kernel makes sophisticated use of RCU, but the
+keep-things-simple rules for RCU are "do not write in read-side code"
+and "do not update anything that is visible to and accessed by readers",
+and "protect updates with locking".
+
+These rules are illustrated by the functions foo_update_a() and
+foo_get_a() shown in Documentation/RCU/whatisRCU.rst.  Additional
+RCU usage patterns maybe found in Documentation/RCU and in the
+source code.
+
+
+Packaged primitives: Atomic operations
+======================================
+
+Back in the day, the Linux kernel had three types of atomic operations:
+
+1.     Initialization and read-out, such as atomic_set() and atomic_read().
+
+2.     Operations that did not return a value and provided no ordering,
+       such as atomic_inc() and atomic_dec().
+
+3.     Operations that returned a value and provided full ordering, such as
+       atomic_add_return() and atomic_dec_and_test().  Note that some
+       value-returning operations provide full ordering only conditionally.
+       For example, cmpxchg() provides ordering only upon success.
+
+More recent kernels have operations that return a value but do not
+provide full ordering.  These are flagged with either a _relaxed()
+suffix (providing no ordering), or an _acquire() or _release() suffix
+(providing limited ordering).
+
+Additional information may be found in these files:
+
+Documentation/atomic_t.txt
+Documentation/atomic_bitops.txt
+Documentation/core-api/atomic_ops.rst
+Documentation/core-api/refcount-vs-atomic.rst
+
+Reading code using these primitives is often also quite helpful.
+
+
+Lockless, fully ordered
+=======================
+
+When using locking, there often comes a time when it is necessary
+to access some variable or another without holding the data lock
+that serializes access to that variable.
+
+If you want to keep things simple, use the initialization and read-out
+operations from the previous section only when there are no racing
+accesses.  Otherwise, use only fully ordered operations when accessing
+or modifying the variable.  This approach guarantees that code prior
+to a given access to that variable will be seen by all CPUs has having
+happened before any code following any later access to that same variable.
+
+Please note that per-CPU functions are not atomic operations and
+hence they do not provide any ordering guarantees at all.
+
+If the lockless accesses are frequently executed reads that are used
+only for heuristics, or if they are frequently executed writes that
+are used only for statistics, please see the next section.
+
+
+Lockless statistics and heuristics
+==================================
+
+Unordered primitives such as atomic_read(), atomic_set(), READ_ONCE(), and
+WRITE_ONCE() can safely be used in some cases.  These primitives provide
+no ordering, but they do prevent the compiler from carrying out a number
+of destructive optimizations (for which please see the next section).
+One example use for these primitives is statistics, such as per-CPU
+counters exemplified by the rt_cache_stat structure's routing-cache
+statistics counters.  Another example use case is heuristics, such as
+the jiffies_till_first_fqs and jiffies_till_next_fqs kernel parameters
+controlling how often RCU scans for idle CPUs.
+
+But be careful.  "Unordered" really does mean "unordered".  It is all
+too easy to assume ordering, and this assumption must be avoided when
+using these primitives.
+
+
+Don't let the compiler trip you up
+==================================
+
+It can be quite tempting to use plain C-language accesses for lockless
+loads from and stores to shared variables.  Although this is both
+possible and quite common in the Linux kernel, it does require a
+surprising amount of analysis, care, and knowledge about the compiler.
+Yes, some decades ago it was not unfair to consider a C compiler to be
+an assembler with added syntax and better portability, but the advent of
+sophisticated optimizing compilers mean that those days are long gone.
+Today's optimizing compilers can profoundly rewrite your code during the
+translation process, and have long been ready, willing, and able to do so.
+
+Therefore, if you really need to use C-language assignments instead of
+READ_ONCE(), WRITE_ONCE(), and so on, you will need to have a very good
+understanding of both the C standard and your compiler.  Here are some
+introductory references and some tooling to start you on this noble quest:
+
+Who's afraid of a big bad optimizing compiler?
+       https://lwn.net/Articles/793253/
+Calibrating your fear of big bad optimizing compilers
+       https://lwn.net/Articles/799218/
+Concurrency bugs should fear the big bad data-race detector (part 1)
+       https://lwn.net/Articles/816850/
+Concurrency bugs should fear the big bad data-race detector (part 2)
+       https://lwn.net/Articles/816854/
+
+
+More complex use cases
+======================
+
+If the alternatives above do not do what you need, please look at the
+recipes-pairs.txt file to peel off the next layer of the memory-ordering
+onion.
index ecb7385..c8144d4 100644 (file)
@@ -63,10 +63,32 @@ BASIC USAGE: HERD7
 ==================
 
 The memory model is used, in conjunction with "herd7", to exhaustively
-explore the state space of small litmus tests.
+explore the state space of small litmus tests.  Documentation describing
+the format, features, capabilities and limitations of these litmus
+tests is available in tools/memory-model/Documentation/litmus-tests.txt.
 
-For example, to run SB+fencembonceonces.litmus against the memory model:
+Example litmus tests may be found in the Linux-kernel source tree:
 
+       tools/memory-model/litmus-tests/
+       Documentation/litmus-tests/
+
+Several thousand more example litmus tests are available here:
+
+       https://github.com/paulmckrcu/litmus
+       https://git.kernel.org/pub/scm/linux/kernel/git/paulmck/perfbook.git/tree/CodeSamples/formal/herd
+       https://git.kernel.org/pub/scm/linux/kernel/git/paulmck/perfbook.git/tree/CodeSamples/formal/litmus
+
+Documentation describing litmus tests and now to use them may be found
+here:
+
+       tools/memory-model/Documentation/litmus-tests.txt
+
+The remainder of this section uses the SB+fencembonceonces.litmus test
+located in the tools/memory-model directory.
+
+To run SB+fencembonceonces.litmus against the memory model:
+
+  $ cd $LINUX_SOURCE_TREE/tools/memory-model
   $ herd7 -conf linux-kernel.cfg litmus-tests/SB+fencembonceonces.litmus
 
 Here is the corresponding output:
@@ -87,7 +109,11 @@ Here is the corresponding output:
 The "Positive: 0 Negative: 3" and the "Never 0 3" each indicate that
 this litmus test's "exists" clause can not be satisfied.
 
-See "herd7 -help" or "herdtools7/doc/" for more information.
+See "herd7 -help" or "herdtools7/doc/" for more information on running the
+tool itself, but please be aware that this documentation is intended for
+people who work on the memory model itself, that is, people making changes
+to the tools/memory-model/linux-kernel.* files.  It is not intended for
+people focusing on writing, understanding, and running LKMM litmus tests.
 
 
 =====================
@@ -124,7 +150,11 @@ that during two million trials, the state specified in this litmus
 test's "exists" clause was not reached.
 
 And, as with "herd7", please see "klitmus7 -help" or "herdtools7/doc/"
-for more information.
+for more information.  And again, please be aware that this documentation
+is intended for people who work on the memory model itself, that is,
+people making changes to the tools/memory-model/linux-kernel.* files.
+It is not intended for people focusing on writing, understanding, and
+running LKMM litmus tests.
 
 
 ====================
@@ -137,12 +167,21 @@ Documentation/cheatsheet.txt
 Documentation/explanation.txt
        Describes the memory model in detail.
 
+Documentation/litmus-tests.txt
+       Describes the format, features, capabilities, and limitations
+       of the litmus tests that LKMM can evaluate.
+
 Documentation/recipes.txt
        Lists common memory-ordering patterns.
 
 Documentation/references.txt
        Provides background reading.
 
+Documentation/simple.txt
+       Starting point for someone new to Linux-kernel concurrency.
+       And also for those needing a reminder of the simpler approaches
+       to concurrency!
+
 linux-kernel.bell
        Categorizes the relevant instructions, including memory
        references, memory barriers, atomic read-modify-write operations,
@@ -187,116 +226,3 @@ README
        This file.
 
 scripts        Various scripts, see scripts/README.
-
-
-===========
-LIMITATIONS
-===========
-
-The Linux-kernel memory model (LKMM) has the following limitations:
-
-1.     Compiler optimizations are not accurately modeled.  Of course,
-       the use of READ_ONCE() and WRITE_ONCE() limits the compiler's
-       ability to optimize, but under some circumstances it is possible
-       for the compiler to undermine the memory model.  For more
-       information, see Documentation/explanation.txt (in particular,
-       the "THE PROGRAM ORDER RELATION: po AND po-loc" and "A WARNING"
-       sections).
-
-       Note that this limitation in turn limits LKMM's ability to
-       accurately model address, control, and data dependencies.
-       For example, if the compiler can deduce the value of some variable
-       carrying a dependency, then the compiler can break that dependency
-       by substituting a constant of that value.
-
-2.     Multiple access sizes for a single variable are not supported,
-       and neither are misaligned or partially overlapping accesses.
-
-3.     Exceptions and interrupts are not modeled.  In some cases,
-       this limitation can be overcome by modeling the interrupt or
-       exception with an additional process.
-
-4.     I/O such as MMIO or DMA is not supported.
-
-5.     Self-modifying code (such as that found in the kernel's
-       alternatives mechanism, function tracer, Berkeley Packet Filter
-       JIT compiler, and module loader) is not supported.
-
-6.     Complete modeling of all variants of atomic read-modify-write
-       operations, locking primitives, and RCU is not provided.
-       For example, call_rcu() and rcu_barrier() are not supported.
-       However, a substantial amount of support is provided for these
-       operations, as shown in the linux-kernel.def file.
-
-       a.      When rcu_assign_pointer() is passed NULL, the Linux
-               kernel provides no ordering, but LKMM models this
-               case as a store release.
-
-       b.      The "unless" RMW operations are not currently modeled:
-               atomic_long_add_unless(), atomic_inc_unless_negative(),
-               and atomic_dec_unless_positive().  These can be emulated
-               in litmus tests, for example, by using atomic_cmpxchg().
-
-               One exception of this limitation is atomic_add_unless(),
-               which is provided directly by herd7 (so no corresponding
-               definition in linux-kernel.def).  atomic_add_unless() is
-               modeled by herd7 therefore it can be used in litmus tests.
-
-       c.      The call_rcu() function is not modeled.  It can be
-               emulated in litmus tests by adding another process that
-               invokes synchronize_rcu() and the body of the callback
-               function, with (for example) a release-acquire from
-               the site of the emulated call_rcu() to the beginning
-               of the additional process.
-
-       d.      The rcu_barrier() function is not modeled.  It can be
-               emulated in litmus tests emulating call_rcu() via
-               (for example) a release-acquire from the end of each
-               additional call_rcu() process to the site of the
-               emulated rcu-barrier().
-
-       e.      Although sleepable RCU (SRCU) is now modeled, there
-               are some subtle differences between its semantics and
-               those in the Linux kernel.  For example, the kernel
-               might interpret the following sequence as two partially
-               overlapping SRCU read-side critical sections:
-
-                        1  r1 = srcu_read_lock(&my_srcu);
-                        2  do_something_1();
-                        3  r2 = srcu_read_lock(&my_srcu);
-                        4  do_something_2();
-                        5  srcu_read_unlock(&my_srcu, r1);
-                        6  do_something_3();
-                        7  srcu_read_unlock(&my_srcu, r2);
-
-               In contrast, LKMM will interpret this as a nested pair of
-               SRCU read-side critical sections, with the outer critical
-               section spanning lines 1-7 and the inner critical section
-               spanning lines 3-5.
-
-               This difference would be more of a concern had anyone
-               identified a reasonable use case for partially overlapping
-               SRCU read-side critical sections.  For more information,
-               please see: https://paulmck.livejournal.com/40593.html
-
-       f.      Reader-writer locking is not modeled.  It can be
-               emulated in litmus tests using atomic read-modify-write
-               operations.
-
-The "herd7" tool has some additional limitations of its own, apart from
-the memory model:
-
-1.     Non-trivial data structures such as arrays or structures are
-       not supported.  However, pointers are supported, allowing trivial
-       linked lists to be constructed.
-
-2.     Dynamic memory allocation is not supported, although this can
-       be worked around in some cases by supplying multiple statically
-       allocated variables.
-
-Some of these limitations may be overcome in the future, but others are
-more likely to be addressed by incorporating the Linux-kernel memory model
-into other tools.
-
-Finally, please note that LKMM is subject to change as hardware, use cases,
-and compilers evolve.
index 90a6689..326ac39 100644 (file)
@@ -16,6 +16,7 @@
 
 #include <linux/hashtable.h>
 #include <linux/kernel.h>
+#include <linux/static_call_types.h>
 
 #define FAKE_JUMP_OFFSET -1
 
@@ -433,6 +434,103 @@ reachable:
        return 0;
 }
 
+static int create_static_call_sections(struct objtool_file *file)
+{
+       struct section *sec, *reloc_sec;
+       struct reloc *reloc;
+       struct static_call_site *site;
+       struct instruction *insn;
+       struct symbol *key_sym;
+       char *key_name, *tmp;
+       int idx;
+
+       sec = find_section_by_name(file->elf, ".static_call_sites");
+       if (sec) {
+               INIT_LIST_HEAD(&file->static_call_list);
+               WARN("file already has .static_call_sites section, skipping");
+               return 0;
+       }
+
+       if (list_empty(&file->static_call_list))
+               return 0;
+
+       idx = 0;
+       list_for_each_entry(insn, &file->static_call_list, static_call_node)
+               idx++;
+
+       sec = elf_create_section(file->elf, ".static_call_sites", SHF_WRITE,
+                                sizeof(struct static_call_site), idx);
+       if (!sec)
+               return -1;
+
+       reloc_sec = elf_create_reloc_section(file->elf, sec, SHT_RELA);
+       if (!reloc_sec)
+               return -1;
+
+       idx = 0;
+       list_for_each_entry(insn, &file->static_call_list, static_call_node) {
+
+               site = (struct static_call_site *)sec->data->d_buf + idx;
+               memset(site, 0, sizeof(struct static_call_site));
+
+               /* populate reloc for 'addr' */
+               reloc = malloc(sizeof(*reloc));
+               if (!reloc) {
+                       perror("malloc");
+                       return -1;
+               }
+               memset(reloc, 0, sizeof(*reloc));
+               reloc->sym = insn->sec->sym;
+               reloc->addend = insn->offset;
+               reloc->type = R_X86_64_PC32;
+               reloc->offset = idx * sizeof(struct static_call_site);
+               reloc->sec = reloc_sec;
+               elf_add_reloc(file->elf, reloc);
+
+               /* find key symbol */
+               key_name = strdup(insn->call_dest->name);
+               if (!key_name) {
+                       perror("strdup");
+                       return -1;
+               }
+               if (strncmp(key_name, STATIC_CALL_TRAMP_PREFIX_STR,
+                           STATIC_CALL_TRAMP_PREFIX_LEN)) {
+                       WARN("static_call: trampoline name malformed: %s", key_name);
+                       return -1;
+               }
+               tmp = key_name + STATIC_CALL_TRAMP_PREFIX_LEN - STATIC_CALL_KEY_PREFIX_LEN;
+               memcpy(tmp, STATIC_CALL_KEY_PREFIX_STR, STATIC_CALL_KEY_PREFIX_LEN);
+
+               key_sym = find_symbol_by_name(file->elf, tmp);
+               if (!key_sym) {
+                       WARN("static_call: can't find static_call_key symbol: %s", tmp);
+                       return -1;
+               }
+               free(key_name);
+
+               /* populate reloc for 'key' */
+               reloc = malloc(sizeof(*reloc));
+               if (!reloc) {
+                       perror("malloc");
+                       return -1;
+               }
+               memset(reloc, 0, sizeof(*reloc));
+               reloc->sym = key_sym;
+               reloc->addend = is_sibling_call(insn) ? STATIC_CALL_SITE_TAIL : 0;
+               reloc->type = R_X86_64_PC32;
+               reloc->offset = idx * sizeof(struct static_call_site) + 4;
+               reloc->sec = reloc_sec;
+               elf_add_reloc(file->elf, reloc);
+
+               idx++;
+       }
+
+       if (elf_rebuild_reloc_section(file->elf, reloc_sec))
+               return -1;
+
+       return 0;
+}
+
 /*
  * Warnings shouldn't be reported for ignored functions.
  */
@@ -528,6 +626,61 @@ static const char *uaccess_safe_builtin[] = {
        "__tsan_write4",
        "__tsan_write8",
        "__tsan_write16",
+       "__tsan_read_write1",
+       "__tsan_read_write2",
+       "__tsan_read_write4",
+       "__tsan_read_write8",
+       "__tsan_read_write16",
+       "__tsan_atomic8_load",
+       "__tsan_atomic16_load",
+       "__tsan_atomic32_load",
+       "__tsan_atomic64_load",
+       "__tsan_atomic8_store",
+       "__tsan_atomic16_store",
+       "__tsan_atomic32_store",
+       "__tsan_atomic64_store",
+       "__tsan_atomic8_exchange",
+       "__tsan_atomic16_exchange",
+       "__tsan_atomic32_exchange",
+       "__tsan_atomic64_exchange",
+       "__tsan_atomic8_fetch_add",
+       "__tsan_atomic16_fetch_add",
+       "__tsan_atomic32_fetch_add",
+       "__tsan_atomic64_fetch_add",
+       "__tsan_atomic8_fetch_sub",
+       "__tsan_atomic16_fetch_sub",
+       "__tsan_atomic32_fetch_sub",
+       "__tsan_atomic64_fetch_sub",
+       "__tsan_atomic8_fetch_and",
+       "__tsan_atomic16_fetch_and",
+       "__tsan_atomic32_fetch_and",
+       "__tsan_atomic64_fetch_and",
+       "__tsan_atomic8_fetch_or",
+       "__tsan_atomic16_fetch_or",
+       "__tsan_atomic32_fetch_or",
+       "__tsan_atomic64_fetch_or",
+       "__tsan_atomic8_fetch_xor",
+       "__tsan_atomic16_fetch_xor",
+       "__tsan_atomic32_fetch_xor",
+       "__tsan_atomic64_fetch_xor",
+       "__tsan_atomic8_fetch_nand",
+       "__tsan_atomic16_fetch_nand",
+       "__tsan_atomic32_fetch_nand",
+       "__tsan_atomic64_fetch_nand",
+       "__tsan_atomic8_compare_exchange_strong",
+       "__tsan_atomic16_compare_exchange_strong",
+       "__tsan_atomic32_compare_exchange_strong",
+       "__tsan_atomic64_compare_exchange_strong",
+       "__tsan_atomic8_compare_exchange_weak",
+       "__tsan_atomic16_compare_exchange_weak",
+       "__tsan_atomic32_compare_exchange_weak",
+       "__tsan_atomic64_compare_exchange_weak",
+       "__tsan_atomic8_compare_exchange_val",
+       "__tsan_atomic16_compare_exchange_val",
+       "__tsan_atomic32_compare_exchange_val",
+       "__tsan_atomic64_compare_exchange_val",
+       "__tsan_atomic_thread_fence",
+       "__tsan_atomic_signal_fence",
        /* KCOV */
        "write_comp_data",
        "check_kcov_mode",
@@ -548,8 +701,9 @@ static const char *uaccess_safe_builtin[] = {
        "__ubsan_handle_shift_out_of_bounds",
        /* misc */
        "csum_partial_copy_generic",
-       "__memcpy_mcsafe",
-       "mcsafe_handle_tail",
+       "copy_mc_fragile",
+       "copy_mc_fragile_handle_tail",
+       "copy_mc_enhanced_fast_string",
        "ftrace_likely_update", /* CONFIG_TRACE_BRANCH_PROFILING */
        NULL
 };
@@ -649,6 +803,10 @@ static int add_jump_destinations(struct objtool_file *file)
                } else {
                        /* external sibling call */
                        insn->call_dest = reloc->sym;
+                       if (insn->call_dest->static_call_tramp) {
+                               list_add_tail(&insn->static_call_node,
+                                             &file->static_call_list);
+                       }
                        continue;
                }
 
@@ -700,6 +858,10 @@ static int add_jump_destinations(struct objtool_file *file)
 
                                /* internal sibling call */
                                insn->call_dest = insn->jump_dest->func;
+                               if (insn->call_dest->static_call_tramp) {
+                                       list_add_tail(&insn->static_call_node,
+                                                     &file->static_call_list);
+                               }
                        }
                }
        }
@@ -1522,6 +1684,23 @@ static int read_intra_function_calls(struct objtool_file *file)
        return 0;
 }
 
+static int read_static_call_tramps(struct objtool_file *file)
+{
+       struct section *sec;
+       struct symbol *func;
+
+       for_each_sec(file, sec) {
+               list_for_each_entry(func, &sec->symbol_list, list) {
+                       if (func->bind == STB_GLOBAL &&
+                           !strncmp(func->name, STATIC_CALL_TRAMP_PREFIX_STR,
+                                    strlen(STATIC_CALL_TRAMP_PREFIX_STR)))
+                               func->static_call_tramp = true;
+               }
+       }
+
+       return 0;
+}
+
 static void mark_rodata(struct objtool_file *file)
 {
        struct section *sec;
@@ -1569,6 +1748,10 @@ static int decode_sections(struct objtool_file *file)
        if (ret)
                return ret;
 
+       ret = read_static_call_tramps(file);
+       if (ret)
+               return ret;
+
        ret = add_jump_destinations(file);
        if (ret)
                return ret;
@@ -2432,6 +2615,11 @@ static int validate_branch(struct objtool_file *file, struct symbol *func,
                        if (dead_end_function(file, insn->call_dest))
                                return 0;
 
+                       if (insn->type == INSN_CALL && insn->call_dest->static_call_tramp) {
+                               list_add_tail(&insn->static_call_node,
+                                             &file->static_call_list);
+                       }
+
                        break;
 
                case INSN_JUMP_CONDITIONAL:
@@ -2791,6 +2979,7 @@ int check(const char *_objname, bool orc)
 
        INIT_LIST_HEAD(&file.insn_list);
        hash_init(file.insn_hash);
+       INIT_LIST_HEAD(&file.static_call_list);
        file.c_file = !vmlinux && find_section_by_name(file.elf, ".comment");
        file.ignore_unreachables = no_unreachable;
        file.hints = false;
@@ -2838,6 +3027,11 @@ int check(const char *_objname, bool orc)
                warnings += ret;
        }
 
+       ret = create_static_call_sections(&file);
+       if (ret < 0)
+               goto out;
+       warnings += ret;
+
        if (orc) {
                ret = create_orc(&file);
                if (ret < 0)
index 061aa96..36d38b9 100644 (file)
@@ -22,6 +22,7 @@ struct insn_state {
 struct instruction {
        struct list_head list;
        struct hlist_node hash;
+       struct list_head static_call_node;
        struct section *sec;
        unsigned long offset;
        unsigned int len;
index 3ddbd66..4e1d746 100644 (file)
@@ -652,7 +652,7 @@ err:
 }
 
 struct section *elf_create_section(struct elf *elf, const char *name,
-                                  size_t entsize, int nr)
+                                  unsigned int sh_flags, size_t entsize, int nr)
 {
        struct section *sec, *shstrtab;
        size_t size = entsize * nr;
@@ -712,7 +712,7 @@ struct section *elf_create_section(struct elf *elf, const char *name,
        sec->sh.sh_entsize = entsize;
        sec->sh.sh_type = SHT_PROGBITS;
        sec->sh.sh_addralign = 1;
-       sec->sh.sh_flags = SHF_ALLOC;
+       sec->sh.sh_flags = SHF_ALLOC | sh_flags;
 
 
        /* Add section name to .shstrtab (or .strtab for Clang) */
@@ -767,7 +767,7 @@ static struct section *elf_create_rel_reloc_section(struct elf *elf, struct sect
        strcpy(relocname, ".rel");
        strcat(relocname, base->name);
 
-       sec = elf_create_section(elf, relocname, sizeof(GElf_Rel), 0);
+       sec = elf_create_section(elf, relocname, 0, sizeof(GElf_Rel), 0);
        free(relocname);
        if (!sec)
                return NULL;
@@ -797,7 +797,7 @@ static struct section *elf_create_rela_reloc_section(struct elf *elf, struct sec
        strcpy(relocname, ".rela");
        strcat(relocname, base->name);
 
-       sec = elf_create_section(elf, relocname, sizeof(GElf_Rela), 0);
+       sec = elf_create_section(elf, relocname, 0, sizeof(GElf_Rela), 0);
        free(relocname);
        if (!sec)
                return NULL;
index 6cc80a0..807f8c6 100644 (file)
@@ -56,6 +56,7 @@ struct symbol {
        unsigned int len;
        struct symbol *pfunc, *cfunc, *alias;
        bool uaccess_safe;
+       bool static_call_tramp;
 };
 
 struct reloc {
@@ -120,7 +121,7 @@ static inline u32 reloc_hash(struct reloc *reloc)
 }
 
 struct elf *elf_open_read(const char *name, int flags);
-struct section *elf_create_section(struct elf *elf, const char *name, size_t entsize, int nr);
+struct section *elf_create_section(struct elf *elf, const char *name, unsigned int sh_flags, size_t entsize, int nr);
 struct section *elf_create_reloc_section(struct elf *elf, struct section *base, int reltype);
 void elf_add_reloc(struct elf *elf, struct reloc *reloc);
 int elf_write_insn(struct elf *elf, struct section *sec,
index 528028a..9a7cd0b 100644 (file)
@@ -16,6 +16,7 @@ struct objtool_file {
        struct elf *elf;
        struct list_head insn_list;
        DECLARE_HASHTABLE(insn_hash, 20);
+       struct list_head static_call_list;
        bool ignore_unreachables, c_file, hints, rodata;
 };
 
index 968f55e..e6b2363 100644 (file)
@@ -177,7 +177,7 @@ int create_orc_sections(struct objtool_file *file)
 
 
        /* create .orc_unwind_ip and .rela.orc_unwind_ip sections */
-       sec = elf_create_section(file->elf, ".orc_unwind_ip", sizeof(int), idx);
+       sec = elf_create_section(file->elf, ".orc_unwind_ip", 0, sizeof(int), idx);
        if (!sec)
                return -1;
 
@@ -186,7 +186,7 @@ int create_orc_sections(struct objtool_file *file)
                return -1;
 
        /* create .orc_unwind section */
-       u_sec = elf_create_section(file->elf, ".orc_unwind",
+       u_sec = elf_create_section(file->elf, ".orc_unwind", 0,
                                   sizeof(struct orc_entry), idx);
 
        /* populate sections */
index 2a1261b..aa099b2 100755 (executable)
@@ -7,6 +7,7 @@ arch/x86/include/asm/orc_types.h
 arch/x86/include/asm/emulate_prefix.h
 arch/x86/lib/x86-opcode-map.txt
 arch/x86/tools/gen-insn-attr-x86.awk
+include/linux/static_call_types.h
 '
 
 check_2 () {
index 3ca6fe0..b168364 100644 (file)
@@ -32,7 +32,7 @@
 18     spu     oldstat                         sys_ni_syscall
 19     common  lseek                           sys_lseek                       compat_sys_lseek
 20     common  getpid                          sys_getpid
-21     nospu   mount                           sys_mount                       compat_sys_mount
+21     nospu   mount                           sys_mount
 22     32      umount                          sys_oldumount
 22     64      umount                          sys_ni_syscall
 22     spu     umount                          sys_ni_syscall
 142    common  _newselect                      sys_select                      compat_sys_select
 143    common  flock                           sys_flock
 144    common  msync                           sys_msync
-145    common  readv                           sys_readv                       compat_sys_readv
-146    common  writev                          sys_writev                      compat_sys_writev
+145    common  readv                           sys_readv
+146    common  writev                          sys_writev
 147    common  getsid                          sys_getsid
 148    common  fdatasync                       sys_fdatasync
 149    nospu   _sysctl                         sys_ni_syscall
 282    common  unshare                         sys_unshare
 283    common  splice                          sys_splice
 284    common  tee                             sys_tee
-285    common  vmsplice                        sys_vmsplice                    compat_sys_vmsplice
+285    common  vmsplice                        sys_vmsplice
 286    common  openat                          sys_openat                      compat_sys_openat
 287    common  mkdirat                         sys_mkdirat
 288    common  mknodat                         sys_mknodat
 348    common  syncfs                          sys_syncfs
 349    common  sendmmsg                        sys_sendmmsg                    compat_sys_sendmmsg
 350    common  setns                           sys_setns
-351    nospu   process_vm_readv                sys_process_vm_readv            compat_sys_process_vm_readv
-352    nospu   process_vm_writev               sys_process_vm_writev           compat_sys_process_vm_writev
+351    nospu   process_vm_readv                sys_process_vm_readv
+352    nospu   process_vm_writev               sys_process_vm_writev
 353    nospu   finit_module                    sys_finit_module
 354    nospu   kcmp                            sys_kcmp
 355    common  sched_setattr                   sys_sched_setattr
index 6a0bbea..d2fa964 100644 (file)
@@ -26,7 +26,7 @@
 16   32                lchown                  -                               compat_sys_s390_lchown16
 19   common    lseek                   sys_lseek                       compat_sys_lseek
 20   common    getpid                  sys_getpid                      sys_getpid
-21   common    mount                   sys_mount                       compat_sys_mount
+21   common    mount                   sys_mount
 22   common    umount                  sys_oldumount                   compat_sys_oldumount
 23   32                setuid                  -                               compat_sys_s390_setuid16
 24   32                getuid                  -                               compat_sys_s390_getuid16
 142  64                select                  sys_select                      -
 143  common    flock                   sys_flock                       sys_flock
 144  common    msync                   sys_msync                       compat_sys_msync
-145  common    readv                   sys_readv                       compat_sys_readv
-146  common    writev                  sys_writev                      compat_sys_writev
+145  common    readv                   sys_readv
+146  common    writev                  sys_writev
 147  common    getsid                  sys_getsid                      sys_getsid
 148  common    fdatasync               sys_fdatasync                   sys_fdatasync
 149  common    _sysctl                 -                               -
 306  common    splice                  sys_splice                      compat_sys_splice
 307  common    sync_file_range         sys_sync_file_range             compat_sys_s390_sync_file_range
 308  common    tee                     sys_tee                         compat_sys_tee
-309  common    vmsplice                sys_vmsplice                    compat_sys_vmsplice
+309  common    vmsplice                sys_vmsplice                    sys_vmsplice
 310  common    move_pages              sys_move_pages                  compat_sys_move_pages
 311  common    getcpu                  sys_getcpu                      compat_sys_getcpu
 312  common    epoll_pwait             sys_epoll_pwait                 compat_sys_epoll_pwait
 337  common    clock_adjtime           sys_clock_adjtime               compat_sys_clock_adjtime
 338  common    syncfs                  sys_syncfs                      sys_syncfs
 339  common    setns                   sys_setns                       sys_setns
-340  common    process_vm_readv        sys_process_vm_readv            compat_sys_process_vm_readv
-341  common    process_vm_writev       sys_process_vm_writev           compat_sys_process_vm_writev
+340  common    process_vm_readv        sys_process_vm_readv            sys_process_vm_readv
+341  common    process_vm_writev       sys_process_vm_writev           sys_process_vm_writev
 342  common    s390_runtime_instr      sys_s390_runtime_instr          sys_s390_runtime_instr
 343  common    kcmp                    sys_kcmp                        compat_sys_kcmp
 344  common    finit_module            sys_finit_module                compat_sys_finit_module
index f30d6ae..3478096 100644 (file)
 512    x32     rt_sigaction            compat_sys_rt_sigaction
 513    x32     rt_sigreturn            compat_sys_x32_rt_sigreturn
 514    x32     ioctl                   compat_sys_ioctl
-515    x32     readv                   compat_sys_readv
-516    x32     writev                  compat_sys_writev
+515    x32     readv                   sys_readv
+516    x32     writev                  sys_writev
 517    x32     recvfrom                compat_sys_recvfrom
 518    x32     sendmsg                 compat_sys_sendmsg
 519    x32     recvmsg                 compat_sys_recvmsg
 529    x32     waitid                  compat_sys_waitid
 530    x32     set_robust_list         compat_sys_set_robust_list
 531    x32     get_robust_list         compat_sys_get_robust_list
-532    x32     vmsplice                compat_sys_vmsplice
+532    x32     vmsplice                sys_vmsplice
 533    x32     move_pages              compat_sys_move_pages
 534    x32     preadv                  compat_sys_preadv64
 535    x32     pwritev                 compat_sys_pwritev64
 536    x32     rt_tgsigqueueinfo       compat_sys_rt_tgsigqueueinfo
 537    x32     recvmmsg                compat_sys_recvmmsg_time64
 538    x32     sendmmsg                compat_sys_sendmmsg
-539    x32     process_vm_readv        compat_sys_process_vm_readv
-540    x32     process_vm_writev       compat_sys_process_vm_writev
+539    x32     process_vm_readv        sys_process_vm_readv
+540    x32     process_vm_writev       sys_process_vm_writev
 541    x32     setsockopt              sys_setsockopt
 542    x32     getsockopt              sys_getsockopt
 543    x32     io_setup                compat_sys_io_setup
index dd68a40..878db6a 100644 (file)
@@ -13,7 +13,6 @@ perf-y += synthesize.o
 perf-y += kallsyms-parse.o
 perf-y += find-bit-bench.o
 
-perf-$(CONFIG_X86_64) += mem-memcpy-x86-64-lib.o
 perf-$(CONFIG_X86_64) += mem-memcpy-x86-64-asm.o
 perf-$(CONFIG_X86_64) += mem-memset-x86-64-asm.o
 
diff --git a/tools/perf/bench/mem-memcpy-x86-64-lib.c b/tools/perf/bench/mem-memcpy-x86-64-lib.c
deleted file mode 100644 (file)
index 4130734..0000000
+++ /dev/null
@@ -1,24 +0,0 @@
-/*
- * From code in arch/x86/lib/usercopy_64.c, copied to keep tools/ copy
- * of the kernel's arch/x86/lib/memcpy_64.s used in 'perf bench mem memcpy'
- * happy.
- */
-#include <linux/types.h>
-
-unsigned long __memcpy_mcsafe(void *dst, const void *src, size_t cnt);
-unsigned long mcsafe_handle_tail(char *to, char *from, unsigned len);
-
-unsigned long mcsafe_handle_tail(char *to, char *from, unsigned len)
-{
-       for (; len; --len, to++, from++) {
-               /*
-                * Call the assembly routine back directly since
-                * memcpy_mcsafe() may silently fallback to memcpy.
-                */
-               unsigned long rem = __memcpy_mcsafe(to, from, 1);
-
-               if (rem)
-                       break;
-       }
-       return len;
-}
index 46ff97e..1bc36a1 100755 (executable)
@@ -171,7 +171,7 @@ class SystemValues:
        tracefuncs = {
                'sys_sync': {},
                'ksys_sync': {},
-               '__pm_notifier_call_chain': {},
+               'pm_notifier_call_chain_robust': {},
                'pm_prepare_console': {},
                'pm_notifier_call_chain': {},
                'freeze_processes': {},
index a1a5dc6..2ac0fff 100644 (file)
@@ -23,7 +23,8 @@
 #include "nfit_test.h"
 #include "../watermark.h"
 
-#include <asm/mcsafe_test.h>
+#include <asm/copy_mc_test.h>
+#include <asm/mce.h>
 
 /*
  * Generate an NFIT table to describe the following topology:
@@ -3283,7 +3284,7 @@ static struct platform_driver nfit_test_driver = {
        .id_table = nfit_test_id,
 };
 
-static char mcsafe_buf[PAGE_SIZE] __attribute__((__aligned__(PAGE_SIZE)));
+static char copy_mc_buf[PAGE_SIZE] __attribute__((__aligned__(PAGE_SIZE)));
 
 enum INJECT {
        INJECT_NONE,
@@ -3291,7 +3292,7 @@ enum INJECT {
        INJECT_DST,
 };
 
-static void mcsafe_test_init(char *dst, char *src, size_t size)
+static void copy_mc_test_init(char *dst, char *src, size_t size)
 {
        size_t i;
 
@@ -3300,7 +3301,7 @@ static void mcsafe_test_init(char *dst, char *src, size_t size)
                src[i] = (char) i;
 }
 
-static bool mcsafe_test_validate(unsigned char *dst, unsigned char *src,
+static bool copy_mc_test_validate(unsigned char *dst, unsigned char *src,
                size_t size, unsigned long rem)
 {
        size_t i;
@@ -3321,12 +3322,12 @@ static bool mcsafe_test_validate(unsigned char *dst, unsigned char *src,
        return true;
 }
 
-void mcsafe_test(void)
+void copy_mc_test(void)
 {
        char *inject_desc[] = { "none", "source", "destination" };
        enum INJECT inj;
 
-       if (IS_ENABLED(CONFIG_MCSAFE_TEST)) {
+       if (IS_ENABLED(CONFIG_COPY_MC_TEST)) {
                pr_info("%s: run...\n", __func__);
        } else {
                pr_info("%s: disabled, skip.\n", __func__);
@@ -3344,31 +3345,31 @@ void mcsafe_test(void)
 
                        switch (inj) {
                        case INJECT_NONE:
-                               mcsafe_inject_src(NULL);
-                               mcsafe_inject_dst(NULL);
-                               dst = &mcsafe_buf[2048];
-                               src = &mcsafe_buf[1024 - i];
+                               copy_mc_inject_src(NULL);
+                               copy_mc_inject_dst(NULL);
+                               dst = &copy_mc_buf[2048];
+                               src = &copy_mc_buf[1024 - i];
                                expect = 0;
                                break;
                        case INJECT_SRC:
-                               mcsafe_inject_src(&mcsafe_buf[1024]);
-                               mcsafe_inject_dst(NULL);
-                               dst = &mcsafe_buf[2048];
-                               src = &mcsafe_buf[1024 - i];
+                               copy_mc_inject_src(&copy_mc_buf[1024]);
+                               copy_mc_inject_dst(NULL);
+                               dst = &copy_mc_buf[2048];
+                               src = &copy_mc_buf[1024 - i];
                                expect = 512 - i;
                                break;
                        case INJECT_DST:
-                               mcsafe_inject_src(NULL);
-                               mcsafe_inject_dst(&mcsafe_buf[2048]);
-                               dst = &mcsafe_buf[2048 - i];
-                               src = &mcsafe_buf[1024];
+                               copy_mc_inject_src(NULL);
+                               copy_mc_inject_dst(&copy_mc_buf[2048]);
+                               dst = &copy_mc_buf[2048 - i];
+                               src = &copy_mc_buf[1024];
                                expect = 512 - i;
                                break;
                        }
 
-                       mcsafe_test_init(dst, src, 512);
-                       rem = __memcpy_mcsafe(dst, src, 512);
-                       valid = mcsafe_test_validate(dst, src, 512, expect);
+                       copy_mc_test_init(dst, src, 512);
+                       rem = copy_mc_fragile(dst, src, 512);
+                       valid = copy_mc_test_validate(dst, src, 512, expect);
                        if (rem == expect && valid)
                                continue;
                        pr_info("%s: copy(%#lx, %#lx, %d) off: %d rem: %ld %s expect: %ld\n",
@@ -3380,8 +3381,8 @@ void mcsafe_test(void)
                }
        }
 
-       mcsafe_inject_src(NULL);
-       mcsafe_inject_dst(NULL);
+       copy_mc_inject_src(NULL);
+       copy_mc_inject_dst(NULL);
 }
 
 static __init int nfit_test_init(void)
@@ -3392,7 +3393,7 @@ static __init int nfit_test_init(void)
        libnvdimm_test();
        acpi_nfit_test();
        device_dax_test();
-       mcsafe_test();
+       copy_mc_test();
        dax_pmem_test();
        dax_pmem_core_test();
 #ifdef CONFIG_DEV_DAX_PMEM_COMPAT
index 93b567d..2c9d012 100644 (file)
@@ -4,7 +4,7 @@
 ARCH ?= $(shell uname -m 2>/dev/null || echo not)
 
 ifneq (,$(filter $(ARCH),aarch64 arm64))
-ARM64_SUBTARGETS ?= tags signal
+ARM64_SUBTARGETS ?= tags signal pauth fp mte
 else
 ARM64_SUBTARGETS :=
 endif
diff --git a/tools/testing/selftests/arm64/fp/.gitignore b/tools/testing/selftests/arm64/fp/.gitignore
new file mode 100644 (file)
index 0000000..d66f76d
--- /dev/null
@@ -0,0 +1,5 @@
+fpsimd-test
+sve-probe-vls
+sve-ptrace
+sve-test
+vlset
diff --git a/tools/testing/selftests/arm64/fp/Makefile b/tools/testing/selftests/arm64/fp/Makefile
new file mode 100644 (file)
index 0000000..a57009d
--- /dev/null
@@ -0,0 +1,17 @@
+# SPDX-License-Identifier: GPL-2.0
+
+CFLAGS += -I../../../../../usr/include/
+TEST_GEN_PROGS := sve-ptrace sve-probe-vls
+TEST_PROGS_EXTENDED := fpsimd-test fpsimd-stress sve-test sve-stress vlset
+
+all: $(TEST_GEN_PROGS) $(TEST_PROGS_EXTENDED)
+
+fpsimd-test: fpsimd-test.o
+       $(CC) -nostdlib $^ -o $@
+sve-ptrace: sve-ptrace.o sve-ptrace-asm.o
+sve-probe-vls: sve-probe-vls.o
+sve-test: sve-test.o
+       $(CC) -nostdlib $^ -o $@
+vlset: vlset.o
+
+include ../../lib.mk
diff --git a/tools/testing/selftests/arm64/fp/README b/tools/testing/selftests/arm64/fp/README
new file mode 100644 (file)
index 0000000..03e3dad
--- /dev/null
@@ -0,0 +1,100 @@
+This directory contains a mix of tests integrated with kselftest and
+standalone stress tests.
+
+kselftest tests
+===============
+
+sve-probe-vls - Checks the SVE vector length enumeration interface
+sve-ptrace - Checks the SVE ptrace interface
+
+Running the non-kselftest tests
+===============================
+
+sve-stress performs an SVE context switch stress test, as described
+below.
+
+(The fpsimd-stress test works the same way; just substitute "fpsimd" for
+"sve" in the following commands.)
+
+
+The test runs until killed by the user.
+
+If no context switch error was detected, you will see output such as
+the following:
+
+$ ./sve-stress
+(wait for some time)
+^C
+Vector length:        512 bits
+PID:    1573
+Terminated by signal 15, no error, iterations=9467, signals=1014
+Vector length:  512 bits
+PID:    1575
+Terminated by signal 15, no error, iterations=9448, signals=1028
+Vector length:  512 bits
+PID:    1577
+Terminated by signal 15, no error, iterations=9436, signals=1039
+Vector length:  512 bits
+PID:    1579
+Terminated by signal 15, no error, iterations=9421, signals=1039
+Vector length:  512 bits
+PID:    1581
+Terminated by signal 15, no error, iterations=9403, signals=1039
+Vector length:  512 bits
+PID:    1583
+Terminated by signal 15, no error, iterations=9385, signals=1036
+Vector length:  512 bits
+PID:    1585
+Terminated by signal 15, no error, iterations=9376, signals=1039
+Vector length:  512 bits
+PID:    1587
+Terminated by signal 15, no error, iterations=9361, signals=1039
+Vector length:  512 bits
+PID:    1589
+Terminated by signal 15, no error, iterations=9350, signals=1039
+
+
+If an error was detected, details of the mismatch will be printed
+instead of "no error".
+
+Ideally, the test should be allowed to run for many minutes or hours
+to maximise test coverage.
+
+
+KVM stress testing
+==================
+
+To try to reproduce the bugs that we have been observing, sve-stress
+should be run in parallel in two KVM guests, while simultaneously
+running on the host.
+
+1) Start 2 guests, using the following command for each:
+
+$ lkvm run --console=virtio -pconsole=hvc0 --sve Image
+
+(Depending on the hardware GIC implementation, you may also need
+--irqchip=gicv3.  New kvmtool defaults to that if appropriate, but I
+can't remember whether my branch is new enough for that.  Try without
+the option first.)
+
+Kvmtool occupies the terminal until you kill it (Ctrl+A x),
+or until the guest terminates.  It is therefore recommended to run
+each instance in separate terminal (use screen or ssh etc.)  This
+allows multiple guests to be run in parallel while running other
+commands on the host.
+
+Within the guest, the host filesystem is accessible, mounted on /host.
+
+2) Run the sve-stress on *each* guest with the Vector-Length set to 32:
+guest$ ./vlset --inherit 32 ./sve-stress
+
+3) Run the sve-stress on the host with the maximum Vector-Length:
+host$ ./vlset --inherit --max ./sve-stress
+
+
+Again, the test should be allowed to run for many minutes or hours to
+maximise test coverage.
+
+If no error is detected, you will see output from each sve-stress
+instance similar to that illustrated above; otherwise details of the
+observed mismatches will be printed.
diff --git a/tools/testing/selftests/arm64/fp/asm-offsets.h b/tools/testing/selftests/arm64/fp/asm-offsets.h
new file mode 100644 (file)
index 0000000..a180851
--- /dev/null
@@ -0,0 +1,11 @@
+#define sa_sz 32
+#define sa_flags 8
+#define sa_handler 0
+#define sa_mask_sz 8
+#define SIGUSR1 10
+#define SIGTERM 15
+#define SIGINT 2
+#define SIGABRT 6
+#define SA_NODEFER 1073741824
+#define SA_SIGINFO 4
+#define ucontext_regs 184
diff --git a/tools/testing/selftests/arm64/fp/assembler.h b/tools/testing/selftests/arm64/fp/assembler.h
new file mode 100644 (file)
index 0000000..8944f21
--- /dev/null
@@ -0,0 +1,57 @@
+// SPDX-License-Identifier: GPL-2.0-only
+// Copyright (C) 2015-2019 ARM Limited.
+// Original author: Dave Martin <Dave.Martin@arm.com>
+
+#ifndef ASSEMBLER_H
+#define ASSEMBLER_H
+
+.macro __for from:req, to:req
+       .if (\from) == (\to)
+               _for__body %\from
+       .else
+               __for \from, %(\from) + ((\to) - (\from)) / 2
+               __for %(\from) + ((\to) - (\from)) / 2 + 1, \to
+       .endif
+.endm
+
+.macro _for var:req, from:req, to:req, insn:vararg
+       .macro _for__body \var:req
+               .noaltmacro
+               \insn
+               .altmacro
+       .endm
+
+       .altmacro
+       __for \from, \to
+       .noaltmacro
+
+       .purgem _for__body
+.endm
+
+.macro function name
+       .macro endfunction
+               .type \name, @function
+               .purgem endfunction
+       .endm
+\name:
+.endm
+
+.macro define_accessor name, num, insn
+       .macro \name\()_entry n
+               \insn \n, 1
+               ret
+       .endm
+
+function \name
+       adr     x2, .L__accessor_tbl\@
+       add     x2, x2, x0, lsl #3
+       br      x2
+
+.L__accessor_tbl\@:
+       _for x, 0, (\num) - 1, \name\()_entry \x
+endfunction
+
+       .purgem \name\()_entry
+.endm
+
+#endif /* ! ASSEMBLER_H */
diff --git a/tools/testing/selftests/arm64/fp/fpsimd-stress b/tools/testing/selftests/arm64/fp/fpsimd-stress
new file mode 100755 (executable)
index 0000000..781b5b0
--- /dev/null
@@ -0,0 +1,60 @@
+#!/bin/bash
+# SPDX-License-Identifier: GPL-2.0-only
+# Copyright (C) 2015-2019 ARM Limited.
+# Original author: Dave Martin <Dave.Martin@arm.com>
+
+set -ue
+
+NR_CPUS=`nproc`
+
+pids=
+logs=
+
+cleanup () {
+       trap - INT TERM CHLD
+       set +e
+
+       if [ -n "$pids" ]; then
+               kill $pids
+               wait $pids
+               pids=
+       fi
+
+       if [ -n "$logs" ]; then
+               cat $logs
+               rm $logs
+               logs=
+       fi
+}
+
+interrupt () {
+       cleanup
+       exit 0
+}
+
+child_died () {
+       cleanup
+       exit 1
+}
+
+trap interrupt INT TERM EXIT
+trap child_died CHLD
+
+for x in `seq 0 $((NR_CPUS * 4))`; do
+       log=`mktemp`
+       logs=$logs\ $log
+       ./fpsimd-test >$log &
+       pids=$pids\ $!
+done
+
+# Wait for all child processes to be created:
+sleep 10
+
+while :; do
+       kill -USR1 $pids
+done &
+pids=$pids\ $!
+
+wait
+
+exit 1
diff --git a/tools/testing/selftests/arm64/fp/fpsimd-test.S b/tools/testing/selftests/arm64/fp/fpsimd-test.S
new file mode 100644 (file)
index 0000000..1c5556b
--- /dev/null
@@ -0,0 +1,482 @@
+// SPDX-License-Identifier: GPL-2.0-only
+// Copyright (C) 2015-2019 ARM Limited.
+// Original author: Dave Martin <Dave.Martin@arm.com>
+//
+// Simple FPSIMD context switch test
+// Repeatedly writes unique test patterns into each FPSIMD register
+// and reads them back to verify integrity.
+//
+// for x in `seq 1 NR_CPUS`; do fpsimd-test & pids=$pids\ $! ; done
+// (leave it running for as long as you want...)
+// kill $pids
+
+#include <asm/unistd.h>
+#include "assembler.h"
+#include "asm-offsets.h"
+
+#define NVR    32
+#define MAXVL_B        (128 / 8)
+
+.macro _vldr Vn:req, Xt:req
+       ld1     {v\Vn\().2d}, [x\Xt]
+.endm
+
+.macro _vstr Vn:req, Xt:req
+       st1     {v\Vn\().2d}, [x\Xt]
+.endm
+
+// Generate accessor functions to read/write programmatically selected
+// FPSIMD registers.
+// x0 is the register index to access
+// x1 is the memory address to read from (getv,setp) or store to (setv,setp)
+// All clobber x0-x2
+define_accessor setv, NVR, _vldr
+define_accessor getv, NVR, _vstr
+
+// Print a single character x0 to stdout
+// Clobbers x0-x2,x8
+function putc
+       str     x0, [sp, #-16]!
+
+       mov     x0, #1                  // STDOUT_FILENO
+       mov     x1, sp
+       mov     x2, #1
+       mov     x8, #__NR_write
+       svc     #0
+
+       add     sp, sp, #16
+       ret
+endfunction
+
+// Print a NUL-terminated string starting at address x0 to stdout
+// Clobbers x0-x3,x8
+function puts
+       mov     x1, x0
+
+       mov     x2, #0
+0:     ldrb    w3, [x0], #1
+       cbz     w3, 1f
+       add     x2, x2, #1
+       b       0b
+
+1:     mov     w0, #1                  // STDOUT_FILENO
+       mov     x8, #__NR_write
+       svc     #0
+
+       ret
+endfunction
+
+// Utility macro to print a literal string
+// Clobbers x0-x4,x8
+.macro puts string
+       .pushsection .rodata.str1.1, "aMS", 1
+.L__puts_literal\@: .string "\string"
+       .popsection
+
+       ldr     x0, =.L__puts_literal\@
+       bl      puts
+.endm
+
+// Print an unsigned decimal number x0 to stdout
+// Clobbers x0-x4,x8
+function putdec
+       mov     x1, sp
+       str     x30, [sp, #-32]!        // Result can't be > 20 digits
+
+       mov     x2, #0
+       strb    w2, [x1, #-1]!          // Write the NUL terminator
+
+       mov     x2, #10
+0:     udiv    x3, x0, x2              // div-mod loop to generate the digits
+       msub    x0, x3, x2, x0
+       add     w0, w0, #'0'
+       strb    w0, [x1, #-1]!
+       mov     x0, x3
+       cbnz    x3, 0b
+
+       ldrb    w0, [x1]
+       cbnz    w0, 1f
+       mov     w0, #'0'                // Print "0" for 0, not ""
+       strb    w0, [x1, #-1]!
+
+1:     mov     x0, x1
+       bl      puts
+
+       ldr     x30, [sp], #32
+       ret
+endfunction
+
+// Print an unsigned decimal number x0 to stdout, followed by a newline
+// Clobbers x0-x5,x8
+function putdecn
+       mov     x5, x30
+
+       bl      putdec
+       mov     x0, #'\n'
+       bl      putc
+
+       ret     x5
+endfunction
+
+
+// Clobbers x0-x3,x8
+function puthexb
+       str     x30, [sp, #-0x10]!
+
+       mov     w3, w0
+       lsr     w0, w0, #4
+       bl      puthexnibble
+       mov     w0, w3
+
+       ldr     x30, [sp], #0x10
+       // fall through to puthexnibble
+endfunction
+// Clobbers x0-x2,x8
+function puthexnibble
+       and     w0, w0, #0xf
+       cmp     w0, #10
+       blo     1f
+       add     w0, w0, #'a' - ('9' + 1)
+1:     add     w0, w0, #'0'
+       b       putc
+endfunction
+
+// x0=data in, x1=size in, clobbers x0-x5,x8
+function dumphex
+       str     x30, [sp, #-0x10]!
+
+       mov     x4, x0
+       mov     x5, x1
+
+0:     subs    x5, x5, #1
+       b.lo    1f
+       ldrb    w0, [x4], #1
+       bl      puthexb
+       b       0b
+
+1:     ldr     x30, [sp], #0x10
+       ret
+endfunction
+
+// Declare some storate space to shadow the SVE register contents:
+.pushsection .text
+.data
+.align 4
+vref:
+       .space  MAXVL_B * NVR
+scratch:
+       .space  MAXVL_B
+.popsection
+
+// Trivial memory copy: copy x2 bytes, starting at address x1, to address x0.
+// Clobbers x0-x3
+function memcpy
+       cmp     x2, #0
+       b.eq    1f
+0:     ldrb    w3, [x1], #1
+       strb    w3, [x0], #1
+       subs    x2, x2, #1
+       b.ne    0b
+1:     ret
+endfunction
+
+// Generate a test pattern for storage in SVE registers
+// x0: pid     (16 bits)
+// x1: register number (6 bits)
+// x2: generation (4 bits)
+function pattern
+       orr     w1, w0, w1, lsl #16
+       orr     w2, w1, w2, lsl #28
+
+       ldr     x0, =scratch
+       mov     w1, #MAXVL_B / 4
+
+0:     str     w2, [x0], #4
+       add     w2, w2, #(1 << 22)
+       subs    w1, w1, #1
+       bne     0b
+
+       ret
+endfunction
+
+// Get the address of shadow data for FPSIMD V-register V<xn>
+.macro _adrv xd, xn, nrtmp
+       ldr     \xd, =vref
+       mov     x\nrtmp, #16
+       madd    \xd, x\nrtmp, \xn, \xd
+.endm
+
+// Set up test pattern in a FPSIMD V-register
+// x0: pid
+// x1: register number
+// x2: generation
+function setup_vreg
+       mov     x4, x30
+
+       mov     x6, x1
+       bl      pattern
+       _adrv   x0, x6, 2
+       mov     x5, x0
+       ldr     x1, =scratch
+       bl      memcpy
+
+       mov     x0, x6
+       mov     x1, x5
+       bl      setv
+
+       ret     x4
+endfunction
+
+// Fill x1 bytes starting at x0 with 0xae (for canary purposes)
+// Clobbers x1, x2.
+function memfill_ae
+       mov     w2, #0xae
+       b       memfill
+endfunction
+
+// Fill x1 bytes starting at x0 with 0.
+// Clobbers x1, x2.
+function memclr
+       mov     w2, #0
+endfunction
+       // fall through to memfill
+
+// Trivial memory fill: fill x1 bytes starting at address x0 with byte w2
+// Clobbers x1
+function memfill
+       cmp     x1, #0
+       b.eq    1f
+
+0:     strb    w2, [x0], #1
+       subs    x1, x1, #1
+       b.ne    0b
+
+1:     ret
+endfunction
+
+// Trivial memory compare: compare x2 bytes starting at address x0 with
+// bytes starting at address x1.
+// Returns only if all bytes match; otherwise, the program is aborted.
+// Clobbers x0-x5.
+function memcmp
+       cbz     x2, 1f
+
+       mov     x5, #0
+0:     ldrb    w3, [x0, x5]
+       ldrb    w4, [x1, x5]
+       add     x5, x5, #1
+       cmp     w3, w4
+       b.ne    barf
+       subs    x2, x2, #1
+       b.ne    0b
+
+1:     ret
+endfunction
+
+// Verify that a FPSIMD V-register matches its shadow in memory, else abort
+// x0: reg number
+// Clobbers x0-x5.
+function check_vreg
+       mov     x3, x30
+
+       _adrv   x5, x0, 6
+       mov     x4, x0
+       ldr     x7, =scratch
+
+       mov     x0, x7
+       mov     x1, x6
+       bl      memfill_ae
+
+       mov     x0, x4
+       mov     x1, x7
+       bl      getv
+
+       mov     x0, x5
+       mov     x1, x7
+       mov     x2, x6
+       mov     x30, x3
+       b       memcmp
+endfunction
+
+// Any SVE register modified here can cause corruption in the main
+// thread -- but *only* the registers modified here.
+function irritator_handler
+       // Increment the irritation signal count (x23):
+       ldr     x0, [x2, #ucontext_regs + 8 * 23]
+       add     x0, x0, #1
+       str     x0, [x2, #ucontext_regs + 8 * 23]
+
+       // Corrupt some random V-regs
+       adr     x0, .text + (irritator_handler - .text) / 16 * 16
+       movi    v0.8b, #7
+       movi    v9.16b, #9
+       movi    v31.8b, #31
+
+       ret
+endfunction
+
+function terminate_handler
+       mov     w21, w0
+       mov     x20, x2
+
+       puts    "Terminated by signal "
+       mov     w0, w21
+       bl      putdec
+       puts    ", no error, iterations="
+       ldr     x0, [x20, #ucontext_regs + 8 * 22]
+       bl      putdec
+       puts    ", signals="
+       ldr     x0, [x20, #ucontext_regs + 8 * 23]
+       bl      putdecn
+
+       mov     x0, #0
+       mov     x8, #__NR_exit
+       svc     #0
+endfunction
+
+// w0: signal number
+// x1: sa_action
+// w2: sa_flags
+// Clobbers x0-x6,x8
+function setsignal
+       str     x30, [sp, #-((sa_sz + 15) / 16 * 16 + 16)]!
+
+       mov     w4, w0
+       mov     x5, x1
+       mov     w6, w2
+
+       add     x0, sp, #16
+       mov     x1, #sa_sz
+       bl      memclr
+
+       mov     w0, w4
+       add     x1, sp, #16
+       str     w6, [x1, #sa_flags]
+       str     x5, [x1, #sa_handler]
+       mov     x2, #0
+       mov     x3, #sa_mask_sz
+       mov     x8, #__NR_rt_sigaction
+       svc     #0
+
+       cbz     w0, 1f
+
+       puts    "sigaction failure\n"
+       b       .Labort
+
+1:     ldr     x30, [sp], #((sa_sz + 15) / 16 * 16 + 16)
+       ret
+endfunction
+
+// Main program entry point
+.globl _start
+function _start
+_start:
+       // Sanity-check and report the vector length
+
+       mov     x19, #128
+       cmp     x19, #128
+       b.lo    1f
+       cmp     x19, #2048
+       b.hi    1f
+       tst     x19, #(8 - 1)
+       b.eq    2f
+
+1:     puts    "Bad vector length: "
+       mov     x0, x19
+       bl      putdecn
+       b       .Labort
+
+2:     puts    "Vector length:\t"
+       mov     x0, x19
+       bl      putdec
+       puts    " bits\n"
+
+       // Obtain our PID, to ensure test pattern uniqueness between processes
+
+       mov     x8, #__NR_getpid
+       svc     #0
+       mov     x20, x0
+
+       puts    "PID:\t"
+       mov     x0, x20
+       bl      putdecn
+
+       mov     x23, #0         // Irritation signal count
+
+       mov     w0, #SIGINT
+       adr     x1, terminate_handler
+       mov     w2, #SA_SIGINFO
+       bl      setsignal
+
+       mov     w0, #SIGTERM
+       adr     x1, terminate_handler
+       mov     w2, #SA_SIGINFO
+       bl      setsignal
+
+       mov     w0, #SIGUSR1
+       adr     x1, irritator_handler
+       mov     w2, #SA_SIGINFO
+       orr     w2, w2, #SA_NODEFER
+       bl      setsignal
+
+       mov     x22, #0         // generation number, increments per iteration
+.Ltest_loop:
+
+       mov     x21, #0         // Set up V-regs & shadow with test pattern
+0:     mov     x0, x20
+       mov     x1, x21
+       and     x2, x22, #0xf
+       bl      setup_vreg
+       add     x21, x21, #1
+       cmp     x21, #NVR
+       b.lo    0b
+
+// Can't do this when SVE state is volatile across SVC:
+       mov     x8, #__NR_sched_yield   // Encourage preemption
+       svc     #0
+
+       mov     x21, #0
+0:     mov     x0, x21
+       bl      check_vreg
+       add     x21, x21, #1
+       cmp     x21, #NVR
+       b.lo    0b
+
+       add     x22, x22, #1
+       b       .Ltest_loop
+
+.Labort:
+       mov     x0, #0
+       mov     x1, #SIGABRT
+       mov     x8, #__NR_kill
+       svc     #0
+endfunction
+
+function barf
+       mov     x10, x0 // expected data
+       mov     x11, x1 // actual data
+       mov     x12, x2 // data size
+
+       puts    "Mistatch: PID="
+       mov     x0, x20
+       bl      putdec
+       puts    ", iteration="
+       mov     x0, x22
+       bl      putdec
+       puts    ", reg="
+       mov     x0, x21
+       bl      putdecn
+       puts    "\tExpected ["
+       mov     x0, x10
+       mov     x1, x12
+       bl      dumphex
+       puts    "]\n\tGot      ["
+       mov     x0, x11
+       mov     x1, x12
+       bl      dumphex
+       puts    "]\n"
+
+       mov     x8, #__NR_exit
+       mov     x1, #1
+       svc     #0
+endfunction
diff --git a/tools/testing/selftests/arm64/fp/sve-probe-vls.c b/tools/testing/selftests/arm64/fp/sve-probe-vls.c
new file mode 100644 (file)
index 0000000..b29cbc6
--- /dev/null
@@ -0,0 +1,58 @@
+// SPDX-License-Identifier: GPL-2.0-only
+/*
+ * Copyright (C) 2015-2020 ARM Limited.
+ * Original author: Dave Martin <Dave.Martin@arm.com>
+ */
+#include <assert.h>
+#include <errno.h>
+#include <stdio.h>
+#include <stdlib.h>
+#include <string.h>
+#include <sys/auxv.h>
+#include <sys/prctl.h>
+#include <asm/sigcontext.h>
+
+#include "../../kselftest.h"
+
+int main(int argc, char **argv)
+{
+       unsigned int vq;
+       int vl;
+       static unsigned int vqs[SVE_VQ_MAX];
+       unsigned int nvqs = 0;
+
+       ksft_print_header();
+       ksft_set_plan(2);
+
+       if (!(getauxval(AT_HWCAP) & HWCAP_SVE))
+               ksft_exit_skip("SVE not available");
+
+       /*
+        * Enumerate up to SVE_VQ_MAX vector lengths
+        */
+       for (vq = SVE_VQ_MAX; vq > 0; --vq) {
+               vl = prctl(PR_SVE_SET_VL, vq * 16);
+               if (vl == -1)
+                       ksft_exit_fail_msg("PR_SVE_SET_VL failed: %s (%d)\n",
+                                          strerror(errno), errno);
+
+               vl &= PR_SVE_VL_LEN_MASK;
+
+               if (!sve_vl_valid(vl))
+                       ksft_exit_fail_msg("VL %d invalid\n", vl);
+               vq = sve_vq_from_vl(vl);
+
+               if (!(nvqs < SVE_VQ_MAX))
+                       ksft_exit_fail_msg("Too many VLs %u >= SVE_VQ_MAX\n",
+                                          nvqs);
+               vqs[nvqs++] = vq;
+       }
+       ksft_test_result_pass("Enumerated %d vector lengths\n", nvqs);
+       ksft_test_result_pass("All vector lengths valid\n");
+
+       /* Print out the vector lengths in ascending order: */
+       while (nvqs--)
+               ksft_print_msg("%u\n", 16 * vqs[nvqs]);
+
+       ksft_exit_pass();
+}
diff --git a/tools/testing/selftests/arm64/fp/sve-ptrace-asm.S b/tools/testing/selftests/arm64/fp/sve-ptrace-asm.S
new file mode 100644 (file)
index 0000000..3e81f9f
--- /dev/null
@@ -0,0 +1,33 @@
+// SPDX-License-Identifier: GPL-2.0-only
+// Copyright (C) 2015-2019 ARM Limited.
+// Original author: Dave Martin <Dave.Martin@arm.com>
+#include <asm/unistd.h>
+
+.arch_extension sve
+
+.globl sve_store_patterns
+
+sve_store_patterns:
+       mov     x1, x0
+
+       index   z0.b, #0, #1
+       str     q0, [x1]
+
+       mov     w8, #__NR_getpid
+       svc     #0
+       str     q0, [x1, #0x10]
+
+       mov     z1.d, z0.d
+       str     q0, [x1, #0x20]
+
+       mov     w8, #__NR_getpid
+       svc     #0
+       str     q0, [x1, #0x30]
+
+       mov     z1.d, z0.d
+       str     q0, [x1, #0x40]
+
+       ret
+
+.size  sve_store_patterns, . - sve_store_patterns
+.type  sve_store_patterns, @function
diff --git a/tools/testing/selftests/arm64/fp/sve-ptrace.c b/tools/testing/selftests/arm64/fp/sve-ptrace.c
new file mode 100644 (file)
index 0000000..b2282be
--- /dev/null
@@ -0,0 +1,336 @@
+// SPDX-License-Identifier: GPL-2.0-only
+/*
+ * Copyright (C) 2015-2020 ARM Limited.
+ * Original author: Dave Martin <Dave.Martin@arm.com>
+ */
+#include <errno.h>
+#include <stddef.h>
+#include <stdio.h>
+#include <stdlib.h>
+#include <string.h>
+#include <unistd.h>
+#include <sys/auxv.h>
+#include <sys/ptrace.h>
+#include <sys/types.h>
+#include <sys/uio.h>
+#include <sys/wait.h>
+#include <asm/sigcontext.h>
+#include <asm/ptrace.h>
+
+#include "../../kselftest.h"
+
+/* <linux/elf.h> and <sys/auxv.h> don't like each other, so: */
+#ifndef NT_ARM_SVE
+#define NT_ARM_SVE 0x405
+#endif
+
+/* Number of registers filled in by sve_store_patterns */
+#define NR_VREGS 5
+
+void sve_store_patterns(__uint128_t v[NR_VREGS]);
+
+static void dump(const void *buf, size_t size)
+{
+       size_t i;
+       const unsigned char *p = buf;
+
+       for (i = 0; i < size; ++i)
+               printf(" %.2x", *p++);
+}
+
+static int check_vregs(const __uint128_t vregs[NR_VREGS])
+{
+       int i;
+       int ok = 1;
+
+       for (i = 0; i < NR_VREGS; ++i) {
+               printf("# v[%d]:", i);
+               dump(&vregs[i], sizeof vregs[i]);
+               putchar('\n');
+
+               if (vregs[i] != vregs[0])
+                       ok = 0;
+       }
+
+       return ok;
+}
+
+static int do_child(void)
+{
+       if (ptrace(PTRACE_TRACEME, -1, NULL, NULL))
+               ksft_exit_fail_msg("PTRACE_TRACEME", strerror(errno));
+
+       if (raise(SIGSTOP))
+               ksft_exit_fail_msg("raise(SIGSTOP)", strerror(errno));
+
+       return EXIT_SUCCESS;
+}
+
+static struct user_sve_header *get_sve(pid_t pid, void **buf, size_t *size)
+{
+       struct user_sve_header *sve;
+       void *p;
+       size_t sz = sizeof *sve;
+       struct iovec iov;
+
+       while (1) {
+               if (*size < sz) {
+                       p = realloc(*buf, sz);
+                       if (!p) {
+                               errno = ENOMEM;
+                               goto error;
+                       }
+
+                       *buf = p;
+                       *size = sz;
+               }
+
+               iov.iov_base = *buf;
+               iov.iov_len = sz;
+               if (ptrace(PTRACE_GETREGSET, pid, NT_ARM_SVE, &iov))
+                       goto error;
+
+               sve = *buf;
+               if (sve->size <= sz)
+                       break;
+
+               sz = sve->size;
+       }
+
+       return sve;
+
+error:
+       return NULL;
+}
+
+static int set_sve(pid_t pid, const struct user_sve_header *sve)
+{
+       struct iovec iov;
+
+       iov.iov_base = (void *)sve;
+       iov.iov_len = sve->size;
+       return ptrace(PTRACE_SETREGSET, pid, NT_ARM_SVE, &iov);
+}
+
+static void dump_sve_regs(const struct user_sve_header *sve, unsigned int num,
+                         unsigned int vlmax)
+{
+       unsigned int vq;
+       unsigned int i;
+
+       if ((sve->flags & SVE_PT_REGS_MASK) != SVE_PT_REGS_SVE)
+               ksft_exit_fail_msg("Dumping non-SVE register\n");
+
+       if (vlmax > sve->vl)
+               vlmax = sve->vl;
+
+       vq = sve_vq_from_vl(sve->vl);
+       for (i = 0; i < num; ++i) {
+               printf("# z%u:", i);
+               dump((const char *)sve + SVE_PT_SVE_ZREG_OFFSET(vq, i),
+                    vlmax);
+               printf("%s\n", vlmax == sve->vl ? "" : " ...");
+       }
+}
+
+static int do_parent(pid_t child)
+{
+       int ret = EXIT_FAILURE;
+       pid_t pid;
+       int status;
+       siginfo_t si;
+       void *svebuf = NULL, *newsvebuf;
+       size_t svebufsz = 0, newsvebufsz;
+       struct user_sve_header *sve, *new_sve;
+       struct user_fpsimd_state *fpsimd;
+       unsigned int i, j;
+       unsigned char *p;
+       unsigned int vq;
+
+       /* Attach to the child */
+       while (1) {
+               int sig;
+
+               pid = wait(&status);
+               if (pid == -1) {
+                       perror("wait");
+                       goto error;
+               }
+
+               /*
+                * This should never happen but it's hard to flag in
+                * the framework.
+                */
+               if (pid != child)
+                       continue;
+
+               if (WIFEXITED(status) || WIFSIGNALED(status))
+                       ksft_exit_fail_msg("Child died unexpectedly\n");
+
+               ksft_test_result(WIFSTOPPED(status), "WIFSTOPPED(%d)\n",
+                                status);
+               if (!WIFSTOPPED(status))
+                       goto error;
+
+               sig = WSTOPSIG(status);
+
+               if (ptrace(PTRACE_GETSIGINFO, pid, NULL, &si)) {
+                       if (errno == ESRCH)
+                               goto disappeared;
+
+                       if (errno == EINVAL) {
+                               sig = 0; /* bust group-stop */
+                               goto cont;
+                       }
+
+                       ksft_test_result_fail("PTRACE_GETSIGINFO: %s\n",
+                                             strerror(errno));
+                       goto error;
+               }
+
+               if (sig == SIGSTOP && si.si_code == SI_TKILL &&
+                   si.si_pid == pid)
+                       break;
+
+       cont:
+               if (ptrace(PTRACE_CONT, pid, NULL, sig)) {
+                       if (errno == ESRCH)
+                               goto disappeared;
+
+                       ksft_test_result_fail("PTRACE_CONT: %s\n",
+                                             strerror(errno));
+                       goto error;
+               }
+       }
+
+       sve = get_sve(pid, &svebuf, &svebufsz);
+       if (!sve) {
+               int e = errno;
+
+               ksft_test_result_fail("get_sve: %s\n", strerror(errno));
+               if (e == ESRCH)
+                       goto disappeared;
+
+               goto error;
+       } else {
+               ksft_test_result_pass("get_sve\n");
+       }
+
+       ksft_test_result((sve->flags & SVE_PT_REGS_MASK) == SVE_PT_REGS_FPSIMD,
+                        "FPSIMD registers\n");
+       if ((sve->flags & SVE_PT_REGS_MASK) != SVE_PT_REGS_FPSIMD)
+               goto error;
+
+       fpsimd = (struct user_fpsimd_state *)((char *)sve +
+                                             SVE_PT_FPSIMD_OFFSET);
+       for (i = 0; i < 32; ++i) {
+               p = (unsigned char *)&fpsimd->vregs[i];
+
+               for (j = 0; j < sizeof fpsimd->vregs[i]; ++j)
+                       p[j] = j;
+       }
+
+       if (set_sve(pid, sve)) {
+               int e = errno;
+
+               ksft_test_result_fail("set_sve(FPSIMD): %s\n",
+                                     strerror(errno));
+               if (e == ESRCH)
+                       goto disappeared;
+
+               goto error;
+       }
+
+       vq = sve_vq_from_vl(sve->vl);
+
+       newsvebufsz = SVE_PT_SVE_ZREG_OFFSET(vq, 1);
+       new_sve = newsvebuf = malloc(newsvebufsz);
+       if (!new_sve) {
+               errno = ENOMEM;
+               perror(NULL);
+               goto error;
+       }
+
+       *new_sve = *sve;
+       new_sve->flags &= ~SVE_PT_REGS_MASK;
+       new_sve->flags |= SVE_PT_REGS_SVE;
+       memset((char *)new_sve + SVE_PT_SVE_ZREG_OFFSET(vq, 0),
+              0, SVE_PT_SVE_ZREG_SIZE(vq));
+       new_sve->size = SVE_PT_SVE_ZREG_OFFSET(vq, 1);
+       if (set_sve(pid, new_sve)) {
+               int e = errno;
+
+               ksft_test_result_fail("set_sve(ZREG): %s\n", strerror(errno));
+               if (e == ESRCH)
+                       goto disappeared;
+
+               goto error;
+       }
+
+       new_sve = get_sve(pid, &newsvebuf, &newsvebufsz);
+       if (!new_sve) {
+               int e = errno;
+
+               ksft_test_result_fail("get_sve(ZREG): %s\n", strerror(errno));
+               if (e == ESRCH)
+                       goto disappeared;
+
+               goto error;
+       }
+
+       ksft_test_result((new_sve->flags & SVE_PT_REGS_MASK) == SVE_PT_REGS_SVE,
+                        "SVE registers\n");
+       if ((new_sve->flags & SVE_PT_REGS_MASK) != SVE_PT_REGS_SVE)
+               goto error;
+
+       dump_sve_regs(new_sve, 3, sizeof fpsimd->vregs[0]);
+
+       p = (unsigned char *)new_sve + SVE_PT_SVE_ZREG_OFFSET(vq, 1);
+       for (i = 0; i < sizeof fpsimd->vregs[0]; ++i) {
+               unsigned char expected = i;
+
+               if (__BYTE_ORDER == __BIG_ENDIAN)
+                       expected = sizeof fpsimd->vregs[0] - 1 - expected;
+
+               ksft_test_result(p[i] == expected, "p[%d] == expected\n", i);
+               if (p[i] != expected)
+                       goto error;
+       }
+
+       ret = EXIT_SUCCESS;
+
+error:
+       kill(child, SIGKILL);
+
+disappeared:
+       return ret;
+}
+
+int main(void)
+{
+       int ret = EXIT_SUCCESS;
+       __uint128_t v[NR_VREGS];
+       pid_t child;
+
+       ksft_print_header();
+       ksft_set_plan(20);
+
+       if (!(getauxval(AT_HWCAP) & HWCAP_SVE))
+               ksft_exit_skip("SVE not available\n");
+
+       sve_store_patterns(v);
+
+       if (!check_vregs(v))
+               ksft_exit_fail_msg("Initial check_vregs() failed\n");
+
+       child = fork();
+       if (!child)
+               return do_child();
+
+       if (do_parent(child))
+               ret = EXIT_FAILURE;
+
+       ksft_print_cnts();
+
+       return 0;
+}
diff --git a/tools/testing/selftests/arm64/fp/sve-stress b/tools/testing/selftests/arm64/fp/sve-stress
new file mode 100755 (executable)
index 0000000..24dd092
--- /dev/null
@@ -0,0 +1,59 @@
+#!/bin/bash
+# SPDX-License-Identifier: GPL-2.0-only
+# Copyright (C) 2015-2019 ARM Limited.
+# Original author: Dave Martin <Dave.Martin@arm.com>
+
+set -ue
+
+NR_CPUS=`nproc`
+
+pids=
+logs=
+
+cleanup () {
+       trap - INT TERM CHLD
+       set +e
+
+       if [ -n "$pids" ]; then
+               kill $pids
+               wait $pids
+               pids=
+       fi
+
+       if [ -n "$logs" ]; then
+               cat $logs
+               rm $logs
+               logs=
+       fi
+}
+
+interrupt () {
+       cleanup
+       exit 0
+}
+
+child_died () {
+       cleanup
+       exit 1
+}
+
+trap interrupt INT TERM EXIT
+
+for x in `seq 0 $((NR_CPUS * 4))`; do
+       log=`mktemp`
+       logs=$logs\ $log
+       ./sve-test >$log &
+       pids=$pids\ $!
+done
+
+# Wait for all child processes to be created:
+sleep 10
+
+while :; do
+       kill -USR1 $pids
+done &
+pids=$pids\ $!
+
+wait
+
+exit 1
diff --git a/tools/testing/selftests/arm64/fp/sve-test.S b/tools/testing/selftests/arm64/fp/sve-test.S
new file mode 100644 (file)
index 0000000..f95074c
--- /dev/null
@@ -0,0 +1,672 @@
+// SPDX-License-Identifier: GPL-2.0-only
+// Copyright (C) 2015-2019 ARM Limited.
+// Original author: Dave Martin <Dave.Martin@arm.com>
+//
+// Simple Scalable Vector Extension context switch test
+// Repeatedly writes unique test patterns into each SVE register
+// and reads them back to verify integrity.
+//
+// for x in `seq 1 NR_CPUS`; do sve-test & pids=$pids\ $! ; done
+// (leave it running for as long as you want...)
+// kill $pids
+
+#include <asm/unistd.h>
+#include "assembler.h"
+#include "asm-offsets.h"
+
+#define NZR    32
+#define NPR    16
+#define MAXVL_B        (2048 / 8)
+
+.arch_extension sve
+
+.macro _sve_ldr_v zt, xn
+       ldr     z\zt, [x\xn]
+.endm
+
+.macro _sve_str_v zt, xn
+       str     z\zt, [x\xn]
+.endm
+
+.macro _sve_ldr_p pt, xn
+       ldr     p\pt, [x\xn]
+.endm
+
+.macro _sve_str_p pt, xn
+       str     p\pt, [x\xn]
+.endm
+
+// Generate accessor functions to read/write programmatically selected
+// SVE registers.
+// x0 is the register index to access
+// x1 is the memory address to read from (getz,setp) or store to (setz,setp)
+// All clobber x0-x2
+define_accessor setz, NZR, _sve_ldr_v
+define_accessor getz, NZR, _sve_str_v
+define_accessor setp, NPR, _sve_ldr_p
+define_accessor getp, NPR, _sve_str_p
+
+// Print a single character x0 to stdout
+// Clobbers x0-x2,x8
+function putc
+       str     x0, [sp, #-16]!
+
+       mov     x0, #1                  // STDOUT_FILENO
+       mov     x1, sp
+       mov     x2, #1
+       mov     x8, #__NR_write
+       svc     #0
+
+       add     sp, sp, #16
+       ret
+endfunction
+
+// Print a NUL-terminated string starting at address x0 to stdout
+// Clobbers x0-x3,x8
+function puts
+       mov     x1, x0
+
+       mov     x2, #0
+0:     ldrb    w3, [x0], #1
+       cbz     w3, 1f
+       add     x2, x2, #1
+       b       0b
+
+1:     mov     w0, #1                  // STDOUT_FILENO
+       mov     x8, #__NR_write
+       svc     #0
+
+       ret
+endfunction
+
+// Utility macro to print a literal string
+// Clobbers x0-x4,x8
+.macro puts string
+       .pushsection .rodata.str1.1, "aMS", 1
+.L__puts_literal\@: .string "\string"
+       .popsection
+
+       ldr     x0, =.L__puts_literal\@
+       bl      puts
+.endm
+
+// Print an unsigned decimal number x0 to stdout
+// Clobbers x0-x4,x8
+function putdec
+       mov     x1, sp
+       str     x30, [sp, #-32]!        // Result can't be > 20 digits
+
+       mov     x2, #0
+       strb    w2, [x1, #-1]!          // Write the NUL terminator
+
+       mov     x2, #10
+0:     udiv    x3, x0, x2              // div-mod loop to generate the digits
+       msub    x0, x3, x2, x0
+       add     w0, w0, #'0'
+       strb    w0, [x1, #-1]!
+       mov     x0, x3
+       cbnz    x3, 0b
+
+       ldrb    w0, [x1]
+       cbnz    w0, 1f
+       mov     w0, #'0'                // Print "0" for 0, not ""
+       strb    w0, [x1, #-1]!
+
+1:     mov     x0, x1
+       bl      puts
+
+       ldr     x30, [sp], #32
+       ret
+endfunction
+
+// Print an unsigned decimal number x0 to stdout, followed by a newline
+// Clobbers x0-x5,x8
+function putdecn
+       mov     x5, x30
+
+       bl      putdec
+       mov     x0, #'\n'
+       bl      putc
+
+       ret     x5
+endfunction
+
+// Clobbers x0-x3,x8
+function puthexb
+       str     x30, [sp, #-0x10]!
+
+       mov     w3, w0
+       lsr     w0, w0, #4
+       bl      puthexnibble
+       mov     w0, w3
+
+       ldr     x30, [sp], #0x10
+       // fall through to puthexnibble
+endfunction
+// Clobbers x0-x2,x8
+function puthexnibble
+       and     w0, w0, #0xf
+       cmp     w0, #10
+       blo     1f
+       add     w0, w0, #'a' - ('9' + 1)
+1:     add     w0, w0, #'0'
+       b       putc
+endfunction
+
+// x0=data in, x1=size in, clobbers x0-x5,x8
+function dumphex
+       str     x30, [sp, #-0x10]!
+
+       mov     x4, x0
+       mov     x5, x1
+
+0:     subs    x5, x5, #1
+       b.lo    1f
+       ldrb    w0, [x4], #1
+       bl      puthexb
+       b       0b
+
+1:     ldr     x30, [sp], #0x10
+       ret
+endfunction
+
+// Declare some storate space to shadow the SVE register contents:
+.pushsection .text
+.data
+.align 4
+zref:
+       .space  MAXVL_B * NZR
+pref:
+       .space  MAXVL_B / 8 * NPR
+ffrref:
+       .space  MAXVL_B / 8
+scratch:
+       .space  MAXVL_B
+.popsection
+
+// Trivial memory copy: copy x2 bytes, starting at address x1, to address x0.
+// Clobbers x0-x3
+function memcpy
+       cmp     x2, #0
+       b.eq    1f
+0:     ldrb    w3, [x1], #1
+       strb    w3, [x0], #1
+       subs    x2, x2, #1
+       b.ne    0b
+1:     ret
+endfunction
+
+// Generate a test pattern for storage in SVE registers
+// x0: pid     (16 bits)
+// x1: register number (6 bits)
+// x2: generation (4 bits)
+
+// These values are used to constuct a 32-bit pattern that is repeated in the
+// scratch buffer as many times as will fit:
+// bits 31:28  generation number (increments once per test_loop)
+// bits 27:22  32-bit lane index
+// bits 21:16  register number
+// bits 15: 0  pid
+
+function pattern
+       orr     w1, w0, w1, lsl #16
+       orr     w2, w1, w2, lsl #28
+
+       ldr     x0, =scratch
+       mov     w1, #MAXVL_B / 4
+
+0:     str     w2, [x0], #4
+       add     w2, w2, #(1 << 22)
+       subs    w1, w1, #1
+       bne     0b
+
+       ret
+endfunction
+
+// Get the address of shadow data for SVE Z-register Z<xn>
+.macro _adrz xd, xn, nrtmp
+       ldr     \xd, =zref
+       rdvl    x\nrtmp, #1
+       madd    \xd, x\nrtmp, \xn, \xd
+.endm
+
+// Get the address of shadow data for SVE P-register P<xn - NZR>
+.macro _adrp xd, xn, nrtmp
+       ldr     \xd, =pref
+       rdvl    x\nrtmp, #1
+       lsr     x\nrtmp, x\nrtmp, #3
+       sub     \xn, \xn, #NZR
+       madd    \xd, x\nrtmp, \xn, \xd
+.endm
+
+// Set up test pattern in a SVE Z-register
+// x0: pid
+// x1: register number
+// x2: generation
+function setup_zreg
+       mov     x4, x30
+
+       mov     x6, x1
+       bl      pattern
+       _adrz   x0, x6, 2
+       mov     x5, x0
+       ldr     x1, =scratch
+       bl      memcpy
+
+       mov     x0, x6
+       mov     x1, x5
+       bl      setz
+
+       ret     x4
+endfunction
+
+// Set up test pattern in a SVE P-register
+// x0: pid
+// x1: register number
+// x2: generation
+function setup_preg
+       mov     x4, x30
+
+       mov     x6, x1
+       bl      pattern
+       _adrp   x0, x6, 2
+       mov     x5, x0
+       ldr     x1, =scratch
+       bl      memcpy
+
+       mov     x0, x6
+       mov     x1, x5
+       bl      setp
+
+       ret     x4
+endfunction
+
+// Set up test pattern in the FFR
+// x0: pid
+// x2: generation
+// Beware: corrupts P0.
+function setup_ffr
+       mov     x4, x30
+
+       bl      pattern
+       ldr     x0, =ffrref
+       ldr     x1, =scratch
+       rdvl    x2, #1
+       lsr     x2, x2, #3
+       bl      memcpy
+
+       mov     x0, #0
+       ldr     x1, =ffrref
+       bl      setp
+
+       wrffr   p0.b
+
+       ret     x4
+endfunction
+
+// Fill x1 bytes starting at x0 with 0xae (for canary purposes)
+// Clobbers x1, x2.
+function memfill_ae
+       mov     w2, #0xae
+       b       memfill
+endfunction
+
+// Fill x1 bytes starting at x0 with 0.
+// Clobbers x1, x2.
+function memclr
+       mov     w2, #0
+endfunction
+       // fall through to memfill
+
+// Trivial memory fill: fill x1 bytes starting at address x0 with byte w2
+// Clobbers x1
+function memfill
+       cmp     x1, #0
+       b.eq    1f
+
+0:     strb    w2, [x0], #1
+       subs    x1, x1, #1
+       b.ne    0b
+
+1:     ret
+endfunction
+
+// Trivial memory compare: compare x2 bytes starting at address x0 with
+// bytes starting at address x1.
+// Returns only if all bytes match; otherwise, the program is aborted.
+// Clobbers x0-x5.
+function memcmp
+       cbz     x2, 2f
+
+       stp     x0, x1, [sp, #-0x20]!
+       str     x2, [sp, #0x10]
+
+       mov     x5, #0
+0:     ldrb    w3, [x0, x5]
+       ldrb    w4, [x1, x5]
+       add     x5, x5, #1
+       cmp     w3, w4
+       b.ne    1f
+       subs    x2, x2, #1
+       b.ne    0b
+
+1:     ldr     x2, [sp, #0x10]
+       ldp     x0, x1, [sp], #0x20
+       b.ne    barf
+
+2:     ret
+endfunction
+
+// Verify that a SVE Z-register matches its shadow in memory, else abort
+// x0: reg number
+// Clobbers x0-x7.
+function check_zreg
+       mov     x3, x30
+
+       _adrz   x5, x0, 6
+       mov     x4, x0
+       ldr     x7, =scratch
+
+       mov     x0, x7
+       mov     x1, x6
+       bl      memfill_ae
+
+       mov     x0, x4
+       mov     x1, x7
+       bl      getz
+
+       mov     x0, x5
+       mov     x1, x7
+       mov     x2, x6
+       mov     x30, x3
+       b       memcmp
+endfunction
+
+// Verify that a SVE P-register matches its shadow in memory, else abort
+// x0: reg number
+// Clobbers x0-x7.
+function check_preg
+       mov     x3, x30
+
+       _adrp   x5, x0, 6
+       mov     x4, x0
+       ldr     x7, =scratch
+
+       mov     x0, x7
+       mov     x1, x6
+       bl      memfill_ae
+
+       mov     x0, x4
+       mov     x1, x7
+       bl      getp
+
+       mov     x0, x5
+       mov     x1, x7
+       mov     x2, x6
+       mov     x30, x3
+       b       memcmp
+endfunction
+
+// Verify that the FFR matches its shadow in memory, else abort
+// Beware -- corrupts P0.
+// Clobbers x0-x5.
+function check_ffr
+       mov     x3, x30
+
+       ldr     x4, =scratch
+       rdvl    x5, #1
+       lsr     x5, x5, #3
+
+       mov     x0, x4
+       mov     x1, x5
+       bl      memfill_ae
+
+       rdffr   p0.b
+       mov     x0, #0
+       mov     x1, x4
+       bl      getp
+
+       ldr     x0, =ffrref
+       mov     x1, x4
+       mov     x2, x5
+       mov     x30, x3
+       b       memcmp
+endfunction
+
+// Any SVE register modified here can cause corruption in the main
+// thread -- but *only* the registers modified here.
+function irritator_handler
+       // Increment the irritation signal count (x23):
+       ldr     x0, [x2, #ucontext_regs + 8 * 23]
+       add     x0, x0, #1
+       str     x0, [x2, #ucontext_regs + 8 * 23]
+
+       // Corrupt some random Z-regs
+       adr     x0, .text + (irritator_handler - .text) / 16 * 16
+       movi    v0.8b, #1
+       movi    v9.16b, #2
+       movi    v31.8b, #3
+       // And P0
+       rdffr   p0.b
+       // And FFR
+       wrffr   p15.b
+
+       ret
+endfunction
+
+function terminate_handler
+       mov     w21, w0
+       mov     x20, x2
+
+       puts    "Terminated by signal "
+       mov     w0, w21
+       bl      putdec
+       puts    ", no error, iterations="
+       ldr     x0, [x20, #ucontext_regs + 8 * 22]
+       bl      putdec
+       puts    ", signals="
+       ldr     x0, [x20, #ucontext_regs + 8 * 23]
+       bl      putdecn
+
+       mov     x0, #0
+       mov     x8, #__NR_exit
+       svc     #0
+endfunction
+
+// w0: signal number
+// x1: sa_action
+// w2: sa_flags
+// Clobbers x0-x6,x8
+function setsignal
+       str     x30, [sp, #-((sa_sz + 15) / 16 * 16 + 16)]!
+
+       mov     w4, w0
+       mov     x5, x1
+       mov     w6, w2
+
+       add     x0, sp, #16
+       mov     x1, #sa_sz
+       bl      memclr
+
+       mov     w0, w4
+       add     x1, sp, #16
+       str     w6, [x1, #sa_flags]
+       str     x5, [x1, #sa_handler]
+       mov     x2, #0
+       mov     x3, #sa_mask_sz
+       mov     x8, #__NR_rt_sigaction
+       svc     #0
+
+       cbz     w0, 1f
+
+       puts    "sigaction failure\n"
+       b       .Labort
+
+1:     ldr     x30, [sp], #((sa_sz + 15) / 16 * 16 + 16)
+       ret
+endfunction
+
+// Main program entry point
+.globl _start
+function _start
+_start:
+       // Sanity-check and report the vector length
+
+       rdvl    x19, #8
+       cmp     x19, #128
+       b.lo    1f
+       cmp     x19, #2048
+       b.hi    1f
+       tst     x19, #(8 - 1)
+       b.eq    2f
+
+1:     puts    "Bad vector length: "
+       mov     x0, x19
+       bl      putdecn
+       b       .Labort
+
+2:     puts    "Vector length:\t"
+       mov     x0, x19
+       bl      putdec
+       puts    " bits\n"
+
+       // Obtain our PID, to ensure test pattern uniqueness between processes
+
+       mov     x8, #__NR_getpid
+       svc     #0
+       mov     x20, x0
+
+       puts    "PID:\t"
+       mov     x0, x20
+       bl      putdecn
+
+       mov     x23, #0         // Irritation signal count
+
+       mov     w0, #SIGINT
+       adr     x1, terminate_handler
+       mov     w2, #SA_SIGINFO
+       bl      setsignal
+
+       mov     w0, #SIGTERM
+       adr     x1, terminate_handler
+       mov     w2, #SA_SIGINFO
+       bl      setsignal
+
+       mov     w0, #SIGUSR1
+       adr     x1, irritator_handler
+       mov     w2, #SA_SIGINFO
+       orr     w2, w2, #SA_NODEFER
+       bl      setsignal
+
+       mov     x22, #0         // generation number, increments per iteration
+.Ltest_loop:
+       rdvl    x0, #8
+       cmp     x0, x19
+       b.ne    vl_barf
+
+       mov     x21, #0         // Set up Z-regs & shadow with test pattern
+0:     mov     x0, x20
+       mov     x1, x21
+       and     x2, x22, #0xf
+       bl      setup_zreg
+       add     x21, x21, #1
+       cmp     x21, #NZR
+       b.lo    0b
+
+       mov     x0, x20         // Set up FFR & shadow with test pattern
+       mov     x1, #NZR + NPR
+       and     x2, x22, #0xf
+       bl      setup_ffr
+
+0:     mov     x0, x20         // Set up P-regs & shadow with test pattern
+       mov     x1, x21
+       and     x2, x22, #0xf
+       bl      setup_preg
+       add     x21, x21, #1
+       cmp     x21, #NZR + NPR
+       b.lo    0b
+
+// Can't do this when SVE state is volatile across SVC:
+//     mov     x8, #__NR_sched_yield   // Encourage preemption
+//     svc     #0
+
+       mov     x21, #0
+0:     mov     x0, x21
+       bl      check_zreg
+       add     x21, x21, #1
+       cmp     x21, #NZR
+       b.lo    0b
+
+0:     mov     x0, x21
+       bl      check_preg
+       add     x21, x21, #1
+       cmp     x21, #NZR + NPR
+       b.lo    0b
+
+       bl      check_ffr
+
+       add     x22, x22, #1
+       b       .Ltest_loop
+
+.Labort:
+       mov     x0, #0
+       mov     x1, #SIGABRT
+       mov     x8, #__NR_kill
+       svc     #0
+endfunction
+
+function barf
+// fpsimd.c acitivty log dump hack
+//     ldr     w0, =0xdeadc0de
+//     mov     w8, #__NR_exit
+//     svc     #0
+// end hack
+       mov     x10, x0 // expected data
+       mov     x11, x1 // actual data
+       mov     x12, x2 // data size
+
+       puts    "Mistatch: PID="
+       mov     x0, x20
+       bl      putdec
+       puts    ", iteration="
+       mov     x0, x22
+       bl      putdec
+       puts    ", reg="
+       mov     x0, x21
+       bl      putdecn
+       puts    "\tExpected ["
+       mov     x0, x10
+       mov     x1, x12
+       bl      dumphex
+       puts    "]\n\tGot      ["
+       mov     x0, x11
+       mov     x1, x12
+       bl      dumphex
+       puts    "]\n"
+
+       mov     x8, #__NR_getpid
+       svc     #0
+// fpsimd.c acitivty log dump hack
+//     ldr     w0, =0xdeadc0de
+//     mov     w8, #__NR_exit
+//     svc     #0
+// ^ end of hack
+       mov     x1, #SIGABRT
+       mov     x8, #__NR_kill
+       svc     #0
+//     mov     x8, #__NR_exit
+//     mov     x1, #1
+//     svc     #0
+endfunction
+
+function vl_barf
+       mov     x10, x0
+
+       puts    "Bad active VL: "
+       mov     x0, x10
+       bl      putdecn
+
+       mov     x8, #__NR_exit
+       mov     x1, #1
+       svc     #0
+endfunction
diff --git a/tools/testing/selftests/arm64/fp/vlset.c b/tools/testing/selftests/arm64/fp/vlset.c
new file mode 100644 (file)
index 0000000..308d27a
--- /dev/null
@@ -0,0 +1,155 @@
+// SPDX-License-Identifier: GPL-2.0-only
+/*
+ * Copyright (C) 2015-2019 ARM Limited.
+ * Original author: Dave Martin <Dave.Martin@arm.com>
+ */
+#define _GNU_SOURCE
+#include <assert.h>
+#include <errno.h>
+#include <limits.h>
+#include <stddef.h>
+#include <stdio.h>
+#include <stdlib.h>
+#include <string.h>
+#include <getopt.h>
+#include <unistd.h>
+#include <sys/auxv.h>
+#include <sys/prctl.h>
+#include <asm/hwcap.h>
+#include <asm/sigcontext.h>
+
+static int inherit = 0;
+static int no_inherit = 0;
+static int force = 0;
+static unsigned long vl;
+
+static const struct option options[] = {
+       { "force",      no_argument, NULL, 'f' },
+       { "inherit",    no_argument, NULL, 'i' },
+       { "max",        no_argument, NULL, 'M' },
+       { "no-inherit", no_argument, &no_inherit, 1 },
+       { "help",       no_argument, NULL, '?' },
+       {}
+};
+
+static char const *program_name;
+
+static int parse_options(int argc, char **argv)
+{
+       int c;
+       char *rest;
+
+       program_name = strrchr(argv[0], '/');
+       if (program_name)
+               ++program_name;
+       else
+               program_name = argv[0];
+
+       while ((c = getopt_long(argc, argv, "Mfhi", options, NULL)) != -1)
+               switch (c) {
+               case 'M':       vl = SVE_VL_MAX; break;
+               case 'f':       force = 1; break;
+               case 'i':       inherit = 1; break;
+               case 0:         break;
+               default:        goto error;
+               }
+
+       if (inherit && no_inherit)
+               goto error;
+
+       if (!vl) {
+               /* vector length */
+               if (optind >= argc)
+                       goto error;
+
+               errno = 0;
+               vl = strtoul(argv[optind], &rest, 0);
+               if (*rest) {
+                       vl = ULONG_MAX;
+                       errno = EINVAL;
+               }
+               if (vl == ULONG_MAX && errno) {
+                       fprintf(stderr, "%s: %s: %s\n",
+                               program_name, argv[optind], strerror(errno));
+                       goto error;
+               }
+
+               ++optind;
+       }
+
+       /* command */
+       if (optind >= argc)
+               goto error;
+
+       return 0;
+
+error:
+       fprintf(stderr,
+               "Usage: %s [-f | --force] "
+               "[-i | --inherit | --no-inherit] "
+               "{-M | --max | <vector length>} "
+               "<command> [<arguments> ...]\n",
+               program_name);
+       return -1;
+}
+
+int main(int argc, char **argv)
+{
+       int ret = 126;  /* same as sh(1) command-not-executable error */
+       long flags;
+       char *path;
+       int t, e;
+
+       if (parse_options(argc, argv))
+               return 2;       /* same as sh(1) builtin incorrect-usage */
+
+       if (vl & ~(vl & PR_SVE_VL_LEN_MASK)) {
+               fprintf(stderr, "%s: Invalid vector length %lu\n",
+                       program_name, vl);
+               return 2;       /* same as sh(1) builtin incorrect-usage */
+       }
+
+       if (!(getauxval(AT_HWCAP) & HWCAP_SVE)) {
+               fprintf(stderr, "%s: Scalable Vector Extension not present\n",
+                       program_name);
+
+               if (!force)
+                       goto error;
+
+               fputs("Going ahead anyway (--force):  "
+                     "This is a debug option.  Don't rely on it.\n",
+                     stderr);
+       }
+
+       flags = PR_SVE_SET_VL_ONEXEC;
+       if (inherit)
+               flags |= PR_SVE_VL_INHERIT;
+
+       t = prctl(PR_SVE_SET_VL, vl | flags);
+       if (t < 0) {
+               fprintf(stderr, "%s: PR_SVE_SET_VL: %s\n",
+                       program_name, strerror(errno));
+               goto error;
+       }
+
+       t = prctl(PR_SVE_GET_VL);
+       if (t == -1) {
+               fprintf(stderr, "%s: PR_SVE_GET_VL: %s\n",
+                       program_name, strerror(errno));
+               goto error;
+       }
+       flags = PR_SVE_VL_LEN_MASK;
+       flags = t & ~flags;
+
+       assert(optind < argc);
+       path = argv[optind];
+
+       execvp(path, &argv[optind]);
+       e = errno;
+       if (errno == ENOENT)
+               ret = 127;      /* same as sh(1) not-found error */
+       fprintf(stderr, "%s: %s: %s\n", program_name, path, strerror(e));
+
+error:
+       return ret;             /* same as sh(1) not-executable error */
+}
diff --git a/tools/testing/selftests/arm64/mte/.gitignore b/tools/testing/selftests/arm64/mte/.gitignore
new file mode 100644 (file)
index 0000000..bc3ac63
--- /dev/null
@@ -0,0 +1,6 @@
+check_buffer_fill
+check_tags_inclusion
+check_child_memory
+check_mmap_options
+check_ksm_options
+check_user_mem
diff --git a/tools/testing/selftests/arm64/mte/Makefile b/tools/testing/selftests/arm64/mte/Makefile
new file mode 100644 (file)
index 0000000..2480226
--- /dev/null
@@ -0,0 +1,29 @@
+# SPDX-License-Identifier: GPL-2.0
+# Copyright (C) 2020 ARM Limited
+
+CFLAGS += -std=gnu99 -I.
+SRCS := $(filter-out mte_common_util.c,$(wildcard *.c))
+PROGS := $(patsubst %.c,%,$(SRCS))
+
+#Add mte compiler option
+ifneq ($(shell $(CC) --version 2>&1 | head -n 1 | grep gcc),)
+CFLAGS += -march=armv8.5-a+memtag
+endif
+
+#check if the compiler works well
+mte_cc_support := $(shell if ($(CC) $(CFLAGS) -E -x c /dev/null -o /dev/null 2>&1) then echo "1"; fi)
+
+ifeq ($(mte_cc_support),1)
+# Generated binaries to be installed by top KSFT script
+TEST_GEN_PROGS := $(PROGS)
+
+# Get Kernel headers installed and use them.
+KSFT_KHDR_INSTALL := 1
+endif
+
+# Include KSFT lib.mk.
+include ../../lib.mk
+
+ifeq ($(mte_cc_support),1)
+$(TEST_GEN_PROGS): mte_common_util.c mte_common_util.h mte_helper.S
+endif
diff --git a/tools/testing/selftests/arm64/mte/check_buffer_fill.c b/tools/testing/selftests/arm64/mte/check_buffer_fill.c
new file mode 100644 (file)
index 0000000..242635d
--- /dev/null
@@ -0,0 +1,475 @@
+// SPDX-License-Identifier: GPL-2.0
+// Copyright (C) 2020 ARM Limited
+
+#define _GNU_SOURCE
+
+#include <stddef.h>
+#include <stdio.h>
+#include <string.h>
+
+#include "kselftest.h"
+#include "mte_common_util.h"
+#include "mte_def.h"
+
+#define OVERFLOW_RANGE MT_GRANULE_SIZE
+
+static int sizes[] = {
+       1, 555, 1033, MT_GRANULE_SIZE - 1, MT_GRANULE_SIZE,
+       /* page size - 1*/ 0, /* page_size */ 0, /* page size + 1 */ 0
+};
+
+enum mte_block_test_alloc {
+       UNTAGGED_TAGGED,
+       TAGGED_UNTAGGED,
+       TAGGED_TAGGED,
+       BLOCK_ALLOC_MAX,
+};
+
+static int check_buffer_by_byte(int mem_type, int mode)
+{
+       char *ptr;
+       int i, j, item;
+       bool err;
+
+       mte_switch_mode(mode, MTE_ALLOW_NON_ZERO_TAG);
+       item = sizeof(sizes)/sizeof(int);
+
+       for (i = 0; i < item; i++) {
+               ptr = (char *)mte_allocate_memory(sizes[i], mem_type, 0, true);
+               if (check_allocated_memory(ptr, sizes[i], mem_type, true) != KSFT_PASS)
+                       return KSFT_FAIL;
+               mte_initialize_current_context(mode, (uintptr_t)ptr, sizes[i]);
+               /* Set some value in tagged memory */
+               for (j = 0; j < sizes[i]; j++)
+                       ptr[j] = '1';
+               mte_wait_after_trig();
+               err = cur_mte_cxt.fault_valid;
+               /* Check the buffer whether it is filled. */
+               for (j = 0; j < sizes[i] && !err; j++) {
+                       if (ptr[j] != '1')
+                               err = true;
+               }
+               mte_free_memory((void *)ptr, sizes[i], mem_type, true);
+
+               if (err)
+                       break;
+       }
+       if (!err)
+               return KSFT_PASS;
+       else
+               return KSFT_FAIL;
+}
+
+static int check_buffer_underflow_by_byte(int mem_type, int mode,
+                                         int underflow_range)
+{
+       char *ptr;
+       int i, j, item, last_index;
+       bool err;
+       char *und_ptr = NULL;
+
+       mte_switch_mode(mode, MTE_ALLOW_NON_ZERO_TAG);
+       item = sizeof(sizes)/sizeof(int);
+       for (i = 0; i < item; i++) {
+               ptr = (char *)mte_allocate_memory_tag_range(sizes[i], mem_type, 0,
+                                                           underflow_range, 0);
+               if (check_allocated_memory_range(ptr, sizes[i], mem_type,
+                                              underflow_range, 0) != KSFT_PASS)
+                       return KSFT_FAIL;
+
+               mte_initialize_current_context(mode, (uintptr_t)ptr, -underflow_range);
+               last_index = 0;
+               /* Set some value in tagged memory and make the buffer underflow */
+               for (j = sizes[i] - 1; (j >= -underflow_range) &&
+                                      (cur_mte_cxt.fault_valid == false); j--) {
+                       ptr[j] = '1';
+                       last_index = j;
+               }
+               mte_wait_after_trig();
+               err = false;
+               /* Check whether the buffer is filled */
+               for (j = 0; j < sizes[i]; j++) {
+                       if (ptr[j] != '1') {
+                               err = true;
+                               ksft_print_msg("Buffer is not filled at index:%d of ptr:0x%lx\n",
+                                               j, ptr);
+                               break;
+                       }
+               }
+               if (err)
+                       goto check_buffer_underflow_by_byte_err;
+
+               switch (mode) {
+               case MTE_NONE_ERR:
+                       if (cur_mte_cxt.fault_valid == true || last_index != -underflow_range) {
+                               err = true;
+                               break;
+                       }
+                       /* There were no fault so the underflow area should be filled */
+                       und_ptr = (char *) MT_CLEAR_TAG((size_t) ptr - underflow_range);
+                       for (j = 0 ; j < underflow_range; j++) {
+                               if (und_ptr[j] != '1') {
+                                       err = true;
+                                       break;
+                               }
+                       }
+                       break;
+               case MTE_ASYNC_ERR:
+                       /* Imprecise fault should occur otherwise return error */
+                       if (cur_mte_cxt.fault_valid == false) {
+                               err = true;
+                               break;
+                       }
+                       /*
+                        * The imprecise fault is checked after the write to the buffer,
+                        * so the underflow area before the fault should be filled.
+                        */
+                       und_ptr = (char *) MT_CLEAR_TAG((size_t) ptr);
+                       for (j = last_index ; j < 0 ; j++) {
+                               if (und_ptr[j] != '1') {
+                                       err = true;
+                                       break;
+                               }
+                       }
+                       break;
+               case MTE_SYNC_ERR:
+                       /* Precise fault should occur otherwise return error */
+                       if (!cur_mte_cxt.fault_valid || (last_index != (-1))) {
+                               err = true;
+                               break;
+                       }
+                       /* Underflow area should not be filled */
+                       und_ptr = (char *) MT_CLEAR_TAG((size_t) ptr);
+                       if (und_ptr[-1] == '1')
+                               err = true;
+                       break;
+               default:
+                       err = true;
+               break;
+               }
+check_buffer_underflow_by_byte_err:
+               mte_free_memory_tag_range((void *)ptr, sizes[i], mem_type, underflow_range, 0);
+               if (err)
+                       break;
+       }
+       return (err ? KSFT_FAIL : KSFT_PASS);
+}
+
+static int check_buffer_overflow_by_byte(int mem_type, int mode,
+                                         int overflow_range)
+{
+       char *ptr;
+       int i, j, item, last_index;
+       bool err;
+       size_t tagged_size, overflow_size;
+       char *over_ptr = NULL;
+
+       mte_switch_mode(mode, MTE_ALLOW_NON_ZERO_TAG);
+       item = sizeof(sizes)/sizeof(int);
+       for (i = 0; i < item; i++) {
+               ptr = (char *)mte_allocate_memory_tag_range(sizes[i], mem_type, 0,
+                                                           0, overflow_range);
+               if (check_allocated_memory_range(ptr, sizes[i], mem_type,
+                                                0, overflow_range) != KSFT_PASS)
+                       return KSFT_FAIL;
+
+               tagged_size = MT_ALIGN_UP(sizes[i]);
+
+               mte_initialize_current_context(mode, (uintptr_t)ptr, sizes[i] + overflow_range);
+
+               /* Set some value in tagged memory and make the buffer underflow */
+               for (j = 0, last_index = 0 ; (j < (sizes[i] + overflow_range)) &&
+                                            (cur_mte_cxt.fault_valid == false); j++) {
+                       ptr[j] = '1';
+                       last_index = j;
+               }
+               mte_wait_after_trig();
+               err = false;
+               /* Check whether the buffer is filled */
+               for (j = 0; j < sizes[i]; j++) {
+                       if (ptr[j] != '1') {
+                               err = true;
+                               ksft_print_msg("Buffer is not filled at index:%d of ptr:0x%lx\n",
+                                               j, ptr);
+                               break;
+                       }
+               }
+               if (err)
+                       goto check_buffer_overflow_by_byte_err;
+
+               overflow_size = overflow_range - (tagged_size - sizes[i]);
+
+               switch (mode) {
+               case MTE_NONE_ERR:
+                       if ((cur_mte_cxt.fault_valid == true) ||
+                           (last_index != (sizes[i] + overflow_range - 1))) {
+                               err = true;
+                               break;
+                       }
+                       /* There were no fault so the overflow area should be filled */
+                       over_ptr = (char *) MT_CLEAR_TAG((size_t) ptr + tagged_size);
+                       for (j = 0 ; j < overflow_size; j++) {
+                               if (over_ptr[j] != '1') {
+                                       err = true;
+                                       break;
+                               }
+                       }
+                       break;
+               case MTE_ASYNC_ERR:
+                       /* Imprecise fault should occur otherwise return error */
+                       if (cur_mte_cxt.fault_valid == false) {
+                               err = true;
+                               break;
+                       }
+                       /*
+                        * The imprecise fault is checked after the write to the buffer,
+                        * so the overflow area should be filled before the fault.
+                        */
+                       over_ptr = (char *) MT_CLEAR_TAG((size_t) ptr);
+                       for (j = tagged_size ; j < last_index; j++) {
+                               if (over_ptr[j] != '1') {
+                                       err = true;
+                                       break;
+                               }
+                       }
+                       break;
+               case MTE_SYNC_ERR:
+                       /* Precise fault should occur otherwise return error */
+                       if (!cur_mte_cxt.fault_valid || (last_index != tagged_size)) {
+                               err = true;
+                               break;
+                       }
+                       /* Underflow area should not be filled */
+                       over_ptr = (char *) MT_CLEAR_TAG((size_t) ptr + tagged_size);
+                       for (j = 0 ; j < overflow_size; j++) {
+                               if (over_ptr[j] == '1')
+                                       err = true;
+                       }
+                       break;
+               default:
+                       err = true;
+               break;
+               }
+check_buffer_overflow_by_byte_err:
+               mte_free_memory_tag_range((void *)ptr, sizes[i], mem_type, 0, overflow_range);
+               if (err)
+                       break;
+       }
+       return (err ? KSFT_FAIL : KSFT_PASS);
+}
+
+static int check_buffer_by_block_iterate(int mem_type, int mode, size_t size)
+{
+       char *src, *dst;
+       int j, result = KSFT_PASS;
+       enum mte_block_test_alloc alloc_type = UNTAGGED_TAGGED;
+
+       for (alloc_type = UNTAGGED_TAGGED; alloc_type < (int) BLOCK_ALLOC_MAX; alloc_type++) {
+               switch (alloc_type) {
+               case UNTAGGED_TAGGED:
+                       src = (char *)mte_allocate_memory(size, mem_type, 0, false);
+                       if (check_allocated_memory(src, size, mem_type, false) != KSFT_PASS)
+                               return KSFT_FAIL;
+
+                       dst = (char *)mte_allocate_memory(size, mem_type, 0, true);
+                       if (check_allocated_memory(dst, size, mem_type, true) != KSFT_PASS) {
+                               mte_free_memory((void *)src, size, mem_type, false);
+                               return KSFT_FAIL;
+                       }
+
+                       break;
+               case TAGGED_UNTAGGED:
+                       dst = (char *)mte_allocate_memory(size, mem_type, 0, false);
+                       if (check_allocated_memory(dst, size, mem_type, false) != KSFT_PASS)
+                               return KSFT_FAIL;
+
+                       src = (char *)mte_allocate_memory(size, mem_type, 0, true);
+                       if (check_allocated_memory(src, size, mem_type, true) != KSFT_PASS) {
+                               mte_free_memory((void *)dst, size, mem_type, false);
+                               return KSFT_FAIL;
+                       }
+                       break;
+               case TAGGED_TAGGED:
+                       src = (char *)mte_allocate_memory(size, mem_type, 0, true);
+                       if (check_allocated_memory(src, size, mem_type, true) != KSFT_PASS)
+                               return KSFT_FAIL;
+
+                       dst = (char *)mte_allocate_memory(size, mem_type, 0, true);
+                       if (check_allocated_memory(dst, size, mem_type, true) != KSFT_PASS) {
+                               mte_free_memory((void *)src, size, mem_type, true);
+                               return KSFT_FAIL;
+                       }
+                       break;
+               default:
+                       return KSFT_FAIL;
+               }
+
+               cur_mte_cxt.fault_valid = false;
+               result = KSFT_PASS;
+               mte_initialize_current_context(mode, (uintptr_t)dst, size);
+               /* Set some value in memory and copy*/
+               memset((void *)src, (int)'1', size);
+               memcpy((void *)dst, (void *)src, size);
+               mte_wait_after_trig();
+               if (cur_mte_cxt.fault_valid) {
+                       result = KSFT_FAIL;
+                       goto check_buffer_by_block_err;
+               }
+               /* Check the buffer whether it is filled. */
+               for (j = 0; j < size; j++) {
+                       if (src[j] != dst[j] || src[j] != '1') {
+                               result = KSFT_FAIL;
+                               break;
+                       }
+               }
+check_buffer_by_block_err:
+               mte_free_memory((void *)src, size, mem_type,
+                               MT_FETCH_TAG((uintptr_t)src) ? true : false);
+               mte_free_memory((void *)dst, size, mem_type,
+                               MT_FETCH_TAG((uintptr_t)dst) ? true : false);
+               if (result != KSFT_PASS)
+                       return result;
+       }
+       return result;
+}
+
+static int check_buffer_by_block(int mem_type, int mode)
+{
+       int i, item, result = KSFT_PASS;
+
+       mte_switch_mode(mode, MTE_ALLOW_NON_ZERO_TAG);
+       item = sizeof(sizes)/sizeof(int);
+       cur_mte_cxt.fault_valid = false;
+       for (i = 0; i < item; i++) {
+               result = check_buffer_by_block_iterate(mem_type, mode, sizes[i]);
+               if (result != KSFT_PASS)
+                       break;
+       }
+       return result;
+}
+
+static int compare_memory_tags(char *ptr, size_t size, int tag)
+{
+       int i, new_tag;
+
+       for (i = 0 ; i < size ; i += MT_GRANULE_SIZE) {
+               new_tag = MT_FETCH_TAG((uintptr_t)(mte_get_tag_address(ptr + i)));
+               if (tag != new_tag) {
+                       ksft_print_msg("FAIL: child mte tag mismatch\n");
+                       return KSFT_FAIL;
+               }
+       }
+       return KSFT_PASS;
+}
+
+static int check_memory_initial_tags(int mem_type, int mode, int mapping)
+{
+       char *ptr;
+       int run, fd;
+       int total = sizeof(sizes)/sizeof(int);
+
+       mte_switch_mode(mode, MTE_ALLOW_NON_ZERO_TAG);
+       for (run = 0; run < total; run++) {
+               /* check initial tags for anonymous mmap */
+               ptr = (char *)mte_allocate_memory(sizes[run], mem_type, mapping, false);
+               if (check_allocated_memory(ptr, sizes[run], mem_type, false) != KSFT_PASS)
+                       return KSFT_FAIL;
+               if (compare_memory_tags(ptr, sizes[run], 0) != KSFT_PASS) {
+                       mte_free_memory((void *)ptr, sizes[run], mem_type, false);
+                       return KSFT_FAIL;
+               }
+               mte_free_memory((void *)ptr, sizes[run], mem_type, false);
+
+               /* check initial tags for file mmap */
+               fd = create_temp_file();
+               if (fd == -1)
+                       return KSFT_FAIL;
+               ptr = (char *)mte_allocate_file_memory(sizes[run], mem_type, mapping, false, fd);
+               if (check_allocated_memory(ptr, sizes[run], mem_type, false) != KSFT_PASS) {
+                       close(fd);
+                       return KSFT_FAIL;
+               }
+               if (compare_memory_tags(ptr, sizes[run], 0) != KSFT_PASS) {
+                       mte_free_memory((void *)ptr, sizes[run], mem_type, false);
+                       close(fd);
+                       return KSFT_FAIL;
+               }
+               mte_free_memory((void *)ptr, sizes[run], mem_type, false);
+               close(fd);
+       }
+       return KSFT_PASS;
+}
+
+int main(int argc, char *argv[])
+{
+       int err;
+       size_t page_size = getpagesize();
+       int item = sizeof(sizes)/sizeof(int);
+
+       sizes[item - 3] = page_size - 1;
+       sizes[item - 2] = page_size;
+       sizes[item - 1] = page_size + 1;
+
+       err = mte_default_setup();
+       if (err)
+               return err;
+
+       /* Register SIGSEGV handler */
+       mte_register_signal(SIGSEGV, mte_default_handler);
+
+       /* Buffer by byte tests */
+       evaluate_test(check_buffer_by_byte(USE_MMAP, MTE_SYNC_ERR),
+       "Check buffer correctness by byte with sync err mode and mmap memory\n");
+       evaluate_test(check_buffer_by_byte(USE_MMAP, MTE_ASYNC_ERR),
+       "Check buffer correctness by byte with async err mode and mmap memory\n");
+       evaluate_test(check_buffer_by_byte(USE_MPROTECT, MTE_SYNC_ERR),
+       "Check buffer correctness by byte with sync err mode and mmap/mprotect memory\n");
+       evaluate_test(check_buffer_by_byte(USE_MPROTECT, MTE_ASYNC_ERR),
+       "Check buffer correctness by byte with async err mode and mmap/mprotect memory\n");
+
+       /* Check buffer underflow with underflow size as 16 */
+       evaluate_test(check_buffer_underflow_by_byte(USE_MMAP, MTE_SYNC_ERR, MT_GRANULE_SIZE),
+       "Check buffer write underflow by byte with sync mode and mmap memory\n");
+       evaluate_test(check_buffer_underflow_by_byte(USE_MMAP, MTE_ASYNC_ERR, MT_GRANULE_SIZE),
+       "Check buffer write underflow by byte with async mode and mmap memory\n");
+       evaluate_test(check_buffer_underflow_by_byte(USE_MMAP, MTE_NONE_ERR, MT_GRANULE_SIZE),
+       "Check buffer write underflow by byte with tag check fault ignore and mmap memory\n");
+
+       /* Check buffer underflow with underflow size as page size */
+       evaluate_test(check_buffer_underflow_by_byte(USE_MMAP, MTE_SYNC_ERR, page_size),
+       "Check buffer write underflow by byte with sync mode and mmap memory\n");
+       evaluate_test(check_buffer_underflow_by_byte(USE_MMAP, MTE_ASYNC_ERR, page_size),
+       "Check buffer write underflow by byte with async mode and mmap memory\n");
+       evaluate_test(check_buffer_underflow_by_byte(USE_MMAP, MTE_NONE_ERR, page_size),
+       "Check buffer write underflow by byte with tag check fault ignore and mmap memory\n");
+
+       /* Check buffer overflow with overflow size as 16 */
+       evaluate_test(check_buffer_overflow_by_byte(USE_MMAP, MTE_SYNC_ERR, MT_GRANULE_SIZE),
+       "Check buffer write overflow by byte with sync mode and mmap memory\n");
+       evaluate_test(check_buffer_overflow_by_byte(USE_MMAP, MTE_ASYNC_ERR, MT_GRANULE_SIZE),
+       "Check buffer write overflow by byte with async mode and mmap memory\n");
+       evaluate_test(check_buffer_overflow_by_byte(USE_MMAP, MTE_NONE_ERR, MT_GRANULE_SIZE),
+       "Check buffer write overflow by byte with tag fault ignore mode and mmap memory\n");
+
+       /* Buffer by block tests */
+       evaluate_test(check_buffer_by_block(USE_MMAP, MTE_SYNC_ERR),
+       "Check buffer write correctness by block with sync mode and mmap memory\n");
+       evaluate_test(check_buffer_by_block(USE_MMAP, MTE_ASYNC_ERR),
+       "Check buffer write correctness by block with async mode and mmap memory\n");
+       evaluate_test(check_buffer_by_block(USE_MMAP, MTE_NONE_ERR),
+       "Check buffer write correctness by block with tag fault ignore and mmap memory\n");
+
+       /* Initial tags are supposed to be 0 */
+       evaluate_test(check_memory_initial_tags(USE_MMAP, MTE_SYNC_ERR, MAP_PRIVATE),
+       "Check initial tags with private mapping, sync error mode and mmap memory\n");
+       evaluate_test(check_memory_initial_tags(USE_MPROTECT, MTE_SYNC_ERR, MAP_PRIVATE),
+       "Check initial tags with private mapping, sync error mode and mmap/mprotect memory\n");
+       evaluate_test(check_memory_initial_tags(USE_MMAP, MTE_SYNC_ERR, MAP_SHARED),
+       "Check initial tags with shared mapping, sync error mode and mmap memory\n");
+       evaluate_test(check_memory_initial_tags(USE_MPROTECT, MTE_SYNC_ERR, MAP_SHARED),
+       "Check initial tags with shared mapping, sync error mode and mmap/mprotect memory\n");
+
+       mte_restore_setup();
+       ksft_print_cnts();
+       return ksft_get_fail_cnt() == 0 ? KSFT_PASS : KSFT_FAIL;
+}
diff --git a/tools/testing/selftests/arm64/mte/check_child_memory.c b/tools/testing/selftests/arm64/mte/check_child_memory.c
new file mode 100644 (file)
index 0000000..97bebde
--- /dev/null
@@ -0,0 +1,195 @@
+// SPDX-License-Identifier: GPL-2.0
+// Copyright (C) 2020 ARM Limited
+
+#define _GNU_SOURCE
+
+#include <errno.h>
+#include <signal.h>
+#include <stdio.h>
+#include <stdlib.h>
+#include <string.h>
+#include <ucontext.h>
+#include <sys/wait.h>
+
+#include "kselftest.h"
+#include "mte_common_util.h"
+#include "mte_def.h"
+
+#define BUFFER_SIZE            (5 * MT_GRANULE_SIZE)
+#define RUNS                   (MT_TAG_COUNT)
+#define UNDERFLOW              MT_GRANULE_SIZE
+#define OVERFLOW               MT_GRANULE_SIZE
+
+static size_t page_size;
+static int sizes[] = {
+       1, 537, 989, 1269, MT_GRANULE_SIZE - 1, MT_GRANULE_SIZE,
+       /* page size - 1*/ 0, /* page_size */ 0, /* page size + 1 */ 0
+};
+
+static int check_child_tag_inheritance(char *ptr, int size, int mode)
+{
+       int i, parent_tag, child_tag, fault, child_status;
+       pid_t child;
+
+       parent_tag = MT_FETCH_TAG((uintptr_t)ptr);
+       fault = 0;
+
+       child = fork();
+       if (child == -1) {
+               ksft_print_msg("FAIL: child process creation\n");
+               return KSFT_FAIL;
+       } else if (child == 0) {
+               mte_initialize_current_context(mode, (uintptr_t)ptr, size);
+               /* Do copy on write */
+               memset(ptr, '1', size);
+               mte_wait_after_trig();
+               if (cur_mte_cxt.fault_valid == true) {
+                       fault = 1;
+                       goto check_child_tag_inheritance_err;
+               }
+               for (i = 0 ; i < size ; i += MT_GRANULE_SIZE) {
+                       child_tag = MT_FETCH_TAG((uintptr_t)(mte_get_tag_address(ptr + i)));
+                       if (parent_tag != child_tag) {
+                               ksft_print_msg("FAIL: child mte tag mismatch\n");
+                               fault = 1;
+                               goto check_child_tag_inheritance_err;
+                       }
+               }
+               mte_initialize_current_context(mode, (uintptr_t)ptr, -UNDERFLOW);
+               memset(ptr - UNDERFLOW, '2', UNDERFLOW);
+               mte_wait_after_trig();
+               if (cur_mte_cxt.fault_valid == false) {
+                       fault = 1;
+                       goto check_child_tag_inheritance_err;
+               }
+               mte_initialize_current_context(mode, (uintptr_t)ptr, size + OVERFLOW);
+               memset(ptr + size, '3', OVERFLOW);
+               mte_wait_after_trig();
+               if (cur_mte_cxt.fault_valid == false) {
+                       fault = 1;
+                       goto check_child_tag_inheritance_err;
+               }
+check_child_tag_inheritance_err:
+               _exit(fault);
+       }
+       /* Wait for child process to terminate */
+       wait(&child_status);
+       if (WIFEXITED(child_status))
+               fault = WEXITSTATUS(child_status);
+       else
+               fault = 1;
+       return (fault) ? KSFT_FAIL : KSFT_PASS;
+}
+
+static int check_child_memory_mapping(int mem_type, int mode, int mapping)
+{
+       char *ptr;
+       int run, result;
+       int item = sizeof(sizes)/sizeof(int);
+
+       item = sizeof(sizes)/sizeof(int);
+       mte_switch_mode(mode, MTE_ALLOW_NON_ZERO_TAG);
+       for (run = 0; run < item; run++) {
+               ptr = (char *)mte_allocate_memory_tag_range(sizes[run], mem_type, mapping,
+                                                           UNDERFLOW, OVERFLOW);
+               if (check_allocated_memory_range(ptr, sizes[run], mem_type,
+                                                UNDERFLOW, OVERFLOW) != KSFT_PASS)
+                       return KSFT_FAIL;
+               result = check_child_tag_inheritance(ptr, sizes[run], mode);
+               mte_free_memory_tag_range((void *)ptr, sizes[run], mem_type, UNDERFLOW, OVERFLOW);
+               if (result == KSFT_FAIL)
+                       return result;
+       }
+       return KSFT_PASS;
+}
+
+static int check_child_file_mapping(int mem_type, int mode, int mapping)
+{
+       char *ptr, *map_ptr;
+       int run, fd, map_size, result = KSFT_PASS;
+       int total = sizeof(sizes)/sizeof(int);
+
+       mte_switch_mode(mode, MTE_ALLOW_NON_ZERO_TAG);
+       for (run = 0; run < total; run++) {
+               fd = create_temp_file();
+               if (fd == -1)
+                       return KSFT_FAIL;
+
+               map_size = sizes[run] + OVERFLOW + UNDERFLOW;
+               map_ptr = (char *)mte_allocate_file_memory(map_size, mem_type, mapping, false, fd);
+               if (check_allocated_memory(map_ptr, map_size, mem_type, false) != KSFT_PASS) {
+                       close(fd);
+                       return KSFT_FAIL;
+               }
+               ptr = map_ptr + UNDERFLOW;
+               mte_initialize_current_context(mode, (uintptr_t)ptr, sizes[run]);
+               /* Only mte enabled memory will allow tag insertion */
+               ptr = mte_insert_tags((void *)ptr, sizes[run]);
+               if (!ptr || cur_mte_cxt.fault_valid == true) {
+                       ksft_print_msg("FAIL: Insert tags on file based memory\n");
+                       munmap((void *)map_ptr, map_size);
+                       close(fd);
+                       return KSFT_FAIL;
+               }
+               result = check_child_tag_inheritance(ptr, sizes[run], mode);
+               mte_clear_tags((void *)ptr, sizes[run]);
+               munmap((void *)map_ptr, map_size);
+               close(fd);
+               if (result != KSFT_PASS)
+                       return KSFT_FAIL;
+       }
+       return KSFT_PASS;
+}
+
+int main(int argc, char *argv[])
+{
+       int err;
+       int item = sizeof(sizes)/sizeof(int);
+
+       page_size = getpagesize();
+       if (!page_size) {
+               ksft_print_msg("ERR: Unable to get page size\n");
+               return KSFT_FAIL;
+       }
+       sizes[item - 3] = page_size - 1;
+       sizes[item - 2] = page_size;
+       sizes[item - 1] = page_size + 1;
+
+       err = mte_default_setup();
+       if (err)
+               return err;
+
+       /* Register SIGSEGV handler */
+       mte_register_signal(SIGSEGV, mte_default_handler);
+       mte_register_signal(SIGBUS, mte_default_handler);
+
+       evaluate_test(check_child_memory_mapping(USE_MMAP, MTE_SYNC_ERR, MAP_PRIVATE),
+               "Check child anonymous memory with private mapping, precise mode and mmap memory\n");
+       evaluate_test(check_child_memory_mapping(USE_MMAP, MTE_SYNC_ERR, MAP_SHARED),
+               "Check child anonymous memory with shared mapping, precise mode and mmap memory\n");
+       evaluate_test(check_child_memory_mapping(USE_MMAP, MTE_ASYNC_ERR, MAP_PRIVATE),
+               "Check child anonymous memory with private mapping, imprecise mode and mmap memory\n");
+       evaluate_test(check_child_memory_mapping(USE_MMAP, MTE_ASYNC_ERR, MAP_SHARED),
+               "Check child anonymous memory with shared mapping, imprecise mode and mmap memory\n");
+       evaluate_test(check_child_memory_mapping(USE_MPROTECT, MTE_SYNC_ERR, MAP_PRIVATE),
+               "Check child anonymous memory with private mapping, precise mode and mmap/mprotect memory\n");
+       evaluate_test(check_child_memory_mapping(USE_MPROTECT, MTE_SYNC_ERR, MAP_SHARED),
+               "Check child anonymous memory with shared mapping, precise mode and mmap/mprotect memory\n");
+
+       evaluate_test(check_child_file_mapping(USE_MMAP, MTE_SYNC_ERR, MAP_PRIVATE),
+               "Check child file memory with private mapping, precise mode and mmap memory\n");
+       evaluate_test(check_child_file_mapping(USE_MMAP, MTE_SYNC_ERR, MAP_SHARED),
+               "Check child file memory with shared mapping, precise mode and mmap memory\n");
+       evaluate_test(check_child_memory_mapping(USE_MMAP, MTE_ASYNC_ERR, MAP_PRIVATE),
+               "Check child file memory with private mapping, imprecise mode and mmap memory\n");
+       evaluate_test(check_child_memory_mapping(USE_MMAP, MTE_ASYNC_ERR, MAP_SHARED),
+               "Check child file memory with shared mapping, imprecise mode and mmap memory\n");
+       evaluate_test(check_child_memory_mapping(USE_MPROTECT, MTE_SYNC_ERR, MAP_PRIVATE),
+               "Check child file memory with private mapping, precise mode and mmap/mprotect memory\n");
+       evaluate_test(check_child_memory_mapping(USE_MPROTECT, MTE_SYNC_ERR, MAP_SHARED),
+               "Check child file memory with shared mapping, precise mode and mmap/mprotect memory\n");
+
+       mte_restore_setup();
+       ksft_print_cnts();
+       return ksft_get_fail_cnt() == 0 ? KSFT_PASS : KSFT_FAIL;
+}
diff --git a/tools/testing/selftests/arm64/mte/check_ksm_options.c b/tools/testing/selftests/arm64/mte/check_ksm_options.c
new file mode 100644 (file)
index 0000000..bc41ae6
--- /dev/null
@@ -0,0 +1,159 @@
+// SPDX-License-Identifier: GPL-2.0
+// Copyright (C) 2020 ARM Limited
+
+#define _GNU_SOURCE
+
+#include <errno.h>
+#include <fcntl.h>
+#include <signal.h>
+#include <stdio.h>
+#include <stdlib.h>
+#include <string.h>
+#include <ucontext.h>
+#include <sys/mman.h>
+
+#include "kselftest.h"
+#include "mte_common_util.h"
+#include "mte_def.h"
+
+#define TEST_UNIT      10
+#define PATH_KSM       "/sys/kernel/mm/ksm/"
+#define MAX_LOOP       4
+
+static size_t page_sz;
+static unsigned long ksm_sysfs[5];
+
+static unsigned long read_sysfs(char *str)
+{
+       FILE *f;
+       unsigned long val = 0;
+
+       f = fopen(str, "r");
+       if (!f) {
+               ksft_print_msg("ERR: missing %s\n", str);
+               return 0;
+       }
+       fscanf(f, "%lu", &val);
+       fclose(f);
+       return val;
+}
+
+static void write_sysfs(char *str, unsigned long val)
+{
+       FILE *f;
+
+       f = fopen(str, "w");
+       if (!f) {
+               ksft_print_msg("ERR: missing %s\n", str);
+               return;
+       }
+       fprintf(f, "%lu", val);
+       fclose(f);
+}
+
+static void mte_ksm_setup(void)
+{
+       ksm_sysfs[0] = read_sysfs(PATH_KSM "merge_across_nodes");
+       write_sysfs(PATH_KSM "merge_across_nodes", 1);
+       ksm_sysfs[1] = read_sysfs(PATH_KSM "sleep_millisecs");
+       write_sysfs(PATH_KSM "sleep_millisecs", 0);
+       ksm_sysfs[2] = read_sysfs(PATH_KSM "run");
+       write_sysfs(PATH_KSM "run", 1);
+       ksm_sysfs[3] = read_sysfs(PATH_KSM "max_page_sharing");
+       write_sysfs(PATH_KSM "max_page_sharing", ksm_sysfs[3] + TEST_UNIT);
+       ksm_sysfs[4] = read_sysfs(PATH_KSM "pages_to_scan");
+       write_sysfs(PATH_KSM "pages_to_scan", ksm_sysfs[4] + TEST_UNIT);
+}
+
+static void mte_ksm_restore(void)
+{
+       write_sysfs(PATH_KSM "merge_across_nodes", ksm_sysfs[0]);
+       write_sysfs(PATH_KSM "sleep_millisecs", ksm_sysfs[1]);
+       write_sysfs(PATH_KSM "run", ksm_sysfs[2]);
+       write_sysfs(PATH_KSM "max_page_sharing", ksm_sysfs[3]);
+       write_sysfs(PATH_KSM "pages_to_scan", ksm_sysfs[4]);
+}
+
+static void mte_ksm_scan(void)
+{
+       int cur_count = read_sysfs(PATH_KSM "full_scans");
+       int scan_count = cur_count + 1;
+       int max_loop_count = MAX_LOOP;
+
+       while ((cur_count < scan_count) && max_loop_count) {
+               sleep(1);
+               cur_count = read_sysfs(PATH_KSM "full_scans");
+               max_loop_count--;
+       }
+#ifdef DEBUG
+       ksft_print_msg("INFO: pages_shared=%lu pages_sharing=%lu\n",
+                       read_sysfs(PATH_KSM "pages_shared"),
+                       read_sysfs(PATH_KSM "pages_sharing"));
+#endif
+}
+
+static int check_madvise_options(int mem_type, int mode, int mapping)
+{
+       char *ptr;
+       int err, ret;
+
+       err = KSFT_FAIL;
+       if (access(PATH_KSM, F_OK) == -1) {
+               ksft_print_msg("ERR: Kernel KSM config not enabled\n");
+               return err;
+       }
+
+       mte_switch_mode(mode, MTE_ALLOW_NON_ZERO_TAG);
+       ptr = mte_allocate_memory(TEST_UNIT * page_sz, mem_type, mapping, true);
+       if (check_allocated_memory(ptr, TEST_UNIT * page_sz, mem_type, false) != KSFT_PASS)
+               return KSFT_FAIL;
+
+       /* Insert same data in all the pages */
+       memset(ptr, 'A', TEST_UNIT * page_sz);
+       ret = madvise(ptr, TEST_UNIT * page_sz, MADV_MERGEABLE);
+       if (ret) {
+               ksft_print_msg("ERR: madvise failed to set MADV_UNMERGEABLE\n");
+               goto madvise_err;
+       }
+       mte_ksm_scan();
+       /* Tagged pages should not merge */
+       if ((read_sysfs(PATH_KSM "pages_shared") < 1) ||
+           (read_sysfs(PATH_KSM "pages_sharing") < (TEST_UNIT - 1)))
+               err = KSFT_PASS;
+madvise_err:
+       mte_free_memory(ptr, TEST_UNIT * page_sz, mem_type, true);
+       return err;
+}
+
+int main(int argc, char *argv[])
+{
+       int err;
+
+       err = mte_default_setup();
+       if (err)
+               return err;
+       page_sz = getpagesize();
+       if (!page_sz) {
+               ksft_print_msg("ERR: Unable to get page size\n");
+               return KSFT_FAIL;
+       }
+       /* Register signal handlers */
+       mte_register_signal(SIGBUS, mte_default_handler);
+       mte_register_signal(SIGSEGV, mte_default_handler);
+       /* Enable KSM */
+       mte_ksm_setup();
+
+       evaluate_test(check_madvise_options(USE_MMAP, MTE_SYNC_ERR, MAP_PRIVATE),
+               "Check KSM mte page merge for private mapping, sync mode and mmap memory\n");
+       evaluate_test(check_madvise_options(USE_MMAP, MTE_ASYNC_ERR, MAP_PRIVATE),
+               "Check KSM mte page merge for private mapping, async mode and mmap memory\n");
+       evaluate_test(check_madvise_options(USE_MMAP, MTE_SYNC_ERR, MAP_SHARED),
+               "Check KSM mte page merge for shared mapping, sync mode and mmap memory\n");
+       evaluate_test(check_madvise_options(USE_MMAP, MTE_ASYNC_ERR, MAP_SHARED),
+               "Check KSM mte page merge for shared mapping, async mode and mmap memory\n");
+
+       mte_ksm_restore();
+       mte_restore_setup();
+       ksft_print_cnts();
+       return ksft_get_fail_cnt() == 0 ? KSFT_PASS : KSFT_FAIL;
+}
diff --git a/tools/testing/selftests/arm64/mte/check_mmap_options.c b/tools/testing/selftests/arm64/mte/check_mmap_options.c
new file mode 100644 (file)
index 0000000..33b13b8
--- /dev/null
@@ -0,0 +1,262 @@
+// SPDX-License-Identifier: GPL-2.0
+// Copyright (C) 2020 ARM Limited
+
+#define _GNU_SOURCE
+
+#include <errno.h>
+#include <fcntl.h>
+#include <signal.h>
+#include <stdio.h>
+#include <stdlib.h>
+#include <string.h>
+#include <ucontext.h>
+#include <sys/mman.h>
+#include <sys/stat.h>
+#include <sys/types.h>
+
+#include "kselftest.h"
+#include "mte_common_util.h"
+#include "mte_def.h"
+
+#define RUNS                   (MT_TAG_COUNT)
+#define UNDERFLOW              MT_GRANULE_SIZE
+#define OVERFLOW               MT_GRANULE_SIZE
+#define TAG_CHECK_ON           0
+#define TAG_CHECK_OFF          1
+
+static size_t page_size;
+static int sizes[] = {
+       1, 537, 989, 1269, MT_GRANULE_SIZE - 1, MT_GRANULE_SIZE,
+       /* page size - 1*/ 0, /* page_size */ 0, /* page size + 1 */ 0
+};
+
+static int check_mte_memory(char *ptr, int size, int mode, int tag_check)
+{
+       mte_initialize_current_context(mode, (uintptr_t)ptr, size);
+       memset(ptr, '1', size);
+       mte_wait_after_trig();
+       if (cur_mte_cxt.fault_valid == true)
+               return KSFT_FAIL;
+
+       mte_initialize_current_context(mode, (uintptr_t)ptr, -UNDERFLOW);
+       memset(ptr - UNDERFLOW, '2', UNDERFLOW);
+       mte_wait_after_trig();
+       if (cur_mte_cxt.fault_valid == false && tag_check == TAG_CHECK_ON)
+               return KSFT_FAIL;
+       if (cur_mte_cxt.fault_valid == true && tag_check == TAG_CHECK_OFF)
+               return KSFT_FAIL;
+
+       mte_initialize_current_context(mode, (uintptr_t)ptr, size + OVERFLOW);
+       memset(ptr + size, '3', OVERFLOW);
+       mte_wait_after_trig();
+       if (cur_mte_cxt.fault_valid == false && tag_check == TAG_CHECK_ON)
+               return KSFT_FAIL;
+       if (cur_mte_cxt.fault_valid == true && tag_check == TAG_CHECK_OFF)
+               return KSFT_FAIL;
+
+       return KSFT_PASS;
+}
+
+static int check_anonymous_memory_mapping(int mem_type, int mode, int mapping, int tag_check)
+{
+       char *ptr, *map_ptr;
+       int run, result, map_size;
+       int item = sizeof(sizes)/sizeof(int);
+
+       item = sizeof(sizes)/sizeof(int);
+       mte_switch_mode(mode, MTE_ALLOW_NON_ZERO_TAG);
+       for (run = 0; run < item; run++) {
+               map_size = sizes[run] + OVERFLOW + UNDERFLOW;
+               map_ptr = (char *)mte_allocate_memory(map_size, mem_type, mapping, false);
+               if (check_allocated_memory(map_ptr, map_size, mem_type, false) != KSFT_PASS)
+                       return KSFT_FAIL;
+
+               ptr = map_ptr + UNDERFLOW;
+               mte_initialize_current_context(mode, (uintptr_t)ptr, sizes[run]);
+               /* Only mte enabled memory will allow tag insertion */
+               ptr = mte_insert_tags((void *)ptr, sizes[run]);
+               if (!ptr || cur_mte_cxt.fault_valid == true) {
+                       ksft_print_msg("FAIL: Insert tags on anonymous mmap memory\n");
+                       munmap((void *)map_ptr, map_size);
+                       return KSFT_FAIL;
+               }
+               result = check_mte_memory(ptr, sizes[run], mode, tag_check);
+               mte_clear_tags((void *)ptr, sizes[run]);
+               mte_free_memory((void *)map_ptr, map_size, mem_type, false);
+               if (result == KSFT_FAIL)
+                       return KSFT_FAIL;
+       }
+       return KSFT_PASS;
+}
+
+static int check_file_memory_mapping(int mem_type, int mode, int mapping, int tag_check)
+{
+       char *ptr, *map_ptr;
+       int run, fd, map_size;
+       int total = sizeof(sizes)/sizeof(int);
+       int result = KSFT_PASS;
+
+       mte_switch_mode(mode, MTE_ALLOW_NON_ZERO_TAG);
+       for (run = 0; run < total; run++) {
+               fd = create_temp_file();
+               if (fd == -1)
+                       return KSFT_FAIL;
+
+               map_size = sizes[run] + UNDERFLOW + OVERFLOW;
+               map_ptr = (char *)mte_allocate_file_memory(map_size, mem_type, mapping, false, fd);
+               if (check_allocated_memory(map_ptr, map_size, mem_type, false) != KSFT_PASS) {
+                       close(fd);
+                       return KSFT_FAIL;
+               }
+               ptr = map_ptr + UNDERFLOW;
+               mte_initialize_current_context(mode, (uintptr_t)ptr, sizes[run]);
+               /* Only mte enabled memory will allow tag insertion */
+               ptr = mte_insert_tags((void *)ptr, sizes[run]);
+               if (!ptr || cur_mte_cxt.fault_valid == true) {
+                       ksft_print_msg("FAIL: Insert tags on file based memory\n");
+                       munmap((void *)map_ptr, map_size);
+                       close(fd);
+                       return KSFT_FAIL;
+               }
+               result = check_mte_memory(ptr, sizes[run], mode, tag_check);
+               mte_clear_tags((void *)ptr, sizes[run]);
+               munmap((void *)map_ptr, map_size);
+               close(fd);
+               if (result == KSFT_FAIL)
+                       break;
+       }
+       return result;
+}
+
+static int check_clear_prot_mte_flag(int mem_type, int mode, int mapping)
+{
+       char *ptr, *map_ptr;
+       int run, prot_flag, result, fd, map_size;
+       int total = sizeof(sizes)/sizeof(int);
+
+       prot_flag = PROT_READ | PROT_WRITE;
+       mte_switch_mode(mode, MTE_ALLOW_NON_ZERO_TAG);
+       for (run = 0; run < total; run++) {
+               map_size = sizes[run] + OVERFLOW + UNDERFLOW;
+               ptr = (char *)mte_allocate_memory_tag_range(sizes[run], mem_type, mapping,
+                                                           UNDERFLOW, OVERFLOW);
+               if (check_allocated_memory_range(ptr, sizes[run], mem_type,
+                                                UNDERFLOW, OVERFLOW) != KSFT_PASS)
+                       return KSFT_FAIL;
+               map_ptr = ptr - UNDERFLOW;
+               /* Try to clear PROT_MTE property and verify it by tag checking */
+               if (mprotect(map_ptr, map_size, prot_flag)) {
+                       mte_free_memory_tag_range((void *)ptr, sizes[run], mem_type,
+                                                 UNDERFLOW, OVERFLOW);
+                       ksft_print_msg("FAIL: mprotect not ignoring clear PROT_MTE property\n");
+                       return KSFT_FAIL;
+               }
+               result = check_mte_memory(ptr, sizes[run], mode, TAG_CHECK_ON);
+               mte_free_memory_tag_range((void *)ptr, sizes[run], mem_type, UNDERFLOW, OVERFLOW);
+               if (result != KSFT_PASS)
+                       return KSFT_FAIL;
+
+               fd = create_temp_file();
+               if (fd == -1)
+                       return KSFT_FAIL;
+               ptr = (char *)mte_allocate_file_memory_tag_range(sizes[run], mem_type, mapping,
+                                                                UNDERFLOW, OVERFLOW, fd);
+               if (check_allocated_memory_range(ptr, sizes[run], mem_type,
+                                                UNDERFLOW, OVERFLOW) != KSFT_PASS) {
+                       close(fd);
+                       return KSFT_FAIL;
+               }
+               map_ptr = ptr - UNDERFLOW;
+               /* Try to clear PROT_MTE property and verify it by tag checking */
+               if (mprotect(map_ptr, map_size, prot_flag)) {
+                       ksft_print_msg("FAIL: mprotect not ignoring clear PROT_MTE property\n");
+                       mte_free_memory_tag_range((void *)ptr, sizes[run], mem_type,
+                                                 UNDERFLOW, OVERFLOW);
+                       close(fd);
+                       return KSFT_FAIL;
+               }
+               result = check_mte_memory(ptr, sizes[run], mode, TAG_CHECK_ON);
+               mte_free_memory_tag_range((void *)ptr, sizes[run], mem_type, UNDERFLOW, OVERFLOW);
+               close(fd);
+               if (result != KSFT_PASS)
+                       return KSFT_FAIL;
+       }
+       return KSFT_PASS;
+}
+
+int main(int argc, char *argv[])
+{
+       int err;
+       int item = sizeof(sizes)/sizeof(int);
+
+       err = mte_default_setup();
+       if (err)
+               return err;
+       page_size = getpagesize();
+       if (!page_size) {
+               ksft_print_msg("ERR: Unable to get page size\n");
+               return KSFT_FAIL;
+       }
+       sizes[item - 3] = page_size - 1;
+       sizes[item - 2] = page_size;
+       sizes[item - 1] = page_size + 1;
+
+       /* Register signal handlers */
+       mte_register_signal(SIGBUS, mte_default_handler);
+       mte_register_signal(SIGSEGV, mte_default_handler);
+
+       mte_enable_pstate_tco();
+       evaluate_test(check_anonymous_memory_mapping(USE_MMAP, MTE_SYNC_ERR, MAP_PRIVATE, TAG_CHECK_OFF),
+       "Check anonymous memory with private mapping, sync error mode, mmap memory and tag check off\n");
+       evaluate_test(check_file_memory_mapping(USE_MPROTECT, MTE_SYNC_ERR, MAP_PRIVATE, TAG_CHECK_OFF),
+       "Check file memory with private mapping, sync error mode, mmap/mprotect memory and tag check off\n");
+
+       mte_disable_pstate_tco();
+       evaluate_test(check_anonymous_memory_mapping(USE_MMAP, MTE_NONE_ERR, MAP_PRIVATE, TAG_CHECK_OFF),
+       "Check anonymous memory with private mapping, no error mode, mmap memory and tag check off\n");
+       evaluate_test(check_file_memory_mapping(USE_MPROTECT, MTE_NONE_ERR, MAP_PRIVATE, TAG_CHECK_OFF),
+       "Check file memory with private mapping, no error mode, mmap/mprotect memory and tag check off\n");
+
+       evaluate_test(check_anonymous_memory_mapping(USE_MMAP, MTE_SYNC_ERR, MAP_PRIVATE, TAG_CHECK_ON),
+       "Check anonymous memory with private mapping, sync error mode, mmap memory and tag check on\n");
+       evaluate_test(check_anonymous_memory_mapping(USE_MPROTECT, MTE_SYNC_ERR, MAP_PRIVATE, TAG_CHECK_ON),
+       "Check anonymous memory with private mapping, sync error mode, mmap/mprotect memory and tag check on\n");
+       evaluate_test(check_anonymous_memory_mapping(USE_MMAP, MTE_SYNC_ERR, MAP_SHARED, TAG_CHECK_ON),
+       "Check anonymous memory with shared mapping, sync error mode, mmap memory and tag check on\n");
+       evaluate_test(check_anonymous_memory_mapping(USE_MPROTECT, MTE_SYNC_ERR, MAP_SHARED, TAG_CHECK_ON),
+       "Check anonymous memory with shared mapping, sync error mode, mmap/mprotect memory and tag check on\n");
+       evaluate_test(check_anonymous_memory_mapping(USE_MMAP, MTE_ASYNC_ERR, MAP_PRIVATE, TAG_CHECK_ON),
+       "Check anonymous memory with private mapping, async error mode, mmap memory and tag check on\n");
+       evaluate_test(check_anonymous_memory_mapping(USE_MPROTECT, MTE_ASYNC_ERR, MAP_PRIVATE, TAG_CHECK_ON),
+       "Check anonymous memory with private mapping, async error mode, mmap/mprotect memory and tag check on\n");
+       evaluate_test(check_anonymous_memory_mapping(USE_MMAP, MTE_ASYNC_ERR, MAP_SHARED, TAG_CHECK_ON),
+       "Check anonymous memory with shared mapping, async error mode, mmap memory and tag check on\n");
+       evaluate_test(check_anonymous_memory_mapping(USE_MPROTECT, MTE_ASYNC_ERR, MAP_SHARED, TAG_CHECK_ON),
+       "Check anonymous memory with shared mapping, async error mode, mmap/mprotect memory and tag check on\n");
+
+       evaluate_test(check_file_memory_mapping(USE_MMAP, MTE_SYNC_ERR, MAP_PRIVATE, TAG_CHECK_ON),
+       "Check file memory with private mapping, sync error mode, mmap memory and tag check on\n");
+       evaluate_test(check_file_memory_mapping(USE_MPROTECT, MTE_SYNC_ERR, MAP_PRIVATE, TAG_CHECK_ON),
+       "Check file memory with private mapping, sync error mode, mmap/mprotect memory and tag check on\n");
+       evaluate_test(check_file_memory_mapping(USE_MMAP, MTE_SYNC_ERR, MAP_SHARED, TAG_CHECK_ON),
+       "Check file memory with shared mapping, sync error mode, mmap memory and tag check on\n");
+       evaluate_test(check_file_memory_mapping(USE_MPROTECT, MTE_SYNC_ERR, MAP_SHARED, TAG_CHECK_ON),
+       "Check file memory with shared mapping, sync error mode, mmap/mprotect memory and tag check on\n");
+       evaluate_test(check_file_memory_mapping(USE_MMAP, MTE_ASYNC_ERR, MAP_PRIVATE, TAG_CHECK_ON),
+       "Check file memory with private mapping, async error mode, mmap memory and tag check on\n");
+       evaluate_test(check_file_memory_mapping(USE_MPROTECT, MTE_ASYNC_ERR, MAP_PRIVATE, TAG_CHECK_ON),
+       "Check file memory with private mapping, async error mode, mmap/mprotect memory and tag check on\n");
+       evaluate_test(check_file_memory_mapping(USE_MMAP, MTE_ASYNC_ERR, MAP_SHARED, TAG_CHECK_ON),
+       "Check file memory with shared mapping, async error mode, mmap memory and tag check on\n");
+       evaluate_test(check_file_memory_mapping(USE_MPROTECT, MTE_ASYNC_ERR, MAP_SHARED, TAG_CHECK_ON),
+       "Check file memory with shared mapping, async error mode, mmap/mprotect memory and tag check on\n");
+
+       evaluate_test(check_clear_prot_mte_flag(USE_MMAP, MTE_SYNC_ERR, MAP_PRIVATE),
+       "Check clear PROT_MTE flags with private mapping, sync error mode and mmap memory\n");
+       evaluate_test(check_clear_prot_mte_flag(USE_MPROTECT, MTE_SYNC_ERR, MAP_PRIVATE),
+       "Check clear PROT_MTE flags with private mapping and sync error mode and mmap/mprotect memory\n");
+
+       mte_restore_setup();
+       ksft_print_cnts();
+       return ksft_get_fail_cnt() == 0 ? KSFT_PASS : KSFT_FAIL;
+}
diff --git a/tools/testing/selftests/arm64/mte/check_tags_inclusion.c b/tools/testing/selftests/arm64/mte/check_tags_inclusion.c
new file mode 100644 (file)
index 0000000..94d245a
--- /dev/null
@@ -0,0 +1,185 @@
+// SPDX-License-Identifier: GPL-2.0
+// Copyright (C) 2020 ARM Limited
+
+#define _GNU_SOURCE
+
+#include <errno.h>
+#include <signal.h>
+#include <stdio.h>
+#include <stdlib.h>
+#include <string.h>
+#include <ucontext.h>
+#include <sys/wait.h>
+
+#include "kselftest.h"
+#include "mte_common_util.h"
+#include "mte_def.h"
+
+#define BUFFER_SIZE            (5 * MT_GRANULE_SIZE)
+#define RUNS                   (MT_TAG_COUNT * 2)
+#define MTE_LAST_TAG_MASK      (0x7FFF)
+
+static int verify_mte_pointer_validity(char *ptr, int mode)
+{
+       mte_initialize_current_context(mode, (uintptr_t)ptr, BUFFER_SIZE);
+       /* Check the validity of the tagged pointer */
+       memset((void *)ptr, '1', BUFFER_SIZE);
+       mte_wait_after_trig();
+       if (cur_mte_cxt.fault_valid)
+               return KSFT_FAIL;
+       /* Proceed further for nonzero tags */
+       if (!MT_FETCH_TAG((uintptr_t)ptr))
+               return KSFT_PASS;
+       mte_initialize_current_context(mode, (uintptr_t)ptr, BUFFER_SIZE + 1);
+       /* Check the validity outside the range */
+       ptr[BUFFER_SIZE] = '2';
+       mte_wait_after_trig();
+       if (!cur_mte_cxt.fault_valid)
+               return KSFT_FAIL;
+       else
+               return KSFT_PASS;
+}
+
+static int check_single_included_tags(int mem_type, int mode)
+{
+       char *ptr;
+       int tag, run, result = KSFT_PASS;
+
+       ptr = (char *)mte_allocate_memory(BUFFER_SIZE + MT_GRANULE_SIZE, mem_type, 0, false);
+       if (check_allocated_memory(ptr, BUFFER_SIZE + MT_GRANULE_SIZE,
+                                  mem_type, false) != KSFT_PASS)
+               return KSFT_FAIL;
+
+       for (tag = 0; (tag < MT_TAG_COUNT) && (result == KSFT_PASS); tag++) {
+               mte_switch_mode(mode, MT_INCLUDE_VALID_TAG(tag));
+               /* Try to catch a excluded tag by a number of tries. */
+               for (run = 0; (run < RUNS) && (result == KSFT_PASS); run++) {
+                       ptr = (char *)mte_insert_tags(ptr, BUFFER_SIZE);
+                       /* Check tag value */
+                       if (MT_FETCH_TAG((uintptr_t)ptr) == tag) {
+                               ksft_print_msg("FAIL: wrong tag = 0x%x with include mask=0x%x\n",
+                                              MT_FETCH_TAG((uintptr_t)ptr),
+                                              MT_INCLUDE_VALID_TAG(tag));
+                               result = KSFT_FAIL;
+                               break;
+                       }
+                       result = verify_mte_pointer_validity(ptr, mode);
+               }
+       }
+       mte_free_memory_tag_range((void *)ptr, BUFFER_SIZE, mem_type, 0, MT_GRANULE_SIZE);
+       return result;
+}
+
+static int check_multiple_included_tags(int mem_type, int mode)
+{
+       char *ptr;
+       int tag, run, result = KSFT_PASS;
+       unsigned long excl_mask = 0;
+
+       ptr = (char *)mte_allocate_memory(BUFFER_SIZE + MT_GRANULE_SIZE, mem_type, 0, false);
+       if (check_allocated_memory(ptr, BUFFER_SIZE + MT_GRANULE_SIZE,
+                                  mem_type, false) != KSFT_PASS)
+               return KSFT_FAIL;
+
+       for (tag = 0; (tag < MT_TAG_COUNT - 1) && (result == KSFT_PASS); tag++) {
+               excl_mask |= 1 << tag;
+               mte_switch_mode(mode, MT_INCLUDE_VALID_TAGS(excl_mask));
+               /* Try to catch a excluded tag by a number of tries. */
+               for (run = 0; (run < RUNS) && (result == KSFT_PASS); run++) {
+                       ptr = (char *)mte_insert_tags(ptr, BUFFER_SIZE);
+                       /* Check tag value */
+                       if (MT_FETCH_TAG((uintptr_t)ptr) < tag) {
+                               ksft_print_msg("FAIL: wrong tag = 0x%x with include mask=0x%x\n",
+                                              MT_FETCH_TAG((uintptr_t)ptr),
+                                              MT_INCLUDE_VALID_TAGS(excl_mask));
+                               result = KSFT_FAIL;
+                               break;
+                       }
+                       result = verify_mte_pointer_validity(ptr, mode);
+               }
+       }
+       mte_free_memory_tag_range((void *)ptr, BUFFER_SIZE, mem_type, 0, MT_GRANULE_SIZE);
+       return result;
+}
+
+static int check_all_included_tags(int mem_type, int mode)
+{
+       char *ptr;
+       int run, result = KSFT_PASS;
+
+       ptr = (char *)mte_allocate_memory(BUFFER_SIZE + MT_GRANULE_SIZE, mem_type, 0, false);
+       if (check_allocated_memory(ptr, BUFFER_SIZE + MT_GRANULE_SIZE,
+                                  mem_type, false) != KSFT_PASS)
+               return KSFT_FAIL;
+
+       mte_switch_mode(mode, MT_INCLUDE_TAG_MASK);
+       /* Try to catch a excluded tag by a number of tries. */
+       for (run = 0; (run < RUNS) && (result == KSFT_PASS); run++) {
+               ptr = (char *)mte_insert_tags(ptr, BUFFER_SIZE);
+               /*
+                * Here tag byte can be between 0x0 to 0xF (full allowed range)
+                * so no need to match so just verify if it is writable.
+                */
+               result = verify_mte_pointer_validity(ptr, mode);
+       }
+       mte_free_memory_tag_range((void *)ptr, BUFFER_SIZE, mem_type, 0, MT_GRANULE_SIZE);
+       return result;
+}
+
+static int check_none_included_tags(int mem_type, int mode)
+{
+       char *ptr;
+       int run;
+
+       ptr = (char *)mte_allocate_memory(BUFFER_SIZE, mem_type, 0, false);
+       if (check_allocated_memory(ptr, BUFFER_SIZE, mem_type, false) != KSFT_PASS)
+               return KSFT_FAIL;
+
+       mte_switch_mode(mode, MT_EXCLUDE_TAG_MASK);
+       /* Try to catch a excluded tag by a number of tries. */
+       for (run = 0; run < RUNS; run++) {
+               ptr = (char *)mte_insert_tags(ptr, BUFFER_SIZE);
+               /* Here all tags exluded so tag value generated should be 0 */
+               if (MT_FETCH_TAG((uintptr_t)ptr)) {
+                       ksft_print_msg("FAIL: included tag value found\n");
+                       mte_free_memory((void *)ptr, BUFFER_SIZE, mem_type, true);
+                       return KSFT_FAIL;
+               }
+               mte_initialize_current_context(mode, (uintptr_t)ptr, BUFFER_SIZE);
+               /* Check the write validity of the untagged pointer */
+               memset((void *)ptr, '1', BUFFER_SIZE);
+               mte_wait_after_trig();
+               if (cur_mte_cxt.fault_valid)
+                       break;
+       }
+       mte_free_memory((void *)ptr, BUFFER_SIZE, mem_type, false);
+       if (cur_mte_cxt.fault_valid)
+               return KSFT_FAIL;
+       else
+               return KSFT_PASS;
+}
+
+int main(int argc, char *argv[])
+{
+       int err;
+
+       err = mte_default_setup();
+       if (err)
+               return err;
+
+       /* Register SIGSEGV handler */
+       mte_register_signal(SIGSEGV, mte_default_handler);
+
+       evaluate_test(check_single_included_tags(USE_MMAP, MTE_SYNC_ERR),
+                     "Check an included tag value with sync mode\n");
+       evaluate_test(check_multiple_included_tags(USE_MMAP, MTE_SYNC_ERR),
+                     "Check different included tags value with sync mode\n");
+       evaluate_test(check_none_included_tags(USE_MMAP, MTE_SYNC_ERR),
+                     "Check none included tags value with sync mode\n");
+       evaluate_test(check_all_included_tags(USE_MMAP, MTE_SYNC_ERR),
+                     "Check all included tags value with sync mode\n");
+
+       mte_restore_setup();
+       ksft_print_cnts();
+       return ksft_get_fail_cnt() == 0 ? KSFT_PASS : KSFT_FAIL;
+}
diff --git a/tools/testing/selftests/arm64/mte/check_user_mem.c b/tools/testing/selftests/arm64/mte/check_user_mem.c
new file mode 100644 (file)
index 0000000..594e98e
--- /dev/null
@@ -0,0 +1,111 @@
+// SPDX-License-Identifier: GPL-2.0
+// Copyright (C) 2020 ARM Limited
+
+#define _GNU_SOURCE
+
+#include <errno.h>
+#include <fcntl.h>
+#include <signal.h>
+#include <stdlib.h>
+#include <stdio.h>
+#include <string.h>
+#include <ucontext.h>
+#include <unistd.h>
+#include <sys/mman.h>
+
+#include "kselftest.h"
+#include "mte_common_util.h"
+#include "mte_def.h"
+
+static size_t page_sz;
+
+static int check_usermem_access_fault(int mem_type, int mode, int mapping)
+{
+       int fd, i, err;
+       char val = 'A';
+       size_t len, read_len;
+       void *ptr, *ptr_next;
+
+       err = KSFT_FAIL;
+       len = 2 * page_sz;
+       mte_switch_mode(mode, MTE_ALLOW_NON_ZERO_TAG);
+       fd = create_temp_file();
+       if (fd == -1)
+               return KSFT_FAIL;
+       for (i = 0; i < len; i++)
+               write(fd, &val, sizeof(val));
+       lseek(fd, 0, 0);
+       ptr = mte_allocate_memory(len, mem_type, mapping, true);
+       if (check_allocated_memory(ptr, len, mem_type, true) != KSFT_PASS) {
+               close(fd);
+               return KSFT_FAIL;
+       }
+       mte_initialize_current_context(mode, (uintptr_t)ptr, len);
+       /* Copy from file into buffer with valid tag */
+       read_len = read(fd, ptr, len);
+       mte_wait_after_trig();
+       if (cur_mte_cxt.fault_valid || read_len < len)
+               goto usermem_acc_err;
+       /* Verify same pattern is read */
+       for (i = 0; i < len; i++)
+               if (*(char *)(ptr + i) != val)
+                       break;
+       if (i < len)
+               goto usermem_acc_err;
+
+       /* Tag the next half of memory with different value */
+       ptr_next = (void *)((unsigned long)ptr + page_sz);
+       ptr_next = mte_insert_new_tag(ptr_next);
+       mte_set_tag_address_range(ptr_next, page_sz);
+
+       lseek(fd, 0, 0);
+       /* Copy from file into buffer with invalid tag */
+       read_len = read(fd, ptr, len);
+       mte_wait_after_trig();
+       /*
+        * Accessing user memory in kernel with invalid tag should fail in sync
+        * mode without fault but may not fail in async mode as per the
+        * implemented MTE userspace support in Arm64 kernel.
+        */
+       if (mode == MTE_SYNC_ERR &&
+           !cur_mte_cxt.fault_valid && read_len < len) {
+               err = KSFT_PASS;
+       } else if (mode == MTE_ASYNC_ERR &&
+                  !cur_mte_cxt.fault_valid && read_len == len) {
+               err = KSFT_PASS;
+       }
+usermem_acc_err:
+       mte_free_memory((void *)ptr, len, mem_type, true);
+       close(fd);
+       return err;
+}
+
+int main(int argc, char *argv[])
+{
+       int err;
+
+       page_sz = getpagesize();
+       if (!page_sz) {
+               ksft_print_msg("ERR: Unable to get page size\n");
+               return KSFT_FAIL;
+       }
+       err = mte_default_setup();
+       if (err)
+               return err;
+       /* Register signal handlers */
+       mte_register_signal(SIGSEGV, mte_default_handler);
+
+       evaluate_test(check_usermem_access_fault(USE_MMAP, MTE_SYNC_ERR, MAP_PRIVATE),
+               "Check memory access from kernel in sync mode, private mapping and mmap memory\n");
+       evaluate_test(check_usermem_access_fault(USE_MMAP, MTE_SYNC_ERR, MAP_SHARED),
+               "Check memory access from kernel in sync mode, shared mapping and mmap memory\n");
+
+       evaluate_test(check_usermem_access_fault(USE_MMAP, MTE_ASYNC_ERR, MAP_PRIVATE),
+               "Check memory access from kernel in async mode, private mapping and mmap memory\n");
+       evaluate_test(check_usermem_access_fault(USE_MMAP, MTE_ASYNC_ERR, MAP_SHARED),
+               "Check memory access from kernel in async mode, shared mapping and mmap memory\n");
+
+       mte_restore_setup();
+       ksft_print_cnts();
+       return ksft_get_fail_cnt() == 0 ? KSFT_PASS : KSFT_FAIL;
+}
diff --git a/tools/testing/selftests/arm64/mte/mte_common_util.c b/tools/testing/selftests/arm64/mte/mte_common_util.c
new file mode 100644 (file)
index 0000000..39f8908
--- /dev/null
@@ -0,0 +1,341 @@
+// SPDX-License-Identifier: GPL-2.0
+// Copyright (C) 2020 ARM Limited
+
+#include <fcntl.h>
+#include <sched.h>
+#include <signal.h>
+#include <stdio.h>
+#include <stdlib.h>
+#include <unistd.h>
+
+#include <linux/auxvec.h>
+#include <sys/auxv.h>
+#include <sys/mman.h>
+#include <sys/prctl.h>
+
+#include <asm/hwcap.h>
+
+#include "kselftest.h"
+#include "mte_common_util.h"
+#include "mte_def.h"
+
+#define INIT_BUFFER_SIZE       256
+
+struct mte_fault_cxt cur_mte_cxt;
+static unsigned int mte_cur_mode;
+static unsigned int mte_cur_pstate_tco;
+
+void mte_default_handler(int signum, siginfo_t *si, void *uc)
+{
+       unsigned long addr = (unsigned long)si->si_addr;
+
+       if (signum == SIGSEGV) {
+#ifdef DEBUG
+               ksft_print_msg("INFO: SIGSEGV signal at pc=%lx, fault addr=%lx, si_code=%lx\n",
+                               ((ucontext_t *)uc)->uc_mcontext.pc, addr, si->si_code);
+#endif
+               if (si->si_code == SEGV_MTEAERR) {
+                       if (cur_mte_cxt.trig_si_code == si->si_code)
+                               cur_mte_cxt.fault_valid = true;
+                       return;
+               }
+               /* Compare the context for precise error */
+               else if (si->si_code == SEGV_MTESERR) {
+                       if (cur_mte_cxt.trig_si_code == si->si_code &&
+                           ((cur_mte_cxt.trig_range >= 0 &&
+                             addr >= MT_CLEAR_TAG(cur_mte_cxt.trig_addr) &&
+                             addr <= (MT_CLEAR_TAG(cur_mte_cxt.trig_addr) + cur_mte_cxt.trig_range)) ||
+                            (cur_mte_cxt.trig_range < 0 &&
+                             addr <= MT_CLEAR_TAG(cur_mte_cxt.trig_addr) &&
+                             addr >= (MT_CLEAR_TAG(cur_mte_cxt.trig_addr) + cur_mte_cxt.trig_range)))) {
+                               cur_mte_cxt.fault_valid = true;
+                               /* Adjust the pc by 4 */
+                               ((ucontext_t *)uc)->uc_mcontext.pc += 4;
+                       } else {
+                               ksft_print_msg("Invalid MTE synchronous exception caught!\n");
+                               exit(1);
+                       }
+               } else {
+                       ksft_print_msg("Unknown SIGSEGV exception caught!\n");
+                       exit(1);
+               }
+       } else if (signum == SIGBUS) {
+               ksft_print_msg("INFO: SIGBUS signal at pc=%lx, fault addr=%lx, si_code=%lx\n",
+                               ((ucontext_t *)uc)->uc_mcontext.pc, addr, si->si_code);
+               if ((cur_mte_cxt.trig_range >= 0 &&
+                    addr >= MT_CLEAR_TAG(cur_mte_cxt.trig_addr) &&
+                    addr <= (MT_CLEAR_TAG(cur_mte_cxt.trig_addr) + cur_mte_cxt.trig_range)) ||
+                   (cur_mte_cxt.trig_range < 0 &&
+                    addr <= MT_CLEAR_TAG(cur_mte_cxt.trig_addr) &&
+                    addr >= (MT_CLEAR_TAG(cur_mte_cxt.trig_addr) + cur_mte_cxt.trig_range))) {
+                       cur_mte_cxt.fault_valid = true;
+                       /* Adjust the pc by 4 */
+                       ((ucontext_t *)uc)->uc_mcontext.pc += 4;
+               }
+       }
+}
+
+void mte_register_signal(int signal, void (*handler)(int, siginfo_t *, void *))
+{
+       struct sigaction sa;
+
+       sa.sa_sigaction = handler;
+       sa.sa_flags = SA_SIGINFO;
+       sigemptyset(&sa.sa_mask);
+       sigaction(signal, &sa, NULL);
+}
+
+void mte_wait_after_trig(void)
+{
+       sched_yield();
+}
+
+void *mte_insert_tags(void *ptr, size_t size)
+{
+       void *tag_ptr;
+       int align_size;
+
+       if (!ptr || (unsigned long)(ptr) & MT_ALIGN_GRANULE) {
+               ksft_print_msg("FAIL: Addr=%lx: invalid\n", ptr);
+               return NULL;
+       }
+       align_size = MT_ALIGN_UP(size);
+       tag_ptr = mte_insert_random_tag(ptr);
+       mte_set_tag_address_range(tag_ptr, align_size);
+       return tag_ptr;
+}
+
+void mte_clear_tags(void *ptr, size_t size)
+{
+       if (!ptr || (unsigned long)(ptr) & MT_ALIGN_GRANULE) {
+               ksft_print_msg("FAIL: Addr=%lx: invalid\n", ptr);
+               return;
+       }
+       size = MT_ALIGN_UP(size);
+       ptr = (void *)MT_CLEAR_TAG((unsigned long)ptr);
+       mte_clear_tag_address_range(ptr, size);
+}
+
+static void *__mte_allocate_memory_range(size_t size, int mem_type, int mapping,
+                                        size_t range_before, size_t range_after,
+                                        bool tags, int fd)
+{
+       void *ptr;
+       int prot_flag, map_flag;
+       size_t entire_size = size + range_before + range_after;
+
+       if (mem_type != USE_MALLOC && mem_type != USE_MMAP &&
+           mem_type != USE_MPROTECT) {
+               ksft_print_msg("FAIL: Invalid allocate request\n");
+               return NULL;
+       }
+       if (mem_type == USE_MALLOC)
+               return malloc(entire_size) + range_before;
+
+       prot_flag = PROT_READ | PROT_WRITE;
+       if (mem_type == USE_MMAP)
+               prot_flag |= PROT_MTE;
+
+       map_flag = mapping;
+       if (fd == -1)
+               map_flag = MAP_ANONYMOUS | map_flag;
+       if (!(mapping & MAP_SHARED))
+               map_flag |= MAP_PRIVATE;
+       ptr = mmap(NULL, entire_size, prot_flag, map_flag, fd, 0);
+       if (ptr == MAP_FAILED) {
+               ksft_print_msg("FAIL: mmap allocation\n");
+               return NULL;
+       }
+       if (mem_type == USE_MPROTECT) {
+               if (mprotect(ptr, entire_size, prot_flag | PROT_MTE)) {
+                       munmap(ptr, size);
+                       ksft_print_msg("FAIL: mprotect PROT_MTE property\n");
+                       return NULL;
+               }
+       }
+       if (tags)
+               ptr = mte_insert_tags(ptr + range_before, size);
+       return ptr;
+}
+
+void *mte_allocate_memory_tag_range(size_t size, int mem_type, int mapping,
+                                   size_t range_before, size_t range_after)
+{
+       return __mte_allocate_memory_range(size, mem_type, mapping, range_before,
+                                          range_after, true, -1);
+}
+
+void *mte_allocate_memory(size_t size, int mem_type, int mapping, bool tags)
+{
+       return __mte_allocate_memory_range(size, mem_type, mapping, 0, 0, tags, -1);
+}
+
+void *mte_allocate_file_memory(size_t size, int mem_type, int mapping, bool tags, int fd)
+{
+       int index;
+       char buffer[INIT_BUFFER_SIZE];
+
+       if (mem_type != USE_MPROTECT && mem_type != USE_MMAP) {
+               ksft_print_msg("FAIL: Invalid mmap file request\n");
+               return NULL;
+       }
+       /* Initialize the file for mappable size */
+       lseek(fd, 0, SEEK_SET);
+       for (index = INIT_BUFFER_SIZE; index < size; index += INIT_BUFFER_SIZE)
+               write(fd, buffer, INIT_BUFFER_SIZE);
+       index -= INIT_BUFFER_SIZE;
+       write(fd, buffer, size - index);
+       return __mte_allocate_memory_range(size, mem_type, mapping, 0, 0, tags, fd);
+}
+
+void *mte_allocate_file_memory_tag_range(size_t size, int mem_type, int mapping,
+                                        size_t range_before, size_t range_after, int fd)
+{
+       int index;
+       char buffer[INIT_BUFFER_SIZE];
+       int map_size = size + range_before + range_after;
+
+       if (mem_type != USE_MPROTECT && mem_type != USE_MMAP) {
+               ksft_print_msg("FAIL: Invalid mmap file request\n");
+               return NULL;
+       }
+       /* Initialize the file for mappable size */
+       lseek(fd, 0, SEEK_SET);
+       for (index = INIT_BUFFER_SIZE; index < map_size; index += INIT_BUFFER_SIZE)
+               write(fd, buffer, INIT_BUFFER_SIZE);
+       index -= INIT_BUFFER_SIZE;
+       write(fd, buffer, map_size - index);
+       return __mte_allocate_memory_range(size, mem_type, mapping, range_before,
+                                          range_after, true, fd);
+}
+
+static void __mte_free_memory_range(void *ptr, size_t size, int mem_type,
+                                   size_t range_before, size_t range_after, bool tags)
+{
+       switch (mem_type) {
+       case USE_MALLOC:
+               free(ptr - range_before);
+               break;
+       case USE_MMAP:
+       case USE_MPROTECT:
+               if (tags)
+                       mte_clear_tags(ptr, size);
+               munmap(ptr - range_before, size + range_before + range_after);
+               break;
+       default:
+               ksft_print_msg("FAIL: Invalid free request\n");
+               break;
+       }
+}
+
+void mte_free_memory_tag_range(void *ptr, size_t size, int mem_type,
+                              size_t range_before, size_t range_after)
+{
+       __mte_free_memory_range(ptr, size, mem_type, range_before, range_after, true);
+}
+
+void mte_free_memory(void *ptr, size_t size, int mem_type, bool tags)
+{
+       __mte_free_memory_range(ptr, size, mem_type, 0, 0, tags);
+}
+
+void mte_initialize_current_context(int mode, uintptr_t ptr, ssize_t range)
+{
+       cur_mte_cxt.fault_valid = false;
+       cur_mte_cxt.trig_addr = ptr;
+       cur_mte_cxt.trig_range = range;
+       if (mode == MTE_SYNC_ERR)
+               cur_mte_cxt.trig_si_code = SEGV_MTESERR;
+       else if (mode == MTE_ASYNC_ERR)
+               cur_mte_cxt.trig_si_code = SEGV_MTEAERR;
+       else
+               cur_mte_cxt.trig_si_code = 0;
+}
+
+int mte_switch_mode(int mte_option, unsigned long incl_mask)
+{
+       unsigned long en = 0;
+
+       if (!(mte_option == MTE_SYNC_ERR || mte_option == MTE_ASYNC_ERR ||
+             mte_option == MTE_NONE_ERR || incl_mask <= MTE_ALLOW_NON_ZERO_TAG)) {
+               ksft_print_msg("FAIL: Invalid mte config option\n");
+               return -EINVAL;
+       }
+       en = PR_TAGGED_ADDR_ENABLE;
+       if (mte_option == MTE_SYNC_ERR)
+               en |= PR_MTE_TCF_SYNC;
+       else if (mte_option == MTE_ASYNC_ERR)
+               en |= PR_MTE_TCF_ASYNC;
+       else if (mte_option == MTE_NONE_ERR)
+               en |= PR_MTE_TCF_NONE;
+
+       en |= (incl_mask << PR_MTE_TAG_SHIFT);
+       /* Enable address tagging ABI, mte error reporting mode and tag inclusion mask. */
+       if (!prctl(PR_SET_TAGGED_ADDR_CTRL, en, 0, 0, 0) == 0) {
+               ksft_print_msg("FAIL:prctl PR_SET_TAGGED_ADDR_CTRL for mte mode\n");
+               return -EINVAL;
+       }
+       return 0;
+}
+
+#define ID_AA64PFR1_MTE_SHIFT          8
+#define ID_AA64PFR1_MTE                        2
+
+int mte_default_setup(void)
+{
+       unsigned long hwcaps = getauxval(AT_HWCAP);
+       unsigned long en = 0;
+       int ret;
+
+       if (!(hwcaps & HWCAP_CPUID)) {
+               ksft_print_msg("FAIL: CPUID registers unavailable\n");
+               return KSFT_FAIL;
+       }
+       /* Read ID_AA64PFR1_EL1 register */
+       asm volatile("mrs %0, id_aa64pfr1_el1" : "=r"(hwcaps) : : "memory");
+       if (((hwcaps >> ID_AA64PFR1_MTE_SHIFT) & MT_TAG_MASK) != ID_AA64PFR1_MTE) {
+               ksft_print_msg("FAIL: MTE features unavailable\n");
+               return KSFT_SKIP;
+       }
+       /* Get current mte mode */
+       ret = prctl(PR_GET_TAGGED_ADDR_CTRL, en, 0, 0, 0);
+       if (ret < 0) {
+               ksft_print_msg("FAIL:prctl PR_GET_TAGGED_ADDR_CTRL with error =%d\n", ret);
+               return KSFT_FAIL;
+       }
+       if (ret & PR_MTE_TCF_SYNC)
+               mte_cur_mode = MTE_SYNC_ERR;
+       else if (ret & PR_MTE_TCF_ASYNC)
+               mte_cur_mode = MTE_ASYNC_ERR;
+       else if (ret & PR_MTE_TCF_NONE)
+               mte_cur_mode = MTE_NONE_ERR;
+
+       mte_cur_pstate_tco = mte_get_pstate_tco();
+       /* Disable PSTATE.TCO */
+       mte_disable_pstate_tco();
+       return 0;
+}
+
+void mte_restore_setup(void)
+{
+       mte_switch_mode(mte_cur_mode, MTE_ALLOW_NON_ZERO_TAG);
+       if (mte_cur_pstate_tco == MT_PSTATE_TCO_EN)
+               mte_enable_pstate_tco();
+       else if (mte_cur_pstate_tco == MT_PSTATE_TCO_DIS)
+               mte_disable_pstate_tco();
+}
+
+int create_temp_file(void)
+{
+       int fd;
+       char filename[] = "/dev/shm/tmp_XXXXXX";
+
+       /* Create a file in the tmpfs filesystem */
+       fd = mkstemp(&filename[0]);
+       if (fd == -1) {
+               ksft_print_msg("FAIL: Unable to open temporary file\n");
+               return 0;
+       }
+       unlink(&filename[0]);
+       return fd;
+}
diff --git a/tools/testing/selftests/arm64/mte/mte_common_util.h b/tools/testing/selftests/arm64/mte/mte_common_util.h
new file mode 100644 (file)
index 0000000..195a7d1
--- /dev/null
@@ -0,0 +1,118 @@
+/* SPDX-License-Identifier: GPL-2.0 */
+/* Copyright (C) 2020 ARM Limited */
+
+#ifndef _MTE_COMMON_UTIL_H
+#define _MTE_COMMON_UTIL_H
+
+#include <signal.h>
+#include <stdbool.h>
+#include <stdlib.h>
+#include <sys/auxv.h>
+#include <sys/mman.h>
+#include <sys/prctl.h>
+#include "mte_def.h"
+#include "kselftest.h"
+
+enum mte_mem_type {
+       USE_MALLOC,
+       USE_MMAP,
+       USE_MPROTECT,
+};
+
+enum mte_mode {
+       MTE_NONE_ERR,
+       MTE_SYNC_ERR,
+       MTE_ASYNC_ERR,
+};
+
+struct mte_fault_cxt {
+       /* Address start which triggers mte tag fault */
+       unsigned long trig_addr;
+       /* Address range for mte tag fault and negative value means underflow */
+       ssize_t trig_range;
+       /* siginfo si code */
+       unsigned long trig_si_code;
+       /* Flag to denote if correct fault caught */
+       bool fault_valid;
+};
+
+extern struct mte_fault_cxt cur_mte_cxt;
+
+/* MTE utility functions */
+void mte_default_handler(int signum, siginfo_t *si, void *uc);
+void mte_register_signal(int signal, void (*handler)(int, siginfo_t *, void *));
+void mte_wait_after_trig(void);
+void *mte_allocate_memory(size_t size, int mem_type, int mapping, bool tags);
+void *mte_allocate_memory_tag_range(size_t size, int mem_type, int mapping,
+                                   size_t range_before, size_t range_after);
+void *mte_allocate_file_memory(size_t size, int mem_type, int mapping,
+                              bool tags, int fd);
+void *mte_allocate_file_memory_tag_range(size_t size, int mem_type, int mapping,
+                                        size_t range_before, size_t range_after, int fd);
+void mte_free_memory(void *ptr, size_t size, int mem_type, bool tags);
+void mte_free_memory_tag_range(void *ptr, size_t size, int mem_type,
+                              size_t range_before, size_t range_after);
+void *mte_insert_tags(void *ptr, size_t size);
+void mte_clear_tags(void *ptr, size_t size);
+int mte_default_setup(void);
+void mte_restore_setup(void);
+int mte_switch_mode(int mte_option, unsigned long incl_mask);
+void mte_initialize_current_context(int mode, uintptr_t ptr, ssize_t range);
+
+/* Common utility functions */
+int create_temp_file(void);
+
+/* Assembly MTE utility functions */
+void *mte_insert_random_tag(void *ptr);
+void *mte_insert_new_tag(void *ptr);
+void *mte_get_tag_address(void *ptr);
+void mte_set_tag_address_range(void *ptr, int range);
+void mte_clear_tag_address_range(void *ptr, int range);
+void mte_disable_pstate_tco(void);
+void mte_enable_pstate_tco(void);
+unsigned int mte_get_pstate_tco(void);
+
+/* Test framework static inline functions/macros */
+static inline void evaluate_test(int err, const char *msg)
+{
+       if (err == KSFT_PASS)
+               ksft_test_result_pass(msg);
+       else if (err == KSFT_FAIL)
+               ksft_test_result_fail(msg);
+}
+
+static inline int check_allocated_memory(void *ptr, size_t size,
+                                        int mem_type, bool tags)
+{
+       if (ptr == NULL) {
+               ksft_print_msg("FAIL: memory allocation\n");
+               return KSFT_FAIL;
+       }
+
+       if (tags && !MT_FETCH_TAG((uintptr_t)ptr)) {
+               ksft_print_msg("FAIL: tag not found at addr(%p)\n", ptr);
+               mte_free_memory((void *)ptr, size, mem_type, false);
+               return KSFT_FAIL;
+       }
+
+       return KSFT_PASS;
+}
+
+static inline int check_allocated_memory_range(void *ptr, size_t size, int mem_type,
+                                              size_t range_before, size_t range_after)
+{
+       if (ptr == NULL) {
+               ksft_print_msg("FAIL: memory allocation\n");
+               return KSFT_FAIL;
+       }
+
+       if (!MT_FETCH_TAG((uintptr_t)ptr)) {
+               ksft_print_msg("FAIL: tag not found at addr(%p)\n", ptr);
+               mte_free_memory_tag_range((void *)ptr, size, mem_type, range_before,
+                                         range_after);
+               return KSFT_FAIL;
+       }
+       return KSFT_PASS;
+}
+
+#endif /* _MTE_COMMON_UTIL_H */
diff --git a/tools/testing/selftests/arm64/mte/mte_def.h b/tools/testing/selftests/arm64/mte/mte_def.h
new file mode 100644 (file)
index 0000000..9b18825
--- /dev/null
@@ -0,0 +1,60 @@
+/* SPDX-License-Identifier: GPL-2.0 */
+/* Copyright (C) 2020 ARM Limited */
+
+/*
+ * Below definitions may be found in kernel headers, However, they are
+ * redefined here to decouple the MTE selftests compilations from them.
+ */
+#ifndef SEGV_MTEAERR
+#define        SEGV_MTEAERR    8
+#endif
+#ifndef SEGV_MTESERR
+#define        SEGV_MTESERR    9
+#endif
+#ifndef PROT_MTE
+#define PROT_MTE        0x20
+#endif
+#ifndef HWCAP2_MTE
+#define HWCAP2_MTE     (1 << 18)
+#endif
+
+#ifndef PR_MTE_TCF_SHIFT
+#define PR_MTE_TCF_SHIFT       1
+#endif
+#ifndef PR_MTE_TCF_NONE
+#define PR_MTE_TCF_NONE                (0UL << PR_MTE_TCF_SHIFT)
+#endif
+#ifndef PR_MTE_TCF_SYNC
+#define        PR_MTE_TCF_SYNC         (1UL << PR_MTE_TCF_SHIFT)
+#endif
+#ifndef PR_MTE_TCF_ASYNC
+#define PR_MTE_TCF_ASYNC       (2UL << PR_MTE_TCF_SHIFT)
+#endif
+#ifndef PR_MTE_TAG_SHIFT
+#define        PR_MTE_TAG_SHIFT        3
+#endif
+
+/* MTE Hardware feature definitions below. */
+#define MT_TAG_SHIFT           56
+#define MT_TAG_MASK            0xFUL
+#define MT_FREE_TAG            0x0UL
+#define MT_GRANULE_SIZE         16
+#define MT_TAG_COUNT           16
+#define MT_INCLUDE_TAG_MASK    0xFFFF
+#define MT_EXCLUDE_TAG_MASK    0x0
+
+#define MT_ALIGN_GRANULE       (MT_GRANULE_SIZE - 1)
+#define MT_CLEAR_TAG(x)                ((x) & ~(MT_TAG_MASK << MT_TAG_SHIFT))
+#define MT_SET_TAG(x, y)       ((x) | (y << MT_TAG_SHIFT))
+#define MT_FETCH_TAG(x)                ((x >> MT_TAG_SHIFT) & (MT_TAG_MASK))
+#define MT_ALIGN_UP(x)         ((x + MT_ALIGN_GRANULE) & ~(MT_ALIGN_GRANULE))
+
+#define MT_PSTATE_TCO_SHIFT    25
+#define MT_PSTATE_TCO_MASK     ~(0x1 << MT_PSTATE_TCO_SHIFT)
+#define MT_PSTATE_TCO_EN       1
+#define MT_PSTATE_TCO_DIS      0
+
+#define MT_EXCLUDE_TAG(x)              (1 << (x))
+#define MT_INCLUDE_VALID_TAG(x)                (MT_INCLUDE_TAG_MASK ^ MT_EXCLUDE_TAG(x))
+#define MT_INCLUDE_VALID_TAGS(x)       (MT_INCLUDE_TAG_MASK ^ (x))
+#define MTE_ALLOW_NON_ZERO_TAG         MT_INCLUDE_VALID_TAG(0)
diff --git a/tools/testing/selftests/arm64/mte/mte_helper.S b/tools/testing/selftests/arm64/mte/mte_helper.S
new file mode 100644 (file)
index 0000000..a02c04c
--- /dev/null
@@ -0,0 +1,128 @@
+/* SPDX-License-Identifier: GPL-2.0 */
+/* Copyright (C) 2020 ARM Limited */
+
+#include "mte_def.h"
+
+#define ENTRY(name) \
+       .globl name ;\
+       .p2align 2;\
+       .type name, @function ;\
+name:
+
+#define ENDPROC(name) \
+       .size name, .-name ;
+
+       .text
+/*
+ * mte_insert_random_tag: Insert random tag and might be same as the source tag if
+ *                       the source pointer has it.
+ * Input:
+ *             x0 - source pointer with a tag/no-tag
+ * Return:
+ *             x0 - pointer with random tag
+ */
+ENTRY(mte_insert_random_tag)
+       irg     x0, x0, xzr
+       ret
+ENDPROC(mte_insert_random_tag)
+
+/*
+ * mte_insert_new_tag: Insert new tag and different from the source tag if
+ *                    source pointer has it.
+ * Input:
+ *             x0 - source pointer with a tag/no-tag
+ * Return:
+ *             x0 - pointer with random tag
+ */
+ENTRY(mte_insert_new_tag)
+       gmi     x1, x0, xzr
+       irg     x0, x0, x1
+       ret
+ENDPROC(mte_insert_new_tag)
+
+/*
+ * mte_get_tag_address: Get the tag from given address.
+ * Input:
+ *             x0 - source pointer
+ * Return:
+ *             x0 - pointer with appended tag
+ */
+ENTRY(mte_get_tag_address)
+       ldg     x0, [x0]
+       ret
+ENDPROC(mte_get_tag_address)
+
+/*
+ * mte_set_tag_address_range: Set the tag range from the given address
+ * Input:
+ *             x0 - source pointer with tag data
+ *             x1 - range
+ * Return:
+ *             none
+ */
+ENTRY(mte_set_tag_address_range)
+       cbz     x1, 2f
+1:
+       stg     x0, [x0, #0x0]
+       add     x0, x0, #MT_GRANULE_SIZE
+       sub     x1, x1, #MT_GRANULE_SIZE
+       cbnz    x1, 1b
+2:
+       ret
+ENDPROC(mte_set_tag_address_range)
+
+/*
+ * mt_clear_tag_address_range: Clear the tag range from the given address
+ * Input:
+ *             x0 - source pointer with tag data
+ *             x1 - range
+ * Return:
+ *             none
+ */
+ENTRY(mte_clear_tag_address_range)
+       cbz     x1, 2f
+1:
+       stzg    x0, [x0, #0x0]
+       add     x0, x0, #MT_GRANULE_SIZE
+       sub     x1, x1, #MT_GRANULE_SIZE
+       cbnz    x1, 1b
+2:
+       ret
+ENDPROC(mte_clear_tag_address_range)
+
+/*
+ * mte_enable_pstate_tco: Enable PSTATE.TCO (tag check override) field
+ * Input:
+ *             none
+ * Return:
+ *             none
+ */
+ENTRY(mte_enable_pstate_tco)
+       msr     tco, #MT_PSTATE_TCO_EN
+       ret
+ENDPROC(mte_enable_pstate_tco)
+
+/*
+ * mte_disable_pstate_tco: Disable PSTATE.TCO (tag check override) field
+ * Input:
+ *             none
+ * Return:
+ *             none
+ */
+ENTRY(mte_disable_pstate_tco)
+       msr     tco, #MT_PSTATE_TCO_DIS
+       ret
+ENDPROC(mte_disable_pstate_tco)
+
+/*
+ * mte_get_pstate_tco: Get PSTATE.TCO (tag check override) field
+ * Input:
+ *             none
+ * Return:
+ *             x0
+ */
+ENTRY(mte_get_pstate_tco)
+       mrs     x0, tco
+       ubfx    x0, x0, #MT_PSTATE_TCO_SHIFT, #1
+       ret
+ENDPROC(mte_get_pstate_tco)
diff --git a/tools/testing/selftests/arm64/pauth/.gitignore b/tools/testing/selftests/arm64/pauth/.gitignore
new file mode 100644 (file)
index 0000000..155137d
--- /dev/null
@@ -0,0 +1,2 @@
+exec_target
+pac
diff --git a/tools/testing/selftests/arm64/pauth/Makefile b/tools/testing/selftests/arm64/pauth/Makefile
new file mode 100644 (file)
index 0000000..72e290b
--- /dev/null
@@ -0,0 +1,39 @@
+# SPDX-License-Identifier: GPL-2.0
+# Copyright (C) 2020 ARM Limited
+
+# preserve CC value from top level Makefile
+ifeq ($(CC),cc)
+CC := $(CROSS_COMPILE)gcc
+endif
+
+CFLAGS += -mbranch-protection=pac-ret
+# check if the compiler supports ARMv8.3 and branch protection with PAuth
+pauth_cc_support := $(shell if ($(CC) $(CFLAGS) -march=armv8.3-a -E -x c /dev/null -o /dev/null 2>&1) then echo "1"; fi)
+
+ifeq ($(pauth_cc_support),1)
+TEST_GEN_PROGS := pac
+TEST_GEN_FILES := pac_corruptor.o helper.o
+TEST_GEN_PROGS_EXTENDED := exec_target
+endif
+
+include ../../lib.mk
+
+ifeq ($(pauth_cc_support),1)
+# pac* and aut* instructions are not available on architectures berfore
+# ARMv8.3. Therefore target ARMv8.3 wherever they are used directly
+$(OUTPUT)/pac_corruptor.o: pac_corruptor.S
+       $(CC) -c $^ -o $@ $(CFLAGS) -march=armv8.3-a
+
+$(OUTPUT)/helper.o: helper.c
+       $(CC) -c $^ -o $@ $(CFLAGS) -march=armv8.3-a
+
+# when -mbranch-protection is enabled and the target architecture is ARMv8.3 or
+# greater, gcc emits pac* instructions which are not in HINT NOP space,
+# preventing the tests from occurring at all. Compile for ARMv8.2 so tests can
+# run on earlier targets and print a meaningful error messages
+$(OUTPUT)/exec_target: exec_target.c $(OUTPUT)/helper.o
+       $(CC) $^ -o $@ $(CFLAGS) -march=armv8.2-a
+
+$(OUTPUT)/pac: pac.c $(OUTPUT)/pac_corruptor.o $(OUTPUT)/helper.o
+       $(CC) $^ -o $@ $(CFLAGS) -march=armv8.2-a
+endif
diff --git a/tools/testing/selftests/arm64/pauth/exec_target.c b/tools/testing/selftests/arm64/pauth/exec_target.c
new file mode 100644 (file)
index 0000000..4435600
--- /dev/null
@@ -0,0 +1,34 @@
+// SPDX-License-Identifier: GPL-2.0
+// Copyright (C) 2020 ARM Limited
+
+#include <stdio.h>
+#include <stdlib.h>
+#include <sys/auxv.h>
+
+#include "helper.h"
+
+int main(void)
+{
+       struct signatures signed_vals;
+       unsigned long hwcaps;
+       size_t val;
+
+       fread(&val, sizeof(size_t), 1, stdin);
+
+       /* don't try to execute illegal (unimplemented) instructions) caller
+        * should have checked this and keep worker simple
+        */
+       hwcaps = getauxval(AT_HWCAP);
+
+       if (hwcaps & HWCAP_PACA) {
+               signed_vals.keyia = keyia_sign(val);
+               signed_vals.keyib = keyib_sign(val);
+               signed_vals.keyda = keyda_sign(val);
+               signed_vals.keydb = keydb_sign(val);
+       }
+       signed_vals.keyg = (hwcaps & HWCAP_PACG) ?  keyg_sign(val) : 0;
+
+       fwrite(&signed_vals, sizeof(struct signatures), 1, stdout);
+
+       return 0;
+}
diff --git a/tools/testing/selftests/arm64/pauth/helper.c b/tools/testing/selftests/arm64/pauth/helper.c
new file mode 100644 (file)
index 0000000..2c201e7
--- /dev/null
@@ -0,0 +1,39 @@
+// SPDX-License-Identifier: GPL-2.0
+// Copyright (C) 2020 ARM Limited
+
+#include "helper.h"
+
+size_t keyia_sign(size_t ptr)
+{
+       asm volatile("paciza %0" : "+r" (ptr));
+       return ptr;
+}
+
+size_t keyib_sign(size_t ptr)
+{
+       asm volatile("pacizb %0" : "+r" (ptr));
+       return ptr;
+}
+
+size_t keyda_sign(size_t ptr)
+{
+       asm volatile("pacdza %0" : "+r" (ptr));
+       return ptr;
+}
+
+size_t keydb_sign(size_t ptr)
+{
+       asm volatile("pacdzb %0" : "+r" (ptr));
+       return ptr;
+}
+
+size_t keyg_sign(size_t ptr)
+{
+       /* output is encoded in the upper 32 bits */
+       size_t dest = 0;
+       size_t modifier = 0;
+
+       asm volatile("pacga %0, %1, %2" : "=r" (dest) : "r" (ptr), "r" (modifier));
+
+       return dest;
+}
diff --git a/tools/testing/selftests/arm64/pauth/helper.h b/tools/testing/selftests/arm64/pauth/helper.h
new file mode 100644 (file)
index 0000000..652496c
--- /dev/null
@@ -0,0 +1,28 @@
+/* SPDX-License-Identifier: GPL-2.0 */
+/* Copyright (C) 2020 ARM Limited */
+
+#ifndef _HELPER_H_
+#define _HELPER_H_
+
+#include <stdlib.h>
+
+#define NKEYS 5
+
+struct signatures {
+       size_t keyia;
+       size_t keyib;
+       size_t keyda;
+       size_t keydb;
+       size_t keyg;
+};
+
+void pac_corruptor(void);
+
+/* PAuth sign a value with key ia and modifier value 0 */
+size_t keyia_sign(size_t val);
+size_t keyib_sign(size_t val);
+size_t keyda_sign(size_t val);
+size_t keydb_sign(size_t val);
+size_t keyg_sign(size_t val);
+
+#endif
diff --git a/tools/testing/selftests/arm64/pauth/pac.c b/tools/testing/selftests/arm64/pauth/pac.c
new file mode 100644 (file)
index 0000000..592fe53
--- /dev/null
@@ -0,0 +1,368 @@
+// SPDX-License-Identifier: GPL-2.0
+// Copyright (C) 2020 ARM Limited
+
+#define _GNU_SOURCE
+
+#include <sys/auxv.h>
+#include <sys/types.h>
+#include <sys/wait.h>
+#include <signal.h>
+#include <setjmp.h>
+#include <sched.h>
+
+#include "../../kselftest_harness.h"
+#include "helper.h"
+
+#define PAC_COLLISION_ATTEMPTS 10
+/*
+ * The kernel sets TBID by default. So bits 55 and above should remain
+ * untouched no matter what.
+ * The VA space size is 48 bits. Bigger is opt-in.
+ */
+#define PAC_MASK (~0xff80ffffffffffff)
+#define ARBITRARY_VALUE (0x1234)
+#define ASSERT_PAUTH_ENABLED() \
+do { \
+       unsigned long hwcaps = getauxval(AT_HWCAP); \
+       /* data key instructions are not in NOP space. This prevents a SIGILL */ \
+       ASSERT_NE(0, hwcaps & HWCAP_PACA) TH_LOG("PAUTH not enabled"); \
+} while (0)
+#define ASSERT_GENERIC_PAUTH_ENABLED() \
+do { \
+       unsigned long hwcaps = getauxval(AT_HWCAP); \
+       /* generic key instructions are not in NOP space. This prevents a SIGILL */ \
+       ASSERT_NE(0, hwcaps & HWCAP_PACG) TH_LOG("Generic PAUTH not enabled"); \
+} while (0)
+
+void sign_specific(struct signatures *sign, size_t val)
+{
+       sign->keyia = keyia_sign(val);
+       sign->keyib = keyib_sign(val);
+       sign->keyda = keyda_sign(val);
+       sign->keydb = keydb_sign(val);
+}
+
+void sign_all(struct signatures *sign, size_t val)
+{
+       sign->keyia = keyia_sign(val);
+       sign->keyib = keyib_sign(val);
+       sign->keyda = keyda_sign(val);
+       sign->keydb = keydb_sign(val);
+       sign->keyg  = keyg_sign(val);
+}
+
+int n_same(struct signatures *old, struct signatures *new, int nkeys)
+{
+       int res = 0;
+
+       res += old->keyia == new->keyia;
+       res += old->keyib == new->keyib;
+       res += old->keyda == new->keyda;
+       res += old->keydb == new->keydb;
+       if (nkeys == NKEYS)
+               res += old->keyg == new->keyg;
+
+       return res;
+}
+
+int n_same_single_set(struct signatures *sign, int nkeys)
+{
+       size_t vals[nkeys];
+       int same = 0;
+
+       vals[0] = sign->keyia & PAC_MASK;
+       vals[1] = sign->keyib & PAC_MASK;
+       vals[2] = sign->keyda & PAC_MASK;
+       vals[3] = sign->keydb & PAC_MASK;
+
+       if (nkeys >= 4)
+               vals[4] = sign->keyg & PAC_MASK;
+
+       for (int i = 0; i < nkeys - 1; i++) {
+               for (int j = i + 1; j < nkeys; j++) {
+                       if (vals[i] == vals[j])
+                               same += 1;
+               }
+       }
+       return same;
+}
+
+int exec_sign_all(struct signatures *signed_vals, size_t val)
+{
+       int new_stdin[2];
+       int new_stdout[2];
+       int status;
+       int i;
+       ssize_t ret;
+       pid_t pid;
+       cpu_set_t mask;
+
+       ret = pipe(new_stdin);
+       if (ret == -1) {
+               perror("pipe returned error");
+               return -1;
+       }
+
+       ret = pipe(new_stdout);
+       if (ret == -1) {
+               perror("pipe returned error");
+               return -1;
+       }
+
+       /*
+        * pin this process and all its children to a single CPU, so it can also
+        * guarantee a context switch with its child
+        */
+       sched_getaffinity(0, sizeof(mask), &mask);
+
+       for (i = 0; i < sizeof(cpu_set_t); i++)
+               if (CPU_ISSET(i, &mask))
+                       break;
+
+       CPU_ZERO(&mask);
+       CPU_SET(i, &mask);
+       sched_setaffinity(0, sizeof(mask), &mask);
+
+       pid = fork();
+       // child
+       if (pid == 0) {
+               dup2(new_stdin[0], STDIN_FILENO);
+               if (ret == -1) {
+                       perror("dup2 returned error");
+                       exit(1);
+               }
+
+               dup2(new_stdout[1], STDOUT_FILENO);
+               if (ret == -1) {
+                       perror("dup2 returned error");
+                       exit(1);
+               }
+
+               close(new_stdin[0]);
+               close(new_stdin[1]);
+               close(new_stdout[0]);
+               close(new_stdout[1]);
+
+               ret = execl("exec_target", "exec_target", (char *)NULL);
+               if (ret == -1) {
+                       perror("exec returned error");
+                       exit(1);
+               }
+       }
+
+       close(new_stdin[0]);
+       close(new_stdout[1]);
+
+       ret = write(new_stdin[1], &val, sizeof(size_t));
+       if (ret == -1) {
+               perror("write returned error");
+               return -1;
+       }
+
+       /*
+        * wait for the worker to finish, so that read() reads all data
+        * will also context switch with worker so that this function can be used
+        * for context switch tests
+        */
+       waitpid(pid, &status, 0);
+       if (WIFEXITED(status) == 0) {
+               fprintf(stderr, "worker exited unexpectedly\n");
+               return -1;
+       }
+       if (WEXITSTATUS(status) != 0) {
+               fprintf(stderr, "worker exited with error\n");
+               return -1;
+       }
+
+       ret = read(new_stdout[0], signed_vals, sizeof(struct signatures));
+       if (ret == -1) {
+               perror("read returned error");
+               return -1;
+       }
+
+       return 0;
+}
+
+sigjmp_buf jmpbuf;
+void pac_signal_handler(int signum, siginfo_t *si, void *uc)
+{
+       if (signum == SIGSEGV || signum == SIGILL)
+               siglongjmp(jmpbuf, 1);
+}
+
+/* check that a corrupted PAC results in SIGSEGV or SIGILL */
+TEST(corrupt_pac)
+{
+       struct sigaction sa;
+
+       ASSERT_PAUTH_ENABLED();
+       if (sigsetjmp(jmpbuf, 1) == 0) {
+               sa.sa_sigaction = pac_signal_handler;
+               sa.sa_flags = SA_SIGINFO | SA_RESETHAND;
+               sigemptyset(&sa.sa_mask);
+
+               sigaction(SIGSEGV, &sa, NULL);
+               sigaction(SIGILL, &sa, NULL);
+
+               pac_corruptor();
+               ASSERT_TRUE(0) TH_LOG("SIGSEGV/SIGILL signal did not occur");
+       }
+}
+
+/*
+ * There are no separate pac* and aut* controls so checking only the pac*
+ * instructions is sufficient
+ */
+TEST(pac_instructions_not_nop)
+{
+       size_t keyia = 0;
+       size_t keyib = 0;
+       size_t keyda = 0;
+       size_t keydb = 0;
+
+       ASSERT_PAUTH_ENABLED();
+
+       for (int i = 0; i < PAC_COLLISION_ATTEMPTS; i++) {
+               keyia |= keyia_sign(i) & PAC_MASK;
+               keyib |= keyib_sign(i) & PAC_MASK;
+               keyda |= keyda_sign(i) & PAC_MASK;
+               keydb |= keydb_sign(i) & PAC_MASK;
+       }
+
+       ASSERT_NE(0, keyia) TH_LOG("keyia instructions did nothing");
+       ASSERT_NE(0, keyib) TH_LOG("keyib instructions did nothing");
+       ASSERT_NE(0, keyda) TH_LOG("keyda instructions did nothing");
+       ASSERT_NE(0, keydb) TH_LOG("keydb instructions did nothing");
+}
+
+TEST(pac_instructions_not_nop_generic)
+{
+       size_t keyg = 0;
+
+       ASSERT_GENERIC_PAUTH_ENABLED();
+
+       for (int i = 0; i < PAC_COLLISION_ATTEMPTS; i++)
+               keyg |= keyg_sign(i) & PAC_MASK;
+
+       ASSERT_NE(0, keyg)  TH_LOG("keyg instructions did nothing");
+}
+
+TEST(single_thread_different_keys)
+{
+       int same = 10;
+       int nkeys = NKEYS;
+       int tmp;
+       struct signatures signed_vals;
+       unsigned long hwcaps = getauxval(AT_HWCAP);
+
+       /* generic and data key instructions are not in NOP space. This prevents a SIGILL */
+       ASSERT_NE(0, hwcaps & HWCAP_PACA) TH_LOG("PAUTH not enabled");
+       if (!(hwcaps & HWCAP_PACG)) {
+               TH_LOG("WARNING: Generic PAUTH not enabled. Skipping generic key checks");
+               nkeys = NKEYS - 1;
+       }
+
+       /*
+        * In Linux the PAC field can be up to 7 bits wide. Even if keys are
+        * different, there is about 5% chance for PACs to collide with
+        * different addresses. This chance rapidly increases with fewer bits
+        * allocated for the PAC (e.g. wider address). A comparison of the keys
+        * directly will be more reliable.
+        * All signed values need to be different at least once out of n
+        * attempts to be certain that the keys are different
+        */
+       for (int i = 0; i < PAC_COLLISION_ATTEMPTS; i++) {
+               if (nkeys == NKEYS)
+                       sign_all(&signed_vals, i);
+               else
+                       sign_specific(&signed_vals, i);
+
+               tmp = n_same_single_set(&signed_vals, nkeys);
+               if (tmp < same)
+                       same = tmp;
+       }
+
+       ASSERT_EQ(0, same) TH_LOG("%d keys clashed every time", same);
+}
+
+/*
+ * fork() does not change keys. Only exec() does so call a worker program.
+ * Its only job is to sign a value and report back the resutls
+ */
+TEST(exec_changed_keys)
+{
+       struct signatures new_keys;
+       struct signatures old_keys;
+       int ret;
+       int same = 10;
+       int nkeys = NKEYS;
+       unsigned long hwcaps = getauxval(AT_HWCAP);
+
+       /* generic and data key instructions are not in NOP space. This prevents a SIGILL */
+       ASSERT_NE(0, hwcaps & HWCAP_PACA) TH_LOG("PAUTH not enabled");
+       if (!(hwcaps & HWCAP_PACG)) {
+               TH_LOG("WARNING: Generic PAUTH not enabled. Skipping generic key checks");
+               nkeys = NKEYS - 1;
+       }
+
+       for (int i = 0; i < PAC_COLLISION_ATTEMPTS; i++) {
+               ret = exec_sign_all(&new_keys, i);
+               ASSERT_EQ(0, ret) TH_LOG("failed to run worker");
+
+               if (nkeys == NKEYS)
+                       sign_all(&old_keys, i);
+               else
+                       sign_specific(&old_keys, i);
+
+               ret = n_same(&old_keys, &new_keys, nkeys);
+               if (ret < same)
+                       same = ret;
+       }
+
+       ASSERT_EQ(0, same) TH_LOG("exec() did not change %d keys", same);
+}
+
+TEST(context_switch_keep_keys)
+{
+       int ret;
+       struct signatures trash;
+       struct signatures before;
+       struct signatures after;
+
+       ASSERT_PAUTH_ENABLED();
+
+       sign_specific(&before, ARBITRARY_VALUE);
+
+       /* will context switch with a process with different keys at least once */
+       ret = exec_sign_all(&trash, ARBITRARY_VALUE);
+       ASSERT_EQ(0, ret) TH_LOG("failed to run worker");
+
+       sign_specific(&after, ARBITRARY_VALUE);
+
+       ASSERT_EQ(before.keyia, after.keyia) TH_LOG("keyia changed after context switching");
+       ASSERT_EQ(before.keyib, after.keyib) TH_LOG("keyib changed after context switching");
+       ASSERT_EQ(before.keyda, after.keyda) TH_LOG("keyda changed after context switching");
+       ASSERT_EQ(before.keydb, after.keydb) TH_LOG("keydb changed after context switching");
+}
+
+TEST(context_switch_keep_keys_generic)
+{
+       int ret;
+       struct signatures trash;
+       size_t before;
+       size_t after;
+
+       ASSERT_GENERIC_PAUTH_ENABLED();
+
+       before = keyg_sign(ARBITRARY_VALUE);
+
+       /* will context switch with a process with different keys at least once */
+       ret = exec_sign_all(&trash, ARBITRARY_VALUE);
+       ASSERT_EQ(0, ret) TH_LOG("failed to run worker");
+
+       after = keyg_sign(ARBITRARY_VALUE);
+
+       ASSERT_EQ(before, after) TH_LOG("keyg changed after context switching");
+}
+
+TEST_HARNESS_MAIN
diff --git a/tools/testing/selftests/arm64/pauth/pac_corruptor.S b/tools/testing/selftests/arm64/pauth/pac_corruptor.S
new file mode 100644 (file)
index 0000000..aa65880
--- /dev/null
@@ -0,0 +1,19 @@
+/* SPDX-License-Identifier: GPL-2.0 */
+/* Copyright (C) 2020 ARM Limited */
+
+.global pac_corruptor
+
+.text
+/*
+ * Corrupting a single bit of the PAC ensures the authentication will fail.  It
+ * also guarantees no possible collision. TCR_EL1.TBI0 is set by default so no
+ * top byte PAC is tested
+ */
+ pac_corruptor:
+       paciasp
+
+       /* corrupt the top bit of the PAC */
+       eor lr, lr, #1 << 53
+
+       autiasp
+       ret
index ddaf140..994b11a 100644 (file)
@@ -12,4 +12,4 @@ memcpy_p7_t1
 copyuser_64_exc_t0
 copyuser_64_exc_t1
 copyuser_64_exc_t2
-memcpy_mcsafe_64
+copy_mc_64
index 0917983..3095b1f 100644 (file)
@@ -12,7 +12,7 @@ ASFLAGS = $(CFLAGS) -Wa,-mpower4
 TEST_GEN_PROGS := copyuser_64_t0 copyuser_64_t1 copyuser_64_t2 \
                copyuser_p7_t0 copyuser_p7_t1 \
                memcpy_64_t0 memcpy_64_t1 memcpy_64_t2 \
-               memcpy_p7_t0 memcpy_p7_t1 memcpy_mcsafe_64 \
+               memcpy_p7_t0 memcpy_p7_t1 copy_mc_64 \
                copyuser_64_exc_t0 copyuser_64_exc_t1 copyuser_64_exc_t2
 
 EXTRA_SOURCES := validate.c ../harness.c stubs.S
@@ -45,9 +45,9 @@ $(OUTPUT)/memcpy_p7_t%:       memcpy_power7.S $(EXTRA_SOURCES)
                -D SELFTEST_CASE=$(subst memcpy_p7_t,,$(notdir $@)) \
                -o $@ $^
 
-$(OUTPUT)/memcpy_mcsafe_64: memcpy_mcsafe_64.S $(EXTRA_SOURCES)
+$(OUTPUT)/copy_mc_64: copy_mc_64.S $(EXTRA_SOURCES)
        $(CC) $(CPPFLAGS) $(CFLAGS) \
-               -D COPY_LOOP=test_memcpy_mcsafe \
+               -D COPY_LOOP=test_copy_mc_generic \
                -o $@ $^
 
 $(OUTPUT)/copyuser_64_exc_t%: copyuser_64.S exc_validate.c ../harness.c \
diff --git a/tools/testing/selftests/powerpc/copyloops/copy_mc_64.S b/tools/testing/selftests/powerpc/copyloops/copy_mc_64.S
new file mode 120000 (symlink)
index 0000000..dcbe06d
--- /dev/null
@@ -0,0 +1 @@
+../../../../../arch/powerpc/lib/copy_mc_64.S
\ No newline at end of file
diff --git a/tools/testing/selftests/powerpc/copyloops/memcpy_mcsafe_64.S b/tools/testing/selftests/powerpc/copyloops/memcpy_mcsafe_64.S
deleted file mode 120000 (symlink)
index f0feef3..0000000
+++ /dev/null
@@ -1 +0,0 @@
-../../../../../arch/powerpc/lib/memcpy_mcsafe_64.S
\ No newline at end of file
index e8a657a..3845890 100644 (file)
@@ -1,8 +1,10 @@
 // SPDX-License-Identifier: LGPL-2.1
 #define _GNU_SOURCE
 #include <assert.h>
+#include <linux/membarrier.h>
 #include <pthread.h>
 #include <sched.h>
+#include <stdatomic.h>
 #include <stdint.h>
 #include <stdio.h>
 #include <stdlib.h>
@@ -1131,6 +1133,220 @@ static int set_signal_handler(void)
        return ret;
 }
 
+struct test_membarrier_thread_args {
+       int stop;
+       intptr_t percpu_list_ptr;
+};
+
+/* Worker threads modify data in their "active" percpu lists. */
+void *test_membarrier_worker_thread(void *arg)
+{
+       struct test_membarrier_thread_args *args =
+               (struct test_membarrier_thread_args *)arg;
+       const int iters = opt_reps;
+       int i;
+
+       if (rseq_register_current_thread()) {
+               fprintf(stderr, "Error: rseq_register_current_thread(...) failed(%d): %s\n",
+                       errno, strerror(errno));
+               abort();
+       }
+
+       /* Wait for initialization. */
+       while (!atomic_load(&args->percpu_list_ptr)) {}
+
+       for (i = 0; i < iters; ++i) {
+               int ret;
+
+               do {
+                       int cpu = rseq_cpu_start();
+
+                       ret = rseq_offset_deref_addv(&args->percpu_list_ptr,
+                               sizeof(struct percpu_list_entry) * cpu, 1, cpu);
+               } while (rseq_unlikely(ret));
+       }
+
+       if (rseq_unregister_current_thread()) {
+               fprintf(stderr, "Error: rseq_unregister_current_thread(...) failed(%d): %s\n",
+                       errno, strerror(errno));
+               abort();
+       }
+       return NULL;
+}
+
+void test_membarrier_init_percpu_list(struct percpu_list *list)
+{
+       int i;
+
+       memset(list, 0, sizeof(*list));
+       for (i = 0; i < CPU_SETSIZE; i++) {
+               struct percpu_list_node *node;
+
+               node = malloc(sizeof(*node));
+               assert(node);
+               node->data = 0;
+               node->next = NULL;
+               list->c[i].head = node;
+       }
+}
+
+void test_membarrier_free_percpu_list(struct percpu_list *list)
+{
+       int i;
+
+       for (i = 0; i < CPU_SETSIZE; i++)
+               free(list->c[i].head);
+}
+
+static int sys_membarrier(int cmd, int flags, int cpu_id)
+{
+       return syscall(__NR_membarrier, cmd, flags, cpu_id);
+}
+
+/*
+ * The manager thread swaps per-cpu lists that worker threads see,
+ * and validates that there are no unexpected modifications.
+ */
+void *test_membarrier_manager_thread(void *arg)
+{
+       struct test_membarrier_thread_args *args =
+               (struct test_membarrier_thread_args *)arg;
+       struct percpu_list list_a, list_b;
+       intptr_t expect_a = 0, expect_b = 0;
+       int cpu_a = 0, cpu_b = 0;
+
+       if (rseq_register_current_thread()) {
+               fprintf(stderr, "Error: rseq_register_current_thread(...) failed(%d): %s\n",
+                       errno, strerror(errno));
+               abort();
+       }
+
+       /* Init lists. */
+       test_membarrier_init_percpu_list(&list_a);
+       test_membarrier_init_percpu_list(&list_b);
+
+       atomic_store(&args->percpu_list_ptr, (intptr_t)&list_a);
+
+       while (!atomic_load(&args->stop)) {
+               /* list_a is "active". */
+               cpu_a = rand() % CPU_SETSIZE;
+               /*
+                * As list_b is "inactive", we should never see changes
+                * to list_b.
+                */
+               if (expect_b != atomic_load(&list_b.c[cpu_b].head->data)) {
+                       fprintf(stderr, "Membarrier test failed\n");
+                       abort();
+               }
+
+               /* Make list_b "active". */
+               atomic_store(&args->percpu_list_ptr, (intptr_t)&list_b);
+               if (sys_membarrier(MEMBARRIER_CMD_PRIVATE_EXPEDITED_RSEQ,
+                                       MEMBARRIER_CMD_FLAG_CPU, cpu_a) &&
+                               errno != ENXIO /* missing CPU */) {
+                       perror("sys_membarrier");
+                       abort();
+               }
+               /*
+                * Cpu A should now only modify list_b, so the values
+                * in list_a should be stable.
+                */
+               expect_a = atomic_load(&list_a.c[cpu_a].head->data);
+
+               cpu_b = rand() % CPU_SETSIZE;
+               /*
+                * As list_a is "inactive", we should never see changes
+                * to list_a.
+                */
+               if (expect_a != atomic_load(&list_a.c[cpu_a].head->data)) {
+                       fprintf(stderr, "Membarrier test failed\n");
+                       abort();
+               }
+
+               /* Make list_a "active". */
+               atomic_store(&args->percpu_list_ptr, (intptr_t)&list_a);
+               if (sys_membarrier(MEMBARRIER_CMD_PRIVATE_EXPEDITED_RSEQ,
+                                       MEMBARRIER_CMD_FLAG_CPU, cpu_b) &&
+                               errno != ENXIO /* missing CPU*/) {
+                       perror("sys_membarrier");
+                       abort();
+               }
+               /* Remember a value from list_b. */
+               expect_b = atomic_load(&list_b.c[cpu_b].head->data);
+       }
+
+       test_membarrier_free_percpu_list(&list_a);
+       test_membarrier_free_percpu_list(&list_b);
+
+       if (rseq_unregister_current_thread()) {
+               fprintf(stderr, "Error: rseq_unregister_current_thread(...) failed(%d): %s\n",
+                       errno, strerror(errno));
+               abort();
+       }
+       return NULL;
+}
+
+/* Test MEMBARRIER_CMD_PRIVATE_RESTART_RSEQ_ON_CPU membarrier command. */
+#ifdef RSEQ_ARCH_HAS_OFFSET_DEREF_ADDV
+void test_membarrier(void)
+{
+       const int num_threads = opt_threads;
+       struct test_membarrier_thread_args thread_args;
+       pthread_t worker_threads[num_threads];
+       pthread_t manager_thread;
+       int i, ret;
+
+       if (sys_membarrier(MEMBARRIER_CMD_REGISTER_PRIVATE_EXPEDITED_RSEQ, 0, 0)) {
+               perror("sys_membarrier");
+               abort();
+       }
+
+       thread_args.stop = 0;
+       thread_args.percpu_list_ptr = 0;
+       ret = pthread_create(&manager_thread, NULL,
+                       test_membarrier_manager_thread, &thread_args);
+       if (ret) {
+               errno = ret;
+               perror("pthread_create");
+               abort();
+       }
+
+       for (i = 0; i < num_threads; i++) {
+               ret = pthread_create(&worker_threads[i], NULL,
+                               test_membarrier_worker_thread, &thread_args);
+               if (ret) {
+                       errno = ret;
+                       perror("pthread_create");
+                       abort();
+               }
+       }
+
+
+       for (i = 0; i < num_threads; i++) {
+               ret = pthread_join(worker_threads[i], NULL);
+               if (ret) {
+                       errno = ret;
+                       perror("pthread_join");
+                       abort();
+               }
+       }
+
+       atomic_store(&thread_args.stop, 1);
+       ret = pthread_join(manager_thread, NULL);
+       if (ret) {
+               errno = ret;
+               perror("pthread_join");
+               abort();
+       }
+}
+#else /* RSEQ_ARCH_HAS_OFFSET_DEREF_ADDV */
+void test_membarrier(void)
+{
+       fprintf(stderr, "rseq_offset_deref_addv is not implemented on this architecture. "
+                       "Skipping membarrier test.\n");
+}
+#endif
+
 static void show_usage(int argc, char **argv)
 {
        printf("Usage : %s <OPTIONS>\n",
@@ -1153,7 +1369,7 @@ static void show_usage(int argc, char **argv)
        printf("        [-r N] Number of repetitions per thread (default 5000)\n");
        printf("        [-d] Disable rseq system call (no initialization)\n");
        printf("        [-D M] Disable rseq for each M threads\n");
-       printf("        [-T test] Choose test: (s)pinlock, (l)ist, (b)uffer, (m)emcpy, (i)ncrement\n");
+       printf("        [-T test] Choose test: (s)pinlock, (l)ist, (b)uffer, (m)emcpy, (i)ncrement, membarrie(r)\n");
        printf("        [-M] Push into buffer and memcpy buffer with memory barriers.\n");
        printf("        [-v] Verbose output.\n");
        printf("        [-h] Show this help.\n");
@@ -1268,6 +1484,7 @@ int main(int argc, char **argv)
                        case 'i':
                        case 'b':
                        case 'm':
+                       case 'r':
                                break;
                        default:
                                show_usage(argc, argv);
@@ -1320,6 +1537,10 @@ int main(int argc, char **argv)
                printf_verbose("counter increment\n");
                test_percpu_inc();
                break;
+       case 'r':
+               printf_verbose("membarrier\n");
+               test_membarrier();
+               break;
        }
        if (!opt_disable_rseq && rseq_unregister_current_thread())
                abort();
index b2da600..6404115 100644 (file)
@@ -279,6 +279,63 @@ error1:
 #endif
 }
 
+#define RSEQ_ARCH_HAS_OFFSET_DEREF_ADDV
+
+/*
+ *   pval = *(ptr+off)
+ *  *pval += inc;
+ */
+static inline __attribute__((always_inline))
+int rseq_offset_deref_addv(intptr_t *ptr, off_t off, intptr_t inc, int cpu)
+{
+       RSEQ_INJECT_C(9)
+
+       __asm__ __volatile__ goto (
+               RSEQ_ASM_DEFINE_TABLE(3, 1f, 2f, 4f) /* start, commit, abort */
+#ifdef RSEQ_COMPARE_TWICE
+               RSEQ_ASM_DEFINE_EXIT_POINT(1f, %l[error1])
+#endif
+               /* Start rseq by storing table entry pointer into rseq_cs. */
+               RSEQ_ASM_STORE_RSEQ_CS(1, 3b, RSEQ_CS_OFFSET(%[rseq_abi]))
+               RSEQ_ASM_CMP_CPU_ID(cpu_id, RSEQ_CPU_ID_OFFSET(%[rseq_abi]), 4f)
+               RSEQ_INJECT_ASM(3)
+#ifdef RSEQ_COMPARE_TWICE
+               RSEQ_ASM_CMP_CPU_ID(cpu_id, RSEQ_CPU_ID_OFFSET(%[rseq_abi]), %l[error1])
+#endif
+               /* get p+v */
+               "movq %[ptr], %%rbx\n\t"
+               "addq %[off], %%rbx\n\t"
+               /* get pv */
+               "movq (%%rbx), %%rcx\n\t"
+               /* *pv += inc */
+               "addq %[inc], (%%rcx)\n\t"
+               "2:\n\t"
+               RSEQ_INJECT_ASM(4)
+               RSEQ_ASM_DEFINE_ABORT(4, "", abort)
+               : /* gcc asm goto does not allow outputs */
+               : [cpu_id]              "r" (cpu),
+                 [rseq_abi]            "r" (&__rseq_abi),
+                 /* final store input */
+                 [ptr]                 "m" (*ptr),
+                 [off]                 "er" (off),
+                 [inc]                 "er" (inc)
+               : "memory", "cc", "rax", "rbx", "rcx"
+                 RSEQ_INJECT_CLOBBER
+               : abort
+#ifdef RSEQ_COMPARE_TWICE
+                 , error1
+#endif
+       );
+       return 0;
+abort:
+       RSEQ_INJECT_FAILED
+       return -1;
+#ifdef RSEQ_COMPARE_TWICE
+error1:
+       rseq_bug("cpu_id comparison failed");
+#endif
+}
+
 static inline __attribute__((always_inline))
 int rseq_cmpeqv_trystorev_storev(intptr_t *v, intptr_t expect,
                                 intptr_t *v2, intptr_t newv2,
index e426304..f51bc83 100755 (executable)
@@ -15,6 +15,7 @@ TEST_LIST=(
        "-T m"
        "-T m -M"
        "-T i"
+       "-T r"
 )
 
 TEST_NAME=(
@@ -25,6 +26,7 @@ TEST_NAME=(
        "memcpy"
        "memcpy with barrier"
        "increment"
+       "membarrier"
 )
 IFS="$OLDIFS"
 
index 9983195..7161cfc 100644 (file)
@@ -443,6 +443,68 @@ static void test_unexpected_base(void)
 
 #define USER_REGS_OFFSET(r) offsetof(struct user_regs_struct, r)
 
+static void test_ptrace_write_gs_read_base(void)
+{
+       int status;
+       pid_t child = fork();
+
+       if (child < 0)
+               err(1, "fork");
+
+       if (child == 0) {
+               printf("[RUN]\tPTRACE_POKE GS, read GSBASE back\n");
+
+               printf("[RUN]\tARCH_SET_GS to 1\n");
+               if (syscall(SYS_arch_prctl, ARCH_SET_GS, 1) != 0)
+                       err(1, "ARCH_SET_GS");
+
+               if (ptrace(PTRACE_TRACEME, 0, NULL, NULL) != 0)
+                       err(1, "PTRACE_TRACEME");
+
+               raise(SIGTRAP);
+               _exit(0);
+       }
+
+       wait(&status);
+
+       if (WSTOPSIG(status) == SIGTRAP) {
+               unsigned long base;
+               unsigned long gs_offset = USER_REGS_OFFSET(gs);
+               unsigned long base_offset = USER_REGS_OFFSET(gs_base);
+
+               /* Read the initial base.  It should be 1. */
+               base = ptrace(PTRACE_PEEKUSER, child, base_offset, NULL);
+               if (base == 1) {
+                       printf("[OK]\tGSBASE started at 1\n");
+               } else {
+                       nerrs++;
+                       printf("[FAIL]\tGSBASE started at 0x%lx\n", base);
+               }
+
+               printf("[RUN]\tSet GS = 0x7, read GSBASE\n");
+
+               /* Poke an LDT selector into GS. */
+               if (ptrace(PTRACE_POKEUSER, child, gs_offset, 0x7) != 0)
+                       err(1, "PTRACE_POKEUSER");
+
+               /* And read the base. */
+               base = ptrace(PTRACE_PEEKUSER, child, base_offset, NULL);
+
+               if (base == 0 || base == 1) {
+                       printf("[OK]\tGSBASE reads as 0x%lx with invalid GS\n", base);
+               } else {
+                       nerrs++;
+                       printf("[FAIL]\tGSBASE=0x%lx (should be 0 or 1)\n", base);
+               }
+       }
+
+       ptrace(PTRACE_CONT, child, NULL, NULL);
+
+       wait(&status);
+       if (!WIFEXITED(status))
+               printf("[WARN]\tChild didn't exit cleanly.\n");
+}
+
 static void test_ptrace_write_gsbase(void)
 {
        int status;
@@ -517,6 +579,9 @@ static void test_ptrace_write_gsbase(void)
 
 END:
        ptrace(PTRACE_CONT, child, NULL, NULL);
+       wait(&status);
+       if (!WIFEXITED(status))
+               printf("[WARN]\tChild didn't exit cleanly.\n");
 }
 
 int main()
@@ -526,6 +591,9 @@ int main()
        shared_scratch = mmap(NULL, 4096, PROT_READ | PROT_WRITE,
                              MAP_ANONYMOUS | MAP_SHARED, -1, 0);
 
+       /* Do these tests before we have an LDT. */
+       test_ptrace_write_gs_read_base();
+
        /* Probe FSGSBASE */
        sethandler(SIGILL, sigill, 0);
        if (sigsetjmp(jmpbuf, 1) == 0) {
index 58c0eab..0517c74 100644 (file)
@@ -78,6 +78,7 @@
 #define KPF_ARCH               38
 #define KPF_UNCACHED           39
 #define KPF_SOFTDIRTY          40
+#define KPF_ARCH_2             41
 
 /* [48-] take some arbitrary free slots for expanding overloaded flags
  * not part of kernel API
@@ -135,6 +136,7 @@ static const char * const page_flag_names[] = {
        [KPF_ARCH]              = "h:arch",
        [KPF_UNCACHED]          = "c:uncached",
        [KPF_SOFTDIRTY]         = "f:softdirty",
+       [KPF_ARCH_2]            = "H:arch_2",
 
        [KPF_READAHEAD]         = "I:readahead",
        [KPF_SLOB_FREE]         = "P:slob_free",