Merge tag 'slab-for-6.1-rc1' of git://git.kernel.org/pub/scm/linux/kernel/git/vbabka...

author Linus Torvalds <torvalds@linux-foundation.org>

Mon, 10 Oct 2022 17:21:22 +0000 (10:21 -0700)

committer Linus Torvalds <torvalds@linux-foundation.org>

Mon, 10 Oct 2022 17:21:22 +0000 (10:21 -0700)
author Linus Torvalds <torvalds@linux-foundation.org>
Mon, 10 Oct 2022 17:21:22 +0000 (10:21 -0700)
committer Linus Torvalds <torvalds@linux-foundation.org>
Mon, 10 Oct 2022 17:21:22 +0000 (10:21 -0700)
diff --git a/Documentation/mm/slub.rst b/Documentation/mm/slub.rst

index 43063ad..4e15781 100644 (file)
--- a/Documentation/mm/slub.rst
+++ b/Documentation/mm/slub.rst
@@ -400,21 +400,30 @@ information:
      allocated objects. The output is sorted by frequency of each trace.
  
      Information in the output:
-    Number of objects, allocating function, minimal/average/maximal jiffies since alloc,
-    pid range of the allocating processes, cpu mask of allocating cpus, and stack trace.
+    Number of objects, allocating function, possible memory wastage of
+    kmalloc objects(total/per-object), minimal/average/maximal jiffies
+    since alloc, pid range of the allocating processes, cpu mask of
+    allocating cpus, numa node mask of origins of memory, and stack trace.
  
      Example:::
  
-    1085 populate_error_injection_list+0x97/0x110 age=166678/166680/166682 pid=1 cpus=1::
-       __slab_alloc+0x6d/0x90
-       kmem_cache_alloc_trace+0x2eb/0x300
-       populate_error_injection_list+0x97/0x110
-       init_error_injection+0x1b/0x71
-       do_one_initcall+0x5f/0x2d0
-       kernel_init_freeable+0x26f/0x2d7
-       kernel_init+0xe/0x118
-       ret_from_fork+0x22/0x30
-
+    338 pci_alloc_dev+0x2c/0xa0 waste=521872/1544 age=290837/291891/293509 pid=1 cpus=106 nodes=0-1
+        __kmem_cache_alloc_node+0x11f/0x4e0
+        kmalloc_trace+0x26/0xa0
+        pci_alloc_dev+0x2c/0xa0
+        pci_scan_single_device+0xd2/0x150
+        pci_scan_slot+0xf7/0x2d0
+        pci_scan_child_bus_extend+0x4e/0x360
+        acpi_pci_root_create+0x32e/0x3b0
+        pci_acpi_scan_root+0x2b9/0x2d0
+        acpi_pci_root_add.cold.11+0x110/0xb0a
+        acpi_bus_attach+0x262/0x3f0
+        device_for_each_child+0xb7/0x110
+        acpi_dev_for_each_child+0x77/0xa0
+        acpi_bus_attach+0x108/0x3f0
+        device_for_each_child+0xb7/0x110
+        acpi_dev_for_each_child+0x77/0xa0
+        acpi_bus_attach+0x108/0x3f0
  
  2. free_traces::
  
diff --git a/include/linux/compiler_attributes.h b/include/linux/compiler_attributes.h

index fc93c94..898b345 100644 (file)
--- a/include/linux/compiler_attributes.h
+++ b/include/linux/compiler_attributes.h
@@ -35,7 +35,8 @@
  
  /*
   * Note: do not use this directly. Instead, use __alloc_size() since it is conditionally
- * available and includes other attributes.
+ * available and includes other attributes. For GCC < 9.1, __alloc_size__ gets undefined
+ * in compiler-gcc.h, due to misbehaviors.
   *
   *   gcc: https://gcc.gnu.org/onlinedocs/gcc/Common-Function-Attributes.html#index-alloc_005fsize-function-attribute
   * clang: https://clang.llvm.org/docs/AttributeReference.html#alloc-size
diff --git a/include/linux/compiler_types.h b/include/linux/compiler_types.h

index d9d98e8..74e04ec 100644 (file)
--- a/include/linux/compiler_types.h
+++ b/include/linux/compiler_types.h
@@ -271,14 +271,16 @@ struct ftrace_likely_data {
  
  /*
   * Any place that could be marked with the "alloc_size" attribute is also
- * a place to be marked with the "malloc" attribute. Do this as part of the
- * __alloc_size macro to avoid redundant attributes and to avoid missing a
- * __malloc marking.
+ * a place to be marked with the "malloc" attribute, except those that may
+ * be performing a _reallocation_, as that may alias the existing pointer.
+ * For these, use __realloc_size().
   */
  #ifdef __alloc_size__
  # define __alloc_size(x, ...)  __alloc_size__(x, ## __VA_ARGS__) __malloc
+# define __realloc_size(x, ...)        __alloc_size__(x, ## __VA_ARGS__)
  #else
  # define __alloc_size(x, ...)  __malloc
+# define __realloc_size(x, ...)
  #endif
  
  #ifndef asm_volatile_goto
diff --git a/include/linux/slab.h b/include/linux/slab.h

index 0fefdf5..6a613e6 100644 (file)
--- a/include/linux/slab.h
+++ b/include/linux/slab.h
@@ -29,6 +29,8 @@
  #define SLAB_RED_ZONE          ((slab_flags_t __force)0x00000400U)
  /* DEBUG: Poison objects */
  #define SLAB_POISON            ((slab_flags_t __force)0x00000800U)
+/* Indicate a kmalloc slab */
+#define SLAB_KMALLOC           ((slab_flags_t __force)0x00001000U)
  /* Align objs on cache lines */
  #define SLAB_HWCACHE_ALIGN     ((slab_flags_t __force)0x00002000U)
  /* Use GFP_DMA memory */
@@ -184,11 +186,25 @@ int kmem_cache_shrink(struct kmem_cache *s);
  /*
   * Common kmalloc functions provided by all allocators
   */
-void * __must_check krealloc(const void *objp, size_t new_size, gfp_t flags) __alloc_size(2);
+void * __must_check krealloc(const void *objp, size_t new_size, gfp_t flags) __realloc_size(2);
  void kfree(const void *objp);
  void kfree_sensitive(const void *objp);
  size_t __ksize(const void *objp);
+
+/**
+ * ksize - Report actual allocation size of associated object
+ *
+ * @objp: Pointer returned from a prior kmalloc()-family allocation.
+ *
+ * This should not be used for writing beyond the originally requested
+ * allocation size. Either use krealloc() or round up the allocation size
+ * with kmalloc_size_roundup() prior to allocation. If this is used to
+ * access beyond the originally requested allocation size, UBSAN_BOUNDS
+ * and/or FORTIFY_SOURCE may trip, since they only know about the
+ * originally allocated size via the __alloc_size attribute.
+ */
  size_t ksize(const void *objp);
+
  #ifdef CONFIG_PRINTK
  bool kmem_valid_obj(void *object);
  void kmem_dump_obj(void *object);
@@ -243,27 +259,17 @@ static inline unsigned int arch_slab_minalign(void)
  
  #ifdef CONFIG_SLAB
  /*
- * The largest kmalloc size supported by the SLAB allocators is
- * 32 megabyte (2^25) or the maximum allocatable page order if that is
- * less than 32 MB.
- *
- * WARNING: Its not easy to increase this value since the allocators have
- * to do various tricks to work around compiler limitations in order to
- * ensure proper constant folding.
+ * SLAB and SLUB directly allocates requests fitting in to an order-1 page
+ * (PAGE_SIZE*2).  Larger requests are passed to the page allocator.
   */
-#define KMALLOC_SHIFT_HIGH     ((MAX_ORDER + PAGE_SHIFT - 1) <= 25 ? \
-                               (MAX_ORDER + PAGE_SHIFT - 1) : 25)
-#define KMALLOC_SHIFT_MAX      KMALLOC_SHIFT_HIGH
+#define KMALLOC_SHIFT_HIGH     (PAGE_SHIFT + 1)
+#define KMALLOC_SHIFT_MAX      (MAX_ORDER + PAGE_SHIFT - 1)
  #ifndef KMALLOC_SHIFT_LOW
  #define KMALLOC_SHIFT_LOW      5
  #endif
  #endif
  
  #ifdef CONFIG_SLUB
-/*
- * SLUB directly allocates requests fitting in to an order-1 page
- * (PAGE_SIZE*2).  Larger requests are passed to the page allocator.
- */
  #define KMALLOC_SHIFT_HIGH     (PAGE_SHIFT + 1)
  #define KMALLOC_SHIFT_MAX      (MAX_ORDER + PAGE_SHIFT - 1)
  #ifndef KMALLOC_SHIFT_LOW
@@ -415,10 +421,6 @@ static __always_inline unsigned int __kmalloc_index(size_t size,
         if (size <= 512 * 1024) return 19;
         if (size <= 1024 * 1024) return 20;
         if (size <=  2 * 1024 * 1024) return 21;
-       if (size <=  4 * 1024 * 1024) return 22;
-       if (size <=  8 * 1024 * 1024) return 23;
-       if (size <=  16 * 1024 * 1024) return 24;
-       if (size <=  32 * 1024 * 1024) return 25;
  
         if (!IS_ENABLED(CONFIG_PROFILE_ALL_BRANCHES) && size_is_constant)
                 BUILD_BUG_ON_MSG(1, "unexpected size in kmalloc_index()");
@@ -428,6 +430,7 @@ static __always_inline unsigned int __kmalloc_index(size_t size,
         /* Will never be reached. Needed because the compiler may complain */
         return -1;
  }
+static_assert(PAGE_SHIFT <= 20);
  #define kmalloc_index(s) __kmalloc_index(s, true)
  #endif /* !CONFIG_SLOB */
  
@@ -456,42 +459,22 @@ static __always_inline void kfree_bulk(size_t size, void **p)
         kmem_cache_free_bulk(NULL, size, p);
  }
  
-#ifdef CONFIG_NUMA
  void *__kmalloc_node(size_t size, gfp_t flags, int node) __assume_kmalloc_alignment
                                                          __alloc_size(1);
  void *kmem_cache_alloc_node(struct kmem_cache *s, gfp_t flags, int node) __assume_slab_alignment
                                                                          __malloc;
-#else
-static __always_inline __alloc_size(1) void *__kmalloc_node(size_t size, gfp_t flags, int node)
-{
-       return __kmalloc(size, flags);
-}
-
-static __always_inline void *kmem_cache_alloc_node(struct kmem_cache *s, gfp_t flags, int node)
-{
-       return kmem_cache_alloc(s, flags);
-}
-#endif
  
  #ifdef CONFIG_TRACING
-extern void *kmem_cache_alloc_trace(struct kmem_cache *s, gfp_t flags, size_t size)
-                                  __assume_slab_alignment __alloc_size(3);
-
-#ifdef CONFIG_NUMA
-extern void *kmem_cache_alloc_node_trace(struct kmem_cache *s, gfp_t gfpflags,
-                                        int node, size_t size) __assume_slab_alignment
-                                                               __alloc_size(4);
-#else
-static __always_inline __alloc_size(4) void *kmem_cache_alloc_node_trace(struct kmem_cache *s,
-                                                gfp_t gfpflags, int node, size_t size)
-{
-       return kmem_cache_alloc_trace(s, gfpflags, size);
-}
-#endif /* CONFIG_NUMA */
+void *kmalloc_trace(struct kmem_cache *s, gfp_t flags, size_t size)
+                   __assume_kmalloc_alignment __alloc_size(3);
  
+void *kmalloc_node_trace(struct kmem_cache *s, gfp_t gfpflags,
+                        int node, size_t size) __assume_kmalloc_alignment
+                                               __alloc_size(4);
  #else /* CONFIG_TRACING */
-static __always_inline __alloc_size(3) void *kmem_cache_alloc_trace(struct kmem_cache *s,
-                                                                   gfp_t flags, size_t size)
+/* Save a function call when CONFIG_TRACING=n */
+static __always_inline __alloc_size(3)
+void *kmalloc_trace(struct kmem_cache *s, gfp_t flags, size_t size)
  {
         void *ret = kmem_cache_alloc(s, flags);
  
@@ -499,8 +482,9 @@ static __always_inline __alloc_size(3) void *kmem_cache_alloc_trace(struct kmem_
         return ret;
  }
  
-static __always_inline void *kmem_cache_alloc_node_trace(struct kmem_cache *s, gfp_t gfpflags,
-                                                        int node, size_t size)
+static __always_inline __alloc_size(4)
+void *kmalloc_node_trace(struct kmem_cache *s, gfp_t gfpflags,
+                        int node, size_t size)
  {
         void *ret = kmem_cache_alloc_node(s, gfpflags, node);
  
@@ -509,25 +493,11 @@ static __always_inline void *kmem_cache_alloc_node_trace(struct kmem_cache *s, g
  }
  #endif /* CONFIG_TRACING */
  
-extern void *kmalloc_order(size_t size, gfp_t flags, unsigned int order) __assume_page_alignment
-                                                                        __alloc_size(1);
+void *kmalloc_large(size_t size, gfp_t flags) __assume_page_alignment
+                                             __alloc_size(1);
  
-#ifdef CONFIG_TRACING
-extern void *kmalloc_order_trace(size_t size, gfp_t flags, unsigned int order)
-                               __assume_page_alignment __alloc_size(1);
-#else
-static __always_inline __alloc_size(1) void *kmalloc_order_trace(size_t size, gfp_t flags,
-                                                                unsigned int order)
-{
-       return kmalloc_order(size, flags, order);
-}
-#endif
-
-static __always_inline __alloc_size(1) void *kmalloc_large(size_t size, gfp_t flags)
-{
-       unsigned int order = get_order(size);
-       return kmalloc_order_trace(size, flags, order);
-}
+void *kmalloc_large_node(size_t size, gfp_t flags, int node) __assume_page_alignment
+                                                            __alloc_size(1);
  
  /**
   * kmalloc - allocate memory
@@ -597,7 +567,7 @@ static __always_inline __alloc_size(1) void *kmalloc(size_t size, gfp_t flags)
                 if (!index)
                         return ZERO_SIZE_PTR;
  
-               return kmem_cache_alloc_trace(
+               return kmalloc_trace(
                                 kmalloc_caches[kmalloc_type(flags)][index],
                                 flags, size);
  #endif
@@ -605,23 +575,35 @@ static __always_inline __alloc_size(1) void *kmalloc(size_t size, gfp_t flags)
         return __kmalloc(size, flags);
  }
  
+#ifndef CONFIG_SLOB
  static __always_inline __alloc_size(1) void *kmalloc_node(size_t size, gfp_t flags, int node)
  {
-#ifndef CONFIG_SLOB
-       if (__builtin_constant_p(size) &&
-               size <= KMALLOC_MAX_CACHE_SIZE) {
-               unsigned int i = kmalloc_index(size);
+       if (__builtin_constant_p(size)) {
+               unsigned int index;
  
-               if (!i)
+               if (size > KMALLOC_MAX_CACHE_SIZE)
+                       return kmalloc_large_node(size, flags, node);
+
+               index = kmalloc_index(size);
+
+               if (!index)
                         return ZERO_SIZE_PTR;
  
-               return kmem_cache_alloc_node_trace(
-                               kmalloc_caches[kmalloc_type(flags)][i],
-                                               flags, node, size);
+               return kmalloc_node_trace(
+                               kmalloc_caches[kmalloc_type(flags)][index],
+                               flags, node, size);
         }
-#endif
         return __kmalloc_node(size, flags, node);
  }
+#else
+static __always_inline __alloc_size(1) void *kmalloc_node(size_t size, gfp_t flags, int node)
+{
+       if (__builtin_constant_p(size) && size > KMALLOC_MAX_CACHE_SIZE)
+               return kmalloc_large_node(size, flags, node);
+
+       return __kmalloc_node(size, flags, node);
+}
+#endif
  
  /**
   * kmalloc_array - allocate memory for an array.
@@ -647,10 +629,10 @@ static inline __alloc_size(1, 2) void *kmalloc_array(size_t n, size_t size, gfp_
   * @new_size: new size of a single member of the array
   * @flags: the type of memory to allocate (see kmalloc)
   */
-static inline __alloc_size(2, 3) void * __must_check krealloc_array(void *p,
-                                                                   size_t new_n,
-                                                                   size_t new_size,
-                                                                   gfp_t flags)
+static inline __realloc_size(2, 3) void * __must_check krealloc_array(void *p,
+                                                                     size_t new_n,
+                                                                     size_t new_size,
+                                                                     gfp_t flags)
  {
         size_t bytes;
  
@@ -671,6 +653,12 @@ static inline __alloc_size(1, 2) void *kcalloc(size_t n, size_t size, gfp_t flag
         return kmalloc_array(n, size, flags | __GFP_ZERO);
  }
  
+void *__kmalloc_node_track_caller(size_t size, gfp_t flags, int node,
+                                 unsigned long caller) __alloc_size(1);
+#define kmalloc_node_track_caller(size, flags, node) \
+       __kmalloc_node_track_caller(size, flags, node, \
+                                   _RET_IP_)
+
  /*
   * kmalloc_track_caller is a special version of kmalloc that records the
   * calling function of the routine calling it for slab leak tracking instead
@@ -679,9 +667,9 @@ static inline __alloc_size(1, 2) void *kcalloc(size_t n, size_t size, gfp_t flag
   * allocator where we care about the real place the memory allocation
   * request comes from.
   */
-extern void *__kmalloc_track_caller(size_t size, gfp_t flags, unsigned long caller);
  #define kmalloc_track_caller(size, flags) \
-       __kmalloc_track_caller(size, flags, _RET_IP_)
+       __kmalloc_node_track_caller(size, flags, \
+                                   NUMA_NO_NODE, _RET_IP_)
  
  static inline __alloc_size(1, 2) void *kmalloc_array_node(size_t n, size_t size, gfp_t flags,
                                                           int node)
@@ -700,21 +688,6 @@ static inline __alloc_size(1, 2) void *kcalloc_node(size_t n, size_t size, gfp_t
         return kmalloc_array_node(n, size, flags | __GFP_ZERO, node);
  }
  
-
-#ifdef CONFIG_NUMA
-extern void *__kmalloc_node_track_caller(size_t size, gfp_t flags, int node,
-                                        unsigned long caller) __alloc_size(1);
-#define kmalloc_node_track_caller(size, flags, node) \
-       __kmalloc_node_track_caller(size, flags, node, \
-                       _RET_IP_)
-
-#else /* CONFIG_NUMA */
-
-#define kmalloc_node_track_caller(size, flags, node) \
-       kmalloc_track_caller(size, flags)
-
-#endif /* CONFIG_NUMA */
-
  /*
   * Shortcuts
   */
@@ -774,11 +747,28 @@ static inline __alloc_size(1, 2) void *kvcalloc(size_t n, size_t size, gfp_t fla
  }
  
  extern void *kvrealloc(const void *p, size_t oldsize, size_t newsize, gfp_t flags)
-                     __alloc_size(3);
+                     __realloc_size(3);
  extern void kvfree(const void *addr);
  extern void kvfree_sensitive(const void *addr, size_t len);
  
  unsigned int kmem_cache_size(struct kmem_cache *s);
+
+/**
+ * kmalloc_size_roundup - Report allocation bucket size for the given size
+ *
+ * @size: Number of bytes to round up from.
+ *
+ * This returns the number of bytes that would be available in a kmalloc()
+ * allocation of @size bytes. For example, a 126 byte request would be
+ * rounded up to the next sized kmalloc bucket, 128 bytes. (This is strictly
+ * for the general-purpose kmalloc()-based allocations, and is not for the
+ * pre-sized kmem_cache_alloc()-based allocations.)
+ *
+ * Use this to kmalloc() the full bucket size ahead of time instead of using
+ * ksize() to query the size after an allocation.
+ */
+size_t kmalloc_size_roundup(size_t size);
+
  void __init kmem_cache_init_late(void);
  
  #if defined(CONFIG_SMP) && defined(CONFIG_SLAB)
diff --git a/include/trace/events/kmem.h b/include/trace/events/kmem.h

index 4cb51ac..243073c 100644 (file)
--- a/include/trace/events/kmem.h
+++ b/include/trace/events/kmem.h
@@ -9,16 +9,15 @@
  #include <linux/tracepoint.h>
  #include <trace/events/mmflags.h>
  
-DECLARE_EVENT_CLASS(kmem_alloc,
+TRACE_EVENT(kmem_cache_alloc,
  
         TP_PROTO(unsigned long call_site,
                  const void *ptr,
                  struct kmem_cache *s,
-                size_t bytes_req,
-                size_t bytes_alloc,
-                gfp_t gfp_flags),
+                gfp_t gfp_flags,
+                int node),
  
-       TP_ARGS(call_site, ptr, s, bytes_req, bytes_alloc, gfp_flags),
+       TP_ARGS(call_site, ptr, s, gfp_flags, node),
  
         TP_STRUCT__entry(
                 __field(        unsigned long,  call_site       )
@@ -26,56 +25,42 @@ DECLARE_EVENT_CLASS(kmem_alloc,
                 __field(        size_t,         bytes_req       )
                 __field(        size_t,         bytes_alloc     )
                 __field(        unsigned long,  gfp_flags       )
+               __field(        int,            node            )
                 __field(        bool,           accounted       )
         ),
  
         TP_fast_assign(
                 __entry->call_site      = call_site;
                 __entry->ptr            = ptr;
-               __entry->bytes_req      = bytes_req;
-               __entry->bytes_alloc    = bytes_alloc;
+               __entry->bytes_req      = s->object_size;
+               __entry->bytes_alloc    = s->size;
                 __entry->gfp_flags      = (__force unsigned long)gfp_flags;
+               __entry->node           = node;
                 __entry->accounted      = IS_ENABLED(CONFIG_MEMCG_KMEM) ?
                                           ((gfp_flags & __GFP_ACCOUNT) ||
-                                         (s && s->flags & SLAB_ACCOUNT)) : false;
+                                         (s->flags & SLAB_ACCOUNT)) : false;
         ),
  
-       TP_printk("call_site=%pS ptr=%p bytes_req=%zu bytes_alloc=%zu gfp_flags=%s accounted=%s",
+       TP_printk("call_site=%pS ptr=%p bytes_req=%zu bytes_alloc=%zu gfp_flags=%s node=%d accounted=%s",
                 (void *)__entry->call_site,
                 __entry->ptr,
                 __entry->bytes_req,
                 __entry->bytes_alloc,
                 show_gfp_flags(__entry->gfp_flags),
+               __entry->node,
                 __entry->accounted ? "true" : "false")
  );
  
-DEFINE_EVENT(kmem_alloc, kmalloc,
-
-       TP_PROTO(unsigned long call_site, const void *ptr, struct kmem_cache *s,
-                size_t bytes_req, size_t bytes_alloc, gfp_t gfp_flags),
-
-       TP_ARGS(call_site, ptr, s, bytes_req, bytes_alloc, gfp_flags)
-);
-
-DEFINE_EVENT(kmem_alloc, kmem_cache_alloc,
-
-       TP_PROTO(unsigned long call_site, const void *ptr, struct kmem_cache *s,
-                size_t bytes_req, size_t bytes_alloc, gfp_t gfp_flags),
-
-       TP_ARGS(call_site, ptr, s, bytes_req, bytes_alloc, gfp_flags)
-);
-
-DECLARE_EVENT_CLASS(kmem_alloc_node,
+TRACE_EVENT(kmalloc,
  
         TP_PROTO(unsigned long call_site,
                  const void *ptr,
-                struct kmem_cache *s,
                  size_t bytes_req,
                  size_t bytes_alloc,
                  gfp_t gfp_flags,
                  int node),
  
-       TP_ARGS(call_site, ptr, s, bytes_req, bytes_alloc, gfp_flags, node),
+       TP_ARGS(call_site, ptr, bytes_req, bytes_alloc, gfp_flags, node),
  
         TP_STRUCT__entry(
                 __field(        unsigned long,  call_site       )
@@ -84,7 +69,6 @@ DECLARE_EVENT_CLASS(kmem_alloc_node,
                 __field(        size_t,         bytes_alloc     )
                 __field(        unsigned long,  gfp_flags       )
                 __field(        int,            node            )
-               __field(        bool,           accounted       )
         ),
  
         TP_fast_assign(
@@ -94,9 +78,6 @@ DECLARE_EVENT_CLASS(kmem_alloc_node,
                 __entry->bytes_alloc    = bytes_alloc;
                 __entry->gfp_flags      = (__force unsigned long)gfp_flags;
                 __entry->node           = node;
-               __entry->accounted      = IS_ENABLED(CONFIG_MEMCG_KMEM) ?
-                                         ((gfp_flags & __GFP_ACCOUNT) ||
-                                         (s && s->flags & SLAB_ACCOUNT)) : false;
         ),
  
         TP_printk("call_site=%pS ptr=%p bytes_req=%zu bytes_alloc=%zu gfp_flags=%s node=%d accounted=%s",
@@ -106,25 +87,8 @@ DECLARE_EVENT_CLASS(kmem_alloc_node,
                 __entry->bytes_alloc,
                 show_gfp_flags(__entry->gfp_flags),
                 __entry->node,
-               __entry->accounted ? "true" : "false")
-);
-
-DEFINE_EVENT(kmem_alloc_node, kmalloc_node,
-
-       TP_PROTO(unsigned long call_site, const void *ptr,
-                struct kmem_cache *s, size_t bytes_req, size_t bytes_alloc,
-                gfp_t gfp_flags, int node),
-
-       TP_ARGS(call_site, ptr, s, bytes_req, bytes_alloc, gfp_flags, node)
-);
-
-DEFINE_EVENT(kmem_alloc_node, kmem_cache_alloc_node,
-
-       TP_PROTO(unsigned long call_site, const void *ptr,
-                struct kmem_cache *s, size_t bytes_req, size_t bytes_alloc,
-                gfp_t gfp_flags, int node),
-
-       TP_ARGS(call_site, ptr, s, bytes_req, bytes_alloc, gfp_flags, node)
+               (IS_ENABLED(CONFIG_MEMCG_KMEM) &&
+                (__entry->gfp_flags & (__force unsigned long)__GFP_ACCOUNT)) ? "true" : "false")
  );
  
  TRACE_EVENT(kfree,
@@ -149,20 +113,20 @@ TRACE_EVENT(kfree,
  
  TRACE_EVENT(kmem_cache_free,
  
-       TP_PROTO(unsigned long call_site, const void *ptr, const char *name),
+       TP_PROTO(unsigned long call_site, const void *ptr, const struct kmem_cache *s),
  
-       TP_ARGS(call_site, ptr, name),
+       TP_ARGS(call_site, ptr, s),
  
         TP_STRUCT__entry(
                 __field(        unsigned long,  call_site       )
                 __field(        const void *,   ptr             )
-               __string(       name,   name    )
+               __string(       name,           s->name         )
         ),
  
         TP_fast_assign(
                 __entry->call_site      = call_site;
                 __entry->ptr            = ptr;
-               __assign_str(name, name);
+               __assign_str(name, s->name);
         ),
  
         TP_printk("call_site=%pS ptr=%p name=%s",
diff --git a/mm/kfence/report.c b/mm/kfence/report.c

index f5a6d8b..7e49685 100644 (file)
--- a/mm/kfence/report.c
+++ b/mm/kfence/report.c
@@ -86,6 +86,7 @@ static int get_stack_skipnr(const unsigned long stack_entries[], int num_entries
                 /* Also the *_bulk() variants by only checking prefixes. */
                 if (str_has_prefix(buf, ARCH_FUNC_PREFIX "kfree") ||
                     str_has_prefix(buf, ARCH_FUNC_PREFIX "kmem_cache_free") ||
+                   str_has_prefix(buf, ARCH_FUNC_PREFIX "__kmem_cache_free") ||
                     str_has_prefix(buf, ARCH_FUNC_PREFIX "__kmalloc") ||
                     str_has_prefix(buf, ARCH_FUNC_PREFIX "kmem_cache_alloc"))
                         goto found;
diff --git a/mm/slab.c b/mm/slab.c

index 10e9613..a5486ff 100644 (file)
--- a/mm/slab.c
+++ b/mm/slab.c
@@ -3181,84 +3181,46 @@ must_grow:
  }
  
  static __always_inline void *
-slab_alloc_node(struct kmem_cache *cachep, gfp_t flags, int nodeid, size_t orig_size,
-                  unsigned long caller)
+__do_cache_alloc(struct kmem_cache *cachep, gfp_t flags, int nodeid)
  {
-       unsigned long save_flags;
-       void *ptr;
+       void *objp = NULL;
         int slab_node = numa_mem_id();
-       struct obj_cgroup *objcg = NULL;
-       bool init = false;
  
-       flags &= gfp_allowed_mask;
-       cachep = slab_pre_alloc_hook(cachep, NULL, &objcg, 1, flags);
-       if (unlikely(!cachep))
-               return NULL;
-
-       ptr = kfence_alloc(cachep, orig_size, flags);
-       if (unlikely(ptr))
-               goto out_hooks;
-
-       local_irq_save(save_flags);
-
-       if (nodeid == NUMA_NO_NODE)
-               nodeid = slab_node;
-
-       if (unlikely(!get_node(cachep, nodeid))) {
-               /* Node not bootstrapped yet */
-               ptr = fallback_alloc(cachep, flags);
-               goto out;
-       }
-
-       if (nodeid == slab_node) {
+       if (nodeid == NUMA_NO_NODE) {
+               if (current->mempolicy || cpuset_do_slab_mem_spread()) {
+                       objp = alternate_node_alloc(cachep, flags);
+                       if (objp)
+                               goto out;
+               }
                 /*
                  * Use the locally cached objects if possible.
                  * However ____cache_alloc does not allow fallback
                  * to other nodes. It may fail while we still have
                  * objects on other nodes available.
                  */
-               ptr = ____cache_alloc(cachep, flags);
-               if (ptr)
-                       goto out;
-       }
-       /* ___cache_alloc_node can fall back to other nodes */
-       ptr = ____cache_alloc_node(cachep, flags, nodeid);
-out:
-       local_irq_restore(save_flags);
-       ptr = cache_alloc_debugcheck_after(cachep, flags, ptr, caller);
-       init = slab_want_init_on_alloc(flags, cachep);
-
-out_hooks:
-       slab_post_alloc_hook(cachep, objcg, flags, 1, &ptr, init);
-       return ptr;
-}
-
-static __always_inline void *
-__do_cache_alloc(struct kmem_cache *cache, gfp_t flags)
-{
-       void *objp;
-
-       if (current->mempolicy || cpuset_do_slab_mem_spread()) {
-               objp = alternate_node_alloc(cache, flags);
-               if (objp)
-                       goto out;
+               objp = ____cache_alloc(cachep, flags);
+               nodeid = slab_node;
+       } else if (nodeid == slab_node) {
+               objp = ____cache_alloc(cachep, flags);
+       } else if (!get_node(cachep, nodeid)) {
+               /* Node not bootstrapped yet */
+               objp = fallback_alloc(cachep, flags);
+               goto out;
         }
-       objp = ____cache_alloc(cache, flags);
  
         /*
          * We may just have run out of memory on the local node.
          * ____cache_alloc_node() knows how to locate memory on other nodes
          */
         if (!objp)
-               objp = ____cache_alloc_node(cache, flags, numa_mem_id());
-
+               objp = ____cache_alloc_node(cachep, flags, nodeid);
  out:
         return objp;
  }
  #else
  
  static __always_inline void *
-__do_cache_alloc(struct kmem_cache *cachep, gfp_t flags)
+__do_cache_alloc(struct kmem_cache *cachep, gfp_t flags, int nodeid __maybe_unused)
  {
         return ____cache_alloc(cachep, flags);
  }
@@ -3266,8 +3228,8 @@ __do_cache_alloc(struct kmem_cache *cachep, gfp_t flags)
  #endif /* CONFIG_NUMA */
  
  static __always_inline void *
-slab_alloc(struct kmem_cache *cachep, struct list_lru *lru, gfp_t flags,
-          size_t orig_size, unsigned long caller)
+slab_alloc_node(struct kmem_cache *cachep, struct list_lru *lru, gfp_t flags,
+               int nodeid, size_t orig_size, unsigned long caller)
  {
         unsigned long save_flags;
         void *objp;
@@ -3284,7 +3246,7 @@ slab_alloc(struct kmem_cache *cachep, struct list_lru *lru, gfp_t flags,
                 goto out;
  
         local_irq_save(save_flags);
-       objp = __do_cache_alloc(cachep, flags);
+       objp = __do_cache_alloc(cachep, flags, nodeid);
         local_irq_restore(save_flags);
         objp = cache_alloc_debugcheck_after(cachep, flags, objp, caller);
         prefetchw(objp);
@@ -3295,6 +3257,14 @@ out:
         return objp;
  }
  
+static __always_inline void *
+slab_alloc(struct kmem_cache *cachep, struct list_lru *lru, gfp_t flags,
+          size_t orig_size, unsigned long caller)
+{
+       return slab_alloc_node(cachep, lru, flags, NUMA_NO_NODE, orig_size,
+                              caller);
+}
+
  /*
   * Caller needs to acquire correct kmem_cache_node's list_lock
   * @list: List of detached free slabs should be freed by caller
@@ -3470,8 +3440,7 @@ void *__kmem_cache_alloc_lru(struct kmem_cache *cachep, struct list_lru *lru,
  {
         void *ret = slab_alloc(cachep, lru, flags, cachep->object_size, _RET_IP_);
  
-       trace_kmem_cache_alloc(_RET_IP_, ret, cachep,
-                              cachep->object_size, cachep->size, flags);
+       trace_kmem_cache_alloc(_RET_IP_, ret, cachep, flags, NUMA_NO_NODE);
  
         return ret;
  }
@@ -3521,7 +3490,8 @@ int kmem_cache_alloc_bulk(struct kmem_cache *s, gfp_t flags, size_t size,
  
         local_irq_disable();
         for (i = 0; i < size; i++) {
-               void *objp = kfence_alloc(s, s->object_size, flags) ?: __do_cache_alloc(s, flags);
+               void *objp = kfence_alloc(s, s->object_size, flags) ?:
+                            __do_cache_alloc(s, flags, NUMA_NO_NODE);
  
                 if (unlikely(!objp))
                         goto error;
@@ -3548,23 +3518,6 @@ error:
  }
  EXPORT_SYMBOL(kmem_cache_alloc_bulk);
  
-#ifdef CONFIG_TRACING
-void *
-kmem_cache_alloc_trace(struct kmem_cache *cachep, gfp_t flags, size_t size)
-{
-       void *ret;
-
-       ret = slab_alloc(cachep, NULL, flags, size, _RET_IP_);
-
-       ret = kasan_kmalloc(cachep, ret, size, flags);
-       trace_kmalloc(_RET_IP_, ret, cachep,
-                     size, cachep->size, flags);
-       return ret;
-}
-EXPORT_SYMBOL(kmem_cache_alloc_trace);
-#endif
-
-#ifdef CONFIG_NUMA
  /**
   * kmem_cache_alloc_node - Allocate an object on the specified node
   * @cachep: The cache to allocate from.
@@ -3580,66 +3533,22 @@ EXPORT_SYMBOL(kmem_cache_alloc_trace);
   */
  void *kmem_cache_alloc_node(struct kmem_cache *cachep, gfp_t flags, int nodeid)
  {
-       void *ret = slab_alloc_node(cachep, flags, nodeid, cachep->object_size, _RET_IP_);
+       void *ret = slab_alloc_node(cachep, NULL, flags, nodeid, cachep->object_size, _RET_IP_);
  
-       trace_kmem_cache_alloc_node(_RET_IP_, ret, cachep,
-                                   cachep->object_size, cachep->size,
-                                   flags, nodeid);
+       trace_kmem_cache_alloc(_RET_IP_, ret, cachep, flags, nodeid);
  
         return ret;
  }
  EXPORT_SYMBOL(kmem_cache_alloc_node);
  
-#ifdef CONFIG_TRACING
-void *kmem_cache_alloc_node_trace(struct kmem_cache *cachep,
-                                 gfp_t flags,
-                                 int nodeid,
-                                 size_t size)
+void *__kmem_cache_alloc_node(struct kmem_cache *cachep, gfp_t flags,
+                            int nodeid, size_t orig_size,
+                            unsigned long caller)
  {
-       void *ret;
-
-       ret = slab_alloc_node(cachep, flags, nodeid, size, _RET_IP_);
-
-       ret = kasan_kmalloc(cachep, ret, size, flags);
-       trace_kmalloc_node(_RET_IP_, ret, cachep,
-                          size, cachep->size,
-                          flags, nodeid);
-       return ret;
-}
-EXPORT_SYMBOL(kmem_cache_alloc_node_trace);
-#endif
-
-static __always_inline void *
-__do_kmalloc_node(size_t size, gfp_t flags, int node, unsigned long caller)
-{
-       struct kmem_cache *cachep;
-       void *ret;
-
-       if (unlikely(size > KMALLOC_MAX_CACHE_SIZE))
-               return NULL;
-       cachep = kmalloc_slab(size, flags);
-       if (unlikely(ZERO_OR_NULL_PTR(cachep)))
-               return cachep;
-       ret = kmem_cache_alloc_node_trace(cachep, flags, node, size);
-       ret = kasan_kmalloc(cachep, ret, size, flags);
-
-       return ret;
+       return slab_alloc_node(cachep, NULL, flags, nodeid,
+                              orig_size, caller);
  }
  
-void *__kmalloc_node(size_t size, gfp_t flags, int node)
-{
-       return __do_kmalloc_node(size, flags, node, _RET_IP_);
-}
-EXPORT_SYMBOL(__kmalloc_node);
-
-void *__kmalloc_node_track_caller(size_t size, gfp_t flags,
-               int node, unsigned long caller)
-{
-       return __do_kmalloc_node(size, flags, node, caller);
-}
-EXPORT_SYMBOL(__kmalloc_node_track_caller);
-#endif /* CONFIG_NUMA */
-
  #ifdef CONFIG_PRINTK
  void __kmem_obj_info(struct kmem_obj_info *kpp, void *object, struct slab *slab)
  {
@@ -3662,45 +3571,25 @@ void __kmem_obj_info(struct kmem_obj_info *kpp, void *object, struct slab *slab)
  }
  #endif
  
-/**
- * __do_kmalloc - allocate memory
- * @size: how many bytes of memory are required.
- * @flags: the type of memory to allocate (see kmalloc).
- * @caller: function caller for debug tracking of the caller
- *
- * Return: pointer to the allocated memory or %NULL in case of error
- */
-static __always_inline void *__do_kmalloc(size_t size, gfp_t flags,
-                                         unsigned long caller)
+static __always_inline
+void __do_kmem_cache_free(struct kmem_cache *cachep, void *objp,
+                         unsigned long caller)
  {
-       struct kmem_cache *cachep;
-       void *ret;
-
-       if (unlikely(size > KMALLOC_MAX_CACHE_SIZE))
-               return NULL;
-       cachep = kmalloc_slab(size, flags);
-       if (unlikely(ZERO_OR_NULL_PTR(cachep)))
-               return cachep;
-       ret = slab_alloc(cachep, NULL, flags, size, caller);
-
-       ret = kasan_kmalloc(cachep, ret, size, flags);
-       trace_kmalloc(caller, ret, cachep,
-                     size, cachep->size, flags);
-
-       return ret;
-}
+       unsigned long flags;
  
-void *__kmalloc(size_t size, gfp_t flags)
-{
-       return __do_kmalloc(size, flags, _RET_IP_);
+       local_irq_save(flags);
+       debug_check_no_locks_freed(objp, cachep->object_size);
+       if (!(cachep->flags & SLAB_DEBUG_OBJECTS))
+               debug_check_no_obj_freed(objp, cachep->object_size);
+       __cache_free(cachep, objp, caller);
+       local_irq_restore(flags);
  }
-EXPORT_SYMBOL(__kmalloc);
  
-void *__kmalloc_track_caller(size_t size, gfp_t flags, unsigned long caller)
+void __kmem_cache_free(struct kmem_cache *cachep, void *objp,
+                      unsigned long caller)
  {
-       return __do_kmalloc(size, flags, caller);
+       __do_kmem_cache_free(cachep, objp, caller);
  }
-EXPORT_SYMBOL(__kmalloc_track_caller);
  
  /**
   * kmem_cache_free - Deallocate an object
@@ -3712,34 +3601,38 @@ EXPORT_SYMBOL(__kmalloc_track_caller);
   */
  void kmem_cache_free(struct kmem_cache *cachep, void *objp)
  {
-       unsigned long flags;
         cachep = cache_from_obj(cachep, objp);
         if (!cachep)
                 return;
  
-       trace_kmem_cache_free(_RET_IP_, objp, cachep->name);
-       local_irq_save(flags);
-       debug_check_no_locks_freed(objp, cachep->object_size);
-       if (!(cachep->flags & SLAB_DEBUG_OBJECTS))
-               debug_check_no_obj_freed(objp, cachep->object_size);
-       __cache_free(cachep, objp, _RET_IP_);
-       local_irq_restore(flags);
+       trace_kmem_cache_free(_RET_IP_, objp, cachep);
+       __do_kmem_cache_free(cachep, objp, _RET_IP_);
  }
  EXPORT_SYMBOL(kmem_cache_free);
  
  void kmem_cache_free_bulk(struct kmem_cache *orig_s, size_t size, void **p)
  {
-       struct kmem_cache *s;
-       size_t i;
  
         local_irq_disable();
-       for (i = 0; i < size; i++) {
+       for (int i = 0; i < size; i++) {
                 void *objp = p[i];
+               struct kmem_cache *s;
  
-               if (!orig_s) /* called via kfree_bulk */
-                       s = virt_to_cache(objp);
-               else
+               if (!orig_s) {
+                       struct folio *folio = virt_to_folio(objp);
+
+                       /* called via kfree_bulk */
+                       if (!folio_test_slab(folio)) {
+                               local_irq_enable();
+                               free_large_kmalloc(folio, objp);
+                               local_irq_disable();
+                               continue;
+                       }
+                       s = folio_slab(folio)->slab_cache;
+               } else {
                         s = cache_from_obj(orig_s, objp);
+               }
+
                 if (!s)
                         continue;
  
@@ -3755,39 +3648,6 @@ void kmem_cache_free_bulk(struct kmem_cache *orig_s, size_t size, void **p)
  }
  EXPORT_SYMBOL(kmem_cache_free_bulk);
  
-/**
- * kfree - free previously allocated memory
- * @objp: pointer returned by kmalloc.
- *
- * If @objp is NULL, no operation is performed.
- *
- * Don't free memory not originally allocated by kmalloc()
- * or you will run into trouble.
- */
-void kfree(const void *objp)
-{
-       struct kmem_cache *c;
-       unsigned long flags;
-
-       trace_kfree(_RET_IP_, objp);
-
-       if (unlikely(ZERO_OR_NULL_PTR(objp)))
-               return;
-       local_irq_save(flags);
-       kfree_debugcheck(objp);
-       c = virt_to_cache(objp);
-       if (!c) {
-               local_irq_restore(flags);
-               return;
-       }
-       debug_check_no_locks_freed(objp, c->object_size);
-
-       debug_check_no_obj_freed(objp, c->object_size);
-       __cache_free(c, (void *)objp, _RET_IP_);
-       local_irq_restore(flags);
-}
-EXPORT_SYMBOL(kfree);
-
  /*
   * This initializes kmem_cache_node or resizes various caches for all nodes.
   */
@@ -4190,28 +4050,3 @@ void __check_heap_object(const void *ptr, unsigned long n,
         usercopy_abort("SLAB object", cachep->name, to_user, offset, n);
  }
  #endif /* CONFIG_HARDENED_USERCOPY */
-
-/**
- * __ksize -- Uninstrumented ksize.
- * @objp: pointer to the object
- *
- * Unlike ksize(), __ksize() is uninstrumented, and does not provide the same
- * safety checks as ksize() with KASAN instrumentation enabled.
- *
- * Return: size of the actual memory used by @objp in bytes
- */
-size_t __ksize(const void *objp)
-{
-       struct kmem_cache *c;
-       size_t size;
-
-       BUG_ON(!objp);
-       if (unlikely(objp == ZERO_SIZE_PTR))
-               return 0;
-
-       c = virt_to_cache(objp);
-       size = c ? c->object_size : 0;
-
-       return size;
-}
-EXPORT_SYMBOL(__ksize);
diff --git a/mm/slab.h b/mm/slab.h

index 4ec82be..65023f0 100644 (file)
--- a/mm/slab.h
+++ b/mm/slab.h
@@ -273,6 +273,11 @@ void create_kmalloc_caches(slab_flags_t);
  
  /* Find the kmalloc slab corresponding for a certain size */
  struct kmem_cache *kmalloc_slab(size_t, gfp_t);
+
+void *__kmem_cache_alloc_node(struct kmem_cache *s, gfp_t gfpflags,
+                             int node, size_t orig_size,
+                             unsigned long caller);
+void __kmem_cache_free(struct kmem_cache *s, void *x, unsigned long caller);
  #endif
  
  gfp_t kmalloc_fix_flags(gfp_t flags);
@@ -658,8 +663,13 @@ static inline struct kmem_cache *cache_from_obj(struct kmem_cache *s, void *x)
                 print_tracking(cachep, x);
         return cachep;
  }
+
+void free_large_kmalloc(struct folio *folio, void *object);
+
  #endif /* CONFIG_SLOB */
  
+size_t __ksize(const void *objp);
+
  static inline size_t slab_ksize(const struct kmem_cache *s)
  {
  #ifndef CONFIG_SLUB
diff --git a/mm/slab_common.c b/mm/slab_common.c

index ccc0257..9ad97ae 100644 (file)
--- a/mm/slab_common.c
+++ b/mm/slab_common.c
@@ -511,13 +511,9 @@ EXPORT_SYMBOL(kmem_cache_destroy);
   */
  int kmem_cache_shrink(struct kmem_cache *cachep)
  {
-       int ret;
-
-
         kasan_cache_shrink(cachep);
-       ret = __kmem_cache_shrink(cachep);
  
-       return ret;
+       return __kmem_cache_shrink(cachep);
  }
  EXPORT_SYMBOL(kmem_cache_shrink);
  
@@ -665,7 +661,8 @@ struct kmem_cache *__init create_kmalloc_cache(const char *name,
         if (!s)
                 panic("Out of memory when creating slab %s\n", name);
  
-       create_boot_cache(s, name, size, flags, useroffset, usersize);
+       create_boot_cache(s, name, size, flags | SLAB_KMALLOC, useroffset,
+                                                               usersize);
         kasan_cache_create_kmalloc(s);
         list_add(&s->list, &slab_caches);
         s->refcount = 1;
@@ -737,6 +734,26 @@ struct kmem_cache *kmalloc_slab(size_t size, gfp_t flags)
         return kmalloc_caches[kmalloc_type(flags)][index];
  }
  
+size_t kmalloc_size_roundup(size_t size)
+{
+       struct kmem_cache *c;
+
+       /* Short-circuit the 0 size case. */
+       if (unlikely(size == 0))
+               return 0;
+       /* Short-circuit saturated "too-large" case. */
+       if (unlikely(size == SIZE_MAX))
+               return SIZE_MAX;
+       /* Above the smaller buckets, size is a multiple of page size. */
+       if (size > KMALLOC_MAX_CACHE_SIZE)
+               return PAGE_SIZE << get_order(size);
+
+       /* The flags don't matter since size_index is common to all. */
+       c = kmalloc_slab(size, GFP_KERNEL);
+       return c ? c->object_size : 0;
+}
+EXPORT_SYMBOL(kmalloc_size_roundup);
+
  #ifdef CONFIG_ZONE_DMA
  #define KMALLOC_DMA_NAME(sz)   .name[KMALLOC_DMA] = "dma-kmalloc-" #sz,
  #else
@@ -760,8 +777,8 @@ struct kmem_cache *kmalloc_slab(size_t size, gfp_t flags)
  
  /*
   * kmalloc_info[] is to make slub_debug=,kmalloc-xx option work at boot time.
- * kmalloc_index() supports up to 2^25=32MB, so the final entry of the table is
- * kmalloc-32M.
+ * kmalloc_index() supports up to 2^21=2MB, so the final entry of the table is
+ * kmalloc-2M.
   */
  const struct kmalloc_info_struct kmalloc_info[] __initconst = {
         INIT_KMALLOC_INFO(0, 0),
@@ -785,11 +802,7 @@ const struct kmalloc_info_struct kmalloc_info[] __initconst = {
         INIT_KMALLOC_INFO(262144, 256k),
         INIT_KMALLOC_INFO(524288, 512k),
         INIT_KMALLOC_INFO(1048576, 1M),
-       INIT_KMALLOC_INFO(2097152, 2M),
-       INIT_KMALLOC_INFO(4194304, 4M),
-       INIT_KMALLOC_INFO(8388608, 8M),
-       INIT_KMALLOC_INFO(16777216, 16M),
-       INIT_KMALLOC_INFO(33554432, 32M)
+       INIT_KMALLOC_INFO(2097152, 2M)
  };
  
  /*
@@ -902,6 +915,155 @@ void __init create_kmalloc_caches(slab_flags_t flags)
         /* Kmalloc array is now usable */
         slab_state = UP;
  }
+
+void free_large_kmalloc(struct folio *folio, void *object)
+{
+       unsigned int order = folio_order(folio);
+
+       if (WARN_ON_ONCE(order == 0))
+               pr_warn_once("object pointer: 0x%p\n", object);
+
+       kmemleak_free(object);
+       kasan_kfree_large(object);
+
+       mod_lruvec_page_state(folio_page(folio, 0), NR_SLAB_UNRECLAIMABLE_B,
+                             -(PAGE_SIZE << order));
+       __free_pages(folio_page(folio, 0), order);
+}
+
+static void *__kmalloc_large_node(size_t size, gfp_t flags, int node);
+static __always_inline
+void *__do_kmalloc_node(size_t size, gfp_t flags, int node, unsigned long caller)
+{
+       struct kmem_cache *s;
+       void *ret;
+
+       if (unlikely(size > KMALLOC_MAX_CACHE_SIZE)) {
+               ret = __kmalloc_large_node(size, flags, node);
+               trace_kmalloc(_RET_IP_, ret, size,
+                             PAGE_SIZE << get_order(size), flags, node);
+               return ret;
+       }
+
+       s = kmalloc_slab(size, flags);
+
+       if (unlikely(ZERO_OR_NULL_PTR(s)))
+               return s;
+
+       ret = __kmem_cache_alloc_node(s, flags, node, size, caller);
+       ret = kasan_kmalloc(s, ret, size, flags);
+       trace_kmalloc(_RET_IP_, ret, size, s->size, flags, node);
+       return ret;
+}
+
+void *__kmalloc_node(size_t size, gfp_t flags, int node)
+{
+       return __do_kmalloc_node(size, flags, node, _RET_IP_);
+}
+EXPORT_SYMBOL(__kmalloc_node);
+
+void *__kmalloc(size_t size, gfp_t flags)
+{
+       return __do_kmalloc_node(size, flags, NUMA_NO_NODE, _RET_IP_);
+}
+EXPORT_SYMBOL(__kmalloc);
+
+void *__kmalloc_node_track_caller(size_t size, gfp_t flags,
+                                 int node, unsigned long caller)
+{
+       return __do_kmalloc_node(size, flags, node, caller);
+}
+EXPORT_SYMBOL(__kmalloc_node_track_caller);
+
+/**
+ * kfree - free previously allocated memory
+ * @object: pointer returned by kmalloc.
+ *
+ * If @object is NULL, no operation is performed.
+ *
+ * Don't free memory not originally allocated by kmalloc()
+ * or you will run into trouble.
+ */
+void kfree(const void *object)
+{
+       struct folio *folio;
+       struct slab *slab;
+       struct kmem_cache *s;
+
+       trace_kfree(_RET_IP_, object);
+
+       if (unlikely(ZERO_OR_NULL_PTR(object)))
+               return;
+
+       folio = virt_to_folio(object);
+       if (unlikely(!folio_test_slab(folio))) {
+               free_large_kmalloc(folio, (void *)object);
+               return;
+       }
+
+       slab = folio_slab(folio);
+       s = slab->slab_cache;
+       __kmem_cache_free(s, (void *)object, _RET_IP_);
+}
+EXPORT_SYMBOL(kfree);
+
+/**
+ * __ksize -- Report full size of underlying allocation
+ * @objp: pointer to the object
+ *
+ * This should only be used internally to query the true size of allocations.
+ * It is not meant to be a way to discover the usable size of an allocation
+ * after the fact. Instead, use kmalloc_size_roundup(). Using memory beyond
+ * the originally requested allocation size may trigger KASAN, UBSAN_BOUNDS,
+ * and/or FORTIFY_SOURCE.
+ *
+ * Return: size of the actual memory used by @objp in bytes
+ */
+size_t __ksize(const void *object)
+{
+       struct folio *folio;
+
+       if (unlikely(object == ZERO_SIZE_PTR))
+               return 0;
+
+       folio = virt_to_folio(object);
+
+       if (unlikely(!folio_test_slab(folio))) {
+               if (WARN_ON(folio_size(folio) <= KMALLOC_MAX_CACHE_SIZE))
+                       return 0;
+               if (WARN_ON(object != folio_address(folio)))
+                       return 0;
+               return folio_size(folio);
+       }
+
+       return slab_ksize(folio_slab(folio)->slab_cache);
+}
+
+#ifdef CONFIG_TRACING
+void *kmalloc_trace(struct kmem_cache *s, gfp_t gfpflags, size_t size)
+{
+       void *ret = __kmem_cache_alloc_node(s, gfpflags, NUMA_NO_NODE,
+                                           size, _RET_IP_);
+
+       trace_kmalloc(_RET_IP_, ret, size, s->size, gfpflags, NUMA_NO_NODE);
+
+       ret = kasan_kmalloc(s, ret, size, gfpflags);
+       return ret;
+}
+EXPORT_SYMBOL(kmalloc_trace);
+
+void *kmalloc_node_trace(struct kmem_cache *s, gfp_t gfpflags,
+                        int node, size_t size)
+{
+       void *ret = __kmem_cache_alloc_node(s, gfpflags, node, size, _RET_IP_);
+
+       trace_kmalloc(_RET_IP_, ret, size, s->size, gfpflags, node);
+
+       ret = kasan_kmalloc(s, ret, size, gfpflags);
+       return ret;
+}
+EXPORT_SYMBOL(kmalloc_node_trace);
+#endif /* !CONFIG_TRACING */
  #endif /* !CONFIG_SLOB */
  
  gfp_t kmalloc_fix_flags(gfp_t flags)
@@ -921,37 +1083,50 @@ gfp_t kmalloc_fix_flags(gfp_t flags)
   * directly to the page allocator. We use __GFP_COMP, because we will need to
   * know the allocation order to free the pages properly in kfree.
   */
-void *kmalloc_order(size_t size, gfp_t flags, unsigned int order)
+
+static void *__kmalloc_large_node(size_t size, gfp_t flags, int node)
  {
-       void *ret = NULL;
         struct page *page;
+       void *ptr = NULL;
+       unsigned int order = get_order(size);
  
         if (unlikely(flags & GFP_SLAB_BUG_MASK))
                 flags = kmalloc_fix_flags(flags);
  
         flags |= __GFP_COMP;
-       page = alloc_pages(flags, order);
-       if (likely(page)) {
-               ret = page_address(page);
+       page = alloc_pages_node(node, flags, order);
+       if (page) {
+               ptr = page_address(page);
                 mod_lruvec_page_state(page, NR_SLAB_UNRECLAIMABLE_B,
                                       PAGE_SIZE << order);
         }
-       ret = kasan_kmalloc_large(ret, size, flags);
-       /* As ret might get tagged, call kmemleak hook after KASAN. */
-       kmemleak_alloc(ret, size, 1, flags);
+
+       ptr = kasan_kmalloc_large(ptr, size, flags);
+       /* As ptr might get tagged, call kmemleak hook after KASAN. */
+       kmemleak_alloc(ptr, size, 1, flags);
+
+       return ptr;
+}
+
+void *kmalloc_large(size_t size, gfp_t flags)
+{
+       void *ret = __kmalloc_large_node(size, flags, NUMA_NO_NODE);
+
+       trace_kmalloc(_RET_IP_, ret, size, PAGE_SIZE << get_order(size),
+                     flags, NUMA_NO_NODE);
         return ret;
  }
-EXPORT_SYMBOL(kmalloc_order);
+EXPORT_SYMBOL(kmalloc_large);
  
-#ifdef CONFIG_TRACING
-void *kmalloc_order_trace(size_t size, gfp_t flags, unsigned int order)
+void *kmalloc_large_node(size_t size, gfp_t flags, int node)
  {
-       void *ret = kmalloc_order(size, flags, order);
-       trace_kmalloc(_RET_IP_, ret, NULL, size, PAGE_SIZE << order, flags);
+       void *ret = __kmalloc_large_node(size, flags, node);
+
+       trace_kmalloc(_RET_IP_, ret, size, PAGE_SIZE << get_order(size),
+                     flags, node);
         return ret;
  }
-EXPORT_SYMBOL(kmalloc_order_trace);
-#endif
+EXPORT_SYMBOL(kmalloc_large_node);
  
  #ifdef CONFIG_SLAB_FREELIST_RANDOM
  /* Randomize a generic freelist */
@@ -1150,8 +1325,8 @@ module_init(slab_proc_init);
  
  #endif /* CONFIG_SLAB || CONFIG_SLUB_DEBUG */
  
-static __always_inline void *__do_krealloc(const void *p, size_t new_size,
-                                          gfp_t flags)
+static __always_inline __realloc_size(2) void *
+__do_krealloc(const void *p, size_t new_size, gfp_t flags)
  {
         void *ret;
         size_t ks;
@@ -1283,8 +1458,6 @@ EXPORT_SYMBOL(ksize);
  /* Tracepoints definitions. */
  EXPORT_TRACEPOINT_SYMBOL(kmalloc);
  EXPORT_TRACEPOINT_SYMBOL(kmem_cache_alloc);
-EXPORT_TRACEPOINT_SYMBOL(kmalloc_node);
-EXPORT_TRACEPOINT_SYMBOL(kmem_cache_alloc_node);
  EXPORT_TRACEPOINT_SYMBOL(kfree);
  EXPORT_TRACEPOINT_SYMBOL(kmem_cache_free);
  
diff --git a/mm/slob.c b/mm/slob.c

index 2bd4f47..fe567fc 100644 (file)
--- a/mm/slob.c
+++ b/mm/slob.c
@@ -507,8 +507,7 @@ __do_kmalloc_node(size_t size, gfp_t gfp, int node, unsigned long caller)
                 *m = size;
                 ret = (void *)m + minalign;
  
-               trace_kmalloc_node(caller, ret, NULL,
-                                  size, size + minalign, gfp, node);
+               trace_kmalloc(caller, ret, size, size + minalign, gfp, node);
         } else {
                 unsigned int order = get_order(size);
  
@@ -516,8 +515,7 @@ __do_kmalloc_node(size_t size, gfp_t gfp, int node, unsigned long caller)
                         gfp |= __GFP_COMP;
                 ret = slob_new_pages(gfp, order, node);
  
-               trace_kmalloc_node(caller, ret, NULL,
-                                  size, PAGE_SIZE << order, gfp, node);
+               trace_kmalloc(caller, ret, size, PAGE_SIZE << order, gfp, node);
         }
  
         kmemleak_alloc(ret, size, 1, gfp);
@@ -530,20 +528,12 @@ void *__kmalloc(size_t size, gfp_t gfp)
  }
  EXPORT_SYMBOL(__kmalloc);
  
-void *__kmalloc_track_caller(size_t size, gfp_t gfp, unsigned long caller)
-{
-       return __do_kmalloc_node(size, gfp, NUMA_NO_NODE, caller);
-}
-EXPORT_SYMBOL(__kmalloc_track_caller);
-
-#ifdef CONFIG_NUMA
  void *__kmalloc_node_track_caller(size_t size, gfp_t gfp,
                                         int node, unsigned long caller)
  {
         return __do_kmalloc_node(size, gfp, node, caller);
  }
  EXPORT_SYMBOL(__kmalloc_node_track_caller);
-#endif
  
  void kfree(const void *block)
  {
@@ -574,6 +564,20 @@ void kfree(const void *block)
  }
  EXPORT_SYMBOL(kfree);
  
+size_t kmalloc_size_roundup(size_t size)
+{
+       /* Short-circuit the 0 size case. */
+       if (unlikely(size == 0))
+               return 0;
+       /* Short-circuit saturated "too-large" case. */
+       if (unlikely(size == SIZE_MAX))
+               return SIZE_MAX;
+
+       return ALIGN(size, ARCH_KMALLOC_MINALIGN);
+}
+
+EXPORT_SYMBOL(kmalloc_size_roundup);
+
  /* can't use ksize for kmem_cache_alloc memory, only kmalloc */
  size_t __ksize(const void *block)
  {
@@ -594,7 +598,6 @@ size_t __ksize(const void *block)
         m = (unsigned int *)(block - align);
         return SLOB_UNITS(*m) * SLOB_UNIT;
  }
-EXPORT_SYMBOL(__ksize);
  
  int __kmem_cache_create(struct kmem_cache *c, slab_flags_t flags)
  {
@@ -602,6 +605,9 @@ int __kmem_cache_create(struct kmem_cache *c, slab_flags_t flags)
                 /* leave room for rcu footer at the end of object */
                 c->size += sizeof(struct slob_rcu);
         }
+
+       /* Actual size allocated */
+       c->size = SLOB_UNITS(c->size) * SLOB_UNIT;
         c->flags = flags;
         return 0;
  }
@@ -616,14 +622,10 @@ static void *slob_alloc_node(struct kmem_cache *c, gfp_t flags, int node)
  
         if (c->size < PAGE_SIZE) {
                 b = slob_alloc(c->size, flags, c->align, node, 0);
-               trace_kmem_cache_alloc_node(_RET_IP_, b, NULL, c->object_size,
-                                           SLOB_UNITS(c->size) * SLOB_UNIT,
-                                           flags, node);
+               trace_kmem_cache_alloc(_RET_IP_, b, c, flags, node);
         } else {
                 b = slob_new_pages(flags, get_order(c->size), node);
-               trace_kmem_cache_alloc_node(_RET_IP_, b, NULL, c->object_size,
-                                           PAGE_SIZE << get_order(c->size),
-                                           flags, node);
+               trace_kmem_cache_alloc(_RET_IP_, b, c, flags, node);
         }
  
         if (b && c->ctor) {
@@ -647,7 +649,7 @@ void *kmem_cache_alloc_lru(struct kmem_cache *cachep, struct list_lru *lru, gfp_
         return slob_alloc_node(cachep, flags, NUMA_NO_NODE);
  }
  EXPORT_SYMBOL(kmem_cache_alloc_lru);
-#ifdef CONFIG_NUMA
+
  void *__kmalloc_node(size_t size, gfp_t gfp, int node)
  {
         return __do_kmalloc_node(size, gfp, node, _RET_IP_);
@@ -659,7 +661,6 @@ void *kmem_cache_alloc_node(struct kmem_cache *cachep, gfp_t gfp, int node)
         return slob_alloc_node(cachep, gfp, node);
  }
  EXPORT_SYMBOL(kmem_cache_alloc_node);
-#endif
  
  static void __kmem_cache_free(void *b, int size)
  {
@@ -680,7 +681,7 @@ static void kmem_rcu_free(struct rcu_head *head)
  void kmem_cache_free(struct kmem_cache *c, void *b)
  {
         kmemleak_free_recursive(b, c->flags);
-       trace_kmem_cache_free(_RET_IP_, b, c->name);
+       trace_kmem_cache_free(_RET_IP_, b, c);
         if (unlikely(c->flags & SLAB_TYPESAFE_BY_RCU)) {
                 struct slob_rcu *slob_rcu;
                 slob_rcu = b + (c->size - sizeof(struct slob_rcu));
diff --git a/mm/slub.c b/mm/slub.c

index 4b98dff..2a6b3f3 100644 (file)
--- a/mm/slub.c
+++ b/mm/slub.c
@@ -50,7 +50,7 @@
   *   1. slab_mutex (Global Mutex)
   *   2. node->list_lock (Spinlock)
   *   3. kmem_cache->cpu_slab->lock (Local lock)
- *   4. slab_lock(slab) (Only on some arches or for debugging)
+ *   4. slab_lock(slab) (Only on some arches)
   *   5. object_map_lock (Only for debugging)
   *
   *   slab_mutex
@@ -64,8 +64,9 @@
   *   The slab_lock is a wrapper around the page lock, thus it is a bit
   *   spinlock.
   *
- *   The slab_lock is only used for debugging and on arches that do not
- *   have the ability to do a cmpxchg_double. It only protects:
+ *   The slab_lock is only used on arches that do not have the ability
+ *   to do a cmpxchg_double. It only protects:
+ *
   *     A. slab->freelist       -> List of free objects in a slab
   *     B. slab->inuse          -> Number of objects in use
   *     C. slab->objects        -> Number of objects in slab
@@ -94,15 +95,20 @@
   *   allocating a long series of objects that fill up slabs does not require
   *   the list lock.
   *
+ *   For debug caches, all allocations are forced to go through a list_lock
+ *   protected region to serialize against concurrent validation.
+ *
   *   cpu_slab->lock local lock
   *
   *   This locks protect slowpath manipulation of all kmem_cache_cpu fields
   *   except the stat counters. This is a percpu structure manipulated only by
   *   the local cpu, so the lock protects against being preempted or interrupted
   *   by an irq. Fast path operations rely on lockless operations instead.
- *   On PREEMPT_RT, the local lock does not actually disable irqs (and thus
- *   prevent the lockless operations), so fastpath operations also need to take
- *   the lock and are no longer lockless.
+ *
+ *   On PREEMPT_RT, the local lock neither disables interrupts nor preemption
+ *   which means the lockless fastpath cannot be used as it might interfere with
+ *   an in-progress slow path operations. In this case the local lock is always
+ *   taken but it still utilizes the freelist for the common operations.
   *
   *   lockless fastpaths
   *
@@ -163,8 +169,9 @@
   * function call even on !PREEMPT_RT, use inline preempt_disable() there.
   */
  #ifndef CONFIG_PREEMPT_RT
-#define slub_get_cpu_ptr(var)  get_cpu_ptr(var)
-#define slub_put_cpu_ptr(var)  put_cpu_ptr(var)
+#define slub_get_cpu_ptr(var)          get_cpu_ptr(var)
+#define slub_put_cpu_ptr(var)          put_cpu_ptr(var)
+#define USE_LOCKLESS_FAST_PATH()       (true)
  #else
  #define slub_get_cpu_ptr(var)          \
  ({                                     \
@@ -176,6 +183,7 @@ do {                                        \
         (void)(var);                    \
         migrate_enable();               \
  } while (0)
+#define USE_LOCKLESS_FAST_PATH()       (false)
  #endif
  
  #ifdef CONFIG_SLUB_DEBUG
@@ -186,11 +194,24 @@ DEFINE_STATIC_KEY_FALSE(slub_debug_enabled);
  #endif
  #endif         /* CONFIG_SLUB_DEBUG */
  
+/* Structure holding parameters for get_partial() call chain */
+struct partial_context {
+       struct slab **slab;
+       gfp_t flags;
+       unsigned int orig_size;
+};
+
  static inline bool kmem_cache_debug(struct kmem_cache *s)
  {
         return kmem_cache_debug_flags(s, SLAB_DEBUG_FLAGS);
  }
  
+static inline bool slub_debug_orig_size(struct kmem_cache *s)
+{
+       return (kmem_cache_debug_flags(s, SLAB_STORE_USER) &&
+                       (s->flags & SLAB_KMALLOC));
+}
+
  void *fixup_red_left(struct kmem_cache *s, void *p)
  {
         if (kmem_cache_debug_flags(s, SLAB_RED_ZONE))
@@ -447,7 +468,7 @@ slub_set_cpu_partial(struct kmem_cache *s, unsigned int nr_objects)
  /*
   * Per slab locking using the pagelock
   */
-static __always_inline void __slab_lock(struct slab *slab)
+static __always_inline void slab_lock(struct slab *slab)
  {
         struct page *page = slab_page(slab);
  
@@ -455,7 +476,7 @@ static __always_inline void __slab_lock(struct slab *slab)
         bit_spin_lock(PG_locked, &page->flags);
  }
  
-static __always_inline void __slab_unlock(struct slab *slab)
+static __always_inline void slab_unlock(struct slab *slab)
  {
         struct page *page = slab_page(slab);
  
@@ -463,31 +484,19 @@ static __always_inline void __slab_unlock(struct slab *slab)
         __bit_spin_unlock(PG_locked, &page->flags);
  }
  
-static __always_inline void slab_lock(struct slab *slab, unsigned long *flags)
-{
-       if (IS_ENABLED(CONFIG_PREEMPT_RT))
-               local_irq_save(*flags);
-       __slab_lock(slab);
-}
-
-static __always_inline void slab_unlock(struct slab *slab, unsigned long *flags)
-{
-       __slab_unlock(slab);
-       if (IS_ENABLED(CONFIG_PREEMPT_RT))
-               local_irq_restore(*flags);
-}
-
  /*
   * Interrupts must be disabled (for the fallback code to work right), typically
- * by an _irqsave() lock variant. Except on PREEMPT_RT where locks are different
- * so we disable interrupts as part of slab_[un]lock().
+ * by an _irqsave() lock variant. On PREEMPT_RT the preempt_disable(), which is
+ * part of bit_spin_lock(), is sufficient because the policy is not to allow any
+ * allocation/ free operation in hardirq context. Therefore nothing can
+ * interrupt the operation.
   */
  static inline bool __cmpxchg_double_slab(struct kmem_cache *s, struct slab *slab,
                 void *freelist_old, unsigned long counters_old,
                 void *freelist_new, unsigned long counters_new,
                 const char *n)
  {
-       if (!IS_ENABLED(CONFIG_PREEMPT_RT))
+       if (USE_LOCKLESS_FAST_PATH())
                 lockdep_assert_irqs_disabled();
  #if defined(CONFIG_HAVE_CMPXCHG_DOUBLE) && \
      defined(CONFIG_HAVE_ALIGNED_STRUCT_PAGE)
@@ -499,18 +508,15 @@ static inline bool __cmpxchg_double_slab(struct kmem_cache *s, struct slab *slab
         } else
  #endif
         {
-               /* init to 0 to prevent spurious warnings */
-               unsigned long flags = 0;
-
-               slab_lock(slab, &flags);
+               slab_lock(slab);
                 if (slab->freelist == freelist_old &&
                                         slab->counters == counters_old) {
                         slab->freelist = freelist_new;
                         slab->counters = counters_new;
-                       slab_unlock(slab, &flags);
+                       slab_unlock(slab);
                         return true;
                 }
-               slab_unlock(slab, &flags);
+               slab_unlock(slab);
         }
  
         cpu_relax();
@@ -541,16 +547,16 @@ static inline bool cmpxchg_double_slab(struct kmem_cache *s, struct slab *slab,
                 unsigned long flags;
  
                 local_irq_save(flags);
-               __slab_lock(slab);
+               slab_lock(slab);
                 if (slab->freelist == freelist_old &&
                                         slab->counters == counters_old) {
                         slab->freelist = freelist_new;
                         slab->counters = counters_new;
-                       __slab_unlock(slab);
+                       slab_unlock(slab);
                         local_irq_restore(flags);
                         return true;
                 }
-               __slab_unlock(slab);
+               slab_unlock(slab);
                 local_irq_restore(flags);
         }
  
@@ -566,7 +572,7 @@ static inline bool cmpxchg_double_slab(struct kmem_cache *s, struct slab *slab,
  
  #ifdef CONFIG_SLUB_DEBUG
  static unsigned long object_map[BITS_TO_LONGS(MAX_OBJS_PER_PAGE)];
-static DEFINE_RAW_SPINLOCK(object_map_lock);
+static DEFINE_SPINLOCK(object_map_lock);
  
  static void __fill_map(unsigned long *obj_map, struct kmem_cache *s,
                        struct slab *slab)
@@ -600,30 +606,6 @@ static bool slab_add_kunit_errors(void)
  static inline bool slab_add_kunit_errors(void) { return false; }
  #endif
  
-/*
- * Determine a map of objects in use in a slab.
- *
- * Node listlock must be held to guarantee that the slab does
- * not vanish from under us.
- */
-static unsigned long *get_map(struct kmem_cache *s, struct slab *slab)
-       __acquires(&object_map_lock)
-{
-       VM_BUG_ON(!irqs_disabled());
-
-       raw_spin_lock(&object_map_lock);
-
-       __fill_map(object_map, s, slab);
-
-       return object_map;
-}
-
-static void put_map(unsigned long *map) __releases(&object_map_lock)
-{
-       VM_BUG_ON(map != object_map);
-       raw_spin_unlock(&object_map_lock);
-}
-
  static inline unsigned int size_from_object(struct kmem_cache *s)
  {
         if (s->flags & SLAB_RED_ZONE)
@@ -821,6 +803,39 @@ static void print_slab_info(const struct slab *slab)
                folio_flags(folio, 0));
  }
  
+/*
+ * kmalloc caches has fixed sizes (mostly power of 2), and kmalloc() API
+ * family will round up the real request size to these fixed ones, so
+ * there could be an extra area than what is requested. Save the original
+ * request size in the meta data area, for better debug and sanity check.
+ */
+static inline void set_orig_size(struct kmem_cache *s,
+                               void *object, unsigned int orig_size)
+{
+       void *p = kasan_reset_tag(object);
+
+       if (!slub_debug_orig_size(s))
+               return;
+
+       p += get_info_end(s);
+       p += sizeof(struct track) * 2;
+
+       *(unsigned int *)p = orig_size;
+}
+
+static inline unsigned int get_orig_size(struct kmem_cache *s, void *object)
+{
+       void *p = kasan_reset_tag(object);
+
+       if (!slub_debug_orig_size(s))
+               return s->object_size;
+
+       p += get_info_end(s);
+       p += sizeof(struct track) * 2;
+
+       return *(unsigned int *)p;
+}
+
  static void slab_bug(struct kmem_cache *s, char *fmt, ...)
  {
         struct va_format vaf;
@@ -880,6 +895,9 @@ static void print_trailer(struct kmem_cache *s, struct slab *slab, u8 *p)
         if (s->flags & SLAB_STORE_USER)
                 off += 2 * sizeof(struct track);
  
+       if (slub_debug_orig_size(s))
+               off += sizeof(unsigned int);
+
         off += kasan_metadata_size(s);
  
         if (off != size_from_object(s))
@@ -1013,7 +1031,8 @@ skip_bug_print:
   *
   *     A. Free pointer (if we cannot overwrite object on free)
   *     B. Tracking data for SLAB_STORE_USER
- *     C. Padding to reach required alignment boundary or at minimum
+ *     C. Original request size for kmalloc object (SLAB_STORE_USER enabled)
+ *     D. Padding to reach required alignment boundary or at minimum
   *             one word if debugging is on to be able to detect writes
   *             before the word boundary.
   *
@@ -1031,10 +1050,14 @@ static int check_pad_bytes(struct kmem_cache *s, struct slab *slab, u8 *p)
  {
         unsigned long off = get_info_end(s);    /* The end of info */
  
-       if (s->flags & SLAB_STORE_USER)
+       if (s->flags & SLAB_STORE_USER) {
                 /* We also have user information there */
                 off += 2 * sizeof(struct track);
  
+               if (s->flags & SLAB_KMALLOC)
+                       off += sizeof(unsigned int);
+       }
+
         off += kasan_metadata_size(s);
  
         if (size_from_object(s) == off)
@@ -1329,18 +1352,16 @@ static inline int alloc_consistency_checks(struct kmem_cache *s,
  }
  
  static noinline int alloc_debug_processing(struct kmem_cache *s,
-                                       struct slab *slab,
-                                       void *object, unsigned long addr)
+                       struct slab *slab, void *object, int orig_size)
  {
         if (s->flags & SLAB_CONSISTENCY_CHECKS) {
                 if (!alloc_consistency_checks(s, slab, object))
                         goto bad;
         }
  
-       /* Success perform special debug activities for allocs */
-       if (s->flags & SLAB_STORE_USER)
-               set_track(s, object, TRACK_ALLOC, addr);
+       /* Success. Perform special debug activities for allocs */
         trace(s, slab, object, 1);
+       set_orig_size(s, object, orig_size);
         init_object(s, object, SLUB_RED_ACTIVE);
         return 1;
  
@@ -1390,63 +1411,6 @@ static inline int free_consistency_checks(struct kmem_cache *s,
         return 1;
  }
  
-/* Supports checking bulk free of a constructed freelist */
-static noinline int free_debug_processing(
-       struct kmem_cache *s, struct slab *slab,
-       void *head, void *tail, int bulk_cnt,
-       unsigned long addr)
-{
-       struct kmem_cache_node *n = get_node(s, slab_nid(slab));
-       void *object = head;
-       int cnt = 0;
-       unsigned long flags, flags2;
-       int ret = 0;
-       depot_stack_handle_t handle = 0;
-
-       if (s->flags & SLAB_STORE_USER)
-               handle = set_track_prepare();
-
-       spin_lock_irqsave(&n->list_lock, flags);
-       slab_lock(slab, &flags2);
-
-       if (s->flags & SLAB_CONSISTENCY_CHECKS) {
-               if (!check_slab(s, slab))
-                       goto out;
-       }
-
-next_object:
-       cnt++;
-
-       if (s->flags & SLAB_CONSISTENCY_CHECKS) {
-               if (!free_consistency_checks(s, slab, object, addr))
-                       goto out;
-       }
-
-       if (s->flags & SLAB_STORE_USER)
-               set_track_update(s, object, TRACK_FREE, addr, handle);
-       trace(s, slab, object, 0);
-       /* Freepointer not overwritten by init_object(), SLAB_POISON moved it */
-       init_object(s, object, SLUB_RED_INACTIVE);
-
-       /* Reached end of constructed freelist yet? */
-       if (object != tail) {
-               object = get_freepointer(s, object);
-               goto next_object;
-       }
-       ret = 1;
-
-out:
-       if (cnt != bulk_cnt)
-               slab_err(s, slab, "Bulk freelist count(%d) invalid(%d)\n",
-                        bulk_cnt, cnt);
-
-       slab_unlock(slab, &flags2);
-       spin_unlock_irqrestore(&n->list_lock, flags);
-       if (!ret)
-               slab_fix(s, "Object at 0x%p not freed", object);
-       return ret;
-}
-
  /*
   * Parse a block of slub_debug options. Blocks are delimited by ';'
   *
@@ -1666,16 +1630,18 @@ static inline
  void setup_slab_debug(struct kmem_cache *s, struct slab *slab, void *addr) {}
  
  static inline int alloc_debug_processing(struct kmem_cache *s,
-       struct slab *slab, void *object, unsigned long addr) { return 0; }
+       struct slab *slab, void *object, int orig_size) { return 0; }
  
-static inline int free_debug_processing(
+static inline void free_debug_processing(
         struct kmem_cache *s, struct slab *slab,
         void *head, void *tail, int bulk_cnt,
-       unsigned long addr) { return 0; }
+       unsigned long addr) {}
  
  static inline void slab_pad_check(struct kmem_cache *s, struct slab *slab) {}
  static inline int check_object(struct kmem_cache *s, struct slab *slab,
                         void *object, u8 val) { return 1; }
+static inline void set_track(struct kmem_cache *s, void *object,
+                            enum track_item alloc, unsigned long addr) {}
  static inline void add_full(struct kmem_cache *s, struct kmem_cache_node *n,
                                         struct slab *slab) {}
  static inline void remove_full(struct kmem_cache *s, struct kmem_cache_node *n,
@@ -1709,20 +1675,6 @@ static bool freelist_corrupted(struct kmem_cache *s, struct slab *slab,
   * Hooks for other subsystems that check memory allocations. In a typical
   * production configuration these hooks all should produce no code at all.
   */
-static inline void *kmalloc_large_node_hook(void *ptr, size_t size, gfp_t flags)
-{
-       ptr = kasan_kmalloc_large(ptr, size, flags);
-       /* As ptr might get tagged, call kmemleak hook after KASAN. */
-       kmemleak_alloc(ptr, size, 1, flags);
-       return ptr;
-}
-
-static __always_inline void kfree_hook(void *x)
-{
-       kmemleak_free(x);
-       kasan_kfree_large(x);
-}
-
  static __always_inline bool slab_free_hook(struct kmem_cache *s,
                                                 void *x, bool init)
  {
@@ -1981,11 +1933,13 @@ static struct slab *allocate_slab(struct kmem_cache *s, gfp_t flags, int node)
                  */
                 slab = alloc_slab_page(alloc_gfp, node, oo);
                 if (unlikely(!slab))
-                       goto out;
+                       return NULL;
                 stat(s, ORDER_FALLBACK);
         }
  
         slab->objects = oo_objects(oo);
+       slab->inuse = 0;
+       slab->frozen = 0;
  
         account_slab(slab, oo_order(oo), s, flags);
  
@@ -2012,15 +1966,6 @@ static struct slab *allocate_slab(struct kmem_cache *s, gfp_t flags, int node)
                 set_freepointer(s, p, NULL);
         }
  
-       slab->inuse = slab->objects;
-       slab->frozen = 1;
-
-out:
-       if (!slab)
-               return NULL;
-
-       inc_slabs_node(s, slab_nid(slab), slab->objects);
-
         return slab;
  }
  
@@ -2108,6 +2053,75 @@ static inline void remove_partial(struct kmem_cache_node *n,
  }
  
  /*
+ * Called only for kmem_cache_debug() caches instead of acquire_slab(), with a
+ * slab from the n->partial list. Remove only a single object from the slab, do
+ * the alloc_debug_processing() checks and leave the slab on the list, or move
+ * it to full list if it was the last free object.
+ */
+static void *alloc_single_from_partial(struct kmem_cache *s,
+               struct kmem_cache_node *n, struct slab *slab, int orig_size)
+{
+       void *object;
+
+       lockdep_assert_held(&n->list_lock);
+
+       object = slab->freelist;
+       slab->freelist = get_freepointer(s, object);
+       slab->inuse++;
+
+       if (!alloc_debug_processing(s, slab, object, orig_size)) {
+               remove_partial(n, slab);
+               return NULL;
+       }
+
+       if (slab->inuse == slab->objects) {
+               remove_partial(n, slab);
+               add_full(s, n, slab);
+       }
+
+       return object;
+}
+
+/*
+ * Called only for kmem_cache_debug() caches to allocate from a freshly
+ * allocated slab. Allocate a single object instead of whole freelist
+ * and put the slab to the partial (or full) list.
+ */
+static void *alloc_single_from_new_slab(struct kmem_cache *s,
+                                       struct slab *slab, int orig_size)
+{
+       int nid = slab_nid(slab);
+       struct kmem_cache_node *n = get_node(s, nid);
+       unsigned long flags;
+       void *object;
+
+
+       object = slab->freelist;
+       slab->freelist = get_freepointer(s, object);
+       slab->inuse = 1;
+
+       if (!alloc_debug_processing(s, slab, object, orig_size))
+               /*
+                * It's not really expected that this would fail on a
+                * freshly allocated slab, but a concurrent memory
+                * corruption in theory could cause that.
+                */
+               return NULL;
+
+       spin_lock_irqsave(&n->list_lock, flags);
+
+       if (slab->inuse == slab->objects)
+               add_full(s, n, slab);
+       else
+               add_partial(n, slab, DEACTIVATE_TO_HEAD);
+
+       inc_slabs_node(s, nid, slab->objects);
+       spin_unlock_irqrestore(&n->list_lock, flags);
+
+       return object;
+}
+
+/*
   * Remove slab from the partial list, freeze it and
   * return the pointer to the freelist.
   *
@@ -2164,7 +2178,7 @@ static inline bool pfmemalloc_match(struct slab *slab, gfp_t gfpflags);
   * Try to allocate a partial slab from a specific node.
   */
  static void *get_partial_node(struct kmem_cache *s, struct kmem_cache_node *n,
-                             struct slab **ret_slab, gfp_t gfpflags)
+                             struct partial_context *pc)
  {
         struct slab *slab, *slab2;
         void *object = NULL;
@@ -2184,15 +2198,23 @@ static void *get_partial_node(struct kmem_cache *s, struct kmem_cache_node *n,
         list_for_each_entry_safe(slab, slab2, &n->partial, slab_list) {
                 void *t;
  
-               if (!pfmemalloc_match(slab, gfpflags))
+               if (!pfmemalloc_match(slab, pc->flags))
                         continue;
  
+               if (kmem_cache_debug(s)) {
+                       object = alloc_single_from_partial(s, n, slab,
+                                                       pc->orig_size);
+                       if (object)
+                               break;
+                       continue;
+               }
+
                 t = acquire_slab(s, n, slab, object == NULL);
                 if (!t)
                         break;
  
                 if (!object) {
-                       *ret_slab = slab;
+                       *pc->slab = slab;
                         stat(s, ALLOC_FROM_PARTIAL);
                         object = t;
                 } else {
@@ -2216,14 +2238,13 @@ static void *get_partial_node(struct kmem_cache *s, struct kmem_cache_node *n,
  /*
   * Get a slab from somewhere. Search in increasing NUMA distances.
   */
-static void *get_any_partial(struct kmem_cache *s, gfp_t flags,
-                            struct slab **ret_slab)
+static void *get_any_partial(struct kmem_cache *s, struct partial_context *pc)
  {
  #ifdef CONFIG_NUMA
         struct zonelist *zonelist;
         struct zoneref *z;
         struct zone *zone;
-       enum zone_type highest_zoneidx = gfp_zone(flags);
+       enum zone_type highest_zoneidx = gfp_zone(pc->flags);
         void *object;
         unsigned int cpuset_mems_cookie;
  
@@ -2251,15 +2272,15 @@ static void *get_any_partial(struct kmem_cache *s, gfp_t flags,
  
         do {
                 cpuset_mems_cookie = read_mems_allowed_begin();
-               zonelist = node_zonelist(mempolicy_slab_node(), flags);
+               zonelist = node_zonelist(mempolicy_slab_node(), pc->flags);
                 for_each_zone_zonelist(zone, z, zonelist, highest_zoneidx) {
                         struct kmem_cache_node *n;
  
                         n = get_node(s, zone_to_nid(zone));
  
-                       if (n && cpuset_zone_allowed(zone, flags) &&
+                       if (n && cpuset_zone_allowed(zone, pc->flags) &&
                                         n->nr_partial > s->min_partial) {
-                               object = get_partial_node(s, n, ret_slab, flags);
+                               object = get_partial_node(s, n, pc);
                                 if (object) {
                                         /*
                                          * Don't check read_mems_allowed_retry()
@@ -2280,8 +2301,7 @@ static void *get_any_partial(struct kmem_cache *s, gfp_t flags,
  /*
   * Get a partial slab, lock it and return it.
   */
-static void *get_partial(struct kmem_cache *s, gfp_t flags, int node,
-                        struct slab **ret_slab)
+static void *get_partial(struct kmem_cache *s, int node, struct partial_context *pc)
  {
         void *object;
         int searchnode = node;
@@ -2289,11 +2309,11 @@ static void *get_partial(struct kmem_cache *s, gfp_t flags, int node,
         if (node == NUMA_NO_NODE)
                 searchnode = numa_mem_id();
  
-       object = get_partial_node(s, get_node(s, searchnode), ret_slab, flags);
+       object = get_partial_node(s, get_node(s, searchnode), pc);
         if (object || node != NUMA_NO_NODE)
                 return object;
  
-       return get_any_partial(s, flags, ret_slab);
+       return get_any_partial(s, pc);
  }
  
  #ifdef CONFIG_PREEMPTION
@@ -2793,6 +2813,113 @@ static inline unsigned long node_nr_objs(struct kmem_cache_node *n)
  {
         return atomic_long_read(&n->total_objects);
  }
+
+/* Supports checking bulk free of a constructed freelist */
+static noinline void free_debug_processing(
+       struct kmem_cache *s, struct slab *slab,
+       void *head, void *tail, int bulk_cnt,
+       unsigned long addr)
+{
+       struct kmem_cache_node *n = get_node(s, slab_nid(slab));
+       struct slab *slab_free = NULL;
+       void *object = head;
+       int cnt = 0;
+       unsigned long flags;
+       bool checks_ok = false;
+       depot_stack_handle_t handle = 0;
+
+       if (s->flags & SLAB_STORE_USER)
+               handle = set_track_prepare();
+
+       spin_lock_irqsave(&n->list_lock, flags);
+
+       if (s->flags & SLAB_CONSISTENCY_CHECKS) {
+               if (!check_slab(s, slab))
+                       goto out;
+       }
+
+       if (slab->inuse < bulk_cnt) {
+               slab_err(s, slab, "Slab has %d allocated objects but %d are to be freed\n",
+                        slab->inuse, bulk_cnt);
+               goto out;
+       }
+
+next_object:
+
+       if (++cnt > bulk_cnt)
+               goto out_cnt;
+
+       if (s->flags & SLAB_CONSISTENCY_CHECKS) {
+               if (!free_consistency_checks(s, slab, object, addr))
+                       goto out;
+       }
+
+       if (s->flags & SLAB_STORE_USER)
+               set_track_update(s, object, TRACK_FREE, addr, handle);
+       trace(s, slab, object, 0);
+       /* Freepointer not overwritten by init_object(), SLAB_POISON moved it */
+       init_object(s, object, SLUB_RED_INACTIVE);
+
+       /* Reached end of constructed freelist yet? */
+       if (object != tail) {
+               object = get_freepointer(s, object);
+               goto next_object;
+       }
+       checks_ok = true;
+
+out_cnt:
+       if (cnt != bulk_cnt)
+               slab_err(s, slab, "Bulk free expected %d objects but found %d\n",
+                        bulk_cnt, cnt);
+
+out:
+       if (checks_ok) {
+               void *prior = slab->freelist;
+
+               /* Perform the actual freeing while we still hold the locks */
+               slab->inuse -= cnt;
+               set_freepointer(s, tail, prior);
+               slab->freelist = head;
+
+               /*
+                * If the slab is empty, and node's partial list is full,
+                * it should be discarded anyway no matter it's on full or
+                * partial list.
+                */
+               if (slab->inuse == 0 && n->nr_partial >= s->min_partial)
+                       slab_free = slab;
+
+               if (!prior) {
+                       /* was on full list */
+                       remove_full(s, n, slab);
+                       if (!slab_free) {
+                               add_partial(n, slab, DEACTIVATE_TO_TAIL);
+                               stat(s, FREE_ADD_PARTIAL);
+                       }
+               } else if (slab_free) {
+                       remove_partial(n, slab);
+                       stat(s, FREE_REMOVE_PARTIAL);
+               }
+       }
+
+       if (slab_free) {
+               /*
+                * Update the counters while still holding n->list_lock to
+                * prevent spurious validation warnings
+                */
+               dec_slabs_node(s, slab_nid(slab_free), slab_free->objects);
+       }
+
+       spin_unlock_irqrestore(&n->list_lock, flags);
+
+       if (!checks_ok)
+               slab_fix(s, "Object at 0x%p not freed", object);
+
+       if (slab_free) {
+               stat(s, FREE_SLAB);
+               free_slab(s, slab_free);
+       }
+}
  #endif /* CONFIG_SLUB_DEBUG */
  
  #if defined(CONFIG_SLUB_DEBUG) || defined(CONFIG_SYSFS)
@@ -2910,11 +3037,12 @@ static inline void *get_freelist(struct kmem_cache *s, struct slab *slab)
   * already disabled (which is the case for bulk allocation).
   */
  static void *___slab_alloc(struct kmem_cache *s, gfp_t gfpflags, int node,
-                         unsigned long addr, struct kmem_cache_cpu *c)
+                         unsigned long addr, struct kmem_cache_cpu *c, unsigned int orig_size)
  {
         void *freelist;
         struct slab *slab;
         unsigned long flags;
+       struct partial_context pc;
  
         stat(s, ALLOC_SLOWPATH);
  
@@ -3028,7 +3156,10 @@ new_slab:
  
  new_objects:
  
-       freelist = get_partial(s, gfpflags, node, &slab);
+       pc.flags = gfpflags;
+       pc.slab = &slab;
+       pc.orig_size = orig_size;
+       freelist = get_partial(s, node, &pc);
         if (freelist)
                 goto check_new_slab;
  
@@ -3041,36 +3172,53 @@ new_objects:
                 return NULL;
         }
  
+       stat(s, ALLOC_SLAB);
+
+       if (kmem_cache_debug(s)) {
+               freelist = alloc_single_from_new_slab(s, slab, orig_size);
+
+               if (unlikely(!freelist))
+                       goto new_objects;
+
+               if (s->flags & SLAB_STORE_USER)
+                       set_track(s, freelist, TRACK_ALLOC, addr);
+
+               return freelist;
+       }
+
         /*
          * No other reference to the slab yet so we can
          * muck around with it freely without cmpxchg
          */
         freelist = slab->freelist;
         slab->freelist = NULL;
+       slab->inuse = slab->objects;
+       slab->frozen = 1;
  
-       stat(s, ALLOC_SLAB);
+       inc_slabs_node(s, slab_nid(slab), slab->objects);
  
  check_new_slab:
  
         if (kmem_cache_debug(s)) {
-               if (!alloc_debug_processing(s, slab, freelist, addr)) {
-                       /* Slab failed checks. Next slab needed */
-                       goto new_slab;
-               } else {
-                       /*
-                        * For debug case, we don't load freelist so that all
-                        * allocations go through alloc_debug_processing()
-                        */
-                       goto return_single;
-               }
+               /*
+                * For debug caches here we had to go through
+                * alloc_single_from_partial() so just store the tracking info
+                * and return the object
+                */
+               if (s->flags & SLAB_STORE_USER)
+                       set_track(s, freelist, TRACK_ALLOC, addr);
+
+               return freelist;
         }
  
-       if (unlikely(!pfmemalloc_match(slab, gfpflags)))
+       if (unlikely(!pfmemalloc_match(slab, gfpflags))) {
                 /*
                  * For !pfmemalloc_match() case we don't load freelist so that
                  * we don't make further mismatched allocations easier.
                  */
-               goto return_single;
+               deactivate_slab(s, slab, get_freepointer(s, freelist));
+               return freelist;
+       }
  
  retry_load_slab:
  
@@ -3094,11 +3242,6 @@ retry_load_slab:
         c->slab = slab;
  
         goto load_freelist;
-
-return_single:
-
-       deactivate_slab(s, slab, get_freepointer(s, freelist));
-       return freelist;
  }
  
  /*
@@ -3107,7 +3250,7 @@ return_single:
   * pointer.
   */
  static void *__slab_alloc(struct kmem_cache *s, gfp_t gfpflags, int node,
-                         unsigned long addr, struct kmem_cache_cpu *c)
+                         unsigned long addr, struct kmem_cache_cpu *c, unsigned int orig_size)
  {
         void *p;
  
@@ -3120,7 +3263,7 @@ static void *__slab_alloc(struct kmem_cache *s, gfp_t gfpflags, int node,
         c = slub_get_cpu_ptr(s->cpu_slab);
  #endif
  
-       p = ___slab_alloc(s, gfpflags, node, addr, c);
+       p = ___slab_alloc(s, gfpflags, node, addr, c, orig_size);
  #ifdef CONFIG_PREEMPT_COUNT
         slub_put_cpu_ptr(s->cpu_slab);
  #endif
@@ -3202,16 +3345,10 @@ redo:
  
         object = c->freelist;
         slab = c->slab;
-       /*
-        * We cannot use the lockless fastpath on PREEMPT_RT because if a
-        * slowpath has taken the local_lock_irqsave(), it is not protected
-        * against a fast path operation in an irq handler. So we need to take
-        * the slow path which uses local_lock. It is still relatively fast if
-        * there is a suitable cpu freelist.
-        */
-       if (IS_ENABLED(CONFIG_PREEMPT_RT) ||
+
+       if (!USE_LOCKLESS_FAST_PATH() ||
             unlikely(!object || !slab || !node_match(slab, node))) {
-               object = __slab_alloc(s, gfpflags, node, addr, c);
+               object = __slab_alloc(s, gfpflags, node, addr, c, orig_size);
         } else {
                 void *next_object = get_freepointer_safe(s, object);
  
@@ -3262,8 +3399,7 @@ void *__kmem_cache_alloc_lru(struct kmem_cache *s, struct list_lru *lru,
  {
         void *ret = slab_alloc(s, lru, gfpflags, _RET_IP_, s->object_size);
  
-       trace_kmem_cache_alloc(_RET_IP_, ret, s, s->object_size,
-                               s->size, gfpflags);
+       trace_kmem_cache_alloc(_RET_IP_, ret, s, gfpflags, NUMA_NO_NODE);
  
         return ret;
  }
@@ -3281,46 +3417,24 @@ void *kmem_cache_alloc_lru(struct kmem_cache *s, struct list_lru *lru,
  }
  EXPORT_SYMBOL(kmem_cache_alloc_lru);
  
-#ifdef CONFIG_TRACING
-void *kmem_cache_alloc_trace(struct kmem_cache *s, gfp_t gfpflags, size_t size)
+void *__kmem_cache_alloc_node(struct kmem_cache *s, gfp_t gfpflags,
+                             int node, size_t orig_size,
+                             unsigned long caller)
  {
-       void *ret = slab_alloc(s, NULL, gfpflags, _RET_IP_, size);
-       trace_kmalloc(_RET_IP_, ret, s, size, s->size, gfpflags);
-       ret = kasan_kmalloc(s, ret, size, gfpflags);
-       return ret;
+       return slab_alloc_node(s, NULL, gfpflags, node,
+                              caller, orig_size);
  }
-EXPORT_SYMBOL(kmem_cache_alloc_trace);
-#endif
  
-#ifdef CONFIG_NUMA
  void *kmem_cache_alloc_node(struct kmem_cache *s, gfp_t gfpflags, int node)
  {
         void *ret = slab_alloc_node(s, NULL, gfpflags, node, _RET_IP_, s->object_size);
  
-       trace_kmem_cache_alloc_node(_RET_IP_, ret, s,
-                                   s->object_size, s->size, gfpflags, node);
+       trace_kmem_cache_alloc(_RET_IP_, ret, s, gfpflags, node);
  
         return ret;
  }
  EXPORT_SYMBOL(kmem_cache_alloc_node);
  
-#ifdef CONFIG_TRACING
-void *kmem_cache_alloc_node_trace(struct kmem_cache *s,
-                                   gfp_t gfpflags,
-                                   int node, size_t size)
-{
-       void *ret = slab_alloc_node(s, NULL, gfpflags, node, _RET_IP_, size);
-
-       trace_kmalloc_node(_RET_IP_, ret, s,
-                          size, s->size, gfpflags, node);
-
-       ret = kasan_kmalloc(s, ret, size, gfpflags);
-       return ret;
-}
-EXPORT_SYMBOL(kmem_cache_alloc_node_trace);
-#endif
-#endif /* CONFIG_NUMA */
-
  /*
   * Slow path handling. This may still be called frequently since objects
   * have a longer lifetime than the cpu slabs in most processing loads.
@@ -3346,9 +3460,10 @@ static void __slab_free(struct kmem_cache *s, struct slab *slab,
         if (kfence_free(head))
                 return;
  
-       if (kmem_cache_debug(s) &&
-           !free_debug_processing(s, slab, head, tail, cnt, addr))
+       if (kmem_cache_debug(s)) {
+               free_debug_processing(s, slab, head, tail, cnt, addr);
                 return;
+       }
  
         do {
                 if (unlikely(n)) {
@@ -3468,6 +3583,7 @@ static __always_inline void do_slab_free(struct kmem_cache *s,
         void *tail_obj = tail ? : head;
         struct kmem_cache_cpu *c;
         unsigned long tid;
+       void **freelist;
  
  redo:
         /*
@@ -3482,9 +3598,13 @@ redo:
         /* Same with comment on barrier() in slab_alloc_node() */
         barrier();
  
-       if (likely(slab == c->slab)) {
-#ifndef CONFIG_PREEMPT_RT
-               void **freelist = READ_ONCE(c->freelist);
+       if (unlikely(slab != c->slab)) {
+               __slab_free(s, slab, head, tail_obj, cnt, addr);
+               return;
+       }
+
+       if (USE_LOCKLESS_FAST_PATH()) {
+               freelist = READ_ONCE(c->freelist);
  
                 set_freepointer(s, tail_obj, freelist);
  
@@ -3496,16 +3616,8 @@ redo:
                         note_cmpxchg_failure("slab_free", s, tid);
                         goto redo;
                 }
-#else /* CONFIG_PREEMPT_RT */
-               /*
-                * We cannot use the lockless fastpath on PREEMPT_RT because if
-                * a slowpath has taken the local_lock_irqsave(), it is not
-                * protected against a fast path operation in an irq handler. So
-                * we need to take the local_lock. We shouldn't simply defer to
-                * __slab_free() as that wouldn't use the cpu freelist at all.
-                */
-               void **freelist;
-
+       } else {
+               /* Update the free list under the local lock */
                 local_lock(&s->cpu_slab->lock);
                 c = this_cpu_ptr(s->cpu_slab);
                 if (unlikely(slab != c->slab)) {
@@ -3520,11 +3632,8 @@ redo:
                 c->tid = next_tid(tid);
  
                 local_unlock(&s->cpu_slab->lock);
-#endif
-               stat(s, FREE_FASTPATH);
-       } else
-               __slab_free(s, slab, head, tail_obj, cnt, addr);
-
+       }
+       stat(s, FREE_FASTPATH);
  }
  
  static __always_inline void slab_free(struct kmem_cache *s, struct slab *slab,
@@ -3547,12 +3656,17 @@ void ___cache_free(struct kmem_cache *cache, void *x, unsigned long addr)
  }
  #endif
  
+void __kmem_cache_free(struct kmem_cache *s, void *x, unsigned long caller)
+{
+       slab_free(s, virt_to_slab(x), x, NULL, &x, 1, caller);
+}
+
  void kmem_cache_free(struct kmem_cache *s, void *x)
  {
         s = cache_from_obj(s, x);
         if (!s)
                 return;
-       trace_kmem_cache_free(_RET_IP_, x, s->name);
+       trace_kmem_cache_free(_RET_IP_, x, s);
         slab_free(s, virt_to_slab(x), x, NULL, &x, 1, _RET_IP_);
  }
  EXPORT_SYMBOL(kmem_cache_free);
@@ -3565,19 +3679,6 @@ struct detached_freelist {
         struct kmem_cache *s;
  };
  
-static inline void free_large_kmalloc(struct folio *folio, void *object)
-{
-       unsigned int order = folio_order(folio);
-
-       if (WARN_ON_ONCE(order == 0))
-               pr_warn_once("object pointer: 0x%p\n", object);
-
-       kfree_hook(object);
-       mod_lruvec_page_state(folio_page(folio, 0), NR_SLAB_UNRECLAIMABLE_B,
-                             -(PAGE_SIZE << order));
-       __free_pages(folio_page(folio, 0), order);
-}
-
  /*
   * This function progressively scans the array with free objects (with
   * a limited look ahead) and extract objects belonging to the same
@@ -3714,7 +3815,7 @@ int kmem_cache_alloc_bulk(struct kmem_cache *s, gfp_t flags, size_t size,
                          * of re-populating per CPU c->freelist
                          */
                         p[i] = ___slab_alloc(s, flags, NUMA_NO_NODE,
-                                           _RET_IP_, c);
+                                           _RET_IP_, c, s->object_size);
                         if (unlikely(!p[i]))
                                 goto error;
  
@@ -3941,6 +4042,7 @@ static void early_kmem_cache_node_alloc(int node)
         slab = new_slab(kmem_cache_node, GFP_NOWAIT, node);
  
         BUG_ON(!slab);
+       inc_slabs_node(kmem_cache_node, slab_nid(slab), slab->objects);
         if (slab_nid(slab) != node) {
                 pr_err("SLUB: Unable to allocate memory from node %d\n", node);
                 pr_err("SLUB: Allocating a useless per node structure in order to be able to continue\n");
@@ -3955,7 +4057,6 @@ static void early_kmem_cache_node_alloc(int node)
         n = kasan_slab_alloc(kmem_cache_node, n, GFP_KERNEL, false);
         slab->freelist = get_freepointer(kmem_cache_node, n);
         slab->inuse = 1;
-       slab->frozen = 0;
         kmem_cache_node->node[node] = n;
         init_kmem_cache_node(n);
         inc_slabs_node(kmem_cache_node, node, slab->objects);
@@ -4117,12 +4218,17 @@ static int calculate_sizes(struct kmem_cache *s)
         }
  
  #ifdef CONFIG_SLUB_DEBUG
-       if (flags & SLAB_STORE_USER)
+       if (flags & SLAB_STORE_USER) {
                 /*
                  * Need to store information about allocs and frees after
                  * the object.
                  */
                 size += 2 * sizeof(struct track);
+
+               /* Save the original kmalloc request size */
+               if (flags & SLAB_KMALLOC)
+                       size += sizeof(unsigned int);
+       }
  #endif
  
         kasan_cache_create(s, &size, &s->flags);
@@ -4242,23 +4348,21 @@ static void list_slab_objects(struct kmem_cache *s, struct slab *slab,
  {
  #ifdef CONFIG_SLUB_DEBUG
         void *addr = slab_address(slab);
-       unsigned long flags;
-       unsigned long *map;
         void *p;
  
         slab_err(s, slab, text, s->name);
-       slab_lock(slab, &flags);
  
-       map = get_map(s, slab);
+       spin_lock(&object_map_lock);
+       __fill_map(object_map, s, slab);
+
         for_each_object(p, s, addr, slab->objects) {
  
-               if (!test_bit(__obj_to_index(s, addr, p), map)) {
+               if (!test_bit(__obj_to_index(s, addr, p), object_map)) {
                         pr_err("Object 0x%p @offset=%tu\n", p, p - addr);
                         print_tracking(s, p);
                 }
         }
-       put_map(map);
-       slab_unlock(slab, &flags);
+       spin_unlock(&object_map_lock);
  #endif
  }
  
@@ -4409,78 +4513,6 @@ static int __init setup_slub_min_objects(char *str)
  
  __setup("slub_min_objects=", setup_slub_min_objects);
  
-void *__kmalloc(size_t size, gfp_t flags)
-{
-       struct kmem_cache *s;
-       void *ret;
-
-       if (unlikely(size > KMALLOC_MAX_CACHE_SIZE))
-               return kmalloc_large(size, flags);
-
-       s = kmalloc_slab(size, flags);
-
-       if (unlikely(ZERO_OR_NULL_PTR(s)))
-               return s;
-
-       ret = slab_alloc(s, NULL, flags, _RET_IP_, size);
-
-       trace_kmalloc(_RET_IP_, ret, s, size, s->size, flags);
-
-       ret = kasan_kmalloc(s, ret, size, flags);
-
-       return ret;
-}
-EXPORT_SYMBOL(__kmalloc);
-
-#ifdef CONFIG_NUMA
-static void *kmalloc_large_node(size_t size, gfp_t flags, int node)
-{
-       struct page *page;
-       void *ptr = NULL;
-       unsigned int order = get_order(size);
-
-       flags |= __GFP_COMP;
-       page = alloc_pages_node(node, flags, order);
-       if (page) {
-               ptr = page_address(page);
-               mod_lruvec_page_state(page, NR_SLAB_UNRECLAIMABLE_B,
-                                     PAGE_SIZE << order);
-       }
-
-       return kmalloc_large_node_hook(ptr, size, flags);
-}
-
-void *__kmalloc_node(size_t size, gfp_t flags, int node)
-{
-       struct kmem_cache *s;
-       void *ret;
-
-       if (unlikely(size > KMALLOC_MAX_CACHE_SIZE)) {
-               ret = kmalloc_large_node(size, flags, node);
-
-               trace_kmalloc_node(_RET_IP_, ret, NULL,
-                                  size, PAGE_SIZE << get_order(size),
-                                  flags, node);
-
-               return ret;
-       }
-
-       s = kmalloc_slab(size, flags);
-
-       if (unlikely(ZERO_OR_NULL_PTR(s)))
-               return s;
-
-       ret = slab_alloc_node(s, NULL, flags, node, _RET_IP_, size);
-
-       trace_kmalloc_node(_RET_IP_, ret, s, size, s->size, flags, node);
-
-       ret = kasan_kmalloc(s, ret, size, flags);
-
-       return ret;
-}
-EXPORT_SYMBOL(__kmalloc_node);
-#endif /* CONFIG_NUMA */
-
  #ifdef CONFIG_HARDENED_USERCOPY
  /*
   * Rejects incorrectly sized objects and objects that are to be copied
@@ -4531,43 +4563,6 @@ void __check_heap_object(const void *ptr, unsigned long n,
  }
  #endif /* CONFIG_HARDENED_USERCOPY */
  
-size_t __ksize(const void *object)
-{
-       struct folio *folio;
-
-       if (unlikely(object == ZERO_SIZE_PTR))
-               return 0;
-
-       folio = virt_to_folio(object);
-
-       if (unlikely(!folio_test_slab(folio)))
-               return folio_size(folio);
-
-       return slab_ksize(folio_slab(folio)->slab_cache);
-}
-EXPORT_SYMBOL(__ksize);
-
-void kfree(const void *x)
-{
-       struct folio *folio;
-       struct slab *slab;
-       void *object = (void *)x;
-
-       trace_kfree(_RET_IP_, x);
-
-       if (unlikely(ZERO_OR_NULL_PTR(x)))
-               return;
-
-       folio = virt_to_folio(x);
-       if (unlikely(!folio_test_slab(folio))) {
-               free_large_kmalloc(folio, object);
-               return;
-       }
-       slab = folio_slab(folio);
-       slab_free(slab->slab_cache, slab, object, NULL, &object, 1, _RET_IP_);
-}
-EXPORT_SYMBOL(kfree);
-
  #define SHRINK_PROMOTE_MAX 32
  
  /*
@@ -4616,6 +4611,7 @@ static int __kmem_cache_do_shrink(struct kmem_cache *s)
                         if (free == slab->objects) {
                                 list_move(&slab->slab_list, &discard);
                                 n->nr_partial--;
+                               dec_slabs_node(s, node, slab->objects);
                         } else if (free <= SHRINK_PROMOTE_MAX)
                                 list_move(&slab->slab_list, promote + free - 1);
                 }
@@ -4631,7 +4627,7 @@ static int __kmem_cache_do_shrink(struct kmem_cache *s)
  
                 /* Release empty slabs */
                 list_for_each_entry_safe(slab, t, &discard, slab_list)
-                       discard_slab(s, slab);
+                       free_slab(s, slab);
  
                 if (slabs_node(s, node))
                         ret = 1;
@@ -4915,64 +4911,6 @@ int __kmem_cache_create(struct kmem_cache *s, slab_flags_t flags)
         return 0;
  }
  
-void *__kmalloc_track_caller(size_t size, gfp_t gfpflags, unsigned long caller)
-{
-       struct kmem_cache *s;
-       void *ret;
-
-       if (unlikely(size > KMALLOC_MAX_CACHE_SIZE))
-               return kmalloc_large(size, gfpflags);
-
-       s = kmalloc_slab(size, gfpflags);
-
-       if (unlikely(ZERO_OR_NULL_PTR(s)))
-               return s;
-
-       ret = slab_alloc(s, NULL, gfpflags, caller, size);
-
-       /* Honor the call site pointer we received. */
-       trace_kmalloc(caller, ret, s, size, s->size, gfpflags);
-
-       ret = kasan_kmalloc(s, ret, size, gfpflags);
-
-       return ret;
-}
-EXPORT_SYMBOL(__kmalloc_track_caller);
-
-#ifdef CONFIG_NUMA
-void *__kmalloc_node_track_caller(size_t size, gfp_t gfpflags,
-                                       int node, unsigned long caller)
-{
-       struct kmem_cache *s;
-       void *ret;
-
-       if (unlikely(size > KMALLOC_MAX_CACHE_SIZE)) {
-               ret = kmalloc_large_node(size, gfpflags, node);
-
-               trace_kmalloc_node(caller, ret, NULL,
-                                  size, PAGE_SIZE << get_order(size),
-                                  gfpflags, node);
-
-               return ret;
-       }
-
-       s = kmalloc_slab(size, gfpflags);
-
-       if (unlikely(ZERO_OR_NULL_PTR(s)))
-               return s;
-
-       ret = slab_alloc_node(s, NULL, gfpflags, node, caller, size);
-
-       /* Honor the call site pointer we received. */
-       trace_kmalloc_node(caller, ret, s, size, s->size, gfpflags, node);
-
-       ret = kasan_kmalloc(s, ret, size, gfpflags);
-
-       return ret;
-}
-EXPORT_SYMBOL(__kmalloc_node_track_caller);
-#endif
-
  #ifdef CONFIG_SYSFS
  static int count_inuse(struct slab *slab)
  {
@@ -4991,12 +4929,9 @@ static void validate_slab(struct kmem_cache *s, struct slab *slab,
  {
         void *p;
         void *addr = slab_address(slab);
-       unsigned long flags;
-
-       slab_lock(slab, &flags);
  
         if (!check_slab(s, slab) || !on_freelist(s, slab, NULL))
-               goto unlock;
+               return;
  
         /* Now we know that a valid freelist exists */
         __fill_map(obj_map, s, slab);
@@ -5007,8 +4942,6 @@ static void validate_slab(struct kmem_cache *s, struct slab *slab,
                 if (!check_object(s, slab, p, val))
                         break;
         }
-unlock:
-       slab_unlock(slab, &flags);
  }
  
  static int validate_slab_node(struct kmem_cache *s,
@@ -5079,6 +5012,7 @@ struct location {
         depot_stack_handle_t handle;
         unsigned long count;
         unsigned long addr;
+       unsigned long waste;
         long long sum_time;
         long min_time;
         long max_time;
@@ -5125,13 +5059,15 @@ static int alloc_loc_track(struct loc_track *t, unsigned long max, gfp_t flags)
  }
  
  static int add_location(struct loc_track *t, struct kmem_cache *s,
-                               const struct track *track)
+                               const struct track *track,
+                               unsigned int orig_size)
  {
         long start, end, pos;
         struct location *l;
-       unsigned long caddr, chandle;
+       unsigned long caddr, chandle, cwaste;
         unsigned long age = jiffies - track->when;
         depot_stack_handle_t handle = 0;
+       unsigned int waste = s->object_size - orig_size;
  
  #ifdef CONFIG_STACKDEPOT
         handle = READ_ONCE(track->handle);
@@ -5149,11 +5085,13 @@ static int add_location(struct loc_track *t, struct kmem_cache *s,
                 if (pos == end)
                         break;
  
-               caddr = t->loc[pos].addr;
-               chandle = t->loc[pos].handle;
-               if ((track->addr == caddr) && (handle == chandle)) {
+               l = &t->loc[pos];
+               caddr = l->addr;
+               chandle = l->handle;
+               cwaste = l->waste;
+               if ((track->addr == caddr) && (handle == chandle) &&
+                       (waste == cwaste)) {
  
-                       l = &t->loc[pos];
                         l->count++;
                         if (track->when) {
                                 l->sum_time += age;
@@ -5178,6 +5116,9 @@ static int add_location(struct loc_track *t, struct kmem_cache *s,
                         end = pos;
                 else if (track->addr == caddr && handle < chandle)
                         end = pos;
+               else if (track->addr == caddr && handle == chandle &&
+                               waste < cwaste)
+                       end = pos;
                 else
                         start = pos;
         }
@@ -5201,6 +5142,7 @@ static int add_location(struct loc_track *t, struct kmem_cache *s,
         l->min_pid = track->pid;
         l->max_pid = track->pid;
         l->handle = handle;
+       l->waste = waste;
         cpumask_clear(to_cpumask(l->cpus));
         cpumask_set_cpu(track->cpu, to_cpumask(l->cpus));
         nodes_clear(l->nodes);
@@ -5213,13 +5155,16 @@ static void process_slab(struct loc_track *t, struct kmem_cache *s,
                 unsigned long *obj_map)
  {
         void *addr = slab_address(slab);
+       bool is_alloc = (alloc == TRACK_ALLOC);
         void *p;
  
         __fill_map(obj_map, s, slab);
  
         for_each_object(p, s, addr, slab->objects)
                 if (!test_bit(__obj_to_index(s, addr, p), obj_map))
-                       add_location(t, s, get_track(s, p, alloc));
+                       add_location(t, s, get_track(s, p, alloc),
+                                    is_alloc ? get_orig_size(s, p) :
+                                               s->object_size);
  }
  #endif  /* CONFIG_DEBUG_FS   */
  #endif /* CONFIG_SLUB_DEBUG */
@@ -5612,7 +5557,7 @@ static ssize_t validate_store(struct kmem_cache *s,
  {
         int ret = -EINVAL;
  
-       if (buf[0] == '1') {
+       if (buf[0] == '1' && kmem_cache_debug(s)) {
                 ret = validate_slab_cache(s);
                 if (ret >= 0)
                         ret = length;
@@ -5837,7 +5782,6 @@ static ssize_t slab_attr_show(struct kobject *kobj,
  {
         struct slab_attribute *attribute;
         struct kmem_cache *s;
-       int err;
  
         attribute = to_slab_attr(attr);
         s = to_slab(kobj);
@@ -5845,9 +5789,7 @@ static ssize_t slab_attr_show(struct kobject *kobj,
         if (!attribute->show)
                 return -EIO;
  
-       err = attribute->show(s, buf);
-
-       return err;
+       return attribute->show(s, buf);
  }
  
  static ssize_t slab_attr_store(struct kobject *kobj,
@@ -5856,7 +5798,6 @@ static ssize_t slab_attr_store(struct kobject *kobj,
  {
         struct slab_attribute *attribute;
         struct kmem_cache *s;
-       int err;
  
         attribute = to_slab_attr(attr);
         s = to_slab(kobj);
@@ -5864,8 +5805,7 @@ static ssize_t slab_attr_store(struct kobject *kobj,
         if (!attribute->store)
                 return -EIO;
  
-       err = attribute->store(s, buf, len);
-       return err;
+       return attribute->store(s, buf, len);
  }
  
  static void kmem_cache_release(struct kobject *k)
@@ -5890,7 +5830,7 @@ static inline struct kset *cache_kset(struct kmem_cache *s)
         return slab_kset;
  }
  
-#define ID_STR_LENGTH 64
+#define ID_STR_LENGTH 32
  
  /* Create a unique string id for a slab cache:
   *
@@ -5924,9 +5864,12 @@ static char *create_unique_id(struct kmem_cache *s)
                 *p++ = 'A';
         if (p != name + 1)
                 *p++ = '-';
-       p += sprintf(p, "%07u", s->size);
+       p += snprintf(p, ID_STR_LENGTH - (p - name), "%07u", s->size);
  
-       BUG_ON(p > name + ID_STR_LENGTH - 1);
+       if (WARN_ON(p > name + ID_STR_LENGTH - 1)) {
+               kfree(name);
+               return ERR_PTR(-EINVAL);
+       }
         return name;
  }
  
@@ -6092,6 +6035,10 @@ static int slab_debugfs_show(struct seq_file *seq, void *v)
                 else
                         seq_puts(seq, "<not-available>");
  
+               if (l->waste)
+                       seq_printf(seq, " waste=%lu/%lu",
+                               l->count * l->waste, l->waste);
+
                 if (l->sum_time != l->min_time) {
                         seq_printf(seq, " age=%ld/%llu/%ld",
                                 l->min_time, div_u64(l->sum_time, l->count),
author	Linus Torvalds <torvalds@linux-foundation.org>
	Mon, 10 Oct 2022 17:21:22 +0000 (10:21 -0700)
committer	Linus Torvalds <torvalds@linux-foundation.org>
	Mon, 10 Oct 2022 17:21:22 +0000 (10:21 -0700)
Documentation/mm/slub.rst		patch \| blob \| history
include/linux/compiler_attributes.h		patch \| blob \| history
include/linux/compiler_types.h		patch \| blob \| history
include/linux/slab.h		patch \| blob \| history
include/trace/events/kmem.h		patch \| blob \| history
mm/kfence/report.c		patch \| blob \| history
mm/slab.c		patch \| blob \| history
mm/slab.h		patch \| blob \| history
mm/slab_common.c		patch \| blob \| history
mm/slob.c		patch \| blob \| history
mm/slub.c		patch \| blob \| history