perf/core: Add a new PERF_EV_CAP_SIBLING event capability
authorKan Liang <kan.liang@linux.intel.com>
Thu, 23 Jul 2020 17:11:10 +0000 (10:11 -0700)
committerPeter Zijlstra <peterz@infradead.org>
Tue, 18 Aug 2020 14:34:36 +0000 (16:34 +0200)
Current perf assumes that events in a group are independent. Close an
event doesn't impact the value of the other events in the same group.
If the closed event is a member, after the event closure, other events
are still running like a group. If the closed event is a leader, other
events are running as singleton events.

Add PERF_EV_CAP_SIBLING to allow events to indicate they require being
part of a group, and when the leader dies they cannot exist
independently.

Suggested-by: Peter Zijlstra <peterz@infradead.org>
Signed-off-by: Kan Liang <kan.liang@linux.intel.com>
Signed-off-by: Peter Zijlstra (Intel) <peterz@infradead.org>
Link: https://lkml.kernel.org/r/20200723171117.9918-8-kan.liang@linux.intel.com
include/linux/perf_event.h
kernel/events/core.c

index 04a49cc..6048650 100644 (file)
@@ -576,9 +576,13 @@ typedef void (*perf_overflow_handler_t)(struct perf_event *,
  * PERF_EV_CAP_SOFTWARE: Is a software event.
  * PERF_EV_CAP_READ_ACTIVE_PKG: A CPU event (or cgroup event) that can be read
  * from any CPU in the package where it is active.
+ * PERF_EV_CAP_SIBLING: An event with this flag must be a group sibling and
+ * cannot be a group leader. If an event with this flag is detached from the
+ * group it is scheduled out and moved into an unrecoverable ERROR state.
  */
 #define PERF_EV_CAP_SOFTWARE           BIT(0)
 #define PERF_EV_CAP_READ_ACTIVE_PKG    BIT(1)
+#define PERF_EV_CAP_SIBLING            BIT(2)
 
 #define SWEVENT_HLIST_BITS             8
 #define SWEVENT_HLIST_SIZE             (1 << SWEVENT_HLIST_BITS)
index 5bfe8e3..57efe3b 100644 (file)
@@ -2133,8 +2133,24 @@ static inline struct list_head *get_event_list(struct perf_event *event)
        return event->attr.pinned ? &ctx->pinned_active : &ctx->flexible_active;
 }
 
+/*
+ * Events that have PERF_EV_CAP_SIBLING require being part of a group and
+ * cannot exist on their own, schedule them out and move them into the ERROR
+ * state. Also see _perf_event_enable(), it will not be able to recover
+ * this ERROR state.
+ */
+static inline void perf_remove_sibling_event(struct perf_event *event)
+{
+       struct perf_event_context *ctx = event->ctx;
+       struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
+
+       event_sched_out(event, cpuctx, ctx);
+       perf_event_set_state(event, PERF_EVENT_STATE_ERROR);
+}
+
 static void perf_group_detach(struct perf_event *event)
 {
+       struct perf_event *leader = event->group_leader;
        struct perf_event *sibling, *tmp;
        struct perf_event_context *ctx = event->ctx;
 
@@ -2153,7 +2169,7 @@ static void perf_group_detach(struct perf_event *event)
        /*
         * If this is a sibling, remove it from its group.
         */
-       if (event->group_leader != event) {
+       if (leader != event) {
                list_del_init(&event->sibling_list);
                event->group_leader->nr_siblings--;
                goto out;
@@ -2166,6 +2182,9 @@ static void perf_group_detach(struct perf_event *event)
         */
        list_for_each_entry_safe(sibling, tmp, &event->sibling_list, sibling_list) {
 
+               if (sibling->event_caps & PERF_EV_CAP_SIBLING)
+                       perf_remove_sibling_event(sibling);
+
                sibling->group_leader = sibling;
                list_del_init(&sibling->sibling_list);
 
@@ -2183,10 +2202,10 @@ static void perf_group_detach(struct perf_event *event)
        }
 
 out:
-       perf_event__header_size(event->group_leader);
-
-       for_each_sibling_event(tmp, event->group_leader)
+       for_each_sibling_event(tmp, leader)
                perf_event__header_size(tmp);
+
+       perf_event__header_size(leader);
 }
 
 static bool is_orphaned_event(struct perf_event *event)
@@ -2979,6 +2998,7 @@ static void _perf_event_enable(struct perf_event *event)
        raw_spin_lock_irq(&ctx->lock);
        if (event->state >= PERF_EVENT_STATE_INACTIVE ||
            event->state <  PERF_EVENT_STATE_ERROR) {
+out:
                raw_spin_unlock_irq(&ctx->lock);
                return;
        }
@@ -2990,8 +3010,16 @@ static void _perf_event_enable(struct perf_event *event)
         * has gone back into error state, as distinct from the task having
         * been scheduled away before the cross-call arrived.
         */
-       if (event->state == PERF_EVENT_STATE_ERROR)
+       if (event->state == PERF_EVENT_STATE_ERROR) {
+               /*
+                * Detached SIBLING events cannot leave ERROR state.
+                */
+               if (event->event_caps & PERF_EV_CAP_SIBLING &&
+                   event->group_leader == event)
+                       goto out;
+
                event->state = PERF_EVENT_STATE_OFF;
+       }
        raw_spin_unlock_irq(&ctx->lock);
 
        event_function_call(event, __perf_event_enable, NULL);