cpu/hotplug, stop_machine: Fix stop_machine vs hotplug order
authorPeter Zijlstra <peterz@infradead.org>
Tue, 10 Dec 2019 08:34:54 +0000 (09:34 +0100)
committerGreg Kroah-Hartman <gregkh@linuxfoundation.org>
Mon, 24 Feb 2020 07:34:35 +0000 (08:34 +0100)
[ Upstream commit 45178ac0cea853fe0e405bf11e101bdebea57b15 ]

Paul reported a very sporadic, rcutorture induced, workqueue failure.
When the planets align, the workqueue rescuer's self-migrate fails and
then triggers a WARN for running a work on the wrong CPU.

Tejun then figured that set_cpus_allowed_ptr()'s stop_one_cpu() call
could be ignored! When stopper->enabled is false, stop_machine will
insta complete the work, without actually doing the work. Worse, it
will not WARN about this (we really should fix this).

It turns out there is a small window where a freshly online'ed CPU is
marked 'online' but doesn't yet have the stopper task running:

BP AP

bringup_cpu()
  __cpu_up(cpu, idle)  --> start_secondary()
...
cpu_startup_entry()
  bringup_wait_for_ap()
    wait_for_ap_thread() <--   cpuhp_online_idle()
  while (1)
    do_idle()

... available to run kthreads ...

    stop_machine_unpark()
      stopper->enable = true;

Close this by moving the stop_machine_unpark() into
cpuhp_online_idle(), such that the stopper thread is ready before we
start the idle loop and schedule.

Reported-by: "Paul E. McKenney" <paulmck@kernel.org>
Debugged-by: Tejun Heo <tj@kernel.org>
Signed-off-by: Peter Zijlstra (Intel) <peterz@infradead.org>
Tested-by: "Paul E. McKenney" <paulmck@kernel.org>
Signed-off-by: Sasha Levin <sashal@kernel.org>
kernel/cpu.c

index 8d6b8b5..2d850ea 100644 (file)
@@ -493,8 +493,7 @@ static int bringup_wait_for_ap(unsigned int cpu)
        if (WARN_ON_ONCE((!cpu_online(cpu))))
                return -ECANCELED;
 
-       /* Unpark the stopper thread and the hotplug thread of the target cpu */
-       stop_machine_unpark(cpu);
+       /* Unpark the hotplug thread of the target cpu */
        kthread_unpark(st->thread);
 
        /*
@@ -1048,8 +1047,8 @@ void notify_cpu_starting(unsigned int cpu)
 
 /*
  * Called from the idle task. Wake up the controlling task which brings the
- * stopper and the hotplug thread of the upcoming CPU up and then delegates
- * the rest of the online bringup to the hotplug thread.
+ * hotplug thread of the upcoming CPU up and then delegates the rest of the
+ * online bringup to the hotplug thread.
  */
 void cpuhp_online_idle(enum cpuhp_state state)
 {
@@ -1059,6 +1058,12 @@ void cpuhp_online_idle(enum cpuhp_state state)
        if (state != CPUHP_AP_ONLINE_IDLE)
                return;
 
+       /*
+        * Unpart the stopper thread before we start the idle loop (and start
+        * scheduling); this ensures the stopper task is always available.
+        */
+       stop_machine_unpark(smp_processor_id());
+
        st->state = CPUHP_AP_ONLINE_IDLE;
        complete_ap_thread(st, true);
 }