workqueue: fix possible pool stall bug in wq_unbind_fn()
authorLai Jiangshan <laijs@cn.fujitsu.com>
Fri, 8 Mar 2013 23:18:28 +0000 (15:18 -0800)
committerTejun Heo <tj@kernel.org>
Fri, 8 Mar 2013 23:18:28 +0000 (15:18 -0800)
commiteb2834285cf172856cd12f66892fc7467935ebed
treebf0a3125e85b7acf2dc43e0d4f82b68459e77a36
parent6dbe51c251a327e012439c4772097a13df43c5b8
workqueue: fix possible pool stall bug in wq_unbind_fn()

Since multiple pools per cpu have been introduced, wq_unbind_fn() has
a subtle bug which may theoretically stall work item processing.  The
problem is two-fold.

* wq_unbind_fn() depends on the worker executing wq_unbind_fn() itself
  to start unbound chain execution, which works fine when there was
  only single pool.  With multiple pools, only the pool which is
  running wq_unbind_fn() - the highpri one - is guaranteed to have
  such kick-off.  The other pool could stall when its busy workers
  block.

* The current code is setting WORKER_UNBIND / POOL_DISASSOCIATED of
  the two pools in succession without initiating work execution
  inbetween.  Because setting the flags requires grabbing assoc_mutex
  which is held while new workers are created, this could lead to
  stalls if a pool's manager is waiting for the previous pool's work
  items to release memory.  This is almost purely theoretical tho.

Update wq_unbind_fn() such that it sets WORKER_UNBIND /
POOL_DISASSOCIATED, goes over schedule() and explicitly kicks off
execution for a pool and then moves on to the next one.

tj: Updated comments and description.

Signed-off-by: Lai Jiangshan <laijs@cn.fujitsu.com>
Signed-off-by: Tejun Heo <tj@kernel.org>
Cc: stable@vger.kernel.org
kernel/workqueue.c