md-cluster: fix deadlock issue when add disk to an recoverying array

author Guoqing Jiang <gqjiang@suse.com>

Fri, 3 Jun 2016 03:32:04 +0000 (23:32 -0400)

committer Shaohua Li <shli@fb.com>

Fri, 3 Jun 2016 23:22:59 +0000 (16:22 -0700)
author Guoqing Jiang <gqjiang@suse.com>
Fri, 3 Jun 2016 03:32:04 +0000 (23:32 -0400)
committer Shaohua Li <shli@fb.com>
Fri, 3 Jun 2016 23:22:59 +0000 (16:22 -0700)
diff --git a/drivers/md/md.c b/drivers/md/md.c

index 866825f..25d4542 100644 (file)
--- a/drivers/md/md.c
+++ b/drivers/md/md.c
@@ -7809,6 +7809,7 @@ void md_do_sync(struct md_thread *thread)
                 if (ret)
                         goto skip;
  
+               set_bit(MD_CLUSTER_RESYNC_LOCKED, &mddev->flags);
                 if (!(test_bit(MD_RECOVERY_SYNC, &mddev->recovery) ||
                         test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery) ||
                         test_bit(MD_RECOVERY_RECOVER, &mddev->recovery))
@@ -8147,18 +8148,11 @@ void md_do_sync(struct md_thread *thread)
                 }
         }
   skip:
-       if (mddev_is_clustered(mddev) &&
-           ret == 0) {
-               /* set CHANGE_PENDING here since maybe another
-                * update is needed, so other nodes are informed */
-               set_mask_bits(&mddev->flags, 0,
-                             BIT(MD_CHANGE_PENDING) | BIT(MD_CHANGE_DEVS));
-               md_wakeup_thread(mddev->thread);
-               wait_event(mddev->sb_wait,
-                          !test_bit(MD_CHANGE_PENDING, &mddev->flags));
-               md_cluster_ops->resync_finish(mddev);
-       } else
-               set_bit(MD_CHANGE_DEVS, &mddev->flags);
+       /* set CHANGE_PENDING here since maybe another update is needed,
+        * so other nodes are informed. It should be harmless for normal
+        * raid */
+       set_mask_bits(&mddev->flags, 0,
+                     BIT(MD_CHANGE_PENDING) | BIT(MD_CHANGE_DEVS));
  
         spin_lock(&mddev->lock);
         if (!test_bit(MD_RECOVERY_INTR, &mddev->recovery)) {
@@ -8502,6 +8496,11 @@ void md_reap_sync_thread(struct mddev *mddev)
                         rdev->saved_raid_disk = -1;
  
         md_update_sb(mddev, 1);
+       /* MD_CHANGE_PENDING should be cleared by md_update_sb, so we can
+        * call resync_finish here if MD_CLUSTER_RESYNC_LOCKED is set by
+        * clustered raid */
+       if (test_and_clear_bit(MD_CLUSTER_RESYNC_LOCKED, &mddev->flags))
+               md_cluster_ops->resync_finish(mddev);
         clear_bit(MD_RECOVERY_RUNNING, &mddev->recovery);
         clear_bit(MD_RECOVERY_DONE, &mddev->recovery);
         clear_bit(MD_RECOVERY_SYNC, &mddev->recovery);
diff --git a/drivers/md/md.h b/drivers/md/md.h

index b5c4be7..03b19aa 100644 (file)
--- a/drivers/md/md.h
+++ b/drivers/md/md.h
@@ -204,6 +204,9 @@ struct mddev {
  #define MD_RELOAD_SB   7       /* Reload the superblock because another node
                                  * updated it.
                                  */
+#define MD_CLUSTER_RESYNC_LOCKED 8 /* cluster raid only, which means node
+                                   * already took resync lock, need to
+                                   * release the lock */
  
         int                             suspended;
         atomic_t                        active_io;
author	Guoqing Jiang <gqjiang@suse.com>
	Fri, 3 Jun 2016 03:32:04 +0000 (23:32 -0400)
committer	Shaohua Li <shli@fb.com>
	Fri, 3 Jun 2016 23:22:59 +0000 (16:22 -0700)
drivers/md/md.c		patch \| blob \| history
drivers/md/md.h		patch \| blob \| history