block: fine-granular CAP_SYS_ADMIN for Persistent Reservation
authorJingbo Xu <jefflexu@linux.alibaba.com>
Tue, 13 Jun 2023 08:40:08 +0000 (16:40 +0800)
committerJens Axboe <axboe@kernel.dk>
Tue, 20 Jun 2023 18:49:23 +0000 (12:49 -0600)
Allow of unprivileged Persistent Reservation operations on devices
if the write permission check on the device node has passed.

brw-rw---- 1 root disk 259, 0 Jun 13 07:09 /dev/nvme0n1

In the example above, the "disk" group of nvme0n1 is also allowed to
make reservations on the device even without CAP_SYS_ADMIN.

Signed-off-by: Jingbo Xu <jefflexu@linux.alibaba.com>
Reviewed-by: Christoph Hellwig <hch@lst.de>
Link: https://lore.kernel.org/r/20230613084008.93795-3-jefflexu@linux.alibaba.com
Signed-off-by: Jens Axboe <axboe@kernel.dk>
block/ioctl.c

index c752990..3be1194 100644 (file)
@@ -254,7 +254,7 @@ int blkdev_compat_ptr_ioctl(struct block_device *bdev, blk_mode_t mode,
 EXPORT_SYMBOL(blkdev_compat_ptr_ioctl);
 #endif
 
-static bool blkdev_pr_allowed(struct block_device *bdev)
+static bool blkdev_pr_allowed(struct block_device *bdev, blk_mode_t mode)
 {
        /* no sense to make reservations for partitions */
        if (bdev_is_partition(bdev))
@@ -262,17 +262,20 @@ static bool blkdev_pr_allowed(struct block_device *bdev)
 
        if (capable(CAP_SYS_ADMIN))
                return true;
-
-       return false;
+       /*
+        * Only allow unprivileged reservations if the file descriptor is open
+        * for writing.
+        */
+       return mode & BLK_OPEN_WRITE;
 }
 
-static int blkdev_pr_register(struct block_device *bdev,
+static int blkdev_pr_register(struct block_device *bdev, blk_mode_t mode,
                struct pr_registration __user *arg)
 {
        const struct pr_ops *ops = bdev->bd_disk->fops->pr_ops;
        struct pr_registration reg;
 
-       if (!blkdev_pr_allowed(bdev))
+       if (!blkdev_pr_allowed(bdev, mode))
                return -EPERM;
        if (!ops || !ops->pr_register)
                return -EOPNOTSUPP;
@@ -284,13 +287,13 @@ static int blkdev_pr_register(struct block_device *bdev,
        return ops->pr_register(bdev, reg.old_key, reg.new_key, reg.flags);
 }
 
-static int blkdev_pr_reserve(struct block_device *bdev,
+static int blkdev_pr_reserve(struct block_device *bdev, blk_mode_t mode,
                struct pr_reservation __user *arg)
 {
        const struct pr_ops *ops = bdev->bd_disk->fops->pr_ops;
        struct pr_reservation rsv;
 
-       if (!blkdev_pr_allowed(bdev))
+       if (!blkdev_pr_allowed(bdev, mode))
                return -EPERM;
        if (!ops || !ops->pr_reserve)
                return -EOPNOTSUPP;
@@ -302,13 +305,13 @@ static int blkdev_pr_reserve(struct block_device *bdev,
        return ops->pr_reserve(bdev, rsv.key, rsv.type, rsv.flags);
 }
 
-static int blkdev_pr_release(struct block_device *bdev,
+static int blkdev_pr_release(struct block_device *bdev, blk_mode_t mode,
                struct pr_reservation __user *arg)
 {
        const struct pr_ops *ops = bdev->bd_disk->fops->pr_ops;
        struct pr_reservation rsv;
 
-       if (!blkdev_pr_allowed(bdev))
+       if (!blkdev_pr_allowed(bdev, mode))
                return -EPERM;
        if (!ops || !ops->pr_release)
                return -EOPNOTSUPP;
@@ -320,13 +323,13 @@ static int blkdev_pr_release(struct block_device *bdev,
        return ops->pr_release(bdev, rsv.key, rsv.type);
 }
 
-static int blkdev_pr_preempt(struct block_device *bdev,
+static int blkdev_pr_preempt(struct block_device *bdev, blk_mode_t mode,
                struct pr_preempt __user *arg, bool abort)
 {
        const struct pr_ops *ops = bdev->bd_disk->fops->pr_ops;
        struct pr_preempt p;
 
-       if (!blkdev_pr_allowed(bdev))
+       if (!blkdev_pr_allowed(bdev, mode))
                return -EPERM;
        if (!ops || !ops->pr_preempt)
                return -EOPNOTSUPP;
@@ -338,13 +341,13 @@ static int blkdev_pr_preempt(struct block_device *bdev,
        return ops->pr_preempt(bdev, p.old_key, p.new_key, p.type, abort);
 }
 
-static int blkdev_pr_clear(struct block_device *bdev,
+static int blkdev_pr_clear(struct block_device *bdev, blk_mode_t mode,
                struct pr_clear __user *arg)
 {
        const struct pr_ops *ops = bdev->bd_disk->fops->pr_ops;
        struct pr_clear c;
 
-       if (!blkdev_pr_allowed(bdev))
+       if (!blkdev_pr_allowed(bdev, mode))
                return -EPERM;
        if (!ops || !ops->pr_clear)
                return -EOPNOTSUPP;
@@ -546,17 +549,17 @@ static int blkdev_common_ioctl(struct block_device *bdev, blk_mode_t mode,
        case BLKTRACETEARDOWN:
                return blk_trace_ioctl(bdev, cmd, argp);
        case IOC_PR_REGISTER:
-               return blkdev_pr_register(bdev, argp);
+               return blkdev_pr_register(bdev, mode, argp);
        case IOC_PR_RESERVE:
-               return blkdev_pr_reserve(bdev, argp);
+               return blkdev_pr_reserve(bdev, mode, argp);
        case IOC_PR_RELEASE:
-               return blkdev_pr_release(bdev, argp);
+               return blkdev_pr_release(bdev, mode, argp);
        case IOC_PR_PREEMPT:
-               return blkdev_pr_preempt(bdev, argp, false);
+               return blkdev_pr_preempt(bdev, mode, argp, false);
        case IOC_PR_PREEMPT_ABORT:
-               return blkdev_pr_preempt(bdev, argp, true);
+               return blkdev_pr_preempt(bdev, mode, argp, true);
        case IOC_PR_CLEAR:
-               return blkdev_pr_clear(bdev, argp);
+               return blkdev_pr_clear(bdev, mode, argp);
        default:
                return -ENOIOCTLCMD;
        }