io_uring/rw: disable IOCB_DIO_CALLER_COMP
authorJens Axboe <axboe@kernel.dk>
Tue, 24 Oct 2023 20:39:06 +0000 (14:39 -0600)
committerJens Axboe <axboe@kernel.dk>
Wed, 25 Oct 2023 14:02:29 +0000 (08:02 -0600)
commit838b35bb6a89c36da07ca39520ec071d9250334d
tree598273089e020a7108b9957be3d277d96f09df0a
parent7644b1a1c9a7ae8ab99175989bfc8676055edb46
io_uring/rw: disable IOCB_DIO_CALLER_COMP

If an application does O_DIRECT writes with io_uring and the file system
supports IOCB_DIO_CALLER_COMP, then completions of the dio write side is
done from the task_work that will post the completion event for said
write as well.

Whenever a dio write is done against a file, the inode i_dio_count is
elevated. This enables other callers to use inode_dio_wait() to wait for
previous writes to complete. If we defer the full dio completion to
task_work, we are dependent on that task_work being run before the
inode i_dio_count can be decremented.

If the same task that issues io_uring dio writes with
IOCB_DIO_CALLER_COMP performs a synchronous system call that calls
inode_dio_wait(), then we can deadlock as we're blocked sleeping on
the event to become true, but not processing the completions that will
result in the inode i_dio_count being decremented.

Until we can guarantee that this is the case, then disable the deferred
caller completions.

Fixes: 099ada2c8726 ("io_uring/rw: add write support for IOCB_DIO_CALLER_COMP")
Reported-by: Andres Freund <andres@anarazel.de>
Signed-off-by: Jens Axboe <axboe@kernel.dk>
io_uring/rw.c