io_uring/net: zerocopy sendmsg
[platform/kernel/linux-starfive.git] / io_uring / net.c
1 // SPDX-License-Identifier: GPL-2.0
2 #include <linux/kernel.h>
3 #include <linux/errno.h>
4 #include <linux/file.h>
5 #include <linux/slab.h>
6 #include <linux/net.h>
7 #include <linux/compat.h>
8 #include <net/compat.h>
9 #include <linux/io_uring.h>
10
11 #include <uapi/linux/io_uring.h>
12
13 #include "io_uring.h"
14 #include "kbuf.h"
15 #include "alloc_cache.h"
16 #include "net.h"
17 #include "notif.h"
18 #include "rsrc.h"
19
20 #if defined(CONFIG_NET)
21 struct io_shutdown {
22         struct file                     *file;
23         int                             how;
24 };
25
26 struct io_accept {
27         struct file                     *file;
28         struct sockaddr __user          *addr;
29         int __user                      *addr_len;
30         int                             flags;
31         u32                             file_slot;
32         unsigned long                   nofile;
33 };
34
35 struct io_socket {
36         struct file                     *file;
37         int                             domain;
38         int                             type;
39         int                             protocol;
40         int                             flags;
41         u32                             file_slot;
42         unsigned long                   nofile;
43 };
44
45 struct io_connect {
46         struct file                     *file;
47         struct sockaddr __user          *addr;
48         int                             addr_len;
49 };
50
51 struct io_sr_msg {
52         struct file                     *file;
53         union {
54                 struct compat_msghdr __user     *umsg_compat;
55                 struct user_msghdr __user       *umsg;
56                 void __user                     *buf;
57         };
58         unsigned                        len;
59         unsigned                        done_io;
60         unsigned                        msg_flags;
61         u16                             flags;
62         /* initialised and used only by !msg send variants */
63         u16                             addr_len;
64         void __user                     *addr;
65         /* used only for send zerocopy */
66         struct io_kiocb                 *notif;
67 };
68
69 #define IO_APOLL_MULTI_POLLED (REQ_F_APOLL_MULTISHOT | REQ_F_POLLED)
70
71 int io_shutdown_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
72 {
73         struct io_shutdown *shutdown = io_kiocb_to_cmd(req, struct io_shutdown);
74
75         if (unlikely(sqe->off || sqe->addr || sqe->rw_flags ||
76                      sqe->buf_index || sqe->splice_fd_in))
77                 return -EINVAL;
78
79         shutdown->how = READ_ONCE(sqe->len);
80         return 0;
81 }
82
83 int io_shutdown(struct io_kiocb *req, unsigned int issue_flags)
84 {
85         struct io_shutdown *shutdown = io_kiocb_to_cmd(req, struct io_shutdown);
86         struct socket *sock;
87         int ret;
88
89         if (issue_flags & IO_URING_F_NONBLOCK)
90                 return -EAGAIN;
91
92         sock = sock_from_file(req->file);
93         if (unlikely(!sock))
94                 return -ENOTSOCK;
95
96         ret = __sys_shutdown_sock(sock, shutdown->how);
97         io_req_set_res(req, ret, 0);
98         return IOU_OK;
99 }
100
101 static bool io_net_retry(struct socket *sock, int flags)
102 {
103         if (!(flags & MSG_WAITALL))
104                 return false;
105         return sock->type == SOCK_STREAM || sock->type == SOCK_SEQPACKET;
106 }
107
108 static void io_netmsg_recycle(struct io_kiocb *req, unsigned int issue_flags)
109 {
110         struct io_async_msghdr *hdr = req->async_data;
111
112         if (!req_has_async_data(req) || issue_flags & IO_URING_F_UNLOCKED)
113                 return;
114
115         /* Let normal cleanup path reap it if we fail adding to the cache */
116         if (io_alloc_cache_put(&req->ctx->netmsg_cache, &hdr->cache)) {
117                 req->async_data = NULL;
118                 req->flags &= ~REQ_F_ASYNC_DATA;
119         }
120 }
121
122 static struct io_async_msghdr *io_msg_alloc_async(struct io_kiocb *req,
123                                                   unsigned int issue_flags)
124 {
125         struct io_ring_ctx *ctx = req->ctx;
126         struct io_cache_entry *entry;
127
128         if (!(issue_flags & IO_URING_F_UNLOCKED) &&
129             (entry = io_alloc_cache_get(&ctx->netmsg_cache)) != NULL) {
130                 struct io_async_msghdr *hdr;
131
132                 hdr = container_of(entry, struct io_async_msghdr, cache);
133                 req->flags |= REQ_F_ASYNC_DATA;
134                 req->async_data = hdr;
135                 return hdr;
136         }
137
138         if (!io_alloc_async_data(req))
139                 return req->async_data;
140
141         return NULL;
142 }
143
144 static inline struct io_async_msghdr *io_msg_alloc_async_prep(struct io_kiocb *req)
145 {
146         /* ->prep_async is always called from the submission context */
147         return io_msg_alloc_async(req, 0);
148 }
149
150 static int io_setup_async_msg(struct io_kiocb *req,
151                               struct io_async_msghdr *kmsg,
152                               unsigned int issue_flags)
153 {
154         struct io_async_msghdr *async_msg;
155
156         if (req_has_async_data(req))
157                 return -EAGAIN;
158         async_msg = io_msg_alloc_async(req, issue_flags);
159         if (!async_msg) {
160                 kfree(kmsg->free_iov);
161                 return -ENOMEM;
162         }
163         req->flags |= REQ_F_NEED_CLEANUP;
164         memcpy(async_msg, kmsg, sizeof(*kmsg));
165         async_msg->msg.msg_name = &async_msg->addr;
166         /* if were using fast_iov, set it to the new one */
167         if (!async_msg->free_iov)
168                 async_msg->msg.msg_iter.iov = async_msg->fast_iov;
169
170         return -EAGAIN;
171 }
172
173 static int io_sendmsg_copy_hdr(struct io_kiocb *req,
174                                struct io_async_msghdr *iomsg)
175 {
176         struct io_sr_msg *sr = io_kiocb_to_cmd(req, struct io_sr_msg);
177
178         iomsg->msg.msg_name = &iomsg->addr;
179         iomsg->free_iov = iomsg->fast_iov;
180         return sendmsg_copy_msghdr(&iomsg->msg, sr->umsg, sr->msg_flags,
181                                         &iomsg->free_iov);
182 }
183
184 int io_send_prep_async(struct io_kiocb *req)
185 {
186         struct io_sr_msg *zc = io_kiocb_to_cmd(req, struct io_sr_msg);
187         struct io_async_msghdr *io;
188         int ret;
189
190         if (!zc->addr || req_has_async_data(req))
191                 return 0;
192         io = io_msg_alloc_async_prep(req);
193         if (!io)
194                 return -ENOMEM;
195         io->free_iov = NULL;
196         ret = move_addr_to_kernel(zc->addr, zc->addr_len, &io->addr);
197         return ret;
198 }
199
200 static int io_setup_async_addr(struct io_kiocb *req,
201                               struct sockaddr_storage *addr_storage,
202                               unsigned int issue_flags)
203 {
204         struct io_sr_msg *sr = io_kiocb_to_cmd(req, struct io_sr_msg);
205         struct io_async_msghdr *io;
206
207         if (!sr->addr || req_has_async_data(req))
208                 return -EAGAIN;
209         io = io_msg_alloc_async(req, issue_flags);
210         if (!io)
211                 return -ENOMEM;
212         io->free_iov = NULL;
213         memcpy(&io->addr, addr_storage, sizeof(io->addr));
214         return -EAGAIN;
215 }
216
217 int io_sendmsg_prep_async(struct io_kiocb *req)
218 {
219         int ret;
220
221         if (!io_msg_alloc_async_prep(req))
222                 return -ENOMEM;
223         ret = io_sendmsg_copy_hdr(req, req->async_data);
224         if (!ret)
225                 req->flags |= REQ_F_NEED_CLEANUP;
226         return ret;
227 }
228
229 void io_sendmsg_recvmsg_cleanup(struct io_kiocb *req)
230 {
231         struct io_async_msghdr *io = req->async_data;
232
233         kfree(io->free_iov);
234 }
235
236 int io_sendmsg_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
237 {
238         struct io_sr_msg *sr = io_kiocb_to_cmd(req, struct io_sr_msg);
239
240         if (req->opcode == IORING_OP_SEND) {
241                 if (READ_ONCE(sqe->__pad3[0]))
242                         return -EINVAL;
243                 sr->addr = u64_to_user_ptr(READ_ONCE(sqe->addr2));
244                 sr->addr_len = READ_ONCE(sqe->addr_len);
245         } else if (sqe->addr2 || sqe->file_index) {
246                 return -EINVAL;
247         }
248
249         sr->umsg = u64_to_user_ptr(READ_ONCE(sqe->addr));
250         sr->len = READ_ONCE(sqe->len);
251         sr->flags = READ_ONCE(sqe->ioprio);
252         if (sr->flags & ~IORING_RECVSEND_POLL_FIRST)
253                 return -EINVAL;
254         sr->msg_flags = READ_ONCE(sqe->msg_flags) | MSG_NOSIGNAL;
255         if (sr->msg_flags & MSG_DONTWAIT)
256                 req->flags |= REQ_F_NOWAIT;
257
258 #ifdef CONFIG_COMPAT
259         if (req->ctx->compat)
260                 sr->msg_flags |= MSG_CMSG_COMPAT;
261 #endif
262         sr->done_io = 0;
263         return 0;
264 }
265
266 int io_sendmsg(struct io_kiocb *req, unsigned int issue_flags)
267 {
268         struct io_sr_msg *sr = io_kiocb_to_cmd(req, struct io_sr_msg);
269         struct io_async_msghdr iomsg, *kmsg;
270         struct socket *sock;
271         unsigned flags;
272         int min_ret = 0;
273         int ret;
274
275         sock = sock_from_file(req->file);
276         if (unlikely(!sock))
277                 return -ENOTSOCK;
278
279         if (req_has_async_data(req)) {
280                 kmsg = req->async_data;
281         } else {
282                 ret = io_sendmsg_copy_hdr(req, &iomsg);
283                 if (ret)
284                         return ret;
285                 kmsg = &iomsg;
286         }
287
288         if (!(req->flags & REQ_F_POLLED) &&
289             (sr->flags & IORING_RECVSEND_POLL_FIRST))
290                 return io_setup_async_msg(req, kmsg, issue_flags);
291
292         flags = sr->msg_flags;
293         if (issue_flags & IO_URING_F_NONBLOCK)
294                 flags |= MSG_DONTWAIT;
295         if (flags & MSG_WAITALL)
296                 min_ret = iov_iter_count(&kmsg->msg.msg_iter);
297
298         ret = __sys_sendmsg_sock(sock, &kmsg->msg, flags);
299
300         if (ret < min_ret) {
301                 if (ret == -EAGAIN && (issue_flags & IO_URING_F_NONBLOCK))
302                         return io_setup_async_msg(req, kmsg, issue_flags);
303                 if (ret > 0 && io_net_retry(sock, flags)) {
304                         sr->done_io += ret;
305                         req->flags |= REQ_F_PARTIAL_IO;
306                         return io_setup_async_msg(req, kmsg, issue_flags);
307                 }
308                 if (ret == -ERESTARTSYS)
309                         ret = -EINTR;
310                 req_set_fail(req);
311         }
312         /* fast path, check for non-NULL to avoid function call */
313         if (kmsg->free_iov)
314                 kfree(kmsg->free_iov);
315         req->flags &= ~REQ_F_NEED_CLEANUP;
316         io_netmsg_recycle(req, issue_flags);
317         if (ret >= 0)
318                 ret += sr->done_io;
319         else if (sr->done_io)
320                 ret = sr->done_io;
321         io_req_set_res(req, ret, 0);
322         return IOU_OK;
323 }
324
325 int io_send(struct io_kiocb *req, unsigned int issue_flags)
326 {
327         struct sockaddr_storage __address;
328         struct io_sr_msg *sr = io_kiocb_to_cmd(req, struct io_sr_msg);
329         struct msghdr msg;
330         struct iovec iov;
331         struct socket *sock;
332         unsigned flags;
333         int min_ret = 0;
334         int ret;
335
336         if (sr->addr) {
337                 if (req_has_async_data(req)) {
338                         struct io_async_msghdr *io = req->async_data;
339
340                         msg.msg_name = &io->addr;
341                 } else {
342                         ret = move_addr_to_kernel(sr->addr, sr->addr_len, &__address);
343                         if (unlikely(ret < 0))
344                                 return ret;
345                         msg.msg_name = (struct sockaddr *)&__address;
346                 }
347                 msg.msg_namelen = sr->addr_len;
348         }
349
350         if (!(req->flags & REQ_F_POLLED) &&
351             (sr->flags & IORING_RECVSEND_POLL_FIRST))
352                 return io_setup_async_addr(req, &__address, issue_flags);
353
354         sock = sock_from_file(req->file);
355         if (unlikely(!sock))
356                 return -ENOTSOCK;
357
358         ret = import_single_range(WRITE, sr->buf, sr->len, &iov, &msg.msg_iter);
359         if (unlikely(ret))
360                 return ret;
361
362         msg.msg_name = NULL;
363         msg.msg_control = NULL;
364         msg.msg_controllen = 0;
365         msg.msg_namelen = 0;
366         msg.msg_ubuf = NULL;
367
368         flags = sr->msg_flags;
369         if (issue_flags & IO_URING_F_NONBLOCK)
370                 flags |= MSG_DONTWAIT;
371         if (flags & MSG_WAITALL)
372                 min_ret = iov_iter_count(&msg.msg_iter);
373
374         msg.msg_flags = flags;
375         ret = sock_sendmsg(sock, &msg);
376         if (ret < min_ret) {
377                 if (ret == -EAGAIN && (issue_flags & IO_URING_F_NONBLOCK))
378                         return io_setup_async_addr(req, &__address, issue_flags);
379
380                 if (ret > 0 && io_net_retry(sock, flags)) {
381                         sr->len -= ret;
382                         sr->buf += ret;
383                         sr->done_io += ret;
384                         req->flags |= REQ_F_PARTIAL_IO;
385                         return io_setup_async_addr(req, &__address, issue_flags);
386                 }
387                 if (ret == -ERESTARTSYS)
388                         ret = -EINTR;
389                 req_set_fail(req);
390         }
391         if (ret >= 0)
392                 ret += sr->done_io;
393         else if (sr->done_io)
394                 ret = sr->done_io;
395         io_req_set_res(req, ret, 0);
396         return IOU_OK;
397 }
398
399 static bool io_recvmsg_multishot_overflow(struct io_async_msghdr *iomsg)
400 {
401         int hdr;
402
403         if (iomsg->namelen < 0)
404                 return true;
405         if (check_add_overflow((int)sizeof(struct io_uring_recvmsg_out),
406                                iomsg->namelen, &hdr))
407                 return true;
408         if (check_add_overflow(hdr, (int)iomsg->controllen, &hdr))
409                 return true;
410
411         return false;
412 }
413
414 static int __io_recvmsg_copy_hdr(struct io_kiocb *req,
415                                  struct io_async_msghdr *iomsg)
416 {
417         struct io_sr_msg *sr = io_kiocb_to_cmd(req, struct io_sr_msg);
418         struct user_msghdr msg;
419         int ret;
420
421         if (copy_from_user(&msg, sr->umsg, sizeof(*sr->umsg)))
422                 return -EFAULT;
423
424         ret = __copy_msghdr(&iomsg->msg, &msg, &iomsg->uaddr);
425         if (ret)
426                 return ret;
427
428         if (req->flags & REQ_F_BUFFER_SELECT) {
429                 if (msg.msg_iovlen == 0) {
430                         sr->len = iomsg->fast_iov[0].iov_len = 0;
431                         iomsg->fast_iov[0].iov_base = NULL;
432                         iomsg->free_iov = NULL;
433                 } else if (msg.msg_iovlen > 1) {
434                         return -EINVAL;
435                 } else {
436                         if (copy_from_user(iomsg->fast_iov, msg.msg_iov, sizeof(*msg.msg_iov)))
437                                 return -EFAULT;
438                         sr->len = iomsg->fast_iov[0].iov_len;
439                         iomsg->free_iov = NULL;
440                 }
441
442                 if (req->flags & REQ_F_APOLL_MULTISHOT) {
443                         iomsg->namelen = msg.msg_namelen;
444                         iomsg->controllen = msg.msg_controllen;
445                         if (io_recvmsg_multishot_overflow(iomsg))
446                                 return -EOVERFLOW;
447                 }
448         } else {
449                 iomsg->free_iov = iomsg->fast_iov;
450                 ret = __import_iovec(READ, msg.msg_iov, msg.msg_iovlen, UIO_FASTIOV,
451                                      &iomsg->free_iov, &iomsg->msg.msg_iter,
452                                      false);
453                 if (ret > 0)
454                         ret = 0;
455         }
456
457         return ret;
458 }
459
460 #ifdef CONFIG_COMPAT
461 static int __io_compat_recvmsg_copy_hdr(struct io_kiocb *req,
462                                         struct io_async_msghdr *iomsg)
463 {
464         struct io_sr_msg *sr = io_kiocb_to_cmd(req, struct io_sr_msg);
465         struct compat_msghdr msg;
466         struct compat_iovec __user *uiov;
467         int ret;
468
469         if (copy_from_user(&msg, sr->umsg_compat, sizeof(msg)))
470                 return -EFAULT;
471
472         ret = __get_compat_msghdr(&iomsg->msg, &msg, &iomsg->uaddr);
473         if (ret)
474                 return ret;
475
476         uiov = compat_ptr(msg.msg_iov);
477         if (req->flags & REQ_F_BUFFER_SELECT) {
478                 compat_ssize_t clen;
479
480                 if (msg.msg_iovlen == 0) {
481                         sr->len = 0;
482                         iomsg->free_iov = NULL;
483                 } else if (msg.msg_iovlen > 1) {
484                         return -EINVAL;
485                 } else {
486                         if (!access_ok(uiov, sizeof(*uiov)))
487                                 return -EFAULT;
488                         if (__get_user(clen, &uiov->iov_len))
489                                 return -EFAULT;
490                         if (clen < 0)
491                                 return -EINVAL;
492                         sr->len = clen;
493                         iomsg->free_iov = NULL;
494                 }
495
496                 if (req->flags & REQ_F_APOLL_MULTISHOT) {
497                         iomsg->namelen = msg.msg_namelen;
498                         iomsg->controllen = msg.msg_controllen;
499                         if (io_recvmsg_multishot_overflow(iomsg))
500                                 return -EOVERFLOW;
501                 }
502         } else {
503                 iomsg->free_iov = iomsg->fast_iov;
504                 ret = __import_iovec(READ, (struct iovec __user *)uiov, msg.msg_iovlen,
505                                    UIO_FASTIOV, &iomsg->free_iov,
506                                    &iomsg->msg.msg_iter, true);
507                 if (ret < 0)
508                         return ret;
509         }
510
511         return 0;
512 }
513 #endif
514
515 static int io_recvmsg_copy_hdr(struct io_kiocb *req,
516                                struct io_async_msghdr *iomsg)
517 {
518         iomsg->msg.msg_name = &iomsg->addr;
519
520 #ifdef CONFIG_COMPAT
521         if (req->ctx->compat)
522                 return __io_compat_recvmsg_copy_hdr(req, iomsg);
523 #endif
524
525         return __io_recvmsg_copy_hdr(req, iomsg);
526 }
527
528 int io_recvmsg_prep_async(struct io_kiocb *req)
529 {
530         int ret;
531
532         if (!io_msg_alloc_async_prep(req))
533                 return -ENOMEM;
534         ret = io_recvmsg_copy_hdr(req, req->async_data);
535         if (!ret)
536                 req->flags |= REQ_F_NEED_CLEANUP;
537         return ret;
538 }
539
540 #define RECVMSG_FLAGS (IORING_RECVSEND_POLL_FIRST | IORING_RECV_MULTISHOT)
541
542 int io_recvmsg_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
543 {
544         struct io_sr_msg *sr = io_kiocb_to_cmd(req, struct io_sr_msg);
545
546         if (unlikely(sqe->file_index || sqe->addr2))
547                 return -EINVAL;
548
549         sr->umsg = u64_to_user_ptr(READ_ONCE(sqe->addr));
550         sr->len = READ_ONCE(sqe->len);
551         sr->flags = READ_ONCE(sqe->ioprio);
552         if (sr->flags & ~(RECVMSG_FLAGS))
553                 return -EINVAL;
554         sr->msg_flags = READ_ONCE(sqe->msg_flags) | MSG_NOSIGNAL;
555         if (sr->msg_flags & MSG_DONTWAIT)
556                 req->flags |= REQ_F_NOWAIT;
557         if (sr->msg_flags & MSG_ERRQUEUE)
558                 req->flags |= REQ_F_CLEAR_POLLIN;
559         if (sr->flags & IORING_RECV_MULTISHOT) {
560                 if (!(req->flags & REQ_F_BUFFER_SELECT))
561                         return -EINVAL;
562                 if (sr->msg_flags & MSG_WAITALL)
563                         return -EINVAL;
564                 if (req->opcode == IORING_OP_RECV && sr->len)
565                         return -EINVAL;
566                 req->flags |= REQ_F_APOLL_MULTISHOT;
567         }
568
569 #ifdef CONFIG_COMPAT
570         if (req->ctx->compat)
571                 sr->msg_flags |= MSG_CMSG_COMPAT;
572 #endif
573         sr->done_io = 0;
574         return 0;
575 }
576
577 static inline void io_recv_prep_retry(struct io_kiocb *req)
578 {
579         struct io_sr_msg *sr = io_kiocb_to_cmd(req, struct io_sr_msg);
580
581         sr->done_io = 0;
582         sr->len = 0; /* get from the provided buffer */
583 }
584
585 /*
586  * Finishes io_recv and io_recvmsg.
587  *
588  * Returns true if it is actually finished, or false if it should run
589  * again (for multishot).
590  */
591 static inline bool io_recv_finish(struct io_kiocb *req, int *ret,
592                                   unsigned int cflags, bool mshot_finished)
593 {
594         if (!(req->flags & REQ_F_APOLL_MULTISHOT)) {
595                 io_req_set_res(req, *ret, cflags);
596                 *ret = IOU_OK;
597                 return true;
598         }
599
600         if (!mshot_finished) {
601                 if (io_post_aux_cqe(req->ctx, req->cqe.user_data, *ret,
602                                     cflags | IORING_CQE_F_MORE, false)) {
603                         io_recv_prep_retry(req);
604                         return false;
605                 }
606                 /*
607                  * Otherwise stop multishot but use the current result.
608                  * Probably will end up going into overflow, but this means
609                  * we cannot trust the ordering anymore
610                  */
611         }
612
613         io_req_set_res(req, *ret, cflags);
614
615         if (req->flags & REQ_F_POLLED)
616                 *ret = IOU_STOP_MULTISHOT;
617         else
618                 *ret = IOU_OK;
619         return true;
620 }
621
622 static int io_recvmsg_prep_multishot(struct io_async_msghdr *kmsg,
623                                      struct io_sr_msg *sr, void __user **buf,
624                                      size_t *len)
625 {
626         unsigned long ubuf = (unsigned long) *buf;
627         unsigned long hdr;
628
629         hdr = sizeof(struct io_uring_recvmsg_out) + kmsg->namelen +
630                 kmsg->controllen;
631         if (*len < hdr)
632                 return -EFAULT;
633
634         if (kmsg->controllen) {
635                 unsigned long control = ubuf + hdr - kmsg->controllen;
636
637                 kmsg->msg.msg_control_user = (void __user *) control;
638                 kmsg->msg.msg_controllen = kmsg->controllen;
639         }
640
641         sr->buf = *buf; /* stash for later copy */
642         *buf = (void __user *) (ubuf + hdr);
643         kmsg->payloadlen = *len = *len - hdr;
644         return 0;
645 }
646
647 struct io_recvmsg_multishot_hdr {
648         struct io_uring_recvmsg_out msg;
649         struct sockaddr_storage addr;
650 };
651
652 static int io_recvmsg_multishot(struct socket *sock, struct io_sr_msg *io,
653                                 struct io_async_msghdr *kmsg,
654                                 unsigned int flags, bool *finished)
655 {
656         int err;
657         int copy_len;
658         struct io_recvmsg_multishot_hdr hdr;
659
660         if (kmsg->namelen)
661                 kmsg->msg.msg_name = &hdr.addr;
662         kmsg->msg.msg_flags = flags & (MSG_CMSG_CLOEXEC|MSG_CMSG_COMPAT);
663         kmsg->msg.msg_namelen = 0;
664
665         if (sock->file->f_flags & O_NONBLOCK)
666                 flags |= MSG_DONTWAIT;
667
668         err = sock_recvmsg(sock, &kmsg->msg, flags);
669         *finished = err <= 0;
670         if (err < 0)
671                 return err;
672
673         hdr.msg = (struct io_uring_recvmsg_out) {
674                 .controllen = kmsg->controllen - kmsg->msg.msg_controllen,
675                 .flags = kmsg->msg.msg_flags & ~MSG_CMSG_COMPAT
676         };
677
678         hdr.msg.payloadlen = err;
679         if (err > kmsg->payloadlen)
680                 err = kmsg->payloadlen;
681
682         copy_len = sizeof(struct io_uring_recvmsg_out);
683         if (kmsg->msg.msg_namelen > kmsg->namelen)
684                 copy_len += kmsg->namelen;
685         else
686                 copy_len += kmsg->msg.msg_namelen;
687
688         /*
689          *      "fromlen shall refer to the value before truncation.."
690          *                      1003.1g
691          */
692         hdr.msg.namelen = kmsg->msg.msg_namelen;
693
694         /* ensure that there is no gap between hdr and sockaddr_storage */
695         BUILD_BUG_ON(offsetof(struct io_recvmsg_multishot_hdr, addr) !=
696                      sizeof(struct io_uring_recvmsg_out));
697         if (copy_to_user(io->buf, &hdr, copy_len)) {
698                 *finished = true;
699                 return -EFAULT;
700         }
701
702         return sizeof(struct io_uring_recvmsg_out) + kmsg->namelen +
703                         kmsg->controllen + err;
704 }
705
706 int io_recvmsg(struct io_kiocb *req, unsigned int issue_flags)
707 {
708         struct io_sr_msg *sr = io_kiocb_to_cmd(req, struct io_sr_msg);
709         struct io_async_msghdr iomsg, *kmsg;
710         struct socket *sock;
711         unsigned int cflags;
712         unsigned flags;
713         int ret, min_ret = 0;
714         bool force_nonblock = issue_flags & IO_URING_F_NONBLOCK;
715         bool mshot_finished = true;
716
717         sock = sock_from_file(req->file);
718         if (unlikely(!sock))
719                 return -ENOTSOCK;
720
721         if (req_has_async_data(req)) {
722                 kmsg = req->async_data;
723         } else {
724                 ret = io_recvmsg_copy_hdr(req, &iomsg);
725                 if (ret)
726                         return ret;
727                 kmsg = &iomsg;
728         }
729
730         if (!(req->flags & REQ_F_POLLED) &&
731             (sr->flags & IORING_RECVSEND_POLL_FIRST))
732                 return io_setup_async_msg(req, kmsg, issue_flags);
733
734 retry_multishot:
735         if (io_do_buffer_select(req)) {
736                 void __user *buf;
737                 size_t len = sr->len;
738
739                 buf = io_buffer_select(req, &len, issue_flags);
740                 if (!buf)
741                         return -ENOBUFS;
742
743                 if (req->flags & REQ_F_APOLL_MULTISHOT) {
744                         ret = io_recvmsg_prep_multishot(kmsg, sr, &buf, &len);
745                         if (ret) {
746                                 io_kbuf_recycle(req, issue_flags);
747                                 return ret;
748                         }
749                 }
750
751                 kmsg->fast_iov[0].iov_base = buf;
752                 kmsg->fast_iov[0].iov_len = len;
753                 iov_iter_init(&kmsg->msg.msg_iter, READ, kmsg->fast_iov, 1,
754                                 len);
755         }
756
757         flags = sr->msg_flags;
758         if (force_nonblock)
759                 flags |= MSG_DONTWAIT;
760         if (flags & MSG_WAITALL)
761                 min_ret = iov_iter_count(&kmsg->msg.msg_iter);
762
763         kmsg->msg.msg_get_inq = 1;
764         if (req->flags & REQ_F_APOLL_MULTISHOT)
765                 ret = io_recvmsg_multishot(sock, sr, kmsg, flags,
766                                            &mshot_finished);
767         else
768                 ret = __sys_recvmsg_sock(sock, &kmsg->msg, sr->umsg,
769                                          kmsg->uaddr, flags);
770
771         if (ret < min_ret) {
772                 if (ret == -EAGAIN && force_nonblock) {
773                         ret = io_setup_async_msg(req, kmsg, issue_flags);
774                         if (ret == -EAGAIN && (req->flags & IO_APOLL_MULTI_POLLED) ==
775                                                IO_APOLL_MULTI_POLLED) {
776                                 io_kbuf_recycle(req, issue_flags);
777                                 return IOU_ISSUE_SKIP_COMPLETE;
778                         }
779                         return ret;
780                 }
781                 if (ret > 0 && io_net_retry(sock, flags)) {
782                         sr->done_io += ret;
783                         req->flags |= REQ_F_PARTIAL_IO;
784                         return io_setup_async_msg(req, kmsg, issue_flags);
785                 }
786                 if (ret == -ERESTARTSYS)
787                         ret = -EINTR;
788                 req_set_fail(req);
789         } else if ((flags & MSG_WAITALL) && (kmsg->msg.msg_flags & (MSG_TRUNC | MSG_CTRUNC))) {
790                 req_set_fail(req);
791         }
792
793         if (ret > 0)
794                 ret += sr->done_io;
795         else if (sr->done_io)
796                 ret = sr->done_io;
797         else
798                 io_kbuf_recycle(req, issue_flags);
799
800         cflags = io_put_kbuf(req, issue_flags);
801         if (kmsg->msg.msg_inq)
802                 cflags |= IORING_CQE_F_SOCK_NONEMPTY;
803
804         if (!io_recv_finish(req, &ret, cflags, mshot_finished))
805                 goto retry_multishot;
806
807         if (mshot_finished) {
808                 io_netmsg_recycle(req, issue_flags);
809                 /* fast path, check for non-NULL to avoid function call */
810                 if (kmsg->free_iov)
811                         kfree(kmsg->free_iov);
812                 req->flags &= ~REQ_F_NEED_CLEANUP;
813         }
814
815         return ret;
816 }
817
818 int io_recv(struct io_kiocb *req, unsigned int issue_flags)
819 {
820         struct io_sr_msg *sr = io_kiocb_to_cmd(req, struct io_sr_msg);
821         struct msghdr msg;
822         struct socket *sock;
823         struct iovec iov;
824         unsigned int cflags;
825         unsigned flags;
826         int ret, min_ret = 0;
827         bool force_nonblock = issue_flags & IO_URING_F_NONBLOCK;
828         size_t len = sr->len;
829
830         if (!(req->flags & REQ_F_POLLED) &&
831             (sr->flags & IORING_RECVSEND_POLL_FIRST))
832                 return -EAGAIN;
833
834         sock = sock_from_file(req->file);
835         if (unlikely(!sock))
836                 return -ENOTSOCK;
837
838 retry_multishot:
839         if (io_do_buffer_select(req)) {
840                 void __user *buf;
841
842                 buf = io_buffer_select(req, &len, issue_flags);
843                 if (!buf)
844                         return -ENOBUFS;
845                 sr->buf = buf;
846         }
847
848         ret = import_single_range(READ, sr->buf, len, &iov, &msg.msg_iter);
849         if (unlikely(ret))
850                 goto out_free;
851
852         msg.msg_name = NULL;
853         msg.msg_namelen = 0;
854         msg.msg_control = NULL;
855         msg.msg_get_inq = 1;
856         msg.msg_flags = 0;
857         msg.msg_controllen = 0;
858         msg.msg_iocb = NULL;
859         msg.msg_ubuf = NULL;
860
861         flags = sr->msg_flags;
862         if (force_nonblock)
863                 flags |= MSG_DONTWAIT;
864         if (flags & MSG_WAITALL)
865                 min_ret = iov_iter_count(&msg.msg_iter);
866
867         ret = sock_recvmsg(sock, &msg, flags);
868         if (ret < min_ret) {
869                 if (ret == -EAGAIN && force_nonblock) {
870                         if ((req->flags & IO_APOLL_MULTI_POLLED) == IO_APOLL_MULTI_POLLED) {
871                                 io_kbuf_recycle(req, issue_flags);
872                                 return IOU_ISSUE_SKIP_COMPLETE;
873                         }
874
875                         return -EAGAIN;
876                 }
877                 if (ret > 0 && io_net_retry(sock, flags)) {
878                         sr->len -= ret;
879                         sr->buf += ret;
880                         sr->done_io += ret;
881                         req->flags |= REQ_F_PARTIAL_IO;
882                         return -EAGAIN;
883                 }
884                 if (ret == -ERESTARTSYS)
885                         ret = -EINTR;
886                 req_set_fail(req);
887         } else if ((flags & MSG_WAITALL) && (msg.msg_flags & (MSG_TRUNC | MSG_CTRUNC))) {
888 out_free:
889                 req_set_fail(req);
890         }
891
892         if (ret > 0)
893                 ret += sr->done_io;
894         else if (sr->done_io)
895                 ret = sr->done_io;
896         else
897                 io_kbuf_recycle(req, issue_flags);
898
899         cflags = io_put_kbuf(req, issue_flags);
900         if (msg.msg_inq)
901                 cflags |= IORING_CQE_F_SOCK_NONEMPTY;
902
903         if (!io_recv_finish(req, &ret, cflags, ret <= 0))
904                 goto retry_multishot;
905
906         return ret;
907 }
908
909 void io_send_zc_cleanup(struct io_kiocb *req)
910 {
911         struct io_sr_msg *zc = io_kiocb_to_cmd(req, struct io_sr_msg);
912         struct io_async_msghdr *io;
913
914         if (req_has_async_data(req)) {
915                 io = req->async_data;
916                 kfree(io->free_iov);
917         }
918         zc->notif->flags |= REQ_F_CQE_SKIP;
919         io_notif_flush(zc->notif);
920         zc->notif = NULL;
921 }
922
923 int io_send_zc_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
924 {
925         struct io_sr_msg *zc = io_kiocb_to_cmd(req, struct io_sr_msg);
926         struct io_ring_ctx *ctx = req->ctx;
927         struct io_kiocb *notif;
928
929         if (unlikely(READ_ONCE(sqe->__pad2[0]) || READ_ONCE(sqe->addr3)))
930                 return -EINVAL;
931         /* we don't support IOSQE_CQE_SKIP_SUCCESS just yet */
932         if (req->flags & REQ_F_CQE_SKIP)
933                 return -EINVAL;
934
935         zc->flags = READ_ONCE(sqe->ioprio);
936         if (zc->flags & ~(IORING_RECVSEND_POLL_FIRST |
937                           IORING_RECVSEND_FIXED_BUF))
938                 return -EINVAL;
939         notif = zc->notif = io_alloc_notif(ctx);
940         if (!notif)
941                 return -ENOMEM;
942         notif->cqe.user_data = req->cqe.user_data;
943         notif->cqe.res = 0;
944         notif->cqe.flags = IORING_CQE_F_NOTIF;
945         req->flags |= REQ_F_NEED_CLEANUP;
946         if (zc->flags & IORING_RECVSEND_FIXED_BUF) {
947                 unsigned idx = READ_ONCE(sqe->buf_index);
948
949                 if (unlikely(idx >= ctx->nr_user_bufs))
950                         return -EFAULT;
951                 idx = array_index_nospec(idx, ctx->nr_user_bufs);
952                 req->imu = READ_ONCE(ctx->user_bufs[idx]);
953                 io_req_set_rsrc_node(notif, ctx, 0);
954         }
955
956         if (req->opcode == IORING_OP_SEND_ZC) {
957                 if (READ_ONCE(sqe->__pad3[0]))
958                         return -EINVAL;
959                 zc->addr = u64_to_user_ptr(READ_ONCE(sqe->addr2));
960                 zc->addr_len = READ_ONCE(sqe->addr_len);
961         } else {
962                 if (unlikely(sqe->addr2 || sqe->file_index))
963                         return -EINVAL;
964                 if (unlikely(zc->flags & IORING_RECVSEND_FIXED_BUF))
965                         return -EINVAL;
966         }
967
968         zc->buf = u64_to_user_ptr(READ_ONCE(sqe->addr));
969         zc->len = READ_ONCE(sqe->len);
970         zc->msg_flags = READ_ONCE(sqe->msg_flags) | MSG_NOSIGNAL;
971         if (zc->msg_flags & MSG_DONTWAIT)
972                 req->flags |= REQ_F_NOWAIT;
973
974         zc->done_io = 0;
975
976 #ifdef CONFIG_COMPAT
977         if (req->ctx->compat)
978                 zc->msg_flags |= MSG_CMSG_COMPAT;
979 #endif
980         return 0;
981 }
982
983 static int io_sg_from_iter_iovec(struct sock *sk, struct sk_buff *skb,
984                                  struct iov_iter *from, size_t length)
985 {
986         skb_zcopy_downgrade_managed(skb);
987         return __zerocopy_sg_from_iter(NULL, sk, skb, from, length);
988 }
989
990 static int io_sg_from_iter(struct sock *sk, struct sk_buff *skb,
991                            struct iov_iter *from, size_t length)
992 {
993         struct skb_shared_info *shinfo = skb_shinfo(skb);
994         int frag = shinfo->nr_frags;
995         int ret = 0;
996         struct bvec_iter bi;
997         ssize_t copied = 0;
998         unsigned long truesize = 0;
999
1000         if (!frag)
1001                 shinfo->flags |= SKBFL_MANAGED_FRAG_REFS;
1002         else if (unlikely(!skb_zcopy_managed(skb)))
1003                 return __zerocopy_sg_from_iter(NULL, sk, skb, from, length);
1004
1005         bi.bi_size = min(from->count, length);
1006         bi.bi_bvec_done = from->iov_offset;
1007         bi.bi_idx = 0;
1008
1009         while (bi.bi_size && frag < MAX_SKB_FRAGS) {
1010                 struct bio_vec v = mp_bvec_iter_bvec(from->bvec, bi);
1011
1012                 copied += v.bv_len;
1013                 truesize += PAGE_ALIGN(v.bv_len + v.bv_offset);
1014                 __skb_fill_page_desc_noacc(shinfo, frag++, v.bv_page,
1015                                            v.bv_offset, v.bv_len);
1016                 bvec_iter_advance_single(from->bvec, &bi, v.bv_len);
1017         }
1018         if (bi.bi_size)
1019                 ret = -EMSGSIZE;
1020
1021         shinfo->nr_frags = frag;
1022         from->bvec += bi.bi_idx;
1023         from->nr_segs -= bi.bi_idx;
1024         from->count -= copied;
1025         from->iov_offset = bi.bi_bvec_done;
1026
1027         skb->data_len += copied;
1028         skb->len += copied;
1029         skb->truesize += truesize;
1030
1031         if (sk && sk->sk_type == SOCK_STREAM) {
1032                 sk_wmem_queued_add(sk, truesize);
1033                 if (!skb_zcopy_pure(skb))
1034                         sk_mem_charge(sk, truesize);
1035         } else {
1036                 refcount_add(truesize, &skb->sk->sk_wmem_alloc);
1037         }
1038         return ret;
1039 }
1040
1041 int io_send_zc(struct io_kiocb *req, unsigned int issue_flags)
1042 {
1043         struct sockaddr_storage __address;
1044         struct io_sr_msg *zc = io_kiocb_to_cmd(req, struct io_sr_msg);
1045         struct msghdr msg;
1046         struct iovec iov;
1047         struct socket *sock;
1048         unsigned msg_flags, cflags;
1049         int ret, min_ret = 0;
1050
1051         sock = sock_from_file(req->file);
1052         if (unlikely(!sock))
1053                 return -ENOTSOCK;
1054
1055         msg.msg_name = NULL;
1056         msg.msg_control = NULL;
1057         msg.msg_controllen = 0;
1058         msg.msg_namelen = 0;
1059
1060         if (zc->addr) {
1061                 if (req_has_async_data(req)) {
1062                         struct io_async_msghdr *io = req->async_data;
1063
1064                         msg.msg_name = &io->addr;
1065                 } else {
1066                         ret = move_addr_to_kernel(zc->addr, zc->addr_len, &__address);
1067                         if (unlikely(ret < 0))
1068                                 return ret;
1069                         msg.msg_name = (struct sockaddr *)&__address;
1070                 }
1071                 msg.msg_namelen = zc->addr_len;
1072         }
1073
1074         if (!(req->flags & REQ_F_POLLED) &&
1075             (zc->flags & IORING_RECVSEND_POLL_FIRST))
1076                 return io_setup_async_addr(req, &__address, issue_flags);
1077
1078         if (zc->flags & IORING_RECVSEND_FIXED_BUF) {
1079                 ret = io_import_fixed(WRITE, &msg.msg_iter, req->imu,
1080                                         (u64)(uintptr_t)zc->buf, zc->len);
1081                 if (unlikely(ret))
1082                         return ret;
1083                 msg.sg_from_iter = io_sg_from_iter;
1084         } else {
1085                 ret = import_single_range(WRITE, zc->buf, zc->len, &iov,
1086                                           &msg.msg_iter);
1087                 if (unlikely(ret))
1088                         return ret;
1089                 ret = io_notif_account_mem(zc->notif, zc->len);
1090                 if (unlikely(ret))
1091                         return ret;
1092                 msg.sg_from_iter = io_sg_from_iter_iovec;
1093         }
1094
1095         msg_flags = zc->msg_flags | MSG_ZEROCOPY;
1096         if (issue_flags & IO_URING_F_NONBLOCK)
1097                 msg_flags |= MSG_DONTWAIT;
1098         if (msg_flags & MSG_WAITALL)
1099                 min_ret = iov_iter_count(&msg.msg_iter);
1100
1101         msg.msg_flags = msg_flags;
1102         msg.msg_ubuf = &io_notif_to_data(zc->notif)->uarg;
1103         ret = sock_sendmsg(sock, &msg);
1104
1105         if (unlikely(ret < min_ret)) {
1106                 if (ret == -EAGAIN && (issue_flags & IO_URING_F_NONBLOCK))
1107                         return io_setup_async_addr(req, &__address, issue_flags);
1108
1109                 if (ret > 0 && io_net_retry(sock, msg.msg_flags)) {
1110                         zc->len -= ret;
1111                         zc->buf += ret;
1112                         zc->done_io += ret;
1113                         req->flags |= REQ_F_PARTIAL_IO;
1114                         return io_setup_async_addr(req, &__address, issue_flags);
1115                 }
1116                 if (ret < 0 && !zc->done_io)
1117                         zc->notif->flags |= REQ_F_CQE_SKIP;
1118                 if (ret == -ERESTARTSYS)
1119                         ret = -EINTR;
1120                 req_set_fail(req);
1121         }
1122
1123         if (ret >= 0)
1124                 ret += zc->done_io;
1125         else if (zc->done_io)
1126                 ret = zc->done_io;
1127
1128         io_notif_flush(zc->notif);
1129         req->flags &= ~REQ_F_NEED_CLEANUP;
1130         cflags = ret >= 0 ? IORING_CQE_F_MORE : 0;
1131         io_req_set_res(req, ret, cflags);
1132         return IOU_OK;
1133 }
1134
1135 int io_sendmsg_zc(struct io_kiocb *req, unsigned int issue_flags)
1136 {
1137         struct io_sr_msg *sr = io_kiocb_to_cmd(req, struct io_sr_msg);
1138         struct io_async_msghdr iomsg, *kmsg;
1139         struct socket *sock;
1140         unsigned flags, cflags;
1141         int ret, min_ret = 0;
1142
1143         sock = sock_from_file(req->file);
1144         if (unlikely(!sock))
1145                 return -ENOTSOCK;
1146
1147         if (req_has_async_data(req)) {
1148                 kmsg = req->async_data;
1149         } else {
1150                 ret = io_sendmsg_copy_hdr(req, &iomsg);
1151                 if (ret)
1152                         return ret;
1153                 kmsg = &iomsg;
1154         }
1155
1156         if (!(req->flags & REQ_F_POLLED) &&
1157             (sr->flags & IORING_RECVSEND_POLL_FIRST))
1158                 return io_setup_async_msg(req, kmsg, issue_flags);
1159
1160         flags = sr->msg_flags | MSG_ZEROCOPY;
1161         if (issue_flags & IO_URING_F_NONBLOCK)
1162                 flags |= MSG_DONTWAIT;
1163         if (flags & MSG_WAITALL)
1164                 min_ret = iov_iter_count(&kmsg->msg.msg_iter);
1165
1166         kmsg->msg.msg_ubuf = &io_notif_to_data(sr->notif)->uarg;
1167         kmsg->msg.sg_from_iter = io_sg_from_iter_iovec;
1168         ret = __sys_sendmsg_sock(sock, &kmsg->msg, flags);
1169
1170         if (unlikely(ret < min_ret)) {
1171                 if (ret == -EAGAIN && (issue_flags & IO_URING_F_NONBLOCK))
1172                         return io_setup_async_msg(req, kmsg, issue_flags);
1173
1174                 if (ret > 0 && io_net_retry(sock, flags)) {
1175                         sr->done_io += ret;
1176                         req->flags |= REQ_F_PARTIAL_IO;
1177                         return io_setup_async_msg(req, kmsg, issue_flags);
1178                 }
1179                 if (ret < 0 && !sr->done_io)
1180                         sr->notif->flags |= REQ_F_CQE_SKIP;
1181                 if (ret == -ERESTARTSYS)
1182                         ret = -EINTR;
1183                 req_set_fail(req);
1184         }
1185         /* fast path, check for non-NULL to avoid function call */
1186         if (kmsg->free_iov)
1187                 kfree(kmsg->free_iov);
1188
1189         io_netmsg_recycle(req, issue_flags);
1190         if (ret >= 0)
1191                 ret += sr->done_io;
1192         else if (sr->done_io)
1193                 ret = sr->done_io;
1194
1195         io_notif_flush(sr->notif);
1196         req->flags &= ~REQ_F_NEED_CLEANUP;
1197         cflags = ret >= 0 ? IORING_CQE_F_MORE : 0;
1198         io_req_set_res(req, ret, cflags);
1199         return IOU_OK;
1200 }
1201
1202 void io_sendrecv_fail(struct io_kiocb *req)
1203 {
1204         struct io_sr_msg *sr = io_kiocb_to_cmd(req, struct io_sr_msg);
1205         struct io_async_msghdr *io;
1206         int res = req->cqe.res;
1207
1208         if (req->flags & REQ_F_PARTIAL_IO)
1209                 res = sr->done_io;
1210         if ((req->flags & REQ_F_NEED_CLEANUP) &&
1211             (req->opcode == IORING_OP_SEND_ZC || req->opcode == IORING_OP_SENDMSG_ZC)) {
1212                 /* preserve notification for partial I/O */
1213                 if (res < 0)
1214                         sr->notif->flags |= REQ_F_CQE_SKIP;
1215                 io_notif_flush(sr->notif);
1216                 sr->notif = NULL;
1217         }
1218         if (req_has_async_data(req)) {
1219                 io = req->async_data;
1220                 kfree(io->free_iov);
1221                 io->free_iov = NULL;
1222         }
1223         req->flags &= ~REQ_F_NEED_CLEANUP;
1224         io_req_set_res(req, res, req->cqe.flags);
1225 }
1226
1227 int io_accept_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
1228 {
1229         struct io_accept *accept = io_kiocb_to_cmd(req, struct io_accept);
1230         unsigned flags;
1231
1232         if (sqe->len || sqe->buf_index)
1233                 return -EINVAL;
1234
1235         accept->addr = u64_to_user_ptr(READ_ONCE(sqe->addr));
1236         accept->addr_len = u64_to_user_ptr(READ_ONCE(sqe->addr2));
1237         accept->flags = READ_ONCE(sqe->accept_flags);
1238         accept->nofile = rlimit(RLIMIT_NOFILE);
1239         flags = READ_ONCE(sqe->ioprio);
1240         if (flags & ~IORING_ACCEPT_MULTISHOT)
1241                 return -EINVAL;
1242
1243         accept->file_slot = READ_ONCE(sqe->file_index);
1244         if (accept->file_slot) {
1245                 if (accept->flags & SOCK_CLOEXEC)
1246                         return -EINVAL;
1247                 if (flags & IORING_ACCEPT_MULTISHOT &&
1248                     accept->file_slot != IORING_FILE_INDEX_ALLOC)
1249                         return -EINVAL;
1250         }
1251         if (accept->flags & ~(SOCK_CLOEXEC | SOCK_NONBLOCK))
1252                 return -EINVAL;
1253         if (SOCK_NONBLOCK != O_NONBLOCK && (accept->flags & SOCK_NONBLOCK))
1254                 accept->flags = (accept->flags & ~SOCK_NONBLOCK) | O_NONBLOCK;
1255         if (flags & IORING_ACCEPT_MULTISHOT)
1256                 req->flags |= REQ_F_APOLL_MULTISHOT;
1257         return 0;
1258 }
1259
1260 int io_accept(struct io_kiocb *req, unsigned int issue_flags)
1261 {
1262         struct io_ring_ctx *ctx = req->ctx;
1263         struct io_accept *accept = io_kiocb_to_cmd(req, struct io_accept);
1264         bool force_nonblock = issue_flags & IO_URING_F_NONBLOCK;
1265         unsigned int file_flags = force_nonblock ? O_NONBLOCK : 0;
1266         bool fixed = !!accept->file_slot;
1267         struct file *file;
1268         int ret, fd;
1269
1270 retry:
1271         if (!fixed) {
1272                 fd = __get_unused_fd_flags(accept->flags, accept->nofile);
1273                 if (unlikely(fd < 0))
1274                         return fd;
1275         }
1276         file = do_accept(req->file, file_flags, accept->addr, accept->addr_len,
1277                          accept->flags);
1278         if (IS_ERR(file)) {
1279                 if (!fixed)
1280                         put_unused_fd(fd);
1281                 ret = PTR_ERR(file);
1282                 if (ret == -EAGAIN && force_nonblock) {
1283                         /*
1284                          * if it's multishot and polled, we don't need to
1285                          * return EAGAIN to arm the poll infra since it
1286                          * has already been done
1287                          */
1288                         if ((req->flags & IO_APOLL_MULTI_POLLED) ==
1289                             IO_APOLL_MULTI_POLLED)
1290                                 ret = IOU_ISSUE_SKIP_COMPLETE;
1291                         return ret;
1292                 }
1293                 if (ret == -ERESTARTSYS)
1294                         ret = -EINTR;
1295                 req_set_fail(req);
1296         } else if (!fixed) {
1297                 fd_install(fd, file);
1298                 ret = fd;
1299         } else {
1300                 ret = io_fixed_fd_install(req, issue_flags, file,
1301                                                 accept->file_slot);
1302         }
1303
1304         if (!(req->flags & REQ_F_APOLL_MULTISHOT)) {
1305                 io_req_set_res(req, ret, 0);
1306                 return IOU_OK;
1307         }
1308
1309         if (ret >= 0 &&
1310             io_post_aux_cqe(ctx, req->cqe.user_data, ret, IORING_CQE_F_MORE, false))
1311                 goto retry;
1312
1313         io_req_set_res(req, ret, 0);
1314         if (req->flags & REQ_F_POLLED)
1315                 return IOU_STOP_MULTISHOT;
1316         return IOU_OK;
1317 }
1318
1319 int io_socket_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
1320 {
1321         struct io_socket *sock = io_kiocb_to_cmd(req, struct io_socket);
1322
1323         if (sqe->addr || sqe->rw_flags || sqe->buf_index)
1324                 return -EINVAL;
1325
1326         sock->domain = READ_ONCE(sqe->fd);
1327         sock->type = READ_ONCE(sqe->off);
1328         sock->protocol = READ_ONCE(sqe->len);
1329         sock->file_slot = READ_ONCE(sqe->file_index);
1330         sock->nofile = rlimit(RLIMIT_NOFILE);
1331
1332         sock->flags = sock->type & ~SOCK_TYPE_MASK;
1333         if (sock->file_slot && (sock->flags & SOCK_CLOEXEC))
1334                 return -EINVAL;
1335         if (sock->flags & ~(SOCK_CLOEXEC | SOCK_NONBLOCK))
1336                 return -EINVAL;
1337         return 0;
1338 }
1339
1340 int io_socket(struct io_kiocb *req, unsigned int issue_flags)
1341 {
1342         struct io_socket *sock = io_kiocb_to_cmd(req, struct io_socket);
1343         bool fixed = !!sock->file_slot;
1344         struct file *file;
1345         int ret, fd;
1346
1347         if (!fixed) {
1348                 fd = __get_unused_fd_flags(sock->flags, sock->nofile);
1349                 if (unlikely(fd < 0))
1350                         return fd;
1351         }
1352         file = __sys_socket_file(sock->domain, sock->type, sock->protocol);
1353         if (IS_ERR(file)) {
1354                 if (!fixed)
1355                         put_unused_fd(fd);
1356                 ret = PTR_ERR(file);
1357                 if (ret == -EAGAIN && (issue_flags & IO_URING_F_NONBLOCK))
1358                         return -EAGAIN;
1359                 if (ret == -ERESTARTSYS)
1360                         ret = -EINTR;
1361                 req_set_fail(req);
1362         } else if (!fixed) {
1363                 fd_install(fd, file);
1364                 ret = fd;
1365         } else {
1366                 ret = io_fixed_fd_install(req, issue_flags, file,
1367                                             sock->file_slot);
1368         }
1369         io_req_set_res(req, ret, 0);
1370         return IOU_OK;
1371 }
1372
1373 int io_connect_prep_async(struct io_kiocb *req)
1374 {
1375         struct io_async_connect *io = req->async_data;
1376         struct io_connect *conn = io_kiocb_to_cmd(req, struct io_connect);
1377
1378         return move_addr_to_kernel(conn->addr, conn->addr_len, &io->address);
1379 }
1380
1381 int io_connect_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
1382 {
1383         struct io_connect *conn = io_kiocb_to_cmd(req, struct io_connect);
1384
1385         if (sqe->len || sqe->buf_index || sqe->rw_flags || sqe->splice_fd_in)
1386                 return -EINVAL;
1387
1388         conn->addr = u64_to_user_ptr(READ_ONCE(sqe->addr));
1389         conn->addr_len =  READ_ONCE(sqe->addr2);
1390         return 0;
1391 }
1392
1393 int io_connect(struct io_kiocb *req, unsigned int issue_flags)
1394 {
1395         struct io_connect *connect = io_kiocb_to_cmd(req, struct io_connect);
1396         struct io_async_connect __io, *io;
1397         unsigned file_flags;
1398         int ret;
1399         bool force_nonblock = issue_flags & IO_URING_F_NONBLOCK;
1400
1401         if (req_has_async_data(req)) {
1402                 io = req->async_data;
1403         } else {
1404                 ret = move_addr_to_kernel(connect->addr,
1405                                                 connect->addr_len,
1406                                                 &__io.address);
1407                 if (ret)
1408                         goto out;
1409                 io = &__io;
1410         }
1411
1412         file_flags = force_nonblock ? O_NONBLOCK : 0;
1413
1414         ret = __sys_connect_file(req->file, &io->address,
1415                                         connect->addr_len, file_flags);
1416         if ((ret == -EAGAIN || ret == -EINPROGRESS) && force_nonblock) {
1417                 if (req_has_async_data(req))
1418                         return -EAGAIN;
1419                 if (io_alloc_async_data(req)) {
1420                         ret = -ENOMEM;
1421                         goto out;
1422                 }
1423                 memcpy(req->async_data, &__io, sizeof(__io));
1424                 return -EAGAIN;
1425         }
1426         if (ret == -ERESTARTSYS)
1427                 ret = -EINTR;
1428 out:
1429         if (ret < 0)
1430                 req_set_fail(req);
1431         io_req_set_res(req, ret, 0);
1432         return IOU_OK;
1433 }
1434
1435 void io_netmsg_cache_free(struct io_cache_entry *entry)
1436 {
1437         kfree(container_of(entry, struct io_async_msghdr, cache));
1438 }
1439 #endif