ipv6: avoid atomic fragment on GSO packets
authorYan Zhai <yan@cloudflare.com>
Tue, 24 Oct 2023 14:26:40 +0000 (07:26 -0700)
committerGreg Kroah-Hartman <gregkh@linuxfoundation.org>
Mon, 20 Nov 2023 10:59:03 +0000 (11:59 +0100)
[ Upstream commit 03d6c848bfb406e9ef6d9846d759e97beaeea113 ]

When the ipv6 stack output a GSO packet, if its gso_size is larger than
dst MTU, then all segments would be fragmented. However, it is possible
for a GSO packet to have a trailing segment with smaller actual size
than both gso_size as well as the MTU, which leads to an "atomic
fragment". Atomic fragments are considered harmful in RFC-8021. An
Existing report from APNIC also shows that atomic fragments are more
likely to be dropped even it is equivalent to a no-op [1].

Add an extra check in the GSO slow output path. For each segment from
the original over-sized packet, if it fits with the path MTU, then avoid
generating an atomic fragment.

Link: https://www.potaroo.net/presentations/2022-03-01-ipv6-frag.pdf
Fixes: b210de4f8c97 ("net: ipv6: Validate GSO SKB before finish IPv6 processing")
Reported-by: David Wragg <dwragg@cloudflare.com>
Signed-off-by: Yan Zhai <yan@cloudflare.com>
Link: https://lore.kernel.org/r/90912e3503a242dca0bc36958b11ed03a2696e5e.1698156966.git.yan@cloudflare.com
Signed-off-by: Jakub Kicinski <kuba@kernel.org>
Signed-off-by: Sasha Levin <sashal@kernel.org>
net/ipv6/ip6_output.c

index 54fc4c7..1121082 100644 (file)
@@ -162,7 +162,13 @@ ip6_finish_output_gso_slowpath_drop(struct net *net, struct sock *sk,
                int err;
 
                skb_mark_not_on_list(segs);
-               err = ip6_fragment(net, sk, segs, ip6_finish_output2);
+               /* Last GSO segment can be smaller than gso_size (and MTU).
+                * Adding a fragment header would produce an "atomic fragment",
+                * which is considered harmful (RFC-8021). Avoid that.
+                */
+               err = segs->len > mtu ?
+                       ip6_fragment(net, sk, segs, ip6_finish_output2) :
+                       ip6_finish_output2(net, sk, segs);
                if (err && ret == 0)
                        ret = err;
        }