ip_fragment: don't forward defragmented DF packet

author Florian Westphal <fw@strlen.de>

Fri, 22 May 2015 14:32:51 +0000 (16:32 +0200)

committer David S. Miller <davem@davemloft.net>

Wed, 27 May 2015 17:03:31 +0000 (13:03 -0400)
author Florian Westphal <fw@strlen.de>
Fri, 22 May 2015 14:32:51 +0000 (16:32 +0200)
committer David S. Miller <davem@davemloft.net>
Wed, 27 May 2015 17:03:31 +0000 (13:03 -0400)
diff --git a/include/net/inet_frag.h b/include/net/inet_frag.h

index 8d1765577acca21f698813ee8359a39d76680b7e..e1300b3dd597b9a68db7b6dc9c03a8ea238b4e4c 100644 (file)
--- a/include/net/inet_frag.h
+++ b/include/net/inet_frag.h
@@ -43,7 +43,7 @@ enum {
   * @len: total length of the original datagram
   * @meat: length of received fragments so far
   * @flags: fragment queue flags
- * @max_size: (ipv4 only) maximum received fragment size with IP_DF set
+ * @max_size: maximum received fragment size
   * @net: namespace that this frag belongs to
   */
  struct inet_frag_queue {
diff --git a/include/net/ip.h b/include/net/ip.h

index 7921a36b805c77f01bab239db63a1c369dd9a903..9b976cf99122dfd6700efa8dff4eb6e796ea721a 100644 (file)
--- a/include/net/ip.h
+++ b/include/net/ip.h
@@ -45,6 +45,7 @@ struct inet_skb_parm {
  #define IPSKB_FRAG_COMPLETE    BIT(3)
  #define IPSKB_REROUTED         BIT(4)
  #define IPSKB_DOREDIRECT       BIT(5)
+#define IPSKB_FRAG_PMTU                BIT(6)
  
         u16                     frag_max_size;
  };
diff --git a/net/ipv4/ip_fragment.c b/net/ipv4/ip_fragment.c

index 47fa64ee82b150a03288417d871efa3e9d44490e..a50dc6d408d11c339b38f2436216c8568c4149cf 100644 (file)
--- a/net/ipv4/ip_fragment.c
+++ b/net/ipv4/ip_fragment.c
@@ -75,6 +75,7 @@ struct ipq {
         __be16          id;
         u8              protocol;
         u8              ecn; /* RFC3168 support */
+       u16             max_df_size; /* largest frag with DF set seen */
         int             iif;
         unsigned int    rid;
         struct inet_peer *peer;
@@ -326,6 +327,7 @@ static int ip_frag_queue(struct ipq *qp, struct sk_buff *skb)
  {
         struct sk_buff *prev, *next;
         struct net_device *dev;
+       unsigned int fragsize;
         int flags, offset;
         int ihl, end;
         int err = -ENOENT;
@@ -481,9 +483,14 @@ found:
         if (offset == 0)
                 qp->q.flags |= INET_FRAG_FIRST_IN;
  
+       fragsize = skb->len + ihl;
+
+       if (fragsize > qp->q.max_size)
+               qp->q.max_size = fragsize;
+
         if (ip_hdr(skb)->frag_off & htons(IP_DF) &&
-           skb->len + ihl > qp->q.max_size)
-               qp->q.max_size = skb->len + ihl;
+           fragsize > qp->max_df_size)
+               qp->max_df_size = fragsize;
  
         if (qp->q.flags == (INET_FRAG_FIRST_IN | INET_FRAG_LAST_IN) &&
             qp->q.meat == qp->q.len) {
@@ -613,13 +620,27 @@ static int ip_frag_reasm(struct ipq *qp, struct sk_buff *prev,
         head->next = NULL;
         head->dev = dev;
         head->tstamp = qp->q.stamp;
-       IPCB(head)->frag_max_size = qp->q.max_size;
+       IPCB(head)->frag_max_size = max(qp->max_df_size, qp->q.max_size);
  
         iph = ip_hdr(head);
-       /* max_size != 0 implies at least one fragment had IP_DF set */
-       iph->frag_off = qp->q.max_size ? htons(IP_DF) : 0;
         iph->tot_len = htons(len);
         iph->tos |= ecn;
+
+       /* When we set IP_DF on a refragmented skb we must also force a
+        * call to ip_fragment to avoid forwarding a DF-skb of size s while
+        * original sender only sent fragments of size f (where f < s).
+        *
+        * We only set DF/IPSKB_FRAG_PMTU if such DF fragment was the largest
+        * frag seen to avoid sending tiny DF-fragments in case skb was built
+        * from one very small df-fragment and one large non-df frag.
+        */
+       if (qp->max_df_size == qp->q.max_size) {
+               IPCB(head)->flags |= IPSKB_FRAG_PMTU;
+               iph->frag_off = htons(IP_DF);
+       } else {
+               iph->frag_off = 0;
+       }
+
         IP_INC_STATS_BH(net, IPSTATS_MIB_REASMOKS);
         qp->q.fragments = NULL;
         qp->q.fragments_tail = NULL;
diff --git a/net/ipv4/ip_output.c b/net/ipv4/ip_output.c

index d6dd8ba044414b1ca2c4977e68387eba8d29e0dc..f5f5ef1cebd518a1eedf97241bb4f375c94c9690 100644 (file)
--- a/net/ipv4/ip_output.c
+++ b/net/ipv4/ip_output.c
@@ -278,7 +278,7 @@ static int ip_finish_output(struct sock *sk, struct sk_buff *skb)
         if (skb_is_gso(skb))
                 return ip_finish_output_gso(sk, skb, mtu);
  
-       if (skb->len > mtu)
+       if (skb->len > mtu || (IPCB(skb)->flags & IPSKB_FRAG_PMTU))
                 return ip_fragment(sk, skb, mtu, ip_finish_output2);
  
         return ip_finish_output2(sk, skb);
@@ -492,7 +492,10 @@ static int ip_fragment(struct sock *sk, struct sk_buff *skb,
  {
         struct iphdr *iph = ip_hdr(skb);
  
-       if (unlikely(((iph->frag_off & htons(IP_DF)) && !skb->ignore_df) ||
+       if ((iph->frag_off & htons(IP_DF)) == 0)
+               return ip_do_fragment(sk, skb, output);
+
+       if (unlikely(!skb->ignore_df ||
                      (IPCB(skb)->frag_max_size &&
                       IPCB(skb)->frag_max_size > mtu))) {
                 struct rtable *rt = skb_rtable(skb);
@@ -537,6 +540,8 @@ int ip_do_fragment(struct sock *sk, struct sk_buff *skb,
         iph = ip_hdr(skb);
  
         mtu = ip_skb_dst_mtu(skb);
+       if (IPCB(skb)->frag_max_size && IPCB(skb)->frag_max_size < mtu)
+               mtu = IPCB(skb)->frag_max_size;
  
         /*
          *      Setup starting values.
@@ -732,6 +737,9 @@ slow_path:
                 iph = ip_hdr(skb2);
                 iph->frag_off = htons((offset >> 3));
  
+               if (IPCB(skb)->flags & IPSKB_FRAG_PMTU)
+                       iph->frag_off |= htons(IP_DF);
+
                 /* ANK: dirty, but effective trick. Upgrade options only if
                  * the segment to be fragmented was THE FIRST (otherwise,
                  * options are already fixed) and make it ONCE
author	Florian Westphal <fw@strlen.de>
	Fri, 22 May 2015 14:32:51 +0000 (16:32 +0200)
committer	David S. Miller <davem@davemloft.net>
	Wed, 27 May 2015 17:03:31 +0000 (13:03 -0400)
include/net/inet_frag.h		patch \| blob \| history
include/net/ip.h		patch \| blob \| history
net/ipv4/ip_fragment.c		patch \| blob \| history
net/ipv4/ip_output.c		patch \| blob \| history