btrfs: defrag: don't use merged extent map for their generation check
authorQu Wenruo <wqu@suse.com>
Fri, 11 Feb 2022 06:46:13 +0000 (14:46 +0800)
committerDavid Sterba <dsterba@suse.com>
Wed, 23 Feb 2022 16:43:13 +0000 (17:43 +0100)
For extent maps, if they are not compressed extents and are adjacent by
logical addresses and file offsets, they can be merged into one larger
extent map.

Such merged extent map will have the higher generation of all the
original ones.

But this brings a problem for autodefrag, as it relies on accurate
extent_map::generation to determine if one extent should be defragged.

For merged extent maps, their higher generation can mark some older
extents to be defragged while the original extent map doesn't meet the
minimal generation threshold.

Thus this will cause extra IO.

So solve the problem, here we introduce a new flag, EXTENT_FLAG_MERGED,
to indicate if the extent map is merged from one or more ems.

And for autodefrag, if we find a merged extent map, and its generation
meets the generation requirement, we just don't use this one, and go
back to defrag_get_extent() to read extent maps from subvolume trees.

This could cause more read IO, but should result less defrag data write,
so in the long run it should be a win for autodefrag.

Reviewed-by: Filipe Manana <fdmanana@suse.com>
Signed-off-by: Qu Wenruo <wqu@suse.com>
Signed-off-by: David Sterba <dsterba@suse.com>
fs/btrfs/extent_map.c
fs/btrfs/extent_map.h
fs/btrfs/ioctl.c

index 5a36add..c28cedd 100644 (file)
@@ -261,6 +261,7 @@ static void try_merge_map(struct extent_map_tree *tree, struct extent_map *em)
                        em->mod_len = (em->mod_len + em->mod_start) - merge->mod_start;
                        em->mod_start = merge->mod_start;
                        em->generation = max(em->generation, merge->generation);
+                       set_bit(EXTENT_FLAG_MERGED, &em->flags);
 
                        rb_erase_cached(&merge->rb_node, &tree->map);
                        RB_CLEAR_NODE(&merge->rb_node);
@@ -278,6 +279,7 @@ static void try_merge_map(struct extent_map_tree *tree, struct extent_map *em)
                RB_CLEAR_NODE(&merge->rb_node);
                em->mod_len = (merge->mod_start + merge->mod_len) - em->mod_start;
                em->generation = max(em->generation, merge->generation);
+               set_bit(EXTENT_FLAG_MERGED, &em->flags);
                free_extent_map(merge);
        }
 }
index 8e21733..d2fa32f 100644 (file)
@@ -25,6 +25,8 @@ enum {
        EXTENT_FLAG_FILLING,
        /* filesystem extent mapping type */
        EXTENT_FLAG_FS_MAPPING,
+       /* This em is merged from two or more physically adjacent ems */
+       EXTENT_FLAG_MERGED,
 };
 
 struct extent_map {
@@ -40,6 +42,12 @@ struct extent_map {
        u64 ram_bytes;
        u64 block_start;
        u64 block_len;
+
+       /*
+        * Generation of the extent map, for merged em it's the highest
+        * generation of all merged ems.
+        * For non-merged extents, it's from btrfs_file_extent_item::generation.
+        */
        u64 generation;
        unsigned long flags;
        /* Used for chunk mappings, flag EXTENT_FLAG_FS_MAPPING must be set */
index ffebd42..1398d7b 100644 (file)
@@ -1175,6 +1175,20 @@ static struct extent_map *defrag_lookup_extent(struct inode *inode, u64 start,
        em = lookup_extent_mapping(em_tree, start, sectorsize);
        read_unlock(&em_tree->lock);
 
+       /*
+        * We can get a merged extent, in that case, we need to re-search
+        * tree to get the original em for defrag.
+        *
+        * If @newer_than is 0 or em::generation < newer_than, we can trust
+        * this em, as either we don't care about the generation, or the
+        * merged extent map will be rejected anyway.
+        */
+       if (em && test_bit(EXTENT_FLAG_MERGED, &em->flags) &&
+           newer_than && em->generation >= newer_than) {
+               free_extent_map(em);
+               em = NULL;
+       }
+
        if (!em) {
                struct extent_state *cached = NULL;
                u64 end = start + sectorsize - 1;