[clangd] Don't clone SymbolSlab::Builder arenas when finalizing.
authorSam McCall <sam.mccall@gmail.com>
Wed, 5 Oct 2022 00:22:38 +0000 (02:22 +0200)
committerSam McCall <sam.mccall@gmail.com>
Wed, 5 Oct 2022 18:55:53 +0000 (20:55 +0200)
SymbolSlab::Builder has an arena to store strings of owned symbols, and
deduplicates them. build() copies all the strings and deduplicates them again!
This is potentially useful: we may have overwritten a symbol and
rendered some strings unreachable.

However in practice this is not the case. When testing on a variety of
files in LLVM (e.g. SemaExpr.cpp), the strings for the full preamble
index are 3MB and shrink by 0.4% (12KB). For comparison the serializde
preamble is >50MB.
There are also hundreds of smaller slabs (file sharding) that do not shrink at
all.

CPU time spent on this is significant (something like 3-5% of buildPreamble).
We're better off not bothering.

Differential Revision: https://reviews.llvm.org/D135231

clang-tools-extra/clangd/index/Symbol.cpp

index 365acee..ac840a6 100644 (file)
@@ -61,12 +61,9 @@ SymbolSlab SymbolSlab::Builder::build() && {
     SortedSymbols.push_back(std::move(Entry.second));
   llvm::sort(SortedSymbols,
              [](const Symbol &L, const Symbol &R) { return L.ID < R.ID; });
-  // We may have unused strings from overwritten symbols. Build a new arena.
-  llvm::BumpPtrAllocator NewArena;
-  llvm::UniqueStringSaver Strings(NewArena);
-  for (auto &S : SortedSymbols)
-    own(S, Strings);
-  return SymbolSlab(std::move(NewArena), std::move(SortedSymbols));
+  // We may have unused strings from overwritten symbols.
+  // In practice, these are extremely small, it's not worth compacting.
+  return SymbolSlab(std::move(Arena), std::move(SortedSymbols));
 }
 
 llvm::raw_ostream &operator<<(llvm::raw_ostream &OS, const SymbolSlab &Slab) {