improve bloom filter on send
[platform/upstream/glib.git] / gio / gvdb / gvdb-builder.c
1 /*
2  * Copyright © 2010 Codethink Limited
3  *
4  * This library is free software; you can redistribute it and/or
5  * modify it under the terms of the GNU Lesser General Public
6  * License as published by the Free Software Foundation; either
7  * version 2 of the licence, or (at your option) any later version.
8  *
9  * This library is distributed in the hope that it will be useful,
10  * but WITHOUT ANY WARRANTY; without even the implied warranty of
11  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
12  * Lesser General Public License for more details.
13  *
14  * You should have received a copy of the GNU Lesser General Public
15  * License along with this library; if not, see <http://www.gnu.org/licenses/>.
16  *
17  * Author: Ryan Lortie <desrt@desrt.ca>
18  */
19
20 #include "gvdb-builder.h"
21 #include "gvdb-format.h"
22
23 #include <glib.h>
24 #include <fcntl.h>
25 #if !defined(G_OS_WIN32) || !defined(_MSC_VER)
26 #include <unistd.h>
27 #endif
28 #include <string.h>
29
30
31 struct _GvdbItem
32 {
33   gchar *key;
34   guint32 hash_value;
35   guint32_le assigned_index;
36   GvdbItem *parent;
37   GvdbItem *sibling;
38   GvdbItem *next;
39
40   /* one of:
41    * this:
42    */
43   GVariant *value;
44
45   /* this: */
46   GHashTable *table;
47
48   /* or this: */
49   GvdbItem *child;
50 };
51
52 static void
53 gvdb_item_free (gpointer data)
54 {
55   GvdbItem *item = data;
56
57   g_free (item->key);
58
59   if (item->value)
60     g_variant_unref (item->value);
61
62   if (item->table)
63     g_hash_table_unref (item->table);
64
65   g_slice_free (GvdbItem, item);
66 }
67
68 GHashTable *
69 gvdb_hash_table_new (GHashTable  *parent,
70                      const gchar *name_in_parent)
71 {
72   GHashTable *table;
73
74   table = g_hash_table_new_full (g_str_hash, g_str_equal,
75                                  g_free, gvdb_item_free);
76
77   if (parent)
78     {
79       GvdbItem *item;
80
81       item = gvdb_hash_table_insert (parent, name_in_parent);
82       gvdb_item_set_hash_table (item, table);
83     }
84
85   return table;
86 }
87
88 static guint32
89 djb_hash (const gchar *key)
90 {
91   guint32 hash_value = 5381;
92
93   while (*key)
94     hash_value = hash_value * 33 + *(signed char *)key++;
95
96   return hash_value;
97 }
98
99 GvdbItem *
100 gvdb_hash_table_insert (GHashTable  *table,
101                         const gchar *key)
102 {
103   GvdbItem *item;
104
105   item = g_slice_new0 (GvdbItem);
106   item->key = g_strdup (key);
107   item->hash_value = djb_hash (key);
108
109   g_hash_table_insert (table, g_strdup (key), item);
110
111   return item;
112 }
113
114 void
115 gvdb_hash_table_insert_string (GHashTable  *table,
116                                const gchar *key,
117                                const gchar *value)
118 {
119   GvdbItem *item;
120
121   item = gvdb_hash_table_insert (table, key);
122   gvdb_item_set_value (item, g_variant_new_string (value));
123 }
124
125 void
126 gvdb_item_set_value (GvdbItem *item,
127                      GVariant *value)
128 {
129   g_return_if_fail (!item->value && !item->table && !item->child);
130
131   item->value = g_variant_ref_sink (value);
132 }
133
134 void
135 gvdb_item_set_hash_table (GvdbItem   *item,
136                           GHashTable *table)
137 {
138   g_return_if_fail (!item->value && !item->table && !item->child);
139
140   item->table = g_hash_table_ref (table);
141 }
142
143 void
144 gvdb_item_set_parent (GvdbItem *item,
145                       GvdbItem *parent)
146 {
147   GvdbItem **node;
148
149   g_return_if_fail (g_str_has_prefix (item->key, parent->key));
150   g_return_if_fail (!parent->value && !parent->table);
151   g_return_if_fail (!item->parent && !item->sibling);
152
153   for (node = &parent->child; *node; node = &(*node)->sibling)
154     if (strcmp ((*node)->key, item->key) > 0)
155       break;
156
157   item->parent = parent;
158   item->sibling = *node;
159   *node = item;
160 }
161
162 typedef struct
163 {
164   GvdbItem **buckets;
165   gint n_buckets;
166 } HashTable;
167
168 static HashTable *
169 hash_table_new (gint n_buckets)
170 {
171   HashTable *table;
172
173   table = g_slice_new (HashTable);
174   table->buckets = g_new0 (GvdbItem *, n_buckets);
175   table->n_buckets = n_buckets;
176
177   return table;
178 }
179
180 static void
181 hash_table_free (HashTable *table)
182 {
183   g_free (table->buckets);
184
185   g_slice_free (HashTable, table);
186 }
187
188 static void
189 hash_table_insert (gpointer key,
190                    gpointer value,
191                    gpointer data)
192 {
193   guint32 hash_value, bucket;
194   HashTable *table = data;
195   GvdbItem *item = value;
196
197   hash_value = djb_hash (key);
198   bucket = hash_value % table->n_buckets;
199   item->next = table->buckets[bucket];
200   table->buckets[bucket] = item;
201 }
202
203 static guint32_le
204 item_to_index (GvdbItem *item)
205 {
206   if (item != NULL)
207     return item->assigned_index;
208
209   return guint32_to_le (-1u);
210 }
211
212 typedef struct
213 {
214   GQueue *chunks;
215   guint64 offset;
216   gboolean byteswap;
217 } FileBuilder;
218
219 typedef struct
220 {
221   gsize offset;
222   gsize size;
223   gpointer data;
224 } FileChunk;
225
226 static gpointer
227 file_builder_allocate (FileBuilder         *fb,
228                        guint                alignment,
229                        gsize                size,
230                        struct gvdb_pointer *pointer)
231 {
232   FileChunk *chunk;
233
234   if (size == 0)
235     return NULL;
236
237   fb->offset += (-fb->offset) & (alignment - 1);
238   chunk = g_slice_new (FileChunk);
239   chunk->offset = fb->offset;
240   chunk->size = size;
241   chunk->data = g_malloc (size);
242
243   pointer->start = guint32_to_le (fb->offset);
244   fb->offset += size;
245   pointer->end = guint32_to_le (fb->offset);
246
247   g_queue_push_tail (fb->chunks, chunk);
248
249   return chunk->data;
250 }
251
252 static void
253 file_builder_add_value (FileBuilder         *fb,
254                         GVariant            *value,
255                         struct gvdb_pointer *pointer)
256 {
257   GVariant *variant, *normal;
258   gpointer data;
259   gsize size;
260
261   if (fb->byteswap)
262     {
263       value = g_variant_byteswap (value);
264       variant = g_variant_new_variant (value);
265       g_variant_unref (value);
266     }
267   else
268     variant = g_variant_new_variant (value);
269
270   normal = g_variant_get_normal_form (variant);
271   g_variant_unref (variant);
272
273   size = g_variant_get_size (normal);
274   data = file_builder_allocate (fb, 8, size, pointer);
275   g_variant_store (normal, data);
276   g_variant_unref (normal);
277 }
278
279 static void
280 file_builder_add_string (FileBuilder *fb,
281                          const gchar *string,
282                          guint32_le  *start,
283                          guint16_le  *size)
284 {
285   FileChunk *chunk;
286   gsize length;
287
288   length = strlen (string);
289
290   chunk = g_slice_new (FileChunk);
291   chunk->offset = fb->offset;
292   chunk->size = length;
293   chunk->data = g_malloc (length);
294   memcpy (chunk->data, string, length);
295
296   *start = guint32_to_le (fb->offset);
297   *size = guint16_to_le (length);
298   fb->offset += length;
299
300   g_queue_push_tail (fb->chunks, chunk);
301 }
302
303 static void
304 file_builder_allocate_for_hash (FileBuilder            *fb,
305                                 gsize                   n_buckets,
306                                 gsize                   n_items,
307                                 guint                   bloom_shift,
308                                 gsize                   n_bloom_words,
309                                 guint32_le            **bloom_filter,
310                                 guint32_le            **hash_buckets,
311                                 struct gvdb_hash_item **hash_items,
312                                 struct gvdb_pointer    *pointer)
313 {
314   guint32_le bloom_hdr, table_hdr;
315   guchar *data;
316   gsize size;
317
318   g_assert (n_bloom_words < (1u << 27));
319
320   bloom_hdr = guint32_to_le (bloom_shift << 27 | n_bloom_words);
321   table_hdr = guint32_to_le (n_buckets);
322
323   size = sizeof bloom_hdr + sizeof table_hdr +
324          n_bloom_words * sizeof (guint32_le) +
325          n_buckets     * sizeof (guint32_le) +
326          n_items       * sizeof (struct gvdb_hash_item);
327
328   data = file_builder_allocate (fb, 4, size, pointer);
329
330 #define chunk(s) (size -= (s), data += (s), data - (s))
331   memcpy (chunk (sizeof bloom_hdr), &bloom_hdr, sizeof bloom_hdr);
332   memcpy (chunk (sizeof table_hdr), &table_hdr, sizeof table_hdr);
333   *bloom_filter = (guint32_le *) chunk (n_bloom_words * sizeof (guint32_le));
334   *hash_buckets = (guint32_le *) chunk (n_buckets * sizeof (guint32_le));
335   *hash_items = (struct gvdb_hash_item *) chunk (n_items *
336                   sizeof (struct gvdb_hash_item));
337   g_assert (size == 0);
338 #undef chunk
339
340   memset (*bloom_filter, 0, n_bloom_words * sizeof (guint32_le));
341 }
342
343 static void
344 file_builder_add_hash (FileBuilder         *fb,
345                        GHashTable          *table,
346                        struct gvdb_pointer *pointer)
347 {
348   guint32_le *buckets, *bloom_filter;
349   struct gvdb_hash_item *items;
350   HashTable *mytable;
351   GvdbItem *item;
352   guint32 index;
353   gint bucket;
354
355   mytable = hash_table_new (g_hash_table_size (table));
356   g_hash_table_foreach (table, hash_table_insert, mytable);
357   index = 0;
358
359   for (bucket = 0; bucket < mytable->n_buckets; bucket++)
360     for (item = mytable->buckets[bucket]; item; item = item->next)
361       item->assigned_index = guint32_to_le (index++);
362
363   file_builder_allocate_for_hash (fb, mytable->n_buckets, index, 5, 0,
364                                   &bloom_filter, &buckets, &items, pointer);
365
366   index = 0;
367   for (bucket = 0; bucket < mytable->n_buckets; bucket++)
368     {
369       buckets[bucket] = guint32_to_le (index);
370
371       for (item = mytable->buckets[bucket]; item; item = item->next)
372         {
373           struct gvdb_hash_item *entry = items++;
374           const gchar *basename;
375
376           g_assert (index == guint32_from_le (item->assigned_index));
377           entry->hash_value = guint32_to_le (item->hash_value);
378           entry->parent = item_to_index (item->parent);
379           entry->unused = 0;
380
381           if (item->parent != NULL)
382             basename = item->key + strlen (item->parent->key);
383           else
384             basename = item->key;
385
386           file_builder_add_string (fb, basename,
387                                    &entry->key_start,
388                                    &entry->key_size);
389
390           if (item->value != NULL)
391             {
392               g_assert (item->child == NULL && item->table == NULL);
393
394               file_builder_add_value (fb, item->value, &entry->value.pointer);
395               entry->type = 'v';
396             }
397
398           if (item->child != NULL)
399             {
400               guint32 children = 0, i = 0;
401               guint32_le *offsets;
402               GvdbItem *child;
403
404               g_assert (item->table == NULL);
405
406               for (child = item->child; child; child = child->sibling)
407                 children++;
408
409               offsets = file_builder_allocate (fb, 4, 4 * children,
410                                                &entry->value.pointer);
411               entry->type = 'L';
412
413               for (child = item->child; child; child = child->sibling)
414                 offsets[i++] = child->assigned_index;
415
416               g_assert (children == i);
417             }
418
419           if (item->table != NULL)
420             {
421               entry->type = 'H';
422               file_builder_add_hash (fb, item->table, &entry->value.pointer);
423             }
424
425           index++;
426         }
427     }
428
429   hash_table_free (mytable);
430 }
431
432 static FileBuilder *
433 file_builder_new (gboolean byteswap)
434 {
435   FileBuilder *builder;
436
437   builder = g_slice_new (FileBuilder);
438   builder->chunks = g_queue_new ();
439   builder->offset = sizeof (struct gvdb_header);
440   builder->byteswap = byteswap;
441
442   return builder;
443 }
444
445 static GString *
446 file_builder_serialise (FileBuilder          *fb,
447                         struct gvdb_pointer   root)
448 {
449   struct gvdb_header header = { { 0, }, };
450   GString *result;
451
452   if (fb->byteswap)
453     {
454       header.signature[0] = GVDB_SWAPPED_SIGNATURE0;
455       header.signature[1] = GVDB_SWAPPED_SIGNATURE1;
456     }
457   else
458     {
459       header.signature[0] = GVDB_SIGNATURE0;
460       header.signature[1] = GVDB_SIGNATURE1;
461     }
462
463   result = g_string_new (NULL);
464
465   header.root = root;
466   g_string_append_len (result, (gpointer) &header, sizeof header);
467
468   while (!g_queue_is_empty (fb->chunks))
469     {
470       FileChunk *chunk = g_queue_pop_head (fb->chunks);
471
472       if (result->len != chunk->offset)
473         {
474           gchar zero[8] = { 0, };
475
476           g_assert (chunk->offset > result->len);
477           g_assert (chunk->offset - result->len < 8);
478
479           g_string_append_len (result, zero, chunk->offset - result->len);
480           g_assert (result->len == chunk->offset);
481         }
482
483       g_string_append_len (result, chunk->data, chunk->size);
484       g_free (chunk->data);
485
486       g_slice_free (FileChunk, chunk);
487     }
488
489   g_queue_free (fb->chunks);
490   g_slice_free (FileBuilder, fb);
491
492   return result;
493 }
494
495 gboolean
496 gvdb_table_write_contents (GHashTable   *table,
497                            const gchar  *filename,
498                            gboolean      byteswap,
499                            GError      **error)
500 {
501   struct gvdb_pointer root;
502   gboolean status;
503   FileBuilder *fb;
504   GString *str;
505
506   fb = file_builder_new (byteswap);
507   file_builder_add_hash (fb, table, &root);
508   str = file_builder_serialise (fb, root);
509
510   status = g_file_set_contents (filename, str->str, str->len, error);
511   g_string_free (str, TRUE);
512
513   return status;
514 }