- clean up repo parsing code
[platform/upstream/libsolv.git] / ext / repo_deltainfoxml.c
1 /*
2  * Copyright (c) 2007, Novell Inc.
3  *
4  * This program is licensed under the BSD license, read LICENSE.BSD
5  * for further information
6  */
7
8 #define DO_ARRAY 1
9
10 #define _GNU_SOURCE
11 #include <sys/types.h>
12 #include <limits.h>
13 #include <fcntl.h>
14 #include <stdio.h>
15 #include <stdlib.h>
16 #include <string.h>
17 #include <expat.h>
18
19 #include "pool.h"
20 #include "repo.h"
21 #include "chksum.h"
22 #include "repo_updateinfoxml.h"
23
24 #define DISABLE_SPLIT
25 #include "tools_util.h"
26
27 /* #define DUMPOUT 1 */
28
29 /*
30  * <deltainfo>
31  *   <newpackage name="libtool" epoch="0" version="1.5.24" release="6.fc9" arch="i386">
32  *     <delta oldepoch="0" oldversion="1.5.24" oldrelease="3.fc8">
33  *       <filename>DRPMS/libtool-1.5.24-3.fc8_1.5.24-6.fc9.i386.drpm</filename>
34  *       <sequence>libtool-1.5.24-3.fc8-d3571f98b048b1a870e40241bb46c67ab4</sequence>
35  *       <size>22452</size>
36  *       <checksum type="sha">8f05394695dee9399c204614e21e5f6848990ab7</checksum>
37  *     </delta>
38  *     <delta oldepoch="0" oldversion="1.5.22" oldrelease="11.fc7">
39  *       <filename>DRPMS/libtool-1.5.22-11.fc7_1.5.24-6.fc9.i386.drpm</filename>
40  *        <sequence>libtool-1.5.22-11.fc7-e82691677eee1e83b4812572c5c9ce8eb</sequence>
41  *        <size>110362</size>
42  *        <checksum type="sha">326658fee45c0baec1e70231046dbaf560f941ce</checksum>
43  *      </delta>
44  *    </newpackage>
45  *  </deltainfo>
46  */
47
48 enum state {
49   STATE_START,
50   STATE_NEWPACKAGE,     /* 1 */
51   STATE_DELTA,          /* 2 */
52   STATE_FILENAME,       /* 3 */
53   STATE_SEQUENCE,       /* 4 */
54   STATE_SIZE,           /* 5 */
55   STATE_CHECKSUM,       /* 6 */
56   STATE_LOCATION,       /* 7 */
57   NUMSTATES
58 };
59
60 struct stateswitch {
61   enum state from;
62   char *ename;
63   enum state to;
64   int docontent;
65 };
66
67 /* !! must be sorted by first column !! */
68 static struct stateswitch stateswitches[] = {
69   /* compatibility with old yum-presto */
70   { STATE_START,       "prestodelta",     STATE_START, 0 },
71   { STATE_START,       "deltainfo",       STATE_START, 0 },
72   { STATE_START,       "newpackage",      STATE_NEWPACKAGE,  0 },
73   { STATE_NEWPACKAGE,  "delta",           STATE_DELTA,       0 },
74   /* compatibility with yum-presto */
75   { STATE_DELTA,       "filename",        STATE_FILENAME,    1 },
76   { STATE_DELTA,       "location",        STATE_LOCATION,    0 },
77   { STATE_DELTA,       "sequence",        STATE_SEQUENCE,    1 },
78   { STATE_DELTA,       "size",            STATE_SIZE,        1 },
79   { STATE_DELTA,       "checksum",        STATE_CHECKSUM,    1 },
80   { NUMSTATES }
81 };
82
83 /* Cumulated info about the current deltarpm or patchrpm */
84 struct deltarpm {
85   Id locdir;
86   Id locname;
87   Id locevr;
88   Id locsuffix;
89   unsigned buildtime;
90   unsigned downloadsize, archivesize;
91   char *filechecksum;
92   int filechecksumtype;
93   /* Baseversion.  deltarpm only has one. */
94   Id *bevr;
95   unsigned nbevr;
96   Id seqname;
97   Id seqevr;
98   char *seqnum;
99 };
100
101 struct parsedata {
102   int depth;
103   enum state state;
104   int statedepth;
105   char *content;
106   int lcontent;
107   int acontent;
108   int docontent;
109   Pool *pool;
110   Repo *repo;
111   Repodata *data;
112   
113   struct stateswitch *swtab[NUMSTATES];
114   enum state sbtab[NUMSTATES];
115   char *tempstr;
116   int ltemp;
117   int atemp;
118   struct deltarpm delta;
119   Id newpkgevr;
120   Id newpkgname;
121   Id newpkgarch;
122
123   Id *handles;
124   int nhandles;
125 };
126
127 /*
128  * find attribute
129  */
130
131 static const char *
132 find_attr(const char *txt, const char **atts)
133 {
134   for (; *atts; atts += 2)
135     {
136       if (!strcmp(*atts, txt))
137         return atts[1];
138     }
139   return 0;
140 }
141
142
143 /*
144  * create evr (as Id) from 'epoch', 'version' and 'release' attributes
145  */
146
147 static Id
148 makeevr_atts(Pool *pool, struct parsedata *pd, const char **atts)
149 {
150   const char *e, *v, *r, *v2;
151   char *c;
152   int l;
153
154   e = v = r = 0;
155   for (; *atts; atts += 2)
156     {
157       if (!strcmp(*atts, "oldepoch"))
158         e = atts[1];
159       else if (!strcmp(*atts, "epoch"))
160         e = atts[1];
161       else if (!strcmp(*atts, "version"))
162         v = atts[1];
163       else if (!strcmp(*atts, "oldversion"))
164         v = atts[1];
165       else if (!strcmp(*atts, "release"))
166         r = atts[1];
167       else if (!strcmp(*atts, "oldrelease"))
168         r = atts[1];
169     }
170   if (e && !strcmp(e, "0"))
171     e = 0;
172   if (v && !e)
173     {
174       for (v2 = v; *v2 >= '0' && *v2 <= '9'; v2++)
175         ;
176       if (v2 > v && *v2 == ':')
177         e = "0";
178     }
179   l = 1;
180   if (e)
181     l += strlen(e) + 1;
182   if (v)
183     l += strlen(v);
184   if (r)
185     l += strlen(r) + 1;
186   if (l > pd->acontent)
187     {
188       pd->content = solv_realloc(pd->content, l + 256);
189       pd->acontent = l + 256;
190     }
191   c = pd->content;
192   if (e)
193     {
194       strcpy(c, e);
195       c += strlen(c);
196       *c++ = ':';
197     }
198   if (v)
199     {
200       strcpy(c, v);
201       c += strlen(c);
202     }
203   if (r)
204     {
205       *c++ = '-';
206       strcpy(c, r);
207       c += strlen(c);
208     }
209   *c = 0;
210   if (!*pd->content)
211     return 0;
212 #if 0
213   fprintf(stderr, "evr: %s\n", pd->content);
214 #endif
215   return pool_str2id(pool, pd->content, 1);
216 }
217
218 static void parse_delta_location( struct parsedata *pd, 
219                                   const char* str )
220 {
221   Pool *pool = pd->pool;
222   if (str)
223     {
224       /* Separate the filename into its different parts.
225          rpm/x86_64/alsa-1.0.14-31_31.2.x86_64.delta.rpm
226          --> dir = rpm/x86_64
227          name = alsa
228          evr = 1.0.14-31_31.2
229          suffix = x86_64.delta.rpm.  */
230       char *real_str = solv_strdup(str);
231       char *s = real_str;
232       char *s1, *s2;
233       s1 = strrchr (s, '/');
234       if (s1)
235         {
236           pd->delta.locdir = pool_strn2id(pool, s, s1 - s, 1);
237           s = s1 + 1;
238         }
239       /* Guess suffix.  */
240       s1 = strrchr (s, '.');
241       if (s1)
242         {
243           for (s2 = s1 - 1; s2 > s; s2--)
244             if (*s2 == '.')
245               break;
246           if (!strcmp (s2, ".delta.rpm") || !strcmp (s2, ".patch.rpm"))
247             {
248               s1 = s2;
249               /* We accept one more item as suffix.  */
250               for (s2 = s1 - 1; s2 > s; s2--)
251                 if (*s2 == '.')
252                   break;
253               s1 = s2;
254             }
255           if (*s1 == '.')
256             *s1++ = 0;
257           pd->delta.locsuffix = pool_str2id(pool, s1, 1); 
258         }
259       /* Last '-'.  */
260       s1 = strrchr (s, '-');
261       if (s1)
262         {
263           /* Second to last '-'.  */
264           for (s2 = s1 - 1; s2 > s; s2--)
265             if (*s2 == '-')
266               break;
267         }
268       else
269         s2 = 0;
270       if (s2 > s && *s2 == '-')
271         {
272           *s2++ = 0;
273           pd->delta.locevr = pool_str2id(pool, s2, 1);
274         }
275       pd->delta.locname = pool_str2id(pool, s, 1);
276       free(real_str);
277     }
278 }
279                                  
280 static void XMLCALL
281 startElement(void *userData, const char *name, const char **atts)
282 {
283   struct parsedata *pd = userData;
284   Pool *pool = pd->pool;
285   struct stateswitch *sw;
286   const char *str;
287
288 #if 0
289   fprintf(stderr, "start: [%d]%s\n", pd->state, name);
290 #endif
291   if (pd->depth != pd->statedepth)
292     {
293       pd->depth++;
294       return;
295     }
296
297   pd->depth++;
298   if (!pd->swtab[pd->state])
299     return;
300   for (sw = pd->swtab[pd->state]; sw->from == pd->state; sw++)  /* find name in statetable */
301     if (!strcmp(sw->ename, name))
302       break;
303   if (sw->from != pd->state)
304     {
305 #if 0
306       fprintf(stderr, "into unknown: [%d]%s (from: %d)\n", sw->to, name, sw->from);
307       exit( 1 );
308 #endif
309       return;
310     }
311   pd->state = sw->to;
312   pd->docontent = sw->docontent;
313   pd->statedepth = pd->depth;
314   pd->lcontent = 0;
315   *pd->content = 0;
316
317   switch(pd->state)
318     {
319     case STATE_START:
320       break;
321     case STATE_NEWPACKAGE:
322       if ((str = find_attr("name", atts)) != 0)
323         pd->newpkgname = pool_str2id(pool, str, 1);
324       pd->newpkgevr = makeevr_atts(pool, pd, atts);
325       if ((str = find_attr("arch", atts)) != 0)
326         pd->newpkgarch = pool_str2id(pool, str, 1);
327       break;
328
329     case STATE_DELTA:
330       memset(&pd->delta, 0, sizeof(pd->delta));
331       *pd->tempstr = 0;
332       pd->ltemp = 0;
333       pd->delta.bevr = solv_extend(pd->delta.bevr, pd->delta.nbevr, 1, sizeof(Id), 7);
334       pd->delta.bevr[pd->delta.nbevr++] = makeevr_atts(pool, pd, atts);
335       break;
336     case STATE_FILENAME:
337       break;
338     case STATE_LOCATION:
339       parse_delta_location(pd, find_attr("href", atts));
340       break;
341     case STATE_SIZE:
342       break;
343     case STATE_CHECKSUM:
344       pd->delta.filechecksum = 0;
345       pd->delta.filechecksumtype = REPOKEY_TYPE_SHA1;
346       if ((str = find_attr("type", atts)) != 0)
347         {
348           pd->delta.filechecksumtype = solv_chksum_str2type(str);
349           if (!pd->delta.filechecksumtype)
350             pool_debug(pool, SOLV_ERROR, "unknown checksum type: '%s'\n", str);
351         }
352     case STATE_SEQUENCE:
353       break;
354     default:
355       break;
356     }
357 }
358
359
360 static void XMLCALL
361 endElement(void *userData, const char *name)
362 {
363   struct parsedata *pd = userData;
364   Pool *pool = pd->pool;
365   const char *str;
366
367 #if 0
368   fprintf(stderr, "end: %s\n", name);
369 #endif
370   if (pd->depth != pd->statedepth)
371     {
372       pd->depth--;
373 #if 0
374       fprintf(stderr, "back from unknown %d %d %d\n", pd->state, pd->depth, pd->statedepth);
375 #endif
376       return;
377     }
378
379   pd->depth--;
380   pd->statedepth--;
381   switch (pd->state)
382     {
383     case STATE_START:
384       break;
385     case STATE_NEWPACKAGE:
386       break;
387     case STATE_DELTA:
388       {
389         /* read all data for a deltarpm. commit into attributes */
390         Id handle;
391         struct deltarpm *d = &pd->delta;
392 #ifdef DUMPOUT
393         int i;
394 #endif
395
396 #ifdef DUMPOUT
397
398         fprintf (stderr, "found deltarpm for %s:\n", id2str(pool, pd->newpkgname));
399 #endif
400         handle = repodata_new_handle(pd->data);
401         /* we commit all handles later on in one go so that the
402          * repodata code doesn't need to realloc every time */
403         pd->handles = solv_extend(pd->handles, pd->nhandles, 1, sizeof(Id), 63);
404         pd->handles[pd->nhandles++] = handle;
405         repodata_set_id(pd->data, handle, DELTA_PACKAGE_NAME, pd->newpkgname);
406         repodata_set_id(pd->data, handle, DELTA_PACKAGE_EVR, pd->newpkgevr);
407         repodata_set_id(pd->data, handle, DELTA_PACKAGE_ARCH, pd->newpkgarch);
408         repodata_set_id(pd->data, handle, DELTA_LOCATION_NAME, d->locname);
409         repodata_set_id(pd->data, handle, DELTA_LOCATION_DIR, d->locdir);
410         repodata_set_id(pd->data, handle, DELTA_LOCATION_EVR, d->locevr);
411         repodata_set_id(pd->data, handle, DELTA_LOCATION_SUFFIX, d->locsuffix);
412         if (d->downloadsize)
413           repodata_set_num(pd->data, handle, DELTA_DOWNLOADSIZE, (d->downloadsize + 1023) / 1024);
414         if (d->filechecksum)
415           repodata_set_checksum(pd->data, handle, DELTA_CHECKSUM, d->filechecksumtype, d->filechecksum);
416 #ifdef DUMPOUT
417         fprintf (stderr, "   loc: %s %s %s %s\n", id2str(pool, d->locdir),
418                  id2str(pool, d->locname), id2str(pool, d->locevr),
419                  id2str(pool, d->locsuffix));
420         fprintf (stderr, "  size: %d down\n", d->downloadsize);
421         fprintf (stderr, "  chek: %s\n", d->filechecksum);
422 #endif
423
424         if (d->seqnum)
425           {
426 #ifdef DUMPOUT
427             fprintf (stderr, "  base: %s\n",
428                      id2str(pool, d->bevr[0]));
429             fprintf (stderr, "            seq: %s\n",
430                      id2str(pool, d->seqname));
431             fprintf (stderr, "                 %s\n",
432                      id2str(pool, d->seqevr));
433             fprintf (stderr, "                 %s\n",
434                      d->seqnum);
435 #endif
436             repodata_set_id(pd->data, handle, DELTA_BASE_EVR, d->bevr[0]);
437             repodata_set_id(pd->data, handle, DELTA_SEQ_NAME, d->seqname);
438             repodata_set_id(pd->data, handle, DELTA_SEQ_EVR, d->seqevr);
439             /* should store as binary blob! */
440             repodata_set_str(pd->data, handle, DELTA_SEQ_NUM, d->seqnum);
441
442 #ifdef DUMPOUT
443             fprintf(stderr, "OK\n");
444 #endif
445
446 #ifdef DUMPOUT              
447             if (d->seqevr != d->bevr[0])
448               fprintf (stderr, "XXXXX evr\n");
449             /* Name of package ("xxxx") should match the sequence info
450                name.  */
451             if (strcmp(id2str(pool, d->seqname), id2str(pool, pd->newpkgname)))
452               fprintf (stderr, "XXXXX name\n");
453 #endif
454           }
455         else
456           {
457
458 #ifdef DUMPOUT                          
459             fprintf (stderr, "  base:");
460             for (i = 0; i < d->nbevr; i++)
461               fprintf (stderr, " %s", id2str(pool, d->bevr[i]));
462             fprintf (stderr, "\n");
463 #endif
464           }
465
466       }
467       pd->delta.filechecksum = solv_free(pd->delta.filechecksum);
468       pd->delta.bevr = solv_free(pd->delta.bevr);
469       pd->delta.nbevr = 0;
470       pd->delta.seqnum = solv_free(pd->delta.seqnum);
471       break;
472     case STATE_FILENAME:
473       parse_delta_location(pd, pd->content);
474       break;
475     case STATE_CHECKSUM:
476       pd->delta.filechecksum = solv_strdup(pd->content);
477       break;
478     case STATE_SIZE:
479       pd->delta.downloadsize = atoi(pd->content);
480       break;
481     case STATE_SEQUENCE:
482       if ((str = pd->content))
483         {
484           const char *s1, *s2;
485           s1 = strrchr(str, '-');
486           if (s1)
487             {
488               for (s2 = s1 - 1; s2 > str; s2--)
489                 if (*s2 == '-')
490                   break;
491               if (*s2 == '-')
492                 {
493                   for (s2 = s2 - 1; s2 > str; s2--)
494                     if (*s2 == '-')
495                       break;
496                   if (*s2 == '-')
497                     {
498                       pd->delta.seqevr = pool_strn2id(pool, s2 + 1, s1 - s2 - 1, 1);
499                       pd->delta.seqname = pool_strn2id(pool, str, s2 - str, 1);
500                       str = s1 + 1;
501                     }
502                 }
503             }
504           pd->delta.seqnum = solv_strdup(str);
505       }
506     default:
507       break;
508     }
509
510   pd->state = pd->sbtab[pd->state];
511   pd->docontent = 0;
512 }
513
514
515 static void XMLCALL
516 characterData(void *userData, const XML_Char *s, int len)
517 {
518   struct parsedata *pd = userData;
519   int l;
520   char *c;
521   if (!pd->docontent)
522     return;
523   l = pd->lcontent + len + 1;
524   if (l > pd->acontent)
525     {
526       pd->content = solv_realloc(pd->content, l + 256);
527       pd->acontent = l + 256;
528     }
529   c = pd->content + pd->lcontent;
530   pd->lcontent += len;
531   while (len-- > 0)
532     *c++ = *s++;
533   *c = 0;
534 }
535
536 #define BUFF_SIZE 8192
537
538 void
539 repo_add_deltainfoxml(Repo *repo, FILE *fp, int flags)
540 {
541   Pool *pool = repo->pool;
542   struct parsedata pd;
543   char buf[BUFF_SIZE];
544   int i, l;
545   struct stateswitch *sw;
546   Repodata *data;
547   XML_Parser parser;
548
549   data = repo_add_repodata(repo, flags);
550
551   memset(&pd, 0, sizeof(pd));
552   for (i = 0, sw = stateswitches; sw->from != NUMSTATES; i++, sw++)
553     {
554       if (!pd.swtab[sw->from])
555         pd.swtab[sw->from] = sw;
556       pd.sbtab[sw->to] = sw->from;
557     }
558   pd.pool = pool;
559   pd.repo = repo;
560   pd.data = data;
561
562   pd.content = solv_malloc(256);
563   pd.acontent = 256;
564   pd.lcontent = 0;
565   pd.tempstr = malloc(256);
566   pd.atemp = 256;
567   pd.ltemp = 0;
568
569   parser = XML_ParserCreate(NULL);
570   XML_SetUserData(parser, &pd);
571   XML_SetElementHandler(parser, startElement, endElement);
572   XML_SetCharacterDataHandler(parser, characterData);
573   for (;;)
574     {
575       l = fread(buf, 1, sizeof(buf), fp);
576       if (XML_Parse(parser, buf, l, l == 0) == XML_STATUS_ERROR)
577         {
578           pool_debug(pool, SOLV_FATAL, "repo_updateinfoxml: %s at line %u:%u\n", XML_ErrorString(XML_GetErrorCode(parser)), (unsigned int)XML_GetCurrentLineNumber(parser), (unsigned int)XML_GetCurrentColumnNumber(parser));
579           exit(1);
580         }
581       if (l == 0)
582         break;
583     }
584   XML_ParserFree(parser);
585   solv_free(pd.content);
586   solv_free(pd.tempstr);
587   join_freemem();
588
589   /* now commit all handles */
590   for (i = 0; i < pd.nhandles; i++)
591     repodata_add_flexarray(pd.data, SOLVID_META, REPOSITORY_DELTAINFO, pd.handles[i]);
592   solv_free(pd.handles);
593
594   if (!(flags & REPO_NO_INTERNALIZE))
595     repodata_internalize(data);
596 }
597
598 /* EOF */