- add support for arbitrary extendable metadata using external files
[platform/upstream/libsolv.git] / tools / repo_rpmmd.c
1 /*
2  * Copyright (c) 2007, Novell Inc.
3  *
4  * This program is licensed under the BSD license, read LICENSE.BSD
5  * for further information
6  */
7
8 #include <sys/types.h>
9 #include <limits.h>
10 #include <fcntl.h>
11 #include <stdio.h>
12 #include <stdlib.h>
13 #include <string.h>
14 #include <expat.h>
15
16 #include "pool.h"
17 #include "repo.h"
18 #define DISABLE_SPLIT
19 #include "tools_util.h"
20 #include "repo_rpmmd.h"
21
22
23 enum state {
24   STATE_START,
25
26   STATE_METADATA,
27   STATE_OTHERDATA,
28   STATE_DISKUSAGEDATA,
29   STATE_SUSEDATA,
30
31   STATE_SOLVABLE,
32   STATE_PRODUCT,
33   STATE_PATTERN,
34   STATE_PATCH,
35   STATE_NAME,
36   STATE_ARCH,
37   STATE_VERSION,
38
39   // package rpm-md
40   STATE_LOCATION,
41   STATE_CHECKSUM,
42   STATE_RPM_GROUP,
43   STATE_RPM_LICENSE,
44
45   /* resobject attributes */
46   STATE_SUMMARY,
47   STATE_DESCRIPTION,
48   STATE_DISTRIBUTION,
49   STATE_PACKAGER,
50   STATE_URL,
51   STATE_INSNOTIFY,
52   STATE_DELNOTIFY,
53   STATE_VENDOR,
54   STATE_SIZE,
55   STATE_TIME,
56   STATE_DOWNLOADSIZE,
57   STATE_INSTALLTIME,
58   STATE_INSTALLONLY,
59   
60   /* Novell/SUSE extended attributes */
61   STATE_EULA,
62   STATE_DISKUSAGE,
63   STATE_DIRS,
64   STATE_DIR,
65
66   /* patch */
67   STATE_ID,
68   STATE_TIMESTAMP,
69   STATE_AFFECTSPKG,
70   STATE_REBOOTNEEDED,
71
72   // pattern attributes
73   STATE_CATEGORY, /* pattern and patches */
74   STATE_SCRIPT,
75   STATE_ICON,
76   STATE_USERVISIBLE,
77   STATE_DEFAULT,
78   STATE_INSTALL_TIME,
79
80   /* product */
81   STATE_SHORTNAME,
82   STATE_DISTNAME, // obsolete
83   STATE_DISTEDITION, // obsolete
84   STATE_SOURCE,
85   STATE_TYPE,
86   STATE_RELNOTESURL,
87   STATE_UPDATEURL,
88   STATE_OPTIONALURL,
89   STATE_FLAG,
90   STATE_FLAVOR,
91   STATE_REFERENCES,
92
93   /* rpm-md dependencies inside the
94      format tag */
95   STATE_PROVIDES,
96   STATE_REQUIRES,
97   STATE_OBSOLETES,
98   STATE_CONFLICTS,
99   STATE_RECOMMENDS,
100   STATE_SUPPLEMENTS,
101   STATE_SUGGESTS,
102   STATE_ENHANCES,
103   STATE_FRESHENS,
104   STATE_SOURCERPM,
105   STATE_HEADERRANGE,
106
107   STATE_PROVIDESENTRY,
108   STATE_REQUIRESENTRY,
109   STATE_OBSOLETESENTRY,
110   STATE_CONFLICTSENTRY,
111   STATE_RECOMMENDSENTRY,
112   STATE_SUPPLEMENTSENTRY,
113   STATE_SUGGESTSENTRY,
114   STATE_ENHANCESENTRY,
115   STATE_FRESHENSENTRY,
116
117   STATE_FILE,
118
119   // general
120   NUMSTATES
121 };
122
123 struct stateswitch {
124   enum state from;
125   char *ename;
126   enum state to;
127   int docontent;
128 };
129
130 static struct stateswitch stateswitches[] = {
131   /** fake tag used to enclose 2 different xml files in one **/
132   { STATE_START,       "rpmmd",           STATE_START,    0 },
133
134   /** tags for different package data, we just ignore the tag **/
135   { STATE_START,       "metadata",        STATE_START,    0 },
136   { STATE_START,       "otherdata",       STATE_START,    0 },
137   { STATE_START,       "diskusagedata",   STATE_START,    0 },
138   { STATE_START,       "susedata",        STATE_START,    0 },
139
140   { STATE_START,       "product",         STATE_SOLVABLE, 0 },
141   { STATE_START,       "pattern",         STATE_SOLVABLE, 0 },
142   { STATE_START,       "patch",           STATE_SOLVABLE, 0 },
143   { STATE_START,       "package",         STATE_SOLVABLE, 0 },
144   
145   { STATE_SOLVABLE,    "name",            STATE_NAME, 1 },
146   { STATE_SOLVABLE,    "arch",            STATE_ARCH, 1 },
147   { STATE_SOLVABLE,    "version",         STATE_VERSION, 0 },
148
149   // package attributes rpm-md
150   { STATE_SOLVABLE,    "location",        STATE_LOCATION, 0 },
151   { STATE_SOLVABLE,    "checksum",        STATE_CHECKSUM, 1 },
152   
153   /* resobject attributes */
154
155   { STATE_SOLVABLE,    "summary",         STATE_SUMMARY,      1 },
156   { STATE_SOLVABLE,    "description",     STATE_DESCRIPTION,  1 },
157   { STATE_SOLVABLE,    "distribution",    STATE_DISTRIBUTION, 1 },
158   { STATE_SOLVABLE,    "url",             STATE_URL,          1 },
159   { STATE_SOLVABLE,    "packager",        STATE_PACKAGER,     1 },
160   //{ STATE_SOLVABLE,    "???",         STATE_INSNOTIFY, 1 },
161   //{ STATE_SOLVABLE,    "??",     STATE_DELNOTIFY, 1 },
162   { STATE_SOLVABLE,    "vendor",          STATE_VENDOR,       1 },
163   { STATE_SOLVABLE,    "size",            STATE_SIZE,         0 },
164   { STATE_SOLVABLE,    "archive-size",    STATE_DOWNLOADSIZE, 1 },
165   { STATE_SOLVABLE,    "install-time",    STATE_INSTALLTIME,  1 },
166   { STATE_SOLVABLE,    "install-only",    STATE_INSTALLONLY,  1 },
167   { STATE_SOLVABLE,    "time",            STATE_TIME,         0 },
168
169   /* extended Novell/SUSE attributes (suseinfo.xml) */
170   { STATE_SOLVABLE,    "eula",            STATE_EULA,         1 },
171   { STATE_SOLVABLE,    "diskusage",       STATE_DISKUSAGE,    0 },
172   { STATE_DISKUSAGE,   "dirs",            STATE_DIRS,         0 },
173   { STATE_DIRS,        "dir",             STATE_DIR,          0 },
174
175   // pattern attribute
176   { STATE_SOLVABLE,    "script",          STATE_SCRIPT,        1 },
177   { STATE_SOLVABLE,    "icon",            STATE_ICON,          1 },
178   { STATE_SOLVABLE,    "uservisible",     STATE_USERVISIBLE,   1 },
179   { STATE_SOLVABLE,    "category",        STATE_CATEGORY,      1 },
180   { STATE_SOLVABLE,    "default",         STATE_DEFAULT,       1 },
181   { STATE_SOLVABLE,    "install-time",    STATE_INSTALL_TIME,  1 },
182
183   /* product attributes */
184   /* note the product type is an attribute */
185   { STATE_SOLVABLE,    "release-notes-url", STATE_RELNOTESURL, 1 },
186   { STATE_SOLVABLE,    "update-url",        STATE_UPDATEURL,   1 },
187   { STATE_SOLVABLE,    "optional-url",      STATE_OPTIONALURL, 1 },
188   { STATE_SOLVABLE,    "flag",              STATE_FLAG,        1 },
189   { STATE_SOLVABLE,    "flavor",            STATE_FLAVOR,      1 },
190   { STATE_SOLVABLE,    "references",        STATE_REFERENCES,  1 },
191
192   { STATE_SOLVABLE,      "rpm:vendor",      STATE_VENDOR,      1 },
193   { STATE_SOLVABLE,      "rpm:group",       STATE_RPM_GROUP,   1 },
194   { STATE_SOLVABLE,      "rpm:license",     STATE_RPM_LICENSE, 1 },
195
196   /* rpm-md dependencies */ 
197   { STATE_SOLVABLE,      "rpm:provides",    STATE_PROVIDES,     0 },
198   { STATE_SOLVABLE,      "rpm:requires",    STATE_REQUIRES,     0 },
199   { STATE_SOLVABLE,      "rpm:obsoletes",   STATE_OBSOLETES,    0 },
200   { STATE_SOLVABLE,      "rpm:conflicts",   STATE_CONFLICTS,    0 },
201   { STATE_SOLVABLE,      "rpm:recommends",  STATE_RECOMMENDS ,  0 },
202   { STATE_SOLVABLE,      "rpm:supplements", STATE_SUPPLEMENTS,  0 },
203   { STATE_SOLVABLE,      "rpm:suggests",    STATE_SUGGESTS,     0 },
204   { STATE_SOLVABLE,      "rpm:enhances",    STATE_ENHANCES,     0 },
205   { STATE_SOLVABLE,      "rpm:freshens",    STATE_FRESHENS,     0 },
206   { STATE_SOLVABLE,      "rpm:sourcerpm",   STATE_SOURCERPM,    1 },
207   { STATE_SOLVABLE,      "rpm:header-range", STATE_HEADERRANGE, 0 },
208   { STATE_SOLVABLE,      "file",            STATE_FILE, 1 },
209   
210   { STATE_PROVIDES,    "rpm:entry",       STATE_PROVIDESENTRY, 0 },
211   { STATE_REQUIRES,    "rpm:entry",       STATE_REQUIRESENTRY, 0 },
212   { STATE_OBSOLETES,   "rpm:entry",       STATE_OBSOLETESENTRY, 0 },
213   { STATE_CONFLICTS,   "rpm:entry",       STATE_CONFLICTSENTRY, 0 },
214   { STATE_RECOMMENDS,  "rpm:entry",       STATE_RECOMMENDSENTRY, 0 },
215   { STATE_SUPPLEMENTS, "rpm:entry",       STATE_SUPPLEMENTSENTRY, 0 },
216   { STATE_SUGGESTS,    "rpm:entry",       STATE_SUGGESTSENTRY, 0 },
217   { STATE_ENHANCES,    "rpm:entry",       STATE_ENHANCESENTRY, 0 },
218   { STATE_FRESHENS,    "rpm:entry",       STATE_FRESHENSENTRY, 0 },
219   
220   { NUMSTATES}
221 };
222
223 /* maxmum initial size of
224    the checksum cache */
225 #define MAX_CSCACHE 32768
226 #define CSREALLOC_STEP 1024
227
228 struct parsedata {
229   struct parsedata_common common;
230   char *kind;
231   int depth;
232   enum state state;
233   int statedepth;
234   char *content;
235   int lcontent;
236   int acontent;
237   int docontent;
238   Solvable *solvable;
239   Offset freshens;
240   struct stateswitch *swtab[NUMSTATES];
241   enum state sbtab[NUMSTATES];
242   /* temporal to store attribute tag language */
243   const char *tmplang;
244   const char *capkind;
245   // used to store tmp attributes
246   // while the tag ends
247   const char *tmpattr;
248   Repodata *data;
249   Id handle;
250   XML_Parser *parser;
251   Id (*dirs)[3]; // dirid, size, nfiles
252   int ndirs;
253   Id langcache[ID_NUM_INTERNAL];
254   /** system language */
255   const char *language;
256
257   /** Hash to maps checksums to solv */
258   Stringpool cspool;
259   /** Cache of known checksums to solvable id */
260   Id *cscache;
261   /* the current longest index in the table */
262   int ncscache;
263 };
264
265 static Id
266 langtag(struct parsedata *pd, Id tag, const char *language)
267 {
268   if (language && !language[0])
269     language = 0;
270   if (!language || tag >= ID_NUM_INTERNAL)
271     return pool_id2langid(pd->common.repo->pool, tag, language, 1);
272   return pool_id2langid(pd->common.repo->pool, tag, language, 1);
273   if (!pd->langcache[tag])
274     pd->langcache[tag] = pool_id2langid(pd->common.repo->pool, tag, language, 1);
275   return pd->langcache[tag];
276 }
277
278 static int
279 id3_cmp (const void *v1, const void *v2)
280 {
281   Id *i1 = (Id*)v1;
282   Id *i2 = (Id*)v2;
283   return i1[0] - i2[0];
284 }
285
286 static void
287 commit_diskusage (struct parsedata *pd, unsigned handle)
288 {
289   unsigned i;
290   Dirpool *dp = &pd->data->dirpool;
291   /* Now sort in dirid order.  This ensures that parents come before
292      their children.  */
293   if (pd->ndirs > 1)
294     qsort(pd->dirs, pd->ndirs, sizeof (pd->dirs[0]), id3_cmp);
295   /* Substract leaf numbers from all parents to make the numbers
296      non-cumulative.  This must be done post-order (i.e. all leafs
297      adjusted before parents).  We ensure this by starting at the end of
298      the array moving to the start, hence seeing leafs before parents.  */
299   for (i = pd->ndirs; i--;)
300     {
301       unsigned p = dirpool_parent(dp, pd->dirs[i][0]);
302       unsigned j = i;
303       for (; p; p = dirpool_parent(dp, p))
304         {
305           for (; j--;)
306             if (pd->dirs[j][0] == p)
307               break;
308           if (j < pd->ndirs)
309             {
310               if (pd->dirs[j][1] < pd->dirs[i][1])
311                 pd->dirs[j][1] = 0;
312               else
313                 pd->dirs[j][1] -= pd->dirs[i][1];
314               if (pd->dirs[j][2] < pd->dirs[i][2])
315                 pd->dirs[j][2] = 0;
316               else
317                 pd->dirs[j][2] -= pd->dirs[i][2];
318             }
319           else
320             /* Haven't found this parent in the list, look further if
321                we maybe find the parents parent.  */
322             j = i;
323         }
324     }
325 #if 0
326   char sbuf[1024];
327   char *buf = sbuf;
328   unsigned slen = sizeof (sbuf);
329   for (i = 0; i < pd->ndirs; i++)
330     {
331       dir2str (attr, pd->dirs[i][0], &buf, &slen);
332       fprintf (stderr, "have dir %d %d %d %s\n", pd->dirs[i][0], pd->dirs[i][1], pd->dirs[i][2], buf);
333     }
334   if (buf != sbuf)
335     free (buf);
336 #endif
337   for (i = 0; i < pd->ndirs; i++)
338     if (pd->dirs[i][1] || pd->dirs[i][2])
339       {
340         repodata_add_dirnumnum(pd->data, handle, SOLVABLE_DISKUSAGE, pd->dirs[i][0], pd->dirs[i][1], pd->dirs[i][2]);
341       }
342   pd->ndirs = 0;
343 }
344
345
346 /*
347  * makeevr_atts
348  * parse 'epoch', 'ver' and 'rel', return evr Id
349  * 
350  */
351
352 static Id
353 makeevr_atts(Pool *pool, struct parsedata *pd, const char **atts)
354 {
355   const char *e, *v, *r, *v2;
356   char *c;
357   int l;
358
359   e = v = r = 0;
360   for (; *atts; atts += 2)
361     {
362       if (!strcmp(*atts, "epoch"))
363         e = atts[1];
364       else if (!strcmp(*atts, "ver"))
365         v = atts[1];
366       else if (!strcmp(*atts, "rel"))
367         r = atts[1];
368     }
369   if (e && !strcmp(e, "0"))
370     e = 0;
371   if (v && !e)
372     {
373       for (v2 = v; *v2 >= '0' && *v2 <= '9'; v2++)
374         ;
375       if (v2 > v && *v2 == ':')
376         e = "0";
377     }
378   l = 1;
379   if (e)
380     l += strlen(e) + 1;
381   if (v)
382     l += strlen(v);
383   if (r)
384     l += strlen(r) + 1;
385   if (l > pd->acontent)
386     {
387       pd->content = sat_realloc(pd->content, l + 256);
388       pd->acontent = l + 256;
389     }
390   c = pd->content;
391   if (e)
392     {
393       strcpy(c, e);
394       c += strlen(c);
395       *c++ = ':';
396     }
397   if (v)
398     {
399       strcpy(c, v);
400       c += strlen(c);
401     }
402   if (r)
403     {
404       *c++ = '-';
405       strcpy(c, r);
406       c += strlen(c);
407     }
408   *c = 0;
409   if (!*pd->content)
410     return 0;
411 #if 0
412   fprintf(stderr, "evr: %s\n", pd->content);
413 #endif
414   return str2id(pool, pd->content, 1);
415 }
416
417
418 /*
419  * find_attr
420  * find value for xml attribute
421  * I: txt, name of attribute
422  * I: atts, list of key/value attributes
423  * O: pointer to value of matching key, or NULL
424  * 
425  */
426
427 static inline const char *
428 find_attr(const char *txt, const char **atts)
429 {
430   for (; *atts; atts += 2)
431     {
432       if (!strcmp(*atts, txt))
433         return atts[1];
434     }
435   return 0;
436 }
437
438
439 /*
440  * dependency relations
441  */
442
443 static char *flagtab[] = {
444   "GT",
445   "EQ",
446   "GE",
447   "LT",
448   "NE",
449   "LE"
450 };
451
452
453 /*
454  * adddep
455  * parse attributes to reldep Id
456  * 
457  */
458
459 static unsigned int
460 adddep(Pool *pool, struct parsedata *pd, unsigned int olddeps, const char **atts, int isreq)
461 {
462   Id id, name, marker;
463   const char *n, *f, *k;
464   const char **a;
465
466   n = f = k = 0;
467   marker = isreq ? -SOLVABLE_PREREQMARKER : 0;
468   for (a = atts; *a; a += 2)
469     {
470       if (!strcmp(*a, "name"))
471         n = a[1];
472       else if (!strcmp(*a, "flags"))
473         f = a[1];
474       else if (!strcmp(*a, "kind"))
475         k = a[1];
476       else if (isreq && !strcmp(*a, "pre") && a[1][0] == '1')
477         marker = SOLVABLE_PREREQMARKER;
478     }
479   if (!n)
480     return olddeps;
481   if (k && !strcmp(k, "package"))
482     k = 0;
483   if (k)
484     {
485       int l = strlen(k) + 1 + strlen(n) + 1;
486       if (l > pd->acontent)
487         {
488           pd->content = sat_realloc(pd->content, l + 256);
489           pd->acontent = l + 256;
490         }
491       sprintf(pd->content, "%s:%s", k, n); 
492       name = str2id(pool, pd->content, 1); 
493     }
494   else
495     name = str2id(pool, (char *)n, 1);
496   if (f)
497     {
498       Id evr = makeevr_atts(pool, pd, atts);
499       int flags;
500       for (flags = 0; flags < 6; flags++)
501         if (!strcmp(f, flagtab[flags]))
502           break;
503       flags = flags < 6 ? flags + 1 : 0;
504       id = rel2id(pool, name, evr, flags, 1);
505     }
506   else
507     id = name;
508 #if 0
509   fprintf(stderr, "new dep %s%s%s\n", id2str(pool, d), id2rel(pool, d), id2evr(pool, d));
510 #endif
511   return repo_addid_dep(pd->common.repo, olddeps, id, marker);
512 }
513
514
515 /*
516  * set_desciption_author
517  *
518  */
519
520 static void
521 set_desciption_author(Repodata *data, Id handle, char *str)
522 {
523   char *aut, *p;
524
525   if (!str || !*str)
526     return;
527   for (aut = str; (aut = strchr(aut, '\n')) != 0; aut++)
528     if (!strncmp(aut, "\nAuthors:\n--------\n", 19)) 
529       break;
530   if (aut)
531     {
532       /* oh my, found SUSE special author section */
533       int l = aut - str; 
534       str[l] = 0; 
535       while (l > 0 && str[l - 1] == '\n')
536         str[--l] = 0; 
537       if (l)
538         repodata_set_str(data, handle, SOLVABLE_DESCRIPTION, str);
539       p = aut + 19;
540       aut = str;        /* copy over */
541       while (*p == ' ' || *p == '\n')
542         p++;
543       while (*p) 
544         {
545           if (*p == '\n')
546             {
547               *aut++ = *p++;
548               while (*p == ' ') 
549                 p++;
550               continue;
551             }
552           *aut++ = *p++;
553         }
554       while (aut != str && aut[-1] == '\n')
555         aut--;
556       *aut = 0; 
557       if (*str)
558         repodata_set_str(data, handle, SOLVABLE_AUTHORS, str);
559     }
560   else if (*str)
561     repodata_set_str(data, handle, SOLVABLE_DESCRIPTION, str);
562 }
563
564
565 /*
566  * set_sourcerpm
567  * 
568  */
569
570 static void
571 set_sourcerpm(Repodata *data, Solvable *s, Id handle, char *sourcerpm)
572 {
573   const char *p, *sevr, *sarch, *name, *evr;
574   Pool *pool;
575
576   p = strrchr(sourcerpm, '.');
577   if (!p || strcmp(p, ".rpm") != 0)
578     return;
579   p--;
580   while (p > sourcerpm && *p != '.')
581     p--;
582   if (*p != '.' || p == sourcerpm)
583     return;
584   sarch = p-- + 1;
585   while (p > sourcerpm && *p != '-')
586     p--;
587   if (*p != '-' || p == sourcerpm)
588     return;
589   p--;
590   while (p > sourcerpm && *p != '-')
591     p--;
592   if (*p != '-' || p == sourcerpm)
593     return;
594   sevr = p + 1;
595   pool = s->repo->pool;
596   name = id2str(pool, s->name);
597   evr = id2str(pool, s->evr);
598   if (!strcmp(sarch, "src.rpm"))
599     repodata_set_constantid(data, handle, SOLVABLE_SOURCEARCH, ARCH_SRC);
600   else if (!strcmp(sarch, "nosrc.rpm"))
601     repodata_set_constantid(data, handle, SOLVABLE_SOURCEARCH, ARCH_NOSRC);
602   else
603     repodata_set_constantid(data, handle, SOLVABLE_SOURCEARCH, strn2id(pool, sarch, strlen(sarch) - 4, 1));
604   if (!strncmp(sevr, evr, sarch - sevr - 1) && evr[sarch - sevr - 1] == 0)
605     repodata_set_void(data, handle, SOLVABLE_SOURCEEVR);
606   else
607     repodata_set_id(data, handle, SOLVABLE_SOURCEEVR, strn2id(pool, sevr, sarch - sevr - 1, 1));
608   if (!strncmp(sourcerpm, name, sevr - sourcerpm - 1) && name[sevr - sourcerpm -
609  1] == 0)
610     repodata_set_void(data, handle, SOLVABLE_SOURCENAME);
611   else
612     repodata_set_id(data, handle, SOLVABLE_SOURCENAME, strn2id(pool, sourcerpm, sevr - sourcerpm - 1, 1));
613 }
614
615 /*-----------------------------------------------*/
616 /* XML callbacks */
617
618 /*
619  * startElement
620  * XML callback
621  * 
622  */
623
624 static void XMLCALL
625 startElement(void *userData, const char *name, const char **atts)
626 {
627   //fprintf(stderr,"+tag: %s\n", name);
628   struct parsedata *pd = userData;
629   Pool *pool = pd->common.pool;
630   Solvable *s = pd->solvable;
631   struct stateswitch *sw;
632   const char *str;
633   Id handle = pd->handle;
634
635   // fprintf(stderr, "into %s, from %d, depth %d, statedepth %d\n", name, pd->state, pd->depth, pd->statedepth);
636
637   if (pd->depth != pd->statedepth)
638     {
639       pd->depth++;
640       return;
641     }
642
643   if (pd->state == STATE_START && !strcmp(name, "patterns"))
644     return;
645   if (pd->state == STATE_START && !strcmp(name, "metadata"))
646     return;
647   if (pd->state == STATE_SOLVABLE && !strcmp(name, "format"))
648     return;
649
650   pd->depth++;
651   for (sw = pd->swtab[pd->state]; sw->from == pd->state; sw++)
652     if (!strcmp(sw->ename, name))
653       break;
654   if (sw->from != pd->state)
655     {
656 #if 0
657       fprintf(stderr, "into unknown: %s\n", name);
658 #endif
659       return;
660     }
661   pd->state = sw->to;
662   pd->docontent = sw->docontent;
663   pd->statedepth = pd->depth;
664   pd->lcontent = 0;
665   *pd->content = 0;
666   switch(pd->state)
667     {
668     case STATE_SOLVABLE:
669       pd->kind = 0;
670       if (name[2] == 't' && name[3] == 't')
671         pd->kind = "pattern";
672       else if (name[1] == 'r')
673         pd->kind = "product";
674       else if (name[2] == 't' && name[3] == 'c')
675         pd->kind = "patch";
676       
677       /* to support extension metadata files like others.xml which
678          have the following structure:
679
680          <otherdata xmlns="http://linux.duke.edu/metadata/other"
681                     packages="101">
682            <package pkgid="b78f8664cd90efe42e09a345e272997ef1b53c18"
683                     name="zaptel-kmp-default"
684                     arch="i586"><version epoch="0"
685                     ver="1.2.10_2.6.22_rc4_git6_2" rel="70"/>
686               ...
687
688          we need to check if the pkgid is there and if it matches
689          an already seen package, that means we don't need to create
690          a new solvable but just append the attributes to the existing
691          one.
692       */
693       const char *pkgid;
694       if ( (pkgid = find_attr("pkgid", atts)) != NULL )
695         {
696           int found = 0;
697           /*const char *name = find_attr("name", atts);*/
698           // look at the checksum cache
699           Id index = stringpool_str2id (&pd->cspool, pkgid, 1 /* create it */);
700           if ( index < pd->ncscache )
701             {
702               Id solvid = pd->cscache[index-1];
703               /* printf */
704               if ( solvid > 0 )
705                 {
706                   Solvable *s = pool_id2solvable(pool, solvid);
707                   /* we found the already defined package */
708                   pd->solvable = s;
709                   found = 1;
710                   /*fprintf(stderr, "package found %s-%s.\n", name, find_attr("arch", atts));*/
711                 }
712             }
713           if ( ! found )
714             {
715               fprintf(stderr, "error, the repository specifies extra information about package with checksum '%s', which does not exist in the repository.\n", pkgid);
716               exit(1);
717             }
718         }
719        else
720         {
721           /* this is a new package */
722           pd->solvable = pool_id2solvable(pool, repo_add_solvable(pd->common.repo));
723           pd->freshens = 0;
724           repodata_extend(pd->data, pd->solvable - pool->solvables);
725         }
726       pd->handle = repodata_get_handle(pd->data, (pd->solvable - pool->solvables) - pd->data->start);
727 #if 0
728       fprintf(stderr, "package #%d\n", pd->solvable - pool->solvables);
729 #endif
730
731       break;
732     case STATE_VERSION:
733       s->evr = makeevr_atts(pool, pd, atts);
734       break;
735     case STATE_PROVIDES:
736       s->provides = 0;
737       break;
738     case STATE_PROVIDESENTRY:
739       s->provides = adddep(pool, pd, s->provides, atts, 0);
740       break;
741     case STATE_REQUIRES:
742       s->requires = 0;
743       break;
744     case STATE_REQUIRESENTRY:
745       s->requires = adddep(pool, pd, s->requires, atts, 1);
746       break;
747     case STATE_OBSOLETES:
748       s->obsoletes = 0;
749       break;
750     case STATE_OBSOLETESENTRY:
751       s->obsoletes = adddep(pool, pd, s->obsoletes, atts, 0);
752       break;
753     case STATE_CONFLICTS:
754       s->conflicts = 0;
755       break;
756     case STATE_CONFLICTSENTRY:
757       s->conflicts = adddep(pool, pd, s->conflicts, atts, 0);
758       break;
759     case STATE_RECOMMENDS:
760       s->recommends = 0;
761       break;
762     case STATE_RECOMMENDSENTRY:
763       s->recommends = adddep(pool, pd, s->recommends, atts, 0);
764       break;
765     case STATE_SUPPLEMENTS:
766       s->supplements= 0;
767       break;
768     case STATE_SUPPLEMENTSENTRY:
769       s->supplements = adddep(pool, pd, s->supplements, atts, 0);
770       break;
771     case STATE_SUGGESTS:
772       s->suggests = 0;
773       break;
774     case STATE_SUGGESTSENTRY:
775       s->suggests = adddep(pool, pd, s->suggests, atts, 0);
776       break;
777     case STATE_ENHANCES:
778       s->enhances = 0;
779       break;
780     case STATE_ENHANCESENTRY:
781       s->enhances = adddep(pool, pd, s->enhances, atts, 0);
782       break;
783     case STATE_FRESHENS:
784       pd->freshens = 0;
785       break;
786     case STATE_FRESHENSENTRY:
787       pd->freshens = adddep(pool, pd, pd->freshens, atts, 0);
788       break;
789     case STATE_SUMMARY:
790     case STATE_DESCRIPTION:
791       pd->tmplang = find_attr("lang", atts);
792       break;
793     case STATE_LOCATION:
794       str = find_attr("href", atts);
795       if (str)
796         {
797           const char *str2 = strrchr(str, '/');
798           if (str2)
799             {
800               char *str3 = strdup(str);
801               str3[str2 - str] = 0;
802               repodata_set_poolstr(pd->data, handle, SOLVABLE_MEDIADIR, str3);
803               free(str3);
804               repodata_set_str(pd->data, handle, SOLVABLE_MEDIAFILE, str2 + 1);
805             }
806           else
807             repodata_set_str(pd->data, handle, SOLVABLE_MEDIAFILE, str);
808         }
809       break;
810     case STATE_CHECKSUM:
811       pd->tmpattr = find_attr("type", atts);
812       break;
813     case STATE_TIME:
814       {
815         unsigned int t;
816         str = find_attr("build", atts);
817         if (str && (t = atoi(str)) != 0)
818           repodata_set_num(pd->data, handle, SOLVABLE_BUILDTIME, t);
819         break;
820       }
821     case STATE_SIZE:
822       {
823         unsigned int k;
824         str = find_attr("installed", atts);
825         if (str && (k = atoi(str)) != 0)
826           repodata_set_num(pd->data, handle, SOLVABLE_INSTALLSIZE, (k + 1023) / 1024);
827         /* XXX the "package" attribute gives the size of the rpm file,
828            i.e. the download size.  Except on packman, there it seems to be
829            something else entirely, it has a value near to the other two
830            values, as if the rpm is uncompressed.  */
831         str = find_attr("package", atts);
832         if (str && (k = atoi(str)) != 0)
833           repodata_set_num(pd->data, handle, SOLVABLE_DOWNLOADSIZE, (k + 1023) / 1024);
834         break;
835       }
836     case STATE_HEADERRANGE:
837       {
838         unsigned int end;
839         str = find_attr("end", atts);
840         if (str && (end = atoi(str)) != 0)
841           repodata_set_num(pd->data, handle, SOLVABLE_HEADEREND, end);
842       }
843       /*
844         <diskusage>
845           <dirs>
846             <dir name="/" size="56" count="11"/>
847             <dir name="usr/" size="56" count="11"/>
848             <dir name="usr/bin/" size="38" count="10"/>
849             <dir name="usr/share/" size="18" count="1"/>
850             <dir name="usr/share/doc/" size="18" count="1"/>
851           </dirs>
852         </diskusage>
853       */
854     case STATE_DISKUSAGE:
855       {
856         /* Really, do nothing, wat for <dir> tag */
857         break;
858       }
859     case STATE_DIR:  
860       {
861         long filesz = 0, filenum = 0;
862         unsigned dirid;
863         if ( (str = find_attr("name", atts)) )
864           {
865             dirid = repodata_str2dir(pd->data, str, 1);
866           }
867         else
868           {           
869             fprintf( stderr, "<dir .../> tag without 'name' attribute, atts = %p, *atts = %p\n", atts, *atts);
870             break;
871           }
872         if ( (str = find_attr("size", atts)) )
873           {
874             filesz = strtol (str, 0, 0);
875           }
876         if ( (str = find_attr("count", atts)) )
877           {
878             filenum = strtol (str, 0, 0);
879           }
880         pd->dirs = sat_extend(pd->dirs, pd->ndirs, 1, sizeof(pd->dirs[0]), 31);
881         pd->dirs[pd->ndirs][0] = dirid;
882         pd->dirs[pd->ndirs][1] = filesz;
883         pd->dirs[pd->ndirs][2] = filenum;
884         pd->ndirs++;
885         break;
886       }
887     default:
888       break;
889     }
890 }
891
892
893 /*
894  * endElement
895  * XML callback
896  * 
897  */
898
899 static void XMLCALL
900 endElement(void *userData, const char *name)
901 {
902   //fprintf(stderr,"-tag: %s\n", name);
903   struct parsedata *pd = userData;
904   Pool *pool = pd->common.pool;
905   Solvable *s = pd->solvable;
906   Repo *repo = pd->common.repo;
907   Id handle = pd->handle;
908   Id id;
909   char *p;
910
911   if (pd->depth != pd->statedepth)
912     {
913       pd->depth--;
914       // printf("back from unknown %d %d %d\n", pd->state, pd->depth, pd->statedepth);
915       return;
916     }
917
918   /* ignore patterns & metadata */
919   if (pd->state == STATE_START && !strcmp(name, "patterns"))
920     return;
921   if (pd->state == STATE_START && !strcmp(name, "metadata"))
922     return;
923   if (pd->state == STATE_SOLVABLE && !strcmp(name, "format"))
924     return;
925
926   pd->depth--;
927   pd->statedepth--;
928   switch (pd->state)
929     {
930     case STATE_PATTERN:
931     case STATE_PRODUCT:
932     case STATE_SOLVABLE:
933       if (!s->arch)
934         s->arch = ARCH_NOARCH;
935       if (!s->evr)
936         s->evr = ID_EMPTY;      /* some patterns have this */
937       if (s->arch != ARCH_SRC && s->arch != ARCH_NOSRC)
938         s->provides = repo_addid_dep(repo, s->provides, rel2id(pool, s->name, s->evr, REL_EQ, 1), 0);
939       s->supplements = repo_fix_legacy(repo, s->provides, s->supplements, pd->freshens);
940       pd->freshens = 0;
941       pd->kind = 0;
942       break;
943     case STATE_NAME:
944       if ( pd->kind )
945           s->name = str2id(pool, join2( pd->kind, ":", pd->content), 1);
946       else
947           s->name = str2id(pool, pd->content, 1);
948       break;
949     case STATE_ARCH:
950       s->arch = str2id(pool, pd->content, 1);
951       break;
952     case STATE_VENDOR:
953       s->vendor = str2id(pool, pd->content, 1);
954       break;
955     case STATE_RPM_GROUP:
956       repodata_set_poolstr(pd->data, handle, SOLVABLE_GROUP, pd->content);
957       break;
958     case STATE_RPM_LICENSE:
959       repodata_set_poolstr(pd->data, handle, SOLVABLE_LICENSE, pd->content);
960       break;
961     case STATE_CHECKSUM:
962       { 
963         int l;
964         Id type;
965         if (!strcasecmp (pd->tmpattr, "sha") || !strcasecmp (pd->tmpattr, "sha1"))
966           l = SIZEOF_SHA1 * 2, type = REPOKEY_TYPE_SHA1;
967         else if (!strcasecmp (pd->tmpattr, "md5"))
968           l = SIZEOF_MD5 * 2, type = REPOKEY_TYPE_MD5;
969         else
970           {
971             fprintf(stderr, "Unknown checksum type: %d: %s\n", (unsigned int)XML_GetCurrentLineNumber(*pd->parser), pd->tmpattr);
972             exit(1);
973           }
974         if (strlen(pd->content) != l)
975           {
976             fprintf(stderr, "Invalid checksum length: %d: for %s\n", (unsigned int)XML_GetCurrentLineNumber(*pd->parser), pd->tmpattr);
977             exit(1);
978           }
979         repodata_set_checksum(pd->data, handle, SOLVABLE_CHECKSUM, type, pd->content);
980         /* we save the checksum to solvable id relationship for extended
981            metadata */
982         Id index = stringpool_str2id (&pd->cspool, pd->content, 1 /* create it */);
983         if ( index >= pd->ncscache )
984         {
985           /** realloc for this index plus CSREALLOC_STEP*/
986           pd->cscache = (Id *) sat_zextend(pd->cscache, pd->ncscache, index - pd->ncscache +1, sizeof(Id), 255);
987           /** fill the realloced part with 0s */
988           
989           pd->ncscache = index +1;
990
991         }
992         /* add the checksum to the cache */
993         pd->cscache[index-1] = s - pool->solvables;
994
995       }
996       break;
997     case STATE_FILE:
998 #if 0
999       id = str2id(pool, pd->content, 1);
1000       s->provides = repo_addid_dep(repo, s->provides, id, SOLVABLE_FILEMARKER);
1001 #endif
1002       if ((p = strrchr(pd->content, '/')) != 0)
1003         {
1004           *p++ = 0;
1005           id = repodata_str2dir(pd->data, pd->content, 1);
1006         }
1007       else
1008         {
1009           p = pd->content;
1010           id = 0;
1011         }
1012       if (!id)
1013         id = repodata_str2dir(pd->data, "/", 1);
1014       repodata_add_dirstr(pd->data, handle, SOLVABLE_FILELIST, id, p);
1015       break;
1016     case STATE_SUMMARY:
1017       pd->tmplang = 0;
1018       repodata_set_str(pd->data, handle, SOLVABLE_SUMMARY, pd->content);
1019       break;
1020     case STATE_DESCRIPTION:
1021       pd->tmplang = 0;
1022       set_desciption_author(pd->data, handle, pd->content);
1023       break;
1024     case STATE_DISTRIBUTION:
1025         repodata_set_poolstr(pd->data, handle, SOLVABLE_DISTRIBUTION, pd->content);
1026         break;
1027     case STATE_URL:
1028       if (pd->content[0])
1029         repodata_set_str(pd->data, handle, SOLVABLE_URL, pd->content);
1030       break;
1031     case STATE_PACKAGER:
1032       if (pd->content[0])
1033         repodata_set_poolstr(pd->data, handle, SOLVABLE_PACKAGER, pd->content);
1034       break;
1035     case STATE_SOURCERPM:
1036       set_sourcerpm(pd->data, s, handle, pd->content);
1037       break;
1038     case STATE_RELNOTESURL:
1039       if (pd->content[0])
1040           repodata_set_poolstr(pd->data, handle, PRODUCT_RELNOTESURL, pd->content);
1041       break;
1042     case STATE_UPDATEURL:
1043       if (pd->content[0])
1044           repodata_set_poolstr(pd->data, handle, PRODUCT_EXTRAURLS, pd->content);
1045       break;
1046     case STATE_OPTIONALURL:
1047       if (pd->content[0])
1048           repodata_set_poolstr(pd->data, handle, PRODUCT_OPTIONALURLS, pd->content);
1049       break;
1050     case STATE_FLAG:
1051       if (pd->content[0])
1052           repodata_set_poolstr(pd->data, handle, PRODUCT_FLAGS, pd->content);
1053       break;
1054     case STATE_FLAVOR:
1055       if (pd->content[0])
1056         repodata_set_str(pd->data, handle, PRODUCT_FLAVOR, pd->content);
1057       break;
1058     case STATE_REFERENCES:
1059       if (pd->content[0])
1060         repodata_set_str(pd->data, handle, PRODUCT_REFERENCES, pd->content);
1061       break;
1062     case STATE_EULA:
1063       if (pd->content[0])
1064         repodata_set_str(pd->data, handle, langtag(pd, SOLVABLE_EULA, pd->language), pd->content);
1065       break;
1066     case STATE_DISKUSAGE:
1067       if (pd->ndirs)
1068         commit_diskusage (pd, pd->handle);
1069       break;    
1070     default:
1071       break;
1072     }
1073   pd->state = pd->sbtab[pd->state];
1074   pd->docontent = 0;
1075   // fprintf(stderr, "back from known %d %d %d\n", pd->state, pd->depth, pd->statedepth);
1076 }
1077
1078
1079 /*
1080  * characterData
1081  * XML callback
1082  * 
1083  */
1084
1085 static void XMLCALL
1086 characterData(void *userData, const XML_Char *s, int len)
1087 {
1088   struct parsedata *pd = userData;
1089   int l;
1090   char *c;
1091
1092   if (!pd->docontent)
1093     return;
1094   l = pd->lcontent + len + 1;
1095   if (l > pd->acontent)
1096     {
1097       pd->content = sat_realloc(pd->content, l + 256);
1098       pd->acontent = l + 256;
1099     }
1100   c = pd->content + pd->lcontent;
1101   pd->lcontent += len;
1102   while (len-- > 0)
1103     *c++ = *s++;
1104   *c = 0;
1105 }
1106
1107
1108 /*-----------------------------------------------*/
1109 /* 'main' */
1110
1111 #define BUFF_SIZE 8192
1112
1113 /*
1114  * repo_add_rpmmd
1115  * parse rpm-md metadata (primary, others)
1116  * 
1117  */
1118
1119 void
1120 repo_add_rpmmd(Repo *repo, FILE *fp, const char *language, int flags)
1121 {
1122   Pool *pool = repo->pool;
1123   struct parsedata pd;
1124   char buf[BUFF_SIZE];
1125   int i, l;
1126   struct stateswitch *sw;
1127
1128   memset(&pd, 0, sizeof(pd));
1129   for (i = 0, sw = stateswitches; sw->from != NUMSTATES; i++, sw++)
1130     {
1131       if (!pd.swtab[sw->from])
1132         pd.swtab[sw->from] = sw;
1133       pd.sbtab[sw->to] = sw->from;
1134     }
1135   pd.common.pool = pool;
1136   pd.common.repo = repo;
1137
1138   pd.data = repo_add_repodata(repo, 0);
1139
1140   pd.content = sat_malloc(256);
1141   pd.acontent = 256;
1142   pd.lcontent = 0;
1143   pd.common.tmp = 0;
1144   pd.common.tmpl = 0;
1145   pd.kind = 0;
1146   pd.language = language;
1147
1148   /* initialize the string pool where we will store
1149      the package checksums we know about, to get an Id
1150      we can use in a cache */
1151   stringpool_init_empty(&pd.cspool);
1152   pd.cscache = (Id *) calloc(MAX_CSCACHE, sizeof(Id));
1153   pd.ncscache = MAX_CSCACHE;
1154
1155   XML_Parser parser = XML_ParserCreate(NULL);
1156   XML_SetUserData(parser, &pd);
1157   pd.parser = &parser;
1158   XML_SetElementHandler(parser, startElement, endElement);
1159   XML_SetCharacterDataHandler(parser, characterData);
1160   for (;;)
1161     {
1162       l = fread(buf, 1, sizeof(buf), fp);
1163       if (XML_Parse(parser, buf, l, l == 0) == XML_STATUS_ERROR)
1164         {
1165           fprintf(stderr, "repo_rpmmd: %s at line %u:%u\n", XML_ErrorString(XML_GetErrorCode(parser)), (unsigned int)XML_GetCurrentLineNumber(parser), (unsigned int)XML_GetCurrentColumnNumber(parser));
1166           exit(1);
1167         }
1168       if (l == 0)
1169         break;
1170     }
1171   XML_ParserFree(parser);
1172
1173   if (pd.data)
1174     repodata_internalize(pd.data);
1175   sat_free(pd.content);
1176   join_freemem();
1177 }