Merge branch 'master' of gitorious.org:opensuse/sat-solver
[platform/upstream/libsolv.git] / ext / repo_rpmmd.c
1 /*
2  * Copyright (c) 2007, Novell Inc.
3  *
4  * This program is licensed under the BSD license, read LICENSE.BSD
5  * for further information
6  */
7
8 #include <sys/types.h>
9 #include <limits.h>
10 #include <fcntl.h>
11 #include <stdio.h>
12 #include <stdlib.h>
13 #include <string.h>
14 #include <expat.h>
15
16 #include "pool.h"
17 #include "repo.h"
18 #define DISABLE_SPLIT
19 #include "tools_util.h"
20 #include "repo_rpmmd.h"
21 #include "chksum.h"
22
23
24 enum state {
25   STATE_START,
26
27   STATE_SOLVABLE,
28
29   STATE_NAME,
30   STATE_ARCH,
31   STATE_VERSION,
32
33   // package rpm-md
34   STATE_LOCATION,
35   STATE_CHECKSUM,
36   STATE_RPM_GROUP,
37   STATE_RPM_LICENSE,
38
39   /* resobject attributes */
40   STATE_SUMMARY,
41   STATE_DESCRIPTION,
42   STATE_DISTRIBUTION,
43   STATE_PACKAGER,
44   STATE_URL,
45   STATE_INSNOTIFY,
46   STATE_DELNOTIFY,
47   STATE_VENDOR,
48   STATE_SIZE,
49   STATE_TIME,
50   STATE_DOWNLOADSIZE,
51   STATE_INSTALLTIME,
52   STATE_INSTALLONLY,
53
54   /* Novell/SUSE extended attributes */
55   STATE_EULA,
56   STATE_KEYWORD,
57   STATE_DISKUSAGE,
58   STATE_DIRS,
59   STATE_DIR,
60
61   /* patch */
62   STATE_ID,
63   STATE_TIMESTAMP,
64   STATE_AFFECTSPKG,
65   STATE_REBOOTNEEDED,
66
67   // pattern attributes
68   STATE_CATEGORY, /* pattern and patches */
69   STATE_SCRIPT,
70   STATE_ICON,
71   STATE_USERVISIBLE,
72   STATE_DEFAULT,
73   STATE_INSTALL_TIME,
74
75   /* product */
76   STATE_SHORTNAME,
77   STATE_DISTNAME, // obsolete
78   STATE_DISTEDITION, // obsolete
79   STATE_SOURCE,
80   STATE_TYPE,
81   STATE_RELNOTESURL,
82   STATE_UPDATEURL,
83   STATE_OPTIONALURL,
84   STATE_FLAG,
85
86   /* rpm-md dependencies inside the
87      format tag */
88   STATE_PROVIDES,
89   STATE_REQUIRES,
90   STATE_OBSOLETES,
91   STATE_CONFLICTS,
92   STATE_RECOMMENDS,
93   STATE_SUPPLEMENTS,
94   STATE_SUGGESTS,
95   STATE_ENHANCES,
96   STATE_FRESHENS,
97   STATE_SOURCERPM,
98   STATE_HEADERRANGE,
99
100   STATE_PROVIDESENTRY,
101   STATE_REQUIRESENTRY,
102   STATE_OBSOLETESENTRY,
103   STATE_CONFLICTSENTRY,
104   STATE_RECOMMENDSENTRY,
105   STATE_SUPPLEMENTSENTRY,
106   STATE_SUGGESTSENTRY,
107   STATE_ENHANCESENTRY,
108   STATE_FRESHENSENTRY,
109
110   STATE_FILE,
111
112   // general
113   NUMSTATES
114 };
115
116 struct stateswitch {
117   enum state from;
118   char *ename;
119   enum state to;
120   int docontent;
121 };
122
123 static struct stateswitch stateswitches[] = {
124   /** fake tag used to enclose 2 different xml files in one **/
125   { STATE_START,       "rpmmd",           STATE_START,    0 },
126
127   /** tags for different package data, we just ignore the tag **/
128   { STATE_START,       "metadata",        STATE_START,    0 },
129   { STATE_START,       "otherdata",       STATE_START,    0 },
130   { STATE_START,       "filelists",       STATE_START,    0 },
131   { STATE_START,       "diskusagedata",   STATE_START,    0 },
132   { STATE_START,       "susedata",        STATE_START,    0 },
133
134   { STATE_START,       "product",         STATE_SOLVABLE, 0 },
135   { STATE_START,       "pattern",         STATE_SOLVABLE, 0 },
136   { STATE_START,       "patch",           STATE_SOLVABLE, 0 },
137   { STATE_START,       "package",         STATE_SOLVABLE, 0 },
138
139   { STATE_SOLVABLE,    "name",            STATE_NAME, 1 },
140   { STATE_SOLVABLE,    "arch",            STATE_ARCH, 1 },
141   { STATE_SOLVABLE,    "version",         STATE_VERSION, 0 },
142
143   // package attributes rpm-md
144   { STATE_SOLVABLE,    "location",        STATE_LOCATION, 0 },
145   { STATE_SOLVABLE,    "checksum",        STATE_CHECKSUM, 1 },
146
147   /* resobject attributes */
148
149   { STATE_SOLVABLE,    "summary",         STATE_SUMMARY,      1 },
150   { STATE_SOLVABLE,    "description",     STATE_DESCRIPTION,  1 },
151   { STATE_SOLVABLE,    "distribution",    STATE_DISTRIBUTION, 1 },
152   { STATE_SOLVABLE,    "url",             STATE_URL,          1 },
153   { STATE_SOLVABLE,    "packager",        STATE_PACKAGER,     1 },
154   //{ STATE_SOLVABLE,    "???",         STATE_INSNOTIFY, 1 },
155   //{ STATE_SOLVABLE,    "??",     STATE_DELNOTIFY, 1 },
156   { STATE_SOLVABLE,    "vendor",          STATE_VENDOR,       1 },
157   { STATE_SOLVABLE,    "size",            STATE_SIZE,         0 },
158   { STATE_SOLVABLE,    "archive-size",    STATE_DOWNLOADSIZE, 1 },
159   { STATE_SOLVABLE,    "install-time",    STATE_INSTALLTIME,  1 },
160   { STATE_SOLVABLE,    "install-only",    STATE_INSTALLONLY,  1 },
161   { STATE_SOLVABLE,    "time",            STATE_TIME,         0 },
162
163   /* extended Novell/SUSE attributes (susedata.xml) */
164   { STATE_SOLVABLE,    "eula",            STATE_EULA,         1 },
165   { STATE_SOLVABLE,    "keyword",         STATE_KEYWORD,      1 },
166   { STATE_SOLVABLE,    "diskusage",       STATE_DISKUSAGE,    0 },
167
168   // pattern attribute
169   { STATE_SOLVABLE,    "script",          STATE_SCRIPT,        1 },
170   { STATE_SOLVABLE,    "icon",            STATE_ICON,          1 },
171   { STATE_SOLVABLE,    "uservisible",     STATE_USERVISIBLE,   1 },
172   { STATE_SOLVABLE,    "category",        STATE_CATEGORY,      1 },
173   { STATE_SOLVABLE,    "default",         STATE_DEFAULT,       1 },
174   { STATE_SOLVABLE,    "install-time",    STATE_INSTALL_TIME,  1 },
175
176   /* product attributes */
177   /* note the product type is an attribute */
178   { STATE_SOLVABLE,    "release-notes-url", STATE_RELNOTESURL, 1 },
179   { STATE_SOLVABLE,    "update-url",        STATE_UPDATEURL,   1 },
180   { STATE_SOLVABLE,    "optional-url",      STATE_OPTIONALURL, 1 },
181   { STATE_SOLVABLE,    "flag",              STATE_FLAG,        1 },
182
183   { STATE_SOLVABLE,      "rpm:vendor",      STATE_VENDOR,      1 },
184   { STATE_SOLVABLE,      "rpm:group",       STATE_RPM_GROUP,   1 },
185   { STATE_SOLVABLE,      "rpm:license",     STATE_RPM_LICENSE, 1 },
186
187   /* rpm-md dependencies */
188   { STATE_SOLVABLE,      "rpm:provides",    STATE_PROVIDES,     0 },
189   { STATE_SOLVABLE,      "rpm:requires",    STATE_REQUIRES,     0 },
190   { STATE_SOLVABLE,      "rpm:obsoletes",   STATE_OBSOLETES,    0 },
191   { STATE_SOLVABLE,      "rpm:conflicts",   STATE_CONFLICTS,    0 },
192   { STATE_SOLVABLE,      "rpm:recommends",  STATE_RECOMMENDS ,  0 },
193   { STATE_SOLVABLE,      "rpm:supplements", STATE_SUPPLEMENTS,  0 },
194   { STATE_SOLVABLE,      "rpm:suggests",    STATE_SUGGESTS,     0 },
195   { STATE_SOLVABLE,      "rpm:enhances",    STATE_ENHANCES,     0 },
196   { STATE_SOLVABLE,      "rpm:freshens",    STATE_FRESHENS,     0 },
197   { STATE_SOLVABLE,      "rpm:sourcerpm",   STATE_SOURCERPM,    1 },
198   { STATE_SOLVABLE,      "rpm:header-range", STATE_HEADERRANGE, 0 },
199   { STATE_SOLVABLE,      "file",            STATE_FILE, 1 },
200
201    /* extended Novell/SUSE diskusage attributes (susedata.xml) */
202   { STATE_DISKUSAGE,   "dirs",            STATE_DIRS,         0 },
203   { STATE_DIRS,        "dir",             STATE_DIR,          0 },
204
205   { STATE_PROVIDES,    "rpm:entry",       STATE_PROVIDESENTRY, 0 },
206   { STATE_REQUIRES,    "rpm:entry",       STATE_REQUIRESENTRY, 0 },
207   { STATE_OBSOLETES,   "rpm:entry",       STATE_OBSOLETESENTRY, 0 },
208   { STATE_CONFLICTS,   "rpm:entry",       STATE_CONFLICTSENTRY, 0 },
209   { STATE_RECOMMENDS,  "rpm:entry",       STATE_RECOMMENDSENTRY, 0 },
210   { STATE_SUPPLEMENTS, "rpm:entry",       STATE_SUPPLEMENTSENTRY, 0 },
211   { STATE_SUGGESTS,    "rpm:entry",       STATE_SUGGESTSENTRY, 0 },
212   { STATE_ENHANCES,    "rpm:entry",       STATE_ENHANCESENTRY, 0 },
213   { STATE_FRESHENS,    "rpm:entry",       STATE_FRESHENSENTRY, 0 },
214
215   { NUMSTATES}
216 };
217
218 /* maxmum initial size of
219    the checksum cache */
220 #define MAX_CSCACHE 32768
221 #define CSREALLOC_STEP 1024
222
223 struct parsedata {
224   struct parsedata_common common;
225   char *kind;
226   int depth;
227   enum state state;
228   int statedepth;
229   char *content;
230   int lcontent;
231   int acontent;
232   int docontent;
233   Solvable *solvable;
234   Offset freshens;
235   struct stateswitch *swtab[NUMSTATES];
236   enum state sbtab[NUMSTATES];
237   /* temporal to store attribute tag language */
238   const char *tmplang;
239   const char *capkind;
240   // used to store tmp attributes
241   // while the tag ends
242   const char *tmpattr;
243   Repodata *data;
244   Id handle;
245   XML_Parser *parser;
246   Id (*dirs)[3]; // dirid, size, nfiles
247   int ndirs;
248   Id langcache[ID_NUM_INTERNAL];
249   /** system language */
250   const char *language;
251
252   Id lastdir;
253   char *lastdirstr;
254   int lastdirstrl;
255
256   /** Hash to maps checksums to solv */
257   Stringpool cspool;
258   /** Cache of known checksums to solvable id */
259   Id *cscache;
260   /* the current longest index in the table */
261   int ncscache;
262 };
263
264 static Id
265 langtag(struct parsedata *pd, Id tag, const char *language)
266 {
267   if (language && !language[0])
268     language = 0;
269   if (!language || tag >= ID_NUM_INTERNAL)
270     return pool_id2langid(pd->common.repo->pool, tag, language, 1);
271   return pool_id2langid(pd->common.repo->pool, tag, language, 1);
272   if (!pd->langcache[tag])
273     pd->langcache[tag] = pool_id2langid(pd->common.repo->pool, tag, language, 1);
274   return pd->langcache[tag];
275 }
276
277 static int
278 id3_cmp (const void *v1, const void *v2, void *dp)
279 {
280   Id *i1 = (Id*)v1;
281   Id *i2 = (Id*)v2;
282   return i1[0] - i2[0];
283 }
284
285 static void
286 commit_diskusage (struct parsedata *pd, unsigned handle)
287 {
288   unsigned i;
289   Dirpool *dp = &pd->data->dirpool;
290   /* Now sort in dirid order.  This ensures that parents come before
291      their children.  */
292   if (pd->ndirs > 1)
293     sat_sort(pd->dirs, pd->ndirs, sizeof (pd->dirs[0]), id3_cmp, 0);
294   /* Substract leaf numbers from all parents to make the numbers
295      non-cumulative.  This must be done post-order (i.e. all leafs
296      adjusted before parents).  We ensure this by starting at the end of
297      the array moving to the start, hence seeing leafs before parents.  */
298   for (i = pd->ndirs; i--;)
299     {
300       unsigned p = dirpool_parent(dp, pd->dirs[i][0]);
301       unsigned j = i;
302       for (; p; p = dirpool_parent(dp, p))
303         {
304           for (; j--;)
305             if (pd->dirs[j][0] == p)
306               break;
307           if (j < pd->ndirs)
308             {
309               if (pd->dirs[j][1] < pd->dirs[i][1])
310                 pd->dirs[j][1] = 0;
311               else
312                 pd->dirs[j][1] -= pd->dirs[i][1];
313               if (pd->dirs[j][2] < pd->dirs[i][2])
314                 pd->dirs[j][2] = 0;
315               else
316                 pd->dirs[j][2] -= pd->dirs[i][2];
317             }
318           else
319             /* Haven't found this parent in the list, look further if
320                we maybe find the parents parent.  */
321             j = i;
322         }
323     }
324 #if 0
325   char sbuf[1024];
326   char *buf = sbuf;
327   unsigned slen = sizeof (sbuf);
328   for (i = 0; i < pd->ndirs; i++)
329     {
330       dir2str (attr, pd->dirs[i][0], &buf, &slen);
331       fprintf (stderr, "have dir %d %d %d %s\n", pd->dirs[i][0], pd->dirs[i][1], pd->dirs[i][2], buf);
332     }
333   if (buf != sbuf)
334     free (buf);
335 #endif
336   for (i = 0; i < pd->ndirs; i++)
337     if (pd->dirs[i][1] || pd->dirs[i][2])
338       {
339         repodata_add_dirnumnum(pd->data, handle, SOLVABLE_DISKUSAGE, pd->dirs[i][0], pd->dirs[i][1], pd->dirs[i][2]);
340       }
341   pd->ndirs = 0;
342 }
343
344
345 /*
346  * makeevr_atts
347  * parse 'epoch', 'ver' and 'rel', return evr Id
348  *
349  */
350
351 static Id
352 makeevr_atts(Pool *pool, struct parsedata *pd, const char **atts)
353 {
354   const char *e, *v, *r, *v2;
355   char *c;
356   int l;
357
358   e = v = r = 0;
359   for (; *atts; atts += 2)
360     {
361       if (!strcmp(*atts, "epoch"))
362         e = atts[1];
363       else if (!strcmp(*atts, "ver"))
364         v = atts[1];
365       else if (!strcmp(*atts, "rel"))
366         r = atts[1];
367     }
368   if (e && !strcmp(e, "0"))
369     e = 0;
370   if (v && !e)
371     {
372       for (v2 = v; *v2 >= '0' && *v2 <= '9'; v2++)
373         ;
374       if (v2 > v && *v2 == ':')
375         e = "0";
376     }
377   l = 1;
378   if (e)
379     l += strlen(e) + 1;
380   if (v)
381     l += strlen(v);
382   if (r)
383     l += strlen(r) + 1;
384   if (l > pd->acontent)
385     {
386       pd->content = sat_realloc(pd->content, l + 256);
387       pd->acontent = l + 256;
388     }
389   c = pd->content;
390   if (e)
391     {
392       strcpy(c, e);
393       c += strlen(c);
394       *c++ = ':';
395     }
396   if (v)
397     {
398       strcpy(c, v);
399       c += strlen(c);
400     }
401   if (r)
402     {
403       *c++ = '-';
404       strcpy(c, r);
405       c += strlen(c);
406     }
407   *c = 0;
408   if (!*pd->content)
409     return 0;
410 #if 0
411   fprintf(stderr, "evr: %s\n", pd->content);
412 #endif
413   return str2id(pool, pd->content, 1);
414 }
415
416
417 /*
418  * find_attr
419  * find value for xml attribute
420  * I: txt, name of attribute
421  * I: atts, list of key/value attributes
422  * O: pointer to value of matching key, or NULL
423  *
424  */
425
426 static inline const char *
427 find_attr(const char *txt, const char **atts)
428 {
429   for (; *atts; atts += 2)
430     {
431       if (!strcmp(*atts, txt))
432         return atts[1];
433     }
434   return 0;
435 }
436
437
438 /*
439  * dependency relations
440  */
441
442 static char *flagtab[] = {
443   "GT",
444   "EQ",
445   "GE",
446   "LT",
447   "NE",
448   "LE"
449 };
450
451
452 /*
453  * adddep
454  * parse attributes to reldep Id
455  *
456  */
457
458 static unsigned int
459 adddep(Pool *pool, struct parsedata *pd, unsigned int olddeps, const char **atts, int isreq)
460 {
461   Id id, name, marker;
462   const char *n, *f, *k;
463   const char **a;
464
465   n = f = k = 0;
466   marker = isreq ? -SOLVABLE_PREREQMARKER : 0;
467   for (a = atts; *a; a += 2)
468     {
469       if (!strcmp(*a, "name"))
470         n = a[1];
471       else if (!strcmp(*a, "flags"))
472         f = a[1];
473       else if (!strcmp(*a, "kind"))
474         k = a[1];
475       else if (isreq && !strcmp(*a, "pre") && a[1][0] == '1')
476         marker = SOLVABLE_PREREQMARKER;
477     }
478   if (!n)
479     return olddeps;
480   if (k && !strcmp(k, "package"))
481     k = 0;
482   if (k)
483     {
484       int l = strlen(k) + 1 + strlen(n) + 1;
485       if (l > pd->acontent)
486         {
487           pd->content = sat_realloc(pd->content, l + 256);
488           pd->acontent = l + 256;
489         }
490       sprintf(pd->content, "%s:%s", k, n);
491       name = str2id(pool, pd->content, 1);
492     }
493   else
494     name = str2id(pool, (char *)n, 1);
495   if (f)
496     {
497       Id evr = makeevr_atts(pool, pd, atts);
498       int flags;
499       for (flags = 0; flags < 6; flags++)
500         if (!strcmp(f, flagtab[flags]))
501           break;
502       flags = flags < 6 ? flags + 1 : 0;
503       id = rel2id(pool, name, evr, flags, 1);
504     }
505   else
506     id = name;
507 #if 0
508   fprintf(stderr, "new dep %s%s%s\n", id2str(pool, d), id2rel(pool, d), id2evr(pool, d));
509 #endif
510   return repo_addid_dep(pd->common.repo, olddeps, id, marker);
511 }
512
513
514 /*
515  * set_desciption_author
516  *
517  */
518
519 static void
520 set_desciption_author(Repodata *data, Id handle, char *str)
521 {
522   char *aut, *p;
523
524   if (!str || !*str)
525     return;
526   for (aut = str; (aut = strchr(aut, '\n')) != 0; aut++)
527     if (!strncmp(aut, "\nAuthors:\n--------\n", 19))
528       break;
529   if (aut)
530     {
531       /* oh my, found SUSE special author section */
532       int l = aut - str;
533       str[l] = 0;
534       while (l > 0 && str[l - 1] == '\n')
535         str[--l] = 0;
536       if (l)
537         repodata_set_str(data, handle, SOLVABLE_DESCRIPTION, str);
538       p = aut + 19;
539       aut = str;        /* copy over */
540       while (*p == ' ' || *p == '\n')
541         p++;
542       while (*p)
543         {
544           if (*p == '\n')
545             {
546               *aut++ = *p++;
547               while (*p == ' ')
548                 p++;
549               continue;
550             }
551           *aut++ = *p++;
552         }
553       while (aut != str && aut[-1] == '\n')
554         aut--;
555       *aut = 0;
556       if (*str)
557         repodata_set_str(data, handle, SOLVABLE_AUTHORS, str);
558     }
559   else if (*str)
560     repodata_set_str(data, handle, SOLVABLE_DESCRIPTION, str);
561 }
562
563
564 /*
565  * set_sourcerpm
566  *
567  */
568
569 static void
570 set_sourcerpm(Repodata *data, Solvable *s, Id handle, char *sourcerpm)
571 {
572   const char *p, *sevr, *sarch, *name, *evr;
573   Pool *pool;
574
575   p = strrchr(sourcerpm, '.');
576   if (!p || strcmp(p, ".rpm") != 0)
577     return;
578   p--;
579   while (p > sourcerpm && *p != '.')
580     p--;
581   if (*p != '.' || p == sourcerpm)
582     return;
583   sarch = p-- + 1;
584   while (p > sourcerpm && *p != '-')
585     p--;
586   if (*p != '-' || p == sourcerpm)
587     return;
588   p--;
589   while (p > sourcerpm && *p != '-')
590     p--;
591   if (*p != '-' || p == sourcerpm)
592     return;
593   sevr = p + 1;
594   pool = s->repo->pool;
595   if (!strcmp(sarch, "src.rpm"))
596     repodata_set_constantid(data, handle, SOLVABLE_SOURCEARCH, ARCH_SRC);
597   else if (!strcmp(sarch, "nosrc.rpm"))
598     repodata_set_constantid(data, handle, SOLVABLE_SOURCEARCH, ARCH_NOSRC);
599   else
600     repodata_set_constantid(data, handle, SOLVABLE_SOURCEARCH, strn2id(pool, sarch, strlen(sarch) - 4, 1));
601   evr = id2str(pool, s->evr);
602   if (evr && !strncmp(sevr, evr, sarch - sevr - 1) && evr[sarch - sevr - 1] == 0)
603     repodata_set_void(data, handle, SOLVABLE_SOURCEEVR);
604   else
605     repodata_set_id(data, handle, SOLVABLE_SOURCEEVR, strn2id(pool, sevr, sarch - sevr - 1, 1));
606   name = id2str(pool, s->name);
607   if (name && !strncmp(sourcerpm, name, sevr - sourcerpm - 1) && name[sevr - sourcerpm - 1] == 0)
608     repodata_set_void(data, handle, SOLVABLE_SOURCENAME);
609   else
610     repodata_set_id(data, handle, SOLVABLE_SOURCENAME, strn2id(pool, sourcerpm, sevr - sourcerpm - 1, 1));
611 }
612
613 /*-----------------------------------------------*/
614 /* XML callbacks */
615
616 /*
617  * startElement
618  * XML callback
619  *
620  */
621
622 static void XMLCALL
623 startElement(void *userData, const char *name, const char **atts)
624 {
625   //fprintf(stderr,"+tag: %s\n", name);
626   struct parsedata *pd = userData;
627   Pool *pool = pd->common.pool;
628   Solvable *s = pd->solvable;
629   struct stateswitch *sw;
630   const char *str;
631   Id handle = pd->handle;
632
633   // fprintf(stderr, "into %s, from %d, depth %d, statedepth %d\n", name, pd->state, pd->depth, pd->statedepth);
634
635   if (pd->depth != pd->statedepth)
636     {
637       pd->depth++;
638       return;
639     }
640
641   if (pd->state == STATE_START && !strcmp(name, "patterns"))
642     return;
643   if (pd->state == STATE_START && !strcmp(name, "products"))
644     return;
645   //if (pd->state == STATE_START && !strcmp(name, "metadata"))
646   //  return;
647   if (pd->state == STATE_SOLVABLE && !strcmp(name, "format"))
648     return;
649
650   pd->depth++;
651   if (!pd->swtab[pd->state])
652     return;
653   for (sw = pd->swtab[pd->state]; sw->from == pd->state; sw++)
654     if (!strcmp(sw->ename, name))
655       break;
656   if (sw->from != pd->state)
657     {
658 #if 0
659       fprintf(stderr, "into unknown: %s\n", name);
660 #endif
661       return;
662     }
663   pd->state = sw->to;
664   pd->docontent = sw->docontent;
665   pd->statedepth = pd->depth;
666   pd->lcontent = 0;
667   *pd->content = 0;
668   switch(pd->state)
669     {
670     case STATE_SOLVABLE:
671       pd->kind = 0;
672       if (name[2] == 't' && name[3] == 't')
673         pd->kind = "pattern";
674       else if (name[1] == 'r')
675         pd->kind = "product";
676       else if (name[2] == 't' && name[3] == 'c')
677         pd->kind = "patch";
678
679       /* to support extension metadata files like others.xml which
680          have the following structure:
681
682          <otherdata xmlns="http://linux.duke.edu/metadata/other"
683                     packages="101">
684            <package pkgid="b78f8664cd90efe42e09a345e272997ef1b53c18"
685                     name="zaptel-kmp-default"
686                     arch="i586"><version epoch="0"
687                     ver="1.2.10_2.6.22_rc4_git6_2" rel="70"/>
688               ...
689
690          we need to check if the pkgid is there and if it matches
691          an already seen package, that means we don't need to create
692          a new solvable but just append the attributes to the existing
693          one.
694       */
695       const char *pkgid;
696       if ((pkgid = find_attr("pkgid", atts)) != NULL)
697         {
698           // look at the checksum cache
699           Id index = stringpool_str2id(&pd->cspool, pkgid, 0);
700           if (!index || index >= pd->ncscache || !pd->cscache[index])
701             {
702               fprintf(stderr, "error, the repository specifies extra information about package with checksum '%s', which does not exist in the repository.\n", pkgid);
703               exit(1);
704             }
705           pd->solvable = pool_id2solvable(pool, pd->cscache[index]);
706         }
707        else
708         {
709           /* this is a new package */
710           pd->solvable = pool_id2solvable(pool, repo_add_solvable(pd->common.repo));
711           pd->freshens = 0;
712         }
713       pd->handle = pd->solvable - pool->solvables;
714 #if 0
715       fprintf(stderr, "package #%d\n", pd->solvable - pool->solvables);
716 #endif
717
718       break;
719     case STATE_VERSION:
720       s->evr = makeevr_atts(pool, pd, atts);
721       break;
722     case STATE_PROVIDES:
723       s->provides = 0;
724       break;
725     case STATE_PROVIDESENTRY:
726       s->provides = adddep(pool, pd, s->provides, atts, 0);
727       break;
728     case STATE_REQUIRES:
729       s->requires = 0;
730       break;
731     case STATE_REQUIRESENTRY:
732       s->requires = adddep(pool, pd, s->requires, atts, 1);
733       break;
734     case STATE_OBSOLETES:
735       s->obsoletes = 0;
736       break;
737     case STATE_OBSOLETESENTRY:
738       s->obsoletes = adddep(pool, pd, s->obsoletes, atts, 0);
739       break;
740     case STATE_CONFLICTS:
741       s->conflicts = 0;
742       break;
743     case STATE_CONFLICTSENTRY:
744       s->conflicts = adddep(pool, pd, s->conflicts, atts, 0);
745       break;
746     case STATE_RECOMMENDS:
747       s->recommends = 0;
748       break;
749     case STATE_RECOMMENDSENTRY:
750       s->recommends = adddep(pool, pd, s->recommends, atts, 0);
751       break;
752     case STATE_SUPPLEMENTS:
753       s->supplements= 0;
754       break;
755     case STATE_SUPPLEMENTSENTRY:
756       s->supplements = adddep(pool, pd, s->supplements, atts, 0);
757       break;
758     case STATE_SUGGESTS:
759       s->suggests = 0;
760       break;
761     case STATE_SUGGESTSENTRY:
762       s->suggests = adddep(pool, pd, s->suggests, atts, 0);
763       break;
764     case STATE_ENHANCES:
765       s->enhances = 0;
766       break;
767     case STATE_ENHANCESENTRY:
768       s->enhances = adddep(pool, pd, s->enhances, atts, 0);
769       break;
770     case STATE_FRESHENS:
771       pd->freshens = 0;
772       break;
773     case STATE_FRESHENSENTRY:
774       pd->freshens = adddep(pool, pd, pd->freshens, atts, 0);
775       break;
776     case STATE_SUMMARY:
777     case STATE_DESCRIPTION:
778       pd->tmplang = find_attr("lang", atts);
779       break;
780     case STATE_USERVISIBLE:
781       repodata_set_void(pd->data, handle, SOLVABLE_ISVISIBLE );
782       break;
783     case STATE_LOCATION:
784       str = find_attr("href", atts);
785       if (str)
786         repodata_set_location(pd->data, handle, 0, 0, str);
787       break;
788     case STATE_CHECKSUM:
789       pd->tmpattr = find_attr("type", atts);
790       break;
791     case STATE_TIME:
792       {
793         unsigned int t;
794         str = find_attr("build", atts);
795         if (str && (t = atoi(str)) != 0)
796           repodata_set_num(pd->data, handle, SOLVABLE_BUILDTIME, t);
797         break;
798       }
799     case STATE_SIZE:
800       {
801         unsigned int k;
802         str = find_attr("installed", atts);
803         if (str && (k = atoi(str)) != 0)
804           repodata_set_num(pd->data, handle, SOLVABLE_INSTALLSIZE, (k + 1023) / 1024);
805         /* XXX the "package" attribute gives the size of the rpm file,
806            i.e. the download size.  Except on packman, there it seems to be
807            something else entirely, it has a value near to the other two
808            values, as if the rpm is uncompressed.  */
809         str = find_attr("package", atts);
810         if (str && (k = atoi(str)) != 0)
811           repodata_set_num(pd->data, handle, SOLVABLE_DOWNLOADSIZE, (k + 1023) / 1024);
812         break;
813       }
814     case STATE_HEADERRANGE:
815       {
816         unsigned int end;
817         str = find_attr("end", atts);
818         if (str && (end = atoi(str)) != 0)
819           repodata_set_num(pd->data, handle, SOLVABLE_HEADEREND, end);
820       }
821       /*
822         <diskusage>
823           <dirs>
824             <dir name="/" size="56" count="11"/>
825             <dir name="usr/" size="56" count="11"/>
826             <dir name="usr/bin/" size="38" count="10"/>
827             <dir name="usr/share/" size="18" count="1"/>
828             <dir name="usr/share/doc/" size="18" count="1"/>
829           </dirs>
830         </diskusage>
831       */
832     case STATE_DISKUSAGE:
833       {
834         /* Really, do nothing, wat for <dir> tag */
835         break;
836       }
837     case STATE_DIR:
838       {
839         long filesz = 0, filenum = 0;
840         unsigned dirid;
841         if ((str = find_attr("name", atts)) != 0)
842           dirid = repodata_str2dir(pd->data, str, 1);
843         else
844           {
845             fprintf( stderr, "<dir .../> tag without 'name' attribute, atts = %p, *atts = %p\n",
846                     (void *)atts, *atts);
847             break;
848           }
849         if ((str = find_attr("size", atts)) != 0)
850           filesz = strtol(str, 0, 0);
851         if ((str = find_attr("count", atts)) != 0)
852           filenum = strtol(str, 0, 0);
853         pd->dirs = sat_extend(pd->dirs, pd->ndirs, 1, sizeof(pd->dirs[0]), 31);
854         pd->dirs[pd->ndirs][0] = dirid;
855         pd->dirs[pd->ndirs][1] = filesz;
856         pd->dirs[pd->ndirs][2] = filenum;
857         pd->ndirs++;
858         break;
859       }
860     default:
861       break;
862     }
863 }
864
865
866 /*
867  * endElement
868  * XML callback
869  *
870  */
871
872 static void XMLCALL
873 endElement(void *userData, const char *name)
874 {
875   //fprintf(stderr,"-tag: %s\n", name);
876   struct parsedata *pd = userData;
877   Pool *pool = pd->common.pool;
878   Solvable *s = pd->solvable;
879   Repo *repo = pd->common.repo;
880   Id handle = pd->handle;
881   Id id;
882   char *p;
883
884   if (pd->depth != pd->statedepth)
885     {
886       pd->depth--;
887       // printf("back from unknown %d %d %d\n", pd->state, pd->depth, pd->statedepth);
888       return;
889     }
890
891   /* ignore patterns & metadata */
892   if (pd->state == STATE_START && !strcmp(name, "patterns"))
893     return;
894   if (pd->state == STATE_START && !strcmp(name, "products"))
895     return;
896   //if (pd->state == STATE_START && !strcmp(name, "metadata"))
897   //  return;
898   if (pd->state == STATE_SOLVABLE && !strcmp(name, "format"))
899     return;
900
901   pd->depth--;
902   pd->statedepth--;
903   switch (pd->state)
904     {
905     case STATE_SOLVABLE:
906       if (pd->kind && !s->name) /* add namespace in case of NULL name */
907         s->name = str2id(pool, join2(pd->kind, ":", ""), 1);
908       if (!s->arch)
909         s->arch = ARCH_NOARCH;
910       if (!s->evr)
911         s->evr = ID_EMPTY;      /* some patterns have this */
912       if (s->name && s->arch != ARCH_SRC && s->arch != ARCH_NOSRC)
913         s->provides = repo_addid_dep(repo, s->provides, rel2id(pool, s->name, s->evr, REL_EQ, 1), 0);
914       s->supplements = repo_fix_supplements(repo, s->provides, s->supplements, pd->freshens);
915       s->conflicts = repo_fix_conflicts(repo, s->conflicts);
916       pd->freshens = 0;
917       pd->kind = 0;
918       break;
919     case STATE_NAME:
920       if (pd->kind)
921         s->name = str2id(pool, join2(pd->kind, ":", pd->content), 1);
922       else
923         s->name = str2id(pool, pd->content, 1);
924       break;
925     case STATE_ARCH:
926       s->arch = str2id(pool, pd->content, 1);
927       break;
928     case STATE_VENDOR:
929       s->vendor = str2id(pool, pd->content, 1);
930       break;
931     case STATE_RPM_GROUP:
932       repodata_set_poolstr(pd->data, handle, SOLVABLE_GROUP, pd->content);
933       break;
934     case STATE_RPM_LICENSE:
935       repodata_set_poolstr(pd->data, handle, SOLVABLE_LICENSE, pd->content);
936       break;
937     case STATE_CHECKSUM:
938       {
939         int l;
940         Id type, index;
941         if (!strcasecmp(pd->tmpattr, "sha") || !strcasecmp(pd->tmpattr, "sha1"))
942           l = SIZEOF_SHA1 * 2, type = REPOKEY_TYPE_SHA1;
943         else if (!strcasecmp(pd->tmpattr, "sha256"))
944           l = SIZEOF_SHA256 * 2, type = REPOKEY_TYPE_SHA256;
945         else if (!strcasecmp(pd->tmpattr, "md5"))
946           l = SIZEOF_MD5 * 2, type = REPOKEY_TYPE_MD5;
947         else
948           {
949             fprintf(stderr, "Unknown checksum type: %d: %s\n", (unsigned int)XML_GetCurrentLineNumber(*pd->parser), pd->tmpattr);
950             exit(1);
951           }
952         if (strlen(pd->content) != l)
953           {
954             fprintf(stderr, "Invalid checksum length: %d: for %s\n", (unsigned int)XML_GetCurrentLineNumber(*pd->parser), pd->tmpattr);
955             exit(1);
956           }
957         repodata_set_checksum(pd->data, handle, SOLVABLE_CHECKSUM, type, pd->content);
958         /* we save the checksum to solvable id relationship for extended
959            metadata */
960         index = stringpool_str2id(&pd->cspool, pd->content, 1 /* create it */);
961         if (index >= pd->ncscache)
962           {
963             pd->cscache = sat_zextend(pd->cscache, pd->ncscache, index + 1 - pd->ncscache, sizeof(Id), 255);
964             pd->ncscache = index + 1;
965           }
966         /* add the checksum to the cache */
967         pd->cscache[index] = s - pool->solvables;
968         break;
969       }
970     case STATE_FILE:
971 #if 0
972       id = str2id(pool, pd->content, 1);
973       s->provides = repo_addid_dep(repo, s->provides, id, SOLVABLE_FILEMARKER);
974 #endif
975       if ((p = strrchr(pd->content, '/')) != 0)
976         {
977           *p++ = 0;
978           if (pd->lastdir && !strcmp(pd->lastdirstr, pd->content))
979             {
980               id = pd->lastdir;
981             }
982           else
983             {
984               int l;
985               id = repodata_str2dir(pd->data, pd->content, 1);
986               l = strlen(pd->content) + 1;
987               if (l > pd->lastdirstrl)
988                 {
989                   pd->lastdirstrl = l + 128;
990                   pd->lastdirstr = sat_realloc(pd->lastdirstr, pd->lastdirstrl);
991                 }
992               strcpy(pd->lastdirstr, pd->content);
993               pd->lastdir = id;
994             }
995         }
996       else
997         {
998           p = pd->content;
999           id = 0;
1000         }
1001       if (!id)
1002         id = repodata_str2dir(pd->data, "/", 1);
1003       repodata_add_dirstr(pd->data, handle, SOLVABLE_FILELIST, id, p);
1004       break;
1005     case STATE_SUMMARY:
1006       pd->tmplang = 0;
1007       repodata_set_str(pd->data, handle, SOLVABLE_SUMMARY, pd->content);
1008       break;
1009     case STATE_DESCRIPTION:
1010       pd->tmplang = 0;
1011       set_desciption_author(pd->data, handle, pd->content);
1012       break;
1013     case STATE_DISTRIBUTION:
1014         repodata_set_poolstr(pd->data, handle, SOLVABLE_DISTRIBUTION, pd->content);
1015         break;
1016     case STATE_URL:
1017       if (pd->content[0])
1018         repodata_set_str(pd->data, handle, SOLVABLE_URL, pd->content);
1019       break;
1020     case STATE_PACKAGER:
1021       if (pd->content[0])
1022         repodata_set_poolstr(pd->data, handle, SOLVABLE_PACKAGER, pd->content);
1023       break;
1024     case STATE_SOURCERPM:
1025       set_sourcerpm(pd->data, s, handle, pd->content);
1026       break;
1027     case STATE_RELNOTESURL:
1028       if (pd->content[0])
1029         {
1030           repodata_add_poolstr_array(pd->data, pd->handle, PRODUCT_URL, pd->content);
1031           repodata_add_idarray(pd->data, pd->handle, PRODUCT_URL_TYPE, str2id(pool, "releasenotes", 1));
1032         }
1033       break;
1034     case STATE_UPDATEURL:
1035       if (pd->content[0])
1036         {
1037           repodata_add_poolstr_array(pd->data, pd->handle, PRODUCT_URL, pd->content);
1038           repodata_add_idarray(pd->data, pd->handle, PRODUCT_URL_TYPE, str2id(pool, "update", 1));
1039         }
1040       break;
1041     case STATE_OPTIONALURL:
1042       if (pd->content[0])
1043         {
1044           repodata_add_poolstr_array(pd->data, pd->handle, PRODUCT_URL, pd->content);
1045           repodata_add_idarray(pd->data, pd->handle, PRODUCT_URL_TYPE, str2id(pool, "optional", 1));
1046         }
1047       break;
1048     case STATE_FLAG:
1049       if (pd->content[0])
1050           repodata_set_poolstr(pd->data, handle, PRODUCT_FLAGS, pd->content);
1051       break;
1052     case STATE_EULA:
1053       if (pd->content[0])
1054         repodata_set_str(pd->data, handle, langtag(pd, SOLVABLE_EULA, pd->language), pd->content);
1055       break;
1056     case STATE_KEYWORD:
1057       if (pd->content[0])
1058         repodata_add_poolstr_array(pd->data, pd->handle, SOLVABLE_KEYWORDS, pd->content);
1059       break;
1060     case STATE_DISKUSAGE:
1061       if (pd->ndirs)
1062         commit_diskusage(pd, pd->handle);
1063       break;
1064     default:
1065       break;
1066     }
1067   pd->state = pd->sbtab[pd->state];
1068   pd->docontent = 0;
1069   // fprintf(stderr, "back from known %d %d %d\n", pd->state, pd->depth, pd->statedepth);
1070 }
1071
1072
1073 /*
1074  * characterData
1075  * XML callback
1076  *
1077  */
1078
1079 static void XMLCALL
1080 characterData(void *userData, const XML_Char *s, int len)
1081 {
1082   struct parsedata *pd = userData;
1083   int l;
1084   char *c;
1085
1086   if (!pd->docontent)
1087     return;
1088   l = pd->lcontent + len + 1;
1089   if (l > pd->acontent)
1090     {
1091       pd->content = sat_realloc(pd->content, l + 256);
1092       pd->acontent = l + 256;
1093     }
1094   c = pd->content + pd->lcontent;
1095   pd->lcontent += len;
1096   while (len-- > 0)
1097     *c++ = *s++;
1098   *c = 0;
1099 }
1100
1101
1102 /*-----------------------------------------------*/
1103 /* 'main' */
1104
1105 #define BUFF_SIZE 8192
1106
1107 /*
1108  * repo_add_rpmmd
1109  * parse rpm-md metadata (primary, others)
1110  *
1111  */
1112
1113 void
1114 repo_add_rpmmd(Repo *repo, FILE *fp, const char *language, int flags)
1115 {
1116   Pool *pool = repo->pool;
1117   struct parsedata pd;
1118   char buf[BUFF_SIZE];
1119   int i, l;
1120   struct stateswitch *sw;
1121   Repodata *data;
1122   unsigned int now;
1123
1124   now = sat_timems(0);
1125   data = repo_add_repodata(repo, flags);
1126
1127   memset(&pd, 0, sizeof(pd));
1128   for (i = 0, sw = stateswitches; sw->from != NUMSTATES; i++, sw++)
1129     {
1130       if (!pd.swtab[sw->from])
1131         pd.swtab[sw->from] = sw;
1132       pd.sbtab[sw->to] = sw->from;
1133     }
1134   pd.common.pool = pool;
1135   pd.common.repo = repo;
1136
1137   pd.data = data;
1138
1139   pd.content = sat_malloc(256);
1140   pd.acontent = 256;
1141   pd.lcontent = 0;
1142   pd.common.tmp = 0;
1143   pd.common.tmpl = 0;
1144   pd.kind = 0;
1145   pd.language = language;
1146
1147   /* initialize the string pool where we will store
1148      the package checksums we know about, to get an Id
1149      we can use in a cache */
1150   stringpool_init_empty(&pd.cspool);
1151   if ((flags & REPO_EXTEND_SOLVABLES) != 0)
1152     {
1153       /* setup join data */
1154       Dataiterator di;
1155       dataiterator_init(&di, pool, repo, 0, SOLVABLE_CHECKSUM, 0, 0);
1156       while (dataiterator_step(&di))
1157         {
1158           const char *str;
1159           int index;
1160           
1161           if (!sat_chksum_len(di.key->type))
1162             continue;
1163           str = repodata_chk2str(di.data, di.key->type, (const unsigned char *)di.kv.str);
1164           index = stringpool_str2id(&pd.cspool, str, 1);
1165           if (index >= pd.ncscache)
1166             {
1167               pd.cscache = sat_zextend(pd.cscache, pd.ncscache, index + 1 - pd.ncscache, sizeof(Id), 255);
1168               pd.ncscache = index + 1;
1169             }
1170           pd.cscache[index] = di.solvid;
1171         }
1172       dataiterator_free(&di);
1173     }
1174
1175   XML_Parser parser = XML_ParserCreate(NULL);
1176   XML_SetUserData(parser, &pd);
1177   pd.parser = &parser;
1178   XML_SetElementHandler(parser, startElement, endElement);
1179   XML_SetCharacterDataHandler(parser, characterData);
1180   for (;;)
1181     {
1182       l = fread(buf, 1, sizeof(buf), fp);
1183       if (XML_Parse(parser, buf, l, l == 0) == XML_STATUS_ERROR)
1184         {
1185           pool_debug(pool, SAT_FATAL, "repo_rpmmd: %s at line %u:%u\n", XML_ErrorString(XML_GetErrorCode(parser)), (unsigned int)XML_GetCurrentLineNumber(parser), (unsigned int)XML_GetCurrentColumnNumber(parser));
1186           exit(1);
1187         }
1188       if (l == 0)
1189         break;
1190     }
1191   XML_ParserFree(parser);
1192   sat_free(pd.content);
1193   sat_free(pd.lastdirstr);
1194   join_freemem();
1195   stringpool_free(&pd.cspool);
1196   sat_free(pd.cscache);
1197   
1198   if (!(flags & REPO_NO_INTERNALIZE))
1199     repodata_internalize(data);
1200   POOL_DEBUG(SAT_DEBUG_STATS, "repo_add_rpmmd took %d ms\n", sat_timems(now));
1201   POOL_DEBUG(SAT_DEBUG_STATS, "repo size: %d solvables\n", repo->nsolvables);
1202   POOL_DEBUG(SAT_DEBUG_STATS, "repo memory used: %d K incore, %d K idarray\n", data->incoredatalen/1024, repo->idarraysize / (int)(1024/sizeof(Id)));
1203 }