regex: Add NEWLINE_ANYCRLF compile option
[platform/upstream/glib.git] / glib / gregex.c
1 /* GRegex -- regular expression API wrapper around PCRE.
2  *
3  * Copyright (C) 1999, 2000 Scott Wimer
4  * Copyright (C) 2004, Matthias Clasen <mclasen@redhat.com>
5  * Copyright (C) 2005 - 2007, Marco Barisione <marco@barisione.org>
6  *
7  * This library is free software; you can redistribute it and/or
8  * modify it under the terms of the GNU Lesser General Public
9  * License as published by the Free Software Foundation; either
10  * version 2.1 of the License, or (at your option) any later version.
11  *
12  * This library is distributed in the hope that it will be useful,
13  * but WITHOUT ANY WARRANTY; without even the implied warranty of
14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15  * Lesser General Public License for more details.
16  *
17  * You should have received a copy of the GNU Lesser General Public
18  * License along with this library; if not, write to the Free Software
19  * Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301  USA
20  */
21
22 #include "config.h"
23
24 #include <string.h>
25
26 #ifdef USE_SYSTEM_PCRE
27 #include <pcre.h>
28 #else
29 #include "pcre/pcre.h"
30 #endif
31
32 #include "gtypes.h"
33 #include "gregex.h"
34 #include "glibintl.h"
35 #include "glist.h"
36 #include "gmessages.h"
37 #include "gstrfuncs.h"
38 #include "gatomic.h"
39 #include "gthread.h"
40
41 /**
42  * SECTION:gregex
43  * @title: Perl-compatible regular expressions
44  * @short_description: matches strings against regular expressions
45  * @see_also: <xref linkend="glib-regex-syntax"/>
46  *
47  * The <function>g_regex_*()</function> functions implement regular
48  * expression pattern matching using syntax and semantics similar to
49  * Perl regular expression.
50  *
51  * Some functions accept a @start_position argument, setting it differs
52  * from just passing over a shortened string and setting #G_REGEX_MATCH_NOTBOL
53  * in the case of a pattern that begins with any kind of lookbehind assertion.
54  * For example, consider the pattern "\Biss\B" which finds occurrences of "iss"
55  * in the middle of words. ("\B" matches only if the current position in the
56  * subject is not a word boundary.) When applied to the string "Mississipi"
57  * from the fourth byte, namely "issipi", it does not match, because "\B" is
58  * always false at the start of the subject, which is deemed to be a word
59  * boundary. However, if the entire string is passed , but with
60  * @start_position set to 4, it finds the second occurrence of "iss" because
61  * it is able to look behind the starting point to discover that it is
62  * preceded by a letter.
63  *
64  * Note that, unless you set the #G_REGEX_RAW flag, all the strings passed
65  * to these functions must be encoded in UTF-8. The lengths and the positions
66  * inside the strings are in bytes and not in characters, so, for instance,
67  * "\xc3\xa0" (i.e. "&agrave;") is two bytes long but it is treated as a
68  * single character. If you set #G_REGEX_RAW the strings can be non-valid
69  * UTF-8 strings and a byte is treated as a character, so "\xc3\xa0" is two
70  * bytes and two characters long.
71  *
72  * When matching a pattern, "\n" matches only against a "\n" character in
73  * the string, and "\r" matches only a "\r" character. To match any newline
74  * sequence use "\R". This particular group matches either the two-character
75  * sequence CR + LF ("\r\n"), or one of the single characters LF (linefeed,
76  * U+000A, "\n"), VT vertical tab, U+000B, "\v"), FF (formfeed, U+000C, "\f"),
77  * CR (carriage return, U+000D, "\r"), NEL (next line, U+0085), LS (line
78  * separator, U+2028), or PS (paragraph separator, U+2029).
79  *
80  * The behaviour of the dot, circumflex, and dollar metacharacters are
81  * affected by newline characters, the default is to recognize any newline
82  * character (the same characters recognized by "\R"). This can be changed
83  * with #G_REGEX_NEWLINE_CR, #G_REGEX_NEWLINE_LF and #G_REGEX_NEWLINE_CRLF
84  * compile options, and with #G_REGEX_MATCH_NEWLINE_ANY,
85  * #G_REGEX_MATCH_NEWLINE_CR, #G_REGEX_MATCH_NEWLINE_LF and
86  * #G_REGEX_MATCH_NEWLINE_CRLF match options. These settings are also
87  * relevant when compiling a pattern if #G_REGEX_EXTENDED is set, and an
88  * unescaped "#" outside a character class is encountered. This indicates
89  * a comment that lasts until after the next newline.
90  *
91  * Creating and manipulating the same #GRegex structure from different
92  * threads is not a problem as #GRegex does not modify its internal
93  * state between creation and destruction, on the other hand #GMatchInfo
94  * is not threadsafe.
95  *
96  * The regular expressions low-level functionalities are obtained through
97  * the excellent <ulink url="http://www.pcre.org/">PCRE</ulink> library
98  * written by Philip Hazel.
99  */
100
101 /* Mask of all the possible values for GRegexCompileFlags. */
102 #define G_REGEX_COMPILE_MASK (G_REGEX_CASELESS          | \
103                               G_REGEX_MULTILINE         | \
104                               G_REGEX_DOTALL            | \
105                               G_REGEX_EXTENDED          | \
106                               G_REGEX_ANCHORED          | \
107                               G_REGEX_DOLLAR_ENDONLY    | \
108                               G_REGEX_UNGREEDY          | \
109                               G_REGEX_RAW               | \
110                               G_REGEX_NO_AUTO_CAPTURE   | \
111                               G_REGEX_OPTIMIZE          | \
112                               G_REGEX_DUPNAMES          | \
113                               G_REGEX_NEWLINE_CR        | \
114                               G_REGEX_NEWLINE_LF        | \
115                               G_REGEX_NEWLINE_CRLF      | \
116                               G_REGEX_NEWLINE_ANYCRLF)
117
118 /* Mask of all the possible values for GRegexMatchFlags. */
119 #define G_REGEX_MATCH_MASK (G_REGEX_MATCH_ANCHORED      | \
120                             G_REGEX_MATCH_NOTBOL        | \
121                             G_REGEX_MATCH_NOTEOL        | \
122                             G_REGEX_MATCH_NOTEMPTY      | \
123                             G_REGEX_MATCH_PARTIAL       | \
124                             G_REGEX_MATCH_NEWLINE_CR    | \
125                             G_REGEX_MATCH_NEWLINE_LF    | \
126                             G_REGEX_MATCH_NEWLINE_CRLF  | \
127                             G_REGEX_MATCH_NEWLINE_ANY)
128
129 /* we rely on these flags having the same values */
130 G_STATIC_ASSERT (G_REGEX_CASELESS        == PCRE_CASELESS);
131 G_STATIC_ASSERT (G_REGEX_MULTILINE       == PCRE_MULTILINE);
132 G_STATIC_ASSERT (G_REGEX_DOTALL          == PCRE_DOTALL);
133 G_STATIC_ASSERT (G_REGEX_EXTENDED        == PCRE_EXTENDED);
134 G_STATIC_ASSERT (G_REGEX_ANCHORED        == PCRE_ANCHORED);
135 G_STATIC_ASSERT (G_REGEX_DOLLAR_ENDONLY  == PCRE_DOLLAR_ENDONLY);
136 G_STATIC_ASSERT (G_REGEX_UNGREEDY        == PCRE_UNGREEDY);
137 G_STATIC_ASSERT (G_REGEX_NO_AUTO_CAPTURE == PCRE_NO_AUTO_CAPTURE);
138 G_STATIC_ASSERT (G_REGEX_DUPNAMES        == PCRE_DUPNAMES);
139 G_STATIC_ASSERT (G_REGEX_NEWLINE_CR      == PCRE_NEWLINE_CR);
140 G_STATIC_ASSERT (G_REGEX_NEWLINE_LF      == PCRE_NEWLINE_LF);
141 G_STATIC_ASSERT (G_REGEX_NEWLINE_CRLF    == PCRE_NEWLINE_CRLF);
142 G_STATIC_ASSERT (G_REGEX_NEWLINE_ANYCRLF == PCRE_NEWLINE_ANYCRLF);
143
144 G_STATIC_ASSERT (G_REGEX_MATCH_ANCHORED     == PCRE_ANCHORED);
145 G_STATIC_ASSERT (G_REGEX_MATCH_NOTBOL       == PCRE_NOTBOL);
146 G_STATIC_ASSERT (G_REGEX_MATCH_NOTEOL       == PCRE_NOTEOL);
147 G_STATIC_ASSERT (G_REGEX_MATCH_NOTEMPTY     == PCRE_NOTEMPTY);
148 G_STATIC_ASSERT (G_REGEX_MATCH_PARTIAL      == PCRE_PARTIAL);
149 G_STATIC_ASSERT (G_REGEX_MATCH_NEWLINE_CR   == PCRE_NEWLINE_CR);
150 G_STATIC_ASSERT (G_REGEX_MATCH_NEWLINE_LF   == PCRE_NEWLINE_LF);
151 G_STATIC_ASSERT (G_REGEX_MATCH_NEWLINE_CRLF == PCRE_NEWLINE_CRLF);
152 G_STATIC_ASSERT (G_REGEX_MATCH_NEWLINE_ANY  == PCRE_NEWLINE_ANY);
153
154 /* if the string is in UTF-8 use g_utf8_ functions, else use
155  * use just +/- 1. */
156 #define NEXT_CHAR(re, s) (((re)->compile_opts & PCRE_UTF8) ? \
157                                 g_utf8_next_char (s) : \
158                                 ((s) + 1))
159 #define PREV_CHAR(re, s) (((re)->compile_opts & PCRE_UTF8) ? \
160                                 g_utf8_prev_char (s) : \
161                                 ((s) - 1))
162
163 struct _GMatchInfo
164 {
165   volatile gint ref_count;      /* the ref count */
166   GRegex *regex;                /* the regex */
167   GRegexMatchFlags match_opts;  /* options used at match time on the regex */
168   gint matches;                 /* number of matching sub patterns */
169   gint pos;                     /* position in the string where last match left off */
170   gint  n_offsets;              /* number of offsets */
171   gint *offsets;                /* array of offsets paired 0,1 ; 2,3 ; 3,4 etc */
172   gint *workspace;              /* workspace for pcre_dfa_exec() */
173   gint n_workspace;             /* number of workspace elements */
174   const gchar *string;          /* string passed to the match function */
175   gssize string_len;            /* length of string */
176 };
177
178 struct _GRegex
179 {
180   volatile gint ref_count;      /* the ref count for the immutable part */
181   gchar *pattern;               /* the pattern */
182   pcre *pcre_re;                /* compiled form of the pattern */
183   GRegexCompileFlags compile_opts;      /* options used at compile time on the pattern */
184   GRegexMatchFlags match_opts;  /* options used at match time on the regex */
185   pcre_extra *extra;            /* data stored when G_REGEX_OPTIMIZE is used */
186 };
187
188 /* TRUE if ret is an error code, FALSE otherwise. */
189 #define IS_PCRE_ERROR(ret) ((ret) < PCRE_ERROR_NOMATCH && (ret) != PCRE_ERROR_PARTIAL)
190
191 typedef struct _InterpolationData InterpolationData;
192 static gboolean  interpolation_list_needs_match (GList *list);
193 static gboolean  interpolate_replacement        (const GMatchInfo *match_info,
194                                                  GString *result,
195                                                  gpointer data);
196 static GList    *split_replacement              (const gchar *replacement,
197                                                  GError **error);
198 static void      free_interpolation_data        (InterpolationData *data);
199
200
201 static const gchar *
202 match_error (gint errcode)
203 {
204   switch (errcode)
205     {
206     case PCRE_ERROR_NOMATCH:
207       /* not an error */
208       break;
209     case PCRE_ERROR_NULL:
210       /* NULL argument, this should not happen in GRegex */
211       g_warning ("A NULL argument was passed to PCRE");
212       break;
213     case PCRE_ERROR_BADOPTION:
214       return "bad options";
215     case PCRE_ERROR_BADMAGIC:
216       return _("corrupted object");
217     case PCRE_ERROR_UNKNOWN_OPCODE:
218       return N_("internal error or corrupted object");
219     case PCRE_ERROR_NOMEMORY:
220       return _("out of memory");
221     case PCRE_ERROR_NOSUBSTRING:
222       /* not used by pcre_exec() */
223       break;
224     case PCRE_ERROR_MATCHLIMIT:
225       return _("backtracking limit reached");
226     case PCRE_ERROR_CALLOUT:
227       /* callouts are not implemented */
228       break;
229     case PCRE_ERROR_BADUTF8:
230     case PCRE_ERROR_BADUTF8_OFFSET:
231       /* we do not check if strings are valid */
232       break;
233     case PCRE_ERROR_PARTIAL:
234       /* not an error */
235       break;
236     case PCRE_ERROR_BADPARTIAL:
237       return _("the pattern contains items not supported for partial matching");
238     case PCRE_ERROR_INTERNAL:
239       return _("internal error");
240     case PCRE_ERROR_BADCOUNT:
241       /* negative ovecsize, this should not happen in GRegex */
242       g_warning ("A negative ovecsize was passed to PCRE");
243       break;
244     case PCRE_ERROR_DFA_UITEM:
245       return _("the pattern contains items not supported for partial matching");
246     case PCRE_ERROR_DFA_UCOND:
247       return _("back references as conditions are not supported for partial matching");
248     case PCRE_ERROR_DFA_UMLIMIT:
249       /* the match_field field is not used in GRegex */
250       break;
251     case PCRE_ERROR_DFA_WSSIZE:
252       /* handled expanding the workspace */
253       break;
254     case PCRE_ERROR_DFA_RECURSE:
255     case PCRE_ERROR_RECURSIONLIMIT:
256       return _("recursion limit reached");
257     case PCRE_ERROR_NULLWSLIMIT:
258       return _("workspace limit for empty substrings reached");
259     case PCRE_ERROR_BADNEWLINE:
260       return _("invalid combination of newline flags");
261     case PCRE_ERROR_BADOFFSET:
262       return _("bad offset");
263     case PCRE_ERROR_SHORTUTF8:
264       return _("short utf8");
265     case PCRE_ERROR_RECURSELOOP:
266       return _("recursion loop");
267     default:
268       break;
269     }
270   return _("unknown error");
271 }
272
273 static void
274 translate_compile_error (gint *errcode, const gchar **errmsg)
275 {
276   /* Compile errors are created adding 100 to the error code returned
277    * by PCRE.
278    * If errcode is known we put the translatable error message in
279    * erromsg. If errcode is unknown we put the generic
280    * G_REGEX_ERROR_COMPILE error code in errcode and keep the
281    * untranslated error message returned by PCRE.
282    * Note that there can be more PCRE errors with the same GRegexError
283    * and that some PCRE errors are useless for us.
284    */
285   *errcode += 100;
286
287   switch (*errcode)
288     {
289     case G_REGEX_ERROR_STRAY_BACKSLASH:
290       *errmsg = _("\\ at end of pattern");
291       break;
292     case G_REGEX_ERROR_MISSING_CONTROL_CHAR:
293       *errmsg = _("\\c at end of pattern");
294       break;
295     case G_REGEX_ERROR_UNRECOGNIZED_ESCAPE:
296       *errmsg = _("unrecognized character follows \\");
297       break;
298     case G_REGEX_ERROR_QUANTIFIERS_OUT_OF_ORDER:
299       *errmsg = _("numbers out of order in {} quantifier");
300       break;
301     case G_REGEX_ERROR_QUANTIFIER_TOO_BIG:
302       *errmsg = _("number too big in {} quantifier");
303       break;
304     case G_REGEX_ERROR_UNTERMINATED_CHARACTER_CLASS:
305       *errmsg = _("missing terminating ] for character class");
306       break;
307     case G_REGEX_ERROR_INVALID_ESCAPE_IN_CHARACTER_CLASS:
308       *errmsg = _("invalid escape sequence in character class");
309       break;
310     case G_REGEX_ERROR_RANGE_OUT_OF_ORDER:
311       *errmsg = _("range out of order in character class");
312       break;
313     case G_REGEX_ERROR_NOTHING_TO_REPEAT:
314       *errmsg = _("nothing to repeat");
315       break;
316     case 111: /* internal error: unexpected repeat */
317       *errcode = G_REGEX_ERROR_INTERNAL;
318       *errmsg = _("unexpected repeat");
319       break;
320     case G_REGEX_ERROR_UNRECOGNIZED_CHARACTER:
321       *errmsg = _("unrecognized character after (? or (?-");
322       break;
323     case G_REGEX_ERROR_POSIX_NAMED_CLASS_OUTSIDE_CLASS:
324       *errmsg = _("POSIX named classes are supported only within a class");
325       break;
326     case G_REGEX_ERROR_UNMATCHED_PARENTHESIS:
327       *errmsg = _("missing terminating )");
328       break;
329     case G_REGEX_ERROR_INEXISTENT_SUBPATTERN_REFERENCE:
330       *errmsg = _("reference to non-existent subpattern");
331       break;
332     case G_REGEX_ERROR_UNTERMINATED_COMMENT:
333       *errmsg = _("missing ) after comment");
334       break;
335     case G_REGEX_ERROR_EXPRESSION_TOO_LARGE:
336       *errmsg = _("regular expression is too large");
337       break;
338     case G_REGEX_ERROR_MEMORY_ERROR:
339       *errmsg = _("failed to get memory");
340       break;
341     case 122: /* unmatched parentheses */
342       *errcode = G_REGEX_ERROR_UNMATCHED_PARENTHESIS;
343       *errmsg = _(") without opening (");
344       break;
345     case 123: /* internal error: code overflow */
346       *errcode = G_REGEX_ERROR_INTERNAL;
347       *errmsg = _("code overflow");
348       break;
349     case 124: /* "unrecognized character after (?<\0 */
350       *errcode = G_REGEX_ERROR_UNRECOGNIZED_CHARACTER;
351       *errmsg = _("unrecognized character after (?<");
352       break;
353     case G_REGEX_ERROR_VARIABLE_LENGTH_LOOKBEHIND:
354       *errmsg = _("lookbehind assertion is not fixed length");
355       break;
356     case G_REGEX_ERROR_MALFORMED_CONDITION:
357       *errmsg = _("malformed number or name after (?(");
358       break;
359     case G_REGEX_ERROR_TOO_MANY_CONDITIONAL_BRANCHES:
360       *errmsg = _("conditional group contains more than two branches");
361       break;
362     case G_REGEX_ERROR_ASSERTION_EXPECTED:
363       *errmsg = _("assertion expected after (?(");
364       break;
365     case 129:
366       *errcode = G_REGEX_ERROR_UNMATCHED_PARENTHESIS;
367       /* translators: '(?R' and '(?[+-]digits' are both meant as (groups of)
368        * sequences here, '(?-54' would be an example for the second group.
369        */
370       *errmsg = _("(?R or (?[+-]digits must be followed by )");
371       break;
372     case G_REGEX_ERROR_UNKNOWN_POSIX_CLASS_NAME:
373       *errmsg = _("unknown POSIX class name");
374       break;
375     case G_REGEX_ERROR_POSIX_COLLATING_ELEMENTS_NOT_SUPPORTED:
376       *errmsg = _("POSIX collating elements are not supported");
377       break;
378     case G_REGEX_ERROR_HEX_CODE_TOO_LARGE:
379       *errmsg = _("character value in \\x{...} sequence is too large");
380       break;
381     case G_REGEX_ERROR_INVALID_CONDITION:
382       *errmsg = _("invalid condition (?(0)");
383       break;
384     case G_REGEX_ERROR_SINGLE_BYTE_MATCH_IN_LOOKBEHIND:
385       *errmsg = _("\\C not allowed in lookbehind assertion");
386       break;
387     case 137: /* PCRE does not support \\L, \\l, \\N{name}, \\U, or \\u\0 */
388       /* A number of Perl escapes are not handled by PCRE.
389        * Therefore it explicitly raises ERR37.
390        */
391       *errcode = G_REGEX_ERROR_UNRECOGNIZED_ESCAPE;
392       *errmsg = _("escapes \\L, \\l, \\N{name}, \\U, and \\u are not supported");
393       break;
394     case G_REGEX_ERROR_INFINITE_LOOP:
395       *errmsg = _("recursive call could loop indefinitely");
396       break;
397     case 141: /* unrecognized character after (?P\0 */
398       *errcode = G_REGEX_ERROR_UNRECOGNIZED_CHARACTER;
399       *errmsg = _("unrecognized character after (?P");
400       break;
401     case G_REGEX_ERROR_MISSING_SUBPATTERN_NAME_TERMINATOR:
402       *errmsg = _("missing terminator in subpattern name");
403       break;
404     case G_REGEX_ERROR_DUPLICATE_SUBPATTERN_NAME:
405       *errmsg = _("two named subpatterns have the same name");
406       break;
407     case G_REGEX_ERROR_MALFORMED_PROPERTY:
408       *errmsg = _("malformed \\P or \\p sequence");
409       break;
410     case G_REGEX_ERROR_UNKNOWN_PROPERTY:
411       *errmsg = _("unknown property name after \\P or \\p");
412       break;
413     case G_REGEX_ERROR_SUBPATTERN_NAME_TOO_LONG:
414       *errmsg = _("subpattern name is too long (maximum 32 characters)");
415       break;
416     case G_REGEX_ERROR_TOO_MANY_SUBPATTERNS:
417       *errmsg = _("too many named subpatterns (maximum 10,000)");
418       break;
419     case G_REGEX_ERROR_INVALID_OCTAL_VALUE:
420       *errmsg = _("octal value is greater than \\377");
421       break;
422     case 152: /* internal error: overran compiling workspace */
423       *errcode = G_REGEX_ERROR_INTERNAL;
424       *errmsg = _("overran compiling workspace");
425       break;
426     case 153: /* internal error: previously-checked referenced subpattern not found */
427       *errcode = G_REGEX_ERROR_INTERNAL;
428       *errmsg = _("previously-checked referenced subpattern not found");
429       break;
430     case G_REGEX_ERROR_TOO_MANY_BRANCHES_IN_DEFINE:
431       *errmsg = _("DEFINE group contains more than one branch");
432       break;
433     case G_REGEX_ERROR_INCONSISTENT_NEWLINE_OPTIONS:
434       *errmsg = _("inconsistent NEWLINE options");
435       break;
436     case G_REGEX_ERROR_MISSING_BACK_REFERENCE:
437       *errmsg = _("\\g is not followed by a braced, angle-bracketed, or quoted name or "
438                   "number, or by a plain number");
439       break;
440     case G_REGEX_ERROR_INVALID_RELATIVE_REFERENCE:
441       *errmsg = _("a numbered reference must not be zero");
442       break;
443     case G_REGEX_ERROR_BACKTRACKING_CONTROL_VERB_ARGUMENT_FORBIDDEN:
444       *errmsg = _("an argument is not allowed for (*ACCEPT), (*FAIL), or (*COMMIT)");
445       break;
446     case G_REGEX_ERROR_UNKNOWN_BACKTRACKING_CONTROL_VERB:
447       *errmsg = _("(*VERB) not recognized");
448       break;
449     case G_REGEX_ERROR_NUMBER_TOO_BIG:
450       *errmsg = _("number is too bug");
451       break;
452     case G_REGEX_ERROR_MISSING_SUBPATTERN_NAME:
453       *errmsg = _("missing subpattern name after (?&");
454       break;
455     case G_REGEX_ERROR_MISSING_DIGIT:
456       *errmsg = _("digit expected after (?+");
457       break;
458     case G_REGEX_ERROR_EXTRA_SUBPATTERN_NAME:
459       *errmsg = _("different names for subpatterns of the same number are not allowed");
460       break;
461     case G_REGEX_ERROR_BACKTRACKING_CONTROL_VERB_ARGUMENT_REQUIRED:
462       *errmsg = _("(*MARK) must have an argument");
463       break;
464     case G_REGEX_ERROR_INVALID_CONTROL_CHAR:
465       *errmsg = _( "\\c must be followed by an ASCII character");
466       break;
467     case G_REGEX_ERROR_MISSING_NAME:
468       *errmsg = _("\\k is not followed by a braced, angle-bracketed, or quoted name");
469       break;
470     case G_REGEX_ERROR_NOT_SUPPORTED_IN_CLASS:
471       *errmsg = _("\\N is not supported in a class");
472       break;
473     case G_REGEX_ERROR_TOO_MANY_FORWARD_REFERENCES:
474       *errmsg = _("too many forward references");
475       break;
476     case G_REGEX_ERROR_NAME_TOO_LONG:
477       *errmsg = _("name is too long in (*MARK), (*PRUNE), (*SKIP), or (*THEN)");
478       break;
479
480     case 116: /* erroffset passed as NULL */
481       /* This should not happen as we never pass a NULL erroffset */
482       g_warning ("erroffset passed as NULL");
483       *errcode = G_REGEX_ERROR_COMPILE;
484       break;
485     case 117: /* unknown option bit(s) set */
486       /* This should not happen as we check options before passing them
487        * to pcre_compile2() */
488       g_warning ("unknown option bit(s) set");
489       *errcode = G_REGEX_ERROR_COMPILE;
490       break;
491     case 132: /* this version of PCRE is compiled without UTF support */
492     case 144: /* invalid UTF-8 string */
493     case 145: /* support for \\P, \\p, and \\X has not been compiled */
494     case 167: /* this version of PCRE is not compiled with Unicode property support */
495     case 173: /* disallowed Unicode code point (>= 0xd800 && <= 0xdfff) */
496     case 174: /* invalid UTF-16 string */
497       /* These errors should not happen as we are using an UTF-8 and UCP-enabled PCRE
498        * and we do not check if strings are valid */
499     case 164: /* ] is an invalid data character in JavaScript compatibility mode */
500       /* This should not happen as we don't use PCRE_JAVASCRIPT_COMPAT */
501       g_warning ("%s", *errmsg);
502       *errcode = G_REGEX_ERROR_COMPILE;
503       break;
504     case 170: /* internal error: unknown opcode in find_fixedlength() */
505       *errcode = G_REGEX_ERROR_INTERNAL;
506       break;
507
508     default:
509       *errcode = G_REGEX_ERROR_COMPILE;
510     }
511 }
512
513 /* GMatchInfo */
514
515 static GMatchInfo *
516 match_info_new (const GRegex *regex,
517                 const gchar  *string,
518                 gint          string_len,
519                 gint          start_position,
520                 gint          match_options,
521                 gboolean      is_dfa)
522 {
523   GMatchInfo *match_info;
524
525   if (string_len < 0)
526     string_len = strlen (string);
527
528   match_info = g_new0 (GMatchInfo, 1);
529   match_info->ref_count = 1;
530   match_info->regex = g_regex_ref ((GRegex *)regex);
531   match_info->string = string;
532   match_info->string_len = string_len;
533   match_info->matches = PCRE_ERROR_NOMATCH;
534   match_info->pos = start_position;
535   match_info->match_opts = match_options;
536
537   if (is_dfa)
538     {
539       /* These values should be enough for most cases, if they are not
540        * enough g_regex_match_all_full() will expand them. */
541       match_info->n_offsets = 24;
542       match_info->n_workspace = 100;
543       match_info->workspace = g_new (gint, match_info->n_workspace);
544     }
545   else
546     {
547       gint capture_count;
548       pcre_fullinfo (regex->pcre_re, regex->extra,
549                      PCRE_INFO_CAPTURECOUNT, &capture_count);
550       match_info->n_offsets = (capture_count + 1) * 3;
551     }
552
553   match_info->offsets = g_new0 (gint, match_info->n_offsets);
554   /* Set an invalid position for the previous match. */
555   match_info->offsets[0] = -1;
556   match_info->offsets[1] = -1;
557
558   return match_info;
559 }
560
561 /**
562  * g_match_info_get_regex:
563  * @match_info: a #GMatchInfo
564  *
565  * Returns #GRegex object used in @match_info. It belongs to Glib
566  * and must not be freed. Use g_regex_ref() if you need to keep it
567  * after you free @match_info object.
568  *
569  * Returns: #GRegex object used in @match_info
570  *
571  * Since: 2.14
572  */
573 GRegex *
574 g_match_info_get_regex (const GMatchInfo *match_info)
575 {
576   g_return_val_if_fail (match_info != NULL, NULL);
577   return match_info->regex;
578 }
579
580 /**
581  * g_match_info_get_string:
582  * @match_info: a #GMatchInfo
583  *
584  * Returns the string searched with @match_info. This is the
585  * string passed to g_regex_match() or g_regex_replace() so
586  * you may not free it before calling this function.
587  *
588  * Returns: the string searched with @match_info
589  *
590  * Since: 2.14
591  */
592 const gchar *
593 g_match_info_get_string (const GMatchInfo *match_info)
594 {
595   g_return_val_if_fail (match_info != NULL, NULL);
596   return match_info->string;
597 }
598
599 /**
600  * g_match_info_ref:
601  * @match_info: a #GMatchInfo
602  *
603  * Increases reference count of @match_info by 1.
604  *
605  * Returns: @match_info
606  *
607  * Since: 2.30
608  */
609 GMatchInfo       *
610 g_match_info_ref (GMatchInfo *match_info)
611 {
612   g_return_val_if_fail (match_info != NULL, NULL);
613   g_atomic_int_inc (&match_info->ref_count);
614   return match_info;
615 }
616
617 /**
618  * g_match_info_unref:
619  * @match_info: a #GMatchInfo
620  *
621  * Decreases reference count of @match_info by 1. When reference count drops
622  * to zero, it frees all the memory associated with the match_info structure.
623  *
624  * Since: 2.30
625  */
626 void
627 g_match_info_unref (GMatchInfo *match_info)
628 {
629   if (g_atomic_int_dec_and_test (&match_info->ref_count))
630     {
631       g_regex_unref (match_info->regex);
632       g_free (match_info->offsets);
633       g_free (match_info->workspace);
634       g_free (match_info);
635     }
636 }
637
638 /**
639  * g_match_info_free:
640  * @match_info: (allow-none): a #GMatchInfo, or %NULL
641  *
642  * If @match_info is not %NULL, calls g_match_info_unref(); otherwise does
643  * nothing.
644  *
645  * Since: 2.14
646  */
647 void
648 g_match_info_free (GMatchInfo *match_info)
649 {
650   if (match_info == NULL)
651     return;
652
653   g_match_info_unref (match_info);
654 }
655
656 /**
657  * g_match_info_next:
658  * @match_info: a #GMatchInfo structure
659  * @error: location to store the error occurring, or %NULL to ignore errors
660  *
661  * Scans for the next match using the same parameters of the previous
662  * call to g_regex_match_full() or g_regex_match() that returned
663  * @match_info.
664  *
665  * The match is done on the string passed to the match function, so you
666  * cannot free it before calling this function.
667  *
668  * Returns: %TRUE is the string matched, %FALSE otherwise
669  *
670  * Since: 2.14
671  */
672 gboolean
673 g_match_info_next (GMatchInfo  *match_info,
674                    GError     **error)
675 {
676   gint prev_match_start;
677   gint prev_match_end;
678
679   g_return_val_if_fail (match_info != NULL, FALSE);
680   g_return_val_if_fail (error == NULL || *error == NULL, FALSE);
681   g_return_val_if_fail (match_info->pos >= 0, FALSE);
682
683   prev_match_start = match_info->offsets[0];
684   prev_match_end = match_info->offsets[1];
685
686   if (match_info->pos > match_info->string_len)
687     {
688       /* we have reached the end of the string */
689       match_info->pos = -1;
690       match_info->matches = PCRE_ERROR_NOMATCH;
691       return FALSE;
692     }
693
694   match_info->matches = pcre_exec (match_info->regex->pcre_re,
695                                    match_info->regex->extra,
696                                    match_info->string,
697                                    match_info->string_len,
698                                    match_info->pos,
699                                    match_info->regex->match_opts | match_info->match_opts,
700                                    match_info->offsets,
701                                    match_info->n_offsets);
702   if (IS_PCRE_ERROR (match_info->matches))
703     {
704       g_set_error (error, G_REGEX_ERROR, G_REGEX_ERROR_MATCH,
705                    _("Error while matching regular expression %s: %s"),
706                    match_info->regex->pattern, match_error (match_info->matches));
707       return FALSE;
708     }
709
710   /* avoid infinite loops if the pattern is an empty string or something
711    * equivalent */
712   if (match_info->pos == match_info->offsets[1])
713     {
714       if (match_info->pos > match_info->string_len)
715         {
716           /* we have reached the end of the string */
717           match_info->pos = -1;
718           match_info->matches = PCRE_ERROR_NOMATCH;
719           return FALSE;
720         }
721
722       match_info->pos = NEXT_CHAR (match_info->regex,
723                                    &match_info->string[match_info->pos]) -
724                                    match_info->string;
725     }
726   else
727     {
728       match_info->pos = match_info->offsets[1];
729     }
730
731   /* it's possible to get two identical matches when we are matching
732    * empty strings, for instance if the pattern is "(?=[A-Z0-9])" and
733    * the string is "RegExTest" we have:
734    *  - search at position 0: match from 0 to 0
735    *  - search at position 1: match from 3 to 3
736    *  - search at position 3: match from 3 to 3 (duplicate)
737    *  - search at position 4: match from 5 to 5
738    *  - search at position 5: match from 5 to 5 (duplicate)
739    *  - search at position 6: no match -> stop
740    * so we have to ignore the duplicates.
741    * see bug #515944: http://bugzilla.gnome.org/show_bug.cgi?id=515944 */
742   if (match_info->matches >= 0 &&
743       prev_match_start == match_info->offsets[0] &&
744       prev_match_end == match_info->offsets[1])
745     {
746       /* ignore this match and search the next one */
747       return g_match_info_next (match_info, error);
748     }
749
750   return match_info->matches >= 0;
751 }
752
753 /**
754  * g_match_info_matches:
755  * @match_info: a #GMatchInfo structure
756  *
757  * Returns whether the previous match operation succeeded.
758  *
759  * Returns: %TRUE if the previous match operation succeeded,
760  *   %FALSE otherwise
761  *
762  * Since: 2.14
763  */
764 gboolean
765 g_match_info_matches (const GMatchInfo *match_info)
766 {
767   g_return_val_if_fail (match_info != NULL, FALSE);
768
769   return match_info->matches >= 0;
770 }
771
772 /**
773  * g_match_info_get_match_count:
774  * @match_info: a #GMatchInfo structure
775  *
776  * Retrieves the number of matched substrings (including substring 0,
777  * that is the whole matched text), so 1 is returned if the pattern
778  * has no substrings in it and 0 is returned if the match failed.
779  *
780  * If the last match was obtained using the DFA algorithm, that is
781  * using g_regex_match_all() or g_regex_match_all_full(), the retrieved
782  * count is not that of the number of capturing parentheses but that of
783  * the number of matched substrings.
784  *
785  * Returns: Number of matched substrings, or -1 if an error occurred
786  *
787  * Since: 2.14
788  */
789 gint
790 g_match_info_get_match_count (const GMatchInfo *match_info)
791 {
792   g_return_val_if_fail (match_info, -1);
793
794   if (match_info->matches == PCRE_ERROR_NOMATCH)
795     /* no match */
796     return 0;
797   else if (match_info->matches < PCRE_ERROR_NOMATCH)
798     /* error */
799     return -1;
800   else
801     /* match */
802     return match_info->matches;
803 }
804
805 /**
806  * g_match_info_is_partial_match:
807  * @match_info: a #GMatchInfo structure
808  *
809  * Usually if the string passed to g_regex_match*() matches as far as
810  * it goes, but is too short to match the entire pattern, %FALSE is
811  * returned. There are circumstances where it might be helpful to
812  * distinguish this case from other cases in which there is no match.
813  *
814  * Consider, for example, an application where a human is required to
815  * type in data for a field with specific formatting requirements. An
816  * example might be a date in the form ddmmmyy, defined by the pattern
817  * "^\d?\d(jan|feb|mar|apr|may|jun|jul|aug|sep|oct|nov|dec)\d\d$".
818  * If the application sees the user’s keystrokes one by one, and can
819  * check that what has been typed so far is potentially valid, it is
820  * able to raise an error as soon as a mistake is made.
821  *
822  * GRegex supports the concept of partial matching by means of the
823  * #G_REGEX_MATCH_PARTIAL flag. When this is set the return code for
824  * g_regex_match() or g_regex_match_full() is, as usual, %TRUE
825  * for a complete match, %FALSE otherwise. But, when these functions
826  * return %FALSE, you can check if the match was partial calling
827  * g_match_info_is_partial_match().
828  *
829  * When using partial matching you cannot use g_match_info_fetch*().
830  *
831  * Because of the way certain internal optimizations are implemented
832  * the partial matching algorithm cannot be used with all patterns.
833  * So repeated single characters such as "a{2,4}" and repeated single
834  * meta-sequences such as "\d+" are not permitted if the maximum number
835  * of occurrences is greater than one. Optional items such as "\d?"
836  * (where the maximum is one) are permitted. Quantifiers with any values
837  * are permitted after parentheses, so the invalid examples above can be
838  * coded thus "(a){2,4}" and "(\d)+". If #G_REGEX_MATCH_PARTIAL is set
839  * for a pattern that does not conform to the restrictions, matching
840  * functions return an error.
841  *
842  * Returns: %TRUE if the match was partial, %FALSE otherwise
843  *
844  * Since: 2.14
845  */
846 gboolean
847 g_match_info_is_partial_match (const GMatchInfo *match_info)
848 {
849   g_return_val_if_fail (match_info != NULL, FALSE);
850
851   return match_info->matches == PCRE_ERROR_PARTIAL;
852 }
853
854 /**
855  * g_match_info_expand_references:
856  * @match_info: (allow-none): a #GMatchInfo or %NULL
857  * @string_to_expand: the string to expand
858  * @error: location to store the error occurring, or %NULL to ignore errors
859  *
860  * Returns a new string containing the text in @string_to_expand with
861  * references and escape sequences expanded. References refer to the last
862  * match done with @string against @regex and have the same syntax used by
863  * g_regex_replace().
864  *
865  * The @string_to_expand must be UTF-8 encoded even if #G_REGEX_RAW was
866  * passed to g_regex_new().
867  *
868  * The backreferences are extracted from the string passed to the match
869  * function, so you cannot call this function after freeing the string.
870  *
871  * @match_info may be %NULL in which case @string_to_expand must not
872  * contain references. For instance "foo\n" does not refer to an actual
873  * pattern and '\n' merely will be replaced with \n character,
874  * while to expand "\0" (whole match) one needs the result of a match.
875  * Use g_regex_check_replacement() to find out whether @string_to_expand
876  * contains references.
877  *
878  * Returns: (allow-none): the expanded string, or %NULL if an error occurred
879  *
880  * Since: 2.14
881  */
882 gchar *
883 g_match_info_expand_references (const GMatchInfo  *match_info,
884                                 const gchar       *string_to_expand,
885                                 GError           **error)
886 {
887   GString *result;
888   GList *list;
889   GError *tmp_error = NULL;
890
891   g_return_val_if_fail (string_to_expand != NULL, NULL);
892   g_return_val_if_fail (error == NULL || *error == NULL, NULL);
893
894   list = split_replacement (string_to_expand, &tmp_error);
895   if (tmp_error != NULL)
896     {
897       g_propagate_error (error, tmp_error);
898       return NULL;
899     }
900
901   if (!match_info && interpolation_list_needs_match (list))
902     {
903       g_critical ("String '%s' contains references to the match, can't "
904                   "expand references without GMatchInfo object",
905                   string_to_expand);
906       return NULL;
907     }
908
909   result = g_string_sized_new (strlen (string_to_expand));
910   interpolate_replacement (match_info, result, list);
911
912   g_list_free_full (list, (GDestroyNotify) free_interpolation_data);
913
914   return g_string_free (result, FALSE);
915 }
916
917 /**
918  * g_match_info_fetch:
919  * @match_info: #GMatchInfo structure
920  * @match_num: number of the sub expression
921  *
922  * Retrieves the text matching the @match_num<!-- -->'th capturing
923  * parentheses. 0 is the full text of the match, 1 is the first paren
924  * set, 2 the second, and so on.
925  *
926  * If @match_num is a valid sub pattern but it didn't match anything
927  * (e.g. sub pattern 1, matching "b" against "(a)?b") then an empty
928  * string is returned.
929  *
930  * If the match was obtained using the DFA algorithm, that is using
931  * g_regex_match_all() or g_regex_match_all_full(), the retrieved
932  * string is not that of a set of parentheses but that of a matched
933  * substring. Substrings are matched in reverse order of length, so
934  * 0 is the longest match.
935  *
936  * The string is fetched from the string passed to the match function,
937  * so you cannot call this function after freeing the string.
938  *
939  * Returns: (allow-none): The matched substring, or %NULL if an error
940  *     occurred. You have to free the string yourself
941  *
942  * Since: 2.14
943  */
944 gchar *
945 g_match_info_fetch (const GMatchInfo *match_info,
946                     gint              match_num)
947 {
948   /* we cannot use pcre_get_substring() because it allocates the
949    * string using pcre_malloc(). */
950   gchar *match = NULL;
951   gint start, end;
952
953   g_return_val_if_fail (match_info != NULL, NULL);
954   g_return_val_if_fail (match_num >= 0, NULL);
955
956   /* match_num does not exist or it didn't matched, i.e. matching "b"
957    * against "(a)?b" then group 0 is empty. */
958   if (!g_match_info_fetch_pos (match_info, match_num, &start, &end))
959     match = NULL;
960   else if (start == -1)
961     match = g_strdup ("");
962   else
963     match = g_strndup (&match_info->string[start], end - start);
964
965   return match;
966 }
967
968 /**
969  * g_match_info_fetch_pos:
970  * @match_info: #GMatchInfo structure
971  * @match_num: number of the sub expression
972  * @start_pos: (out) (allow-none): pointer to location where to store
973  *     the start position, or %NULL
974  * @end_pos: (out) (allow-none): pointer to location where to store
975  *     the end position, or %NULL
976  *
977  * Retrieves the position in bytes of the @match_num<!-- -->'th capturing
978  * parentheses. 0 is the full text of the match, 1 is the first
979  * paren set, 2 the second, and so on.
980  *
981  * If @match_num is a valid sub pattern but it didn't match anything
982  * (e.g. sub pattern 1, matching "b" against "(a)?b") then @start_pos
983  * and @end_pos are set to -1 and %TRUE is returned.
984  *
985  * If the match was obtained using the DFA algorithm, that is using
986  * g_regex_match_all() or g_regex_match_all_full(), the retrieved
987  * position is not that of a set of parentheses but that of a matched
988  * substring. Substrings are matched in reverse order of length, so
989  * 0 is the longest match.
990  *
991  * Returns: %TRUE if the position was fetched, %FALSE otherwise. If
992  *   the position cannot be fetched, @start_pos and @end_pos are left
993  *   unchanged
994  *
995  * Since: 2.14
996  */
997 gboolean
998 g_match_info_fetch_pos (const GMatchInfo *match_info,
999                         gint              match_num,
1000                         gint             *start_pos,
1001                         gint             *end_pos)
1002 {
1003   g_return_val_if_fail (match_info != NULL, FALSE);
1004   g_return_val_if_fail (match_num >= 0, FALSE);
1005
1006   /* make sure the sub expression number they're requesting is less than
1007    * the total number of sub expressions that were matched. */
1008   if (match_num >= match_info->matches)
1009     return FALSE;
1010
1011   if (start_pos != NULL)
1012     *start_pos = match_info->offsets[2 * match_num];
1013
1014   if (end_pos != NULL)
1015     *end_pos = match_info->offsets[2 * match_num + 1];
1016
1017   return TRUE;
1018 }
1019
1020 /*
1021  * Returns number of first matched subpattern with name @name.
1022  * There may be more than one in case when DUPNAMES is used,
1023  * and not all subpatterns with that name match;
1024  * pcre_get_stringnumber() does not work in that case.
1025  */
1026 static gint
1027 get_matched_substring_number (const GMatchInfo *match_info,
1028                               const gchar      *name)
1029 {
1030   gint entrysize;
1031   gchar *first, *last;
1032   guchar *entry;
1033
1034   if (!(match_info->regex->compile_opts & G_REGEX_DUPNAMES))
1035     return pcre_get_stringnumber (match_info->regex->pcre_re, name);
1036
1037   /* This code is copied from pcre_get.c: get_first_set() */
1038   entrysize = pcre_get_stringtable_entries (match_info->regex->pcre_re,
1039                                             name,
1040                                             &first,
1041                                             &last);
1042
1043   if (entrysize <= 0)
1044     return entrysize;
1045
1046   for (entry = (guchar*) first; entry <= (guchar*) last; entry += entrysize)
1047     {
1048       gint n = (entry[0] << 8) + entry[1];
1049       if (match_info->offsets[n*2] >= 0)
1050         return n;
1051     }
1052
1053   return (first[0] << 8) + first[1];
1054 }
1055
1056 /**
1057  * g_match_info_fetch_named:
1058  * @match_info: #GMatchInfo structure
1059  * @name: name of the subexpression
1060  *
1061  * Retrieves the text matching the capturing parentheses named @name.
1062  *
1063  * If @name is a valid sub pattern name but it didn't match anything
1064  * (e.g. sub pattern "X", matching "b" against "(?P&lt;X&gt;a)?b")
1065  * then an empty string is returned.
1066  *
1067  * The string is fetched from the string passed to the match function,
1068  * so you cannot call this function after freeing the string.
1069  *
1070  * Returns: (allow-none): The matched substring, or %NULL if an error
1071  *     occurred. You have to free the string yourself
1072  *
1073  * Since: 2.14
1074  */
1075 gchar *
1076 g_match_info_fetch_named (const GMatchInfo *match_info,
1077                           const gchar      *name)
1078 {
1079   /* we cannot use pcre_get_named_substring() because it allocates the
1080    * string using pcre_malloc(). */
1081   gint num;
1082
1083   g_return_val_if_fail (match_info != NULL, NULL);
1084   g_return_val_if_fail (name != NULL, NULL);
1085
1086   num = get_matched_substring_number (match_info, name);
1087   if (num < 0)
1088     return NULL;
1089   else
1090     return g_match_info_fetch (match_info, num);
1091 }
1092
1093 /**
1094  * g_match_info_fetch_named_pos:
1095  * @match_info: #GMatchInfo structure
1096  * @name: name of the subexpression
1097  * @start_pos: (out) (allow-none): pointer to location where to store
1098  *     the start position, or %NULL
1099  * @end_pos: (out) (allow-none): pointer to location where to store
1100  *     the end position, or %NULL
1101  *
1102  * Retrieves the position in bytes of the capturing parentheses named @name.
1103  *
1104  * If @name is a valid sub pattern name but it didn't match anything
1105  * (e.g. sub pattern "X", matching "b" against "(?P&lt;X&gt;a)?b")
1106  * then @start_pos and @end_pos are set to -1 and %TRUE is returned.
1107  *
1108  * Returns: %TRUE if the position was fetched, %FALSE otherwise.
1109  *     If the position cannot be fetched, @start_pos and @end_pos
1110  *     are left unchanged.
1111  *
1112  * Since: 2.14
1113  */
1114 gboolean
1115 g_match_info_fetch_named_pos (const GMatchInfo *match_info,
1116                               const gchar      *name,
1117                               gint             *start_pos,
1118                               gint             *end_pos)
1119 {
1120   gint num;
1121
1122   g_return_val_if_fail (match_info != NULL, FALSE);
1123   g_return_val_if_fail (name != NULL, FALSE);
1124
1125   num = get_matched_substring_number (match_info, name);
1126   if (num < 0)
1127     return FALSE;
1128
1129   return g_match_info_fetch_pos (match_info, num, start_pos, end_pos);
1130 }
1131
1132 /**
1133  * g_match_info_fetch_all:
1134  * @match_info: a #GMatchInfo structure
1135  *
1136  * Bundles up pointers to each of the matching substrings from a match
1137  * and stores them in an array of gchar pointers. The first element in
1138  * the returned array is the match number 0, i.e. the entire matched
1139  * text.
1140  *
1141  * If a sub pattern didn't match anything (e.g. sub pattern 1, matching
1142  * "b" against "(a)?b") then an empty string is inserted.
1143  *
1144  * If the last match was obtained using the DFA algorithm, that is using
1145  * g_regex_match_all() or g_regex_match_all_full(), the retrieved
1146  * strings are not that matched by sets of parentheses but that of the
1147  * matched substring. Substrings are matched in reverse order of length,
1148  * so the first one is the longest match.
1149  *
1150  * The strings are fetched from the string passed to the match function,
1151  * so you cannot call this function after freeing the string.
1152  *
1153  * Returns: (allow-none): a %NULL-terminated array of gchar * pointers.
1154  *     It must be freed using g_strfreev(). If the previous match failed
1155  *     %NULL is returned
1156  *
1157  * Since: 2.14
1158  */
1159 gchar **
1160 g_match_info_fetch_all (const GMatchInfo *match_info)
1161 {
1162   /* we cannot use pcre_get_substring_list() because the returned value
1163    * isn't suitable for g_strfreev(). */
1164   gchar **result;
1165   gint i;
1166
1167   g_return_val_if_fail (match_info != NULL, NULL);
1168
1169   if (match_info->matches < 0)
1170     return NULL;
1171
1172   result = g_new (gchar *, match_info->matches + 1);
1173   for (i = 0; i < match_info->matches; i++)
1174     result[i] = g_match_info_fetch (match_info, i);
1175   result[i] = NULL;
1176
1177   return result;
1178 }
1179
1180
1181 /* GRegex */
1182
1183 GQuark
1184 g_regex_error_quark (void)
1185 {
1186   static GQuark error_quark = 0;
1187
1188   if (error_quark == 0)
1189     error_quark = g_quark_from_static_string ("g-regex-error-quark");
1190
1191   return error_quark;
1192 }
1193
1194 /**
1195  * g_regex_ref:
1196  * @regex: a #GRegex
1197  *
1198  * Increases reference count of @regex by 1.
1199  *
1200  * Returns: @regex
1201  *
1202  * Since: 2.14
1203  */
1204 GRegex *
1205 g_regex_ref (GRegex *regex)
1206 {
1207   g_return_val_if_fail (regex != NULL, NULL);
1208   g_atomic_int_inc (&regex->ref_count);
1209   return regex;
1210 }
1211
1212 /**
1213  * g_regex_unref:
1214  * @regex: a #GRegex
1215  *
1216  * Decreases reference count of @regex by 1. When reference count drops
1217  * to zero, it frees all the memory associated with the regex structure.
1218  *
1219  * Since: 2.14
1220  */
1221 void
1222 g_regex_unref (GRegex *regex)
1223 {
1224   g_return_if_fail (regex != NULL);
1225
1226   if (g_atomic_int_dec_and_test (&regex->ref_count))
1227     {
1228       g_free (regex->pattern);
1229       if (regex->pcre_re != NULL)
1230         pcre_free (regex->pcre_re);
1231       if (regex->extra != NULL)
1232         pcre_free (regex->extra);
1233       g_free (regex);
1234     }
1235 }
1236
1237 /**
1238  * g_regex_new:
1239  * @pattern: the regular expression
1240  * @compile_options: compile options for the regular expression, or 0
1241  * @match_options: match options for the regular expression, or 0
1242  * @error: return location for a #GError
1243  *
1244  * Compiles the regular expression to an internal form, and does
1245  * the initial setup of the #GRegex structure.
1246  *
1247  * Returns: a #GRegex structure. Call g_regex_unref() when you
1248  *   are done with it
1249  *
1250  * Since: 2.14
1251  */
1252 GRegex *
1253 g_regex_new (const gchar         *pattern,
1254              GRegexCompileFlags   compile_options,
1255              GRegexMatchFlags     match_options,
1256              GError             **error)
1257 {
1258   GRegex *regex;
1259   pcre *re;
1260   const gchar *errmsg;
1261   gint erroffset;
1262   gint errcode;
1263   gboolean optimize = FALSE;
1264   static gsize initialised;
1265   unsigned long int pcre_compile_options;
1266
1267   g_return_val_if_fail (pattern != NULL, NULL);
1268   g_return_val_if_fail (error == NULL || *error == NULL, NULL);
1269   g_return_val_if_fail ((compile_options & ~G_REGEX_COMPILE_MASK) == 0, NULL);
1270   g_return_val_if_fail ((match_options & ~G_REGEX_MATCH_MASK) == 0, NULL);
1271
1272   if (g_once_init_enter (&initialised))
1273     {
1274       gint support;
1275       const gchar *msg;
1276
1277       pcre_config (PCRE_CONFIG_UTF8, &support);
1278       if (!support)
1279         {
1280           msg = N_("PCRE library is compiled without UTF8 support");
1281           g_critical ("%s", msg);
1282           g_set_error_literal (error, G_REGEX_ERROR, G_REGEX_ERROR_COMPILE, gettext (msg));
1283           return NULL;
1284         }
1285
1286       pcre_config (PCRE_CONFIG_UNICODE_PROPERTIES, &support);
1287       if (!support)
1288         {
1289           msg = N_("PCRE library is compiled without UTF8 properties support");
1290           g_critical ("%s", msg);
1291           g_set_error_literal (error, G_REGEX_ERROR, G_REGEX_ERROR_COMPILE, gettext (msg));
1292           return NULL;
1293         }
1294
1295       g_once_init_leave (&initialised, TRUE);
1296     }
1297
1298   /* G_REGEX_OPTIMIZE has the same numeric value of PCRE_NO_UTF8_CHECK,
1299    * as we do not need to wrap PCRE_NO_UTF8_CHECK. */
1300   if (compile_options & G_REGEX_OPTIMIZE)
1301     optimize = TRUE;
1302
1303   /* In GRegex the string are, by default, UTF-8 encoded. PCRE
1304    * instead uses UTF-8 only if required with PCRE_UTF8. */
1305   if (compile_options & G_REGEX_RAW)
1306     {
1307       /* disable utf-8 */
1308       compile_options &= ~G_REGEX_RAW;
1309     }
1310   else
1311     {
1312       /* enable utf-8 */
1313       compile_options |= PCRE_UTF8 | PCRE_NO_UTF8_CHECK;
1314       match_options |= PCRE_NO_UTF8_CHECK;
1315     }
1316
1317   /* PCRE_NEWLINE_ANY is the default for the internal PCRE but
1318    * not for the system one. */
1319   if (!(compile_options & G_REGEX_NEWLINE_CR) &&
1320       !(compile_options & G_REGEX_NEWLINE_LF))
1321     {
1322       compile_options |= PCRE_NEWLINE_ANY;
1323     }
1324
1325   compile_options |= PCRE_UCP;
1326
1327   /* compile the pattern */
1328   re = pcre_compile2 (pattern, compile_options, &errcode,
1329                       &errmsg, &erroffset, NULL);
1330
1331   /* if the compilation failed, set the error member and return
1332    * immediately */
1333   if (re == NULL)
1334     {
1335       GError *tmp_error;
1336
1337       /* Translate the PCRE error code to GRegexError and use a translated
1338        * error message if possible */
1339       translate_compile_error (&errcode, &errmsg);
1340
1341       /* PCRE uses byte offsets but we want to show character offsets */
1342       erroffset = g_utf8_pointer_to_offset (pattern, &pattern[erroffset]);
1343
1344       tmp_error = g_error_new (G_REGEX_ERROR, errcode,
1345                                _("Error while compiling regular "
1346                                  "expression %s at char %d: %s"),
1347                                pattern, erroffset, errmsg);
1348       g_propagate_error (error, tmp_error);
1349
1350       return NULL;
1351     }
1352
1353   /* For options set at the beginning of the pattern, pcre puts them into
1354    * compile options, e.g. "(?i)foo" will make the pcre structure store
1355    * PCRE_CASELESS even though it wasn't explicitly given for compilation. */
1356   pcre_fullinfo (re, NULL, PCRE_INFO_OPTIONS, &pcre_compile_options);
1357   compile_options = pcre_compile_options;
1358
1359   if (!(compile_options & G_REGEX_DUPNAMES))
1360     {
1361       gboolean jchanged = FALSE;
1362       pcre_fullinfo (re, NULL, PCRE_INFO_JCHANGED, &jchanged);
1363       if (jchanged)
1364         compile_options |= G_REGEX_DUPNAMES;
1365     }
1366
1367   regex = g_new0 (GRegex, 1);
1368   regex->ref_count = 1;
1369   regex->pattern = g_strdup (pattern);
1370   regex->pcre_re = re;
1371   regex->compile_opts = compile_options;
1372   regex->match_opts = match_options;
1373
1374   if (optimize)
1375     {
1376       regex->extra = pcre_study (regex->pcre_re, 0, &errmsg);
1377       if (errmsg != NULL)
1378         {
1379           GError *tmp_error = g_error_new (G_REGEX_ERROR,
1380                                            G_REGEX_ERROR_OPTIMIZE,
1381                                            _("Error while optimizing "
1382                                              "regular expression %s: %s"),
1383                                            regex->pattern,
1384                                            errmsg);
1385           g_propagate_error (error, tmp_error);
1386
1387           g_regex_unref (regex);
1388           return NULL;
1389         }
1390     }
1391
1392   return regex;
1393 }
1394
1395 /**
1396  * g_regex_get_pattern:
1397  * @regex: a #GRegex structure
1398  *
1399  * Gets the pattern string associated with @regex, i.e. a copy of
1400  * the string passed to g_regex_new().
1401  *
1402  * Returns: the pattern of @regex
1403  *
1404  * Since: 2.14
1405  */
1406 const gchar *
1407 g_regex_get_pattern (const GRegex *regex)
1408 {
1409   g_return_val_if_fail (regex != NULL, NULL);
1410
1411   return regex->pattern;
1412 }
1413
1414 /**
1415  * g_regex_get_max_backref:
1416  * @regex: a #GRegex
1417  *
1418  * Returns the number of the highest back reference
1419  * in the pattern, or 0 if the pattern does not contain
1420  * back references.
1421  *
1422  * Returns: the number of the highest back reference
1423  *
1424  * Since: 2.14
1425  */
1426 gint
1427 g_regex_get_max_backref (const GRegex *regex)
1428 {
1429   gint value;
1430
1431   pcre_fullinfo (regex->pcre_re, regex->extra,
1432                  PCRE_INFO_BACKREFMAX, &value);
1433
1434   return value;
1435 }
1436
1437 /**
1438  * g_regex_get_capture_count:
1439  * @regex: a #GRegex
1440  *
1441  * Returns the number of capturing subpatterns in the pattern.
1442  *
1443  * Returns: the number of capturing subpatterns
1444  *
1445  * Since: 2.14
1446  */
1447 gint
1448 g_regex_get_capture_count (const GRegex *regex)
1449 {
1450   gint value;
1451
1452   pcre_fullinfo (regex->pcre_re, regex->extra,
1453                  PCRE_INFO_CAPTURECOUNT, &value);
1454
1455   return value;
1456 }
1457
1458 /**
1459  * g_regex_get_compile_flags:
1460  * @regex: a #GRegex
1461  *
1462  * Returns the compile options that @regex was created with.
1463  *
1464  * Returns: flags from #GRegexCompileFlags
1465  *
1466  * Since: 2.26
1467  */
1468 GRegexCompileFlags
1469 g_regex_get_compile_flags (const GRegex *regex)
1470 {
1471   g_return_val_if_fail (regex != NULL, 0);
1472
1473   return regex->compile_opts;
1474 }
1475
1476 /**
1477  * g_regex_get_match_flags:
1478  * @regex: a #GRegex
1479  *
1480  * Returns the match options that @regex was created with.
1481  *
1482  * Returns: flags from #GRegexMatchFlags
1483  *
1484  * Since: 2.26
1485  */
1486 GRegexMatchFlags
1487 g_regex_get_match_flags (const GRegex *regex)
1488 {
1489   g_return_val_if_fail (regex != NULL, 0);
1490
1491   return regex->match_opts;
1492 }
1493
1494 /**
1495  * g_regex_match_simple:
1496  * @pattern: the regular expression
1497  * @string: the string to scan for matches
1498  * @compile_options: compile options for the regular expression, or 0
1499  * @match_options: match options, or 0
1500  *
1501  * Scans for a match in @string for @pattern.
1502  *
1503  * This function is equivalent to g_regex_match() but it does not
1504  * require to compile the pattern with g_regex_new(), avoiding some
1505  * lines of code when you need just to do a match without extracting
1506  * substrings, capture counts, and so on.
1507  *
1508  * If this function is to be called on the same @pattern more than
1509  * once, it's more efficient to compile the pattern once with
1510  * g_regex_new() and then use g_regex_match().
1511  *
1512  * Returns: %TRUE if the string matched, %FALSE otherwise
1513  *
1514  * Since: 2.14
1515  */
1516 gboolean
1517 g_regex_match_simple (const gchar        *pattern,
1518                       const gchar        *string,
1519                       GRegexCompileFlags  compile_options,
1520                       GRegexMatchFlags    match_options)
1521 {
1522   GRegex *regex;
1523   gboolean result;
1524
1525   regex = g_regex_new (pattern, compile_options, 0, NULL);
1526   if (!regex)
1527     return FALSE;
1528   result = g_regex_match_full (regex, string, -1, 0, match_options, NULL, NULL);
1529   g_regex_unref (regex);
1530   return result;
1531 }
1532
1533 /**
1534  * g_regex_match:
1535  * @regex: a #GRegex structure from g_regex_new()
1536  * @string: the string to scan for matches
1537  * @match_options: match options
1538  * @match_info: (out) (allow-none): pointer to location where to store
1539  *     the #GMatchInfo, or %NULL if you do not need it
1540  *
1541  * Scans for a match in string for the pattern in @regex.
1542  * The @match_options are combined with the match options specified
1543  * when the @regex structure was created, letting you have more
1544  * flexibility in reusing #GRegex structures.
1545  *
1546  * A #GMatchInfo structure, used to get information on the match,
1547  * is stored in @match_info if not %NULL. Note that if @match_info
1548  * is not %NULL then it is created even if the function returns %FALSE,
1549  * i.e. you must free it regardless if regular expression actually matched.
1550  *
1551  * To retrieve all the non-overlapping matches of the pattern in
1552  * string you can use g_match_info_next().
1553  *
1554  * |[
1555  * static void
1556  * print_uppercase_words (const gchar *string)
1557  * {
1558  *   /&ast; Print all uppercase-only words. &ast;/
1559  *   GRegex *regex;
1560  *   GMatchInfo *match_info;
1561  *   &nbsp;
1562  *   regex = g_regex_new ("[A-Z]+", 0, 0, NULL);
1563  *   g_regex_match (regex, string, 0, &amp;match_info);
1564  *   while (g_match_info_matches (match_info))
1565  *     {
1566  *       gchar *word = g_match_info_fetch (match_info, 0);
1567  *       g_print ("Found: %s\n", word);
1568  *       g_free (word);
1569  *       g_match_info_next (match_info, NULL);
1570  *     }
1571  *   g_match_info_free (match_info);
1572  *   g_regex_unref (regex);
1573  * }
1574  * ]|
1575  *
1576  * @string is not copied and is used in #GMatchInfo internally. If
1577  * you use any #GMatchInfo method (except g_match_info_free()) after
1578  * freeing or modifying @string then the behaviour is undefined.
1579  *
1580  * Returns: %TRUE is the string matched, %FALSE otherwise
1581  *
1582  * Since: 2.14
1583  */
1584 gboolean
1585 g_regex_match (const GRegex      *regex,
1586                const gchar       *string,
1587                GRegexMatchFlags   match_options,
1588                GMatchInfo       **match_info)
1589 {
1590   return g_regex_match_full (regex, string, -1, 0, match_options,
1591                              match_info, NULL);
1592 }
1593
1594 /**
1595  * g_regex_match_full:
1596  * @regex: a #GRegex structure from g_regex_new()
1597  * @string: (array length=string_len): the string to scan for matches
1598  * @string_len: the length of @string, or -1 if @string is nul-terminated
1599  * @start_position: starting index of the string to match
1600  * @match_options: match options
1601  * @match_info: (out) (allow-none): pointer to location where to store
1602  *     the #GMatchInfo, or %NULL if you do not need it
1603  * @error: location to store the error occurring, or %NULL to ignore errors
1604  *
1605  * Scans for a match in string for the pattern in @regex.
1606  * The @match_options are combined with the match options specified
1607  * when the @regex structure was created, letting you have more
1608  * flexibility in reusing #GRegex structures.
1609  *
1610  * Setting @start_position differs from just passing over a shortened
1611  * string and setting #G_REGEX_MATCH_NOTBOL in the case of a pattern
1612  * that begins with any kind of lookbehind assertion, such as "\b".
1613  *
1614  * A #GMatchInfo structure, used to get information on the match, is
1615  * stored in @match_info if not %NULL. Note that if @match_info is
1616  * not %NULL then it is created even if the function returns %FALSE,
1617  * i.e. you must free it regardless if regular expression actually
1618  * matched.
1619  *
1620  * @string is not copied and is used in #GMatchInfo internally. If
1621  * you use any #GMatchInfo method (except g_match_info_free()) after
1622  * freeing or modifying @string then the behaviour is undefined.
1623  *
1624  * To retrieve all the non-overlapping matches of the pattern in
1625  * string you can use g_match_info_next().
1626  *
1627  * |[
1628  * static void
1629  * print_uppercase_words (const gchar *string)
1630  * {
1631  *   /&ast; Print all uppercase-only words. &ast;/
1632  *   GRegex *regex;
1633  *   GMatchInfo *match_info;
1634  *   GError *error = NULL;
1635  *   &nbsp;
1636  *   regex = g_regex_new ("[A-Z]+", 0, 0, NULL);
1637  *   g_regex_match_full (regex, string, -1, 0, 0, &amp;match_info, &amp;error);
1638  *   while (g_match_info_matches (match_info))
1639  *     {
1640  *       gchar *word = g_match_info_fetch (match_info, 0);
1641  *       g_print ("Found: %s\n", word);
1642  *       g_free (word);
1643  *       g_match_info_next (match_info, &amp;error);
1644  *     }
1645  *   g_match_info_free (match_info);
1646  *   g_regex_unref (regex);
1647  *   if (error != NULL)
1648  *     {
1649  *       g_printerr ("Error while matching: %s\n", error->message);
1650  *       g_error_free (error);
1651  *     }
1652  * }
1653  * ]|
1654  *
1655  * Returns: %TRUE is the string matched, %FALSE otherwise
1656  *
1657  * Since: 2.14
1658  */
1659 gboolean
1660 g_regex_match_full (const GRegex      *regex,
1661                     const gchar       *string,
1662                     gssize             string_len,
1663                     gint               start_position,
1664                     GRegexMatchFlags   match_options,
1665                     GMatchInfo       **match_info,
1666                     GError           **error)
1667 {
1668   GMatchInfo *info;
1669   gboolean match_ok;
1670
1671   g_return_val_if_fail (regex != NULL, FALSE);
1672   g_return_val_if_fail (string != NULL, FALSE);
1673   g_return_val_if_fail (start_position >= 0, FALSE);
1674   g_return_val_if_fail (error == NULL || *error == NULL, FALSE);
1675   g_return_val_if_fail ((match_options & ~G_REGEX_MATCH_MASK) == 0, FALSE);
1676
1677   info = match_info_new (regex, string, string_len, start_position,
1678                          match_options, FALSE);
1679   match_ok = g_match_info_next (info, error);
1680   if (match_info != NULL)
1681     *match_info = info;
1682   else
1683     g_match_info_free (info);
1684
1685   return match_ok;
1686 }
1687
1688 /**
1689  * g_regex_match_all:
1690  * @regex: a #GRegex structure from g_regex_new()
1691  * @string: the string to scan for matches
1692  * @match_options: match options
1693  * @match_info: (out) (allow-none): pointer to location where to store
1694  *     the #GMatchInfo, or %NULL if you do not need it
1695  *
1696  * Using the standard algorithm for regular expression matching only
1697  * the longest match in the string is retrieved. This function uses
1698  * a different algorithm so it can retrieve all the possible matches.
1699  * For more documentation see g_regex_match_all_full().
1700  *
1701  * A #GMatchInfo structure, used to get information on the match, is
1702  * stored in @match_info if not %NULL. Note that if @match_info is
1703  * not %NULL then it is created even if the function returns %FALSE,
1704  * i.e. you must free it regardless if regular expression actually
1705  * matched.
1706  *
1707  * @string is not copied and is used in #GMatchInfo internally. If
1708  * you use any #GMatchInfo method (except g_match_info_free()) after
1709  * freeing or modifying @string then the behaviour is undefined.
1710  *
1711  * Returns: %TRUE is the string matched, %FALSE otherwise
1712  *
1713  * Since: 2.14
1714  */
1715 gboolean
1716 g_regex_match_all (const GRegex      *regex,
1717                    const gchar       *string,
1718                    GRegexMatchFlags   match_options,
1719                    GMatchInfo       **match_info)
1720 {
1721   return g_regex_match_all_full (regex, string, -1, 0, match_options,
1722                                  match_info, NULL);
1723 }
1724
1725 /**
1726  * g_regex_match_all_full:
1727  * @regex: a #GRegex structure from g_regex_new()
1728  * @string: (array length=string_len): the string to scan for matches
1729  * @string_len: the length of @string, or -1 if @string is nul-terminated
1730  * @start_position: starting index of the string to match
1731  * @match_options: match options
1732  * @match_info: (out) (allow-none): pointer to location where to store
1733  *     the #GMatchInfo, or %NULL if you do not need it
1734  * @error: location to store the error occurring, or %NULL to ignore errors
1735  *
1736  * Using the standard algorithm for regular expression matching only
1737  * the longest match in the string is retrieved, it is not possible
1738  * to obtain all the available matches. For instance matching
1739  * "&lt;a&gt; &lt;b&gt; &lt;c&gt;" against the pattern "&lt;.*&gt;"
1740  * you get "&lt;a&gt; &lt;b&gt; &lt;c&gt;".
1741  *
1742  * This function uses a different algorithm (called DFA, i.e. deterministic
1743  * finite automaton), so it can retrieve all the possible matches, all
1744  * starting at the same point in the string. For instance matching
1745  * "&lt;a&gt; &lt;b&gt; &lt;c&gt;" against the pattern "&lt;.*&gt;"
1746  * you would obtain three matches: "&lt;a&gt; &lt;b&gt; &lt;c&gt;",
1747  * "&lt;a&gt; &lt;b&gt;" and "&lt;a&gt;".
1748  *
1749  * The number of matched strings is retrieved using
1750  * g_match_info_get_match_count(). To obtain the matched strings and
1751  * their position you can use, respectively, g_match_info_fetch() and
1752  * g_match_info_fetch_pos(). Note that the strings are returned in
1753  * reverse order of length; that is, the longest matching string is
1754  * given first.
1755  *
1756  * Note that the DFA algorithm is slower than the standard one and it
1757  * is not able to capture substrings, so backreferences do not work.
1758  *
1759  * Setting @start_position differs from just passing over a shortened
1760  * string and setting #G_REGEX_MATCH_NOTBOL in the case of a pattern
1761  * that begins with any kind of lookbehind assertion, such as "\b".
1762  *
1763  * A #GMatchInfo structure, used to get information on the match, is
1764  * stored in @match_info if not %NULL. Note that if @match_info is
1765  * not %NULL then it is created even if the function returns %FALSE,
1766  * i.e. you must free it regardless if regular expression actually
1767  * matched.
1768  *
1769  * @string is not copied and is used in #GMatchInfo internally. If
1770  * you use any #GMatchInfo method (except g_match_info_free()) after
1771  * freeing or modifying @string then the behaviour is undefined.
1772  *
1773  * Returns: %TRUE is the string matched, %FALSE otherwise
1774  *
1775  * Since: 2.14
1776  */
1777 gboolean
1778 g_regex_match_all_full (const GRegex      *regex,
1779                         const gchar       *string,
1780                         gssize             string_len,
1781                         gint               start_position,
1782                         GRegexMatchFlags   match_options,
1783                         GMatchInfo       **match_info,
1784                         GError           **error)
1785 {
1786   GMatchInfo *info;
1787   gboolean done;
1788
1789   g_return_val_if_fail (regex != NULL, FALSE);
1790   g_return_val_if_fail (string != NULL, FALSE);
1791   g_return_val_if_fail (start_position >= 0, FALSE);
1792   g_return_val_if_fail (error == NULL || *error == NULL, FALSE);
1793   g_return_val_if_fail ((match_options & ~G_REGEX_MATCH_MASK) == 0, FALSE);
1794
1795   info = match_info_new (regex, string, string_len, start_position,
1796                          match_options, TRUE);
1797
1798   done = FALSE;
1799   while (!done)
1800     {
1801       done = TRUE;
1802       info->matches = pcre_dfa_exec (regex->pcre_re, regex->extra,
1803                                      info->string, info->string_len,
1804                                      info->pos,
1805                                      regex->match_opts | match_options,
1806                                      info->offsets, info->n_offsets,
1807                                      info->workspace, info->n_workspace);
1808       if (info->matches == PCRE_ERROR_DFA_WSSIZE)
1809         {
1810           /* info->workspace is too small. */
1811           info->n_workspace *= 2;
1812           info->workspace = g_realloc (info->workspace,
1813                                        info->n_workspace * sizeof (gint));
1814           done = FALSE;
1815         }
1816       else if (info->matches == 0)
1817         {
1818           /* info->offsets is too small. */
1819           info->n_offsets *= 2;
1820           info->offsets = g_realloc (info->offsets,
1821                                      info->n_offsets * sizeof (gint));
1822           done = FALSE;
1823         }
1824       else if (IS_PCRE_ERROR (info->matches))
1825         {
1826           g_set_error (error, G_REGEX_ERROR, G_REGEX_ERROR_MATCH,
1827                        _("Error while matching regular expression %s: %s"),
1828                        regex->pattern, match_error (info->matches));
1829         }
1830     }
1831
1832   /* set info->pos to -1 so that a call to g_match_info_next() fails. */
1833   info->pos = -1;
1834
1835   if (match_info != NULL)
1836     *match_info = info;
1837   else
1838     g_match_info_free (info);
1839
1840   return info->matches >= 0;
1841 }
1842
1843 /**
1844  * g_regex_get_string_number:
1845  * @regex: #GRegex structure
1846  * @name: name of the subexpression
1847  *
1848  * Retrieves the number of the subexpression named @name.
1849  *
1850  * Returns: The number of the subexpression or -1 if @name
1851  *   does not exists
1852  *
1853  * Since: 2.14
1854  */
1855 gint
1856 g_regex_get_string_number (const GRegex *regex,
1857                            const gchar  *name)
1858 {
1859   gint num;
1860
1861   g_return_val_if_fail (regex != NULL, -1);
1862   g_return_val_if_fail (name != NULL, -1);
1863
1864   num = pcre_get_stringnumber (regex->pcre_re, name);
1865   if (num == PCRE_ERROR_NOSUBSTRING)
1866     num = -1;
1867
1868   return num;
1869 }
1870
1871 /**
1872  * g_regex_split_simple:
1873  * @pattern: the regular expression
1874  * @string: the string to scan for matches
1875  * @compile_options: compile options for the regular expression, or 0
1876  * @match_options: match options, or 0
1877  *
1878  * Breaks the string on the pattern, and returns an array of
1879  * the tokens. If the pattern contains capturing parentheses,
1880  * then the text for each of the substrings will also be returned.
1881  * If the pattern does not match anywhere in the string, then the
1882  * whole string is returned as the first token.
1883  *
1884  * This function is equivalent to g_regex_split() but it does
1885  * not require to compile the pattern with g_regex_new(), avoiding
1886  * some lines of code when you need just to do a split without
1887  * extracting substrings, capture counts, and so on.
1888  *
1889  * If this function is to be called on the same @pattern more than
1890  * once, it's more efficient to compile the pattern once with
1891  * g_regex_new() and then use g_regex_split().
1892  *
1893  * As a special case, the result of splitting the empty string ""
1894  * is an empty vector, not a vector containing a single string.
1895  * The reason for this special case is that being able to represent
1896  * a empty vector is typically more useful than consistent handling
1897  * of empty elements. If you do need to represent empty elements,
1898  * you'll need to check for the empty string before calling this
1899  * function.
1900  *
1901  * A pattern that can match empty strings splits @string into
1902  * separate characters wherever it matches the empty string between
1903  * characters. For example splitting "ab c" using as a separator
1904  * "\s*", you will get "a", "b" and "c".
1905  *
1906  * Returns: a %NULL-terminated array of strings. Free it using g_strfreev()
1907  *
1908  * Since: 2.14
1909  **/
1910 gchar **
1911 g_regex_split_simple (const gchar        *pattern,
1912                       const gchar        *string,
1913                       GRegexCompileFlags  compile_options,
1914                       GRegexMatchFlags    match_options)
1915 {
1916   GRegex *regex;
1917   gchar **result;
1918
1919   regex = g_regex_new (pattern, compile_options, 0, NULL);
1920   if (!regex)
1921     return NULL;
1922
1923   result = g_regex_split_full (regex, string, -1, 0, match_options, 0, NULL);
1924   g_regex_unref (regex);
1925   return result;
1926 }
1927
1928 /**
1929  * g_regex_split:
1930  * @regex: a #GRegex structure
1931  * @string: the string to split with the pattern
1932  * @match_options: match time option flags
1933  *
1934  * Breaks the string on the pattern, and returns an array of the tokens.
1935  * If the pattern contains capturing parentheses, then the text for each
1936  * of the substrings will also be returned. If the pattern does not match
1937  * anywhere in the string, then the whole string is returned as the first
1938  * token.
1939  *
1940  * As a special case, the result of splitting the empty string "" is an
1941  * empty vector, not a vector containing a single string. The reason for
1942  * this special case is that being able to represent a empty vector is
1943  * typically more useful than consistent handling of empty elements. If
1944  * you do need to represent empty elements, you'll need to check for the
1945  * empty string before calling this function.
1946  *
1947  * A pattern that can match empty strings splits @string into separate
1948  * characters wherever it matches the empty string between characters.
1949  * For example splitting "ab c" using as a separator "\s*", you will get
1950  * "a", "b" and "c".
1951  *
1952  * Returns: a %NULL-terminated gchar ** array. Free it using g_strfreev()
1953  *
1954  * Since: 2.14
1955  **/
1956 gchar **
1957 g_regex_split (const GRegex     *regex,
1958                const gchar      *string,
1959                GRegexMatchFlags  match_options)
1960 {
1961   return g_regex_split_full (regex, string, -1, 0,
1962                              match_options, 0, NULL);
1963 }
1964
1965 /**
1966  * g_regex_split_full:
1967  * @regex: a #GRegex structure
1968  * @string: (array length=string_len): the string to split with the pattern
1969  * @string_len: the length of @string, or -1 if @string is nul-terminated
1970  * @start_position: starting index of the string to match
1971  * @match_options: match time option flags
1972  * @max_tokens: the maximum number of tokens to split @string into.
1973  *   If this is less than 1, the string is split completely
1974  * @error: return location for a #GError
1975  *
1976  * Breaks the string on the pattern, and returns an array of the tokens.
1977  * If the pattern contains capturing parentheses, then the text for each
1978  * of the substrings will also be returned. If the pattern does not match
1979  * anywhere in the string, then the whole string is returned as the first
1980  * token.
1981  *
1982  * As a special case, the result of splitting the empty string "" is an
1983  * empty vector, not a vector containing a single string. The reason for
1984  * this special case is that being able to represent a empty vector is
1985  * typically more useful than consistent handling of empty elements. If
1986  * you do need to represent empty elements, you'll need to check for the
1987  * empty string before calling this function.
1988  *
1989  * A pattern that can match empty strings splits @string into separate
1990  * characters wherever it matches the empty string between characters.
1991  * For example splitting "ab c" using as a separator "\s*", you will get
1992  * "a", "b" and "c".
1993  *
1994  * Setting @start_position differs from just passing over a shortened
1995  * string and setting #G_REGEX_MATCH_NOTBOL in the case of a pattern
1996  * that begins with any kind of lookbehind assertion, such as "\b".
1997  *
1998  * Returns: a %NULL-terminated gchar ** array. Free it using g_strfreev()
1999  *
2000  * Since: 2.14
2001  **/
2002 gchar **
2003 g_regex_split_full (const GRegex      *regex,
2004                     const gchar       *string,
2005                     gssize             string_len,
2006                     gint               start_position,
2007                     GRegexMatchFlags   match_options,
2008                     gint               max_tokens,
2009                     GError           **error)
2010 {
2011   GError *tmp_error = NULL;
2012   GMatchInfo *match_info;
2013   GList *list, *last;
2014   gint i;
2015   gint token_count;
2016   gboolean match_ok;
2017   /* position of the last separator. */
2018   gint last_separator_end;
2019   /* was the last match 0 bytes long? */
2020   gboolean last_match_is_empty;
2021   /* the returned array of char **s */
2022   gchar **string_list;
2023
2024   g_return_val_if_fail (regex != NULL, NULL);
2025   g_return_val_if_fail (string != NULL, NULL);
2026   g_return_val_if_fail (start_position >= 0, NULL);
2027   g_return_val_if_fail (error == NULL || *error == NULL, NULL);
2028   g_return_val_if_fail ((match_options & ~G_REGEX_MATCH_MASK) == 0, NULL);
2029
2030   if (max_tokens <= 0)
2031     max_tokens = G_MAXINT;
2032
2033   if (string_len < 0)
2034     string_len = strlen (string);
2035
2036   /* zero-length string */
2037   if (string_len - start_position == 0)
2038     return g_new0 (gchar *, 1);
2039
2040   if (max_tokens == 1)
2041     {
2042       string_list = g_new0 (gchar *, 2);
2043       string_list[0] = g_strndup (&string[start_position],
2044                                   string_len - start_position);
2045       return string_list;
2046     }
2047
2048   list = NULL;
2049   token_count = 0;
2050   last_separator_end = start_position;
2051   last_match_is_empty = FALSE;
2052
2053   match_ok = g_regex_match_full (regex, string, string_len, start_position,
2054                                  match_options, &match_info, &tmp_error);
2055
2056   while (tmp_error == NULL)
2057     {
2058       if (match_ok)
2059         {
2060           last_match_is_empty =
2061                     (match_info->offsets[0] == match_info->offsets[1]);
2062
2063           /* we need to skip empty separators at the same position of the end
2064            * of another separator. e.g. the string is "a b" and the separator
2065            * is " *", so from 1 to 2 we have a match and at position 2 we have
2066            * an empty match. */
2067           if (last_separator_end != match_info->offsets[1])
2068             {
2069               gchar *token;
2070               gint match_count;
2071
2072               token = g_strndup (string + last_separator_end,
2073                                  match_info->offsets[0] - last_separator_end);
2074               list = g_list_prepend (list, token);
2075               token_count++;
2076
2077               /* if there were substrings, these need to be added to
2078                * the list. */
2079               match_count = g_match_info_get_match_count (match_info);
2080               if (match_count > 1)
2081                 {
2082                   for (i = 1; i < match_count; i++)
2083                     list = g_list_prepend (list, g_match_info_fetch (match_info, i));
2084                 }
2085             }
2086         }
2087       else
2088         {
2089           /* if there was no match, copy to end of string. */
2090           if (!last_match_is_empty)
2091             {
2092               gchar *token = g_strndup (string + last_separator_end,
2093                                         match_info->string_len - last_separator_end);
2094               list = g_list_prepend (list, token);
2095             }
2096           /* no more tokens, end the loop. */
2097           break;
2098         }
2099
2100       /* -1 to leave room for the last part. */
2101       if (token_count >= max_tokens - 1)
2102         {
2103           /* we have reached the maximum number of tokens, so we copy
2104            * the remaining part of the string. */
2105           if (last_match_is_empty)
2106             {
2107               /* the last match was empty, so we have moved one char
2108                * after the real position to avoid empty matches at the
2109                * same position. */
2110               match_info->pos = PREV_CHAR (regex, &string[match_info->pos]) - string;
2111             }
2112           /* the if is needed in the case we have terminated the available
2113            * tokens, but we are at the end of the string, so there are no
2114            * characters left to copy. */
2115           if (string_len > match_info->pos)
2116             {
2117               gchar *token = g_strndup (string + match_info->pos,
2118                                         string_len - match_info->pos);
2119               list = g_list_prepend (list, token);
2120             }
2121           /* end the loop. */
2122           break;
2123         }
2124
2125       last_separator_end = match_info->pos;
2126       if (last_match_is_empty)
2127         /* if the last match was empty, g_match_info_next() has moved
2128          * forward to avoid infinite loops, but we still need to copy that
2129          * character. */
2130         last_separator_end = PREV_CHAR (regex, &string[last_separator_end]) - string;
2131
2132       match_ok = g_match_info_next (match_info, &tmp_error);
2133     }
2134   g_match_info_free (match_info);
2135   if (tmp_error != NULL)
2136     {
2137       g_propagate_error (error, tmp_error);
2138       g_list_free_full (list, g_free);
2139       match_info->pos = -1;
2140       return NULL;
2141     }
2142
2143   string_list = g_new (gchar *, g_list_length (list) + 1);
2144   i = 0;
2145   for (last = g_list_last (list); last; last = g_list_previous (last))
2146     string_list[i++] = last->data;
2147   string_list[i] = NULL;
2148   g_list_free (list);
2149
2150   return string_list;
2151 }
2152
2153 enum
2154 {
2155   REPL_TYPE_STRING,
2156   REPL_TYPE_CHARACTER,
2157   REPL_TYPE_SYMBOLIC_REFERENCE,
2158   REPL_TYPE_NUMERIC_REFERENCE,
2159   REPL_TYPE_CHANGE_CASE
2160 };
2161
2162 typedef enum
2163 {
2164   CHANGE_CASE_NONE         = 1 << 0,
2165   CHANGE_CASE_UPPER        = 1 << 1,
2166   CHANGE_CASE_LOWER        = 1 << 2,
2167   CHANGE_CASE_UPPER_SINGLE = 1 << 3,
2168   CHANGE_CASE_LOWER_SINGLE = 1 << 4,
2169   CHANGE_CASE_SINGLE_MASK  = CHANGE_CASE_UPPER_SINGLE | CHANGE_CASE_LOWER_SINGLE,
2170   CHANGE_CASE_LOWER_MASK   = CHANGE_CASE_LOWER | CHANGE_CASE_LOWER_SINGLE,
2171   CHANGE_CASE_UPPER_MASK   = CHANGE_CASE_UPPER | CHANGE_CASE_UPPER_SINGLE
2172 } ChangeCase;
2173
2174 struct _InterpolationData
2175 {
2176   gchar     *text;
2177   gint       type;
2178   gint       num;
2179   gchar      c;
2180   ChangeCase change_case;
2181 };
2182
2183 static void
2184 free_interpolation_data (InterpolationData *data)
2185 {
2186   g_free (data->text);
2187   g_free (data);
2188 }
2189
2190 static const gchar *
2191 expand_escape (const gchar        *replacement,
2192                const gchar        *p,
2193                InterpolationData  *data,
2194                GError            **error)
2195 {
2196   const gchar *q, *r;
2197   gint x, d, h, i;
2198   const gchar *error_detail;
2199   gint base = 0;
2200   GError *tmp_error = NULL;
2201
2202   p++;
2203   switch (*p)
2204     {
2205     case 't':
2206       p++;
2207       data->c = '\t';
2208       data->type = REPL_TYPE_CHARACTER;
2209       break;
2210     case 'n':
2211       p++;
2212       data->c = '\n';
2213       data->type = REPL_TYPE_CHARACTER;
2214       break;
2215     case 'v':
2216       p++;
2217       data->c = '\v';
2218       data->type = REPL_TYPE_CHARACTER;
2219       break;
2220     case 'r':
2221       p++;
2222       data->c = '\r';
2223       data->type = REPL_TYPE_CHARACTER;
2224       break;
2225     case 'f':
2226       p++;
2227       data->c = '\f';
2228       data->type = REPL_TYPE_CHARACTER;
2229       break;
2230     case 'a':
2231       p++;
2232       data->c = '\a';
2233       data->type = REPL_TYPE_CHARACTER;
2234       break;
2235     case 'b':
2236       p++;
2237       data->c = '\b';
2238       data->type = REPL_TYPE_CHARACTER;
2239       break;
2240     case '\\':
2241       p++;
2242       data->c = '\\';
2243       data->type = REPL_TYPE_CHARACTER;
2244       break;
2245     case 'x':
2246       p++;
2247       x = 0;
2248       if (*p == '{')
2249         {
2250           p++;
2251           do
2252             {
2253               h = g_ascii_xdigit_value (*p);
2254               if (h < 0)
2255                 {
2256                   error_detail = _("hexadecimal digit or '}' expected");
2257                   goto error;
2258                 }
2259               x = x * 16 + h;
2260               p++;
2261             }
2262           while (*p != '}');
2263           p++;
2264         }
2265       else
2266         {
2267           for (i = 0; i < 2; i++)
2268             {
2269               h = g_ascii_xdigit_value (*p);
2270               if (h < 0)
2271                 {
2272                   error_detail = _("hexadecimal digit expected");
2273                   goto error;
2274                 }
2275               x = x * 16 + h;
2276               p++;
2277             }
2278         }
2279       data->type = REPL_TYPE_STRING;
2280       data->text = g_new0 (gchar, 8);
2281       g_unichar_to_utf8 (x, data->text);
2282       break;
2283     case 'l':
2284       p++;
2285       data->type = REPL_TYPE_CHANGE_CASE;
2286       data->change_case = CHANGE_CASE_LOWER_SINGLE;
2287       break;
2288     case 'u':
2289       p++;
2290       data->type = REPL_TYPE_CHANGE_CASE;
2291       data->change_case = CHANGE_CASE_UPPER_SINGLE;
2292       break;
2293     case 'L':
2294       p++;
2295       data->type = REPL_TYPE_CHANGE_CASE;
2296       data->change_case = CHANGE_CASE_LOWER;
2297       break;
2298     case 'U':
2299       p++;
2300       data->type = REPL_TYPE_CHANGE_CASE;
2301       data->change_case = CHANGE_CASE_UPPER;
2302       break;
2303     case 'E':
2304       p++;
2305       data->type = REPL_TYPE_CHANGE_CASE;
2306       data->change_case = CHANGE_CASE_NONE;
2307       break;
2308     case 'g':
2309       p++;
2310       if (*p != '<')
2311         {
2312           error_detail = _("missing '<' in symbolic reference");
2313           goto error;
2314         }
2315       q = p + 1;
2316       do
2317         {
2318           p++;
2319           if (!*p)
2320             {
2321               error_detail = _("unfinished symbolic reference");
2322               goto error;
2323             }
2324         }
2325       while (*p != '>');
2326       if (p - q == 0)
2327         {
2328           error_detail = _("zero-length symbolic reference");
2329           goto error;
2330         }
2331       if (g_ascii_isdigit (*q))
2332         {
2333           x = 0;
2334           do
2335             {
2336               h = g_ascii_digit_value (*q);
2337               if (h < 0)
2338                 {
2339                   error_detail = _("digit expected");
2340                   p = q;
2341                   goto error;
2342                 }
2343               x = x * 10 + h;
2344               q++;
2345             }
2346           while (q != p);
2347           data->num = x;
2348           data->type = REPL_TYPE_NUMERIC_REFERENCE;
2349         }
2350       else
2351         {
2352           r = q;
2353           do
2354             {
2355               if (!g_ascii_isalnum (*r))
2356                 {
2357                   error_detail = _("illegal symbolic reference");
2358                   p = r;
2359                   goto error;
2360                 }
2361               r++;
2362             }
2363           while (r != p);
2364           data->text = g_strndup (q, p - q);
2365           data->type = REPL_TYPE_SYMBOLIC_REFERENCE;
2366         }
2367       p++;
2368       break;
2369     case '0':
2370       /* if \0 is followed by a number is an octal number representing a
2371        * character, else it is a numeric reference. */
2372       if (g_ascii_digit_value (*g_utf8_next_char (p)) >= 0)
2373         {
2374           base = 8;
2375           p = g_utf8_next_char (p);
2376         }
2377     case '1':
2378     case '2':
2379     case '3':
2380     case '4':
2381     case '5':
2382     case '6':
2383     case '7':
2384     case '8':
2385     case '9':
2386       x = 0;
2387       d = 0;
2388       for (i = 0; i < 3; i++)
2389         {
2390           h = g_ascii_digit_value (*p);
2391           if (h < 0)
2392             break;
2393           if (h > 7)
2394             {
2395               if (base == 8)
2396                 break;
2397               else
2398                 base = 10;
2399             }
2400           if (i == 2 && base == 10)
2401             break;
2402           x = x * 8 + h;
2403           d = d * 10 + h;
2404           p++;
2405         }
2406       if (base == 8 || i == 3)
2407         {
2408           data->type = REPL_TYPE_STRING;
2409           data->text = g_new0 (gchar, 8);
2410           g_unichar_to_utf8 (x, data->text);
2411         }
2412       else
2413         {
2414           data->type = REPL_TYPE_NUMERIC_REFERENCE;
2415           data->num = d;
2416         }
2417       break;
2418     case 0:
2419       error_detail = _("stray final '\\'");
2420       goto error;
2421       break;
2422     default:
2423       error_detail = _("unknown escape sequence");
2424       goto error;
2425     }
2426
2427   return p;
2428
2429  error:
2430   /* G_GSSIZE_FORMAT doesn't work with gettext, so we use %lu */
2431   tmp_error = g_error_new (G_REGEX_ERROR,
2432                            G_REGEX_ERROR_REPLACE,
2433                            _("Error while parsing replacement "
2434                              "text \"%s\" at char %lu: %s"),
2435                            replacement,
2436                            (gulong)(p - replacement),
2437                            error_detail);
2438   g_propagate_error (error, tmp_error);
2439
2440   return NULL;
2441 }
2442
2443 static GList *
2444 split_replacement (const gchar  *replacement,
2445                    GError      **error)
2446 {
2447   GList *list = NULL;
2448   InterpolationData *data;
2449   const gchar *p, *start;
2450
2451   start = p = replacement;
2452   while (*p)
2453     {
2454       if (*p == '\\')
2455         {
2456           data = g_new0 (InterpolationData, 1);
2457           start = p = expand_escape (replacement, p, data, error);
2458           if (p == NULL)
2459             {
2460               g_list_free_full (list, (GDestroyNotify) free_interpolation_data);
2461               free_interpolation_data (data);
2462
2463               return NULL;
2464             }
2465           list = g_list_prepend (list, data);
2466         }
2467       else
2468         {
2469           p++;
2470           if (*p == '\\' || *p == '\0')
2471             {
2472               if (p - start > 0)
2473                 {
2474                   data = g_new0 (InterpolationData, 1);
2475                   data->text = g_strndup (start, p - start);
2476                   data->type = REPL_TYPE_STRING;
2477                   list = g_list_prepend (list, data);
2478                 }
2479             }
2480         }
2481     }
2482
2483   return g_list_reverse (list);
2484 }
2485
2486 /* Change the case of c based on change_case. */
2487 #define CHANGE_CASE(c, change_case) \
2488         (((change_case) & CHANGE_CASE_LOWER_MASK) ? \
2489                 g_unichar_tolower (c) : \
2490                 g_unichar_toupper (c))
2491
2492 static void
2493 string_append (GString     *string,
2494                const gchar *text,
2495                ChangeCase  *change_case)
2496 {
2497   gunichar c;
2498
2499   if (text[0] == '\0')
2500     return;
2501
2502   if (*change_case == CHANGE_CASE_NONE)
2503     {
2504       g_string_append (string, text);
2505     }
2506   else if (*change_case & CHANGE_CASE_SINGLE_MASK)
2507     {
2508       c = g_utf8_get_char (text);
2509       g_string_append_unichar (string, CHANGE_CASE (c, *change_case));
2510       g_string_append (string, g_utf8_next_char (text));
2511       *change_case = CHANGE_CASE_NONE;
2512     }
2513   else
2514     {
2515       while (*text != '\0')
2516         {
2517           c = g_utf8_get_char (text);
2518           g_string_append_unichar (string, CHANGE_CASE (c, *change_case));
2519           text = g_utf8_next_char (text);
2520         }
2521     }
2522 }
2523
2524 static gboolean
2525 interpolate_replacement (const GMatchInfo *match_info,
2526                          GString          *result,
2527                          gpointer          data)
2528 {
2529   GList *list;
2530   InterpolationData *idata;
2531   gchar *match;
2532   ChangeCase change_case = CHANGE_CASE_NONE;
2533
2534   for (list = data; list; list = list->next)
2535     {
2536       idata = list->data;
2537       switch (idata->type)
2538         {
2539         case REPL_TYPE_STRING:
2540           string_append (result, idata->text, &change_case);
2541           break;
2542         case REPL_TYPE_CHARACTER:
2543           g_string_append_c (result, CHANGE_CASE (idata->c, change_case));
2544           if (change_case & CHANGE_CASE_SINGLE_MASK)
2545             change_case = CHANGE_CASE_NONE;
2546           break;
2547         case REPL_TYPE_NUMERIC_REFERENCE:
2548           match = g_match_info_fetch (match_info, idata->num);
2549           if (match)
2550             {
2551               string_append (result, match, &change_case);
2552               g_free (match);
2553             }
2554           break;
2555         case REPL_TYPE_SYMBOLIC_REFERENCE:
2556           match = g_match_info_fetch_named (match_info, idata->text);
2557           if (match)
2558             {
2559               string_append (result, match, &change_case);
2560               g_free (match);
2561             }
2562           break;
2563         case REPL_TYPE_CHANGE_CASE:
2564           change_case = idata->change_case;
2565           break;
2566         }
2567     }
2568
2569   return FALSE;
2570 }
2571
2572 /* whether actual match_info is needed for replacement, i.e.
2573  * whether there are references
2574  */
2575 static gboolean
2576 interpolation_list_needs_match (GList *list)
2577 {
2578   while (list != NULL)
2579     {
2580       InterpolationData *data = list->data;
2581
2582       if (data->type == REPL_TYPE_SYMBOLIC_REFERENCE ||
2583           data->type == REPL_TYPE_NUMERIC_REFERENCE)
2584         {
2585           return TRUE;
2586         }
2587
2588       list = list->next;
2589     }
2590
2591   return FALSE;
2592 }
2593
2594 /**
2595  * g_regex_replace:
2596  * @regex: a #GRegex structure
2597  * @string: (array length=string_len): the string to perform matches against
2598  * @string_len: the length of @string, or -1 if @string is nul-terminated
2599  * @start_position: starting index of the string to match
2600  * @replacement: text to replace each match with
2601  * @match_options: options for the match
2602  * @error: location to store the error occurring, or %NULL to ignore errors
2603  *
2604  * Replaces all occurrences of the pattern in @regex with the
2605  * replacement text. Backreferences of the form '\number' or
2606  * '\g&lt;number&gt;' in the replacement text are interpolated by the
2607  * number-th captured subexpression of the match, '\g&lt;name&gt;' refers
2608  * to the captured subexpression with the given name. '\0' refers to the
2609  * complete match, but '\0' followed by a number is the octal representation
2610  * of a character. To include a literal '\' in the replacement, write '\\'.
2611  * There are also escapes that changes the case of the following text:
2612  *
2613  * <variablelist>
2614  * <varlistentry><term>\l</term>
2615  * <listitem>
2616  * <para>Convert to lower case the next character</para>
2617  * </listitem>
2618  * </varlistentry>
2619  * <varlistentry><term>\u</term>
2620  * <listitem>
2621  * <para>Convert to upper case the next character</para>
2622  * </listitem>
2623  * </varlistentry>
2624  * <varlistentry><term>\L</term>
2625  * <listitem>
2626  * <para>Convert to lower case till \E</para>
2627  * </listitem>
2628  * </varlistentry>
2629  * <varlistentry><term>\U</term>
2630  * <listitem>
2631  * <para>Convert to upper case till \E</para>
2632  * </listitem>
2633  * </varlistentry>
2634  * <varlistentry><term>\E</term>
2635  * <listitem>
2636  * <para>End case modification</para>
2637  * </listitem>
2638  * </varlistentry>
2639  * </variablelist>
2640  *
2641  * If you do not need to use backreferences use g_regex_replace_literal().
2642  *
2643  * The @replacement string must be UTF-8 encoded even if #G_REGEX_RAW was
2644  * passed to g_regex_new(). If you want to use not UTF-8 encoded stings
2645  * you can use g_regex_replace_literal().
2646  *
2647  * Setting @start_position differs from just passing over a shortened
2648  * string and setting #G_REGEX_MATCH_NOTBOL in the case of a pattern that
2649  * begins with any kind of lookbehind assertion, such as "\b".
2650  *
2651  * Returns: a newly allocated string containing the replacements
2652  *
2653  * Since: 2.14
2654  */
2655 gchar *
2656 g_regex_replace (const GRegex      *regex,
2657                  const gchar       *string,
2658                  gssize             string_len,
2659                  gint               start_position,
2660                  const gchar       *replacement,
2661                  GRegexMatchFlags   match_options,
2662                  GError           **error)
2663 {
2664   gchar *result;
2665   GList *list;
2666   GError *tmp_error = NULL;
2667
2668   g_return_val_if_fail (regex != NULL, NULL);
2669   g_return_val_if_fail (string != NULL, NULL);
2670   g_return_val_if_fail (start_position >= 0, NULL);
2671   g_return_val_if_fail (replacement != NULL, NULL);
2672   g_return_val_if_fail (error == NULL || *error == NULL, NULL);
2673   g_return_val_if_fail ((match_options & ~G_REGEX_MATCH_MASK) == 0, NULL);
2674
2675   list = split_replacement (replacement, &tmp_error);
2676   if (tmp_error != NULL)
2677     {
2678       g_propagate_error (error, tmp_error);
2679       return NULL;
2680     }
2681
2682   result = g_regex_replace_eval (regex,
2683                                  string, string_len, start_position,
2684                                  match_options,
2685                                  interpolate_replacement,
2686                                  (gpointer)list,
2687                                  &tmp_error);
2688   if (tmp_error != NULL)
2689     g_propagate_error (error, tmp_error);
2690
2691   g_list_free_full (list, (GDestroyNotify) free_interpolation_data);
2692
2693   return result;
2694 }
2695
2696 static gboolean
2697 literal_replacement (const GMatchInfo *match_info,
2698                      GString          *result,
2699                      gpointer          data)
2700 {
2701   g_string_append (result, data);
2702   return FALSE;
2703 }
2704
2705 /**
2706  * g_regex_replace_literal:
2707  * @regex: a #GRegex structure
2708  * @string: (array length=string_len): the string to perform matches against
2709  * @string_len: the length of @string, or -1 if @string is nul-terminated
2710  * @start_position: starting index of the string to match
2711  * @replacement: text to replace each match with
2712  * @match_options: options for the match
2713  * @error: location to store the error occurring, or %NULL to ignore errors
2714  *
2715  * Replaces all occurrences of the pattern in @regex with the
2716  * replacement text. @replacement is replaced literally, to
2717  * include backreferences use g_regex_replace().
2718  *
2719  * Setting @start_position differs from just passing over a
2720  * shortened string and setting #G_REGEX_MATCH_NOTBOL in the
2721  * case of a pattern that begins with any kind of lookbehind
2722  * assertion, such as "\b".
2723  *
2724  * Returns: a newly allocated string containing the replacements
2725  *
2726  * Since: 2.14
2727  */
2728 gchar *
2729 g_regex_replace_literal (const GRegex      *regex,
2730                          const gchar       *string,
2731                          gssize             string_len,
2732                          gint               start_position,
2733                          const gchar       *replacement,
2734                          GRegexMatchFlags   match_options,
2735                          GError           **error)
2736 {
2737   g_return_val_if_fail (replacement != NULL, NULL);
2738   g_return_val_if_fail ((match_options & ~G_REGEX_MATCH_MASK) == 0, NULL);
2739
2740   return g_regex_replace_eval (regex,
2741                                string, string_len, start_position,
2742                                match_options,
2743                                literal_replacement,
2744                                (gpointer)replacement,
2745                                error);
2746 }
2747
2748 /**
2749  * g_regex_replace_eval:
2750  * @regex: a #GRegex structure from g_regex_new()
2751  * @string: (array length=string_len): string to perform matches against
2752  * @string_len: the length of @string, or -1 if @string is nul-terminated
2753  * @start_position: starting index of the string to match
2754  * @match_options: options for the match
2755  * @eval: a function to call for each match
2756  * @user_data: user data to pass to the function
2757  * @error: location to store the error occurring, or %NULL to ignore errors
2758  *
2759  * Replaces occurrences of the pattern in regex with the output of
2760  * @eval for that occurrence.
2761  *
2762  * Setting @start_position differs from just passing over a shortened
2763  * string and setting #G_REGEX_MATCH_NOTBOL in the case of a pattern
2764  * that begins with any kind of lookbehind assertion, such as "\b".
2765  *
2766  * The following example uses g_regex_replace_eval() to replace multiple
2767  * strings at once:
2768  * |[
2769  * static gboolean
2770  * eval_cb (const GMatchInfo *info,
2771  *          GString          *res,
2772  *          gpointer          data)
2773  * {
2774  *   gchar *match;
2775  *   gchar *r;
2776  *
2777  *    match = g_match_info_fetch (info, 0);
2778  *    r = g_hash_table_lookup ((GHashTable *)data, match);
2779  *    g_string_append (res, r);
2780  *    g_free (match);
2781  *
2782  *    return FALSE;
2783  * }
2784  *
2785  * /&ast; ... &ast;/
2786  *
2787  * GRegex *reg;
2788  * GHashTable *h;
2789  * gchar *res;
2790  *
2791  * h = g_hash_table_new (g_str_hash, g_str_equal);
2792  *
2793  * g_hash_table_insert (h, "1", "ONE");
2794  * g_hash_table_insert (h, "2", "TWO");
2795  * g_hash_table_insert (h, "3", "THREE");
2796  * g_hash_table_insert (h, "4", "FOUR");
2797  *
2798  * reg = g_regex_new ("1|2|3|4", 0, 0, NULL);
2799  * res = g_regex_replace_eval (reg, text, -1, 0, 0, eval_cb, h, NULL);
2800  * g_hash_table_destroy (h);
2801  *
2802  * /&ast; ... &ast;/
2803  * ]|
2804  *
2805  * Returns: a newly allocated string containing the replacements
2806  *
2807  * Since: 2.14
2808  */
2809 gchar *
2810 g_regex_replace_eval (const GRegex        *regex,
2811                       const gchar         *string,
2812                       gssize               string_len,
2813                       gint                 start_position,
2814                       GRegexMatchFlags     match_options,
2815                       GRegexEvalCallback   eval,
2816                       gpointer             user_data,
2817                       GError             **error)
2818 {
2819   GMatchInfo *match_info;
2820   GString *result;
2821   gint str_pos = 0;
2822   gboolean done = FALSE;
2823   GError *tmp_error = NULL;
2824
2825   g_return_val_if_fail (regex != NULL, NULL);
2826   g_return_val_if_fail (string != NULL, NULL);
2827   g_return_val_if_fail (start_position >= 0, NULL);
2828   g_return_val_if_fail (eval != NULL, NULL);
2829   g_return_val_if_fail ((match_options & ~G_REGEX_MATCH_MASK) == 0, NULL);
2830
2831   if (string_len < 0)
2832     string_len = strlen (string);
2833
2834   result = g_string_sized_new (string_len);
2835
2836   /* run down the string making matches. */
2837   g_regex_match_full (regex, string, string_len, start_position,
2838                       match_options, &match_info, &tmp_error);
2839   while (!done && g_match_info_matches (match_info))
2840     {
2841       g_string_append_len (result,
2842                            string + str_pos,
2843                            match_info->offsets[0] - str_pos);
2844       done = (*eval) (match_info, result, user_data);
2845       str_pos = match_info->offsets[1];
2846       g_match_info_next (match_info, &tmp_error);
2847     }
2848   g_match_info_free (match_info);
2849   if (tmp_error != NULL)
2850     {
2851       g_propagate_error (error, tmp_error);
2852       g_string_free (result, TRUE);
2853       return NULL;
2854     }
2855
2856   g_string_append_len (result, string + str_pos, string_len - str_pos);
2857   return g_string_free (result, FALSE);
2858 }
2859
2860 /**
2861  * g_regex_check_replacement:
2862  * @replacement: the replacement string
2863  * @has_references: (out) (allow-none): location to store information about
2864  *   references in @replacement or %NULL
2865  * @error: location to store error
2866  *
2867  * Checks whether @replacement is a valid replacement string
2868  * (see g_regex_replace()), i.e. that all escape sequences in
2869  * it are valid.
2870  *
2871  * If @has_references is not %NULL then @replacement is checked
2872  * for pattern references. For instance, replacement text 'foo\n'
2873  * does not contain references and may be evaluated without information
2874  * about actual match, but '\0\1' (whole match followed by first
2875  * subpattern) requires valid #GMatchInfo object.
2876  *
2877  * Returns: whether @replacement is a valid replacement string
2878  *
2879  * Since: 2.14
2880  */
2881 gboolean
2882 g_regex_check_replacement (const gchar  *replacement,
2883                            gboolean     *has_references,
2884                            GError      **error)
2885 {
2886   GList *list;
2887   GError *tmp = NULL;
2888
2889   list = split_replacement (replacement, &tmp);
2890
2891   if (tmp)
2892   {
2893     g_propagate_error (error, tmp);
2894     return FALSE;
2895   }
2896
2897   if (has_references)
2898     *has_references = interpolation_list_needs_match (list);
2899
2900   g_list_free_full (list, (GDestroyNotify) free_interpolation_data);
2901
2902   return TRUE;
2903 }
2904
2905 /**
2906  * g_regex_escape_nul:
2907  * @string: the string to escape
2908  * @length: the length of @string
2909  *
2910  * Escapes the nul characters in @string to "\x00".  It can be used
2911  * to compile a regex with embedded nul characters.
2912  *
2913  * For completeness, @length can be -1 for a nul-terminated string.
2914  * In this case the output string will be of course equal to @string.
2915  *
2916  * Returns: a newly-allocated escaped string
2917  *
2918  * Since: 2.30
2919  */
2920 gchar *
2921 g_regex_escape_nul (const gchar *string,
2922                     gint         length)
2923 {
2924   GString *escaped;
2925   const gchar *p, *piece_start, *end;
2926   gint backslashes;
2927
2928   g_return_val_if_fail (string != NULL, NULL);
2929
2930   if (length < 0)
2931     return g_strdup (string);
2932
2933   end = string + length;
2934   p = piece_start = string;
2935   escaped = g_string_sized_new (length + 1);
2936
2937   backslashes = 0;
2938   while (p < end)
2939     {
2940       switch (*p)
2941         {
2942         case '\0':
2943           if (p != piece_start)
2944             {
2945               /* copy the previous piece. */
2946               g_string_append_len (escaped, piece_start, p - piece_start);
2947             }
2948           if ((backslashes & 1) == 0)
2949             g_string_append_c (escaped, '\\');
2950           g_string_append_c (escaped, 'x');
2951           g_string_append_c (escaped, '0');
2952           g_string_append_c (escaped, '0');
2953           piece_start = ++p;
2954           backslashes = 0;
2955           break;
2956         case '\\':
2957           backslashes++;
2958           ++p;
2959           break;
2960         default:
2961           backslashes = 0;
2962           p = g_utf8_next_char (p);
2963           break;
2964         }
2965     }
2966
2967   if (piece_start < end)
2968     g_string_append_len (escaped, piece_start, end - piece_start);
2969
2970   return g_string_free (escaped, FALSE);
2971 }
2972
2973 /**
2974  * g_regex_escape_string:
2975  * @string: (array length=length): the string to escape
2976  * @length: the length of @string, or -1 if @string is nul-terminated
2977  *
2978  * Escapes the special characters used for regular expressions
2979  * in @string, for instance "a.b*c" becomes "a\.b\*c". This
2980  * function is useful to dynamically generate regular expressions.
2981  *
2982  * @string can contain nul characters that are replaced with "\0",
2983  * in this case remember to specify the correct length of @string
2984  * in @length.
2985  *
2986  * Returns: a newly-allocated escaped string
2987  *
2988  * Since: 2.14
2989  */
2990 gchar *
2991 g_regex_escape_string (const gchar *string,
2992                        gint         length)
2993 {
2994   GString *escaped;
2995   const char *p, *piece_start, *end;
2996
2997   g_return_val_if_fail (string != NULL, NULL);
2998
2999   if (length < 0)
3000     length = strlen (string);
3001
3002   end = string + length;
3003   p = piece_start = string;
3004   escaped = g_string_sized_new (length + 1);
3005
3006   while (p < end)
3007     {
3008       switch (*p)
3009         {
3010         case '\0':
3011         case '\\':
3012         case '|':
3013         case '(':
3014         case ')':
3015         case '[':
3016         case ']':
3017         case '{':
3018         case '}':
3019         case '^':
3020         case '$':
3021         case '*':
3022         case '+':
3023         case '?':
3024         case '.':
3025           if (p != piece_start)
3026             /* copy the previous piece. */
3027             g_string_append_len (escaped, piece_start, p - piece_start);
3028           g_string_append_c (escaped, '\\');
3029           if (*p == '\0')
3030             g_string_append_c (escaped, '0');
3031           else
3032             g_string_append_c (escaped, *p);
3033           piece_start = ++p;
3034           break;
3035         default:
3036           p = g_utf8_next_char (p);
3037           break;
3038         }
3039   }
3040
3041   if (piece_start < end)
3042     g_string_append_len (escaped, piece_start, end - piece_start);
3043
3044   return g_string_free (escaped, FALSE);
3045 }