Add API to get the compile and match flags from a GRegex
[platform/upstream/glib.git] / docs / reference / glib / tmpl / gregex.sgml
1 <!-- ##### SECTION Title ##### -->
2 Perl-compatible regular expressions
3
4 <!-- ##### SECTION Short_Description ##### -->
5 matches strings against regular expressions
6
7 <!-- ##### SECTION Long_Description ##### -->
8 <para>
9 The <function>g_regex_*()</function> functions implement regular
10 expression pattern matching using syntax and semantics similar to
11 Perl regular expression.
12 </para>
13 <para>
14 Some functions accept a <parameter>start_position</parameter> argument,
15 setting it differs from just passing over a shortened string and setting
16 #G_REGEX_MATCH_NOTBOL in the case of a pattern that begins with any kind
17 of lookbehind assertion.
18 For example, consider the pattern "\Biss\B" which finds occurrences of "iss"
19 in the middle of words. ("\B" matches only if the current position in the
20 subject is not a word boundary.) When applied to the string "Mississipi"
21 from the fourth byte, namely "issipi", it does not match, because "\B" is
22 always false at the start of the subject, which is deemed to be a word
23 boundary. However, if the entire string is passed , but with
24 <parameter>start_position</parameter> set to 4, it finds the second
25 occurrence of "iss" because it is able to look behind the starting point
26 to discover that it is preceded by a letter.
27 </para>
28 <para>
29 Note that, unless you set the #G_REGEX_RAW flag, all the strings passed
30 to these functions must be encoded in UTF-8. The lengths and the positions
31 inside the strings are in bytes and not in characters, so, for instance,
32 "\xc3\xa0" (i.e. "&agrave;") is two bytes long but it is treated as a single
33 character. If you set #G_REGEX_RAW the strings can be non-valid UTF-8
34 strings and a byte is treated as a character, so "\xc3\xa0" is two bytes
35 and two characters long.
36 </para>
37 <para>
38 When matching a pattern, "\n" matches only against a "\n" character in the
39 string, and "\r" matches only a "\r" character. To match any newline sequence
40 use "\R". This particular group matches either the two-character sequence
41 CR + LF ("\r\n"), or one of the single characters LF (linefeed, U+000A, "\n"), VT
42 (vertical tab, U+000B, "\v"), FF (formfeed, U+000C, "\f"), CR (carriage return,
43 U+000D, "\r"), NEL (next line, U+0085), LS (line separator, U+2028), or PS
44 (paragraph separator, U+2029).
45 </para>
46 <para>
47 The behaviour of the dot, circumflex, and dollar metacharacters are affected by
48 newline characters, the default is to recognize any newline character (the same
49 characters recognized by "\R"). This can be changed with #G_REGEX_NEWLINE_CR,
50 #G_REGEX_NEWLINE_LF and #G_REGEX_NEWLINE_CRLF compile options,
51 and with #G_REGEX_MATCH_NEWLINE_ANY, #G_REGEX_MATCH_NEWLINE_CR,
52 #G_REGEX_MATCH_NEWLINE_LF and #G_REGEX_MATCH_NEWLINE_CRLF match options.
53 These settings are also relevant when compiling a pattern if
54 #G_REGEX_EXTENDED is set, and an unescaped "#" outside a character class is
55 encountered. This indicates a comment that lasts until after the next
56 newline.
57 </para>
58 <para>
59 Creating and manipulating the same #GRegex structure from different
60 threads is not a problem as #GRegex does not modify its internal
61 state between creation and destruction, on the other hand #GMatchInfo is
62 not threadsafe.
63 </para>
64 <para>
65 The regular expressions low level functionalities are obtained through
66 the excellent <ulink url="http://www.pcre.org/">PCRE</ulink> library
67 written by Philip Hazel.
68 </para>
69
70 <!-- ##### SECTION See_Also ##### -->
71 <para>
72
73 </para>
74
75 <!-- ##### SECTION Stability_Level ##### -->
76
77
78 <!-- ##### SECTION Image ##### -->
79
80
81 <!-- ##### ENUM GRegexError ##### -->
82 <para>
83 Error codes returned by regular expressions functions.
84 </para>
85
86 @G_REGEX_ERROR_COMPILE: Compilation of the regular expression failed.
87 @G_REGEX_ERROR_OPTIMIZE: Optimization of the regular expression failed.
88 @G_REGEX_ERROR_REPLACE: Replacement failed due to an ill-formed replacement string.
89 @G_REGEX_ERROR_MATCH: The match process failed.
90 @G_REGEX_ERROR_INTERNAL: Internal error of the regular expression engine. Since 2.16
91 @G_REGEX_ERROR_STRAY_BACKSLASH: "\\" at end of pattern. Since 2.16
92 @G_REGEX_ERROR_MISSING_CONTROL_CHAR: "\\c" at end of pattern. Since 2.16
93 @G_REGEX_ERROR_UNRECOGNIZED_ESCAPE: Unrecognized character follows "\\". Since 2.16
94 @G_REGEX_ERROR_QUANTIFIERS_OUT_OF_ORDER: Numbers out of order in "{}" quantifier. Since 2.16
95 @G_REGEX_ERROR_QUANTIFIER_TOO_BIG: Number too big in "{}" quantifier. Since 2.16
96 @G_REGEX_ERROR_UNTERMINATED_CHARACTER_CLASS: Missing terminating "]" for character class. Since 2.16
97 @G_REGEX_ERROR_INVALID_ESCAPE_IN_CHARACTER_CLASS: Invalid escape sequence in character class. Since 2.16
98 @G_REGEX_ERROR_RANGE_OUT_OF_ORDER: Range out of order in character class. Since 2.16
99 @G_REGEX_ERROR_NOTHING_TO_REPEAT: Nothing to repeat. Since 2.16
100 @G_REGEX_ERROR_UNRECOGNIZED_CHARACTER: Unrecognized character after "(?", "(?&lt;" or "(?P". Since 2.16
101 @G_REGEX_ERROR_POSIX_NAMED_CLASS_OUTSIDE_CLASS: POSIX named classes are supported only within a class. Since 2.16
102 @G_REGEX_ERROR_UNMATCHED_PARENTHESIS: Missing terminating ")" or ")" without opening "(". Since 2.16
103 @G_REGEX_ERROR_INEXISTENT_SUBPATTERN_REFERENCE: Reference to non-existent subpattern. Since 2.16
104 @G_REGEX_ERROR_UNTERMINATED_COMMENT: Missing terminating ")" after comment. Since 2.16
105 @G_REGEX_ERROR_EXPRESSION_TOO_LARGE: Regular expression too large. Since 2.16
106 @G_REGEX_ERROR_MEMORY_ERROR: Failed to get memory. Since 2.16
107 @G_REGEX_ERROR_VARIABLE_LENGTH_LOOKBEHIND: Lookbehind assertion is not fixed length. Since 2.16
108 @G_REGEX_ERROR_MALFORMED_CONDITION: Malformed number or name after "(?(". Since 2.16
109 @G_REGEX_ERROR_TOO_MANY_CONDITIONAL_BRANCHES: Conditional group contains more than two branches. Since 2.16
110 @G_REGEX_ERROR_ASSERTION_EXPECTED: Assertion expected after "(?(". Since 2.16
111 @G_REGEX_ERROR_UNKNOWN_POSIX_CLASS_NAME: Unknown POSIX class name. Since 2.16
112 @G_REGEX_ERROR_POSIX_COLLATING_ELEMENTS_NOT_SUPPORTED: POSIX collating elements are not supported. Since 2.16
113 @G_REGEX_ERROR_HEX_CODE_TOO_LARGE: Character value in "\\x{...}" sequence is too large. Since 2.16
114 @G_REGEX_ERROR_INVALID_CONDITION: Invalid condition "(?(0)". Since 2.16
115 @G_REGEX_ERROR_SINGLE_BYTE_MATCH_IN_LOOKBEHIND: \\C not allowed in lookbehind assertion. Since 2.16
116 @G_REGEX_ERROR_INFINITE_LOOP: Recursive call could loop indefinitely. Since 2.16
117 @G_REGEX_ERROR_MISSING_SUBPATTERN_NAME_TERMINATOR: Missing terminator in subpattern name. Since 2.16
118 @G_REGEX_ERROR_DUPLICATE_SUBPATTERN_NAME: Two named subpatterns have the same name. Since 2.16
119 @G_REGEX_ERROR_MALFORMED_PROPERTY: Malformed "\\P" or "\\p" sequence. Since 2.16
120 @G_REGEX_ERROR_UNKNOWN_PROPERTY: Unknown property name after "\\P" or "\\p". Since 2.16
121 @G_REGEX_ERROR_SUBPATTERN_NAME_TOO_LONG: Subpattern name is too long (maximum 32 characters). Since 2.16
122 @G_REGEX_ERROR_TOO_MANY_SUBPATTERNS: Too many named subpatterns (maximum 10,000). Since 2.16
123 @G_REGEX_ERROR_INVALID_OCTAL_VALUE: Octal value is greater than "\\377". Since 2.16
124 @G_REGEX_ERROR_TOO_MANY_BRANCHES_IN_DEFINE: "DEFINE" group contains more than one branch. Since 2.16
125 @G_REGEX_ERROR_DEFINE_REPETION: Repeating a "DEFINE" group is not allowed. Since 2.16
126 @G_REGEX_ERROR_INCONSISTENT_NEWLINE_OPTIONS: Inconsistent newline options. Since 2.16
127 @G_REGEX_ERROR_MISSING_BACK_REFERENCE: "\\g" is not followed by a braced name or an
128 optionally braced non-zero number. Since 2.16
129 @Since: 2.14
130
131 <!-- ##### MACRO G_REGEX_ERROR ##### -->
132 <para>
133 Error domain for regular expressions. Errors in this domain will be from the #GRegexError enumeration. See #GError for information on error domains.
134 </para>
135
136 @Since: 2.14
137
138
139 <!-- ##### ENUM GRegexCompileFlags ##### -->
140 <para>
141 Flags specifying compile-time options.
142 </para>
143
144 @G_REGEX_CASELESS: Letters in the pattern match both upper and lower case
145 letters. This option can be changed within a pattern by a "(?i)" option
146 setting.
147 @G_REGEX_MULTILINE: By default, GRegex treats the strings as consisting
148 of a single line of characters (even if it actually contains newlines).
149 The "start of line" metacharacter ("^") matches only at the start of the
150 string, while the "end of line" metacharacter ("$") matches only at the
151 end of the string, or before a terminating newline (unless
152 #G_REGEX_DOLLAR_ENDONLY is set). When #G_REGEX_MULTILINE is set,
153 the "start of line" and "end of line" constructs match immediately following
154 or immediately before any newline in the string, respectively, as well
155 as at the very start and end. This can be changed within a pattern by a
156 "(?m)" option setting.
157 @G_REGEX_DOTALL: A dot metacharater (".") in the pattern matches all
158 characters, including newlines. Without it, newlines are excluded. This
159 option can be changed within a pattern by a ("?s") option setting.
160 @G_REGEX_EXTENDED: Whitespace data characters in the pattern are
161 totally ignored except when escaped or inside a character class.
162 Whitespace does not include the VT character (code 11). In addition,
163 characters between an unescaped "#" outside a character class and
164 the next newline character, inclusive, are also ignored. This can be
165 changed within a pattern by a "(?x)" option setting.
166 @G_REGEX_ANCHORED: The pattern is forced to be "anchored", that is,
167 it is constrained to match only at the first matching point in the string
168 that is being searched. This effect can also be achieved by appropriate
169 constructs in the pattern itself such as the "^" metacharater.
170 @G_REGEX_DOLLAR_ENDONLY: A dollar metacharacter ("$") in the pattern
171 matches only at the end of the string. Without this option, a dollar also
172 matches immediately before the final character if it is a newline (but
173 not before any other newlines). This option is ignored if
174 #G_REGEX_MULTILINE is set.
175 @G_REGEX_UNGREEDY: Inverts the "greediness" of the
176 quantifiers so that they are not greedy by default, but become greedy
177 if followed by "?". It can also be set by a "(?U)" option setting within
178 the pattern.
179 @G_REGEX_RAW: Usually strings must be valid UTF-8 strings, using this
180 flag they are considered as a raw sequence of bytes.
181 @G_REGEX_NO_AUTO_CAPTURE: Disables the use of numbered capturing
182 parentheses in the pattern. Any opening parenthesis that is not followed
183 by "?" behaves as if it were followed by "?:" but named parentheses can
184 still be used for capturing (and they acquire numbers in the usual way).
185 @G_REGEX_OPTIMIZE: Optimize the regular expression. If the pattern will
186 be used many times, then it may be worth the effort to optimize it to
187 improve the speed of matches.
188 @G_REGEX_DUPNAMES: Names used to identify capturing subpatterns need not
189 be unique. This can be helpful for certain types of pattern when it is known
190 that only one instance of the named subpattern can ever be matched.
191 @G_REGEX_NEWLINE_CR: Usually any newline character is recognized, if this
192 option is set, the only recognized newline character is '\r'.
193 @G_REGEX_NEWLINE_LF: Usually any newline character is recognized, if this
194 option is set, the only recognized newline character is '\n'.
195 @G_REGEX_NEWLINE_CRLF: Usually any newline character is recognized, if this
196 option is set, the only recognized newline character sequence is '\r\n'.
197 @Since: 2.14
198
199 <!-- ##### ENUM GRegexMatchFlags ##### -->
200 <para>
201 Flags specifying match-time options.
202 </para>
203
204 @G_REGEX_MATCH_ANCHORED: The pattern is forced to be "anchored", that is,
205 it is constrained to match only at the first matching point in the string
206 that is being searched. This effect can also be achieved by appropriate
207 constructs in the pattern itself such as the "^" metacharater.
208 @G_REGEX_MATCH_NOTBOL: Specifies that first character of the string is
209 not the beginning of a line, so the circumflex metacharacter should not
210 match before it. Setting this without G_REGEX_MULTILINE (at compile time)
211 causes circumflex never to match. This option affects only the behaviour of
212 the circumflex metacharacter, it does not affect "\A".
213 @G_REGEX_MATCH_NOTEOL: Specifies that the end of the subject string is
214 not the end of a line, so the dollar metacharacter should not match it nor
215 (except in multiline mode) a newline immediately before it. Setting this
216 without G_REGEX_MULTILINE (at compile time) causes dollar never to match.
217 This option affects only the behaviour of the dollar metacharacter, it does
218 not affect "\Z" or "\z".
219 @G_REGEX_MATCH_NOTEMPTY: An empty string is not considered to be a valid
220 match if this option is set. If there are alternatives in the pattern, they
221 are tried. If all the alternatives match the empty string, the entire match
222 fails. For example, if the pattern "a?b?" is applied to a string not beginning
223 with "a" or "b", it matches the empty string at the start of the string.
224 With this flag set, this match is not valid, so GRegex searches further
225 into the string for occurrences of "a" or "b".
226 @G_REGEX_MATCH_PARTIAL: Turns on the partial matching feature, for more
227 documentation on partial matching see g_match_info_is_partial_match().
228 @G_REGEX_MATCH_NEWLINE_CR: Overrides the newline definition set when creating
229 a new #GRegex, setting the '\r' character as line terminator.
230 @G_REGEX_MATCH_NEWLINE_LF: Overrides the newline definition set when creating
231 a new #GRegex, setting the '\n' character as line terminator.
232 @G_REGEX_MATCH_NEWLINE_CRLF: Overrides the newline definition set when creating
233 a new #GRegex, setting the '\r\n' characters as line terminator.
234 @G_REGEX_MATCH_NEWLINE_ANY: Overrides the newline definition set when creating
235 a new #GRegex, any newline character or character sequence is recognized.
236 @Since: 2.14
237
238 <!-- ##### STRUCT GRegex ##### -->
239 <para>
240 A GRegex is the "compiled" form of a regular expression pattern. This
241 structure is opaque and its fields cannot be accessed directly.
242 </para>
243
244 @Since: 2.14
245
246 <!-- ##### USER_FUNCTION GRegexEvalCallback ##### -->
247 <para>
248 Specifies the type of the function passed to g_regex_replace_eval().
249 It is called for each occurance of the pattern in the string passed
250 to g_regex_replace_eval(), and it should append the replacement to
251 @result.
252 </para>
253
254 @match_info: the #GMatchInfo generated by the match. 
255 Use g_match_info_get_regex() and g_match_info_get_string() if you 
256 need the #GRegex or the matched string.
257 @result: a #GString containing the new string
258 @user_data: user data passed to g_regex_replace_eval()
259 @Returns: %FALSE to continue the replacement process, %TRUE to stop it
260 @Since: 2.14
261
262
263 <!-- ##### FUNCTION g_regex_new ##### -->
264 <para>
265
266 </para>
267
268 @pattern: 
269 @compile_options: 
270 @match_options: 
271 @error: 
272 @Returns: 
273
274
275 <!-- ##### FUNCTION g_regex_ref ##### -->
276 <para>
277
278 </para>
279
280 @regex: 
281 @Returns: 
282
283
284 <!-- ##### FUNCTION g_regex_unref ##### -->
285 <para>
286
287 </para>
288
289 @regex: 
290
291
292 <!-- ##### FUNCTION g_regex_get_pattern ##### -->
293 <para>
294
295 </para>
296
297 @regex: 
298 @Returns: 
299
300
301 <!-- ##### FUNCTION g_regex_get_max_backref ##### -->
302 <para>
303
304 </para>
305
306 @regex: 
307 @Returns: 
308
309
310 <!-- ##### FUNCTION g_regex_get_capture_count ##### -->
311 <para>
312
313 </para>
314
315 @regex: 
316 @Returns: 
317
318
319 <!-- ##### FUNCTION g_regex_get_string_number ##### -->
320 <para>
321
322 </para>
323
324 @regex: 
325 @name: 
326 @Returns: 
327
328
329 <!-- ##### FUNCTION g_regex_get_compile_flags ##### -->
330 <para>
331
332 </para>
333
334 @regex: 
335 @Returns: 
336
337
338 <!-- ##### FUNCTION g_regex_get_match_flags ##### -->
339 <para>
340
341 </para>
342
343 @regex: 
344 @Returns: 
345
346
347 <!-- ##### FUNCTION g_regex_escape_string ##### -->
348 <para>
349
350 </para>
351
352 @string: 
353 @length: 
354 @Returns: 
355
356
357 <!-- ##### FUNCTION g_regex_match_simple ##### -->
358 <para>
359
360 </para>
361
362 @pattern: 
363 @string: 
364 @compile_options: 
365 @match_options: 
366 @Returns: 
367
368
369 <!-- ##### FUNCTION g_regex_match ##### -->
370 <para>
371
372 </para>
373
374 @regex: 
375 @string: 
376 @match_options: 
377 @match_info: 
378 @Returns: 
379
380
381 <!-- ##### FUNCTION g_regex_match_full ##### -->
382 <para>
383
384 </para>
385
386 @regex: 
387 @string: 
388 @string_len: 
389 @start_position: 
390 @match_options: 
391 @match_info: 
392 @error: 
393 @Returns: 
394
395
396 <!-- ##### FUNCTION g_regex_match_all ##### -->
397 <para>
398
399 </para>
400
401 @regex: 
402 @string: 
403 @match_options: 
404 @match_info: 
405 @Returns: 
406
407
408 <!-- ##### FUNCTION g_regex_match_all_full ##### -->
409 <para>
410
411 </para>
412
413 @regex: 
414 @string: 
415 @string_len: 
416 @start_position: 
417 @match_options: 
418 @match_info: 
419 @error: 
420 @Returns: 
421
422
423 <!-- ##### FUNCTION g_regex_split_simple ##### -->
424 <para>
425
426 </para>
427
428 @pattern: 
429 @string: 
430 @compile_options: 
431 @match_options: 
432 @Returns: 
433
434
435 <!-- ##### FUNCTION g_regex_split ##### -->
436 <para>
437
438 </para>
439
440 @regex: 
441 @string: 
442 @match_options: 
443 @Returns: 
444
445
446 <!-- ##### FUNCTION g_regex_split_full ##### -->
447 <para>
448
449 </para>
450
451 @regex: 
452 @string: 
453 @string_len: 
454 @start_position: 
455 @match_options: 
456 @max_tokens: 
457 @error: 
458 @Returns: 
459
460
461 <!-- ##### FUNCTION g_regex_replace ##### -->
462 <para>
463
464 </para>
465
466 @regex: 
467 @string: 
468 @string_len: 
469 @start_position: 
470 @replacement: 
471 @match_options: 
472 @error: 
473 @Returns: 
474
475
476 <!-- ##### FUNCTION g_regex_replace_literal ##### -->
477 <para>
478
479 </para>
480
481 @regex: 
482 @string: 
483 @string_len: 
484 @start_position: 
485 @replacement: 
486 @match_options: 
487 @error: 
488 @Returns: 
489
490
491 <!-- ##### FUNCTION g_regex_replace_eval ##### -->
492 <para>
493
494 </para>
495
496 @regex: 
497 @string: 
498 @string_len: 
499 @start_position: 
500 @match_options: 
501 @eval: 
502 @user_data: 
503 @error: 
504 @Returns: 
505
506
507 <!-- ##### FUNCTION g_regex_check_replacement ##### -->
508 <para>
509
510 </para>
511
512 @replacement: 
513 @has_references: 
514 @error: 
515 @Returns: 
516
517
518 <!-- ##### STRUCT GMatchInfo ##### -->
519 <para>
520 #GMatchInfo is used to retrieve information about the regular expression match
521 which created it.
522 This structure is opaque and its fields cannot be accessed directly.
523 </para>
524
525 @Since: 2.14
526
527 <!-- ##### FUNCTION g_match_info_get_regex ##### -->
528 <para>
529
530 </para>
531
532 @match_info: 
533 @Returns: 
534
535
536 <!-- ##### FUNCTION g_match_info_get_string ##### -->
537 <para>
538
539 </para>
540
541 @match_info: 
542 @Returns: 
543
544
545 <!-- ##### FUNCTION g_match_info_free ##### -->
546 <para>
547
548 </para>
549
550 @match_info: 
551
552
553 <!-- ##### FUNCTION g_match_info_matches ##### -->
554 <para>
555
556 </para>
557
558 @match_info: 
559 @Returns: 
560
561
562 <!-- ##### FUNCTION g_match_info_next ##### -->
563 <para>
564
565 </para>
566
567 @match_info: 
568 @error: 
569 @Returns: 
570
571
572 <!-- ##### FUNCTION g_match_info_get_match_count ##### -->
573 <para>
574
575 </para>
576
577 @match_info: 
578 @Returns: 
579
580
581 <!-- ##### FUNCTION g_match_info_is_partial_match ##### -->
582 <para>
583
584 </para>
585
586 @match_info: 
587 @Returns: 
588
589
590 <!-- ##### FUNCTION g_match_info_expand_references ##### -->
591 <para>
592
593 </para>
594
595 @match_info: 
596 @string_to_expand: 
597 @error: 
598 @Returns: 
599
600
601 <!-- ##### FUNCTION g_match_info_fetch ##### -->
602 <para>
603
604 </para>
605
606 @match_info: 
607 @match_num: 
608 @Returns: 
609
610
611 <!-- ##### FUNCTION g_match_info_fetch_pos ##### -->
612 <para>
613
614 </para>
615
616 @match_info: 
617 @match_num: 
618 @start_pos: 
619 @end_pos: 
620 @Returns: 
621
622
623 <!-- ##### FUNCTION g_match_info_fetch_named ##### -->
624 <para>
625
626 </para>
627
628 @match_info: 
629 @name: 
630 @Returns: 
631
632
633 <!-- ##### FUNCTION g_match_info_fetch_named_pos ##### -->
634 <para>
635
636 </para>
637
638 @match_info: 
639 @name: 
640 @start_pos: 
641 @end_pos: 
642 @Returns: 
643
644
645 <!-- ##### FUNCTION g_match_info_fetch_all ##### -->
646 <para>
647
648 </para>
649
650 @match_info: 
651 @Returns: 
652
653