[kdbus] Add initial support for receiving messages
[platform/upstream/glib.git] / glib / gpattern.c
index d930cea..aa04502 100644 (file)
  * Lesser General Public License for more details.
  *
  * You should have received a copy of the GNU Lesser General Public
- * License along with this library; if not, write to the
- * Free Software Foundation, Inc., 59 Temple Place - Suite 330,
- * Boston, MA 02111-1307, USA.
+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
  */
+
+#include "config.h"
+
+#include <string.h>
+
 #include "gpattern.h"
 
 #include "gmacros.h"
 #include "gmem.h"
 #include "gunicode.h"
 #include "gutils.h" 
-#include <string.h>
+
+/**
+ * SECTION:patterns
+ * @title: Glob-style pattern matching
+ * @short_description: matches strings against patterns containing '*'
+ *                     (wildcard) and '?' (joker)
+ *
+ * The g_pattern_match* functions match a string
+ * against a pattern containing '*' and '?' wildcards with similar
+ * semantics as the standard glob() function: '*' matches an arbitrary,
+ * possibly empty, string, '?' matches an arbitrary character.
+ *
+ * Note that in contrast to glob(), the '/' character can be matched by
+ * the wildcards, there are no '[...]' character ranges and '*' and '?'
+ * can not be escaped to include them literally in a pattern.
+ *
+ * When multiple strings must be matched against the same pattern, it
+ * is better to compile the pattern to a #GPatternSpec using
+ * g_pattern_spec_new() and use g_pattern_match_string() instead of
+ * g_pattern_match_simple(). This avoids the overhead of repeated
+ * pattern compilation.
+ **/
+
+/**
+ * GPatternSpec:
+ *
+ * A GPatternSpec struct is the 'compiled' form of a pattern. This
+ * structure is opaque and its fields cannot be accessed directly.
+ */
 
 /* keep enum and structure of gpattern.c and patterntest.c in sync */
 typedef enum
@@ -41,53 +72,19 @@ struct _GPatternSpec
   GMatchType match_type;
   guint      pattern_length;
   guint      min_length;
+  guint      max_length;
   gchar     *pattern;
 };
 
 
 /* --- functions --- */
-/**
- * g_utf8_reverse:
- * @string: a UTF-8 string.
- *
- * Reverses a UTF-8 string. The @string must be valid UTF-8 encoded text. 
- * (Use g_utf8_validate() on all text before trying to use UTF-8 
- * utility functions with it.)
- *
- * Note that unlike g_strreverse(), this function returns
- * newly-allocated memory, which should be freed with g_free() when
- * no longer needed. 
- *
- * Returns: a newly-allocated string which is the reverse of @string.
- */
-static gchar *
-g_utf8_reverse (guint len, const gchar *string)
-{
-  gchar *result;
-  const gchar *p;
-  gchar *m, *r, skip;
-
-  result = g_new (gchar, len + 1);
-  r = result + len;
-  p = string;
-  while (*p) 
-    {
-      skip = g_utf8_skip[*(guchar*)p];
-      r -= skip;
-      for (m = r; skip; skip--)
-        *m++ = *p++;
-    }
-  result[len] = 0;
-
-  return result;
-}
-
 static inline gboolean
 g_pattern_ph_match (const gchar *match_pattern,
-                   const gchar *match_string)
+                   const gchar *match_string,
+                   gboolean    *wildcard_reached_p)
 {
-  register const gchar *pattern, *string;
-  register gchar ch;
+  const gchar *pattern, *string;
+  gchar ch;
 
   pattern = match_pattern;
   string = match_string;
@@ -105,6 +102,7 @@ g_pattern_ph_match (const gchar *match_pattern,
          break;
 
        case '*':
+         *wildcard_reached_p = TRUE;
          do
            {
              ch = *pattern;
@@ -121,6 +119,7 @@ g_pattern_ph_match (const gchar *match_pattern,
            return TRUE;
          do
            {
+              gboolean next_wildcard_reached = FALSE;
              while (ch != *string)
                {
                  if (!*string)
@@ -128,8 +127,16 @@ g_pattern_ph_match (const gchar *match_pattern,
                  string = g_utf8_next_char (string);
                }
              string++;
-             if (g_pattern_ph_match (pattern, string))
+             if (g_pattern_ph_match (pattern, string, &next_wildcard_reached))
                return TRUE;
+              if (next_wildcard_reached)
+                /* the forthcoming pattern substring up to the next wildcard has
+                 * been matched, but a mismatch occoured for the rest of the
+                 * pattern, following the next wildcard.
+                 * there's no need to advance the current match position any
+                 * further if the rest pattern will not match.
+                 */
+               return FALSE;
            }
          while (*string);
          break;
@@ -149,6 +156,34 @@ g_pattern_ph_match (const gchar *match_pattern,
   return *string == 0;
 }
 
+/**
+ * g_pattern_match:
+ * @pspec: a #GPatternSpec
+ * @string_length: the length of @string (in bytes, i.e. strlen(),
+ *     not g_utf8_strlen())
+ * @string: the UTF-8 encoded string to match
+ * @string_reversed: (allow-none): the reverse of @string or %NULL
+ *
+ * Matches a string against a compiled pattern. Passing the correct
+ * length of the string given is mandatory. The reversed string can be
+ * omitted by passing %NULL, this is more efficient if the reversed
+ * version of the string to be matched is not at hand, as
+ * g_pattern_match() will only construct it if the compiled pattern
+ * requires reverse matches.
+ *
+ * Note that, if the user code will (possibly) match a string against a
+ * multitude of patterns containing wildcards, chances are high that
+ * some patterns will require a reversed string. In this case, it's
+ * more efficient to provide the reversed string to avoid multiple
+ * constructions thereof in the various calls to g_pattern_match().
+ *
+ * Note also that the reverse of a UTF-8 encoded string can in general
+ * not be obtained by g_strreverse(). This works only if the string
+ * does not contain any multibyte characters. GLib offers the
+ * g_utf8_strreverse() function to reverse UTF-8 encoded strings.
+ *
+ * Returns: %TRUE if @string matches @pspec
+ **/
 gboolean
 g_pattern_match (GPatternSpec *pspec,
                 guint         string_length,
@@ -158,22 +193,24 @@ g_pattern_match (GPatternSpec *pspec,
   g_return_val_if_fail (pspec != NULL, FALSE);
   g_return_val_if_fail (string != NULL, FALSE);
 
-  if (pspec->min_length > string_length)
+  if (string_length < pspec->min_length ||
+      string_length > pspec->max_length)
     return FALSE;
 
   switch (pspec->match_type)
     {
+      gboolean dummy;
     case G_MATCH_ALL:
-      return g_pattern_ph_match (pspec->pattern, string);
+      return g_pattern_ph_match (pspec->pattern, string, &dummy);
     case G_MATCH_ALL_TAIL:
       if (string_reversed)
-       return g_pattern_ph_match (pspec->pattern, string_reversed);
+       return g_pattern_ph_match (pspec->pattern, string_reversed, &dummy);
       else
        {
           gboolean result;
           gchar *tmp;
-         tmp = g_utf8_reverse (string_length, string);
-         result = g_pattern_ph_match (pspec->pattern, tmp);
+         tmp = g_utf8_strreverse (string, string_length);
+         result = g_pattern_ph_match (pspec->pattern, tmp, &dummy);
          g_free (tmp);
          return result;
        }
@@ -191,15 +228,23 @@ g_pattern_match (GPatternSpec *pspec,
        return TRUE;
     case G_MATCH_EXACT:
       if (pspec->pattern_length != string_length)
-       return FALSE;
+        return FALSE;
       else
-       return strcmp (pspec->pattern, string) == 0;
+        return strcmp (pspec->pattern, string) == 0;
     default:
       g_return_val_if_fail (pspec->match_type < G_MATCH_LAST, FALSE);
       return FALSE;
     }
 }
 
+/**
+ * g_pattern_spec_new:
+ * @pattern: a zero-terminated UTF-8 encoded string
+ *
+ * Compiles a pattern to a #GPatternSpec.
+ *
+ * Returns: a newly-allocated #GPatternSpec
+ **/
 GPatternSpec*
 g_pattern_spec_new (const gchar *pattern)
 {
@@ -218,6 +263,7 @@ g_pattern_spec_new (const gchar *pattern)
   pspec = g_new (GPatternSpec, 1);
   pspec->pattern_length = strlen (pattern);
   pspec->min_length = 0;
+  pspec->max_length = 0;
   pspec->pattern = g_new (gchar, pspec->pattern_length + 1);
   d = pspec->pattern;
   for (i = 0, s = pattern; *s != 0; s++)
@@ -238,6 +284,7 @@ g_pattern_spec_new (const gchar *pattern)
        case '?':
          pending_jokers++;
          pspec->min_length++;
+         pspec->max_length += 4; /* maximum UTF-8 character length */
          continue;
        default:
          for (; pending_jokers; pending_jokers--, i++) {
@@ -248,6 +295,7 @@ g_pattern_spec_new (const gchar *pattern)
          }
          follows_wildcard = FALSE;
          pspec->min_length++;
+         pspec->max_length++;
          break;
        }
       *d++ = *s;
@@ -263,6 +311,8 @@ g_pattern_spec_new (const gchar *pattern)
   seen_joker = hj_pos >= 0;
   seen_wildcard = hw_pos >= 0;
   more_wildcards = seen_wildcard && hw_pos != tw_pos;
+  if (seen_wildcard)
+    pspec->max_length = G_MAXUINT;
 
   /* special case sole head/tail wildcard or exact matches */
   if (!seen_joker && !more_wildcards)
@@ -274,7 +324,8 @@ g_pattern_spec_new (const gchar *pattern)
          pspec->pattern[pspec->pattern_length] = 0;
          return pspec;
        }
-      if (pspec->pattern[pspec->pattern_length - 1] == '*')
+      if (pspec->pattern_length > 0 &&
+         pspec->pattern[pspec->pattern_length - 1] == '*')
        {
          pspec->match_type = G_MATCH_HEAD;
          pspec->pattern[--pspec->pattern_length] = 0;
@@ -296,12 +347,18 @@ g_pattern_spec_new (const gchar *pattern)
     pspec->match_type = tj_pos > hj_pos ? G_MATCH_ALL_TAIL : G_MATCH_ALL;
   if (pspec->match_type == G_MATCH_ALL_TAIL) {
     gchar *tmp = pspec->pattern;
-    pspec->pattern = g_utf8_reverse (pspec->pattern_length, pspec->pattern);
+    pspec->pattern = g_utf8_strreverse (pspec->pattern, pspec->pattern_length);
     g_free (tmp);
   }
   return pspec;
 }
 
+/**
+ * g_pattern_spec_free:
+ * @pspec: a #GPatternSpec
+ *
+ * Frees the memory allocated for the #GPatternSpec.
+ **/
 void
 g_pattern_spec_free (GPatternSpec *pspec)
 {
@@ -311,6 +368,16 @@ g_pattern_spec_free (GPatternSpec *pspec)
   g_free (pspec);
 }
 
+/**
+ * g_pattern_spec_equal:
+ * @pspec1: a #GPatternSpec
+ * @pspec2: another #GPatternSpec
+ *
+ * Compares two compiled pattern specs and returns whether they will
+ * match the same set of strings.
+ *
+ * Returns: Whether the compiled patterns are equal
+ **/
 gboolean
 g_pattern_spec_equal (GPatternSpec *pspec1,
                      GPatternSpec *pspec2)
@@ -323,6 +390,17 @@ g_pattern_spec_equal (GPatternSpec *pspec1,
          strcmp (pspec1->pattern, pspec2->pattern) == 0);
 }
 
+/**
+ * g_pattern_match_string:
+ * @pspec: a #GPatternSpec
+ * @string: the UTF-8 encoded string to match
+ *
+ * Matches a string against a compiled pattern. If the string is to be
+ * matched against more than one pattern, consider using
+ * g_pattern_match() instead while supplying the reversed string.
+ *
+ * Returns: %TRUE if @string matches @pspec
+ **/
 gboolean
 g_pattern_match_string (GPatternSpec *pspec,
                        const gchar  *string)
@@ -333,6 +411,18 @@ g_pattern_match_string (GPatternSpec *pspec,
   return g_pattern_match (pspec, strlen (string), string, NULL);
 }
 
+/**
+ * g_pattern_match_simple:
+ * @pattern: the UTF-8 encoded pattern
+ * @string: the UTF-8 encoded string to match
+ *
+ * Matches a string against a pattern given as a string. If this
+ * function is to be called in a loop, it's more efficient to compile
+ * the pattern once with g_pattern_spec_new() and call
+ * g_pattern_match_string() repeatedly.
+ *
+ * Returns: %TRUE if @string matches @pspec
+ **/
 gboolean
 g_pattern_match_simple (const gchar *pattern,
                        const gchar *string)