fix size of returned array in str_split, doc clarification incoming
[framework/uifw/eina.git] / src / lib / eina_str.c
index 332721a..2a54c00 100644 (file)
@@ -1,6 +1,3 @@
-/*
- * vim:ts=8:sw=3:sts=8:noexpandtab:cino=>5n-3f0^-2{2
- */
 /* Leave the OpenBSD version below so we can track upstream fixes */
 /*      $OpenBSD: strlcpy.c,v 1.11 2006/05/05 15:27:38 millert Exp $        */
 
  * OR IN CONNECTION WITH THE USE OR PERFORMANCE OF THIS SOFTWARE.
  */
 
-/*
- * vim:ts=8:sw=3:sts=8:noexpandtab:cino=>5n-3f0^-2{2
- */
 
 #ifdef HAVE_CONFIG_H
 # include "config.h"
 #endif
 
+#include <stdio.h>
 #include <stdlib.h>
 #include <string.h>
 #include <limits.h>
+#include <ctype.h>
+
+#ifdef HAVE_ICONV
+# include <errno.h>
+# include <iconv.h>
+#endif
+
+#include "eina_private.h"
+#include "eina_str.h"
+
+/*============================================================================*
+*                                  Local                                     *
+*============================================================================*/
 
-static int eina_str_has_suffix_helper(const char *str, const char *suffix,
-               int (*cmp)(const char *, const char *));
 /**
- * @param dst the destination
- * @param src the source
- * @param siz the size of the destination
- * @return the length of the source string
- * @brief copy a c-string
- *
- * Copy src to string dst of size siz.  At most siz-1 characters
- * will be copied.  Always NUL terminates (unless siz == 0).
- * Returns strlen(src); if retval >= siz, truncation occurred.
+ * @cond LOCAL
  */
-size_t
+
+/*
+ * Internal helper function used by eina_str_has_suffix() and
+ * eina_str_has_extension()
+ */
+static inline Eina_Bool
+eina_str_has_suffix_helper(const char *str,
+                           const char *suffix,
+                           int (*cmp)(const char *, const char *))
+{
+   size_t str_len;
+   size_t suffix_len;
+
+   if ((!str) || (!suffix)) return EINA_FALSE;
+   str_len = strlen(str);
+   suffix_len = eina_strlen_bounded(suffix, str_len);
+   if (suffix_len == (size_t)-1)
+      return EINA_FALSE;
+
+   return cmp(str + str_len - suffix_len, suffix) == 0;
+}
+
+static inline char **
+eina_str_split_full_helper(const char *str,
+                           const char *delim,
+                           int max_tokens,
+                           unsigned int *elements)
+{
+   char *s, *pos, **str_array;
+   const char *src;
+   size_t len, dlen;
+   unsigned int tokens = 0, x;
+   const char *idx[256] = {NULL};
+
+   if (max_tokens < 0) max_tokens = 0;
+   if (max_tokens == 1)
+     {
+        str_array = malloc(sizeof(char *) * 2);
+        if (!str_array)
+          {
+             if (elements)
+                *elements = 0;
+
+             return NULL;
+          }
+
+        s = strdup(str);
+        if (!s)
+          {
+             free(str_array);
+             if (elements)
+                *elements = 0;
+
+             return NULL;
+          }
+        if (elements)
+          *elements = 1;
+        str_array[0] = s;
+        return str_array;
+     }
+   dlen = strlen(delim);
+   if (dlen == 0)
+     {
+        if (elements)
+           *elements = 0;
+
+        return NULL;
+     }
+
+   src = str;
+   /* count tokens and check strlen(str) */
+   while (*src != '\0')
+     {
+        const char *d = delim, *d_end = d + dlen;
+        const char *tmp = src;
+        for (; (d < d_end) && (*tmp != '\0'); d++, tmp++)
+          {
+             if (EINA_LIKELY(*d != *tmp))
+                break;
+          }
+        if (EINA_UNLIKELY(d == d_end))
+          {
+             src = tmp;
+             if (tokens < (sizeof(idx) / sizeof(idx[0])))
+               {
+                  idx[tokens] = tmp;
+                  //printf("token %d='%s'\n", tokens + 1, idx[tokens]);
+               }
+             tokens++;
+             if (tokens && (tokens == (unsigned int)max_tokens)) break;
+          }
+        else
+           src++;
+     }
+   len = src - str + strlen(src);
+
+   str_array = malloc(sizeof(char *) * (tokens + 2));
+   if (!str_array)
+     {
+        if (elements)
+           *elements = 0;
+
+        return NULL;
+     }
+
+   if (!tokens)
+     {
+        s = strdup(str);
+        if (!s)
+          {
+             free(str_array);
+             if (elements)
+                *elements = 0;
+
+             return NULL;
+          }
+        str_array[0] = s;
+        str_array[1] = NULL;
+        if (elements)
+          *elements = 1;
+        return str_array;
+     }
+
+   s = malloc(len + 1);
+   if (!s)
+     {
+        free(str_array);
+        if (elements)
+           *elements = 0;
+
+        return NULL;
+     }
+
+   str_array[0] = s;
+
+   if (len == tokens * dlen)
+     {
+        /* someone's having a laugh somewhere */
+        memset(s, 0, len + 1);
+        for (x = 1; x < tokens + 1; x++)
+          str_array[x] = s + x;
+        str_array[x] = NULL;
+        if (elements)
+          *elements = x;
+        return str_array;
+     }
+   /* copy tokens and string */
+   if (idx[0] - str - dlen > len)
+     {
+        /* FIXME: don't think this can happen but putting this here just in case */
+        abort();
+     }
+   pos = s;
+   for (x = 0; x < MIN(tokens, (sizeof(idx) / sizeof(idx[0]))); x++)
+     {
+        if (x + 1 < (sizeof(idx) / sizeof(idx[0])))
+          {
+             /* first one is special */
+             if (!x)
+               {
+                  eina_strlcpy(pos, str, idx[x] - str - dlen + 1);
+                  str_array[x] = pos;
+                  //printf("str_array[%d] = '%s'\n", x, str_array[x]);
+                  pos += idx[x] - str - dlen + 1;
+                  if ((tokens == 1) && (idx[0]))
+                    {
+                       eina_strlcpy(pos, idx[x], len + 1 - (pos - s));
+                       x++, tokens++;
+                       str_array[x] = pos;
+                    }
+               }
+             /* more tokens */
+             else if (idx[x + 1])
+               {
+                  eina_strlcpy(pos, idx[x - 1], idx[x] - idx[x - 1] - dlen + 1);
+                  str_array[x] = pos;
+                  //printf("str_array[%d] = '%s'\n", x, str_array[x]);
+                  pos += idx[x] - idx[x - 1] - dlen + 1;
+               }
+             /* last token */
+             else
+               {
+                  if (max_tokens && ((unsigned int)max_tokens < tokens + 1))
+                    eina_strlcpy(pos, idx[x - 1], len + 1 - (pos - s));
+                  else
+                    {
+                       //printf("diff: %d\n", len + 1 - (pos - s));
+                       eina_strlcpy(pos, idx[x - 1], idx[x] - idx[x - 1] - dlen + 1);
+                       str_array[x] = pos;
+                       //printf("str_array[%d] = '%s'\n", x, str_array[x]);
+                       pos += idx[x] - idx[x - 1] - dlen + 1;
+                       x++, tokens++;
+                       eina_strlcpy(pos, idx[x - 1], len + 1 - (pos - s));
+                    }
+                  str_array[x] = pos;
+                  //printf("str_array[%d] = '%s'\n", x, str_array[x]);
+               }
+          }
+        /* no more tokens saved after this one */
+        else
+          {
+             eina_strlcpy(pos, idx[x - 1], idx[x] - idx[x - 1] - dlen + 1);
+             str_array[x] = pos;
+             //printf("str_array[%d] = '%s'\n", x, str_array[x]);
+             pos += idx[x] - idx[x - 1] - dlen + 1;
+             src = idx[x];
+             x++, tokens++;
+             str_array[x] = s = pos;
+             break;
+          }
+     }
+   if ((x != tokens) && ((!max_tokens) || (x < tokens)))
+     {
+        while (*src != '\0')
+          {
+             const char *d = delim, *d_end = d + dlen;
+             const char *tmp = src;
+             for (; (d < d_end) && (*tmp != '\0'); d++, tmp++)
+               {
+                  if (EINA_LIKELY(*d != *tmp))
+                     break;
+               }
+             if (((!max_tokens) || (((tokens == (unsigned int)max_tokens) || x < tokens - 2))) && (EINA_UNLIKELY(d == d_end)))
+               {
+                  src = tmp;
+                  *s = '\0';
+                  s++, x++;
+                  //printf("str_array[%d] = '%s'\n", x, str_array[x - 1]);
+                  str_array[x] = s;
+               }
+             else
+               {
+                  *s = *src;
+                  s++, src++;
+               }
+          }
+        *s = 0;
+     }
+   str_array[tokens] = NULL;
+   if (elements)
+     *elements = tokens;
+
+   return str_array;
+}
+
+/**
+ * @endcond
+ */
+
+/*============================================================================*
+*                                 Global                                     *
+*============================================================================*/
+
+/*============================================================================*
+*                                   API                                      *
+*============================================================================*/
+
+EAPI size_t
 eina_strlcpy(char *dst, const char *src, size_t siz)
 {
 #ifdef HAVE_STRLCPY
@@ -57,41 +312,27 @@ eina_strlcpy(char *dst, const char *src, size_t siz)
 
    /* Copy as many bytes as will fit */
    if (n != 0)
-     {
-       while (--n != 0)
-         {
-            if ((*d++ = *s++) == '\0')
-              break;
-         }
-     }
+      while (--n != 0)
+        {
+           if ((*d++ = *s++) == '\0')
+              break;
+        }
 
    /* Not enough room in dst, add NUL and traverse rest of src */
    if (n == 0)
      {
-       if (siz != 0)
-         *d = '\0';                /* NUL-terminate dst */
-       while (*s++)
-         ;
+        if (siz != 0)
+           *d = '\0';  /* NUL-terminate dst */
+
+        while (*s++)
+           ;
      }
 
-   return(s - src - 1);        /* count does not include NUL */
+   return(s - src - 1); /* count does not include NUL */
 #endif
 }
 
-/**
- * @param dst the destination
- * @param src the source
- * @param siz the size of the destination
- * @return the length of the source string plus MIN(siz, strlen(initial dst))
- * @brief append a c-string
- *
- * Appends src to string dst of size siz (unlike strncat, siz is the
- * full size of dst, not space left).  At most siz-1 characters
- * will be copied.  Always NUL terminates (unless siz <= strlen(dst)).
- * Returns strlen(src) + MIN(siz, strlen(initial dst)).
- * If retval >= siz, truncation occurred.
- */
-size_t
+EAPI size_t
 eina_strlcat(char *dst, const char *src, size_t siz)
 {
    char *d = dst;
@@ -101,176 +342,98 @@ eina_strlcat(char *dst, const char *src, size_t siz)
 
    /* Find the end of dst and adjust bytes left but don't go past end */
    while (n-- != 0 && *d != '\0')
-     d++;
+      d++;
    dlen = d - dst;
    n = siz - dlen;
 
    if (n == 0)
-     return(dlen + strlen(s));
+      return(dlen + strlen(s));
+
    while (*s != '\0') {
-       if (n != 1) {
-            *d++ = *s;
-            n--;
-       }
-       s++;
-   }
+        if (n != 1)
+          {
+             *d++ = *s;
+             n--;
+          }
+
+        s++;
+     }
    *d = '\0';
 
-   return(dlen + (s - src));        /* count does not include NUL */
+   return(dlen + (s - src)); /* count does not include NUL */
 }
 
-/**
- * @param str the string to work with
- * @param prefix the prefix to check for
- * @return true if str has the given prefix
- * @brief checks if the string has the given prefix
- */
-int
+EAPI Eina_Bool
 eina_str_has_prefix(const char *str, const char *prefix)
 {
    size_t str_len;
    size_t prefix_len;
 
    str_len = strlen(str);
-   prefix_len = strlen(prefix);
-   if (prefix_len > str_len)
-     return 0;
+   prefix_len = eina_strlen_bounded(prefix, str_len);
+   if (prefix_len == (size_t)-1)
+      return EINA_FALSE;
 
    return (strncmp(str, prefix, prefix_len) == 0);
 }
 
-/**
- * @param str the string to work with
- * @param suffix the suffix to check for
- * @return true if str has the given suffix
- * @brief checks if the string has the given suffix
- */
-int
+EAPI Eina_Bool
 eina_str_has_suffix(const char *str, const char *suffix)
 {
    return eina_str_has_suffix_helper(str, suffix, strcmp);
 }
 
-/**
- * This function does the same like eina_str_has_suffix(), but with a
- * case insensitive compare.
- *
- * @param str the string to work with
- * @param ext the  extension to check for
- * @return true if str has the given extension
- * @brief checks if the string has the given extension
- */
-int
+EAPI Eina_Bool
 eina_str_has_extension(const char *str, const char *ext)
 {
    return eina_str_has_suffix_helper(str, ext, strcasecmp);
 }
 
-/*
- * Internal helper function used by eina_str_has_suffix() and
- * eina_str_has_extension()
- */
-static int
-eina_str_has_suffix_helper(const char *str, const char *suffix,
-               int (*cmp)(const char *, const char *))
+EAPI char **
+eina_str_split_full(const char *str,
+                    const char *delim,
+                    int max_tokens,
+                    unsigned int *elements)
 {
-   size_t str_len;
-   size_t suffix_len;
-
-   str_len = strlen(str);
-   suffix_len = strlen(suffix);
-   if (suffix_len > str_len)
-     return 0;
-
-   return cmp(str + str_len - suffix_len, suffix) == 0;
+   return eina_str_split_full_helper(str, delim, max_tokens, elements);
 }
 
-/**
- * Splits a string into a maximum of max_tokens pieces, using the given
- * delimiter. If max_tokens is reached, the final string in the returned
- * string array contains the remainder of string.
- *
- * @param str         A string to split.
- * @param delim       A string which specifies the places at which to split the
- *                    string. The delimiter is not included in any of the
- *                    resulting strings, unless max_tokens is reached.
- * @param max_tokens  The maximum number of strings to split string into.
- *                    If this is less than 1, the string is split completely.
- * @return            A newly-allocated NULL-terminated array of strings.
- *                    To free it: free the first element of the array
- *                    and the array itself.
- */
-char **
+
+EAPI char **
 eina_str_split(const char *str, const char *delim, int max_tokens)
 {
-   char *s, *sep, **str_array;
-   size_t len, dlen;
-   int i;
-
-   if (*delim == '\0')
-     return NULL;
-
-   max_tokens = ((max_tokens <= 0) ? (INT_MAX) : (max_tokens - 1));
-   len = strlen(str);
-   dlen = strlen(delim);
-   s = strdup(str);
-   str_array = malloc(sizeof(char *) * (len + 1));
-   for (i = 0; (i < max_tokens) && (sep = strstr(s, delim)); i++)
-     {
-       str_array[i] = s;
-       s = sep + dlen;
-       *sep = 0;
-     }
-
-   str_array[i++] = s;
-   str_array = realloc(str_array, sizeof(char *) * (i + 1));
-   str_array[i] = NULL;
-
-   return str_array;
+   return eina_str_split_full_helper(str, delim, max_tokens, NULL);
 }
 
-/**
- * Join two strings of known length and store the result in @a dst buffer.
- *
- * @param dst where to store the result.
- * @param size byte size of dst, will write at most (size - 1)
- *     characters and then the '\0' (null terminator).
- * @param sep separator character to use.
- * @param a first string to use, before @a sep.
- * @param a_len length of @a a, not including '\0' (strlen()-like)
- * @param b second string to use, after @a sep.
- * @param b_len length of @a b, not including '\0' (strlen()-like)
- *
- * @return the number of characters printed (not including the
- *     trailing '\0' used to end output to strings). Just like
- *     snprintf(), it will not write more than @a size bytes, thus a
- *     return value of @a size or more means that the output was
- *     truncated.
- *
- * @see eina_str_join() and eina_str_join_static()
- */
-size_t
-eina_str_join_len(char *dst, size_t size, char sep, const char *a, size_t a_len, const char *b, size_t b_len)
+EAPI size_t
+eina_str_join_len(char *dst,
+                  size_t size,
+                  char sep,
+                  const char *a,
+                  size_t a_len,
+                  const char *b,
+                  size_t b_len)
 {
    size_t ret = a_len + b_len + 1;
    size_t off;
 
-   if (size < 1) return ret;
+   if (size < 1)
+      return ret;
 
    if (size <= a_len)
      {
-       memcpy(dst, a, size - 1);
-       dst[size - 1] = '\0';
-       return ret;
+        memcpy(dst, a, size - 1);
+        dst[size - 1] = '\0';
+        return ret;
      }
 
-   memcpy(dst, a, a_len);
+        memcpy(dst, a, a_len);
    off = a_len;
 
    if (size <= off + 1)
      {
-       dst[size - 1] = '\0';
-       return ret;
+        dst[size - 1] = '\0';
+        return ret;
      }
 
    dst[off] = sep;
@@ -278,12 +441,145 @@ eina_str_join_len(char *dst, size_t size, char sep, const char *a, size_t a_len,
 
    if (size <= off + b_len + 1)
      {
-       memcpy(dst + off, b, size - off - 1);
-       dst[size - 1] = '\0';
-       return ret;
+        memcpy(dst + off, b, size - off - 1);
+        dst[size - 1] = '\0';
+        return ret;
      }
 
-   memcpy(dst + off, b, b_len);
+        memcpy(dst + off, b, b_len);
    dst[off + b_len] = '\0';
    return ret;
 }
+
+#ifdef HAVE_ICONV
+EAPI char *
+eina_str_convert(const char *enc_from, const char *enc_to, const char *text)
+{
+   iconv_t ic;
+   char *new_txt, *inp, *outp;
+   size_t inb, outb, outlen, tob, outalloc;
+
+   if (!text)
+      return NULL;
+
+   ic = iconv_open(enc_to, enc_from);
+   if (ic == (iconv_t)(-1))
+      return NULL;
+
+   new_txt = malloc(64);
+   inb = strlen(text);
+   outb = 64;
+   inp = (char *)text;
+   outp = new_txt;
+   outalloc = 64;
+   outlen = 0;
+
+   for (;; )
+     {
+        size_t count;
+
+        tob = outb;
+        count = iconv(ic, &inp, &inb, &outp, &outb);
+        outlen += tob - outb;
+        if (count == (size_t)(-1))
+          {
+             if (errno == E2BIG)
+               {
+                  new_txt = realloc(new_txt, outalloc + 64);
+                  outp = new_txt + outlen;
+                  outalloc += 64;
+                  outb += 64;
+               }
+             else if (errno == EILSEQ)
+               {
+                  if (new_txt)
+                     free(new_txt);
+
+                  new_txt = NULL;
+                  break;
+               }
+             else if (errno == EINVAL)
+               {
+                  if (new_txt)
+                     free(new_txt);
+
+                  new_txt = NULL;
+                  break;
+               }
+             else
+               {
+                  if (new_txt)
+                     free(new_txt);
+
+                  new_txt = NULL;
+                  break;
+               }
+          }
+
+        if (inb == 0)
+          {
+             if (outalloc == outlen)
+                new_txt = realloc(new_txt, outalloc + 1);
+
+             new_txt[outlen] = 0;
+             break;
+          }
+     }
+   iconv_close(ic);
+   return new_txt;
+}
+#else
+EAPI char *
+eina_str_convert(const char *enc_from __UNUSED__,
+                 const char *enc_to __UNUSED__,
+                 const char *text __UNUSED__)
+{
+   return NULL;
+}
+#endif
+
+EAPI char *
+eina_str_escape(const char *str)
+{
+   char *s2, *d;
+   const char *s;
+
+   s2 = malloc((strlen(str) * 2) + 1);
+   if (!s2)
+      return NULL;
+
+   for (s = str, d = s2; *s != 0; s++, d++)
+     {
+        if ((*s == ' ') || (*s == '\\') || (*s == '\''))
+          {
+             *d = '\\';
+             d++;
+          }
+
+        *d = *s;
+     }
+   *d = 0;
+   return s2;
+}
+
+EAPI void
+eina_str_tolower(char **str)
+{
+   char *p;
+   if ((!str) || (!(*str)))
+      return;
+
+   for (p = *str; (*p); p++)
+      *p = tolower((unsigned char )(*p));
+}
+
+EAPI void
+eina_str_toupper(char **str)
+{
+   char *p;
+   if ((!str) || (!(*str)))
+      return;
+
+   for (p = *str; (*p); p++)
+      *p = toupper((unsigned char)(*p));
+}