sed: fix "sed clusternewline" testcase
[platform/upstream/busybox.git] / editors / sed.c
index 42d8e17..9713758 100644 (file)
  * Todo:
  * - Create a wrapper around regex to make libc's regex conform with sed
  *
- * Reference http://www.opengroup.org/onlinepubs/007904975/utilities/sed.html
+ * Reference
+ * http://www.opengroup.org/onlinepubs/007904975/utilities/sed.html
+ * http://pubs.opengroup.org/onlinepubs/9699919799/utilities/sed.html
  */
 
 //usage:#define sed_trivial_usage
-//usage:       "[-inr] [-f FILE]... [-e CMD]... [FILE]...\n"
-//usage:       "or: sed [-inr] CMD [FILE]..."
+//usage:       "[-inrE] [-f FILE]... [-e CMD]... [FILE]...\n"
+//usage:       "or: sed [-inrE] CMD [FILE]..."
 //usage:#define sed_full_usage "\n\n"
 //usage:       "       -e CMD  Add CMD to sed commands to be executed"
 //usage:     "\n       -f FILE Add FILE contents to sed commands to be executed"
 //usage:     "\n       -i[SFX] Edit files in-place (otherwise sends to stdout)"
 //usage:     "\n               Optionally back files up, appending SFX"
 //usage:     "\n       -n      Suppress automatic printing of pattern space"
-//usage:     "\n       -r      Use extended regex syntax"
+//usage:     "\n       -r,-E   Use extended regex syntax"
 //usage:     "\n"
 //usage:     "\nIf no -e or -f, the first non-option argument is the sed command string."
 //usage:     "\nRemaining arguments are input files (stdin if none)."
@@ -328,7 +330,7 @@ static int get_address(const char *my_str, int *linenum, regex_t ** regex)
                next = index_of_next_unescaped_regexp_delim(delimiter, ++pos);
                temp = copy_parsing_escapes(pos, next);
                *regex = xzalloc(sizeof(regex_t));
-               xregcomp(*regex, temp, G.regex_type|REG_NEWLINE);
+               xregcomp(*regex, temp, G.regex_type);
                free(temp);
                /* Move position to next character after last delimiter */
                pos += (next+1);
@@ -492,8 +494,10 @@ static const char *parse_cmd_args(sed_cmd_t *sed_cmd, const char *cmdstr)
        }
        /* handle edit cmds: (a)ppend, (i)nsert, and (c)hange */
        else if (idx <= IDX_c) { /* a,i,c */
-               if ((sed_cmd->end_line || sed_cmd->end_match) && sed_cmd->cmd != 'c')
-                       bb_error_msg_and_die("only a beginning address can be specified for edit commands");
+               if (idx < IDX_c) { /* a,i */
+                       if (sed_cmd->end_line || sed_cmd->end_match)
+                               bb_error_msg_and_die("command '%c' uses only one address", sed_cmd->cmd);
+               }
                for (;;) {
                        if (*cmdstr == '\n' || *cmdstr == '\\') {
                                cmdstr++;
@@ -510,8 +514,10 @@ static const char *parse_cmd_args(sed_cmd_t *sed_cmd, const char *cmdstr)
        }
        /* handle file cmds: (r)ead */
        else if (idx <= IDX_w) { /* r,w */
-               if (sed_cmd->end_line || sed_cmd->end_match)
-                       bb_error_msg_and_die("command only uses one address");
+               if (idx < IDX_w) { /* r */
+                       if (sed_cmd->end_line || sed_cmd->end_match)
+                               bb_error_msg_and_die("command '%c' uses only one address", sed_cmd->cmd);
+               }
                cmdstr += parse_file_cmd(/*sed_cmd,*/ cmdstr, &sed_cmd->string);
                if (sed_cmd->cmd == 'w') {
                        sed_cmd->sw_file = xfopen_for_write(sed_cmd->string);
@@ -643,6 +649,12 @@ static void add_cmd(const char *cmdstr)
                sed_cmd->cmd = *cmdstr++;
                cmdstr = parse_cmd_args(sed_cmd, cmdstr);
 
+               /* cmdstr now points past args.
+                * GNU sed requires a separator, if there are more commands,
+                * else it complains "char N: extra characters after command".
+                * Example: "sed 'p;d'". We also allow "sed 'pd'".
+                */
+
                /* Add the command to the command array */
                *G.sed_cmd_tail = sed_cmd;
                G.sed_cmd_tail = &sed_cmd->next;
@@ -836,40 +848,82 @@ static sed_cmd_t *branch_to(char *label)
 
 static void append(char *s)
 {
-       llist_add_to_end(&G.append_head, xstrdup(s));
+       llist_add_to_end(&G.append_head, s);
 }
 
-static void flush_append(void)
+/* Output line of text. */
+/* Note:
+ * The tricks with NO_EOL_CHAR and last_puts_char are there to emulate gnu sed.
+ * Without them, we had this:
+ * echo -n thingy >z1
+ * echo -n again >z2
+ * >znull
+ * sed "s/i/z/" z1 z2 znull | hexdump -vC
+ * output:
+ * gnu sed 4.1.5:
+ * 00000000  74 68 7a 6e 67 79 0a 61  67 61 7a 6e              |thzngy.agazn|
+ * bbox:
+ * 00000000  74 68 7a 6e 67 79 61 67  61 7a 6e                 |thzngyagazn|
+ */
+enum {
+       NO_EOL_CHAR = 1,
+       LAST_IS_NUL = 2,
+};
+static void puts_maybe_newline(char *s, FILE *file, char *last_puts_char, char last_gets_char)
+{
+       char lpc = *last_puts_char;
+
+       /* Need to insert a '\n' between two files because first file's
+        * last line wasn't terminated? */
+       if (lpc != '\n' && lpc != '\0') {
+               fputc('\n', file);
+               lpc = '\n';
+       }
+       fputs(s, file);
+
+       /* 'x' - just something which is not '\n', '\0' or NO_EOL_CHAR */
+       if (s[0])
+               lpc = 'x';
+
+       /* had trailing '\0' and it was last char of file? */
+       if (last_gets_char == LAST_IS_NUL) {
+               fputc('\0', file);
+               lpc = 'x'; /* */
+       } else
+       /* had trailing '\n' or '\0'? */
+       if (last_gets_char != NO_EOL_CHAR) {
+               fputc(last_gets_char, file);
+               lpc = last_gets_char;
+       }
+
+       if (ferror(file)) {
+               xfunc_error_retval = 4;  /* It's what gnu sed exits with... */
+               bb_error_msg_and_die(bb_msg_write_error);
+       }
+       *last_puts_char = lpc;
+}
+
+static void flush_append(char *last_puts_char, char last_gets_char)
 {
        char *data;
 
        /* Output appended lines. */
        while ((data = (char *)llist_pop(&G.append_head))) {
-               fprintf(G.nonstdout, "%s\n", data);
+               puts_maybe_newline(data, G.nonstdout, last_puts_char, last_gets_char);
                free(data);
        }
 }
 
-static void add_input_file(FILE *file)
-{
-       G.input_file_list = xrealloc_vector(G.input_file_list, 2, G.input_file_count);
-       G.input_file_list[G.input_file_count++] = file;
-}
-
 /* Get next line of input from G.input_file_list, flushing append buffer and
  * noting if we ran out of files without a newline on the last line we read.
  */
-enum {
-       NO_EOL_CHAR = 1,
-       LAST_IS_NUL = 2,
-};
-static char *get_next_line(char *gets_char)
+static char *get_next_line(char *gets_char, char *last_puts_char, char last_gets_char)
 {
        char *temp = NULL;
        int len;
        char gc;
 
-       flush_append();
+       flush_append(last_puts_char, last_gets_char);
 
        /* will be returned if last line in the file
         * doesn't end with either '\n' or '\0' */
@@ -913,54 +967,6 @@ static char *get_next_line(char *gets_char)
        return temp;
 }
 
-/* Output line of text. */
-/* Note:
- * The tricks with NO_EOL_CHAR and last_puts_char are there to emulate gnu sed.
- * Without them, we had this:
- * echo -n thingy >z1
- * echo -n again >z2
- * >znull
- * sed "s/i/z/" z1 z2 znull | hexdump -vC
- * output:
- * gnu sed 4.1.5:
- * 00000000  74 68 7a 6e 67 79 0a 61  67 61 7a 6e              |thzngy.agazn|
- * bbox:
- * 00000000  74 68 7a 6e 67 79 61 67  61 7a 6e                 |thzngyagazn|
- */
-static void puts_maybe_newline(char *s, FILE *file, char *last_puts_char, char last_gets_char)
-{
-       char lpc = *last_puts_char;
-
-       /* Need to insert a '\n' between two files because first file's
-        * last line wasn't terminated? */
-       if (lpc != '\n' && lpc != '\0') {
-               fputc('\n', file);
-               lpc = '\n';
-       }
-       fputs(s, file);
-
-       /* 'x' - just something which is not '\n', '\0' or NO_EOL_CHAR */
-       if (s[0])
-               lpc = 'x';
-
-       /* had trailing '\0' and it was last char of file? */
-       if (last_gets_char == LAST_IS_NUL) {
-               fputc('\0', file);
-               lpc = 'x'; /* */
-       } else
-       /* had trailing '\n' or '\0'? */
-       if (last_gets_char != NO_EOL_CHAR) {
-               fputc(last_gets_char, file);
-               lpc = last_gets_char;
-       }
-
-       if (ferror(file)) {
-               xfunc_error_retval = 4;  /* It's what gnu sed exits with... */
-               bb_error_msg_and_die(bb_msg_write_error);
-       }
-       *last_puts_char = lpc;
-}
-
 #define sed_puts(s, n) (puts_maybe_newline(s, G.nonstdout, &last_puts_char, n))
 
 static int beg_match(sed_cmd_t *sed_cmd, const char *pattern_space)
@@ -983,7 +989,7 @@ static void process_files(void)
        int substituted;
 
        /* Prime the pump */
-       next_line = get_next_line(&next_gets_char);
+       next_line = get_next_line(&next_gets_char, &last_puts_char, '\n' /*last_gets_char*/);
 
        /* Go through every line in each file */
  again:
@@ -997,7 +1003,7 @@ static void process_files(void)
 
        /* Read one line in advance so we can act on the last line,
         * the '$' address */
-       next_line = get_next_line(&next_gets_char);
+       next_line = get_next_line(&next_gets_char, &last_puts_char, last_gets_char);
        linenum++;
 
        /* For every line, go through all the commands */
@@ -1071,7 +1077,7 @@ static void process_files(void)
                                /* or does this line matches our last address regex */
                                || (sed_cmd->end_match && old_matched
                                     && (regexec(sed_cmd->end_match,
-                                                pattern_space, 0, NULL, 0) == 0)
+                                               pattern_space, 0, NULL, 0) == 0)
                                )
                        );
                }
@@ -1169,7 +1175,7 @@ static void process_files(void)
 
                /* Append line to linked list to be printed later */
                case 'a':
-                       append(sed_cmd->string);
+                       append(xstrdup(sed_cmd->string));
                        break;
 
                /* Insert text before this line */
@@ -1191,11 +1197,10 @@ static void process_files(void)
                        rfile = fopen_for_read(sed_cmd->string);
                        if (rfile) {
                                char *line;
-
                                while ((line = xmalloc_fgetline(rfile))
                                                != NULL)
                                        append(line);
-                               xprint_and_close_file(rfile);
+                               fclose(rfile);
                        }
 
                        break;
@@ -1216,7 +1221,7 @@ static void process_files(void)
                                free(pattern_space);
                                pattern_space = next_line;
                                last_gets_char = next_gets_char;
-                               next_line = get_next_line(&next_gets_char);
+                               next_line = get_next_line(&next_gets_char, &last_puts_char, last_gets_char);
                                substituted = 0;
                                linenum++;
                                break;
@@ -1252,7 +1257,7 @@ static void process_files(void)
                        pattern_space[len] = '\n';
                        strcpy(pattern_space + len+1, next_line);
                        last_gets_char = next_gets_char;
-                       next_line = get_next_line(&next_gets_char);
+                       next_line = get_next_line(&next_gets_char, &last_puts_char, last_gets_char);
                        linenum++;
                        break;
                }
@@ -1356,7 +1361,7 @@ static void process_files(void)
 
        /* Delete and such jump here. */
  discard_line:
-       flush_append();
+       flush_append(&last_puts_char, last_gets_char);
        free(pattern_space);
 
        goto again;
@@ -1365,7 +1370,7 @@ static void process_files(void)
 /* It is possible to have a command line argument with embedded
  * newlines.  This counts as multiple command lines.
  * However, newline can be escaped: 's/e/z\<newline>z/'
- * We check for this.
+ * add_cmd() handles this.
  */
 
 static void add_cmd_block(char *cmdstr)
@@ -1375,28 +1380,20 @@ static void add_cmd_block(char *cmdstr)
        cmdstr = sv = xstrdup(cmdstr);
        do {
                eol = strchr(cmdstr, '\n');
- next:
-               if (eol) {
-                       /* Count preceding slashes */
-                       int slashes = 0;
-                       char *sl = eol;
-
-                       while (sl != cmdstr && *--sl == '\\')
-                               slashes++;
-                       /* Odd number of preceding slashes - newline is escaped */
-                       if (slashes & 1) {
-                               overlapping_strcpy(eol - 1, eol);
-                               eol = strchr(eol, '\n');
-                               goto next;
-                       }
+               if (eol)
                        *eol = '\0';
-               }
                add_cmd(cmdstr);
                cmdstr = eol + 1;
        } while (eol);
        free(sv);
 }
 
+static void add_input_file(FILE *file)
+{
+       G.input_file_list = xrealloc_vector(G.input_file_list, 2, G.input_file_count);
+       G.input_file_list[G.input_file_count++] = file;
+}
+
 int sed_main(int argc, char **argv) MAIN_EXTERNALLY_VISIBLE;
 int sed_main(int argc UNUSED_PARAM, char **argv)
 {
@@ -1437,15 +1434,21 @@ int sed_main(int argc UNUSED_PARAM, char **argv)
        IF_LONG_OPTS(applet_long_options = sed_longopts);
 
        /* -i must be first, to match OPT_in_place definition */
-       opt = getopt32(argv, "i::rne:f:", &opt_i, &opt_e, &opt_f,
+       /* -E is a synonym of -r:
+        * GNU sed 4.2.1 mentions it in neither --help
+        * nor manpage, but does recognize it.
+        */
+       opt = getopt32(argv, "i::rEne:f:", &opt_i, &opt_e, &opt_f,
                            &G.be_quiet); /* counter for -n */
        //argc -= optind;
        argv += optind;
        if (opt & OPT_in_place) { // -i
                atexit(cleanup_outname);
        }
-       if (opt & 0x2) G.regex_type |= REG_EXTENDED; // -r
-       //if (opt & 0x4) G.be_quiet++; // -n
+       if (opt & (2|4))
+               G.regex_type |= REG_EXTENDED; // -r or -E
+       //if (opt & 8)
+       //      G.be_quiet++; // -n (implemented with a counter instead)
        while (opt_e) { // -e
                add_cmd_block(llist_pop(&opt_e));
        }
@@ -1460,7 +1463,7 @@ int sed_main(int argc UNUSED_PARAM, char **argv)
                fclose(cmdfile);
        }
        /* if we didn't get a pattern from -e or -f, use argv[0] */
-       if (!(opt & 0x18)) {
+       if (!(opt & 0x30)) {
                if (!*argv)
                        bb_show_usage();
                add_cmd_block(*argv++);