Fix boundary handling in Regex auto-atomicity optimization (#79088)

author Stephen Toub <stoub@microsoft.com>

Thu, 1 Dec 2022 19:29:59 +0000 (14:29 -0500)

committer GitHub <noreply@github.com>

Thu, 1 Dec 2022 19:29:59 +0000 (14:29 -0500)
author Stephen Toub <stoub@microsoft.com>
Thu, 1 Dec 2022 19:29:59 +0000 (14:29 -0500)
committer GitHub <noreply@github.com>
Thu, 1 Dec 2022 19:29:59 +0000 (14:29 -0500)
diff --git a/src/libraries/System.Text.RegularExpressions/src/System/Text/RegularExpressions/RegexNode.cs b/src/libraries/System.Text.RegularExpressions/src/System/Text/RegularExpressions/RegexNode.cs

index 80ec75bda880989d07780e38363bd6578cf58c53..a94be746767a0d187f83ffa6773fc6eb1c0405e7 100644 (file)
--- a/src/libraries/System.Text.RegularExpressions/src/System/Text/RegularExpressions/RegexNode.cs
+++ b/src/libraries/System.Text.RegularExpressions/src/System/Text/RegularExpressions/RegexNode.cs
@@ -2117,10 +2117,10 @@ namespace System.Text.RegularExpressions
                              case RegexNodeKind.Onelazy or RegexNodeKind.Oneloop or RegexNodeKind.Oneloopatomic when subsequent.M == 0 && node.Ch != subsequent.Ch:
                              case RegexNodeKind.Notonelazy or RegexNodeKind.Notoneloop or RegexNodeKind.Notoneloopatomic when subsequent.M == 0 && node.Ch == subsequent.Ch:
                              case RegexNodeKind.Setlazy or RegexNodeKind.Setloop or RegexNodeKind.Setloopatomic when subsequent.M == 0 && !RegexCharClass.CharInClass(node.Ch, subsequent.Str!):
-                            case RegexNodeKind.Boundary when RegexCharClass.IsBoundaryWordChar(node.Ch):
-                            case RegexNodeKind.NonBoundary when !RegexCharClass.IsBoundaryWordChar(node.Ch):
-                            case RegexNodeKind.ECMABoundary when RegexCharClass.IsECMAWordChar(node.Ch):
-                            case RegexNodeKind.NonECMABoundary when !RegexCharClass.IsECMAWordChar(node.Ch):
+                            case RegexNodeKind.Boundary when node.M > 0 && RegexCharClass.IsBoundaryWordChar(node.Ch):
+                            case RegexNodeKind.NonBoundary when node.M > 0 && !RegexCharClass.IsBoundaryWordChar(node.Ch):
+                            case RegexNodeKind.ECMABoundary when node.M > 0 && RegexCharClass.IsECMAWordChar(node.Ch):
+                            case RegexNodeKind.NonECMABoundary when node.M > 0 && !RegexCharClass.IsECMAWordChar(node.Ch):
                                  // The loop can be made atomic based on this subsequent node, but we'll need to evaluate the next one as well.
                                  break;
  
@@ -2163,10 +2163,10 @@ namespace System.Text.RegularExpressions
  
                              case RegexNodeKind.Onelazy or RegexNodeKind.Oneloop or RegexNodeKind.Oneloopatomic when subsequent.M == 0 && !RegexCharClass.CharInClass(subsequent.Ch, node.Str!):
                              case RegexNodeKind.Setlazy or RegexNodeKind.Setloop or RegexNodeKind.Setloopatomic when subsequent.M == 0 && !RegexCharClass.MayOverlap(node.Str!, subsequent.Str!):
-                            case RegexNodeKind.Boundary when node.Str is RegexCharClass.WordClass or RegexCharClass.DigitClass:
-                            case RegexNodeKind.NonBoundary when node.Str is RegexCharClass.NotWordClass or RegexCharClass.NotDigitClass:
-                            case RegexNodeKind.ECMABoundary when node.Str is RegexCharClass.ECMAWordClass or RegexCharClass.ECMADigitClass:
-                            case RegexNodeKind.NonECMABoundary when node.Str is RegexCharClass.NotECMAWordClass or RegexCharClass.NotDigitClass:
+                            case RegexNodeKind.Boundary when node.M > 0 && node.Str is RegexCharClass.WordClass or RegexCharClass.DigitClass:
+                            case RegexNodeKind.NonBoundary when node.M > 0 && node.Str is RegexCharClass.NotWordClass or RegexCharClass.NotDigitClass:
+                            case RegexNodeKind.ECMABoundary when node.M > 0 && node.Str is RegexCharClass.ECMAWordClass or RegexCharClass.ECMADigitClass:
+                            case RegexNodeKind.NonECMABoundary when node.M > 0 && node.Str is RegexCharClass.NotECMAWordClass or RegexCharClass.NotDigitClass:
                                  // The loop can be made atomic based on this subsequent node, but we'll need to evaluate the next one as well.
                                  break;
  
diff --git a/src/libraries/System.Text.RegularExpressions/tests/FunctionalTests/Regex.MultipleMatches.Tests.cs b/src/libraries/System.Text.RegularExpressions/tests/FunctionalTests/Regex.MultipleMatches.Tests.cs

index bd0b1eab45ce37da8afbe49343affa2477183e60..990d489ca946405cd5422925ea8d2dc4e5a6caed 100644 (file)
--- a/src/libraries/System.Text.RegularExpressions/tests/FunctionalTests/Regex.MultipleMatches.Tests.cs
+++ b/src/libraries/System.Text.RegularExpressions/tests/FunctionalTests/Regex.MultipleMatches.Tests.cs
@@ -292,6 +292,25 @@ namespace System.Text.RegularExpressions.Tests
                      }
                  };
  
+                foreach (RegexOptions options in new[] { RegexOptions.None, RegexOptions.ECMAScript })
+                {
+                    if (RegexHelpers.IsNonBacktracking(engine))
+                    {
+                        continue;
+                    }
+
+                    yield return new object[]
+                    {
+                        engine,
+                        @"a?\b", "ac", options,
+                        new[]
+                        {
+                            new CaptureData("", 0, 0),
+                            new CaptureData("", 2, 0),
+                        }
+                    };
+                }
+
                  if (!PlatformDetection.IsNetFramework)
                  {
                      // .NET Framework missing fix in https://github.com/dotnet/runtime/pull/1075
diff --git a/src/libraries/System.Text.RegularExpressions/tests/UnitTests/RegexReductionTests.cs b/src/libraries/System.Text.RegularExpressions/tests/UnitTests/RegexReductionTests.cs

index dbb22cf502648598d0576b8a579c7884ba7ee6fe..c7c8cc5a3936b335b6901d6484b891d7c1255790 100644 (file)
--- a/src/libraries/System.Text.RegularExpressions/tests/UnitTests/RegexReductionTests.cs
+++ b/src/libraries/System.Text.RegularExpressions/tests/UnitTests/RegexReductionTests.cs
@@ -334,8 +334,10 @@ namespace System.Text.RegularExpressions.Tests
          [InlineData("[^\n]*\n+", "(?>[^\n]*)(?>\n+)")]
          [InlineData("(a+)b", "((?>a+))b")]
          [InlineData("a*(?:bcd|efg)", "(?>a*)(?:bcd|efg)")]
-        [InlineData("\\w*\\b", "(?>\\w*)\\b")]
-        [InlineData("\\d*\\b", "(?>\\d*)\\b")]
+        [InlineData("\\w+\\b", "(?>\\w+)\\b")]
+        [InlineData("\\d+\\b", "(?>\\d+)\\b")]
+        [InlineData("\\W+\\B", "(?>\\W+)\\B")]
+        [InlineData("\\D+\\B", "(?>\\D+)\\B")]
          [InlineData("(?:abc*|def*)g", "(?:ab(?>c*)|de(?>f*))g")]
          [InlineData("(?:a[ce]*|b*)g", "(?:a(?>[ce]*)|(?>b*))g")]
          [InlineData("(?:a[ce]*|b*)c", "(?:a[ce]*|(?>b*))c")]
@@ -476,6 +478,11 @@ namespace System.Text.RegularExpressions.Tests
          [InlineData(@"\w*\b\w+", @"(?>\w*)\b\w+")]
          [InlineData(@"\W+\B\W+", @"(?>\W+)\B\W")]
          [InlineData(@"\W*\B\W+", @"(?>\W*)\B\W")]
+        [InlineData(@"a?\b", @"(?>a?)\b")]
+        [InlineData(@"\w*\b", @"(?>\w*)\b")]
+        [InlineData(@"\d*\b", @"(?>\d*)\b")]
+        [InlineData(@"\W*\B", @"(?>\W*)\B")]
+        [InlineData(@"\D*\B", @"(?>\D*)\B")]
          // Loops inside alternation constructs
          [InlineData("(abc*|def)chi", "(ab(?>c*)|def)chi")]
          [InlineData("(abc|def*)fhi", "(abc|de(?>f*))fhi")]
author	Stephen Toub <stoub@microsoft.com>
	Thu, 1 Dec 2022 19:29:59 +0000 (14:29 -0500)
committer	GitHub <noreply@github.com>
	Thu, 1 Dec 2022 19:29:59 +0000 (14:29 -0500)
src/libraries/System.Text.RegularExpressions/src/System/Text/RegularExpressions/RegexNode.cs		patch \| blob \| history
src/libraries/System.Text.RegularExpressions/tests/FunctionalTests/Regex.MultipleMatches.Tests.cs		patch \| blob \| history
src/libraries/System.Text.RegularExpressions/tests/UnitTests/RegexReductionTests.cs		patch \| blob \| history