Fix the smoke test in the face of UTF-16 surrogate pairs.
authorMartijn Pieters <mj@zopatista.com>
Fri, 26 Oct 2012 10:15:27 +0000 (12:15 +0200)
committerMartijn Pieters <mj@zopatista.com>
Fri, 26 Oct 2012 10:15:27 +0000 (12:15 +0200)
commite26ccb34eb1c0d3948bfd9e50ffe333605ae554d
tree34202803751ab2f199ba643b73612e377cc1b73a
parentbe01a35ef12c7e71c0e71c4e37d1f1a392a66fd8
Fix the smoke test in the face of UTF-16 surrogate pairs.

If the random data starts with a UTF-16 BOM *and* the next two bytes are for a character in the `\ud800`-`\udfff` range decoding would fail. Small chance, but still possible.

Extend it to check the UTF-8 error as well. The goal is to test that the guesser was *mostly* correct, and to verify the cases where it wasn't that it was to be expected. Most of all that the function doesn't buckle under wildly unexpected data.
tests/test_utils.py