同樣是Python，Python3和Python2怎么區別這么大？

Raaabbit 發布于2019-07-31 10:33 / 2989人閱讀

摘要：可是當我測試，我就懵逼了，中文真都驗證通過，不對啊，我以前也是這么過濾參數的，測試沒問題啊唯一的區別是現在用的是。

上周，我的測試同事告訴我，你的用戶名怎么還允許中文啊？當時我心里就想，你們測試肯定又搞錯接口了，我用的是正則w過濾了參數，怎么可能出錯，除非Python正則系統出錯了，那是不可能的。本著嚴謹的作風，我自己先測試一下，沒問題看我怎么懟回去。可是當我測試，我就懵逼了，中文真TM都驗證通過，不對啊，我以前也是這么過濾參數的，測試沒問題啊？唯一的區別是現在用的是Python3。
上網搜了一圈，發現沒有一篇文章講述Python2和Python3的正則在處理字符串是的區別，都是一視同仁，知道我去翻了一遍官方文檔，才明白怎么回事。

問題復現

我們都知道，Python有個正則規則w，幾乎所有的網上博客文章都告訴你，這個規則匹配字母數字及下劃線，但實際并不是這樣：
有Python2代碼如下：

~|? pythonPython 2.7.10 (default, Aug 17 2018, 19:45:58)
[GCC 4.2.1 Compatible Apple LLVM 10.0.0 (clang-1000.0.42)] on darwinType "help", "copyright", "credits" or "license" for more information.>>> import re>>> aa = "捕蛇者說">>> re.match("w{1,20}", aa)>>> bb = "abc123ADB">>> re.match("w{1,20}", bb)
<_sre.SRE_Match object at 0x1031b0b28>

我們可以看到，在python2中，w是無法匹配中文的。那么，同樣的代碼在Python3中運行結果是什么樣子的了？

~|? python3Python 3.7.1 (default, Nov 28 2018, 11:55:14)
[Clang 9.0.0 (clang-900.0.39.2)] on darwinType "help", "copyright", "credits" or "license" for more information.>>> import re>>> aa = "捕蛇者說">>> re.match("w{1,20}", aa)
>>> bb = "abc123ADB">>> re.match("w{1,20}", bb)

但在Python3中w是可以匹配中文的，這是怎么回事了？要回答這個問題，我們要回到Python官方文檔中來尋找答案。

解決問題

當我們仔細閱讀Python的官方文檔時，就會發現，對于同樣的正則規則w，Python2和Python3區別好大，我們先來看看Python2：

When the LOCALE and UNICODE flags are not specified, matches any alphanumeric character and the underscore; this is equivalent to the set [a-zA-Z0-9_]. With LOCALE, it will match the set [0-9_] plus whatever characters are defined as alphanumeric for the current locale. If UNICODE is set, this will match the characters [0-9_] plus whatever is classified as alphanumeric in the Unicode character properties database.

翻譯一下：當沒有設置LOCALE(re.L)和UNICODE(re.U)標志，匹配數字字母和下劃線，如果設置了LOCALE(re.L)則匹配數字下劃線和LOCALE文字。如果設置了UNICODE(re.U)標志，匹配數字下劃線和Unicode字符集里的字符。

那么Python3了：

對于 Unicode (str) 樣式：
匹配Unicode詞語的字符，包含了可以構成詞語的絕大部分字符，也包括數字和下劃線。如果設置了 ASCII 標志，就只匹配 [a-zA-Z0-9_] 。
對于8位(bytes)樣式：
匹配ASCII字符中的數字和字母和下劃線，就是 [a-zA-Z0-9_] 。如果設置了 LOCALE 標記，就匹配當前語言區域的數字和字母和下劃線。

到此，我明白了，默認情況下，不設置任何標志，Python2 w匹配ASCII字符集里的字符，包括數字字符和下劃線，Python3 w匹配數字下劃線和Unicode字符集。所以，為了遷移方便，如果你想匹配ASCII字符集里的字符，指定標志為re.A，如果你想匹配Unicode字符集里的字符，指定標志為re.U。

總結

到此，我的問題是徹底解決了，但也有兩個教訓：

看網上的教程要多注意，特別是教程里的環境和自己環境的區別

多看官方文檔

關于Python2和Python3，還有很多區別，這里就不一一列舉了，歡迎大家留言討論。

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/44014.html

同樣是Python，怎么區別這么大

摘要：可是當我測試，我就懵逼了，中文真都驗證通過，不對啊，我以前也是這么過濾參數的，測試沒問題啊唯一的區別是現在用的是。發現問題上周，我的測試同事告訴我，你的用戶名怎么還允許中文啊？當時我心里就想，你們測試肯定又搞錯接口了，我用的是正則w過濾了參數，怎么可能出錯，除非Python正則系統出錯了，那是不可能的。本著嚴謹的作風，我自己先測試一下，沒問題看我怎么懟回去。可是當我測試，我就懵逼了...

lovXin 2019-07-31 10:29 評論0 收藏0
學了這么久的Python，這些知識點都掌握了嗎？

摘要：最近有粉絲在群里提出建議，找一小部分人組建一個小的學習小組，一起學自動化，對于學習這種事情，當然是好的，正好我自己最近也有計劃要從頭開始系統學一下自動化，與我的想法不謀而合，于是，就有了這第一篇文章。最近有粉絲在群里提出建議，找一小部分人組建一個小的學習小組，一起學python自動化，對于...

zhongmeizhi 2021-09-09 09:34 評論0 收藏0
Jupyter Notebook之初識及入門

摘要：所以，應該直接了當的安裝，其中也會自動安裝上，作為其運行的。這只是一開始，之后還有里各種找不到外部安裝的的情況。終于，意識到這些方法都是錯誤的思路。這才知道原來是無法識別。為什么要用IPython/Jupyter? python里面調試確實有點煩惱，尤其是在vim里，想要嘗試一些簡單的編碼問題，實在是有點麻煩，不想到命令行模式一行一行執行，也不想再新建一個文件測試一個簡單的功能。而...

plus2047 2019-07-30 16:45 評論0 收藏0
Jupyter Notebook之初識及入門

摘要：所以，應該直接了當的安裝，其中也會自動安裝上，作為其運行的。這只是一開始，之后還有里各種找不到外部安裝的的情況。終于，意識到這些方法都是錯誤的思路。這才知道原來是無法識別。為什么要用IPython/Jupyter? python里面調試確實有點煩惱，尤其是在vim里，想要嘗試一些簡單的編碼問題，實在是有點麻煩，不想到命令行模式一行一行執行，也不想再新建一個文件測試一個簡單的功能。而...

fredshare 2019-06-26 18:27 評論0 收藏0