摘要:可是當我測試,我就懵逼了,中文真都驗證通過,不對啊,我以前也是這么過濾參數的,測試沒問題啊唯一的區別是現在用的是。
上周,我的測試同事告訴我,你的用戶名怎么還允許中文啊?當時我心里就想,你們測試肯定又搞錯接口了,我用的是正則w過濾了參數,怎么可能出錯,除非Python正則系統出錯了,那是不可能的。本著嚴謹的作風,我自己先測試一下,沒問題看我怎么懟回去。可是當我測試,我就懵逼了,中文真TM都驗證通過,不對啊,我以前也是這么過濾參數的,測試沒問題啊?唯一的區別是現在用的是Python3。
上網搜了一圈,發現沒有一篇文章講述Python2和Python3的正則在處理字符串是的區別,都是一視同仁,知道我去翻了一遍官方文檔,才明白怎么回事。
我們都知道,Python有個正則規則w,幾乎所有的網上博客文章都告訴你,這個規則匹配字母數字及下劃線,但實際并不是這樣:
有Python2代碼如下:
~|? pythonPython 2.7.10 (default, Aug 17 2018, 19:45:58) [GCC 4.2.1 Compatible Apple LLVM 10.0.0 (clang-1000.0.42)] on darwinType "help", "copyright", "credits" or "license" for more information.>>> import re>>> aa = "捕蛇者說">>> re.match("w{1,20}", aa)>>> bb = "abc123ADB">>> re.match("w{1,20}", bb) <_sre.SRE_Match object at 0x1031b0b28>
我們可以看到,在python2中,w是無法匹配中文的。那么,同樣的代碼在Python3中運行結果是什么樣子的了?
~|? python3Python 3.7.1 (default, Nov 28 2018, 11:55:14) [Clang 9.0.0 (clang-900.0.39.2)] on darwinType "help", "copyright", "credits" or "license" for more information.>>> import re>>> aa = "捕蛇者說">>> re.match("w{1,20}", aa)>>> bb = "abc123ADB">>> re.match("w{1,20}", bb)
但在Python3中w是可以匹配中文的,這是怎么回事了?要回答這個問題,我們要回到Python官方文檔中來尋找答案。
解決問題當我們仔細閱讀Python的官方文檔時,就會發現,對于同樣的正則規則w,Python2和Python3區別好大,我們先來看看Python2:
When the LOCALE and UNICODE flags are not specified, matches any alphanumeric character and the underscore; this is equivalent to the set [a-zA-Z0-9_]. With LOCALE, it will match the set [0-9_] plus whatever characters are defined as alphanumeric for the current locale. If UNICODE is set, this will match the characters [0-9_] plus whatever is classified as alphanumeric in the Unicode character properties database.
翻譯一下:當沒有設置LOCALE(re.L)和UNICODE(re.U)標志,匹配數字字母和下劃線,如果設置了LOCALE(re.L)則匹配數字下劃線和LOCALE文字。如果設置了UNICODE(re.U)標志,匹配數字下劃線和Unicode字符集里的字符。
那么Python3了:
對于 Unicode (str) 樣式: 匹配Unicode詞語的字符,包含了可以構成詞語的絕大部分字符,也包括數字和下劃線。如果設置了 ASCII 標志,就只匹配 [a-zA-Z0-9_] 。 對于8位(bytes)樣式: 匹配ASCII字符中的數字和字母和下劃線,就是 [a-zA-Z0-9_] 。如果設置了 LOCALE 標記,就匹配當前語言區域的數字和字母和下劃線。
到此,我明白了,默認情況下,不設置任何標志,Python2 w匹配ASCII字符集里的字符,包括數字字符和下劃線,Python3 w匹配數字下劃線和Unicode字符集。所以,為了遷移方便,如果你想匹配ASCII字符集里的字符,指定標志為re.A,如果你想匹配Unicode字符集里的字符,指定標志為re.U。
總結到此,我的問題是徹底解決了,但也有兩個教訓:
看網上的教程要多注意,特別是教程里的環境和自己環境的區別
多看官方文檔
關于Python2和Python3,還有很多區別,這里就不一一列舉了,歡迎大家留言討論。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/44014.html
摘要:可是當我測試,我就懵逼了,中文真都驗證通過,不對啊,我以前也是這么過濾參數的,測試沒問題啊唯一的區別是現在用的是。 發現問題 上周,我的測試同事告訴我,你的用戶名怎么還允許中文啊?當時我心里就想,你們測試肯定又搞錯接口了,我用的是正則w過濾了參數,怎么可能出錯,除非Python正則系統出錯了,那是不可能的。本著嚴謹的作風,我自己先測試一下,沒問題看我怎么懟回去。可是當我測試,我就懵逼了...
摘要:最近有粉絲在群里提出建議,找一小部分人組建一個小的學習小組,一起學自動化,對于學習這種事情,當然是好的,正好我自己最近也有計劃要從頭開始系統學一下自動化,與我的想法不謀而合,于是,就有了這第一篇文章。 最近有粉絲在群里提出建議,找一小部分人組建一個小的學習小組,一起學python自動化,對于...
摘要:所以,應該直接了當的安裝,其中也會自動安裝上,作為其運行的。這只是一開始,之后還有里各種找不到外部安裝的的情況。終于,意識到這些方法都是錯誤的思路。這才知道原來是無法識別。 為什么要用IPython/Jupyter? python里面調試確實有點煩惱,尤其是在vim里,想要嘗試一些簡單的編碼問題,實在是有點麻煩,不想到命令行模式一行一行執行,也不想再新建一個文件測試一個簡單的功能。 而...
摘要:所以,應該直接了當的安裝,其中也會自動安裝上,作為其運行的。這只是一開始,之后還有里各種找不到外部安裝的的情況。終于,意識到這些方法都是錯誤的思路。這才知道原來是無法識別。 為什么要用IPython/Jupyter? python里面調試確實有點煩惱,尤其是在vim里,想要嘗試一些簡單的編碼問題,實在是有點麻煩,不想到命令行模式一行一行執行,也不想再新建一個文件測試一個簡單的功能。 而...
閱讀 1423·2021-10-08 10:05
閱讀 3074·2021-09-26 10:10
閱讀 888·2019-08-30 15:55
閱讀 512·2019-08-26 11:51
閱讀 448·2019-08-23 18:10
閱讀 3866·2019-08-23 15:39
閱讀 665·2019-08-23 14:50
閱讀 775·2019-08-23 14:46