国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

同樣是Python,怎么區(qū)別這么大

lovXin / 1687人閱讀

摘要:可是當(dāng)我測(cè)試,我就懵逼了,中文真都驗(yàn)證通過(guò),不對(duì)啊,我以前也是這么過(guò)濾參數(shù)的,測(cè)試沒(méi)問(wèn)題啊唯一的區(qū)別是現(xiàn)在用的是。

發(fā)現(xiàn)問(wèn)題

上周,我的測(cè)試同事告訴我,你的用戶名怎么還允許中文啊?當(dāng)時(shí)我心里就想,你們測(cè)試肯定又搞錯(cuò)接口了,我用的是正則w過(guò)濾了參數(shù),怎么可能出錯(cuò),除非Python正則系統(tǒng)出錯(cuò)了,那是不可能的。本著嚴(yán)謹(jǐn)?shù)淖黠L(fēng),我自己先測(cè)試一下,沒(méi)問(wèn)題看我怎么懟回去。可是當(dāng)我測(cè)試,我就懵逼了,中文真TM都驗(yàn)證通過(guò),不對(duì)啊,我以前也是這么過(guò)濾參數(shù)的,測(cè)試沒(méi)問(wèn)題啊?唯一的區(qū)別是現(xiàn)在用的是Python3。
上網(wǎng)搜了一圈,發(fā)現(xiàn)沒(méi)有一篇文章講述Python2和Python3的正則在處理字符串是的區(qū)別,都是一視同仁,知道我去翻了一遍官方文檔,才明白怎么回事。

問(wèn)題復(fù)現(xiàn)

我們都知道,Python有個(gè)正則規(guī)則w,幾乎所有的網(wǎng)上博客文章都告訴你,這個(gè)規(guī)則匹配字母數(shù)字及下劃線,但實(shí)際并不是這樣:
有Python2代碼如下:

~|? python
Python 2.7.10 (default, Aug 17 2018, 19:45:58)
[GCC 4.2.1 Compatible Apple LLVM 10.0.0 (clang-1000.0.42)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> aa = "捕蛇者說(shuō)"
>>> re.match("w{1,20}", aa)
>>> bb = "abc123ADB"
>>> re.match("w{1,20}", bb)
<_sre.SRE_Match object at 0x1031b0b28>

我們可以看到,在python2中,w是無(wú)法匹配中文的。那么,同樣的代碼在Python3中運(yùn)行結(jié)果是什么樣子的了?

~|? python3
Python 3.7.1 (default, Nov 28 2018, 11:55:14)
[Clang 9.0.0 (clang-900.0.39.2)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> aa = "捕蛇者說(shuō)"
>>> re.match("w{1,20}", aa)

>>> bb = "abc123ADB"
>>> re.match("w{1,20}", bb)

但在Python3中w是可以匹配中文的,這是怎么回事了?要回答這個(gè)問(wèn)題,我們要回到Python官方文檔中來(lái)尋找答案。

解決問(wèn)題

當(dāng)我們仔細(xì)閱讀Python的官方文檔時(shí),就會(huì)發(fā)現(xiàn),對(duì)于同樣的正則規(guī)則w,Python2和Python3區(qū)別好大,我們先來(lái)看看Python2:

When the LOCALE and UNICODE flags are not specified, matches any alphanumeric character and the underscore; this is equivalent to the set [a-zA-Z0-9_]. With LOCALE, it will match the set [0-9_] plus whatever characters are defined as alphanumeric for the current locale. If UNICODE is set, this will match the characters [0-9_] plus whatever is classified as alphanumeric in the Unicode character properties database.

翻譯一下:當(dāng)沒(méi)有設(shè)置LOCALE(re.L)和UNICODE(re.U)標(biāo)志,匹配數(shù)字字母和下劃線,如果設(shè)置了LOCALE(re.L)則匹配數(shù)字下劃線和LOCALE文字。如果設(shè)置了UNICODE(re.U)標(biāo)志,匹配數(shù)字下劃線和Unicode字符集里的字符。

那么Python3了:

對(duì)于 Unicode (str) 樣式:
匹配Unicode詞語(yǔ)的字符,包含了可以構(gòu)成詞語(yǔ)的絕大部分字符,也包括數(shù)字和下劃線。如果設(shè)置了 ASCII 標(biāo)志,就只匹配 [a-zA-Z0-9_] 。
對(duì)于8位(bytes)樣式:
匹配ASCII字符中的數(shù)字和字母和下劃線,就是 [a-zA-Z0-9_] 。如果設(shè)置了 LOCALE 標(biāo)記,就匹配當(dāng)前語(yǔ)言區(qū)域的數(shù)字和字母和下劃線。

到此,我明白了,默認(rèn)情況下,不設(shè)置任何標(biāo)志,Python2 w匹配ASCII字符集里的字符,包括數(shù)字字符和下劃線,Python3 w匹配數(shù)字下劃線和Unicode字符集。所以,為了遷移方便,如果你想匹配ASCII字符集里的字符,指定標(biāo)志為re.A,如果你想匹配Unicode字符集里的字符,指定標(biāo)志為re.U。

總結(jié)

到此,我的問(wèn)題是徹底解決了,但也有兩個(gè)教訓(xùn):

看網(wǎng)上的教程要多注意,特別是教程里的環(huán)境和自己環(huán)境的區(qū)別

多看官方文檔

關(guān)于Python2和Python3,還有很多區(qū)別,這里就不一一列舉了,歡迎大家留言討論。

獲取更多文章,關(guān)注我的公眾號(hào):littlebyte

收藏我的博客

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/43909.html

相關(guān)文章

  • 同樣PythonPython3和Python2怎么區(qū)別這么

    摘要:可是當(dāng)我測(cè)試,我就懵逼了,中文真都驗(yàn)證通過(guò),不對(duì)啊,我以前也是這么過(guò)濾參數(shù)的,測(cè)試沒(méi)問(wèn)題啊唯一的區(qū)別是現(xiàn)在用的是。 上周,我的測(cè)試同事告訴我,你的用戶名怎么還允許中文啊?當(dāng)時(shí)我心里就想,你們測(cè)試肯定又搞錯(cuò)接口了,我用的是正則w過(guò)濾了參數(shù),怎么可能出錯(cuò),除非Python正則系統(tǒng)出錯(cuò)了,那是不可能的。本著嚴(yán)謹(jǐn)?shù)淖黠L(fēng),我自己先測(cè)試一下,沒(méi)問(wèn)題看我怎么懟回去。可是當(dāng)我測(cè)試,我就懵逼了,中文真T...

    Raaabbit 評(píng)論0 收藏0
  • Python 開發(fā)者在遷移到 Go(lang) 時(shí)需要知道哪些事?

    摘要:如果你只對(duì)開發(fā)者需要了解的事感興趣,請(qǐng)下拉到早該知道的事板塊。在不泄露機(jī)密的情況下,利用支持向量機(jī)來(lái)獲取一個(gè)句子最可能的意思,并且以此來(lái)推斷句子的情感。也就是說(shuō),如果一個(gè)文檔包含個(gè)詞,就會(huì)與支持向量機(jī)進(jìn)行多次對(duì)比。 【編者按】本文最早由 Repustate 發(fā)布,主要介紹將代碼遷移至 Go(lang) 時(shí)的注意事項(xiàng)。文章系國(guó)內(nèi) ITOM 管理平臺(tái) OneAPM 編譯呈現(xiàn),以下為正文。 ...

    hqman 評(píng)論0 收藏0
  • Python進(jìn)階:迭代器與迭代器切片

    摘要:本文是切片系列的第三篇,主要內(nèi)容是迭代器切片。實(shí)際上,迭代器必然是可迭代對(duì)象,但可迭代對(duì)象不一定是迭代器。這是迭代器切片最具想象力的用途場(chǎng)景。考慮到文件對(duì)象天然就是迭代器,我們可以使用迭代器切片先行截取,然后再處理,如此效率將大大地提升。 2018-12-31 更新聲明:切片系列文章本是分三篇寫成,現(xiàn)已合并成一篇。合并后,修正了一些嚴(yán)重的錯(cuò)誤(如自定義序列切片的部分),還對(duì)行文結(jié)構(gòu)與章...

    hedge_hog 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<