摘要:目前許多程序設計語言都支持利用正則表達式進行字符串操作。本文中的正則表達式轉化為關系圖來展示的工具是此文主要參考和學習了老姚的正則表達式迷你書,內容清晰明了,在此非常感謝老姚的精神,致敬。參考文獻老姚著正則表達式迷你書
認識正則sharplook作為專業的日志采集分析系統,涉及的技術點,從后到前著實不少,內容也較為復雜。正則作為日志解析的手段,起著舉足輕重的作用,在此小生將晦澀難懂的內容,拆解出來以便學習之用。
維基百科對其的定義是:“正則表達式,又稱正規表示式、正規表示法、正規表達式、規則表達式、常規表示法(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE),是計算機科學的一個概念。正則表達式使用單個字符串來描述、匹配一系列匹配某個句法規則的字符串。在很多文本編輯器里,正則表達式通常被用來檢索、替換那些匹配某個模式的文本。” 目前許多程序設計語言都支持利用正則表達式進行字符串操作。簡單地理解就是,正則表達式是用于匹配字符串中字符組合的模式,要么匹配字符,要么匹配位置。
內容大綱目前暫定以下內容將在后期分享于諸君,本篇先介紹正則表達式里面的字符匹配,實例都將以JavaScript代碼演示,其實正則沒有語言界限,小生也不是強權主義,只是寫來方便罷了。
字符匹配
位置匹配
分組匹配
待續....
模糊匹配正則表達式不僅可以精確匹配還可以模糊匹配,倘若只有精確匹配,那正則就太弱了,也不值得在此繼續聊下去。
const reg = /hello, world/; console.log(reg.test("hello ,world")); // => true
而強大的模糊匹配,有兩個方向上的“模糊”: 橫向模糊和縱向模糊。
橫向模糊橫向模糊指的是,一個正則可匹配的字符串的長度是不確定的,可以是多種情況。
其實現的方式是量詞。例如{m,n},表示最少出現m次,最多出現n次。例如正則/ab{2,4}c/表示匹配一個“a”,緊接著匹配2個或者3個或者4個連續的字母“b”,最后匹配字母“c”。
可視化圖如下:
測試如下:
const reg = /ab{2,4}c/g; const string = "abc abbc abbbc abbbbc abbbbbc"; console.log(string.match(reg)); // => ["abc", "abbc", "abbbc", "abbbbc"]
縱向模糊正則 /ab{2,4}c/g中的‘g’是正則的修飾符,表示此正則采用全局匹配,按照順序匹配出所有符合正則的字符串,g表示global。
縱向模糊指的是,一個正則匹配的字符串,當匹配到某一位的字符時,并不是一個特定的字符,其有多種可能性。
其實現的方式是字符組。例如[abc],表示匹配的字符可能是“a”,“b”,“c”中的一個。 例如/a[123]b/表示匹配的是“a1b”,“a2b”,“a3b”其中一個。
可視化圖如下:
測試如下:
const reg = /a[123]c/g; const string = "a1c a2c a3c a4c"; console.log(string.match(reg)); // => ["a1c", "a2c", "a3c"];字符組
字符組雖然是組的概念,但是只是表示其中一個字符。
例如[abc],表示匹配其中一個字符,它可以是“a”,“b”,“c”之一。
范圍表示法如果字符組中的字符非常多的話,怎么辦呢?可以使用范圍表示法。
例如“1234567abcdefgHIJKLMN”可是表示為[1-7a-gH-N]。用連字符“-”表示簡寫中間的項。
在這里“-”表示特殊含義,如果正則匹配需要匹配這個字符,比如匹配“a”,“h”,“-”怎么辦呢? 可以寫成[-ah],[ah-],[a-h]中的一種,這樣就可以避免被作為連字符來處理了。
排除字符組在縱向匹配中,我們還會遇到一種情況,那就是我們不希望匹配到字符組的任何一個字符。例如不能匹配“a”,“b”,“c”。
此時就出現了排除字符組的概念。例如[^abc],表示匹配除了“a”,“b”,“c”字符之外的任意一個字符。字符組中第一位放^脫字符,表示求反的概念。
當然,也有相應的范圍表示法,例如:[^a-h]。
常見的簡寫有了字符組的概念之后,我們就很容易理解系統自帶的簡寫方式了。
d: 表示 [0-9]。表示是一位數字。 記憶方式: 其英文是 digit(數字)。
D: 表示 [^0-9]。表示除數字外的任意一個字符。
w: 表示 [0-9a-zA-Z_]。表示數字、大小寫字母和下劃線。記憶方式:w是 word的簡寫,也表示單詞字符。
W: 表示 [^0-9a-zA-Z_]。表示除了數字、大小寫字母和下劃線之外的任意一個字符。非單詞字符。
s: 表示 [ v f]。表示空白符,包括空格、水平制表符、垂直制表符、換行符、回車符、換頁符。記憶方式: s是 space的首字母,空白字符的單詞是 white space。
S: 表示 [^ v f],表示非空白符。
. : 表示 [^ u2028u2029]。通配符,表示幾乎任意字符,除了換行符、回車符、行分隔符和段分隔符除外。記憶方式:想想省略號 ... 中的每個點,此處省略了無數個字(什么情況都可能發生)。
如果表示任意字符,怎么辦? 可以使用[dD],[wW],[sS]和[^]中任何一個。
/dDwWsS.[^]/的可視化表示如下:
量詞量詞也稱為重復詞。理解了{m,n}后,我們再來記住一些簡寫方式。
簡寫方式{m,}:表示至少出現m次。
{m} :表示出現m次,等價于{m,m}。
? :表示出現一次或者不出現,等價于{0,1}。記憶方式: 問號的表示意思,有嗎?
+ :表示出現一個或者多次,等價于{1,}。記憶方式: 加好是追加的意思,先得到一個,以后的再追加。
* :表示出現任意次數,可能不出現。記憶方式: 好比天上的星星,可能一個沒有,可能只有零星幾個,也可能有無數多。
貪婪匹配與惰性匹配先看一個簡單的例子:
const reg = /d{2,5}/g; const string = "123 1234 12345 123456"; console.log(string.match(reg)); // => ["123", "1234", "12345", "12345"]
其中正則/d{2,5}/表示匹配連續的數字2次到5次。會匹配2位、3位、4位、5位連續數字。
但是其是貪婪的,它會盡可能多的匹配。你能給我 5 個,我就要 5 個。你能給我 3 個,我就要 3 個。
反正只要在能力范圍內,越多越好。
但是有時候貪婪并不是一件好事(人心不足,蛇吞象)。而惰性匹配,就是盡可能少的匹配,例如下:
const reg = /d{2,5}?/g; const string = "123 1234 12345 123456"; console.log(string.match(reg)); // => ["12", "12", "34", "12", "34", "12", "34", "56"]
其中 /d{2,5}?/ 表示,雖然 2 到 5 次都行,當 2 個就夠的時候,就不再往下嘗試了。
對惰性匹配的記憶方式是: 量詞后面加個問號,問一問你知足了嗎,你很貪婪嗎?
多選分支一個模式可以實現橫向匹配和縱向匹配,而多分支可以支持多個子模式任選其一。
具體形式如下(p1|p2|p3),其中p1、p2和p3是子模式,用|(管道符)分隔,表示任選其一。
例如匹配hello或者world,正則式為/hello|world/。
可視化形式如下:
測試如下:
const reg = /hello|world/g; const string = "hello lemon, world is yours!"; console.log(string.match(reg)); // => ["hello", "world"]
需要注意的地方是,he|hello,你想匹配“hello”這個單詞,結果是“he”。
如下實例:
const reg = /he|hello/g; const string = "hello"; console.log(string.match(reg)); // => ["he"]
如果你的正則改為hello|he。匹配的結果就是“hello”
如下實例:
const reg = /hello|he/g; const string = "hello"; console.log(string.match(reg)); // => ["hello"]
由此可知,多分支結構匹配也是惰性的,當前面匹配上之后,后面就不在匹配了。
小結正則表達式是一個優秀程序員的基本技能,本身雖然不是很復雜,但內容卻比較雜亂,能一步一步理清思路是很重要的,本章主要先介紹了字符的匹配,下一章將介紹位置的匹配。
本文中的正則表達式轉化為關系圖來展示的工具是Regexper
此文主要參考和學習了老姚的《JavaScript 正則表達式迷你書》,內容清晰明了,在此非常感謝老姚的 free精神,致敬。
參考文獻[1] 老姚 著《JavaScript 正則表達式迷你書》
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/89786.html
摘要:正則表達式作為一個匹配的模板,是由定界符,原子普通字符,例如有特殊功能的字符稱為元字符,例如等以及模式修正符等部分組成的文字模式。正則表達式中可以使用編碼。限定符限定符用來指定正則表達式的一個給定原子必須要出現多少次才能滿足匹配。 正則表達式的定義 正則表達式就是描述字符排列模式的一種自定義的語法規則。由于正則表達式本身具有一套非常完整的、可以編寫模式的語法體系,提供了一種靈活且直觀的...
摘要:拿舉例子只想說明你總會在一些陰暗的角落遇到正則表達式,為了到時候不至于一頭霧水,我們最好簡單的了解一下正則表達式的使用。 為什么要學正則表達式 很多人對正則表達式的認知只是在進行表單驗證的時候在網上搜一段正則表達式進行copy,實際工作上好像很難遇到大段的正則表達式 我第一次看到大量的正則使用是在jQuery源碼中,當時看的頭疼只好草草的看下大概思路不了了之,但是到今天我依然不認為這種...
摘要:正則的擴展參數為字符串,那么第二個參數表示正則表達式的修飾符,如下等價于參數為一個正則表達式,這時返回一個原有正則表達式的拷貝。如下調用調用調用調用修飾符對正則表達式添加了修飾符,用來正確處理大于的字符。 showImg(https://segmentfault.com/img/bVbrJqm?w=800&h=1200); 1. 正則的擴展 參數為字符串, 那么第二個參數表示正則表達式...
閱讀 2716·2023-04-25 14:59
閱讀 910·2021-11-22 11:59
閱讀 650·2021-11-17 09:33
閱讀 2478·2021-09-27 13:34
閱讀 3915·2021-09-09 11:55
閱讀 2334·2019-08-30 15:44
閱讀 1137·2019-08-30 14:06
閱讀 1938·2019-08-29 16:55