摘要:極簡爬蟲攻防戰(zhàn)紀(jì)要爬蟲是構(gòu)建搜索引擎的基礎(chǔ)負(fù)責(zé)抓取網(wǎng)頁信息并對網(wǎng)頁識別分類及過濾。爬蟲方終于鎖定了第一場戰(zhàn)役的勝局由于斷崖式技術(shù)的出現(xiàn),反爬方在瀏覽器識別戰(zhàn)役上望風(fēng)披靡。經(jīng)過反爬方的精心運(yùn)作,逐漸有效削弱了敵方的攻勢。
極簡爬蟲攻防戰(zhàn)紀(jì)要
? ??爬蟲是構(gòu)建搜索引擎的基礎(chǔ), 負(fù)責(zé)抓取網(wǎng)頁信息并對網(wǎng)頁識別、分類及過濾。我們熟識的電商、搜索、新聞及各大門戶網(wǎng)站都有強(qiáng)大的爬蟲集群在每天高負(fù)荷運(yùn)轉(zhuǎn): 京東 v.s. 淘寶 v.s. 拼多多相互之間"友好地"價格監(jiān)控, 頭條 v.s. 網(wǎng)易 v.s. 騰訊相互之間"和諧地"新聞消息聚合借鑒, Google / 百度 / 搜狗紛紛盡職地做網(wǎng)頁信息的搜索優(yōu)化以及各大研究機(jī)構(gòu)賣力地進(jìn)行數(shù)據(jù)集構(gòu)建。
? ??然而, 各大網(wǎng)站是不太會對非搜索引擎的爬蟲網(wǎng)開一面、任其予取予求的,畢竟無論什么時候,內(nèi)容的價值都是顯而易見的,所以就有了下面的爬蟲方與反爬方的混戰(zhàn)大戲~
? ??各個巨頭之間的爬蟲與反爬蟲的攻防戰(zhàn)斗沒有一刻放松, 反爬網(wǎng)站要想制定反爬策略, 就要根據(jù)爬蟲的特性針對性選擇方案, 那么爬蟲有什么特點? 腳本 + 自動化。因此反爬方的毀滅性大招無非兩個:
非腳本訪問 => 瀏覽器真實性檢測
非自動化訪問 => 訪問用戶真實性檢測
慘烈的戰(zhàn)斗即將打響! 非戰(zhàn)斗人員迅速撤離!
Round One: Are you Really a Browser?? ??瀏覽器由于其運(yùn)行環(huán)境及運(yùn)行原理, 會自帶一些特有的屬性: 存在Headers用于協(xié)議negotiation、可執(zhí)行JavaScript代碼片段。那么反爬方的第一個堡壘就基于瀏覽器的真實性檢測開始構(gòu)建。Round Two:Are you Really a Human?
? ??戰(zhàn)役伊始, 反爬蟲方率先祭出User-Agent, Content-Type, Application/*,iAccept-Encoding, Accept-Language, X-Forwarded-For, Referer等headers電網(wǎng), 第一批與正常瀏覽器headers不同的爬蟲紛紛觸發(fā), 瞬間斃命。然而, 爬蟲方也不是吃素的! 他們用了一招漂亮的瞞天過海, 迅速通過偽造headers的方式突破防線!
? ??反爬方絲毫不慌, 在html中添加了一段JavaScript腳本地雷, 己方瀏覽器由于提前知道了地雷的位置,可以安全繞過, 不會影響正常的網(wǎng)頁顯示, 爬蟲方卻不明就里, 紛紛中招, 非死即傷,直到大殺器Node.js出現(xiàn),可以直接執(zhí)行JavaScript,爬蟲方終于奮起反擊,再下一城!![image.png](https://intranetproxy.alipay.com/skylark/lark/0/2019/png/88875/1565271756288-b128de6c-0efa-42bb-9b56-8fdc09caaf77.png#align=left&display=inline&height=178&name=image.png&originHeight=178&originWidth=984&size=194086&status=done&width=984)
? ??反爬方一計不成又生一計, 采用了迷宮式防御 — 單頁應(yīng)用 — 的方式重鑄了堡壘,爬蟲方費(fèi)盡了心機(jī)卻由于單頁應(yīng)用巧妙的構(gòu)筑方式而解析不到任何數(shù)據(jù),一時間被繞得暈頭轉(zhuǎn)向,束手無策,單頁應(yīng)用統(tǒng)治了戰(zhàn)場!反爬方開始了單方面的屠殺,爬蟲方的士氣一蹶不振…...**千軍坐鎮(zhèn),百將舍身,十年磨劍,一鳴驚人!**終于,這場戰(zhàn)役的終結(jié)者出現(xiàn)了,他就是,Headless Chrome技術(shù)!新技術(shù)一出現(xiàn),爬蟲方的武器庫煥然一新:Selenium,Puppeteer, PhantomJS, CasperJS等重裝攻城殺器不斷建功,反爬方一潰千里。爬蟲方終于鎖定了第一場戰(zhàn)役的勝局!
? ??由于斷崖式技術(shù)Headless Chrome的出現(xiàn),反爬方在瀏覽器識別戰(zhàn)役上望風(fēng)披靡。然而勝敗乃兵家常事,東方不亮西方亮。在數(shù)據(jù)保衛(wèi)戰(zhàn)生死存亡的關(guān)頭, 反爬方偶然發(fā)現(xiàn)了一個現(xiàn)象,瀏覽器雖然很難識別,但是人性是貪婪的!人類能做到很多腳本做不到的事!甚至人類的行為也是有固定的規(guī)律的!就這樣,反爬方臥薪嘗膽了許久,終于再次踏上了戰(zhàn)場!這一役的制高點,是一個靈魂兼哲學(xué)的雙層拷問:**你到底是不是人?!**
? ??第一層防線直指爬蟲方的要害 — 貪欲(訪問頻率)!每秒鐘請求10次這種高頻訪問,怎么可能發(fā)生在一個人類的身上,斬!爬蟲方不得不大幅降低了攻擊頻率,反爬方終于緩了一口氣。
? ??第二層防線指向爬蟲方的痛處 — 懶惰(固定IP)!最近的幾百次請求,都是同一個IP發(fā)出來的,世間哪有這么無聊的人?斬!爬蟲方為此不得不付出巨大的代價來購買代理ip,即使是這樣,反爬方依然可以通過封禁公網(wǎng)IP的方式來緊掉大量的代理地址。經(jīng)過反爬方的精心運(yùn)作,逐漸有效削弱了敵方的攻勢。
? ??戰(zhàn)役再次升級,反爬方請出了大國重器:驗證碼!大國重器上線不久即大獲成功,爬蟲方立刻損失慘重,仿佛一夜之間,所有的攻城器械都告無效,攻堅戰(zhàn)陷入了僵局……直到爬蟲方積年的技術(shù)積累取得的OCR重劍技術(shù)破土而出,才逐漸扭轉(zhuǎn)頹勢,但是依然不能壓制攻下的城池內(nèi)地下黨的反撲, 尤其是爬蟲方主力Google的反水技術(shù):
![image.png](https://intranetproxy.alipay.com/skylark/lark/0/2019/png/88875/1565271766680-40f3be34-fcb7-4122-b998-bbc725706240.png#align=left&display=inline&height=110&name=image.png&originHeight=110&originWidth=424&size=14653&status=done&width=424)
甫一投戰(zhàn),反爬方立即大獲全勝!
? ??最后,反爬方乘勝追擊,祭出了終極防御:模式識別。爬蟲畢竟不是人類,在請求的時候只能機(jī)械地設(shè)置目標(biāo)資源的請求id和請求參數(shù),這就導(dǎo)致請求參數(shù)和請求順序必定是一致的。利用這一規(guī)律,反爬方通過設(shè)置閾值的方式對請求進(jìn)行統(tǒng)計和識別,終于徹底杜絕了爬蟲偽裝成人類的進(jìn)攻!第二場戰(zhàn)役,反爬方勝利!
兩場戰(zhàn)役下來, 雙方互有勝負(fù),激烈的戰(zhàn)斗仍在繼續(xù)。恭祝雙方戰(zhàn)出友誼, 戰(zhàn)出激情!
--?一個曾經(jīng)親歷過爬蟲與反爬蟲之戰(zhàn)的老兵為您現(xiàn)場報導(dǎo), 感謝您的收看, 再見!
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/110063.html
摘要:而搜索引擎如百度和微軟搜索,搜索等通過什么方式才能收錄我們的個人網(wǎng)站呢答案是搜索引擎的網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲是一個很形象的名詞,是屬于搜索引擎的工具,只有被這些網(wǎng)絡(luò)爬蟲爬過的內(nèi)容才有機(jī)會出現(xiàn)在對應(yīng)搜索引擎的搜索結(jié)果中。 不知道廣大程序員朋友們注意到一個現(xiàn)象么?使用百度是無法搜索到淘寶網(wǎng)的網(wǎng)頁。為什么會造成這種現(xiàn)象?這就要從網(wǎng)絡(luò)爬蟲說起了。 咱們程序員假如自己搭設(shè)個人網(wǎng)站,在上面分享少量自己...
摘要:之前在學(xué)校曾經(jīng)用過的方法做過一些爬蟲腳本來玩,從正式轉(zhuǎn)前端之后,出于興趣,我對爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實踐。爬蟲腳本通常會很頻繁的進(jìn)行網(wǎng)絡(luò)請求,比如要爬取豆瓣排行榜的電影,就會連續(xù)發(fā)送個網(wǎng)絡(luò)請求。 之前在學(xué)校曾經(jīng)用過request+xpath的方法做過一些爬蟲腳本來玩,從ios正式轉(zhuǎn)前端之后,出于興趣,我對爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實踐...
摘要:之前在學(xué)校曾經(jīng)用過的方法做過一些爬蟲腳本來玩,從正式轉(zhuǎn)前端之后,出于興趣,我對爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實踐。爬蟲腳本通常會很頻繁的進(jìn)行網(wǎng)絡(luò)請求,比如要爬取豆瓣排行榜的電影,就會連續(xù)發(fā)送個網(wǎng)絡(luò)請求。 之前在學(xué)校曾經(jīng)用過request+xpath的方法做過一些爬蟲腳本來玩,從ios正式轉(zhuǎn)前端之后,出于興趣,我對爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實踐...
摘要:沒有結(jié)果返回百度搜索的可以指定頁碼,最多一頁個,使用后有效減少了連接次數(shù)。但親測下來設(shè)置過以后的結(jié)果與實際用戶在百度搜索的結(jié)果排序和個數(shù)都有出入。 showImg(https://segmentfault.com/img/bVbnA0I?w=1280&h=787); 一直有一個需求,希望看到自己網(wǎng)站在百度的實時的排名用過一些工具,要么反應(yīng)遲鈍,要么結(jié)果不準(zhǔn)確或不實時于是打算用jsoup...
閱讀 1627·2021-11-22 13:53
閱讀 2861·2021-11-15 18:10
閱讀 2767·2021-09-23 11:21
閱讀 2511·2019-08-30 15:55
閱讀 486·2019-08-30 13:02
閱讀 763·2019-08-29 17:22
閱讀 1705·2019-08-29 13:56
閱讀 3462·2019-08-29 11:31