国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

惡意爬蟲這樣窺探、爬取、威脅你的網(wǎng)站

wangbjun / 2581人閱讀

摘要:利用這一業(yè)務(wù)邏輯,惡意爬蟲通過各類社工庫拿到一批手機(jī)號(hào)后可以在短時(shí)內(nèi)驗(yàn)證這批號(hào)碼是否為某一網(wǎng)站的注冊(cè)用戶。事前的甄別預(yù)防才是關(guān)鍵惡意爬蟲在給網(wǎng)站帶來可觀訪問量的同時(shí),也帶來了難以估量的威脅和損失。

整個(gè)互聯(lián)網(wǎng)的流量中,真人占比有多少?

80% ??60% ??50% ?

根據(jù) Aberdeen Group 在近期發(fā)布的以北美幾百家公司數(shù)據(jù)為樣本的爬蟲調(diào)查報(bào)告顯示,2015 年網(wǎng)站流量中的真人訪問僅為總流量的 54.4% ,剩余的流量由 27% 的好爬蟲和 18.6% 的惡意爬蟲構(gòu)成。

爬與反爬的斗爭從未間斷

惡意爬蟲占比數(shù)據(jù)與 2013 年和 2014 年相比有所下降,同時(shí)真人訪問的占比也有所提升,但這并不意味著惡意爬蟲日漸式微。一個(gè)原因是印度、印度尼西亞等高人口總數(shù)國家的互聯(lián)網(wǎng)新增人口有大幅提升,另一方面,惡意爬蟲制造者更專注于爬蟲的質(zhì)量而不是數(shù)量,如今的惡意爬蟲具有高持續(xù)性和可變性。

爬與反爬的斗爭從未間斷。過去的初級(jí)爬蟲能很明顯從異常的 Headers 信息甄別,但爬蟲制造者從一次次爬與反爬中總結(jié)出可能被封的原因,通過不斷的測試和改善爬蟲程序,更新?lián)Q代后的高持續(xù)性惡意爬蟲通常具有以下特點(diǎn)中的某幾個(gè):

模仿真人行為

加載 Javascript 和外部資源

模擬 cookie 和 useragent

瀏覽器自動(dòng)化操作

變化的 IP 地址池

可能很多人認(rèn)為,惡意爬蟲只會(huì)威脅到少數(shù)以文本為核心價(jià)值的網(wǎng)站,其實(shí)這些能改變自己請(qǐng)求路徑和請(qǐng)求方式的偽裝者可能潛伏在任何一個(gè)網(wǎng)站的每一個(gè)角落,文本、圖片、價(jià)格、評(píng)論、接口、架構(gòu)等方方面面均有可能成為爬蟲的囊中物。

縱容爬蟲的危害你必須知道

從網(wǎng)站業(yè)務(wù)安全的角度,縱容這些偽裝者的危害有以下幾點(diǎn):

一、?核心文本被爬

網(wǎng)站的核心文本可能在幾小時(shí)甚至幾分鐘內(nèi)就被惡意爬蟲抓取并悄無聲息的復(fù)制到別的網(wǎng)站。核心內(nèi)容被復(fù)制會(huì)極大影響網(wǎng)站和網(wǎng)頁本身在搜索引擎上的排名,低排名會(huì)導(dǎo)致訪問量降低和銷量、廣告收益降低的惡性循環(huán)。

在內(nèi)容為王、用戶粘性不高的今天,核心內(nèi)容很大程度上會(huì)影響網(wǎng)站在用戶心目中的價(jià)值。若網(wǎng)站以文本為商品作為盈利點(diǎn),那惡意爬蟲更是影響 KPI 的罪魁禍?zhǔn)住?/p>

關(guān)注網(wǎng)站:
文學(xué)博客、招聘網(wǎng)站、論壇網(wǎng)站、電商內(nèi)的評(píng)論

二、商品價(jià)格被爬 1. 價(jià)格爬蟲的成因有兩種,一是網(wǎng)站競爭對(duì)手刻意爬取商品詳情和價(jià)格后進(jìn)行同類產(chǎn)品線和價(jià)格的研究。

比如某 APP 上線新的租車服務(wù)前,會(huì)爬取所有競品 APP 中的車型詳情及定價(jià)策略,為新服務(wù)上線打下價(jià)格優(yōu)勢。

另一個(gè)案例來自某酒店網(wǎng)站,我們?cè)跀?shù)據(jù)分析平臺(tái) Warden 實(shí)踐中發(fā)現(xiàn),網(wǎng)站的客房詳情被爬蟲攻擊,機(jī)器訪問的特點(diǎn)非常明顯:

頁面被某幾個(gè) IP 超高頻訪問,單個(gè) IP每小時(shí)訪問量達(dá) 5000 以上

部分 IP 的訪問路徑極為單一,僅請(qǐng)求房價(jià)詳情頁面,無真人訪問的“首頁→搜索→詳情頁→搜索”軌跡

訪問間隔極短,且每次均請(qǐng)求不同時(shí)間段不同地域不同編號(hào)的酒店客房信息

以上特點(diǎn)能完全排除真人訪問的可能,在?數(shù)據(jù)分析平臺(tái)中也觸發(fā)多個(gè)實(shí)時(shí)策略,讓我們可以協(xié)助用戶及時(shí)處理。


?* IP 點(diǎn)擊詳情


*某一條點(diǎn)擊詳情的 request 和 response 信息*


*點(diǎn)擊數(shù)及報(bào)警數(shù)統(tǒng)計(jì),紅點(diǎn)部分為觸發(fā)報(bào)警*

這類爬蟲就是典型的價(jià)格爬蟲,如不進(jìn)行實(shí)時(shí)判斷和攔截,網(wǎng)站的定價(jià)信息可能在幾小時(shí)內(nèi)就被競爭對(duì)手完全掌握。

2. 第二個(gè)成因是羊毛黨們?cè)噲D搜尋低價(jià)商品信息或在營銷大促前提前獲取情報(bào)尋找套利的可能。

比如某 P2P 行業(yè)客戶發(fā)現(xiàn)近幾個(gè)月理財(cái)轉(zhuǎn)讓專區(qū)的產(chǎn)品幾乎在放出 2 秒內(nèi)就被轉(zhuǎn)讓成功,而網(wǎng)站的活躍用戶并沒有大幅的增長,轉(zhuǎn)讓專區(qū)疑似被爬。

通過數(shù)據(jù)分析平臺(tái)能在流量中能看到該轉(zhuǎn)讓頁面正在遭受爬蟲的攻擊,攻擊者能在極短時(shí)間內(nèi)獲取轉(zhuǎn)讓產(chǎn)品的收益率并自動(dòng)篩選高收益率的產(chǎn)品,甚至能實(shí)現(xiàn)腳本自動(dòng)下單購買。
?

3. 另一個(gè)案例來自某電商平臺(tái)

某次聲勢浩大的營銷活動(dòng)規(guī)定新注冊(cè)用戶綁卡后能獲得一次抽獎(jiǎng)機(jī)會(huì),由于抽獎(jiǎng)接口遺漏了其他渠道分享入口,給羊毛黨有了不綁卡也能抽獎(jiǎng)的可趁之機(jī),造成活動(dòng)幾乎全部的獎(jiǎng)品被羊毛黨薅去。


*網(wǎng)站營銷頁面點(diǎn)擊量突增*


*風(fēng)險(xiǎn)情報(bào)系統(tǒng)提示該 IP 具有高風(fēng)險(xiǎn)分值*

在事后復(fù)盤時(shí),我們?cè)跀?shù)據(jù)分析平臺(tái)中發(fā)現(xiàn)羊毛黨活動(dòng)前疑似派出爬蟲探路,活動(dòng)匯總頁面被超高頻訪問,雖然訪問量并不集中于某幾個(gè) IP ,但有訪問地域集中于某兩個(gè)城市、訪問路徑單一且訪問間隔有規(guī)律等特點(diǎn)。另外,通過風(fēng)險(xiǎn)情報(bào)系統(tǒng) Red.Q 的數(shù)據(jù),同樣提示這些訪問 IP 的高風(fēng)險(xiǎn)分值,活動(dòng)開始后羊毛黨的訪問也有類似的訪問規(guī)律。
?
羊毛黨的活動(dòng)特性是個(gè)大話題,在此先不展開,但從案例中能看到,價(jià)格爬蟲是羊毛黨們的先鋒探路工具,攻擊者們可以通過爬蟲獲得營銷活動(dòng)的具體信息,同時(shí)能測試網(wǎng)站對(duì)高頻訪問或最大訪問量的限制,為之后的薅羊毛做鋪墊。

3.?注冊(cè)用戶被掃描

如果在網(wǎng)站的注冊(cè)頁面輸入一個(gè)已注冊(cè)過的號(hào)碼,通常會(huì)看到“該用戶已注冊(cè)”的提示,這一信息也會(huì)在請(qǐng)求的 response 中顯示,一些網(wǎng)站的短信接口也有類似邏輯,注冊(cè)用戶和非注冊(cè)用戶返回的字段和枚舉值會(huì)有不同。利用這一業(yè)務(wù)邏輯,惡意爬蟲通過各類社工庫拿到一批手機(jī)號(hào)后可以在短時(shí)內(nèi)驗(yàn)證這批號(hào)碼是否為某一網(wǎng)站的注冊(cè)用戶。

這個(gè)數(shù)據(jù)有什么利用價(jià)值?除了很明顯的違法欺詐外,攻擊者可以將數(shù)據(jù)打包出售給競爭對(duì)手或感興趣的數(shù)據(jù)營銷公司,完善他們的精準(zhǔn)營銷數(shù)據(jù)。

4.?其他危害

點(diǎn)擊欺詐:點(diǎn)擊欺詐會(huì)給網(wǎng)站造成實(shí)實(shí)在在的利益損失。投放廣告通常是為了觸達(dá)符合網(wǎng)站定位的潛在消費(fèi)者,爬蟲造成的點(diǎn)擊欺詐使得廣告的點(diǎn)擊率虛高,使得網(wǎng)站承擔(dān)了本不應(yīng)承擔(dān)的點(diǎn)擊費(fèi)用。從運(yùn)營角度出發(fā),訪問量無原因的忽高忽高也不利于分析廣告投放效果。

網(wǎng)站帶寬負(fù)擔(dān):對(duì)于帶寬有限的中小型網(wǎng)站,爬蟲可能會(huì)降低網(wǎng)頁加載速度,影響真實(shí)用戶的訪問體驗(yàn)。

事前的甄別預(yù)防才是關(guān)鍵

惡意爬蟲在給網(wǎng)站帶來可觀訪問量的同時(shí),也帶來了難以估量的威脅和損失。

從實(shí)際案例中我們可以看到,惡意爬蟲已經(jīng)承擔(dān)了整個(gè)攻擊環(huán)節(jié)先鋒者的重任,所以在分析網(wǎng)站的業(yè)務(wù)安全風(fēng)險(xiǎn)時(shí),我們可以更多的關(guān)注流量和用戶行為的異常點(diǎn),盡可能的在惡意行為剛發(fā)生時(shí)就及時(shí)甄別并做出合理的判斷和攔截,必要時(shí),宜采用專業(yè)的風(fēng)險(xiǎn)情報(bào)系統(tǒng)和數(shù)據(jù)分析平臺(tái)進(jìn)行系統(tǒng)的部署。對(duì)于企業(yè)來說,事前預(yù)防遠(yuǎn)比事后補(bǔ)救重要。

反爬蟲
文章來源:http://bigsec.com/

作者簡介

大星 豈安科技數(shù)據(jù)分析師?
3年互聯(lián)網(wǎng)數(shù)據(jù)分析及運(yùn)營經(jīng)驗(yàn),豐富的多行業(yè)業(yè)務(wù)風(fēng)險(xiǎn)反欺詐經(jīng)驗(yàn),負(fù)責(zé)豈安科技產(chǎn)品運(yùn)營及不同行業(yè)不同客戶的業(yè)務(wù)風(fēng)險(xiǎn)分析。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/39399.html

相關(guān)文章

  • python

    Python裝飾器為什么難理解? 無論項(xiàng)目中還是面試都離不開裝飾器話題,裝飾器的強(qiáng)大在于它能夠在不修改原有業(yè)務(wù)邏輯的情況下對(duì)代碼進(jìn)行擴(kuò)展,權(quán)限校驗(yàn)、用戶認(rèn)證、日志記錄、性能測試、事務(wù)處理、緩存等都是裝飾器的絕佳應(yīng)用場景,它能夠最大程度地對(duì)代碼進(jìn)行復(fù)用。 但為什么初學(xué)者對(duì)裝飾器的理解如此困難,我認(rèn)為本質(zhì)上是對(duì)Py… Python 實(shí)現(xiàn)車牌定位及分割 作者用 Python 實(shí)現(xiàn)車牌定位及分割的實(shí)踐。 ...

    chenatu 評(píng)論0 收藏0
  • AI重新定義Web安全

    摘要:在不便中,一直蘊(yùn)藏著技術(shù)革新的機(jī)會(huì)這時(shí),機(jī)器學(xué)習(xí)來了機(jī)器學(xué)習(xí)是解決安全問題的金鑰匙機(jī)器學(xué)習(xí)其實(shí)早已到來。正因?yàn)榘踩珕栴}本質(zhì)是特定領(lǐng)域內(nèi)的識(shí)別問題,所以從理論上講,機(jī)器學(xué)習(xí)非常適合應(yīng)用在安全領(lǐng)域,是解決安全問題的金鑰匙。 作者簡介: showImg(https://segmentfault.com/img/bVXnOA?w=279&h=306); 叢磊 白山合伙人兼工程副總裁。叢磊先生2...

    617035918 評(píng)論0 收藏0
  • 爬蟲 - 收藏集 - 掘金

    摘要:在這之前,還是有必要對(duì)一些概念超輕量級(jí)反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標(biāo)配系統(tǒng)。 爬蟲修煉之道——從網(wǎng)頁中提取結(jié)構(gòu)化數(shù)據(jù)并保存(以爬取糗百文本板塊所有糗事為例) - 后端 - 掘金歡迎大家關(guān)注我的專題:爬蟲修煉之道 上篇 爬蟲修煉之道——編寫一個(gè)爬取多頁面的網(wǎng)絡(luò)爬蟲主要講解了如何使用python編寫一個(gè)可以下載多頁面的爬蟲,如何將相對(duì)URL轉(zhuǎn)為絕對(duì)URL,如何限速,...

    1fe1se 評(píng)論0 收藏0
  • nodeJS實(shí)現(xiàn)基于Promise爬蟲 定時(shí)發(fā)送信息到指定郵件

    摘要:也就是說,我的篇文章的請(qǐng)求對(duì)應(yīng)個(gè)實(shí)例,這些實(shí)例都請(qǐng)求完畢后,執(zhí)行以下邏輯他的目的在于對(duì)每一個(gè)返回值這個(gè)返回值為單篇文章的內(nèi)容,進(jìn)行方法處理。 英國人Robert Pitt曾在Github上公布了他的爬蟲腳本,導(dǎo)致任何人都可以容易地取得Google Plus的大量公開用戶的ID信息。至今大概有2億2千5百萬用戶ID遭曝光。 亮點(diǎn)在于,這是個(gè)nodejs腳本,非常短,包括注釋只有71行。 ...

    xuweijian 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<