国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

XXL-CRAWLER v1.2.2 發(fā)布,分布式爬蟲框架

zhaofeihao / 1882人閱讀

摘要:新特性系統(tǒng)底層重構(gòu),規(guī)范包名采集線程白名單過濾優(yōu)化,避免冗余失敗重試增強(qiáng)渲染方式采集能力,原生新提供,支持以方式采集頁面數(shù)據(jù)支持采集非頁面,如接口等,直接輸出響應(yīng)數(shù)據(jù)選擇即可簡介是一個(gè)分布式爬蟲框架。默認(rèn)提供單機(jī)版爬蟲。

v1.2.2 新特性

1、系統(tǒng)底層重構(gòu),規(guī)范包名;

2、采集線程白名單過濾優(yōu)化,避免冗余失敗重試;

3、增強(qiáng)JS渲染方式采集能力,原生新提供 "SeleniumPhantomjsPageLoader",支持以 "selenisum + phantomjs" 方式采集頁面數(shù)據(jù);

4、支持采集非Web頁面,如JSON接口等,直接輸出響應(yīng)數(shù)據(jù);選擇 "NonPageParser" 即可;

簡介

XXL-CRAWLER 是一個(gè)分布式爬蟲框架。一行代碼開發(fā)一個(gè)分布式爬蟲,擁有"多線程、異步、IP動(dòng)態(tài)代理、分布式、JS渲染"等特性;

特性

1、簡潔:API直觀簡潔,可快速上手;

2、輕量級(jí):底層實(shí)現(xiàn)僅強(qiáng)依賴jsoup,簡潔高效;

3、模塊化:模塊化的結(jié)構(gòu)設(shè)計(jì),可輕松擴(kuò)展

4、面向?qū)ο螅褐С滞ㄟ^注解,方便的映射頁面數(shù)據(jù)到PageVO對(duì)象,底層自動(dòng)完成PageVO對(duì)象的數(shù)據(jù)抽取和封裝返回;單個(gè)頁面支持抽取一個(gè)或多個(gè)PageVO

5、多線程:線程池方式運(yùn)行,提高采集效率;

6、分布式支持:通過擴(kuò)展 "RunData" 模塊,并結(jié)合Redis或DB共享運(yùn)行數(shù)據(jù)可實(shí)現(xiàn)分布式。默認(rèn)提供LocalRunData單機(jī)版爬蟲。

7、JS渲染:通過擴(kuò)展 "PageLoader" 模塊,支持采集JS動(dòng)態(tài)渲染數(shù)據(jù)。原生提供 Jsoup(非JS渲染,速度更快)、HtmlUnit(JS渲染)、Selenium+Phantomjs(JS渲染,兼容性高) 等多種實(shí)現(xiàn),支持自由擴(kuò)展其他實(shí)現(xiàn)。

8、失敗重試:請(qǐng)求失敗后重試,并支持設(shè)置重試次數(shù);

9、代理IP:對(duì)抗反采集策略規(guī)則WAF;

10、動(dòng)態(tài)代理:支持運(yùn)行時(shí)動(dòng)態(tài)調(diào)整代理池,以及自定義代理池路由策略;

11、異步:支持同步、異步兩種方式運(yùn)行;

12、擴(kuò)散全站:支持以現(xiàn)有URL為起點(diǎn)擴(kuò)散爬取整站;

13、去重:防止重復(fù)爬取;

14、URL白名單:支持設(shè)置頁面白名單正則,過濾URL;

15、自定義請(qǐng)求信息,如:請(qǐng)求參數(shù)、Cookie、Header、UserAgent輪詢、Referrer等;

16、動(dòng)態(tài)參數(shù):支持運(yùn)行時(shí)動(dòng)態(tài)調(diào)整請(qǐng)求參數(shù);

17、超時(shí)控制:支持設(shè)置爬蟲請(qǐng)求的超時(shí)時(shí)間;

18、主動(dòng)停頓:爬蟲線程處理完頁面之后進(jìn)行主動(dòng)停頓,避免過于頻繁被攔截;

文檔地址

中文文檔

技術(shù)交流

社區(qū)交流

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/71834.html

相關(guān)文章

  • XXL-CRAWLER v1.2.1 發(fā)布

    摘要:版本新特性渲染支持渲染方式采集數(shù)據(jù),可參考爬蟲示例抽象并設(shè)計(jì),方便自定義和擴(kuò)展頁面加載邏輯,如渲染等。默認(rèn)提供單機(jī)版爬蟲。渲染通過擴(kuò)展模塊,支持采集動(dòng)態(tài)渲染數(shù)據(jù)。原生提供快速推薦和較慢渲染兩種實(shí)現(xiàn),支持自由擴(kuò)展其他實(shí)現(xiàn)。 版本新特性 1、JS渲染:支持JS渲染方式采集數(shù)據(jù),可參考 爬蟲示例6; 2、抽象并設(shè)計(jì)PageLoader,方便自定義和擴(kuò)展頁面加載邏輯,如JS渲染等。底層提供 ...

    keithyau 評(píng)論0 收藏0
  • 面向?qū)ο蟮?em>分布式爬蟲框架XXL-CRAWLER

    摘要:面向?qū)ο蟮姆植际脚老x框架一簡介概述是一個(gè)面向?qū)ο蟮姆植际脚老x框架。分布式集群集群方式維護(hù)爬蟲爬蟲運(yùn)行數(shù)據(jù),可通過或定制實(shí)現(xiàn)。 《面向?qū)ο蟮姆植际脚老x框架XXL-CRAWLER》 showImg(https://segmentfault.com/img/remote/1460000011842697);showImg(https://segmentfault.com/img/remote...

    anquan 評(píng)論0 收藏0
  • 爬蟲平臺(tái)Crawlab v0.2發(fā)布

    摘要:是一個(gè)專注于爬蟲的集成了爬蟲管理任務(wù)調(diào)度任務(wù)監(jiān)控?cái)?shù)據(jù)分析等模塊的分布式爬蟲管理平臺(tái),非常適合對(duì)爬蟲管理爬蟲工程化有要求的開發(fā)者及企業(yè)。從目前開源的框架來看,大部分爬蟲平臺(tái)是以為核心,因此只能支持框架的爬蟲,而不僅支持,還支持其他框架的爬蟲。 showImg(https://segmentfault.com/img/remote/1460000019143107?w=2559&h=112...

    yiliang 評(píng)論0 收藏0
  • 海航生態(tài)科技輿情大數(shù)據(jù)平臺(tái)容器化改造

    摘要:本文轉(zhuǎn)載自微信公眾號(hào)賬號(hào),作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開發(fā)工程師高顏。文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺(tái)的容器化改造經(jīng)驗(yàn),包括初期技術(shù)架構(gòu)應(yīng)用容器化架構(gòu)遷移持續(xù)發(fā)布與部署。 本文轉(zhuǎn)載自微信公眾號(hào)Docker(賬號(hào):dockerone),作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開發(fā)工程師高顏。 文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺(tái)的容器化改造經(jīng)驗(yàn),包括初期技術(shù)架構(gòu)、應(yīng)用容器化、架構(gòu)遷...

    idealcn 評(píng)論0 收藏0
  • 利用 scrapy 集成社區(qū)爬蟲功能

    摘要:為了方便用戶展示自己的社區(qū)資料,雨點(diǎn)兒網(wǎng)中增加了一個(gè)社區(qū)爬蟲功能。方案使用運(yùn)行爬蟲鑒于項(xiàng)目當(dāng)前的架構(gòu),準(zhǔn)備使用來執(zhí)行異步爬蟲。可以同時(shí)執(zhí)行多個(gè)爬蟲,最大進(jìn)程數(shù)可配,防止系統(tǒng)過載。尾歡迎使用我們的爬蟲功能來收集社交資料。 序 社區(qū)活躍度或者貢獻(xiàn)越來越受到重視,往往會(huì)作為獲得工作或者承接項(xiàng)目的加分項(xiàng)。為了方便用戶展示自己的社區(qū)資料,雨點(diǎn)兒網(wǎng)中增加了一個(gè)社區(qū)爬蟲功能。 當(dāng)前只爬取了用戶主頁上...

    Yangyang 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<