摘要:可以控制包括核心,插件,及組件。默認并發(fā)請求的最大值。該選項可以用來限制爬取速度,減輕服務(wù)器壓力。默認下載器超時時間單位秒。默認保存項目中啟用的及其順序的字典。默認的最低級別。代理設(shè)置示例禁用
Settings
Scrapy設(shè)置(settings)提供了定制Scrapy組件的方法。可以控制包括核心(core),插件(extension),pipeline及spider組件。比如 設(shè)置Json Pipeliine、LOG_LEVEL等。
參考文檔:http://scrapy-chs.readthedocs...
BOT_NAME
默認: "scrapybot"
當您使用 startproject 命令創(chuàng)建項目時其也被自動賦值。
CONCURRENT_ITEMS
默認: 100
Item Processor(即 Item Pipeline) 同時處理(每個response的)item的最大值。
CONCURRENT_REQUESTS
默認: 16
Scrapy downloader 并發(fā)請求(concurrent requests)的最大值。
DEFAULT_REQUEST_HEADERS
默認: 如下
{ "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "Accept-Language": "en", }
???????????????????????? Scrapy HTTP Request使用的默認header。
DEPTH_LIMIT
默認: 0
爬取網(wǎng)站最大允許的深度(depth)值。如果為0,則沒有限制。
DOWNLOAD_DELAY
默認: 0
下載器在下載同一個網(wǎng)站下一個頁面前需要等待的時間。該選項可以用來限制爬取速度, 減輕服務(wù)器壓力。同時也支持小數(shù):
DOWNLOAD_DELAY = 0.25 # 250 ms of delay
默認情況下,Scrapy在兩個請求間不等待一個固定的值, 而是使用0.5到1.5之間的一個隨機值 DOWNLOAD_DELAY 的結(jié)果作為等待間隔。
DOWNLOAD_TIMEOUT
默認: 180
下載器超時時間(單位: 秒)。
ITEM_PIPELINES
默認: {}
保存項目中啟用的pipeline及其順序的字典。該字典默認為空,值(value)任意,不過值(value)習(xí)慣設(shè)置在0-1000范圍內(nèi),值越小優(yōu)先級越高。
ITEM_PIPELINES = { "mySpider.pipelines.SomethingPipeline": 300, "mySpider.pipelines.ItcastJsonPipeline": 800, }
LOG_ENABLED
默認: True
是否啟用logging。
LOG_ENCODING
默認: "utf-8"
logging使用的編碼。
LOG_LEVEL
默認: "DEBUG"
log的最低級別。可選的級別有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。
USER_AGENT
默認: "Scrapy/VERSION (+http://scrapy.org)"
爬取的默認User-Agent,除非被覆蓋。
PROXIES: 代理設(shè)置
示例:
PROXIES = [ {"ip_port": "111.11.228.75:80", "password": ""}, {"ip_port": "120.198.243.22:80", "password": ""}, {"ip_port": "111.8.60.9:8123", "password": ""}, {"ip_port": "101.71.27.120:80", "password": ""}, {"ip_port": "122.96.59.104:80", "password": ""}, {"ip_port": "122.224.249.122:8088", "password":""}, ]
COOKIES_ENABLED = False
禁用Cookies
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/41419.html
摘要:提升篇之配置增加并發(fā)并發(fā)是指同時處理的的數(shù)量。其有全局限制和局部每個網(wǎng)站的限制。使用級別來報告這些信息。在進行通用爬取時并不需要,搜索引擎則忽略。禁止能減少使用率及爬蟲在內(nèi)存中記錄的蹤跡,提高性能。 scrapy提升篇之配置 增加并發(fā) 并發(fā)是指同時處理的request的數(shù)量。其有全局限制和局部(每個網(wǎng)站)的限制。Scrapy默認的全局并發(fā)限制對同時爬取大量網(wǎng)站的情況并不適用,因此您需要...
摘要:很多人學(xué)習(xí)爬蟲的第一驅(qū)動力就是爬取各大網(wǎng)站的妹子圖片,比如比較有名的。最后我們只需要運行程序,即可執(zhí)行爬取,程序運行命名如下完整代碼我已上傳到微信公眾號后臺,在癡海公眾號后臺回復(fù)即可獲取。本文首發(fā)于公眾號癡海,后臺回復(fù)即可獲取最新編程資源。 showImg(https://segmentfault.com/img/remote/1460000016780800); 閱讀文本大概需要 1...
摘要:坦克大戰(zhàn)上簡介上的坦克大戰(zhàn)相信大家都玩過有逃學(xué)玩坦克的可以自己默默的扣一個了我們現(xiàn)在長大了,學(xué)習(xí)游戲開發(fā)了。 寫在前面 上一篇(https://www.tech1024.cn/origi... )說了如何創(chuàng)建項目,并爬去網(wǎng)站內(nèi)容,下面我們說一下如何保存爬去到的數(shù)據(jù) 開始爬取 創(chuàng)建Spider,上一篇我們已經(jīng)創(chuàng)建了ImoocSpider,我們做一下修改,可以連續(xù)下一頁爬取。scrapyD...
摘要:安裝配置文件內(nèi)容如下守護進程,用這個的原因?qū)嵲谑且驗樘嗳趿耍豢床蛔【蛼炝税惭b配置導(dǎo)入默認配置鏈接管理設(shè)置管理進程啟動創(chuàng)建文件內(nèi)容如下啟動查看如一切正常常用命令查看狀態(tài)重新載入重啟任務(wù)可以更新配置檢查日志爬蟲部署部署項目目錄 scrapyd 安裝: sudo pip install scrapyd 配置: #文件~/.scrapyd.conf #內(nèi)容如下: [scrapyd] egg...
摘要:安裝配置文件內(nèi)容如下守護進程,用這個的原因?qū)嵲谑且驗樘嗳趿耍豢床蛔【蛼炝税惭b配置導(dǎo)入默認配置鏈接管理設(shè)置管理進程啟動創(chuàng)建文件內(nèi)容如下啟動查看如一切正常常用命令查看狀態(tài)重新載入重啟任務(wù)可以更新配置檢查日志爬蟲部署部署項目目錄 scrapyd 安裝: sudo pip install scrapyd 配置: #文件~/.scrapyd.conf #內(nèi)容如下: [scrapyd] egg...
閱讀 3368·2023-04-26 03:05
閱讀 1471·2019-08-30 13:09
閱讀 1916·2019-08-30 13:05
閱讀 894·2019-08-29 12:42
閱讀 1392·2019-08-28 18:18
閱讀 3452·2019-08-28 18:09
閱讀 525·2019-08-28 18:00
閱讀 1723·2019-08-26 12:10