Scrapy 之 settings

pekonchan 發(fā)布于2019-07-30 15:42 / 388人閱讀

摘要：可以控制包括核心，插件，及組件。默認并發(fā)請求的最大值。該選項可以用來限制爬取速度，減輕服務(wù)器壓力。默認下載器超時時間單位秒。默認保存項目中啟用的及其順序的字典。默認的最低級別。代理設(shè)置示例禁用

Settings

Scrapy設(shè)置(settings)提供了定制Scrapy組件的方法。可以控制包括核心(core)，插件(extension)，pipeline及spider組件。比如設(shè)置Json Pipeliine、LOG_LEVEL等。

參考文檔：http://scrapy-chs.readthedocs...

內(nèi)置設(shè)置參考手冊

BOT_NAME

默認: "scrapybot"

當您使用 startproject 命令創(chuàng)建項目時其也被自動賦值。

CONCURRENT_ITEMS

默認: 100

Item Processor(即 Item Pipeline) 同時處理(每個response的)item的最大值。

CONCURRENT_REQUESTS

默認: 16

Scrapy downloader 并發(fā)請求(concurrent requests)的最大值。

DEFAULT_REQUEST_HEADERS

默認: 如下

     {
     "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
     "Accept-Language": "en",
     }

???????????????????????? Scrapy HTTP Request使用的默認header。

DEPTH_LIMIT

默認: 0

爬取網(wǎng)站最大允許的深度(depth)值。如果為0，則沒有限制。

DOWNLOAD_DELAY

默認: 0

下載器在下載同一個網(wǎng)站下一個頁面前需要等待的時間。該選項可以用來限制爬取速度，減輕服務(wù)器壓力。同時也支持小數(shù):

DOWNLOAD_DELAY = 0.25 # 250 ms of delay

默認情況下，Scrapy在兩個請求間不等待一個固定的值，而是使用0.5到1.5之間的一個隨機值 DOWNLOAD_DELAY 的結(jié)果作為等待間隔。

DOWNLOAD_TIMEOUT

默認: 180

下載器超時時間(單位: 秒)。

ITEM_PIPELINES

默認: {}

保存項目中啟用的pipeline及其順序的字典。該字典默認為空，值(value)任意，不過值(value)習(xí)慣設(shè)置在0-1000范圍內(nèi)，值越小優(yōu)先級越高。

            ITEM_PIPELINES = {
            "mySpider.pipelines.SomethingPipeline": 300,
            "mySpider.pipelines.ItcastJsonPipeline": 800,
            }

LOG_ENABLED

默認: True

是否啟用logging。

LOG_ENCODING

默認: "utf-8"

logging使用的編碼。

LOG_LEVEL

默認: "DEBUG"

log的最低級別。可選的級別有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。

USER_AGENT

默認: "Scrapy/VERSION (+http://scrapy.org)"

爬取的默認User-Agent，除非被覆蓋。

PROXIES：代理設(shè)置

示例：

   PROXIES = [
      {"ip_port": "111.11.228.75:80", "password": ""},
      {"ip_port": "120.198.243.22:80", "password": ""},
      {"ip_port": "111.8.60.9:8123", "password": ""},
      {"ip_port": "101.71.27.120:80", "password": ""},
      {"ip_port": "122.96.59.104:80", "password": ""},
      {"ip_port": "122.224.249.122:8088", "password":""},
    ]

COOKIES_ENABLED = False

禁用Cookies