Item Pipeline

whinc 發(fā)布于2019-07-30 15:39 / 3040人閱讀

摘要：當(dāng)在中被收集之后，它將會被傳遞到，這些組件按定義的順序處理。每個(gè)都是實(shí)現(xiàn)了簡單方法的類，比如決定此是丟棄而存儲。對象被開啟的可選實(shí)現(xiàn)，當(dāng)被開啟時(shí)，這個(gè)方法被調(diào)用。

Item Pipeline

當(dāng)Item在Spider中被收集之后，它將會被傳遞到Item Pipeline，這些Item Pipeline組件按定義的順序處理Item。

每個(gè)Item Pipeline都是實(shí)現(xiàn)了簡單方法的Python類，比如決定此Item是丟棄而存儲。以下是item pipeline的一些典型應(yīng)用：

驗(yàn)證爬取的數(shù)據(jù)(檢查item包含某些字段，比如說name字段)

查重(并丟棄)

將爬取結(jié)果保存到文件或者數(shù)據(jù)庫中

編寫item pipeline

編寫item pipeline很簡單，item pipiline組件是一個(gè)獨(dú)立的Python類，其中process_item()方法必須實(shí)現(xiàn):

import something

class SomethingPipeline(object):
    def __init__(self):    
        # 可選實(shí)現(xiàn)，做參數(shù)初始化等
        # doing something

    def process_item(self, item, spider):
        # item (Item 對象) – 被爬取的item
        # spider (Spider 對象) – 爬取該item的spider
        # 這個(gè)方法必須實(shí)現(xiàn)，每個(gè)item pipeline組件都需要調(diào)用該方法，
        # 這個(gè)方法必須返回一個(gè) Item 對象，被丟棄的item將不會被之后的pipeline組件所處理。
        return item

    def open_spider(self, spider):
        # spider (Spider 對象) – 被開啟的spider
        # 可選實(shí)現(xiàn)，當(dāng)spider被開啟時(shí)，這個(gè)方法被調(diào)用。

    def close_spider(self, spider):
        # spider (Spider 對象) – 被關(guān)閉的spider
        # 可選實(shí)現(xiàn)，當(dāng)spider被關(guān)閉時(shí)，這個(gè)方法被調(diào)用

啟用一個(gè)Item Pipeline組件

為了啟用Item Pipeline組件，必須將它的類添加到 settings.py文件ITEM_PIPELINES 配置，就像下面這個(gè)例子:

# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    #"mySpider.pipelines.SomePipeline": 300,
    "mySpider.pipelines.ItcastJsonPipeline":300
}

分配給每個(gè)類的整型值，確定了他們運(yùn)行的順序，item按數(shù)字從低到高的順序，通過pipeline，通常將這些數(shù)字定義在0-1000范圍內(nèi)（0-1000隨意設(shè)置，數(shù)值越低，組件的優(yōu)先級越高）

重新啟動(dòng)爬蟲

將parse()方法改為入門簡介中最后思考中的代碼，然后執(zhí)行下面的命令：

scrapy crawl itcast

查看當(dāng)前目錄是否生成teacher.json

云服務(wù)器 GPU云服務(wù)器 Pipeline item Item02 item2

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/41381.html

發(fā)表評論

登陸后可評論

0條評論

whinc

男|高級講師

我要關(guān)注我要私信

TA的文章

【微信開發(fā)】SpringBoot 集成微信小程序授權(quán)登錄

閱讀 3808·2021-11-12 10:34
主機(jī)空間默認(rèn)首頁文件是什么-虛擬主機(jī)中的默認(rèn)首頁是什么？

閱讀 2823·2021-09-22 15:14
總結(jié)一下各種0.5px的線

閱讀 790·2019-08-30 15:53
怎么實(shí)現(xiàn)微信聊天時(shí)的氣泡圖（一）

閱讀 3207·2019-08-30 12:53
Css-移動(dòng)端適配總結(jié)

閱讀 1293·2019-08-29 18:32
css3 新特性

閱讀 2772·2019-08-29 16:41
Js-函數(shù)式編程

閱讀 1070·2019-08-26 13:40
通過拖動(dòng)列表，重新獲取列表的排序

閱讀 1813·2019-08-23 18:07

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Item Pipeline

相關(guān)文章

**scrapy學(xué)習(xí)筆記(三)：使用item與pipeline保存數(shù)據(jù)**

Python爬蟲 - scrapy - 爬取豆瓣電影TOP250

Python Scrapy爬蟲框架學(xué)習(xí)

從零開始的Python爬蟲速成指南

發(fā)表評論

0條評論

whinc

男|高級講師

TA的文章

【微信開發(fā)】SpringBoot 集成微信小程序授權(quán)登錄

主機(jī)空間默認(rèn)首頁文件是什么-虛擬主機(jī)中的默認(rèn)首頁是什么？

總結(jié)一下各種0.5px的線

怎么實(shí)現(xiàn)微信聊天時(shí)的氣泡圖（一）

Css-移動(dòng)端適配總結(jié)

css3 新特性

Js-函數(shù)式編程

通過拖動(dòng)列表，重新獲取列表的排序

最新活動(dòng)