scrapy入門

CrazyCodes 發(fā)布于2019-07-30 17:33 / 1375人閱讀

摘要：快速入門首先，初步要做的就是快速構(gòu)建一個爬蟲。然后把結(jié)果加入到一個隊列中。既然是入門，我們肯定是先關(guān)心我們需要的。

因為公司項目需求，需要做一個爬蟲。所以我一個python小白就被拉去做了爬蟲。花了兩周時間，拼拼湊湊總算趕出來了。所以寫個blog做個記錄。

快速入門

首先，初步要做的就是快速構(gòu)建一個爬蟲。

配置環(huán)境 Mac下安裝

1) 直接從官網(wǎng)下載
python下載官網(wǎng)

2) 是通過brew安裝
首先安裝xcode
可以選擇在App Store安裝或者使用xcode-select --install這個命令安裝

接著安裝brew

usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

把這個命令輸入終端運行就可以安裝了
brew官網(wǎng)

接著利用brew安裝python3
brew install python3

安裝完python3以后，我們來裝scrapy。因為python3是自帶pip3的，
所以如果找不到該命令的話，可以去看看python3的安裝路徑。brew是將其安裝在了usrlocalin這個目錄下。

如果pip沒安裝上的話，不要慌。我們還可以通過命令來安裝

curl -O https://bootstrap.pypa.io/get-pip.py
python3 get-pip.py

接下來安裝scrapy
輸入命令pip3 install Scrapy就可以了

windows下安裝

首先從官網(wǎng)上下載msi文件
在安裝選項中勾選上需要pip

然后在cmd中輸入
pip3 install Scrapy

完成

Linux安裝

sudo get-apt install python36 python36-devel gcc
sudo pip3 install Scrapy

兩條命令就搞定了。
因為我的爬蟲是跑在docker上，有些鏡像可能沒有g(shù)cc。所以需要devel和gcc，否則有些包會安不上。切記

Redhat系的話，只需要把get-apt改成yum就可以了

快速開始

建立項目 scrapy startproject demo

建立爬蟲 scrapy genspider demo_spider www.google.com

啟動爬蟲 scrapy crwal demo_spider

當你建立完項目的時候，scrapy會幫你生成一堆文件。

目錄結(jié)構(gòu)是這樣的

在你的demo項目中，會有個scrapy.cfg的配置文件和一個demo的文件夾

scrapy.cfg這個文件我們先暫時不去關(guān)心。我們來關(guān)心一下demo文件夾下的東西
分別是items.py,middlewares.py,pipelines.py,settings.py和一個spiders文件夾。

接著我們?nèi)?b>spiders目錄下去創(chuàng)建一個爬蟲scrapy genspider demo_spider www.google.com

OK，爬蟲生成功了。

spider初步解析

我們來初步解析一下這個爬蟲。
有一個DemoSpiderSpider的類。很明顯，這個是我們剛才生成爬蟲的名字為demo_spider然后后面又添加了一個Spider。

接著往下看，有個name的屬性，這個屬性很重要，我們到時候啟動爬蟲的時候，就要通過這個name來告知scarpy啟動的是哪個爬蟲

allowed_demains是用來指定，我們只爬取哪些域名下的。比如說，我在爬取google的搜索結(jié)果的時候，會爬到很多別的網(wǎng)站，這個屬性就是用來告知，除了www.google.com以外的，我都不爬取。

start_urls是用來做啟動url，看命名就知道了。可以把Scrapy的爬取過程看成一個廣度搜索。所以它會先迅速把start_urls下的所有url都爬取一遍。然后把結(jié)果加入到一個隊列中。也是因為這個原因，所以在做并發(fā)爬蟲時，會讓不同的爬蟲的start_urls不一樣。~~當然還有重復(fù)的問題要解決（笑）~~

接下來就是parse方法了，我們對頁面的爬取也是在這個parse中解決

向外走

初步理解了spider，我們往外層走。

我們首先來假想幾個問題，如果我是Scrapy框架的設(shè)計者，我會這么設(shè)計這個框架。
既然是通用的爬蟲框架，那用戶是不是應(yīng)該可以操作header之類的，讓我的每一個爬蟲都經(jīng)過代理，或者是設(shè)置不同的cookie。

當當當，所以就有了中間件。middlewares.py
我們來看看Scrapy生成的是什么樣的。

既然是入門，我們肯定是先關(guān)心我們需要的。看第二張圖。有這么幾個干方法process_request,process_response,process_exception
處理request,response,exception。很好，我們就要這幾個東西。

我們可以這么理解，我們的爬蟲爬到的每一個頁面，都會經(jīng)過這些中間件。

來看看架構(gòu)圖

所以我們的數(shù)據(jù)是經(jīng)過每一個中間件。然后中間件來決定去留。

然后我們來想想具體process_request下的情況。

第一種，我修改了代理，但是我只是改了代理，我還需要把這個數(shù)據(jù)繼續(xù)下去。返回None

第二種，這個已經(jīng)處理好了，現(xiàn)在我需要想直接把數(shù)據(jù)發(fā)給spider了，這個時候，我們就需要返回一個response了。

第三種，我想要重新調(diào)度我的request.這時候只要返回request。調(diào)度器會終止process_request，然后用這個request重新開始。

第四種，這個數(shù)據(jù)我直接丟棄了，不想用了。直接raise一個IgnoreRequest，也就是，如果你不處理這個異常，這異常就直接扔了。當然，你還可以選擇在process_exception去處理這個異常

Python爬蟲從入門到放棄（十七）之 Scrapy框架中Download Middleware用法

初步理解了中間件，我們來說說items
在spider處理完數(shù)據(jù)以后，寫入item中，然后就來到了這兒。
scrapy生成的代碼

怎么用呢。舉個例子，我在spider中需要存儲url。于是我在這個文件中就寫入
url = scrapy.Field
接著在spider中生成這個item。然后將item["url"] = url，在處理完了以后。yield item
完成

這個數(shù)據(jù)呢，就會交給pipelines來處理

接著，我們來看看pipelines

我們和剛才一樣，思考一下，數(shù)據(jù)拿過來有幾種可能。

數(shù)據(jù)不是我的，我不處理。OK，我直接返回itme

數(shù)據(jù)是我的，但是數(shù)據(jù)錯了。扔掉。raise一個DropItem就可以了

這邊呢，如果要寫入數(shù)據(jù)庫，玩玩寫入的時間特別長，所以推薦使用Twisted來做一個異步寫入

最后。我們來看看settings

配置文件，比如是否遵守robots.txt之類的。當然，你剛才寫的所有middlewares，pipelines。都要在這兒注冊！！！！隨便給它一個不重復(fù)的數(shù)字就好了

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/42263.html

發(fā)表評論

登陸后可評論

0條評論

CrazyCodes

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 2978·2023-04-25 19:45
潤生集團2021年度業(yè)績內(nèi)部匯報 | 探索·前行·創(chuàng)造

閱讀 2695·2021-11-19 09:40
eukhost：英國vps，英國獨立服務(wù)器，2核2G/30G內(nèi)存，￡10.13/月起，獨立服務(wù)器￡6

閱讀 700·2021-10-14 09:49
IIC協(xié)議詳解，附單片機軟件模擬源碼

閱讀 2702·2021-09-30 09:47
侄兒子非要搶我手機玩吃雞！但他才六歲菜的很。我花五分鐘寫了個游戲，他玩了一天。

閱讀 2228·2021-09-26 09:55
虛擬主機如何綁定域名-如何進行域名與虛擬主機綁定？

閱讀 1231·2021-09-22 16:01
【jQuery學(xué)習(xí)日記】jQuery實現(xiàn)滾動動畫

閱讀 2816·2019-08-30 14:19
react 國際化了解一下

閱讀 711·2019-08-29 16:44

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

scrapy入門

相關(guān)文章

Scrapy學(xué)習(xí)（二）入門

**基于 Python 的 Scrapy 爬蟲入門：環(huán)境搭建**

Scrapy入門程序點評

scrapy入門：豆瓣電影top250爬取

scrapy 自學(xué)入門demo分享

發(fā)表評論

0條評論

CrazyCodes

男|高級講師

TA的文章

tensorflow

潤生集團2021年度業(yè)績內(nèi)部匯報 | 探索·前行·創(chuàng)造

eukhost：英國vps，英國獨立服務(wù)器，2核2G/30G內(nèi)存，￡10.13/月起，獨立服務(wù)器￡6

IIC協(xié)議詳解，附單片機軟件模擬源碼

侄兒子非要搶我手機玩吃雞！但他才六歲菜的很。我花五分鐘寫了個游戲，他玩了一天。

虛擬主機如何綁定域名-如何進行域名與虛擬主機綁定？

【jQuery學(xué)習(xí)日記】jQuery實現(xiàn)滾動動畫

react 國際化了解一下

最新活動