scrapy的應(yīng)用需要掌握的知識(shí)點(diǎn)

DangoSky 發(fā)布于2019-07-31 10:55 / 2496人閱讀

摘要：最近一個(gè)項(xiàng)目需要做。確定要獲取的字段在里面，定義好要獲取的字段，例如我需要獲取的網(wǎng)站標(biāo)題和首頁(yè)內(nèi)容。這里是為了測(cè)試匹配數(shù)據(jù)的，需要掌握的知識(shí)點(diǎn)為獲取辦法和選擇器獲取辦法。

最近一個(gè)項(xiàng)目需要做spider。就開始找資料，分析幾個(gè)工具后，得到最成熟穩(wěn)定的應(yīng)該首推Scrapy。第一次使用Scrapy，寫篇文章記錄一下。

Scrapy的安裝我就不復(fù)述了。網(wǎng)上一大把的資料。安裝好環(huán)境后，就開始以下工作了。
大概操作步驟如下：

創(chuàng)建項(xiàng)目

創(chuàng)建spider

確定要獲取的字段

確定正則匹配的字段

保存入庫(kù)

創(chuàng)建項(xiàng)目

scrapy startproject projectName【項(xiàng)目名】
cd projectName

在命令行中進(jìn)行以上操作。

創(chuàng)建spider

事先把要獲取的網(wǎng)址準(zhǔn)備好 eg: https://segmentfault.com

scrapy genspider spiderName "https://segmentfault.com"

生成成功后，會(huì)在spider目錄下生成一個(gè)名叫：spiderName.py文件。獲取規(guī)則就需要書寫在這里面。

確定要獲取的字段

在item.py里面，定義好要獲取的字段，例如我需要獲取sf.gg的網(wǎng)站標(biāo)題和首頁(yè)內(nèi)容。就需要定義兩個(gè)字段，title,content。想獲取的信息越細(xì)越好

class articleItem(Scrapy.Item):
     # 獲取網(wǎng)站標(biāo)題
     title = Scrapy.Field()
     # 獲取網(wǎng)站內(nèi)容
     content = Scrpay.Field()

確定正則匹配字段內(nèi)容

要注冊(cè)獲取數(shù)據(jù)的內(nèi)容是本身在HTML里面的，還是ajax獲取渲染的，如果是ajax渲染的數(shù)據(jù)，使用傳統(tǒng)的獲取不到數(shù)據(jù)。
這里是為了測(cè)試匹配數(shù)據(jù)的，需要掌握的知識(shí)點(diǎn)為xpath獲取辦法和css選擇器獲取辦法。其中css類似jquery的選擇器。

scrapy shell "https://segmentfault.com"

確定入庫(kù)

保存形式有多種，json或數(shù)據(jù)庫(kù)

最好的學(xué)習(xí)資料，永遠(yuǎn)都是代碼+說(shuō)明文檔：
http://scrapy-chs.readthedocs...

云服務(wù)器 GPU云服務(wù)器大家需要掌握的深度學(xué)習(xí)需要掌握的前端需要掌握的技術(shù) 大數(shù)據(jù)需要掌握的技術(shù)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.specialneedsforspecialkids.com/yun/44338.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

DangoSky

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

騰訊云操作系統(tǒng)和阿里云服務(wù)器系統(tǒng)如何選擇?

閱讀 1017·2021-09-30 09:58
糖果主機(jī)：秋季促銷,香港/美國(guó)/德國(guó)虛擬主機(jī)新購(gòu),可享六折;云服務(wù)器/云VPS新購(gòu)可享五折

閱讀 2848·2021-09-09 11:55
sparkedhost：自帶100G高防，$10/月，邁阿密AMD高性能VPS，2G內(nèi)存/1核/25

閱讀 2011·2021-09-01 11:41
一篇文章帶拿下盒模型BFC渲染機(jī)制

閱讀 1004·2019-08-30 15:55
CSScomb的安裝和參數(shù)配置以及消除空行

閱讀 3363·2019-08-30 12:50
切換頁(yè)面主題樣式研究及l(fā)ess教程

閱讀 3508·2019-08-29 18:37
mui上拉加載更多的使用

閱讀 3310·2019-08-29 16:37
ANIMATION經(jīng)典小車動(dòng)畫

閱讀 2023·2019-08-29 13:00

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

scrapy的應(yīng)用需要掌握的知識(shí)點(diǎn)

相關(guān)文章

**Python爬蟲之Scrapy學(xué)習(xí)（基礎(chǔ)篇）**

**python scrapy 代理中間件，爬蟲必掌握的內(nèi)容之一**

非計(jì)算機(jī)專業(yè)小白自學(xué)爬蟲全指南（附資源）

發(fā)表評(píng)論

0條評(píng)論

DangoSky

男|高級(jí)講師

TA的文章

騰訊云操作系統(tǒng)和阿里云服務(wù)器系統(tǒng)如何選擇?

糖果主機(jī)：秋季促銷,香港/美國(guó)/德國(guó)虛擬主機(jī)新購(gòu),可享六折;云服務(wù)器/云VPS新購(gòu)可享五折

sparkedhost：自帶100G高防，$10/月，邁阿密AMD高性能VPS，2G內(nèi)存/1核/25

一篇文章帶拿下盒模型BFC渲染機(jī)制

CSScomb的安裝和參數(shù)配置以及消除空行

切換頁(yè)面主題樣式研究及l(fā)ess教程

mui上拉加載更多的使用

ANIMATION經(jīng)典小車動(dòng)畫

最新活動(dòng)