国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

scrapy的應(yīng)用需要掌握的知識(shí)點(diǎn)

DangoSky / 2496人閱讀

摘要:最近一個(gè)項(xiàng)目需要做。確定要獲取的字段在里面,定義好要獲取的字段,例如我需要獲取的網(wǎng)站標(biāo)題和首頁(yè)內(nèi)容。這里是為了測(cè)試匹配數(shù)據(jù)的,需要掌握的知識(shí)點(diǎn)為獲取辦法和選擇器獲取辦法。

最近一個(gè)項(xiàng)目需要做spider。就開始找資料,分析幾個(gè)工具后,得到最成熟穩(wěn)定的應(yīng)該首推Scrapy。 第一次使用Scrapy,寫篇文章記錄一下。

Scrapy的安裝我就不復(fù)述了。網(wǎng)上一大把的資料。安裝好環(huán)境后,就開始以下工作了。
大概操作步驟如下:

創(chuàng)建項(xiàng)目

創(chuàng)建spider

確定要獲取的字段

確定正則匹配的字段

保存入庫(kù)

創(chuàng)建項(xiàng)目
scrapy startproject projectName【項(xiàng)目名】
cd projectName

在命令行中進(jìn)行以上操作。

創(chuàng)建spider

事先把要獲取的網(wǎng)址準(zhǔn)備好 eg: https://segmentfault.com

scrapy genspider spiderName "https://segmentfault.com"

生成成功后,會(huì)在spider目錄下生成一個(gè)名叫:spiderName.py文件。獲取規(guī)則就需要書寫在這里面。

確定要獲取的字段

在item.py里面,定義好要獲取的字段,例如我需要獲取sf.gg的網(wǎng)站標(biāo)題和首頁(yè)內(nèi)容。就需要定義兩個(gè)字段,title,content。想獲取的信息越細(xì)越好

class articleItem(Scrapy.Item):
     # 獲取網(wǎng)站標(biāo)題
     title = Scrapy.Field()
     # 獲取網(wǎng)站內(nèi)容
     content = Scrpay.Field()
確定正則匹配字段內(nèi)容

要注冊(cè)獲取數(shù)據(jù)的內(nèi)容是本身在HTML里面的,還是ajax獲取渲染的,如果是ajax渲染的數(shù)據(jù),使用傳統(tǒng)的獲取不到數(shù)據(jù)。
這里是為了測(cè)試匹配數(shù)據(jù)的,需要掌握的知識(shí)點(diǎn)為xpath獲取辦法和css選擇器獲取辦法。其中css類似jquery的選擇器。

scrapy shell "https://segmentfault.com"
確定入庫(kù)

保存形式有多種,json或數(shù)據(jù)庫(kù)

最好的學(xué)習(xí)資料,永遠(yuǎn)都是代碼+說(shuō)明文檔:
http://scrapy-chs.readthedocs...

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/44338.html

相關(guān)文章

  • Python爬蟲之Scrapy學(xué)習(xí)(基礎(chǔ)篇)

    摘要:下載器下載器負(fù)責(zé)獲取頁(yè)面數(shù)據(jù)并提供給引擎,而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子,處理傳遞給引擎的。一旦頁(yè)面下載完畢,下載器生成一個(gè)該頁(yè)面的,并將其通過(guò)下載中間件返回方向發(fā)送給引擎。 作者:xiaoyu微信公眾號(hào):Python數(shù)據(jù)科學(xué)知乎:Python數(shù)據(jù)分析師 在爬蟲的路上,學(xué)習(xí)scrapy是一個(gè)必不可少的環(huán)節(jié)。也許有好多朋友此時(shí)此刻也正在接觸并學(xué)習(xí)sc...

    pkhope 評(píng)論0 收藏0
  • python scrapy 代理中間件,爬蟲必掌握內(nèi)容之一

    摘要:使用中間件本次的測(cè)試站點(diǎn)依舊使用,通過(guò)訪問(wèn)可以獲取當(dāng)前請(qǐng)求的地址。中間件默認(rèn)是開啟的,可以查看其源碼重點(diǎn)為方法。修改代理的方式非常簡(jiǎn)單,只需要在請(qǐng)求創(chuàng)建的時(shí)候,增加參數(shù)即可。接下來(lái)將可用的代理保存到文件中。同步修改文件中的代碼。 ...

    binta 評(píng)論0 收藏0
  • 非計(jì)算機(jī)專業(yè)小白自學(xué)爬蟲全指南(附資源)

    摘要:爬蟲是我接觸計(jì)算機(jī)編程的入門。練練練本文推薦的資源就是以項(xiàng)目練習(xí)帶動(dòng)爬蟲學(xué)習(xí),囊括了大部分爬蟲工程師要求的知識(shí)點(diǎn)。拓展閱讀一文了解爬蟲與反爬蟲最后,請(qǐng)注意,爬蟲的工作機(jī)會(huì)相對(duì)較少。 爬蟲是我接觸計(jì)算機(jī)編程的入門。哥當(dāng)年寫第一行代碼的時(shí)候別提有多痛苦。 本文旨在用一篇文章說(shuō)透爬蟲如何自學(xué)可以達(dá)到找工作的要求。 爬蟲的學(xué)習(xí)就是跟著實(shí)際項(xiàng)目去學(xué),每個(gè)項(xiàng)目會(huì)涉及到不同的知識(shí)點(diǎn),項(xiàng)目做多了,自然...

    CarlBenjamin 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<