Scrapy學習（二）入門

Astrian 發布于2019-07-25 11:28 / 420人閱讀

摘要：快速入門接上篇學習一安裝，安裝后，我們利用一個簡單的例子來熟悉如何使用創建一個爬蟲項目。創建一個項目在已配置好的環境下輸入系統將在當前目錄生成一個的項目文件。這部分才是業務的核心部分。提取的方式有幾種。具體代碼詳見入門項目

快速入門

接上篇Scrapy學習（一）安裝，安裝后，我們利用一個簡單的例子來熟悉如何使用Scrapy創建一個爬蟲項目。

創建一個Scrapy項目

在已配置好的環境下輸入

scrapy startproject dmoz

系統將在當前目錄生成一個myproject的項目文件。該文件的目錄結構如下

dmoz/    # 項目根目錄
   scrapy.cfg    # 項目配置文件
   dmoz/    # 項目模塊
       __init__.py
        items.py    # 項目item文件，有點類似Django中的模型
        pipelines.py    # 項目pipelines文件，負責數據的操作和存儲
        settings.py    # 項目的設置文件.
        spiders/    # 項目spider目錄，編寫的爬蟲腳步都放此目錄下
            __init__.py

接下來我們以dmoz.org為爬取目標。開始變現簡單的爬蟲項目。

編寫items

在items.py中編寫我們所需的數據的模型

from scrapy.item import Item, Field

class Website(Item):
    name = Field()
    description = Field()
    url = Field()

這個模型用來填充我們爬取的數據

編寫Spider

在spiders文件下新建爬蟲文件。這部分才是業務的核心部分。
首先創建一個繼承scrapy.spiders.Spider的類
并且定義如下三個屬性

name 標識spider

start_urls 啟動爬蟲時進行爬取的url列表，默認為空

parse() 每個初始的url下載后的response都會傳到該方法內，在這個方法里可以對數據進行處理。

from scrapy.spiders import Spider
from scrapy.selector import Selector
from dirbot.items import Website

class DmozSpider(Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/",
    ]

    def parse(self, response):
        sites = response.css("#site-list-content > div.site-item > div.title-and-desc")
        items = []

        for site in sites:
            item = Website()
            item["name"] = site.css(
                "a > div.site-title::text").extract_first().strip()
            item["url"] = site.xpath(
                "a/@href").extract_first().strip()
            item["description"] = site.css(
                "div.site-descr::text").extract_first().strip()
            items.append(item)
        return items

其中值得注意的是，在parse方法內，我們可以用Selector選擇器來提取網站中我們所需的數據。提取的方式有幾種。

xpath() 傳入xpath表達式獲取節點值

css() 傳入css表達式獲取節點值

re() 傳入正則表達式獲取節點值 # 此方法本人未測試

運行并保存數據

接下來我們運行爬蟲，并將爬取的數據存儲到json中

scrapy crawl dmoz -o items.json

其他

在運行爬蟲的過程中，我遇到了如下報錯：

KeyError: "Spider not found: dmoz

這個是因為我的spider類中設置的name的值和我scrapy crawl運行的spider不一致導致的。

具體代碼詳見：
scrapy入門項目

GPU云服務器云服務器 scrapy爬蟲入門深度學習二編程學習入門學習學習機器學習入門

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/38422.html

零基礎如何學爬蟲技術

摘要：楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，。本文來源知乎作者路人甲鏈接楚江數據提供網站數據采集和爬蟲軟件定制開發服務，服務范圍涵蓋社交網絡電子商務分類信息學術研究等。楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，http://www.chujiangdata.com。第一：Python爬蟲學習系列教程（來源于某博主：htt...

KunMinX 2019-07-25 11:29 評論0 收藏0
首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0
Scrapy學習（三）爬取豆瓣圖書信息

摘要：因為暫時還沒有學到如何模擬登陸，所以我就先抓像豆瓣這樣不需要登陸的網站上的內容。其中會回調函數，用是因為豆瓣圖書并不是格式一致的。只需要在中設置項目代碼地址豆瓣圖書爬蟲前言 Scrapy學習（一）安裝 Scrapy學習（二）入門有了前兩篇的基礎，就可以開始互聯網上爬取我們感興趣的信息了。因為暫時還沒有學到如何模擬登陸，所以我就先抓像豆瓣這樣不需要登陸的網站上的內容。我的開發...

Tony_Zby 2019-07-25 11:28 評論0 收藏0
非計算機專業小白自學爬蟲全指南（附資源）

摘要：爬蟲是我接觸計算機編程的入門。練練練本文推薦的資源就是以項目練習帶動爬蟲學習，囊括了大部分爬蟲工程師要求的知識點。拓展閱讀一文了解爬蟲與反爬蟲最后，請注意，爬蟲的工作機會相對較少。爬蟲是我接觸計算機編程的入門。哥當年寫第一行代碼的時候別提有多痛苦。本文旨在用一篇文章說透爬蟲如何自學可以達到找工作的要求。爬蟲的學習就是跟著實際項目去學，每個項目會涉及到不同的知識點，項目做多了，自然...

CarlBenjamin 2019-07-30 17:36 評論0 收藏0

發表評論

登陸后可評論

0條評論

Astrian

男|高級講師

我要關注我要私信

TA的文章

Python基礎之輸入、輸出與高階賦值

閱讀 1969·2021-11-23 09:51
軟件需求工程十個題測試

閱讀 882·2021-11-19 09:40
如何保護您不了解的數據資產免受網絡攻擊?

閱讀 836·2021-10-27 14:20
寶塔面板，升級默認python2.7為python3.X，并共存！

閱讀 5027·2021-10-09 09:52
曲鳥全棧UI自動化教學(二)：環境搭建與第一個Selenium腳本

閱讀 3305·2021-10-09 09:44
程序員的之路。瀏覽器新標簽頁

閱讀 1735·2021-10-08 10:05
Authy – 二次密碼保護驗證必備軟件工具（親測Authy下載和使用）

閱讀 5094·2021-09-09 11:47
[譯] CSS 載入機制的未來趨勢

閱讀 3484·2019-08-30 12:47

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

Scrapy學習（二）入門

相關文章

零基礎如何學爬蟲技術

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

Scrapy學習（三）爬取豆瓣圖書信息

非計算機專業小白自學爬蟲全指南（附資源）

發表評論

0條評論

Astrian

男|高級講師

TA的文章

Python基礎之輸入、輸出與高階賦值

軟件需求工程十個題測試

如何保護您不了解的數據資產免受網絡攻擊?

寶塔面板，升級默認python2.7為python3.X，并共存！

曲鳥全棧UI自動化教學(二)：環境搭建與第一個Selenium腳本

程序員的之路。瀏覽器新標簽頁

Authy – 二次密碼保護驗證必備軟件工具（親測Authy下載和使用）

[譯] CSS 載入機制的未來趨勢

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

Scrapy學習（二） 入門

相關文章

發表評論

0條評論

男|高級講師

TA的文章

最新活動

Scrapy學習（二）入門