Python3 爬蟲 scrapy框架爬取小說網(wǎng)站數(shù)據(jù)

王陸寬發(fā)布于2019-07-30 18:36 / 1089人閱讀

摘要：上次用寫的爬蟲速度很感人，今天打算用框架來實現(xiàn)，看看速度如何。

上次用requests寫的爬蟲速度很感人，今天打算用scrapy框架來實現(xiàn)，看看速度如何。

爬蟲步驟

第一步，安裝scrapy，執(zhí)行一下命令

pip install Scrapy

第二步，創(chuàng)建項目，執(zhí)行一下命令

scrapy startproject novel

第三步，編寫spider文件，文件存放位置novel/spiders/toscrape-xpath.py，內(nèi)容如下

# -*- coding: utf-8 -*-
import scrapy


class ToScrapeSpiderXPath(scrapy.Spider):
    # 爬蟲的名字
    name = "novel"
    # 爬蟲啟始url
    start_urls = [
        "https://www.xbiquge6.com/0_638/1124120.html",
    ]

    def parse(self, response):
        # 定義存儲的數(shù)據(jù)格式
        yield {
            "text": response.xpath("http://div[@class="bookname"]/h1[1]/text()").extract_first(),
            "content": response.xpath("http://div[@id="content"]/text()").extract(),
            # "author": quote.xpath(".//small[@class="author"]/text()").extract_first(),
            # "tags": quote.xpath(".//div[@class="tags"]/a[@class="tag"]/text()").extract()
        }
        # 下一章的鏈接
        next_page_url = response.xpath("http://div[@class="bottem1"]/a[3]/@href").extract_first()
        # 如果下一章的鏈接不等于首頁 則爬取url內(nèi)容  ps：最后一章的下一章鏈接為首頁
        if next_page_url != "https://www.xbiquge6.com/0_638/":
            yield scrapy.Request(response.urljoin(next_page_url))

總結(jié)

框架用時：23分，比requests快三倍！awesmome！xpath也蠻好用的，繼續(xù)學(xué)習(xí)，歡迎交流。

云服務(wù)器 GPU云服務(wù)器爬蟲框架scrapy scrapy框架編寫爬蟲 python爬蟲框架scrapy scrapy爬取實例

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/42722.html

相關(guān)文章

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章，已經(jīng)太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設(shè)置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0
23個Python爬蟲開源項目代碼，包含微信、淘寶、豆瓣、知乎、微博等

摘要：今天為大家整理了個爬蟲項目。地址新浪微博爬蟲主要爬取新浪微博用戶的個人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進行登錄，可通過多賬號登錄來防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼，包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...

jlanglang 2019-07-31 10:09 評論0 收藏0
Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---10、爬蟲框架的安裝：PySpider、Scrapy

摘要：所以如果對爬蟲有一定基礎(chǔ)，上手框架是一種好的選擇。缺少包，使用安裝即可缺少包，使用安裝即可上一篇文章網(wǎng)絡(luò)爬蟲實戰(zhàn)爬取相關(guān)庫的安裝的安裝下一篇文章網(wǎng)絡(luò)爬蟲實戰(zhàn)爬蟲框架的安裝上一篇文章：Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---9、APP爬取相關(guān)庫的安裝：Appium的安裝下一篇文章：Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---11、爬蟲框架的安裝：ScrapySplash、ScrapyRedis 我們直接...

張憲坤 2019-07-31 10:34 評論0 收藏0
scrapy入門

摘要：快速入門首先，初步要做的就是快速構(gòu)建一個爬蟲。然后把結(jié)果加入到一個隊列中。既然是入門，我們肯定是先關(guān)心我們需要的。因為公司項目需求，需要做一個爬蟲。所以我一個python小白就被拉去做了爬蟲。花了兩周時間，拼拼湊湊總算趕出來了。所以寫個blog做個記錄。快速入門首先，初步要做的就是快速構(gòu)建一個爬蟲。配置環(huán)境 Mac下安裝 1) 直接從官網(wǎng)下載 python下載官網(wǎng) 2) 是通過...

CrazyCodes 2019-07-30 17:33 評論0 收藏0
Scrapy 框架入門簡介

摘要：解析的方法，每個初始完成下載后將被調(diào)用，調(diào)用的時候傳入從每一個傳回的對象來作為唯一參數(shù)，主要作用如下負(fù)責(zé)解析返回的網(wǎng)頁數(shù)據(jù)，提取結(jié)構(gòu)化數(shù)據(jù)生成生成需要下一頁的請求。 Scrapy 框架 Scrapy是用純Python實現(xiàn)一個為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架，用途非常廣泛。框架的力量，用戶只需要定制開發(fā)幾個模塊就可以輕松的實現(xiàn)一個爬蟲，用來抓取網(wǎng)頁內(nèi)容以及各種圖片，非常...

Coding01 2019-07-30 15:39 評論0 收藏0