小程序開(kāi)發(fā)（一）：使用scrapy爬蟲(chóng)采集數(shù)據(jù)

mrli2016 發(fā)布于2019-07-31 10:19 / 940人閱讀

摘要：用途廣泛，可以用于數(shù)據(jù)挖掘監(jiān)測(cè)和自動(dòng)化測(cè)試。運(yùn)行下，發(fā)現(xiàn)數(shù)據(jù)全部存到了數(shù)據(jù)庫(kù)中。提供了一些接口來(lái)查看項(xiàng)目爬蟲(chóng)情況，以及執(zhí)行或者停止執(zhí)行爬蟲(chóng)。完成小程序所需要的所有接口的開(kāi)發(fā)，以及使用定時(shí)任務(wù)執(zhí)行爬蟲(chóng)腳本。

過(guò)完年回來(lái)，業(yè)余時(shí)間一直在獨(dú)立開(kāi)發(fā)一個(gè)小程序。主要數(shù)據(jù)是8000+個(gè)視頻和10000+篇文章，并且數(shù)據(jù)會(huì)每天自動(dòng)更新。

我會(huì)整理下整個(gè)開(kāi)發(fā)過(guò)程中遇到的問(wèn)題和一些細(xì)節(jié)問(wèn)題，因?yàn)閮?nèi)容會(huì)比較多，我會(huì)分成三到四篇文章來(lái)進(jìn)行，本文是該系列的第一篇文章，內(nèi)容偏python爬蟲(chóng)。

本系列文章大致會(huì)介紹一下內(nèi)容：

數(shù)據(jù)準(zhǔn)備（python的scrapy框架）
接口準(zhǔn)備（nodejs的hapijs框架）
小程序開(kāi)發(fā)（mpvue以及小程序自帶的組件等）
部署上線（小程序安全域名等配置以及爬蟲(chóng)/接口等線上部署維護(hù)）

數(shù)據(jù)獲取

數(shù)據(jù)獲取的方法有很多種，這次我們選擇了爬蟲(chóng)的方式，當(dāng)然寫(xiě)一個(gè)爬蟲(chóng)也可以用不同的語(yǔ)言，不同的方式。之前寫(xiě)過(guò)很多爬蟲(chóng)，這次我們選擇了python的scrapy庫(kù)。關(guān)于scrapy，百度百科解釋如下：

Scrapy，Python開(kāi)發(fā)的一個(gè)快速、高層次的屏幕抓取和web抓取框架，用于抓取web站點(diǎn)并從頁(yè)面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛，可以用于數(shù)據(jù)挖掘、監(jiān)測(cè)和自動(dòng)化測(cè)試。

學(xué)習(xí)scrapy，最好的方式就是先閱讀一遍文檔（Scrapy 1.6 documentation），然后照著文檔里的例子寫(xiě)一寫(xiě)，慢慢就熟悉了。里面有幾個(gè)很重要的概念是必須要理解的：

Items


官方對(duì)items的定義是“The main goal in scraping is to extract structured data from unstructured sources, typically, web pages.”，個(gè)人理解為數(shù)據(jù)結(jié)構(gòu)，也就是要爬取數(shù)據(jù)的字段，最好能和數(shù)據(jù)庫(kù)字段對(duì)應(yīng)，便于入庫(kù)。

Spiders

“Spiders are classes which define how a certain site (or a group of sites) will be scraped, including how to perform the crawl (i.e. follow links) and how to extract structured data from their pages (i.e. scraping items). ”，也就是爬蟲(chóng)比較核心的內(nèi)容，定義爬蟲(chóng)的方式，一些策略，以及獲取那些字段等等。

pipelines

“After an item has been scraped by a spider, it is sent to the Item Pipeline which processes it through several components that are executed sequentially.”，pipelines也就是我們爬蟲(chóng)拿到數(shù)據(jù)后要進(jìn)行的處理操作，比如寫(xiě)入到文件，或者鏈接數(shù)據(jù)庫(kù)，并且保存到數(shù)據(jù)庫(kù)等等操作，都可以在這里進(jìn)行操作。

Selectors

“When you’re scraping web pages, the most common task you need to perform is to extract data from the HTML source. ”，這部分就是如何解析html，從爬取到的html文件中解析出所需的數(shù)據(jù)，可以使用BeautifulSoup、lxml、Xpath、CSS等方法。

幾個(gè)重要的部分，在上面進(jìn)行了一些說(shuō)明。

準(zhǔn)備好環(huán)境(python3/scrapy等)，我們就可以來(lái)寫(xiě)一個(gè)爬蟲(chóng)項(xiàng)目了。

爬取的內(nèi)容來(lái)自于https://www.jqhtml.com這個(gè)網(wǎng)站。

創(chuàng)建項(xiàng)目

scrapy startproject jqhtml

修改items

添加爬蟲(chóng)

爬蟲(chóng)爬蟲(chóng)

編寫(xiě)pipeline 修改配置文件

?這樣我們就順利地完成了爬蟲(chóng)項(xiàng)目的編寫(xiě)。運(yùn)行下，發(fā)現(xiàn)數(shù)據(jù)全部存到了數(shù)據(jù)庫(kù)中。

scrapy爬蟲(chóng)項(xiàng)目的部署

scrapy爬蟲(chóng)項(xiàng)目的部署，我們使用官方的scrapyd即可，使用方法也比較簡(jiǎn)單，在服務(wù)器上安裝scrapyd并且啟動(dòng)即可，然后在本地項(xiàng)目中配置deploy的路徑，本地安裝scrapy-client，使用命令deploy即可部署到服務(wù)器。

scrapyd提供了一些api接口來(lái)查看項(xiàng)目爬蟲(chóng)情況，以及執(zhí)行或者停止執(zhí)行爬蟲(chóng)。

這樣我們就很方便的調(diào)這些接口來(lái)管理我們的爬蟲(chóng)任務(wù)了。

注意點(diǎn)：

如何部署scrapyd到服務(wù)器

如何設(shè)置scrapyd為系統(tǒng)后臺(tái)服務(wù)及系統(tǒng)啟動(dòng)項(xiàng)

下一篇，我們會(huì)介紹并且使用很火的一個(gè)nodejs后臺(tái)api庫(kù) - hapijs。完成小程序所需要的所有接口的開(kāi)發(fā)，以及使用定時(shí)任務(wù)執(zhí)行爬蟲(chóng)腳本。????

GPU云服務(wù)器云服務(wù)器小程序開(kāi)發(fā)開(kāi)發(fā) 小程序開(kāi)發(fā) 小程序開(kāi)發(fā)開(kāi)發(fā)制作福州小程序開(kāi)發(fā)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.specialneedsforspecialkids.com/yun/43638.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

mrli2016

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

捋一捋這些年一起薅過(guò)的羊毛 – 包含永久免費(fèi)vps、域名等

閱讀 5232·2021-10-15 09:42
虛擬主機(jī)管理系統(tǒng)是什么-虛擬主機(jī)管理系統(tǒng)有什么用？

閱讀 1617·2021-09-22 16:05
綁定主機(jī)是什么意思-MAC綁定是什么意思？

閱讀 3278·2021-09-22 15:57
BigBrother：UCloud全鏈路大規(guī)模網(wǎng)絡(luò)連通性檢測(cè)系統(tǒng)詳解

閱讀 3413·2019-12-27 12:06
【基礎(chǔ)】CSS實(shí)現(xiàn)多重邊框的5種方式

閱讀 975·2019-08-29 15:16
前端黑科技：美團(tuán)網(wǎng)頁(yè)首幀優(yōu)化實(shí)踐

閱讀 2887·2019-08-26 12:24
JavaScript函數(shù)式編程之深入理解純函數(shù)

閱讀 390·2019-08-26 12:02
js手寫(xiě)系列-- new

閱讀 1895·2019-08-23 16:00

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

小程序開(kāi)發(fā)（一）：使用scrapy爬蟲(chóng)采集數(shù)據(jù)

相關(guān)文章

Python網(wǎng)頁(yè)信息采集：使用PhantomJS采集淘寶天貓商品內(nèi)容

API例子：用Python驅(qū)動(dòng)Firefox采集網(wǎng)頁(yè)數(shù)據(jù)

記一次小程序之旅

scrapy-redis分布式爬蟲(chóng)框架詳解

發(fā)表評(píng)論

0條評(píng)論

mrli2016

男|高級(jí)講師

TA的文章

捋一捋這些年一起薅過(guò)的羊毛 – 包含永久免費(fèi)vps、域名等

虛擬主機(jī)管理系統(tǒng)是什么-虛擬主機(jī)管理系統(tǒng)有什么用？

綁定主機(jī)是什么意思-MAC綁定是什么意思？

BigBrother：UCloud全鏈路大規(guī)模網(wǎng)絡(luò)連通性檢測(cè)系統(tǒng)詳解

【基礎(chǔ)】CSS實(shí)現(xiàn)多重邊框的5種方式

前端黑科技：美團(tuán)網(wǎng)頁(yè)首幀優(yōu)化實(shí)踐

JavaScript函數(shù)式編程之深入理解純函數(shù)

js手寫(xiě)系列-- new

最新活動(dòng)