scrapy學(xué)習(xí)之路3(爬取的數(shù)據(jù)保存本地文件或MYSQL)

余學(xué)文發(fā)布于2019-07-30 15:24 / 1021人閱讀

摘要：保存中的信息到本地文件自定義以格式保存到本地文件再到中添加使用自帶方式以格式保存到本地文件再到中添加使用保存中的信息到同步設(shè)計(jì)表結(jié)構(gòu)注意日期是類型，要轉(zhuǎn)化成類型補(bǔ)充保存中的信息到異步去重寫法

保存item中的信息到本地文件 1.自定義以json格式保存到本地文件

piplines.py

再到settings.py中添加使用

2.scrapy自帶方式以json格式保存到本地文件

piplines.py

再到settings.py中添加使用

保存item中的信息到MySQL(同步)

設(shè)計(jì)表結(jié)構(gòu)

注意:日期是str類型，要轉(zhuǎn)化成date類型

piplines.py

補(bǔ)充：settings.py

保存item中的信息到MySQL(異步twisted)

settings.py

MYSQL_HOST = "127.0.0.1"
MYSQL_DBNAME = "spider"
MYSQL_USER = "root"
MYSQL_PASSWORD = "123456"

piplines.py

去重寫法

    def do_insert(self, cursor, item):
        my_sql = """
            insert into youwu(url, url_object_id, title, big_image_url) VALUES (%s, %s, %s, %s) on duplicate key update title=values(title), big_image_url=value(big_image_url)
        """
        cursor.execute(my_sql, (item["url"], item["url_object_id"], item["title"], item["big_image_url"]))

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/41227.html

相關(guān)文章

從零開始寫爬蟲

摘要：幾個朋友對爬蟲很感興趣，他們也都是開發(fā)人員，一個開發(fā)兩個開發(fā)，都沒有過項(xiàng)目開發(fā)經(jīng)驗(yàn)，正好其中一個最近要爬一個網(wǎng)店的產(chǎn)品信息，所以希望我能拿這網(wǎng)站當(dāng)寫一個爬蟲來給他們參考學(xué)習(xí)。我們就在這個文件里開發(fā)爬蟲的相關(guān)邏輯。幾個朋友對爬蟲很感興趣，他們也都是開發(fā)人員，一個PHP開發(fā)兩個JAVA開發(fā)，都沒有過python項(xiàng)目開發(fā)經(jīng)驗(yàn)，正好其中一個最近要爬一個網(wǎng)店的產(chǎn)品信息，所以希望我能拿這網(wǎng)站當(dāng)d...

wwq0327 2019-07-30 14:36 評論0 收藏0
Scrapy 實(shí)戰(zhàn)之爬取妹子圖

摘要：很多人學(xué)習(xí)爬蟲的第一驅(qū)動力就是爬取各大網(wǎng)站的妹子圖片，比如比較有名的。最后我們只需要運(yùn)行程序，即可執(zhí)行爬取，程序運(yùn)行命名如下完整代碼我已上傳到微信公眾號后臺，在癡海公眾號后臺回復(fù)即可獲取。本文首發(fā)于公眾號癡海，后臺回復(fù)即可獲取最新編程資源。 showImg(https://segmentfault.com/img/remote/1460000016780800); 閱讀文本大概需要 1...

Achilles 2019-07-31 11:14 評論0 收藏0
Python Scrapy爬蟲框架學(xué)習(xí)

摘要：組件引擎負(fù)責(zé)控制數(shù)據(jù)流在系統(tǒng)中所有組件中流動，并在相應(yīng)動作發(fā)生時觸發(fā)事件。下載器下載器負(fù)責(zé)獲取頁面數(shù)據(jù)并提供給引擎，而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子，處理傳遞給引擎的。 Scrapy 是用Python實(shí)現(xiàn)一個為爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。一、Scrapy框架簡介 Scrapy是一個為了爬取網(wǎng)站數(shù)據(jù)，提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。 ...

harriszh 2019-07-31 11:00 評論0 收藏0
爬蟲入門

摘要：通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲，爬取對象從一些種子擴(kuò)充到整個。為提高工作效率，通用網(wǎng)絡(luò)爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的。爬蟲簡單的說網(wǎng)絡(luò)爬蟲（Web crawler）也叫做網(wǎng)絡(luò)鏟（Web scraper）、網(wǎng)絡(luò)蜘蛛（Web spider），其行為一般是先爬到對應(yīng)的網(wǎng)頁上，再把需要的信息鏟下來。分類網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)，...

defcon 2019-07-30 17:07 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

余學(xué)文

男|高級講師

我要關(guān)注我要私信

TA的文章

Akkocloud：鎮(zhèn)江AMD Ryzen高防獨(dú)立服務(wù)器549元/月（五線BGP，50G防御）

閱讀 1839·2021-09-14 18:03
使用這些 CSS 屬性選擇器來提高前端開發(fā)效率！

閱讀 2274·2019-08-30 15:48
前端面試題-CSS優(yōu)先級

閱讀 1129·2019-08-30 14:09
HTML5中canvas實(shí)現(xiàn)小球擊打小方塊游戲

閱讀 515·2019-08-30 12:55
SASS詳解

閱讀 2735·2019-08-29 11:29
知曉推送正式上線！送你 13 億條模板消息

閱讀 1494·2019-08-26 13:43
JavaScript 是如何工作的：編寫自己的 Web 開發(fā)框架 + React 及其虛擬 DOM

閱讀 2318·2019-08-26 13:30
HTML之常用標(biāo)簽

閱讀 2376·2019-08-26 12:17

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！