scrapy使用心得

sourcenode 發布于2019-07-30 16:25 / 3194人閱讀

摘要：前言在公司一部分業務是爬蟲相關了，有涉及到登錄，驗證碼，也有國外的大社交網站。雖然是，但是在爬取大量網站可能需要用分布式的爬蟲，當然也有操作流程圖指定一個起始后，就可以根據以上原理圖進行工作了。

前言

在公司一部分業務是爬蟲相關了，有涉及到登錄，驗證碼，也有國外的4大社交網站。所以記錄下

scrapy 是什么

scrapy 是一個異步爬蟲框架，使用它，可以屏蔽很多復雜的底層設計，只需要解析下載下來的頁面，更多了我們需要關注的是目標網站/頁面爬取的難易程度，該怎么來實現它。雖然是，但是在爬取大量網站可能需要用分布式的爬蟲，當然scrapy 也有

操作流程圖

指定一個起始url后，scrapy就可以根據以上原理圖進行工作了。一個最簡單的頁面，指定頁面的url進行第一次請求，經過引擎，交給調度器，然后調度器再返回給引擎，去下載這個頁面，拿到這個頁面就可以進行解析了。這里明顯看的出來繞了一個圈子，如果最簡單的的頁面，這樣子會發現多了調度這一步。但是一般在實際業務中，特別是分布式爬蟲，會有很多url 需要爬取，而且一些url是動態添加到待爬隊列的，
我們將所有的待爬都在調度器進行分配，當然這里也有其他操作，比如，一個url已經調度過，那么會進行標識，做到不再重復爬取。

隊列

scrapy 默認的隊列

SCHEDULER_DISK_QUEUE = "scrapy.squeues.PickleLifoDiskQueue"
SCHEDULER_MEMORY_QUEUE = "scrapy.squeues.LifoMemoryQueue"
SCHEDULER_PRIORITY_QUEUE = "queuelib.PriorityQueue"

一般我們不關心這個隊列結構，但是在做分布式時這個隊列就需要替換

scrapy_redis

scrapy 本身是異步，但是不支持分布式爬取。要做到分布式爬取，那么需要一個公共的待爬隊列

scrapy_redis 需要制定隊列結構，可在 SpiderQueue，SpiderStack，
SpiderPriorityQueue 中選者一個，形如

SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

更多知識

《Learning Scrapy》（中文版）0 序言

....以后再增加

云服務器 GPU云服務器使用心得使用心得與技巧阿里云使用心得橙云vps使用心得

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/41671.html

windows下安裝python+scrapy

摘要：好啦一切準備工作就緒，現在開始安裝庫安裝成功后，安裝就簡單了，在命令提示符窗口直接輸入命令回車現在一切都搞定了，可以新建一個測試，敲一個基于框架的爬蟲程序咯。最近忽然有了想要學習python爬蟲的想法，但是首先需要安裝工具。python安裝倒是很輕松，只要傻瓜式一鍵安裝即可，但是在Windows下安裝scrapy倒不是件容易的事情。言歸正傳，說下我從昨天下午到今天上午安裝的步驟： 1...

dantezhao 2019-07-30 14:22 評論0 收藏0
scrapy爬蟲使用總結——技巧和天坑

摘要：簡介爬蟲這個東西我就不多做介紹了，總之是一個很好用的爬蟲庫，且關于也有較多的教程。這篇文章記錄一下我個人的項目規劃和天坑心得。然后執行就會自動去爬數據了。常用配置這里要結合一些原因來進行說明。簡介 scrapy爬蟲這個東西我就不多做介紹了，總之是一個很好用的Python爬蟲庫，且關于scrapy也有較多的教程。這篇文章記錄一下我個人的項目規劃和天坑心得。通常來說，我們執行了scra...

vvpvvp 2019-07-30 16:50 評論0 收藏0
服務器上部署scrapy爬蟲項目

摘要：爬爬們，如果你已經開始部署項目了，那么你肯定也已經寫好了完整的爬蟲項目，恭喜你，你很優秀今天忙了小半天的服務器部署，跟大家分享一些心得首先我們要有一臺服務器，不好意思，這是廢話，略過。。。。。爬爬們，如果你已經開始部署項目了，那么你肯定也已經寫好了完整的爬蟲項目，恭喜你，你很優秀！**今天忙了小半天的服務器部署，跟大家分享一些心得～首先我們要有一臺服務器，不好意思，這是廢話，略過...

UnixAgain 2019-07-31 11:17 評論0 收藏0
爬取博客園首頁數據進行數據分析

摘要：目標選取了博客園，爬取了首頁的前頁文章，但是數據放在那一直沒去分析。為了避免對博客園造成壓力，爬蟲代碼不公開。注數據來源是年月日至月的博客園首頁文章。誰是博客園最愛的用戶最愛的用戶，在這里是按文章上首頁的數量來判斷的。前言之前折騰了一小段時間scrapy，覺得使用起來異常簡單，然后打算練練手。目標選取了博客園，爬取了首頁的前200頁文章，但是數據放在那一直沒去分析。趁著現在有閑心，...

zilu 2019-07-30 14:40 評論0 收藏0