基于Redis的簡單分布式爬蟲

zqhxuyuan 發布于2019-07-25 11:43 / 2214人閱讀

摘要：建議先大概瀏覽一下項目結構項目介紹新手向，基于構建的分布式爬蟲。以爬取考研網的貼子為例，利用進行解析，將符合要求的文章文本存入數據庫中。項目地址有任何問題可以與我聯系微信

Ugly-Distributed-Crawler

建議先大概瀏覽一下項目結構

項目介紹

新手向，基于Redis構建的分布式爬蟲。
以爬取考研網的貼子為例，利用 PyQuery, lxml 進行解析，將符合要求的文章文本存入MySQ數據庫中。

結構簡介 cooperator

協作模塊，用于為Master&Worker模塊提供代理IP支持

master

提取滿足條件的文章url，并交給Worker進一步處理

worker

解析文章內容，將符合要求的存入數據庫

環境依賴

sqlalchemy => 1.0.13
pyquery => 1.2.17
requests => 2.12.3
redis => 2.10.5
lxml => 3.6.0

需要預先安裝MySQL-server 和 Redis-server.

MySQL中應有名為kybsrc的數據庫，且該數據庫包含一個名為posts的表，擁有num(INT AUTO_INCREMENT)和post(TEXT)兩個字段。

如何啟動 0. 先配置好各模塊所引用的配置文件 1. 為了更好地運行，cooperator/start.py 應提前開始并完成一次工作函數執行

第一次執行完后，每五分鐘運行一次工作函數

2. 啟動 master/start.py

默認只執行一次

3. 啟動 worker/start.py

默認循環監聽是否有新的URL待解析

核心點說明 1. 通過Redis的集合類型進行代理IP和URL的傳遞

# Summary Reference
# ---------
# 創建句柄
def make_redis_handler():
    pool = redis.ConnectionPool(host=r_server["ip"], port=r_server["port"], password=r_server["passwd"])
    return redis.Redis(connection_pool=pool)

# 獲得句柄
def make_proxy_handler():
    return make_redis_handler()

# 保存到指定的set下
def check_and_save(self, proxy):
 "pass"
   self.redis_handler.sadd(r_server["s_name"], proxy)

2. 由于在驗證代理IP和使用封裝的get_url()函數的時候網絡IO較多，所以使用多線程（效果還是很明顯的）。

#Summary Reference
#---------
def save_proxy_ip(self):
    "pass"
    for proxy in self.proxy_ip:
        Thread(target=self.check_and_save, args=(proxy,)).start()

def get_url(url):
    "pass"
    while True:
    "pass"
        resp = request("get", url, headers=headers, proxies={"http": proxy})
    "pass"

項目地址 https://github.com/A101428020...

有任何問題可以與我聯系(微信：smartseer)

云內存存儲UMem Redis 簡單的爬蟲簡單的爬蟲程序最簡單的爬蟲 python簡單的爬蟲

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/38568.html

從0-1打造最強性能Scrapy爬蟲集群

摘要：包括爬蟲編寫爬蟲避禁動態網頁數據抓取部署分布式爬蟲系統監測共六個內容，結合實際定向抓取騰訊新聞數據，通過測試檢驗系統性能。 1 項目介紹本項目的主要內容是分布式網絡新聞抓取系統設計與實現。主要有以下幾個部分來介紹：（1）深入分析網絡新聞爬蟲的特點，設計了分布式網絡新聞抓取系統爬取策略、抓取字段、動態網頁抓取方法、分布式結構、系統監測和數據存儲六個關鍵功能。（2）結合程序代碼分解說...

vincent_xyb 2019-07-30 14:46 評論0 收藏0
分布式爬蟲原理

分布式爬蟲原理什么是分布式爬蟲：額，這個問題呢，我這樣解釋，例如爬取網站內的二級網站，我們就需要獲取網站中的二級、三級...很多個網站，那么我們如果用自己一臺主機爬取明顯效率很低，這個時候我們就需要其他主機的幫助了，這個時候我們就將作為Master,為其他主機Slaver提供url的同時，啟動程序，沒錯，我們的工作就這么多，而Slaver主機的作用就是接收url，解析并獲取想要的數據。。...

LeexMuller 2019-07-30 17:12 評論0 收藏0
scrapy-redis分布式爬蟲框架詳解

摘要：分布式爬蟲框架詳解隨著互聯網技術的發展與應用的普及，網絡作為信息的載體，已經成為社會大眾參與社會生活的一種重要信息渠道。下載器中間件位于引擎和下載器之間的框架，主要是處理引擎與下載器之間的請求及響應。 scrapy-redis分布式爬蟲框架詳解隨著互聯網技術的發展與應用的普及，網絡作為信息的載體，已經成為社會大眾參與社會生活的一種重要信息渠道。由于互聯網是開放的，每個人都可以在網絡上...

myeveryheart 2019-07-30 16:09 評論0 收藏0