Golang實(shí)現(xiàn)簡(jiǎn)單爬蟲框架（3）——簡(jiǎn)單并發(fā)版

番茄西紅柿發(fā)布于2019-05-23 16:09 / 3200人閱讀

摘要：在上篇文章實(shí)現(xiàn)簡(jiǎn)單爬蟲框架單任務(wù)版爬蟲中我們實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的單任務(wù)版爬蟲，對(duì)于單任務(wù)版爬蟲，每次都要請(qǐng)求頁(yè)面，然后解析數(shù)據(jù)，然后才能請(qǐng)求下一個(gè)頁(yè)面。

在上篇文章Golang實(shí)現(xiàn)簡(jiǎn)單爬蟲框架（2）——單任務(wù)版爬蟲中我們實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的單任務(wù)版爬蟲，對(duì)于單任務(wù)版爬蟲，每次都要請(qǐng)求頁(yè)面，然后解析數(shù)據(jù)，然后才能請(qǐng)求下一個(gè)頁(yè)面。整個(gè)過(guò)程中，獲取網(wǎng)頁(yè)數(shù)據(jù)速度比較慢，那么我們就把獲取數(shù)據(jù)模塊做成并發(fā)執(zhí)行。在項(xiàng)目的基礎(chǔ)上，實(shí)現(xiàn)多任務(wù)并發(fā)版爬蟲。

項(xiàng)目github地址：github.com/NovemberCho… 回滾到相應(yīng)記錄食用，效果更佳。

1、項(xiàng)目架構(gòu)

首先我們把但任務(wù)版爬蟲架構(gòu)中的Fetcher模塊和Parser模塊合并成一個(gè)Worker模塊，然后并發(fā)執(zhí)行Worker模塊

然后得到并發(fā)版的架構(gòu)圖：

在并發(fā)版爬蟲中，會(huì)同時(shí)執(zhí)行多個(gè)Worker，每個(gè)Worker任務(wù)接受一個(gè)Request請(qǐng)求，然后請(qǐng)求頁(yè)面解析數(shù)據(jù)，輸出解析出的Requests和Item

因?yàn)橛趾芏?b>Request和Worker，所以還需要Scheduler模塊，負(fù)責(zé)對(duì)請(qǐng)求任務(wù)的調(diào)度處理

Engine模塊接受Worker發(fā)送的Requests和Items，當(dāng)前我們先把Items打印出，把解析出的Request發(fā)送給調(diào)度器

其中Engine和Scheduler是一個(gè)goroutine，Worker包含多個(gè)goroutine，各個(gè)模塊之間都是用channel進(jìn)行連接

先放上重構(gòu)后的項(xiàng)目文件結(jié)構(gòu)：

2、Worker實(shí)現(xiàn)

我們從engine.go中提取下面功能作為Worker模塊，同時(shí)把engine.go 更名為simple.go。修改后的simple.go文件請(qǐng)自行調(diào)整，或者去github項(xiàng)目源代碼回滾查看。

engine/worker.go

package engine

import (
	"crawler/fetcher"
	"log"
)

// 輸入 Request， 返回 ParseResult
func worker(request Request) (ParseResult, error) {
	log.Printf("Fetching %s
", request.Url)
	content, err := fetcher.Fetch(request.Url)
	if err != nil {
		log.Printf("Fetch error, Url: %s %v
", request.Url, err)
		return ParseResult{}, err
	}
	return request.ParseFunc(content), nil
}

對(duì)于每一個(gè)Worker接受一個(gè)請(qǐng)求，然后返回解析出的內(nèi)容

3、并發(fā)引擎Concurrent實(shí)現(xiàn)

請(qǐng)大家根據(jù)架構(gòu)圖來(lái)看，效果會(huì)更好。

package engine

import "log"

// 并發(fā)引擎
type ConcurrendEngine struct {
   Scheduler   Scheduler	// 任務(wù)調(diào)度器
   WorkerCount int			// 任務(wù)并發(fā)數(shù)量
}

// 任務(wù)調(diào)度器
type Scheduler interface {
   Submit(request Request) // 提交任務(wù)
   ConfigMasterWorkerChan(chan Request)	// 配置初始請(qǐng)求任務(wù)
}

func (e *ConcurrendEngine) Run(seeds ...Request) {

   in := make(chan Request)			// scheduler的輸入
   out := make(chan ParseResult)	// worker的輸出
   e.Scheduler.ConfigMasterWorkerChan(in)	// 把初始請(qǐng)求提交給scheduler

   // 創(chuàng)建 goruntine
   for i := 0; i < e.WorkerCount; i++ {
      createWorker(in, out)
   }

   // engine把請(qǐng)求任務(wù)提交給 Scheduler
   for _, request := range seeds {
      e.Scheduler.Submit(request)
   }

   itemCount := 0
   for {
      // 接受 Worker 的解析結(jié)果
      result := <-out
      for _, item := range result.Items {
         log.Printf("Got item: #%d: %v
", itemCount, item)
         itemCount++
      }

      // 然后把 Worker 解析出的 Request 送給 Scheduler
      for _, request := range result.Requests {
         e.Scheduler.Submit(request)
      }
   }
}

// 創(chuàng)建任務(wù)，調(diào)用worker，分發(fā)goroutine
func createWorker(in chan Request, out chan ParseResult) {
   go func() {
      for {
         request := <-in
         result, err := worker(request)
         if err != nil {
            continue
         }
         out <- result
      }
   }()
}

4、任務(wù)調(diào)度器Scheduler實(shí)現(xiàn)

class="hljs-keyword">package scheduler class="hljs-keyword">import "crawler/engine" class="hljs-keyword">type SimpleScheduler struct { class="hljs-keyword">chan engine.Request class="hljs-function">func (s *SimpleScheduler) Submit(request engine.Request) { class="hljs-comment">// 為每一個(gè) Request 創(chuàng)建 goroutine class="hljs-keyword">go func() { class="hljs-comment">// 把初始請(qǐng)求發(fā)送給 Scheduler class="hljs-function">func (s *SimpleScheduler) ConfigMasterWorkerChan(in chan engine.Request) { class="copy-code-btn">5、main函數(shù) class="hljs-keyword">package main class="hljs-keyword">import ( class="hljs-string">"crawler/engine" class="hljs-string">"crawler/scheduler" class="hljs-string">"crawler/zhenai/parser" class="hljs-function">func main() { rendEngine{ // 配置爬蟲引擎 &scheduler.SimpleScheduler{}, 50, id="lb77z7r" class="hljs-comment">// 配置爬蟲目標(biāo)信息 "http://www.zhenai.com/zhenghun", class="copy-code-btn">6、小結(jié) 實(shí)現(xiàn)一個(gè)最簡(jiǎn)單的并發(fā)版爬蟲，調(diào)度器源源不斷的接受任務(wù)，一旦有一個(gè)worker空閑，就給其分配任務(wù)。這樣子有一個(gè)缺點(diǎn)，就是我們不知道我們分發(fā)出那么多worker的工作情況，對(duì)worker的控制力比較弱，所以在下次博客中會(huì)用隊(duì)列來(lái)實(shí)現(xiàn)任務(wù)調(diào)度。

如果想獲取Google工程師深度講解go語(yǔ)言視頻資源的，可以在評(píng)論區(qū)留下郵箱。

項(xiàng)目的源代碼已經(jīng)托管到Github上，對(duì)于各個(gè)版本都有記錄，歡迎大家查看，記得給個(gè)star，在此先謝謝大家了

云服務(wù)器 GPU云服務(wù)器簡(jiǎn)單爬蟲框架 python實(shí)現(xiàn)簡(jiǎn)單爬蟲功能簡(jiǎn)單爬蟲爬蟲簡(jiǎn)單

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.specialneedsforspecialkids.com/yun/7179.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

番茄西紅柿

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensor

閱讀 730·2023-04-25 19:43
Windows 下安裝 XGBoost

閱讀 3974·2021-11-30 14:52
Hadoop 2.6.0 啟動(dòng)問(wèn)題 lib/native/libhadoop.so which mi

閱讀 3800·2021-11-30 14:52
VmShell：黑五美國(guó)VPS,免費(fèi)先開通測(cè)試,滿意后付款!支持tiktok美區(qū)

閱讀 3865·2021-11-29 11:00
百度智能云：云產(chǎn)品特惠福利,1核2G輕量應(yīng)用服務(wù)器僅48元/年

閱讀 3796·2021-11-29 11:00
Linux系統(tǒng)和寶塔面板如何啟用禁ping功能?

閱讀 3894·2021-11-29 11:00
301重定向怎么做?301重定向設(shè)置方法有幾種

閱讀 3571·2021-11-29 11:00
wordpress網(wǎng)站重定向次數(shù)過(guò)多的解決方法

閱讀 6154·2021-11-29 11:00

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Golang實(shí)現(xiàn)簡(jiǎn)單爬蟲框架（3）——簡(jiǎn)單并發(fā)版

相關(guān)文章