摘要:是用編寫的多進程網絡爬蟲框架,具有良好的開放性高可擴展性。它要天然支持分布式,支持多進程或線程,利用,可以方便的建立起一個功能強大的爬蟲。
Beanbun
Beanbun 是用 PHP 編寫的多進程網絡爬蟲框架,具有良好的開放性、高可擴展性。
項目地址:https://github.com/kiddyuchin...
文檔地址:http://beanbun.org
我希望有這樣一個爬蟲框架:在簡單需求的情況下,可以用最少的代碼快速建立一個功能完善的爬蟲;而且如果你愿意,你可以對爬蟲進行你想要的任何修改。它要天然支持分布式,支持多進程(或線程),利用 composer,可以方便的建立起一個功能強大的爬蟲。
在對之前寫過的一個爬蟲的功能不斷的刪減調整后,就有了目前的 Beanbun,這個名字來自于作者家的貓,此貓名叫門丁,“門丁”是北方的一種面點。門丁 -> 豆包 -> bean bun。
我希望在這里能夠拋磚引玉,和大家一起繼續完善 Beanbun。
支持守護進程與普通兩種模式(守護進程模式只支持 Linux 服務器)
默認使用 Guzzle 進行爬取
支持分布式
支持內存、Redis 等多種隊列方式
支持自定義URI過濾
支持廣度優先和深度優先兩種爬取方式
遵循 PSR-4 標準
爬取網頁分為多步,每步均支持自定義動作(如添加代理、修改 user-agent 等)
靈活的擴展機制,可方便的為框架制作插件:自定義隊列、自定義爬取方式...
安裝Beanbun 可以通過 composer 進行安裝。
$ composer require kiddyu/beanbun一個簡單的例子
創建一個文件 start.php,包含以下內容
seed = [ "http://www.950d.com/", "http://www.950d.com/list-1.html", "http://www.950d.com/list-2.html", ]; $beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . "/" . md5($beanbun->url), $beanbun->page); }; $beanbun->start();
在命令行中執行
$ php start.php
接下來就可以看到抓取的日志了。
2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/ success. 2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/list-1.html success. 2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/list-2.html success.最后
后邊我會針對一些不同類型的網站,寫一些用 Beanbun 實現爬蟲的小例子,歡迎大家持續關注。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/22806.html
摘要:最近看了很多關于爬蟲入門的文章,發現其中大部分都是以知乎為爬取對象,所以這次我也以知乎為目標來進行爬取的演示,用到的爬蟲框架為編寫的。項目地址這次寫的內容為爬取知乎的用戶,下面就是詳細說一下寫爬蟲的過程了。 最近看了很多關于爬蟲入門的文章,發現其中大部分都是以知乎為爬取對象,所以這次我也以知乎為目標來進行爬取的演示,用到的爬蟲框架為 PHP 編寫的 Beanbun。 項目地址:http...
摘要:然后準備再去抓下拉勾網的招聘數據,這也是個相對優秀的專業招聘網站了,數據也相當多,想當初找實習找正式工作,都是在這兩個上找的,其他的網站幾乎都沒看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述 和 數據清洗 零、致謝 感謝BOSS直聘相對權威的招聘信息,使本人有了這次比較有意思的研究之旅。 由于爬蟲持續...
摘要:然后準備再去抓下拉勾網的招聘數據,這也是個相對優秀的專業招聘網站了,數據也相當多,想當初找實習找正式工作,都是在這兩個上找的,其他的網站幾乎都沒看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述 和 數據清洗 零、致謝 感謝BOSS直聘相對權威的招聘信息,使本人有了這次比較有意思的研究之旅。 由于爬蟲持續...
摘要:從最大的同性社交平臺獲取數據好了,言歸正傳,回到題目。烏云密布的爬蟲百度網盤這件事,是我不想看到的,這類安全問題的一個共同特點用戶自身確實存在問題。 本文作者:夏之冰雪,i春秋簽約作家 《我在百度網盤上看到上萬條車主個人信息,企業、政府高官信息、各種數據庫和無窮無盡的盜版》,一時間,這篇文章就火了,火爆程度另百度猝不及防。 其實呢,這事真不能全怪百度,畢竟用戶分享出去了。之所以引起這么...
閱讀 2596·2021-10-25 09:45
閱讀 1256·2021-10-14 09:43
閱讀 2311·2021-09-22 15:23
閱讀 1540·2021-09-22 14:58
閱讀 1945·2019-08-30 15:54
閱讀 3554·2019-08-30 13:00
閱讀 1367·2019-08-29 18:44
閱讀 1583·2019-08-29 16:59