国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

Beanbun: 簡單開放的 PHP 爬蟲框架

mayaohua / 3522人閱讀

摘要:是用編寫的多進程網絡爬蟲框架,具有良好的開放性高可擴展性。它要天然支持分布式,支持多進程或線程,利用,可以方便的建立起一個功能強大的爬蟲。

Beanbun

Beanbun 是用 PHP 編寫的多進程網絡爬蟲框架,具有良好的開放性、高可擴展性。
項目地址:https://github.com/kiddyuchin...
文檔地址:http://beanbun.org

由來

我希望有這樣一個爬蟲框架:在簡單需求的情況下,可以用最少的代碼快速建立一個功能完善的爬蟲;而且如果你愿意,你可以對爬蟲進行你想要的任何修改。它要天然支持分布式,支持多進程(或線程),利用 composer,可以方便的建立起一個功能強大的爬蟲。
在對之前寫過的一個爬蟲的功能不斷的刪減調整后,就有了目前的 Beanbun,這個名字來自于作者家的貓,此貓名叫門丁,“門丁”是北方的一種面點。門丁 -> 豆包 -> bean bun。
我希望在這里能夠拋磚引玉,和大家一起繼續完善 Beanbun。

特點

支持守護進程與普通兩種模式(守護進程模式只支持 Linux 服務器)

默認使用 Guzzle 進行爬取

支持分布式

支持內存、Redis 等多種隊列方式

支持自定義URI過濾

支持廣度優先和深度優先兩種爬取方式

遵循 PSR-4 標準

爬取網頁分為多步,每步均支持自定義動作(如添加代理、修改 user-agent 等)

靈活的擴展機制,可方便的為框架制作插件:自定義隊列、自定義爬取方式...

安裝

Beanbun 可以通過 composer 進行安裝。

$ composer require kiddyu/beanbun
一個簡單的例子

創建一個文件 start.php,包含以下內容

seed = [
    "http://www.950d.com/",
    "http://www.950d.com/list-1.html",
    "http://www.950d.com/list-2.html",
];
$beanbun->afterDownloadPage = function($beanbun) {
    file_put_contents(__DIR__ . "/" . md5($beanbun->url), $beanbun->page);
};
$beanbun->start();

在命令行中執行

$ php start.php

接下來就可以看到抓取的日志了。

2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/ success.
2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/list-1.html success.
2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/list-2.html success.
最后

后邊我會針對一些不同類型的網站,寫一些用 Beanbun 實現爬蟲的小例子,歡迎大家持續關注。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/22806.html

相關文章

  • [PHP] 又是知乎,用 Beanbun 爬取知乎用戶

    摘要:最近看了很多關于爬蟲入門的文章,發現其中大部分都是以知乎為爬取對象,所以這次我也以知乎為目標來進行爬取的演示,用到的爬蟲框架為編寫的。項目地址這次寫的內容為爬取知乎的用戶,下面就是詳細說一下寫爬蟲的過程了。 最近看了很多關于爬蟲入門的文章,發現其中大部分都是以知乎為爬取對象,所以這次我也以知乎為目標來進行爬取的演示,用到的爬蟲框架為 PHP 編寫的 Beanbun。 項目地址:http...

    tomato 評論0 收藏0
  • PHP相關

    摘要:的機器學習庫的機器學習庫,包括算法交叉驗證神經網絡等內容。在即將到來的大會上,她將和大家分享在機器學習領域的全新可能。入門總結入門相關,如安裝配置基本使用等。 基于 Swoole 開發 PHP 擴展 Swoole-1.9.7 增加了一個新特性,可以基于 Swoole 使用 C++ 語言開發擴展模塊,在擴展模塊中可以注冊 PHP 內置函數和類。現在可以基于 Swoole 來編寫 PHP ...

    lewinlee 評論0 收藏0
  • Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述 和 數據清洗

    摘要:然后準備再去抓下拉勾網的招聘數據,這也是個相對優秀的專業招聘網站了,數據也相當多,想當初找實習找正式工作,都是在這兩個上找的,其他的網站幾乎都沒看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述 和 數據清洗 零、致謝 感謝BOSS直聘相對權威的招聘信息,使本人有了這次比較有意思的研究之旅。 由于爬蟲持續...

    zhkai 評論0 收藏0
  • Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述 和 數據清洗

    摘要:然后準備再去抓下拉勾網的招聘數據,這也是個相對優秀的專業招聘網站了,數據也相當多,想當初找實習找正式工作,都是在這兩個上找的,其他的網站幾乎都沒看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述 和 數據清洗 零、致謝 感謝BOSS直聘相對權威的招聘信息,使本人有了這次比較有意思的研究之旅。 由于爬蟲持續...

    Ocean 評論0 收藏0
  • 我在全球最大同性社交平臺那點事

    摘要:從最大的同性社交平臺獲取數據好了,言歸正傳,回到題目。烏云密布的爬蟲百度網盤這件事,是我不想看到的,這類安全問題的一個共同特點用戶自身確實存在問題。 本文作者:夏之冰雪,i春秋簽約作家 《我在百度網盤上看到上萬條車主個人信息,企業、政府高官信息、各種數據庫和無窮無盡的盜版》,一時間,這篇文章就火了,火爆程度另百度猝不及防。 其實呢,這事真不能全怪百度,畢竟用戶分享出去了。之所以引起這么...

    AlphaWatch 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<