国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

【爬蟲】nodejs爬斗魚直播間數據實戰

KunMinX / 2096人閱讀

摘要:前提本項目地址如果需要,可以到本地打開可直接查看爬蟲數據目標爬取斗魚正在直播的主播數據房間號,在線人數,房間標題,主播名稱,直播分類等等依賴構建安裝包的應用程序框架小型漸進式客戶端請求庫,和模塊具有相同的,具有許多高級客戶端功能可以

前提

本項目github地址:https://github.com/janyin/dou...
如果需要,可以clone到本地

$ npm install --save
$ node app

打開http://localhost:3030/index.html 可直接查看爬蟲數據

目標

爬取斗魚正在直播的主播數據(房間號,在線人數,房間標題,主播名稱,直播分類等等)

依賴構建

安裝npm包express+superagent+cheerio

$ npm install express superagent cheerio --save

express:Node.js的Web應用程序框架

superagent:小型漸進式客戶端HTTP請求庫,和Node.js模塊具有相同的API,具有許多高級HTTP客戶端功能

cheerio:可以理解為一個Node.js版本的jquery,用來從網頁中以 css selector取數據,使用方式和jquery基本相同

實現步驟 1、引入依賴并實例化express
const express = require("express");
const superagent = require("superagent");
const cheerio = require("cheerio");
const app = express();
2、定義目標url
const url = "https://www.douyu.com/directory/all";
const rooturl = "https://www.douyu.com";

rooturl是斗魚首頁,url是斗魚全部直播間第一頁,rooturl后面直播間地址數據要用到

3、發送請求 獲取數據 分析數據 生成頁面數據到前端

用superagent發送get請求到斗魚,回調函數接受到的數據給cheerio解析,這樣就可以用jquery選擇器進行操作

使用cheerio.load()解析

打開斗魚,發現其直播列表均在id為live-list-contentbox的ul里,用jquery選擇器獲取所有li并遍歷

在li里尋找到我們需要的數據,最后push到data里

app.get("/", function (req, response) { // 聲明get請求在指定的路徑下調用相應的回調函數
   let data = [];//存放獲取的數據
   superagent.get(url).end(function (err, res) {//發起get請求
       if (err) {
           console.log(err);
       } else {
           console.log("狀態碼:" + res.status);
           let $ = cheerio.load(res.text);//使用cheerio解析數據
           $("#live-list-contentbox li").each(function (i, ele) { //獲取目標數據 并遍歷存放到data中
               let href = rooturl + $(ele).find("a.play-list-link").attr("href");//href是存放的直播間id,加rooturl生成直播間鏈接
               let lives = {
                   name: $(ele).find("span.dy-name").text(),
                   num: $(ele).find("span.dy-num").text(),
                   title: $(ele).find(".mes-tit>h3").text().trim(),
                   links: href,//直播間鏈接
               };
               data.push(lives);
           })
       }
       response.send(data);//目標數據發送給前端

})

4、監聽端口
app.listen(3030, function () {
    console.log("server is listening port 3030....");
})

最后node這個項目,打開http://localhost:3000/ 得到我們需要的數據

以上全部代碼在first.js里. 爬蟲數據部分結果:

進階爬蟲

思考:這只是斗魚第一頁主播的數據,如果是100頁的數據,或者全部呢?
這時候就需要async,不可能同步發100個請求,容易被誤以為惡意攻擊

Async提供了直接,強大的函數來處理異步JavaScript,雖然最初設計用于Node.js,但它也可以直接在瀏覽器中使用

$ npm install async --save
分析頁面

100個頁面可以先獲取100個相應的url,但是發現斗魚切換到第二頁的時候其url并沒有改變,
通過chrome devtools發現在切換頁面時的ajax請求。

發現ajax請求的url是https://www.douyu.com/gapi/rk... ,后面加的/2就是相應的頁數(這里是第二頁)

實現爬蟲 1、和剛才上面一樣
const express = require("express");
const superagent = require("superagent");
const async = require("async");

const app = express();
const rooturl = "https://www.douyu.com/gapi/rkc/directory/0_0";
2、聲明一個函數獲取所有的url
function geturls(num) {
    let href = [];
    let urls = [];
    for (let i = 1; i <= num; i++) {
        href.push("/" + i);
    }
    href.forEach(function (ele) {
        urls.push(rooturl + ele);
    })
    return urls;
}

傳進去的num是多少,返回的url就有多少

3、async異步發送請求
app.get("/data", function (req, res) {
    let urls = geturls(100); //獲取100個url
    let datas = []; //存放目標數據
    async.mapLimit(urls,25,function (url, callback) { //異步發送請求
        fetchPage(url, callback);//分析數據并提取
    }, function (err, result) {
        console.log("分析完成!");
        res.send(datas);//發送數據給前端
    });
})

async.mapLimit(coll, limit, iteratee, callback)

coll是迭代的集合,就是數組存放需要發送請求的url

limit一次最大異步操作數

一個異步函數,用于應用于每個項目 coll

callback可選,所有iteratee 函數完成或發生錯誤時調用的回調。

ps:最后一個函數里result參數的數據和datas數組數據是一樣的,發送datas主要是方便后面頁面提取

4、分析頁面函數
function fetchPage(url, callback) {
        superagent.get(url).end(function (err, sres) {
            if (err) {
                console.log(err);
            } else {
                let item = JSON.parse(sres.text);//解析json數據
                let list = item.data.rl;
                list.forEach(function (ele) {//提取需要的數據
                    let obj = {
                        name: ele.nn,
                        id: ele.rid,
                        online: ele.ol,
                        title: ele.rn,
                        class: ele.c2name,
                    };
                    datas.push(obj);
                });
                callback(null, datas);//這個datas會發送給result
            }
        })
    }
})

因為ajax請求直接返回的是json數據就不需要上面的cheerio解析

5、設置靜態文件目錄
app.use(express.static("public"))

app.listen(3030, function () {
    console.log("server is listening port 3030....");
})
6、編寫前端html,展示數據

前端代碼在index.html里,主要是獲取數據遍歷輸出到表格,還有一個搜索功能(不建議搜索1W以上的數據,會很卡)


以上代碼均在app.js里

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/97018.html

相關文章

  • 大話的基本套路

    摘要:有什么作用通過有效的爬蟲手段批量采集數據,可以降低人工成本,提高有效數據量,給予運營銷售的數據支撐,加快產品發展。因為信息是完全公開的,所以是合法的。 showImg(https://segmentfault.com/img/remote/1460000011359885?w=566&h=316);   什么是爬蟲? 網絡爬蟲也叫網絡蜘蛛,如果把互聯網比喻成一個蜘蛛網,那么蜘蛛就是在...

    Towers 評論0 收藏0
  • B 站播間數據

    摘要:站的彈幕服務器也有類似的機制,隨便打開一個未開播的直播間,抓包將看到每隔左右會給服務端發送一個心跳包,協議頭第四部分的值從修改為即可。 原文:B 站直播間數據爬蟲, 歡迎轉載項目地址:bilibili-live-crawler 前言 起因 去年在 B 站發現一個后期超強的 UP 主:修仙不倒大小眼,專出 PDD 這樣知名主播的吃雞精彩集錦,漲粉超快。于是想怎么做這樣的 UP,遇到的第一...

    xuweijian 評論0 收藏0
  • Nodejs實戰項目之鏈家

    摘要:很基礎,不喜勿噴轉載注明出處爬蟲實戰項目之鏈家效果圖思路爬蟲究竟是怎么實現的通過訪問要爬取的網站地址,獲得該頁面的文檔內容,找到我們需要保存的數據,進一步查看數據所在的元素節點,他們在某方面一定是有規律的,遵循規律,操作,保存數據。 說明 作為一個前端界的小學生,一直想著自己做一些項目向全棧努力。愁人的是沒有后臺,搜羅之后且學會了nodejs和express寫成本地的接口給前端頁面調用...

    noONE 評論0 收藏0
  • Nodejs實戰項目之鏈家

    摘要:很基礎,不喜勿噴轉載注明出處爬蟲實戰項目之鏈家效果圖思路爬蟲究竟是怎么實現的通過訪問要爬取的網站地址,獲得該頁面的文檔內容,找到我們需要保存的數據,進一步查看數據所在的元素節點,他們在某方面一定是有規律的,遵循規律,操作,保存數據。 說明 作為一個前端界的小學生,一直想著自己做一些項目向全棧努力。愁人的是沒有后臺,搜羅之后且學會了nodejs和express寫成本地的接口給前端頁面調用...

    MartinDai 評論0 收藏0
  • 一步一步教你如何搭建自己的視頻聚合站

    摘要:不過因為各個平臺互相挖人的關系,導致關注的一些主播分散到了各個直播平臺,來回切換有點麻煩,所以萌生了做一個視頻聚合站的想法。后續我們會對這三個部分的功能做逐一展開說明。正則處理要求比較高,但是幾乎能應對所有的情況,屬于大殺器。 前言 作為一個爐石傳說玩家,經常有事沒事開著直播網站看看大神們的精彩表演。不過因為各個平臺互相挖人的關系,導致關注的一些主播分散到了各個直播平臺,來回切換有點麻...

    justjavac 評論0 收藏0

發表評論

0條評論

KunMinX

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<