bilibili壁紙站-node爬蟲

sf_wangchong 發(fā)布于2019-08-20 18:52 / 3309人閱讀

摘要：前言之前初學(xué)的時候，有用爬蟲爬過一些磁力鏈接詳情見羞羞的爬蟲但是沒有并發(fā)，沒有代理，那時也對異步不是很了解所以這次又寫了個爬蟲，爬取壁紙站的所有壁紙并且爬取開心代理的條，并將有用的存進(jìn)文件中用到的模塊控制并發(fā)解析庫使用代理讀寫文件其中的具

前言

之前初學(xué)node的時候，有用爬蟲爬過一些磁力鏈接
詳情見羞羞的node爬蟲
但是沒有并發(fā)，沒有代理，那時也對異步不是很了解
所以這次又寫了個爬蟲，爬取bilibili壁紙站的所有壁紙
并且爬取開心代理的100條ip，并將有用的ip存進(jìn)json文件中

用到的模塊

async （控制并發(fā)）

cheerio （解析DOM）

superagent （http庫）

superagent-proxy （使用代理）

fs （讀寫文件）

其中cheerio, superagent的具體用法見我之前的羞羞的node爬蟲
不過之前初學(xué)，代碼寫得很難看就對了

爬取代理ip

代理ip是干嘛的

我們訪問互聯(lián)網(wǎng)資源時，都是用我們自己的ip（身份證）去訪問的
而爬蟲得頻繁地去獲取互聯(lián)網(wǎng)資源
因此如果你在某個時間點(diǎn)頻繁地訪問某網(wǎng)站的某資源
造成該網(wǎng)站的服務(wù)器壓力
就有可能被網(wǎng)站管理者禁ip，從而訪問不了該網(wǎng)站
代理ip就是偽造身份去訪問

怎么檢驗(yàn)ip的可用性

這里面就使用到了 superagent 的一個拓展 superagent-proxy
然后用其去訪問http://ip.chinaz.com/getip.aspx
若 3s 內(nèi)能返回值，則證明該 ip 可用

const superagent = require("superagent")
require("superagent-proxy")(superagent);

// 寫上你先要測試的 ip，下面僅為測試ip
let testIp = "http://61.178.238.122:63000";

(async function() {
  superagent.get("http://ip.chinaz.com/getip.aspx").proxy(testIp).timeout(3000)
  .end((err, res) => {
    if(res === undefined) {
      console.log("掛了"); 
      return 
    }
    if(err) {
      console.log("報錯啦")
    }
    console.log("成功： " + res.text)
  })
}())

爬取ip并存儲

首先我們先看下我們要爬取的開心代理的DOM

我們要爬取得ip地址放在tr 標(biāo)簽的第一個td上
并且點(diǎn)擊第二頁時，鏈接變?yōu)?b>http://www.kxdaili.com/dailiip/1/2.html#ip
鏈接上的數(shù)組表示得是頁數(shù)，也就是說我們只要改變鏈接上數(shù)字的值
就可以獲取到其他頁的html

代碼如下：

const superagent = require("superagent")
const cheerio = require("cheerio")
const fs = require("fs")
const apiFunc = require("../common/apiFunc")  // 封裝的一些讀寫api

// 爬取開心代理的 ip
const website = "http://www.kxdaili.com"
let url = website + "/dailiip/1/"

// 總執(zhí)行函數(shù)
let getIp = async function() {
  // promise 存放的數(shù)組
  let tasks = []

  // 讀取 ip.js 本身存儲的ip
  let ips = await apiFunc.readFile("./ip.js")
  ips = JSON.parse(ips)

  for(let page = 1; page <= 10; page++) {
    let res = await superagent.get(url + page +".html")
    let $ = cheerio.load(res.text)
    let tr = $("tbody>tr")

    for(let i = 0; i < tr.length; i++) {
      let td = $(tr[i]).children("td")
      let proxy = "http://" + $(td[0]).text() + ":" + $(td[1]).text()
      let pro = apiFunc.filterIp(proxy)

      // 將所有的IP過濾Promise存入一個tasks數(shù)組中
      tasks.push(pro)
    }
  }

  // 使用 all 等待所有ip過濾完畢后執(zhí)行 寫入 ip.js過程
  Promise.all(tasks).then((arr) => {
    // 過濾掉返回值為 undefined 的數(shù)據(jù)
    let usefulIp = arr.filter((item) => {
      return (item !== undefined)
    })
    ips = JSON.stringify(ips.concat(usefulIp))
    console.log(ips)
    apiFunc.writeFile("./ip.js", ips)   
  })
}

getIp()

module.exports = getIp

爬取bilibili壁紙站

我們先進(jìn)入bilibili壁紙站

發(fā)現(xiàn)有一個點(diǎn)擊加載更多的按鈕
如果有對前端有了解的話，我們應(yīng)該知道這是通過 ajax 請求來異步獲取數(shù)據(jù)
因此我們打開開發(fā)者的NetWork

果然在 XHR 這一欄發(fā)現(xiàn)了一個api
里面返回的是存儲了當(dāng)前頁面所有壁紙縮略圖信息的json文件
僅依靠這個json文件，我們便可以爬取所有壁紙的縮略圖
可我們要的可是高清大圖啊

于是我們隨意點(diǎn)擊一張縮略圖

發(fā)現(xiàn)它的url的參數(shù)（il_id, width, height）都來自我們之前獲取的json內(nèi)的數(shù)據(jù)
也就是說我們可以拼接該鏈接來獲取到該高清圖片的鏈接，再利用cheerio來解析DOM獲取圖片地址就ok了
！！！
！！！
！！！
然而，哈哈哈哈哈哈哈哈哈哈哈哈
當(dāng)我們獲取到該網(wǎng)頁的html后，發(fā)現(xiàn)該標(biāo)簽內(nèi)的src是空的
也就是說該也是js賦值，所以下意識又去看了NetWork的XHR
果然發(fā)現(xiàn)了另一個api

而高清圖片的url就是該api返回的json數(shù)據(jù)中的il_file

因此我們只需要拼接該api鏈接，再用superagent請求就可以獲取到高清圖片的url

理下思路

獲取縮略圖api返回的包含高清圖片數(shù)據(jù)的json

將1的json數(shù)據(jù)拼接到高清圖片api鏈接上，并將所有api鏈接存入數(shù)組

并發(fā)獲取2數(shù)組中的api，獲取所有的圖片url，并將url存入數(shù)組

并發(fā)下載數(shù)組中的圖片url，存進(jìn)本地文件夾

結(jié)果在爬取bilibili壁紙站時，是不需要解析DOM的，也就是不需要使用cheerio模塊啦

代碼如下：

const superagent = require("superagent")
require("superagent-proxy")(superagent);
const fs = require("fs")
const cheerio = require("cheerio")
const async = require("async")

// 獲取bilibili API的json數(shù)據(jù)
let jsonUrl = "http://h.bilibili.com/wallpaperApi?action=getOptions&page=1"
let proxy = "http://218.201.98.196:3128"

let getPicJson = function () {
  return new Promise((resolve, reject) => {
    superagent
      .get(jsonUrl)
      .proxy(proxy)
      .end((err, res) => {
        if (err) console.log("代理出錯啦")
        if (res === undefined) return
        if (res.statusCode == 200) {
          let json = JSON.parse(res.text)
          resolve(json)
        }
      })
  })
}

// 獲取高清圖片api的json數(shù)據(jù)
let dealHd = async function () {
  let picHd = []
  let picJson = await getPicJson()
  let picLength = picJson.length

  for (let i = 1; i < picLength; i++) {
    let item = {}
    // let width = picJson[i].detail[0].width
    // let height = picJson[i].detail[0].height
    let il_id = picJson[i].detail[0].il_id
    item.title = picJson[i].detail[0].title
    item.url = `http://h.bilibili.com/wallpaperApi?action=getDetail&il_id=${il_id}`
    picHd.push(item)
    // item.url = `http://h.bilibili.com/wallpaper?action=detail&il_id=${il_id}&type=Bilibili&width=${width}&height=${height}`
    // picHtmlJson.push(item)
  }
  return picHd
}

// 獲取高清圖片的url ===== queue
let dealPicJson = async function () {

  console.log("獲取高清圖片url，開始執(zhí)行....")
  var concurrencyCount = 0;
  let result = []
  let hdJson = await dealHd()
  return new Promise((resolve, reject) => {

    let q = async.queue((hDJson, callback) => {
      var delay = parseInt((Math.random() * 30000000) % 1000, 10);  //設(shè)置延時并發(fā)爬取
      concurrencyCount++;
      console.log("現(xiàn)在的并發(fā)數(shù)是", concurrencyCount, "，正在獲取的是", hDJson.title, "延遲", delay, "毫秒");

      superagent.get(hDJson.url).proxy(proxy).end((err, res) => {
        if (err) {
          console.log(err);
          callback(null);
        } else {
          // let $ = cheerio.load(res.text)
          // let hdUrl = $("#wallpaper").attr("id")
          // console.log("鏈接是" + hdUrl)
          let pic = {}
          pic.title = hDJson.title
          pic.url = res.body[0].detail[0].il_file
          pic.format = pic.url.match(/.{3}$/)[0]
          // console.log(result)

          result.push(pic)
          concurrencyCount --
          callback(null)
        }
      })
    }, 5)
    q.drain = function () {
      resolve(result)
    }

    q.push(hdJson)
  })
}


// 下載HD圖片
let downloadImg = async function () {
  console.log("開始下載圖片...");
  // let folder = `Data/img-${Config.currentImgType}-${Config.startPage}-${Config.endPage}`;
  // fs.mkdirSync(folder);
  let downloadCount = 0;
  var concurrencyCount = 0;
  let q = async.queue(function (image, callback) {
    // console.log("正在下載 : " + image.title);
    var delay = parseInt((Math.random() * 30000000) % 1000, 10);  //設(shè)置延時并發(fā)爬取
    concurrencyCount++;
    console.log("現(xiàn)在的并發(fā)數(shù)是", concurrencyCount, "，正在抓取的是", image.title, "延遲", delay, "毫秒");
    superagent.get(image.url).proxy(proxy).end(function (err, res) {
      if (err) {
        console.log(err);
        callback(null);
      } else {
        downloadCount++;
        fs.writeFile(`./picture/${downloadCount}-${image.title}.${image.format}`, res.body, function (err) {
          if (err) {
            console.log(err);
          } else {
            console.log("圖片下載成功");
          }
          setTimeout(() => {
            concurrencyCount--;
            callback(null);
          }, delay)
        });
      }
    });
  }, 5);
  
  // 當(dāng)所有任務(wù)都執(zhí)行完以后，將調(diào)用該函數(shù)
  q.drain = function () {
    console.log("All img download");
  }
  let imgList = await dealPicJson();
  q.push(imgList);//將所有任務(wù)加入隊列
}

downloadImg()

async控制并發(fā)

控制并發(fā)我通常是用async.maplimit，因?yàn)樽钤缃佑|
不過看到一篇文章介紹了async.queue，我就試了下
區(qū)別在于， mapLimit會返回所有并發(fā)任務(wù)結(jié)束后的結(jié)果數(shù)組
而queue是沒有的，因此要自己定個變量來存放每一個并發(fā)任務(wù)返回的結(jié)果
具體api用法見： async常用api

運(yùn)行結(jié)果

后記

github代碼： bilibili壁紙站爬蟲
里面有一些必要注釋
有4個可以跑的js

./aboutIp/getIp.js （用來抓并存有用的代理ip）

./aboutIp/ipTest.js （測試ip可不可用）

app-thumbnails.js （用來爬壁紙的縮略圖）

app-hd.js （用來爬壁紙的高清圖）

雖然懂得很淺，但能漸漸感受到爬蟲的魅力了?

云服務(wù)器 GPU云服務(wù)器 BILIBILI 彈幕bilibili bilibili彈幕網(wǎng) bilibili視頻轉(zhuǎn)碼

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/84795.html

發(fā)表評論

登陸后可評論

0條評論

sf_wangchong

男|高級講師

我要關(guān)注我要私信

TA的文章

#11.11#cloudcone，mc機(jī)房便宜美國VPS促銷，$11.11/年，1核/1G內(nèi)存/40

閱讀 2799·2021-11-04 16:15
從小白程序員一路晉升為大廠高級技術(shù)專家我看過哪些書籍？（建議收藏）

閱讀 3478·2021-09-29 09:35
怎么修改手機(jī)主機(jī)名-如何修改華為手機(jī)主機(jī)名？

閱讀 4071·2021-09-22 15:45
如何使用BFC清除CSS浮動以及解決margin合并的問題

閱讀 1428·2019-08-30 15:55
純CSS實(shí)現(xiàn)表單驗(yàn)證

閱讀 1700·2019-08-30 15:44
跨終端電商平臺的實(shí)現(xiàn)之移動端詳情頁多窗口切換（選項(xiàng)卡）效果實(shí)現(xiàn)

閱讀 2741·2019-08-29 12:56
JS數(shù)據(jù)結(jié)構(gòu)與算法_集合&字典

閱讀 2710·2019-08-26 13:30
LeetCode 之 JavaScript 解答第69題 —— X 的平方根（Squrt(x)）

閱讀 2184·2019-08-23 17:00

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

bilibili壁紙站-node爬蟲

相關(guān)文章

B 站直播間數(shù)據(jù)爬蟲

交封不殺！——python獲取bilibli視頻封面

Jsoup爬蟲獲取自己網(wǎng)站在百度搜索中的實(shí)時排名

23個Python爬蟲開源項(xiàng)目代碼，包含微信、淘寶、豆瓣、知乎、微博等

發(fā)表評論

0條評論

sf_wangchong

男|高級講師

TA的文章

#11.11#cloudcone，mc機(jī)房便宜美國VPS促銷，$11.11/年，1核/1G內(nèi)存/40

從小白程序員一路晉升為大廠高級技術(shù)專家我看過哪些書籍？（建議收藏）

怎么修改手機(jī)主機(jī)名-如何修改華為手機(jī)主機(jī)名？

如何使用BFC清除CSS浮動以及解決margin合并的問題

純CSS實(shí)現(xiàn)表單驗(yàn)證

跨終端電商平臺的實(shí)現(xiàn)之移動端詳情頁多窗口切換（選項(xiàng)卡）效果實(shí)現(xiàn)

JS數(shù)據(jù)結(jié)構(gòu)與算法_集合&字典

LeetCode 之 JavaScript 解答第69題 —— X 的平方根（Squrt(x)）

最新活動