puppeteer爬蟲

scola666 發(fā)布于2019-08-23 18:26 / 2456人閱讀

摘要：利用空閑時(shí)間，學(xué)習(xí)了下爬蟲，我也想爬取下網(wǎng)上的資源部分參數(shù)名稱參數(shù)類型參數(shù)說明在請(qǐng)求的過程中是否忽略報(bào)錯(cuò)信息，默認(rèn)為是否以無頭的模式運(yùn)行，也就是不顯示，默認(rèn)為可執(zhí)行文件的路徑，默認(rèn)是使用它自帶的如果你想指定一個(gè)自己的路徑，可以通過這個(gè)參數(shù)設(shè)

利用空閑時(shí)間，學(xué)習(xí)了下puppeteer爬蟲，我也想爬取下網(wǎng)上的資源

1.部分api

puppeteer.launch(options)

參數(shù)名稱	參數(shù)類型	參數(shù)說明
ignoreHTTPSErrors	boolean	在請(qǐng)求的過程中是否忽略 Https 報(bào)錯(cuò)信息，默認(rèn)為 false
headless	boolean	是否以“無頭”的模式運(yùn)行chrome，也就是不顯示UI，默認(rèn)為true
executablePath	string	可執(zhí)行文件的路徑，Puppeteer 默認(rèn)是使用它自帶的 chrome webdriver, 如果你想指定一個(gè)自己的 webdriver 路徑，可以通過這個(gè)參數(shù)設(shè)置
slowMo	number	使 Puppeteer 操作減速，單位是毫秒。如果你想看看 Puppeteer 的整個(gè)工作過程，這個(gè)參數(shù)將非常有用
args	Array(String)	傳遞給 chrome 實(shí)例的其他參數(shù)，比如你可以設(shè)置瀏覽器窗口大小具體參數(shù)
timeout	number	等待chrome實(shí)例啟動(dòng)的最長(zhǎng)時(shí)間，默認(rèn)是3000ms，如果傳入0，則不限制時(shí)間
dumpio	boolean	是否將瀏覽器錦程stdout和stderr導(dǎo)入到process.stdout和process.stderr中，默認(rèn)為false
userDataDir	string	設(shè)置用戶數(shù)據(jù)目錄，默認(rèn)linux是在~/.config目錄，window 默認(rèn)在 C:Users{USER}AppDataLocalGoogleChromeUser Data, 其中 {USER} 代表當(dāng)前登錄的用戶名
env	Object	指定對(duì)chromium可見的環(huán)境變量，默認(rèn)為process.env
devtools	boolean	是否為每個(gè)選項(xiàng)卡自動(dòng)打開DevTools面板，這個(gè)選項(xiàng)只有當(dāng)headless設(shè)置為false的時(shí)候有效

browser對(duì)象api

方法名	說明
browser.close()	返回一個(gè)promise對(duì)象，用于關(guān)閉瀏覽器
browser.newPage()	返回一個(gè)promise對(duì)象，創(chuàng)建一個(gè)page實(shí)例

page對(duì)象

方法名	說明
page.goto(url[, options])	返回一個(gè)promise對(duì)象，url是目標(biāo)鏈接
page.waitForSelector()	等待某個(gè)選擇器的元素加載之后，這個(gè)元素可以是異步加載的
page.evaluate(pageFunction[,args])	返回一個(gè)可序列化的普通對(duì)象，pageFunction 表示要在頁面執(zhí)行的函數(shù)， args 表示傳入給 pageFunction 的參數(shù)

2.爬取電影網(wǎng)站

const puppeteer = require("puppeteer");

/* 爬蟲的目標(biāo)鏈接地址: 豆瓣電影 */
const url = `https://movie.douban.com/tag/#/?sort=R&range=0,10&tags=`;

const sleep = time => new Promise(resolve => {
  setTimeout(resolve, time);
});

(async () => {
  console.log("crawler start to visit the target address");

  /* dumpio 是否將瀏覽器進(jìn)程stdout和stderr導(dǎo)入到process.stdout和process.stderr中 */
  const browser = await puppeteer.launch({
    args: ["--no-sandbox"],
    dumpio: false
  });
  const page = await browser.newPage();
  await page.goto(url, {
    waitUntil: "networkidle2"
  });

  await sleep(3000);

  await page.waitForSelector(".more");

  for(let i = 0; i < 1; i++) {
    await sleep(3000);
    await page.click(".more");
  }

  const result = await page.evaluate(() => {
    let $ = window.$;
    let nodeItems = $(".list-wp a");
    let links = [];
    
    /* 獲取對(duì)應(yīng)的元素節(jié)點(diǎn) */
    if(nodeItems.length >= 1) {
      nodeItems.each((index, item) => {
        let elem = $(item);
        let movieId = elem.find("div").data("id");
        let title = elem.find(".title").text();
        let rate = Number(elem.find(".rate").text());
        let poster = elem.find("img").attr("src").replace("s_ratio_poster","l_ratio_poster");

        links.push({
          movieId,
          title,
          rate,
          poster,
        })
      })
    }

    return links;
  });

  browser.close();
  console.log(result)
})();

3.爬取網(wǎng)站內(nèi)容生成pdf文件

const puppeteer = require("puppeteer");
const url = "https://cn.vuejs.org/v2/guide/";
(async () => {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    await page.goto(url, { waitUntil: "networkidle0" });
    /* 選擇你要輸出的那個(gè)PDF文件路徑，把爬取到的內(nèi)容輸出到PDF中，必須是存在的PDF，可以是空內(nèi)容，如果不是空的內(nèi)容PDF，那么會(huì)覆蓋內(nèi)容 */
    let pdfFilePath = "./index.pdf";
    /* 根據(jù)你的配置選項(xiàng)，我們這里選擇A4紙的規(guī)格輸出PDF，方便打印 */
    await page.pdf({
        path: pdfFilePath,
        format: "A4",
        scale: 1,
        printBackground: true,
        landscape: false,
        displayHeaderFooter: false
    });
    browser.close();
})()

正在努力學(xué)習(xí)中，若對(duì)你的學(xué)習(xí)有幫助，留下你的印記唄（點(diǎn)個(gè)贊咯^_^）

往期好文推薦：

使用vue開發(fā)移動(dòng)端管理后臺(tái)

實(shí)現(xiàn)單行及多行文字超出后加省略號(hào)

node之本地服務(wù)器圖片上傳

純css實(shí)現(xiàn)瀑布流（multi-column多列及flex布局）

GPU云服務(wù)器云服務(wù)器 puppet Puppeteer puppeteer_node puppeteer關(guān)閉webrtc

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.specialneedsforspecialkids.com/yun/105214.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

scola666

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 2686·2023-04-25 20:28
Arduino nano RF433數(shù)據(jù)收發(fā)實(shí)驗(yàn)（只能實(shí)現(xiàn)單板數(shù)據(jù)收發(fā)）

閱讀 1863·2021-11-22 09:34
centos系統(tǒng)linux服務(wù)器快速CPU進(jìn)程占用及內(nèi)存資源過多的進(jìn)程

閱讀 3694·2021-09-26 10:20
虛擬主機(jī)網(wǎng)站怎么上傳文件-虛擬主機(jī)怎么上傳文件？

閱讀 1853·2021-09-22 16:05
uni-app 主干知識(shí)梳理

閱讀 3094·2021-09-09 09:32
#速搶#騰訊云：超級(jí)秒殺款，2核/4G內(nèi)存/80G SSD/8M帶寬/年付74元，國(guó)內(nèi)機(jī)房

閱讀 2526·2021-08-31 09:40
vue-cli的坑，loader重復(fù)的鍋 Invalid CSS after "...lo

閱讀 2108·2019-08-30 13:56
初學(xué)者可能不知道的vue技巧

閱讀 3325·2019-08-29 17:01

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

puppeteer爬蟲

相關(guān)文章

手把手教你如何用Crawlab構(gòu)建技術(shù)文章聚合平臺(tái)(一)

手把手教你如何用Crawlab構(gòu)建技術(shù)文章聚合平臺(tái)(一)