摘要:利用空閑時(shí)間,學(xué)習(xí)了下爬蟲,我也想爬取下網(wǎng)上的資源部分參數(shù)名稱參數(shù)類型參數(shù)說明在請(qǐng)求的過程中是否忽略報(bào)錯(cuò)信息,默認(rèn)為是否以無頭的模式運(yùn)行,也就是不顯示,默認(rèn)為可執(zhí)行文件的路徑,默認(rèn)是使用它自帶的如果你想指定一個(gè)自己的路徑,可以通過這個(gè)參數(shù)設(shè)
利用空閑時(shí)間,學(xué)習(xí)了下puppeteer爬蟲,我也想爬取下網(wǎng)上的資源1.部分api
puppeteer.launch(options)
參數(shù)名稱 | 參數(shù)類型 | 參數(shù)說明 |
---|---|---|
ignoreHTTPSErrors | boolean | 在請(qǐng)求的過程中是否忽略 Https 報(bào)錯(cuò)信息,默認(rèn)為 false |
headless | boolean | 是否以“無頭”的模式運(yùn)行chrome,也就是不顯示UI,默認(rèn)為true |
executablePath | string | 可執(zhí)行文件的路徑,Puppeteer 默認(rèn)是使用它自帶的 chrome webdriver, 如果你想指定一個(gè)自己的 webdriver 路徑,可以通過這個(gè)參數(shù)設(shè)置 |
slowMo | number | 使 Puppeteer 操作減速,單位是毫秒。如果你想看看 Puppeteer 的整個(gè)工作過程,這個(gè)參數(shù)將非常有用 |
args | Array(String) | 傳遞給 chrome 實(shí)例的其他參數(shù),比如你可以設(shè)置瀏覽器窗口大小具體參數(shù) |
timeout | number | 等待chrome實(shí)例啟動(dòng)的最長(zhǎng)時(shí)間,默認(rèn)是3000ms,如果傳入0,則不限制時(shí)間 |
dumpio | boolean | 是否將瀏覽器錦程stdout和stderr導(dǎo)入到process.stdout和process.stderr中,默認(rèn)為false |
userDataDir | string | 設(shè)置用戶數(shù)據(jù)目錄,默認(rèn)linux是在~/.config目錄,window 默認(rèn)在 C:Users{USER}AppDataLocalGoogleChromeUser Data, 其中 {USER} 代表當(dāng)前登錄的用戶名 |
env | Object | 指定對(duì)chromium可見的環(huán)境變量,默認(rèn)為process.env |
devtools | boolean | 是否為每個(gè)選項(xiàng)卡自動(dòng)打開DevTools面板,這個(gè)選項(xiàng)只有當(dāng)headless設(shè)置為false的時(shí)候有效 |
browser對(duì)象api
方法名 | 說明 |
---|---|
browser.close() | 返回一個(gè)promise對(duì)象,用于關(guān)閉瀏覽器 |
browser.newPage() | 返回一個(gè)promise對(duì)象,創(chuàng)建一個(gè)page實(shí)例 |
page對(duì)象
方法名 | 說明 |
---|---|
page.goto(url[, options]) | 返回一個(gè)promise對(duì)象,url是目標(biāo)鏈接 |
page.waitForSelector() | 等待某個(gè)選擇器的元素加載之后,這個(gè)元素可以是異步加載的 |
page.evaluate(pageFunction[,args]) | 返回一個(gè)可序列化的普通對(duì)象,pageFunction 表示要在頁面執(zhí)行的函數(shù), args 表示傳入給 pageFunction 的參數(shù) |
const puppeteer = require("puppeteer"); /* 爬蟲的目標(biāo)鏈接地址: 豆瓣電影 */ const url = `https://movie.douban.com/tag/#/?sort=R&range=0,10&tags=`; const sleep = time => new Promise(resolve => { setTimeout(resolve, time); }); (async () => { console.log("crawler start to visit the target address"); /* dumpio 是否將瀏覽器進(jìn)程stdout和stderr導(dǎo)入到process.stdout和process.stderr中 */ const browser = await puppeteer.launch({ args: ["--no-sandbox"], dumpio: false }); const page = await browser.newPage(); await page.goto(url, { waitUntil: "networkidle2" }); await sleep(3000); await page.waitForSelector(".more"); for(let i = 0; i < 1; i++) { await sleep(3000); await page.click(".more"); } const result = await page.evaluate(() => { let $ = window.$; let nodeItems = $(".list-wp a"); let links = []; /* 獲取對(duì)應(yīng)的元素節(jié)點(diǎn) */ if(nodeItems.length >= 1) { nodeItems.each((index, item) => { let elem = $(item); let movieId = elem.find("div").data("id"); let title = elem.find(".title").text(); let rate = Number(elem.find(".rate").text()); let poster = elem.find("img").attr("src").replace("s_ratio_poster","l_ratio_poster"); links.push({ movieId, title, rate, poster, }) }) } return links; }); browser.close(); console.log(result) })();3.爬取網(wǎng)站內(nèi)容生成pdf文件
const puppeteer = require("puppeteer"); const url = "https://cn.vuejs.org/v2/guide/"; (async () => { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto(url, { waitUntil: "networkidle0" }); /* 選擇你要輸出的那個(gè)PDF文件路徑,把爬取到的內(nèi)容輸出到PDF中,必須是存在的PDF,可以是空內(nèi)容,如果不是空的內(nèi)容PDF,那么會(huì)覆蓋內(nèi)容 */ let pdfFilePath = "./index.pdf"; /* 根據(jù)你的配置選項(xiàng),我們這里選擇A4紙的規(guī)格輸出PDF,方便打印 */ await page.pdf({ path: pdfFilePath, format: "A4", scale: 1, printBackground: true, landscape: false, displayHeaderFooter: false }); browser.close(); })()
正在努力學(xué)習(xí)中,若對(duì)你的學(xué)習(xí)有幫助,留下你的印記唄(點(diǎn)個(gè)贊咯^_^)
往期好文推薦:
使用vue開發(fā)移動(dòng)端管理后臺(tái)
實(shí)現(xiàn)單行及多行文字超出后加省略號(hào)
node之本地服務(wù)器圖片上傳
純css實(shí)現(xiàn)瀑布流(multi-column多列及flex布局)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/105214.html
摘要:本文將介紹如何使用和抓取主流的技術(shù)博客文章,然后用搭建一個(gè)小型的技術(shù)文章聚合平臺(tái)。是谷歌開源的基于和的自動(dòng)化測(cè)試工具,可以很方便的讓程序模擬用戶的操作,對(duì)瀏覽器進(jìn)行程序化控制。相對(duì)于,是新的開源項(xiàng)目,而且是谷歌開發(fā),可以使用很多新的特性。 背景 說到爬蟲,大多數(shù)程序員想到的是scrapy這樣受人歡迎的框架。scrapy的確不錯(cuò),而且有很強(qiáng)大的生態(tài)圈,有g(shù)erapy等優(yōu)秀的可視化界面。但...
摘要:本文將介紹如何使用和抓取主流的技術(shù)博客文章,然后用搭建一個(gè)小型的技術(shù)文章聚合平臺(tái)。是谷歌開源的基于和的自動(dòng)化測(cè)試工具,可以很方便的讓程序模擬用戶的操作,對(duì)瀏覽器進(jìn)行程序化控制。相對(duì)于,是新的開源項(xiàng)目,而且是谷歌開發(fā),可以使用很多新的特性。 背景 說到爬蟲,大多數(shù)程序員想到的是scrapy這樣受人歡迎的框架。scrapy的確不錯(cuò),而且有很強(qiáng)大的生態(tài)圈,有g(shù)erapy等優(yōu)秀的可視化界面。但...
摘要:爬蟲爬蟲又稱網(wǎng)絡(luò)機(jī)器人。每天或許你都會(huì)使用搜索引擎,爬蟲便是搜索引擎重要的組成部分,爬取內(nèi)容做索引。那我萌就來探討一下網(wǎng)絡(luò)爬蟲吧。對(duì)后關(guān)于不僅僅可以用來做爬蟲,因?yàn)榭梢跃幊蹋瑹o頭瀏覽器,可以用來自動(dòng)化測(cè)試等等。 @(爬蟲)[puppeteer|] 爬蟲又稱網(wǎng)絡(luò)機(jī)器人。每天或許你都會(huì)使用搜索引擎,爬蟲便是搜索引擎重要的組成部分,爬取內(nèi)容做索引。現(xiàn)如今大數(shù)據(jù),數(shù)據(jù)分析很火,那數(shù)據(jù)哪里來呢,...
摘要:上面只爬取了京東首頁的圖片內(nèi)容,假設(shè)我的需求進(jìn)一步擴(kuò)大,需要爬取京東首頁中的所有標(biāo)簽對(duì)應(yīng)的跳轉(zhuǎn)網(wǎng)頁中的所有的文字內(nèi)容,最后放到一個(gè)數(shù)組中。 showImg(https://segmentfault.com/img/bVbtVeV?w=3840&h=2160); 本文適合無論是否有爬蟲以及Node.js基礎(chǔ)的朋友觀看~ 需求: 使用Node.js爬取網(wǎng)頁資源,開箱即用的配置 將爬取到的...
閱讀 2686·2023-04-25 20:28
閱讀 1863·2021-11-22 09:34
閱讀 3694·2021-09-26 10:20
閱讀 1853·2021-09-22 16:05
閱讀 3094·2021-09-09 09:32
閱讀 2526·2021-08-31 09:40
閱讀 2108·2019-08-30 13:56
閱讀 3325·2019-08-29 17:01