摘要:做了什么一個用于爬取上妹子圖片的爬蟲。于是觀察瀏覽器正常瀏覽行為。在請求頭中設置和。解決該問題斷線繼續下載圖片下載個文件時,經常斷線。應該是網站的飯爬蟲機制起了作用,暫時無法解決。于是在保存圖片時會先判斷圖片是否存在。
做了什么
一個用于爬取www.nvshens.com上妹子圖片的爬蟲。如有侵權,馬上關閉
一張張下實在太麻煩了
</>復制代碼
0. node -v >= 7.6
1. git clone https://github.com/laihaibo/beauty-spider.git
2. npm i
3. npm run start (爬取相冊圖片鏈接,并保存為json)
4. npm run calc (獲取爬取的相冊數和文件數)
5. npm run download (下載圖片文件)
update
against反爬蟲
圖片下載完之后會發現變成了盜鏈圖片。于是觀察瀏覽器正常瀏覽行為。在請求頭中設置referer, accept和user-agent。解決該問題
</>復制代碼
request.get(url).set({
"Referer": "https://www.google.com",
"Accept": "image/webp,image/*,*/*;q=0.8",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3091.0 Safari/537.36"
}).end((err, res) => {})
斷線繼續下載
圖片下載700個文件時,經常斷線。應該是網站的飯爬蟲機制起了作用,暫時無法解決。重新下載時理應跳過已經下載的文件。于是在保存圖片時會先判斷圖片是否存在。
</>復制代碼
let isExit = fs.existsSync(path);
if (!isExit) {
saveOne(...args)
}
獲取理應下載的相冊數和文件數
</>復制代碼
let data = JSON.parse(fs.readFileSync(path));
let count = data.reduce((prev, cur) => prev + cur.imgList.length, 0);
console.log(`共${data.length}個相冊,共${count}張圖片`);
步驟
引入所需的庫
</>復制代碼
const fs = require("fs");
const mkdirp = require("mkdirp");
const cheerio = require("cheerio");
const request = require("superagent");
require("superagent-charset")(request);
頁面分析,配置config文件
分析相冊地址,以韓國這個標簽為例,首頁為https://www.nvshens.com/gallery/hanguo/, 第二頁為https://www.nvshens.com/gallery/hanguo/2.html
</>復制代碼
const config = {
current: "hanguo",
allTags: {
rougan: `https://www.nvshens.com/gallery/rougan/`,
hanguo: "https://www.nvshens.com/gallery/hanguo/"
}
}
封裝獲取指定url的html內容函數
</>復制代碼
//該網站編碼為utf-8
const getHtml = url => {
return new Promise((resolve, reject) => {
request.get(url).charset("utf-8").end((err, res) => {
err ? reject(err) : resolve(cheerio.load(res.text));
})
})
}
獲取本分類下所有相冊的標簽
</>復制代碼
/**
* @param {string} startUrl 標簽首頁的url地址
*/
const getAlbums = (startUrl) => {
return new Promise((resolve, reject) => {
let albums = []; // 用于保存該標簽的所有相冊信息
let getQuery = async startUrl => {
try {
let $ = await getHtml(startUrl);
let pages = $("#listdiv .pagesYY a").length; // 獲取頁數
for (let i = 1; i <= pages; i++) {
let pageUrl = `${startUrl + i}.html` // 設置每頁的url
let $ = await getHtml(pageUrl);
// 動態設置pages的值
let compare = $("#listdiv .pagesYY a").map(function (i, el) {
return parseInt($(this).text(), 0);
}).get().filter(x => x > 0);
pages = conmpare.length < 2 ? pages : compare.reduce((prev, cur) => Math.max(prev, cur));
$(".galleryli_title a").each(function () {
albums.push({
title: $(this).text(),
url: `https://www.nvshens.com${$(this).attr("href")}`,
imgList: [],
id: parseInt($(this).attr("href").split("/")[2], 10)
})
})
}
resolve(albums); // 返回相冊信息
} catch (error) {
console.log(error);
}
}
getQuery(startUrl);
})
}
獲取所有相冊的圖片信息
</>復制代碼
/**
* @param {string} startUrl 該相冊首頁的url地址
*/
const getImgList = (startUrl) => {
return new Promise((resolve, reject) => {
let albums = []; // 存儲本相冊的所有圖片信息
let getQuery = async startUrl => {
try {
let $ = await getHtml(startUrl);
let pages = $("#pages a").length;
for (let i = 1; i <= pages; i++) {
let pageUrl = `${startUrl + i}.html`
let $ = await getHtml(pageUrl);
$("#hgallery img").each(function () {
let url = $(this).attr("src"); //圖片地址
let fileName = url.split("/").pop(); //文件名
let id = parseInt(fileName.split(".")[0], 10); //id
albums.push({
url,
fileName,
id
})
})
}
resolve(albums); // 返回本相冊的所有圖片信息
} catch (error) {
console.log(error);
}
}
getQuery(startUrl);
})
}
保存相冊信息
</>復制代碼
/**
* @param {string} path 保存數據的路徑
* @param {array} albums 相冊信息數組
*/
const saveData = (path, albums) => {
fs.writeFile(path, JSON.stringify(albums, null, " "), function (err) {
err ? console.log(err) : console.log("Data saved");
});
}
保存圖片
</>復制代碼
/**
12. @param {string} title 圖片所在文件夾名
13. @param {string} url 圖片url
14. @param {string} fileName 圖片名
15. @param {array} imgList 單個相冊的圖片信息
*/
// 保存一張圖片
const saveOne = (title, url, fileName) => {
return new Promise((resolve, reject) => {
let path = `./img/${currentImgType}/${title}/${fileName}`;
request.get(url).end((err, res) => {
if (err) {
console.log(`Error: ${err} in getting ${url}`)
}
fs.writeFile(path, res.body, function (err) {
if (err) console.log(`Error: ${err} in downloading ${url}`)
});
resolve();
})
})
}
//保存一個相冊下的多張圖片
const saveImg = ({title,imgList}) => {
// 創建文件夾
mkdirp(`./img/${currentImgType}/${title}`, function (err) {
if (err) {
console.log(`Error: ${err} in makedir ${title}`);
}
});
let getQuery = async() => {
try {
for (let {url,fileName} of imgList) {
await saveOne(title, url, fileName);
}
} catch (error) {
console.log(error);
}
}
// 打印下載一個相冊所需時間
console.time(`download ${title}...`)
getQuery();
console.timeEnd(`download ${title}...`)
}
執行爬蟲
</>復制代碼
const doSpider = async() => {
try {
// 獲取相冊信息
let albums = await getAlbums(allTags[current]);
// 獲取每張圖片信息
for (let album of albums) {
let imgList = await getImgList(album.url);
album.imgList = imgList;
}
// 保存json
let jsonPath = `./data`;
mkdirp(jsonPath, function (err) {
if (err) {
console.log(`Error: ${err} in makedir of Json`);
}
});
saveData(`${jsonPath}/${currentImgType}.json`, albums);
// 保存圖片
for (let value of albums) {
saveImg(value)
}
} catch (error) {
console.log(error);
}
}
心得體會
有些坑如果不踩過一遍是不會吐血的,比如cheerio的操作和fs的操作
just do it
感謝本文有參考nieheyong的HanhandeSpider和其他的爬蟲文章,得到很多啟發
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/84186.html
摘要:然而,可用數據集的規模卻沒有成比例地擴大。這還說明無監督表征學習,以及半監督表征學習方法有良好的前景。例如,對于對象探測得分,單個模型目前可以實現,高于此前的。此外,構建包含圖片的數據集并不是最終目標。 都說深度學習的興起和大數據息息相關,那么是不是數據集越大,訓練出的圖像識別算法準確率就越高呢?Google的研究人員用3億張圖的內部數據集做了實驗,然后寫了篇論文。他們指出,在深度模型中,視...
摘要:前端每周清單第期微服務實踐,與,組件技巧,攻防作者王下邀月熊編輯徐川前端每周清單專注前端領域內容,以對外文資料的搜集為主,幫助開發者了解一周前端熱點分為新聞熱點開發教程工程實踐深度閱讀開源項目巔峰人生等欄目。 前端每周清單第 26 期:Node.js 微服務實踐,Vue.js 與 GraphQL,Angular 組件技巧,HeadlessChrome 攻防 作者:王下邀月熊 編輯:徐川...
摘要:接下來我看看一下函數我們先按照分支走為讀取是里的對象,饒了這大的一個圈子,那么接下來一起來看一看對你的輸入配置做了怎么樣的處理吧 打開webpeck-cli下的convert-argv.js文件 // 定義options為空數組 const options = []; // webpack -d 檢查 -d指令 if (argv.d) { //... } ...
摘要:從社區和過往的經驗而言異步編程的難題已經基本解決無論是通過事件還是通過模式或者流程控制庫。本章主要介紹了主流的幾種異步編程解決方案這是目前中主要使用的方案。最后因為人們總是習慣性地以線性的方式進行思考以致異步編程相對較為難以掌握。 前言 如果你想要深入學習Node,那你不能錯過《深入淺出Node.js》這本書,它從不同的視角介紹了 Node 內在的特點和結構。由首章Node 介紹為索引...
閱讀 2596·2021-10-25 09:45
閱讀 1255·2021-10-14 09:43
閱讀 2311·2021-09-22 15:23
閱讀 1539·2021-09-22 14:58
閱讀 1944·2019-08-30 15:54
閱讀 3554·2019-08-30 13:00
閱讀 1367·2019-08-29 18:44
閱讀 1582·2019-08-29 16:59