摘要:項(xiàng)目分析爬取智聯(lián)網(wǎng)站上的全國(guó)的競(jìng)爭(zhēng)最激烈三個(gè)月內(nèi)前十的崗位。模塊專為服務(wù)器設(shè)計(jì)的核心的快速,靈活和精益的實(shí)現(xiàn)。核心代碼發(fā)起請(qǐng)求獲取到的內(nèi)容放到模塊遍歷是通過(guò)分析頁(yè)面結(jié)構(gòu)得到的打印數(shù)據(jù)執(zhí)行就會(huì)得到如下結(jié)果。
node爬蟲(chóng)
什么是爬蟲(chóng)呢,是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。為什么選用node呢,因?yàn)槲沂乔岸耍?dāng)然要用js實(shí)現(xiàn)。
項(xiàng)目分析爬取http://top.zhaopin.com 智聯(lián)網(wǎng)站上的全國(guó)的競(jìng)爭(zhēng)最激烈三個(gè)月內(nèi)前十的崗位。不需要定時(shí)爬取。使用request和cheerio模塊。node版本7.6.0、npm版本4.1.2
安裝npm install request cheerio -S
request 模塊是一個(gè)簡(jiǎn)化的HTTP客戶端。
cheerio 模塊專為服務(wù)器設(shè)計(jì)的核心jQuery的快速,靈活和精益的實(shí)現(xiàn)。可以把爬到的內(nèi)容和jQuery一樣使用。
// app.js const request = require("request"); const cheerio = require("cheerio"); // 發(fā)起請(qǐng)求 request("http://top.zhaopin.com", (error, response, body) => { if(error){ console.error(error); } let json = {}; // 獲取到的內(nèi)容放到cheerio模塊 const $ = cheerio.load(body); // jQuery 遍歷 #hotJobTop .topList li 是通過(guò)http://top.zhaopin.com 分析頁(yè)面結(jié)構(gòu)得到的 $("#hotJobTop .topList li").each(function (index) { let obj = json[index] = {}; obj.name = $(this).find(".title").text().trim(); obj.num = $(this).find(".paddingR10").text().trim(); }); // 打印數(shù)據(jù) console.log(json); });
執(zhí)行 node app.js 就會(huì)得到如下結(jié)果。
[ { name: "Java開(kāi)發(fā)工程師", num: "340538人/天" }, { name: "軟件工程師", num: "220873人/天" }, { name: "銷售代表", num: "175053人/天" }, { name: "會(huì)計(jì)/會(huì)計(jì)師", num: "168225人/天" }, { name: "行政專員/助理", num: "150913人/天" }, { name: "WEB前端開(kāi)發(fā)", num: "140979人/天" }, { name: "助理/秘書(shū)/文員", num: "139098人/天" }, { name: "軟件測(cè)試", num: "136399人/天" }, { name: "人力資源專員/助理", num: "123482人/天" }, { name: "用戶界面(UI)設(shè)計(jì)", num: "107505人/天" } ]
一個(gè)簡(jiǎn)單的爬蟲(chóng)就寫(xiě)好了,看看前十有沒(méi)有你從事的崗位吧!
我的博客和github地址http://blog.langpz.com
https://github.com/lanpangzhi
參考https://github.com/request/request
https://github.com/cheeriojs/cheerio
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/104389.html
摘要:之前接了一個(gè)活,做的功能是從智聯(lián)招聘爬取招聘信息賺了幾百塊零花錢實(shí)現(xiàn)了一個(gè),如圖雖然比較丑,但是簡(jiǎn)潔明了,落落大方已經(jīng)是我水平的天花板了具體功能說(shuō)明就不了,大家都能看懂的。。。。智聯(lián)招聘鏈接網(wǎng)頁(yè)是這個(gè)樣子的,反爬蟲(chóng)不強(qiáng)。 之前接了一個(gè)活,做的功能是從智聯(lián)招聘爬取招聘信息賺了幾百塊零花錢實(shí)現(xiàn)了一個(gè)GUI,如圖:showImg(https://segmentfault.com/img/bV...
摘要:智聯(lián)其實(shí)一共寫(xiě)了兩次,有興趣的可以在源碼看看,第一版的是回調(diào)版,只能一次一頁(yè)的爬取。 寫(xiě)在前面的話, .......還是不寫(xiě)了,直接上效果圖。附上源碼地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...
摘要:網(wǎng)頁(yè)源碼解析智聯(lián)招聘信息頁(yè)面根據(jù)招聘列表里面跳轉(zhuǎn)過(guò)來(lái)的詳細(xì)招聘信息頁(yè)面。巨優(yōu)信息是法國(guó)阿爾卡特朗訊公司企業(yè)通信系統(tǒng)全國(guó)金牌代理商,同時(shí)也是華為思科等國(guó)際知名品牌的核心合作伙伴。主頁(yè)是智聯(lián)招聘里唯一能夠讓企業(yè)自己定制的頁(yè)面了。 網(wǎng)頁(yè)源碼解析 - 智聯(lián)招聘信息頁(yè)面 根據(jù)招聘列表里面跳轉(zhuǎn)過(guò)來(lái)的詳細(xì)招聘信息頁(yè)面。爬蟲(chóng)再根據(jù)這里進(jìn)行關(guān)鍵信息提取。相比于搜索列表頁(yè)來(lái)說(shuō),這頁(yè)內(nèi)容很簡(jiǎn)單,而我們需要的...
摘要:年月日爬取,爬蟲(chóng)代碼不知道是否失效文章目錄爬蟲(chóng)目標(biāo)具體過(guò)程源碼爬蟲(chóng)目標(biāo)要求搜索大數(shù)據(jù)專業(yè),爬相關(guān)公司的招聘信息。 2021年10月7日爬取,爬蟲(chóng)代碼不知道是否失效 ...
摘要:網(wǎng)頁(yè)源碼解析智聯(lián)招聘搜索列表一開(kāi)始必須要解析智聯(lián)招聘搜索列表頁(yè),從這里更方便實(shí)現(xiàn)各種深層級(jí)數(shù)據(jù)抓取。顯示不同源碼也不同,盡量選列表模式,源碼更好解析。 網(wǎng)頁(yè)源碼解析 - 智聯(lián)招聘搜索列表 一開(kāi)始必須要解析智聯(lián)招聘搜索列表頁(yè),從這里更方便實(shí)現(xiàn)各種深層級(jí)數(shù)據(jù)抓取。網(wǎng)頁(yè)地址是:http://sou.zhaopin.com/jobs/searchresult.ashx 搜索參數(shù) 智聯(lián)招聘的服務(wù)...
閱讀 1596·2023-04-25 15:50
閱讀 1314·2021-09-22 15:49
閱讀 2941·2021-09-22 15:06
閱讀 3601·2019-08-30 15:54
閱讀 2340·2019-08-29 11:33
閱讀 2126·2019-08-23 17:56
閱讀 2154·2019-08-23 17:06
閱讀 1304·2019-08-23 15:55