摘要:網(wǎng)頁源碼解析智聯(lián)招聘信息頁面根據(jù)招聘列表里面跳轉(zhuǎn)過來的詳細(xì)招聘信息頁面。巨優(yōu)信息是法國阿爾卡特朗訊公司企業(yè)通信系統(tǒng)全國金牌代理商,同時也是華為思科等國際知名品牌的核心合作伙伴。主頁是智聯(lián)招聘里唯一能夠讓企業(yè)自己定制的頁面了。
網(wǎng)頁源碼解析 - 智聯(lián)招聘信息頁面
根據(jù)招聘列表里面跳轉(zhuǎn)過來的詳細(xì)招聘信息頁面。爬蟲再根據(jù)這里進(jìn)行關(guān)鍵信息提取。
相比于搜索列表頁來說,這頁內(nèi)容很簡單,而我們需要的也不多。
不過需要注意的是,這里在職業(yè)信息之外還需要額外收集企業(yè)信息。
雖然另外有專門的代碼跳轉(zhuǎn)到企業(yè)主頁去搜集信息,但是閱讀源碼后發(fā)現(xiàn),每家VIP企業(yè)都可以自己定制網(wǎng)頁,因此獲取基本信息不方便。
所以企業(yè)基本信息要在這一頁就收集齊(基本信息和企業(yè)主頁里是完全一樣的)。
下面開始簡單分析下各處源碼。
可以直接用class*="inner-left"對頭信息進(jìn)行定位,然后在其中用h1標(biāo)簽為職位名稱,h2標(biāo)簽為公司名稱,class="welfare-tab-box"為福利信息。
職位基礎(chǔ)信息基礎(chǔ)信息定位很簡單,class^="terminal-ul"就夠了。但是其中的每個信息沒有標(biāo)記,就只能用中文名稱或者是順序定位了。
信息內(nèi)容全包含在strong標(biāo)簽里。
- 公司規(guī)模:20-99人
- 公司性質(zhì):民營
- 公司行業(yè):通信/電信運營、增值服務(wù)
- 公司主頁:http://www.G-best.com.cn
- 公司地址: 上海市徐匯區(qū)桂林路396號中核浦原科技園3號樓101室
定位的話,直接找到class中含有terminal-company的ul標(biāo)簽,然后按照li標(biāo)簽的順序或者按照中文文字匹配到企業(yè)基本信息。
職位描述信息任職要求:1、1年以上IT行業(yè)的售經(jīng)驗,以通訊產(chǎn)品及服務(wù)器產(chǎn)品為主;
2、熟悉Siemens,NEC, Panasonic,Alcatel等PBX 機型,具有VOIP組網(wǎng)的相關(guān)銷售經(jīng)驗;具備專業(yè)客戶銷售技巧;擅長與客戶交流并能迅速整合客戶所需資源;3、熟悉思科、華為、Alcatel等數(shù)據(jù)交換機,具有相關(guān)銷售經(jīng)驗;具備專業(yè)客戶銷售技巧;擅長與客戶交流并能迅速整合客戶所需資源;
4、具備良好人際交往、市場策劃、方案演講、商務(wù)談判,有強烈的贏單欲望,樂于陌生人交流,善于溝通,性格穩(wěn)重、勤奮,能夠承受較大銷售業(yè)績壓力。
5、有銷售同類語音交換機PBX、數(shù)據(jù)交換機 產(chǎn)品經(jīng)驗者優(yōu)先。
崗位職責(zé):
1、負(fù)責(zé)本地區(qū)維護老客戶,拓展新市場,建立與擴大銷售網(wǎng)絡(luò),提升銷售業(yè)績,完成總部或分公司交付的銷售任務(wù);
2、建立和維護本地區(qū)的客戶關(guān)系,樹立良好的公司口碑和品牌形象;
3、負(fù)責(zé)項目投標(biāo)的運作,包括商務(wù)文件的起草和整個標(biāo)書的制作與審定;負(fù)責(zé)商務(wù)合同的起草、簽署和項目收款工作;
4、高標(biāo)準(zhǔn)地為客戶提供優(yōu)質(zhì)服務(wù)和妥善處理客戶投訴,以提高客戶的滿意度;
5、不斷學(xué)習(xí)新知識與新技術(shù),提升自身的專業(yè)能力與職業(yè)素質(zhì);工作地點: 北京工作地址:北京市豐臺區(qū)南三環(huán)西路16號搜寶商務(wù)中心2號樓2608室 查看職位地圖
這個也好說,直接找到class="tab-inner-cont",然后自動排除所有標(biāo)簽,只獲取文本信息就夠了。
需要注意的是,源碼里有2個class為tab-inner-cont的div,第1個是職位描述,第2個是企業(yè)簡介。
上面說過了,職位描述的class也為tab-inner-cont,所以獲取的時候按順序取值就好了。
網(wǎng)頁源碼解析 - 企業(yè)主頁智聯(lián)招聘的企業(yè)主頁分為2種:普通主頁和VIP主頁。VIP主頁是智聯(lián)招聘里唯一能夠讓企業(yè)自己定制的頁面了。
這也就形成了千奇百怪的源碼,分析起來并不容易。不過好在企業(yè)的基本信息,在招聘頁面就已經(jīng)獲得了。
剩下唯一需要的信息就是企業(yè)的所有招聘信息了,也是非常重要的地方。
招聘信息在2種不同主頁中,在源碼中也分為了2種構(gòu)建方式:
普通主頁:正常的tag循環(huán)陳列
VIP 主頁:在javascript中以list列表變量形式儲存,并動態(tài)顯示出來。
不過說回來,這也是不確定的解析,因為變化太多了,我只是隨機打開了一些頁面參考,不能代表全部。其實,最好的方法是在搜索頁面直接按公司名稱搜索,就得到他所有的招聘信息了。那么下面開始進(jìn)行2種源碼的分析。
普通企業(yè)主頁職位名稱 公司名稱 職位月薪 工作地點 發(fā)布日期
地點:北京 公司性質(zhì):民營 公司規(guī)模:1000-9999人 經(jīng)驗:3-5年 學(xué)歷:本科 職位月薪:15001-20000元崗位職責(zé):? 1、公司核心數(shù)據(jù)庫的管理,保證數(shù)據(jù)庫正常運轉(zhuǎn)和數(shù)據(jù)的安全;包括安裝、配置、升級,數(shù)據(jù)備份、恢復(fù),性能監(jiān)控分析調(diào)優(yōu)等;?2、參與開發(fā)設(shè)計,負(fù)責(zé)數(shù)據(jù)結(jié)構(gòu)設(shè)計;?3、負(fù)責(zé)公司數(shù)據(jù)倉庫的建設(shè)。 任職要求:? 1、具有三年以上MySQL工作經(jīng)驗;?2、精通MySQL數(shù)據(jù)庫的運行機制和體系架構(gòu);?3、精...
可以看到,大容器是class中含有positionList的div。其中每條招聘信息都是class="positionListContent"的div,職位鏈接其實非常好找,找到class="jobName"的span標(biāo)簽獲取其下a鏈接的href地址就好了。
VIP企業(yè)主頁實際上VIP企業(yè)主頁也不全都是以下的構(gòu)建方式,發(fā)現(xiàn)了一些少數(shù)的大公司,會完全不一樣,通過代碼來看,是真沒什么辦法的。。。
可以看到,該企業(yè)所有的招聘信息都存在Javascript腳本中的叫arrJobList的變量里了。變量的格式為:arrJobList=[[第1條招聘信息],[第2條招聘信息]],是列表嵌套列表。而每條招聘信息數(shù)據(jù)的內(nèi)容為:["職位名稱","招聘網(wǎng)址","所在地點","城市代碼","行業(yè)名稱","行業(yè)代碼","企業(yè)名稱","企業(yè)代碼","發(fā)布日期","0","未知編號"]
其實這個地方,難點就在于怎么在python中獲取Javascript腳本中的變量……文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/37661.html
摘要:網(wǎng)頁源碼解析智聯(lián)招聘搜索列表一開始必須要解析智聯(lián)招聘搜索列表頁,從這里更方便實現(xiàn)各種深層級數(shù)據(jù)抓取。顯示不同源碼也不同,盡量選列表模式,源碼更好解析。 網(wǎng)頁源碼解析 - 智聯(lián)招聘搜索列表 一開始必須要解析智聯(lián)招聘搜索列表頁,從這里更方便實現(xiàn)各種深層級數(shù)據(jù)抓取。網(wǎng)頁地址是:http://sou.zhaopin.com/jobs/searchresult.ashx 搜索參數(shù) 智聯(lián)招聘的服務(wù)...
摘要:智聯(lián)其實一共寫了兩次,有興趣的可以在源碼看看,第一版的是回調(diào)版,只能一次一頁的爬取。 寫在前面的話, .......還是不寫了,直接上效果圖。附上源碼地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...
摘要:之前接了一個活,做的功能是從智聯(lián)招聘爬取招聘信息賺了幾百塊零花錢實現(xiàn)了一個,如圖雖然比較丑,但是簡潔明了,落落大方已經(jīng)是我水平的天花板了具體功能說明就不了,大家都能看懂的。。。。智聯(lián)招聘鏈接網(wǎng)頁是這個樣子的,反爬蟲不強。 之前接了一個活,做的功能是從智聯(lián)招聘爬取招聘信息賺了幾百塊零花錢實現(xiàn)了一個GUI,如圖:showImg(https://segmentfault.com/img/bV...
摘要:年月日爬取,爬蟲代碼不知道是否失效文章目錄爬蟲目標(biāo)具體過程源碼爬蟲目標(biāo)要求搜索大數(shù)據(jù)專業(yè),爬相關(guān)公司的招聘信息。 2021年10月7日爬取,爬蟲代碼不知道是否失效 ...
閱讀 3944·2021-11-16 11:50
閱讀 938·2021-11-11 16:55
閱讀 3664·2021-10-26 09:51
閱讀 868·2021-09-22 15:03
閱讀 3428·2019-08-30 15:54
閱讀 3268·2019-08-30 15:54
閱讀 2479·2019-08-30 14:04
閱讀 924·2019-08-30 13:53