摘要:最近在研究區塊鏈,閑來無事抓取了拉勾網上條區塊鏈相關的招聘信息。拉勾網的反爬蟲做的還是比較好的,畢竟自己也知道這種做招聘信息聚合的網站很容易被爬,而且比起妹子圖這種網站,開發的技術水平應該高不少。
最近在研究區塊鏈,閑來無事抓取了拉勾網上450條區塊鏈相關的招聘信息。過程及結果如下。
拉勾網爬取首先是從拉勾網爬取數據,用的requests庫。拉勾網的反爬蟲做的還是比較好的,畢竟自己也知道這種做招聘信息聚合的網站很容易被爬,而且比起妹子圖這種網站,開發的技術水平應該高不少。
一開始爬取幾個數據后就會跳轉到登陸頁面,當時采用的應對策略是:當跳轉到登陸頁面的時候,就掛起20s,再重新請求一次,發現一般掛起一段時間之后就又可以訪問了。這樣的問題是比較慢,450條信息花了幾十分鐘。
后來,我天真地認為:只要登陸了就可以不用掛起等待這么久。于是,添加了模擬登陸地邏輯,主要參考地這篇文章:python -- 拉勾網爬蟲模擬登錄 - CSDN博客。拉勾網對密碼做了兩次md5加密,并會下發動態地Token口令,防止低級地偽造請求,需要仔細分析登陸界面加載的JS文件才能成功登陸,拿到Cookie。想起當年模擬登陸教務處,學號密碼都是明文傳輸,我直接用F12工具能看到。。。成功拿到Cookie后發現,訪問過快時又會跳轉到首頁,并彈出一個“切換城市”的懸浮窗,更準確地說是我的請求被重定向了。
為什么重定向,因為后臺能夠通過訪問頻率很容易發現我的請求是爬蟲,所以重定向,普通用戶可以點擊取消懸浮窗,由于requests不支持JS運行,所以我就GG了,只能像前面那樣掛起一段時間再請求。這樣一來,模擬登陸就沒有意義了。
針對這種情況,我認為有兩種解決辦法,一種是使用IP池和多線程,不斷變換請求的IP就不會被發現了。另外一種就是用無頭瀏覽器。個人感覺兩種都是可行的,下次有需求了再實踐一下。
將爬取的網頁提取信息,本著可視化原則,用mathplotlib做些圖。其中遇到的主要問題是mathplotlib的中文支持,試了網上很多方法都失敗了,這里要把自己親測可行的方法記錄下來:
from matplotlib import rcParams import matplotlib.font_manager as fm zhfont = matplotlib.font_manager.FontProperties(fname="../test.ttf") font_list = fm.createFontList(fm.findSystemFonts(["/home/zhaoyu/Project/BlockChainAnalysis/font", ])) fm.fontManager.ttflist.extend(font_list) matplotlib.rcParams["font.family"] = "WenQuanYi Micro Hei"
主要結果如下:
公司規模,小公司居多:
城市分布,北上深最多:
發展階段:
薪資分布:
(感覺這樣表示不是很直觀,自己劃定幾個區間,做一個柱狀圖可能更好)
最后還用jieba和textrank4zh做了關鍵詞提取,但由于手法粗糙加上噪音嚴重(產品經理、技術開發等等的招聘需求應該分類處理),效果好像不是很理想:
Building prefix dict from the default dictionary ... Loading model from cache /tmp/jieba.cache Loading model cost 0.854 seconds. Prefix dict has been built succesfully. 關鍵詞: 技術 0.010791270870042516 區塊 0.008745674154277546 相關 0.00844148459795554 工作 0.008368189087078589 開發 0.007315529659791802 熟悉 0.006915993478846666 產品 0.0066154024633222315 能力 0.00606941754659388 項目 0.005688665635431383 經驗 0.005609155675707272 公司 0.005484150951833748 優先 0.005273082641983991 團隊 0.004833977171492051 行業 0.004666562221685026 設計 0.004646942513692475 系統 0.004561171667742128 進行 0.004504888034867325 研究 0.004431023464429216 業務 0.00431705965334352 負責 0.004180396829264431發現的不足
按照之前的計劃,個人能力的構建應該分為兩部分,一部分是工具庫的積累,一部分是底層原理的掌握。目前來看,兩方面做的都不是很好。beautifulsoup和mathplotlib都很不熟練,遇到反爬蟲不能快速解決,拿到數據也不能很好的可視化出來。
平時沒有意識去建立個人知識體系,比如常見的反爬蟲與繞過方法,數據挖掘(拿到了爬取的數據該怎么辦),數據可視化(怎么直觀地表示數據)。
寫代碼不能得心應手,比如對容器地某個操作怎么最優雅,自己目前的水平就是遇到問題百度一下,找個可行地方案就套用上去,離自己理想的狀態差太遠了。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/24050.html
摘要:本程序是抓取知乎的用戶數據,要能訪問用戶個人頁面,需要用戶登錄后的才能訪問。經過查閱資料得知,是因為知乎對圖片做了防盜鏈處理。最終的結果是,用了一個周末就抓取了萬的用戶數據。 代碼托管地址:https://github.com/hoohack/zhihuSpider 這次抓取了110萬的用戶數據,數據分析結果如下:showImg(https://segmentfault.com/img...
摘要:成功爬取了拉鉤網上多個招聘崗位的具體信息后,數據可視化并得出分析結果如下從整體看,北上廣深杭這五個城市前端工程師招聘崗位,北京是遙遙領先,是深圳的兩倍,是廣州的三倍,其次到上海,深圳,杭州,廣州居末。 前前言 本文首發于 github blog 不想看爬蟲過程只想看職位錢途數據分析請看這里:前端招聘崗位分析C++招聘崗位分析JAVA招聘崗位分析PHP招聘崗位分析Python招聘崗位分析...
摘要:覺得好的話,順手分享到朋友圈吧,感謝支持。抓住時代的趨勢在上篇文章中,也就是那個跨維度的打擊,是可以直接秒殺的中,提到這個時代的問題,這次針對語言的前景分析,其實我也想講一下時代的問題。目前語言就處于這樣一個不錯的時代中。 本文為原創文章,轉載注明出處,asdfasdfasdf 歡迎掃碼關注公眾號flysnow_org或者網站http://www.flysnow.org/,第一時間看后...
閱讀 941·2021-09-07 09:58
閱讀 1490·2021-09-07 09:58
閱讀 2884·2021-09-04 16:40
閱讀 2506·2019-08-30 15:55
閱讀 2414·2019-08-30 15:54
閱讀 1371·2019-08-30 15:52
閱讀 433·2019-08-30 10:49
閱讀 2606·2019-08-29 13:21