摘要:年月日爬取,爬蟲代碼不知道是否失效文章目錄爬蟲目標具體過程源碼爬蟲目標要求搜索大數據專業,爬相關公司的招聘信息。
2021年10月7日爬取,爬蟲代碼不知道是否失效
要求:搜索“大數據”專業,爬相關公司的招聘信息。列數不少于10列,行數不少于3000 。
目標:搜索“大數據”,爬取智聯招聘 北京上海廣州深圳天津武漢西安 職位名稱,企業名稱,薪資,什么市(區),學歷要求,經驗要求,公司規模,公司性質,工作類型,詳情頁鏈接https
登錄網站,搜索大數據,右鍵查看網頁源代碼
Ctrl+F搜索大數據工程師,發現數據都在網頁源代碼中
基本思路有了,可用正則直接在源碼里匹配得到數據,也可以打開開發者工具抓包分析接口用scrapy爬。這篇博客用正則表達式匹配。
pycharm響應成功。
然后用正則寫代碼就行了。
import reimport requestsimport timeheaders = {"User-Agent": "登陸后自己的user-agent", "Cookie":"登陸后自己的cookie" }for page in range(1,28): #北京上海廣州深圳天津武漢西安的url url=f"https://sou.zhaopin.com/?jl=854&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE&p={page}" time.sleep(5) #停頓5秒 response = requests.get(url, headers=headers).text for i in range(30): #每頁有最多30條數據 name = re.findall(r""matchInfo":.*?"name":"(.*?)"", response)[i] #工作名稱 companyName = re.findall(r""companyName":"(.*?)"", response)[i] cityDistrict=re.findall(r""cityDistrict":"(.*?)"",response)[i] education=re.findall(r""education":"(.*?)"",response)[i] #學歷 salary60=re.findall(r""salary60":"(.*?)"",response)[i] #薪資 workingExp=re.findall(r""workingExp":"(.*?)"",response)[i] #經驗要求 property=re.findall(r""property":"(.*?)"",response)[i] #公司性質 companySize=re.findall(r""companySize":"(.*?)"",response)[i] #公司規模 workType = re.findall(r""workType":"(.*?)"", response)[i] #工作類型 positionURL=re.findall(r""positionURL":"(.*?)"",response)[i]#詳情頁鏈接 f = open("zhilian.csv", "a", encoding="utf8") f.write("{},{},{},{},{},{},{},{},{},{}/n".format(name, companyName, cityDistrict,education,salary60,workingExp,property,companySize,workType,positionURL)) f.close()
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/124522.html
摘要:智聯其實一共寫了兩次,有興趣的可以在源碼看看,第一版的是回調版,只能一次一頁的爬取。 寫在前面的話, .......還是不寫了,直接上效果圖。附上源碼地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...
摘要:日前,簡歷大數據公司巧達科技被警方一鍋端,高管和員工全部被帶走。買賣簡歷,直接違法。三人累計販賣個人簡歷萬余份,智聯招聘由此蒙受損失近 日前,簡歷大數據公司巧達科技被警方一鍋端,高管和員工全部被帶走。到底發生了什么??一 、為什么公司全員被抓?3月14日團隊被警方帶走,有HR等非核心成員回家,但核心高管依然失...
摘要:網頁源碼解析智聯招聘搜索列表一開始必須要解析智聯招聘搜索列表頁,從這里更方便實現各種深層級數據抓取。顯示不同源碼也不同,盡量選列表模式,源碼更好解析。 網頁源碼解析 - 智聯招聘搜索列表 一開始必須要解析智聯招聘搜索列表頁,從這里更方便實現各種深層級數據抓取。網頁地址是:http://sou.zhaopin.com/jobs/searchresult.ashx 搜索參數 智聯招聘的服務...
摘要:日前,簡歷大數據公司巧達科技被警方一鍋端,高管和員工全部被帶走。買賣簡歷,直接違法。三人累計販賣個人簡歷萬余份,智聯招聘由此蒙受損失近日前,簡歷大數據公司巧達科技被警方一鍋端,高管和員工全部被帶走。到底發生了什么? ?一 、為什么公司全員被抓? 3月14日團隊被警方帶走,有HR等非核心成員回家,但核心高管依然失聯中。3月25日,一位巧達科技前員工告訴燃財經。 在天眼查中北京...
閱讀 2695·2023-04-25 17:21
閱讀 2558·2021-11-23 09:51
閱讀 2850·2021-09-24 10:32
閱讀 3780·2021-09-23 11:33
閱讀 1980·2019-08-30 15:44
閱讀 3458·2019-08-30 11:18
閱讀 3530·2019-08-30 10:53
閱讀 631·2019-08-26 13:25