摘要:背景分析至此,下一步要解決的問題就是完成一次獨立的請求,并解析得到目標數據。上方地址欄的網址是請求的入口,中間圓角方框中的格式天津則是請求參數。當我看到中的天津時,非常開心,因為我找到了請求的入口。
概要
背景描述
網站和http請求分析
IP受限的問題
1. 背景描述大為軟件公司于2001年9月在保定國家高新技術產業開發區注冊,公司致力于中國、日本知識產權軟件的研究開發,立志成為新興的中國知識產權信息服務業一流服務供應商,以專業化、國際化的形象服務于中國市場,為企業、大學、科研院所、知識產權代理機構等用戶提供國際一流品質的知識產權信息技術服務。
朋友希望獲取A股上市公司(約3000余家)2014-2016年的專利數量,包括發明專利/實用新型/外觀專利和外國授權四類。人們使用爬蟲從公開網絡獲取數據,核心要解決的問題就是效率,通過程序模擬http請求,獲取數據并解析得到目標數據。3500家公司3年的數據累計1萬次請求,初聽來難點在于可能遇到的動態網頁/網頁解析和其他可能遇到的反爬蟲機制上,但最終卻栽在了1萬次請求上(IP限制)。一般數據服務公司出于商業考量,公共試用服務都會限制請求次數,希望無限制訪問則需要付費升級為vip。
經典意義上的爬蟲流程是,定義一個起始網址(start_url),請求該網址并獲取reponse,用lxml或bs4解析網址獲取目標數據,同時利用網頁之間的外鏈關系將解析得到的url壓棧得到下一步需要爬取的網址,不斷的遞歸上述過程,直到達到約定的條件停止,這種方法時非常暴力的,需要解決url去重和排序的問題,工程量非常大,一般見于淘寶/京東等網站信息的爬取。當目標資源數量有限,且通過分頁列表的方式組織時,有一種相對優雅的方式去組織爬蟲程序,可以通過循環的方式分別請求目標數據,很多時候都可以通過直接拼url的方式解決。我面臨的問題有別于經典問題,是一個query問題,這一萬次請求之間沒有任何關聯,雖然如此,只要兩個循環(對股票的循環和對時間的循環)即可解決。背景分析至此,下一步要解決的問題就是完成一次獨立的請求,并解析得到目標數據。
2. 網站和http請求分析上圖即目標網站截圖,其中右側紅色方框中選中部分的四個數字就是我的目標。上方地址欄的網址是請求的入口,中間圓角方框中的query格式("天津 and ADY=2016")則是請求參數。
目前需要解決兩個問題:1,如何將目標網頁load到本地,即將網頁爬下來;2,從爬到的網頁中將目標數據解析出來。又以第一個問題最為緊要,且第一個問題還有一個附帶的小問題,即目標網頁是否是動態網頁。動態網頁即動態加載的頁面,一個完整的網絡請求包括load網頁框架和ajax異步請求數據并填充渲染。動態網頁對爬蟲的影響是巨大的,requests或者urllib2等程序發起的http請求只能完成第一步工作,后續的ajax異步請求數據將不被執行,結果是我們將拿不到任何有效信息,一般我們關注的信息都在動態加載部分,除非我們要的是模版。直覺分析,專利數據應該是不斷更新的,這種信息一般的處理方式都是動態從數據庫中檢索獲得,所以極有可能是動態網頁。動態網頁的識別和解決辦法按下不表,我們先解決模擬請求的問題。
2.1 模擬請求經典爬蟲是不需要傳參的,我們只需要用requests等包請求目標網址即可,且一般是post方法。我們面臨的問題稍有區別,需要傳一個query字符串來表明請求的目標。
http協議中,一般建議通過POST方法的body傳遞參數給服務端,但是許多網站由于不規范或者出于安全考慮等原因,通過GET方法方法傳參數的情況也不鮮見,將query字符串藏在header里面或者拼接在url中都可以實現該目的。
首先,我嘗試了一種最質樸和直接的拼接url的思路,即上圖紅色標注的鏈接,很可惜并未能獲取到檢索結果。to young to naive.
正規軍的辦法是使用chrome的開發者工具。如上面截圖,在輸入query字符串之后,我們觀察右側的network目錄,一般在XHR下面會有目標的AJAX請求,我的運氣比較好,目標網站比較簡單,只有一個類似請求,進入請求詳情如下圖。
當我看到request payload中的“天津 and ADY=2016”時,非常開心,因為我找到了請求的入口。general部分標示了目標的網址,且表明這是一個POST請求。如果愿意,我們可以帶上requests header部分,目標網站不需要登陸,所以這一部分處理是否帶上看情懷。
到現在,我們已經把網站請求分析清楚了,剩下要做的就是找一個python的包來實現上面的POST請求。
這里一定要吐槽下,作為python的三大主流應用(網站框架/數據挖掘/爬蟲)之一,python內置的urllib/urllib2是我見過最混亂和不pythonic的。簡單區分下,不用scrapy等爬蟲框架的背景下,大家一般會用urllib.urlencode()來拼接帶query的url,然后用urllib2來生成一個Request對象,并用urllib2.urlopen打開該Request,或者直接打開一個url,相關信息參考如下鏈接。
簡單比較了下urllib2和requests之后,我迅速決定使用reuqests包,因為它提供了非常簡潔的post方法,而且接口十分簡潔優雅,真心非常對得起它的slogon - http for humans. 這個包也真是沒誰了,logo長得漂亮,api寫的優雅,而且也足夠屌,簡介中有一段warning,極盡鄙視其他http包,并威脅如果用其他的包可能導致死亡,吐血拜服。
有一小點需要說明,requests的post方法通過payload參數傳入body部分,document中說明,同時接受字典和json字符串,我一開始傳入python字典卻總是請求失敗,后來在小象學院楊真老師的提示下,改傳入json字符串方能成功。后期復盤,發現雖然post能同時接受字典和json字符串,但卻是生成不同的請求body,傳入字典生成的body部分時一個form表單,而傳入json字符串則對應一個字符串。
2.2 解析爬蟲結果關于動態網頁的判別,我并沒有直接的判斷,在分析網站的請求的過程中就已經知道該請求為動態加載。對于一般的GET請求,則可以通過urllib2.open(target_url).read()的方法,然后用bs4或者lxml,甚至正則的方法去尋找目標對象, 如果是動態網頁,則一般找不到或者只能找到空的tag。
解決動態網頁爬去的思路典型有兩種,一種是模擬瀏覽的行為執行完整的請求過程,甚至操作一個瀏覽器完成完整的請求和渲染過程,推薦的組合是Selenium加PhantomJS,其中Selenium提供了操作web server的python api,PhantomJS則是一個headless的瀏覽器。第二種相對輕便的解決辦法就是如我們上述使用,分析網絡請求流程,找出其中請求目標數據的AJAX請求的url,并模擬該請求。
解析數據部分直接用的resp.json(),不贅述了。
3. IP限制IP限制幾乎時任何正式爬蟲都會遇到的問題,所以我們也遇到了,還好我們只有一萬次請求,最差也可以人工分一周的時間搞定。
為了解決這個問題,我做了如下的嘗試:
代理IP。GitHub上找到一個項目提供了很優美的解決方案。作者寫了一個爬蟲去IP代理池網站爬取代理IP,并用該IP去訪問任意網站(默認是百度,可以考慮用目標網站),如果可以ping通,則將該IP寫入數據庫備用。最優雅的部分在于,可以用flask等輕量的網站框架寫一個網絡服務,暴露一個get方法來給其他應用使用。可惜的是,該方法爬到的IP在爬取目標網址時非常慢,且大部分不可用,最后這個項目默認的數據庫是ssdb,它莫名奇怪的掛掉了。
人肉,他們提到的方案包括插拔家里的路由器,家里和公司的ip每天都刷一遍,找朋友幫忙,騎著單車逛四五個北京的星巴克。
附上項目的github鏈接。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/45537.html
摘要:為啥直接不行呢因為以開頭的最后一條命令是。和和和強制終止最常用的,先提出來。。。。我們可以通過這一條命令來迅速回到程序運行的環境。其實這些配置文件以及這些命令和用戶以及權限等都是有很大關系的。 Ubuntu16升級到18.04 有特殊新穎強迫癥癖好可以升下,如果你覺得16.04好用,就根本沒必要升了 我當時租的 云服務器通常都是16.04,現在估計也是16.04較多 我是個...
摘要:原因為啥要寫這一篇文章呢主要是群內有人在模擬登陸知乎,一直不成功然后我抓包看了下,發現知乎登陸頁已經改版了,而且難度大大提高了。 原因 為啥要寫這一篇文章呢? (主要是qq群內有人在模擬登陸知乎,一直不成功)然后我抓包看了下,發現知乎登陸頁已經改版了,而且難度大大提高了。 開始抓包 首先內,還是打開知乎首頁,然后輸入賬號密碼,登陸(記得輸錯密碼) 這樣我們就可以看到請求頭了(請求...
閱讀 3335·2021-11-22 12:04
閱讀 2719·2019-08-29 13:49
閱讀 492·2019-08-26 13:45
閱讀 2252·2019-08-26 11:56
閱讀 1011·2019-08-26 11:43
閱讀 604·2019-08-26 10:45
閱讀 1277·2019-08-23 16:48
閱讀 2166·2019-08-23 16:07