摘要:學習網絡爬蟲主要分個大的版塊抓取,分析,存儲另外,比較常用的爬蟲框架,這里最后也詳細介紹一下。網絡爬蟲要做的,簡單來說,就是實現瀏覽器的功能。
Python學習網絡爬蟲主要分3個大的版塊:抓取,分析,存儲 另外,比較常用的爬蟲框架Scrapy,這里最后也詳細介紹一下。 首先列舉一下本人總結的相關文章,這些覆蓋了入門網絡爬蟲需要的基本概念和技巧:寧哥的小站-網絡爬蟲,當我們在瀏覽器中輸入一個url后回車,后臺會發生什么?比如說你輸入http://www.lining0806.com/,你就會看到寧哥的小站首頁。 簡單來說這段過程發生了以下四個步驟: 查找域名對應的IP地址。 向IP對應的服務器發送請求。 服務器響應請求,發回網頁內容。 瀏覽器解析網頁內容。 網絡爬蟲要做的,簡單來說,就是實現瀏覽器的功能。通過指定url,直接返回給用戶所需要的數據,而不需要一步步人工去操縱瀏覽器獲取。 **抓取** 這一步,你要明確要得到的內容是什么?是HTML源碼,還是Json格式的字符串等。 1. 最基本的抓取 抓取大多數情況屬于get請求,即直接從對方服務器上獲取數據。 首先,Python中自帶urllib及urllib2這兩個模塊,基本上能滿足一般的頁面抓取。另外,requests也是非常有用的包,與此類似的,還有httplib2等等。 Requests: import requests response = requests.get(url) content = requests.get(url).content print "response headers:", response.headers print "content:", content Urllib2: import urllib2 response = urllib2.urlopen(url) content = urllib2.urlopen(url).read() print "response headers:", response.headers print "content:", content Httplib2: import httplib2 http = httplib2.Http() response_headers, content = http.request(url, "GET") print "response headers:", response_headers print "content:", content 此外,對于帶有查詢字段的url,get請求一般會將來請求的數據附在url之后,以?分割url和傳輸數據,多個參數用&連接。 data = {"data1":"XXXXX", "data2":"XXXXX"} Requests:data為dict,json import requests response = requests.get(url=url, params=data) Urllib2:data為string import urllib, urllib2 data = urllib.urlencode(data) full_url = url+"?"+data response = urllib2.urlopen(full_url) 相關參考:網易新聞排行榜抓取回顧 參考項目:網絡爬蟲之最基本的爬蟲:爬取網易新聞排行榜 2. 對于登陸情況的處理 2.1 使用表單登陸 這種情況屬于post請求,即先向服務器發送表單數據,服務器再將返回的cookie存入本地。 data = {"data1":"XXXXX", "data2":"XXXXX"} Requests:data為dict,json import requests response = requests.post(url=url, data=data) Urllib2:data為string import urllib, urllib2 data = urllib.urlencode(data) req = urllib2.Request(url=url, data=data) response = urllib2.urlopen(req) 2.2 使用cookie登陸 使用cookie登陸,服務器會認為你是一個已登陸的用戶,所以就會返回給你一個已登陸的內容。因此,需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。 import requests requests_session = requests.session() response = requests_session.post(url=url_login, data=data) 若存在驗證碼,此時采用 response = requests_session.post(url=url_login, data=data)是不行的,做法應該如下: response_captcha = requests_session.get(url=url_login,cookies=cookies) response1 = requests.get(url_login) # 未登陸 response2 = requests_session.get(url_login) # 已登陸,因為之前拿到了Response Cookie! response3 = requests_session.get(url_results) # 已登陸,因為之前拿到了Response Cookie! 相關參考:網絡爬蟲-驗證碼登陸 參考項目:網絡爬蟲之用戶名密碼及驗證碼登陸:爬取知乎網站 3. 對于反爬蟲機制的處理 3.1 使用代理 適用情況:限制IP地址情況,也可解決由于“頻繁點擊”而需要輸入驗證碼登陸的情況。 這種情況最好的辦法就是維護一個代理IP池,網上有很多免費的代理IP,良莠不齊,可以通過篩選找到能用的。對于“頻繁點擊”的情況,我們還可以通過限制爬蟲訪問網站的頻率來避免被網站禁掉。 proxies = {"http":"http://XX.XX.XX.XX:XXXX"} Requests: import requests response = requests.get(url=url, proxies=proxies) Urllib2: import urllib2 proxy_support = urllib2.ProxyHandler(proxies) opener = urllib2.build_opener(proxy_support,urllib2.HTTPHandler) urllib2.install_opener(opener) # 安裝opener,此后調用urlopen()時都會使用安裝過的opener對象 response = urllib2.urlopen(url) 3.2 時間設置 適用情況:限制頻率情況。 Requests,Urllib2都可以使用time庫的sleep()函數: import time time.sleep(1) 3.3 偽裝成瀏覽器,或者反“反盜鏈” 有些網站會檢查你是不是真的瀏覽器訪問,還是機器自動訪問的。這種情況,加上User-Agent,表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer信息還會檢查你的Referer是否合法,一般再加上Referer。 headers = {"User-Agent":"XXXXX"} # 偽裝成瀏覽器訪問,適用于拒絕爬蟲的網站 headers = {"Referer":"XXXXX"} headers = {"User-Agent":"XXXXX", "Referer":"XXXXX"} Requests: response = requests.get(url=url, headers=headers) Urllib2: import urllib, urllib2 req = urllib2.Request(url=url, headers=headers) response = urllib2.urlopen(req) 4. 對于斷線重連不多說。 def multi_session(session, *arg): retryTimes = 20 while retryTimes>0: try: return session.post(*arg) except: print ".", retryTimes -= 1 或者 def multi_open(opener, *arg): retryTimes = 20 while retryTimes>0: try: return opener.open(*arg) except: print ".", retryTimes -= 1 這樣我們就可以使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。 5. 多進程抓取 這里針對華爾街見聞進行并行抓取的實驗對比:Python多進程抓取 與 Java單線程和多線程抓取 相關參考:關于Python和Java的多進程多線程計算方法對比 6. 對于Ajax請求的處理 對于“加載更多”情況,使用Ajax來傳輸很多數據。 它的工作原理是:從網頁的url加載網頁的源代碼之后,會在瀏覽器里執行JavaScript程序。這些程序會加載更多的內容,“填充”到網頁里。這就是為什么如果你直接去爬網頁本身的url,你會找不到頁面的實際內容。 這里,若使用Google Chrome分析”請求“對應的鏈接(方法:右鍵→審查元素→Network→清空,點擊”加載更多“,出現對應的GET鏈接尋找Type為text/html的,點擊,查看get參數或者復制Request URL),循環過程。 如果“請求”之前有頁面,依據上一步的網址進行分析推導第1頁。以此類推,抓取抓Ajax地址的數據。 對返回的json格式數據(str)進行正則匹配。json格式數據中,需從’uxxxx’形式的unicode_escape編碼轉換成u’uxxxx’的unicode編碼。 7. 自動化測試工具Selenium Selenium是一款自動化測試工具。它能實現操縱瀏覽器,包括字符填充、鼠標點擊、獲取元素、頁面切換等一系列操作。總之,凡是瀏覽器能做的事,Selenium都能夠做到。這里列出在給定城市列表后,使用selenium來動態抓取去哪兒網的票價信息的代碼。 參考項目:網絡爬蟲之Selenium使用代理登陸:爬取去哪兒網站 8. 驗證碼識別 對于網站有驗證碼的情況,我們有三種辦法: 使用代理,更新IP。 使用cookie登陸。 驗證碼識別。 使用代理和使用cookie登陸之前已經講過,下面講一下驗證碼識別。 可以利用開源的Tesseract-OCR系統進行驗證碼圖片的下載及識別,將識別的字符傳到爬蟲系統進行模擬登陸。當然也可以將驗證碼圖片上傳到打碼平臺上進行識別。如果不成功,可以再次更新驗證碼識別,直到成功為止。 參考項目:驗證碼識別項目第一版:Captcha1 爬取有兩個需要注意的問題: 如何監控一系列網站的更新情況,也就是說,如何進行增量式爬?。?對于海量數據,如何實現分布式爬??? **分析** 抓取之后就是對抓取的內容進行分析,你需要什么內容,就從中提煉出相關的內容來。 常見的分析工具有正則表達式,BeautifulSoup,lxml等等。 **存儲** 分析出我們需要的內容之后,接下來就是存儲了。 我們可以選擇存入文本文件,也可以選擇存入MySQL或MongoDB數據庫等。 存儲有兩個需要注意的問題: 如何進行網頁去重? 內容以什么形式存儲? **Scrapy** Scrapy是一個基于Twisted的開源的Python爬蟲框架,在工業中應用非常廣泛。 相關內容可以參考基于Scrapy網絡爬蟲的搭建,同時給出這篇文章介紹的微信搜索爬取的項目代碼,給大家作為學習參考。 參考項目:使用Scrapy或Requests遞歸抓取微信搜索結果 [楚江數據][1]是一家專業的互聯網數據技術服務商,為客戶提供網站APP數據采集和爬蟲軟件定制開發服務,服務范圍涵蓋社交網絡、電子商務、分類信息、學術研究等。 官方網站 http://www.chujiangdata.com 轉載請注明:寧哥的小站 ? Python入門網絡爬蟲之精華版
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/38476.html
摘要:楚江數據經常浪跡各類有關數據類文章中網站中,做做搬運工。在這里跟大家分享下數據分析師的知識結構,數據分析師的知識結構應當包括數據能力業務思維方法三個維度。下面書單,選取的都是行業里面的經典書籍,內容較多,建議大家采取階段性學習。 楚江數據經常浪跡各類有關數據類文章中網站中,做做搬運工。在這里跟大家分享下數據分析師的知識結構,數據分析師的知識結構應當包括數據能力、業務sense、思維方法...
摘要:以下這些項目,你拿來學習學習練練手。當你每個步驟都能做到很優秀的時候,你應該考慮如何組合這四個步驟,使你的爬蟲達到效率最高,也就是所謂的爬蟲策略問題,爬蟲策略學習不是一朝一夕的事情,建議多看看一些比較優秀的爬蟲的設計方案,比如說。 (一)如何學習Python 學習Python大致可以分為以下幾個階段: 1.剛上手的時候肯定是先過一遍Python最基本的知識,比如說:變量、數據結構、語法...
摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...
摘要:數據分析的發展方向一般有商業方向,行業分析業務方向,和機器學習數據挖掘方向。機器學習的書籍推薦統計學習方法,機器學習,機器學習實戰三本書。 作者:xiaoyu 微信公眾號:Python數據科學 知乎:python數據分析師 上一篇主要分享了博主親身轉行數據分析的經歷: 【從零學起到成功轉行數據分析,我是怎么做的?】 本篇繼上一篇將分享轉行數據分析的一些經驗和學習方法,看完這篇你將會解...
閱讀 1272·2021-09-02 13:36
閱讀 2727·2019-08-30 15:44
閱讀 2982·2019-08-29 15:04
閱讀 3199·2019-08-26 13:40
閱讀 3650·2019-08-26 13:37
閱讀 1181·2019-08-26 12:22
閱讀 1020·2019-08-26 11:36
閱讀 1222·2019-08-26 10:41