【爬蟲系列之三】URLError異常處理以及Cookie的使用

xiaochao 發(fā)布于2019-07-30 16:49 / 778人閱讀

摘要：一的處理出現(xiàn)產(chǎn)生的原因很多，比如網(wǎng)絡(luò)沒法連接，連接不到服務(wù)器，或者服務(wù)器不存在。二的使用，一般是某些網(wǎng)站為了辨別用戶身份，進行跟蹤，從而存儲在客戶端的數(shù)據(jù)。模塊的主要作用是提供可存儲的對象，以便于與模塊配合使用來訪問資源。

一、urlError的處理

出現(xiàn)urlError產(chǎn)生的原因很多，比如:網(wǎng)絡(luò)沒法連接，連接不到服務(wù)器，或者服務(wù)器不存在。
在代碼中，我們需要用try-except的語句來捕獲相應(yīng)的異常

import urllib2
 
req = urllib2.Request("http://blog.csdn.net/cqcre")
try:
    urllib2.urlopen(req)
except urllib2.HTTPError, e:#使用hasattr屬性判斷code是否存在
    print e.code
except urllib2.URLError, e:
    print e.reason
else:
    print "OK"

上述代碼，可以看到httperror,這里HTTPError是URLError的子類，在你利用urlopen方法發(fā)出一個請求時，服務(wù)器上都會對應(yīng)一個應(yīng)答對象response，其中它包含一個數(shù)字”狀態(tài)碼”。舉個例子，假如response是一個”重定向”，需定位到別的地址獲取文檔，urllib2將對此進行處理，此處需要了解HTTP狀態(tài)碼相關(guān)知識。

二、Cookie的使用

cookie，一般是某些網(wǎng)站為了辨別用戶身份，進行session跟蹤，從而存儲在客戶端的數(shù)據(jù)。比如某些網(wǎng)站需要登錄，才能訪問某些頁面。這里我們可以使用urllib2庫保存我們登錄的cookie，然后再進行抓取內(nèi)容。

2.1、Opener

當你獲取一個URL你使用一個opener(一個urllib2.OpenerDirector的實例)。在前面，我們都是使用的默認的opener，也就是urlopen,它是一個特殊的opener，可以理解成opener的一個特殊實例，傳入的參數(shù)僅僅是url，data，timeout。

如果我們需要用到Cookie，只用這個opener是不能達到目的的，所以我們需要創(chuàng)建更一般的opener來實現(xiàn)對Cookie的設(shè)置。

2.2 Cookielib

cookielib模塊的主要作用是提供可存儲cookie的對象，以便于與urllib2模塊配合使用來訪問Internet資源。 Cookielib模塊非常強大，我們可以利用本模塊的CookieJar類的對象來捕獲cookie并在后續(xù)連接請求時重新發(fā)送，比如可以實現(xiàn)模擬登錄功能。該模塊主要的對象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

它們的關(guān)系：CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar

2.2.1 獲取Cookie保存到變量

import urllib2
import cookielib
#聲明一個CookieJar對象實例來保存cookie
cookie = cookielib.CookieJar()
#利用urllib2庫的HTTPCookieProcessor對象來創(chuàng)建cookie處理器
handler=urllib2.HTTPCookieProcessor(cookie)
#通過handler來構(gòu)建opener
opener = urllib2.build_opener(handler)
#此處的open方法同urllib2的urlopen方法，也可以傳入request
response = opener.open("http://www.baidu.com")
for item in cookie:
    print "Name = "+item.name
    print "Value = "+item.value

2.2.2 保存Cookie到文件

import cookielib
import urllib2

#設(shè)置保存cookie的文件，同級目錄下的cookie.txt
filename = "cookie.txt"
#聲明一個MozillaCookieJar對象實例來保存cookie，之后寫入文件
cookie = cookielib.MozillaCookieJar(filename)
#利用urllib2庫的HTTPCookieProcessor對象來創(chuàng)建cookie處理器
handler = urllib2.HTTPCookieProcessor(cookie)
#通過handler來構(gòu)建opener
opener = urllib2.build_opener(handler)
#創(chuàng)建一個請求，原理同urllib2的urlopen
response = opener.open("http://www.baidu.com")
#保存cookie到文件
cookie.save(ignore_discard=True, ignore_expires=True)

ignore_discard的意思是即使cookies將被丟棄也將它保存下來，ignore_expires的意思是如果在該文件中 cookies已經(jīng)存在，則覆蓋原文件寫入

2.2.3 從文件中讀取cookie

import cookielib
import urllib2

#創(chuàng)建MozillaCookieJar實例對象
cookie = cookielib.MozillaCookieJar()
#從文件中讀取cookie內(nèi)容到變量
cookie.load("cookie.txt", ignore_discard=True, ignore_expires=True)
#創(chuàng)建請求的request
req = urllib2.Request("http://www.baidu.com")
#利用urllib2的build_opener方法創(chuàng)建一個opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
response = opener.open(req)
print response.read()

這一篇又折騰折騰，結(jié)束了，可能看起來比較無聊，都是為了接下來的各種實戰(zhàn)來做準備的，從下一篇開始，正式的進行網(wǎng)站的爬蟲了。

推薦閱讀：

【爬蟲系列之一】爬蟲開發(fā)環(huán)境的搭建
【爬蟲系列之二】python基礎(chǔ)知識的了解

更多精彩內(nèi)容，歡迎大家關(guān)注我的微信公眾號：喝醉的清茶