爬蟲養(yǎng)成記 - urllib2的HTTPCookieProcessor

gnehc 發(fā)布于2019-07-25 11:27 / 2888人閱讀

摘要：相當(dāng)于該用戶的檔案。上述的文字對機制描述的比較簡單也并不一定完全正確。但是默認(rèn)的并不支持。中供我們使用的是。創(chuàng)建需要闖入一個存放的容器。即過期的也保存。目前博主只知道鏈接后帶的參數(shù)需要與相匹配。但是并不知道兩者具體的關(guān)系。

很多網(wǎng)站的資源需要用戶登錄之后才能獲取。
我們一旦登錄后再訪問其他被保護的資源的時候，就不再需要再次輸入賬號、密碼。那么網(wǎng)站是怎么辦到的呢？
一般來說，用戶在登錄之后，服務(wù)器端會為該用戶創(chuàng)建一個Session。Session相當(dāng)于該用戶的檔案。該檔案就代表著該用戶。
那么某一次訪問請求是屬于該用戶呢？登錄的時候服務(wù)器要求瀏覽器儲存了一個Session ID的Cookie值。每一個訪問都帶上了該Cookie。服務(wù)器將Cookie中的Session ID與服務(wù)器中的Session ID比對就知道該請求來自哪個用戶了。

上述的文字對Session機制描述的比較簡單也并不一定完全正確。更加詳細的資料可以閱讀：http://blog.csdn.net/fangaoxi...

opener

通過閱讀源碼我們可以知道，我們在調(diào)用urllib2.urlopen(url)的時候，其實urllib2在open函數(shù)內(nèi)部創(chuàng)建了一個默認(rèn)的opener對象。然后調(diào)用opener.open()函數(shù)。
但是默認(rèn)的opener并不支持cookie。
那么我們先新建一個支持cookie的opener。urllib2中供我們使用的是HTTPCookieProcessor。

創(chuàng)建HTTPCookieProcessor需要闖入一個存放cookie的容器。
Python提供的存放cookie的容器位于cookielib，有以下幾個。
CookieJar -> FileCookieJar -> MozillaCookieJar / LWPCookieJar

示例代碼：

</>復(fù)制代碼 
import cookielib
import urllib2
cookies = cookielib.CookieJar()
cookieHandler = urllib2.HTTPCookieProcessor(cookiejar=cookies)
opener = urllib2.build_opener(cookieHandler)
urllib2.install_opener(opener)
request = urllib2.Request("http://www.baidu.com")
urllib2.urlopen(request)
for cookie in cookies:
    print cookie.name, cookie.value

上面的代碼顯示，urllib2的確幫我們把cookie從response中提取出來。但是如何保存在一個文件中呢？

FileCookieJar

FileCookieJar 實現(xiàn)了save()、load()、revert()三個函數(shù)。
但是通過查看FileCookieJar的源碼我們可以發(fā)現(xiàn)，F(xiàn)ileCookeJar并沒有實現(xiàn)save()的具體功能，而是直接拋出了NotImplementedError。

</>復(fù)制代碼 
    def save(self, filename=None, ignore_discard=False, ignore_expires=False):
        """Save cookies to a file."""
        raise NotImplementedError()

而FileCookieJar的子類MozillaCookieJar和LWPCookieJar實現(xiàn)了save()方法。

示例代碼:

</>復(fù)制代碼 
# coding=utf-8
import cookielib
import urllib2
cookies = cookielib.MozillaCookieJar()
cookieHandler = urllib2.HTTPCookieProcessor(cookiejar=cookies)
opener = urllib2.build_opener(cookieHandler)
urllib2.install_opener(opener)
request = urllib2.Request("http://www.baidu.com")
urllib2.urlopen(request)
# 將cookie存為一個文件
cookies.save(filename="cookie.txt")
# 新建一個cookie對象
cookies2 = cookielib.MozillaCookieJar()
# 從文件中讀取cookie
cookies2.load("cookie.txt")
for cookie in cookies2:
    print cookie.name, cookie.value

save()函數(shù)帶有兩個參數(shù)，ignore_discard和ignore_expires。

ignore_discard: save even cookies set to be discarded. 即也保存需要被丟棄的cookie。
ignore_expires: save even cookies that have expired. 即過期的cookie也保存。

上面提到了save()、load()，還有一個函數(shù)未提到即revert()。revert()函數(shù)的作用是Clear all cookies and reload cookies from a saved file.

模擬登錄實際操作

我們來試一下模擬登錄SegmentFault。
示例代碼如下：

</>復(fù)制代碼 
import urllib
import urllib2
import cookielib
cookies = cookielib.MozillaCookieJar()
cookieHandler = urllib2.HTTPCookieProcessor(cookiejar=cookies)
opener = urllib2.build_opener(cookieHandler)
urllib2.install_opener(opener)
postData = {
    "remember": 1,
    "username": "YOUREMAIL",
    "password": "YOURPASSWORD"
}
headers = {
    "Accept": "*/*",
    "Accept-Language": "zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4",
    "Connection": "keep-alive",
    "Content-Length": "54",
    "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
    "Cookie": "_gat=1; PHPSESSID=YOUR_PHPSESSID; _ga=GA1.2.741059584.1485746441; Hm_lvt_e23800c454aa573c0ccb16b52665ac26=1485746441; Hm_lpvt_e23800c454aa573c0ccb16b52665ac26=1485746618",
    "DNT": "1",
    "Host": "segmentfault.com",
    "Origin": "https://segmentfault.com",
    "Referer": "https://segmentfault.com/",
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36",
    "X-Requested-With": "XMLHttpRequest"
}
request = urllib2.Request("https://segmentfault.com/api/user/login?_=57f36e7f98914cc9a7971aebc264e113", headers=headers)
request.add_data(urllib.urlencode(postData))
response = urllib2.urlopen(request)
print response.getcode()
for cookie in cookies:
    print cookie.name, cookie.value
response = urllib2.urlopen("https://segmentfault.com/u/charliecharlie")
print response.read()

但是目前這個模擬登錄并不完美。
實際上瀏覽器在訪問第一個頁面的時候，服務(wù)器就在Response中返回了一個cookie，設(shè)置了一個PHPSESSID的Cookie。
目前博主只知道login鏈接后帶的_參數(shù)需要與PHPSESSID相匹配。但是并不知道兩者具體的關(guān)系。
且上述代碼中其實并不需要HTTPCookieProcessor而是直接寫在headers里即可。

云服務(wù)器 GPU云服務(wù)器記不住java的方法 HTTPCookieProcessor urllib2 養(yǎng)成

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/38407.html

發(fā)表評論

登陸后可評論

0條評論

gnehc

男|高級講師

我要關(guān)注我要私信

TA的文章

106短信平臺如何申請？申請周期是多久？

閱讀 1254·2021-11-22 13:54
C語言學(xué)習(xí)筆記—P17（函數(shù)棧幀的創(chuàng)建與銷毀＜超詳解版＞+圖解+題例）

閱讀 1440·2021-11-22 09:34
身價過億的溫柔蘿莉?qū)π〈a農(nóng)說ADC會采集嗎

閱讀 2719·2021-11-22 09:34
軟件測試肖sir__005測試用例設(shè)計方法（1）

閱讀 4033·2021-10-13 09:39
【題目】【5天】canvas元素

閱讀 3352·2019-08-26 11:52
package.json 中的 Module 字段是干嘛的

閱讀 3375·2019-08-26 11:50
TypeScript 初識 - 接口

閱讀 1541·2019-08-26 10:56
干貨:HTML5獲取頁面元素及類名操作和自定義屬性

閱讀 1924·2019-08-26 10:44

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

爬蟲養(yǎng)成記 - urllib2的HTTPCookieProcessor

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼