爬蟲學習（二）基礎階段

xiaoqibTn 發(fā)布于2019-07-31 10:29 / 2955人閱讀

摘要：如果要添加該參數(shù)，并且如果它是字節(jié)流編碼格式的內容，即類型，則需要通過方法轉化。通過的格式將字典進行字節(jié)流的編碼，將編碼后的字節(jié)流數(shù)據(jù)傳輸?shù)街付ㄟ@里存在一個，要進行指定方式解碼。第二個參數(shù)如果要傳，必須傳字節(jié)流類型的。

請求頭中的內容：

Date: 標識響應產(chǎn)生的時間。

Last-Modified: 指定資源的最后修改時間。

Content-Encoding: 指定響應內容的編碼。

Server: 包含服務器的信息，比如名稱、版本號等。

Content-Type: 文檔類型，指定返回的數(shù)據(jù)類型是什么，如 text/html代表返回 HTML文檔，

application/x-javascript !J!U代表返回 JavaScript文件， image/jpeg則代表返回圖片。

Set-Cookie: 設置 Cookies。響應頭中的 Set-Cookie 告訴瀏覽器需要將此內容放在 Cookies中，下次請求攜帶 Cookies請求。

Expires: 指定響應的過期時間，可以使代理服務器或瀏覽器將加載的內容更新到緩存。如果再次訪問時，就可以直接從緩存中加載，降低服務器負載，縮短加載時間。

1.urllib.request模塊

request: 最基本的HTTP請求模塊，可以用來模擬發(fā)送請求。就像在瀏覽器里輸入網(wǎng)址然后回車一樣，只需要給庫方法傳入 URL 以及額外的參數(shù)，就可以模擬實現(xiàn)這個過程了 ,同時它還帶有處理授權驗證( authenticaton )、重定向( redirection)、瀏覽器 Cookies 以及其他內容。

error: 異常處理模塊，如果出現(xiàn)請求錯誤，我們可以捕獲這些異常，然后進行重試或其他操作以保證程序不會意外終止。

parse: 一個工具模塊，提供了許多 URL處理方法，比如拆分，解析，合并等。

robotparser:主要是用來識別網(wǎng)站的 robots.txt文件，然后判斷哪些網(wǎng)站可以爬，哪些網(wǎng)站不可以爬，它其實用得比較少。

urllib.request.urlopen() 為最基本HTTP請求的方法

import urllib.request
response= urllib.request.urlopen("https://www.python.org") 
print(response.read().decode ("utf-8"))  //打印出網(wǎng)頁的源代碼
print(type(response))    //說明該對象類型為HTTPResponse類型。
print(response.status)    //200

print(response.getheaders()) //   
[("Server", "nginx"), ("Content-Type", "text/html; charset=utf-8"), ("X-Frame-Options", "DENY"), 
("Via", "1.1 vegur"), ("Via", "1.1 varnish"), ("Content-Length", "48995"), ("Accept-Ranges", "bytes"), 
("Date", "Mon, 13 May 2019 09:23:37 GMT"), ("Via", "1.1 varnish"), ("Age", "3595"), ("Connection", "close"), 
("X-Served-By", "cache-iad2139-IAD, cache-tyo19927-TYO"), ("X-Cache", "HIT, HIT"), 
("X-Cache-Hits", "1, 6071"), ("X-Timer", "S1557739417.434556,VS0,VE0"), ("Vary", "Cookie"), 
("Strict-Transport-Security", "max-age=63072000; includeSubDomains")]

print(response.getheader("Server"))    //nginx

HTTPResposne類型的對象，主要包含

read()、 readinto()、 getheader(name)、getheaders()、 fileno()等方法，以及 msg、 version、status、reason、debuglevel、closed等屬性。

如果想給鏈接傳遞一些參數(shù)，該怎么實現(xiàn)呢?首先看一下urlopen()函數(shù)的 API:

urllib.request.urlopen(url, data=None, timeout=

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

爬蟲學習（二）基礎階段

相關文章

Python爬蟲學習路線

史上最詳細Python學習路線-從入門到精通，只需90天

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

我是如何零基礎自學轉行人工智能的（附十問十答）

發(fā)表評論

0條評論

xiaoqibTn

男|高級講師

TA的文章

tensorflow的版本

vue 中echart折線自適應

簡單的選項卡切換效果

body標簽子級被默認client width截斷的解決方法

CSS Grid布局：什么是網(wǎng)格布局

太原面經(jīng)分享：如何在vue面試環(huán)節(jié)，展示你晉級阿里P6+的技術功底？

2017年 JavaScript 框架回顧 -- 后端框架

【譯】教你如何避開「Cannot read property of undefined」

最新活動