#yyds干貨盤點# Python - 第一個爬蟲

王笑朝發布于2021-11-25 09:43 / 3519人閱讀

摘要：常見狀態碼號碼含義表示服務器成功接收部分請求，要求客戶端繼續提交其余請求才能完成整個處理過程表示服務器成功接收請求并已完成整個處理過程。

創建時間：2021-11-24
作者：在下小黃

一、小試牛刀：

1.1 怎樣扒網頁呢？

其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、CSS，如果把網頁比作一個人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面我們就寫個例子來扒一個網頁下來

"""創建時間：2021-11-24作者：小黃版本：v1.0"""from urllib.request import urlopen# 要訪問的地址url = "http://www.baidu.com"# 發送請求response = urlopen(url)# 讀取內容# info = response.read()# 打印內容# print(info)# 以字符串的形式輸出# print(info.decode())# 打印狀態碼，返回HTTP的響應碼print("響應碼為：",response.getcode())# 打印真實url，返回實際訪問的URLprint("請求的真實URL地址為：",response.geturl())# 打印響應頭,返回HTTP響應頭# print(response.info())

真正的程序就兩行，執行如下命令查看運行結果，感受一下
```
from urllib.request import urlopen
```

response = urlopen("http://www.baidu.com")
print(response.read().decode())

![image.png](https://s4.51cto.com/images/blog/202111/24163820_619df9fc7569641682.png?x-oss-process=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=)- 看，這個網頁的源碼已經被我們扒下來了，是不是很酸爽？---## 二、常見的方法-  requset.urlopen(url,data,timeout)    -  第一個參數url即為URL，第二個參數data是訪問URL時要傳送的數據，第三個timeout是設置超時時間。    -  第二、三個參數是可以不傳送的，data默認為空None，timeout默認為 socket._GLOBAL_DEFAULT_TIMEOUT    -  第一個參數URL是必須要傳送的，在這個例子里面我們傳送了百度的URL，執行urlopen方法之后，返回一個response對象，返回信息便保存在這里面。 -  response.read()    - read()方法就是讀取文件里的全部內容，返回bytes類型-  response.getcode()    - 返回 HTTP的響應碼，成功返回200，4服務器頁面出錯，5服務器問題-  response.geturl()    - 返回 返回實際數據的實際URL，防止重定向問題-  response.info()    - 返回 服務器響應的HTTP報頭---## 三、Request對象- 其實上面的urlopen參數可以傳入一個request請求,它其實就是一個Request類的實例，構造時需要傳入Url,Data等等的內容。比如上面的兩行代碼，我們可以這么改寫```pythonfrom urllib.request import urlopenfrom urllib.request import Requestrequest = Request("http://www.baidu.com")response = urlopen(request)print(response.read().decode())

運行結果是完全一樣的，只不過中間多了一個request對象，推薦大家這么寫，因為在構建請求時還需要加入好多內容，通過構建一個request，服務器響應請求得到應答，這樣顯得邏輯上清晰明確

四、Get 請求

大部分被傳輸到瀏覽器的html，images，js，css, … 都是通過GET方法發出請求的。它是獲取數據的主要方法
例如：www.baidu.com 搜索
Get請求的參數都是在Url中體現的,如果有中文，需要轉碼，這時我們可使用
- urllib.parse.urlencode()
- urllib.parse. quote()

五、 Post 請求

我們說了Request請求對象的里有data參數，它就是用在POST里的，我們要傳送的數據就是這個參數data，data是一個字典，里面要匹配鍵值對
發送請求/響應header頭的含義：

名稱	含義
Accept	告訴服務器，客戶端支持的數據類型
Accept-Charset	告訴服務器，客戶端采用的編碼
Accept-Encoding	告訴服務器，客戶機支持的數據壓縮格式
Accept-Language	告訴服務器，客戶機的語言環境
Host	客戶機通過這個頭告訴服務器，想訪問的主機名
If-Modified-Since	客戶機通過這個頭告訴服務器，資源的緩存時間
Referer	客戶機通過這個頭告訴服務器，它是從哪個資源來訪問服務器的。（一般用于防盜鏈）
User-Agent	客戶機通過這個頭告訴服務器，客戶機的軟件環境
Cookie	客戶機通過這個頭告訴服務器，可以向服務器帶數據
Refresh	服務器通過這個頭，告訴瀏覽器隔多長時間刷新一次
Content-Type	服務器通過這個頭，回送數據的類型
Content-Language	服務器通過這個頭，告訴服務器的語言環境
Server	服務器通過這個頭，告訴瀏覽器服務器的類型
Content-Encoding	服務器通過這個頭，告訴瀏覽器數據采用的壓縮格式
Content-Length	服務器通過這個頭，告訴瀏覽器回送數據的長度

六、響應的編碼

響應狀態碼
響應狀態代碼有三位數字組成，第一個數字定義了響應的類別，且有五種可能取值。
常見狀態碼：

號碼	含義
100~199	表示服務器成功接收部分請求，要求客戶端繼續提交其余請求才能完成整個處理過程
200~299	表示服務器成功接收請求并已完成整個處理過程。常用200（OK 請求成功）
300~399	為完成請求，客戶需進一步細化請求。例如：請求的資源已經移動一個新地址、常用302（所請求的頁面已經臨時轉移至新的url）、307和304（使用緩存資源）
400~499	客戶端的請求有錯誤，常用404（服務器無法找到被請求的頁面）、403（服務器拒絕訪問，權限不夠）
500~599	服務器端出現錯誤，常用500（請求未完成。服務器遇到不可預知的情況）

七、Ajax的請求獲取數據

有些網頁內容使用AJAX加載，而AJAX一般返回的是JSON,直接對AJAX地址進行post或get，就返回JSON數據了

八、請求 SSL證書驗證

現在隨處可見 https 開頭的網站，urllib可以為 HTTPS 請求驗證SSL證書，就像web瀏覽器一樣，如果網站的SSL證書是經過CA認證的，則能夠正常訪問，如：https://www.baidu.com/
如果SSL證書驗證不通過，或者操作系統不信任服務器的安全證書，比如瀏覽器在訪問12306網站如：https://www.12306.cn/mormhweb/的時候，會警告用戶證書不受信任。（據說 12306 網站證書是自己做的，沒有通過CA認證）

# 忽略SSL安全認證context = ssl._create_unverified_context()# 添加到context參數里response = urllib.request.urlopen(request, context = context)

各位路過的朋友，如果覺得可以學到些什么的話，點個贊再走吧，歡迎各位路過的大佬評論，指正錯誤，也歡迎有問題的小伙伴評論留言，私信。

每個小伙伴的關注都是本人更新博客的動力！！！
請微信搜索【在下小黃】文章更新將在第一時間閱讀！

博客中若有不恰當的地方，請您一定要告訴我。前路崎嶇，望我們可以互相幫助，并肩前行！

GPU云服務器云服務器 yyds干貨盤點性能測試 yyds干貨盤點Java ASM系列：（ yyds干貨盤點學不懂Netty？看不懂寫一個python爬蟲

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/124990.html

#yyds干貨盤點#Python項目打包

摘要：可以通過命令自動生成和安裝，如下所示生成文件安裝依賴完結啦前言如果輕松讓別人使用你的Python項目？python setup.py sdist打個包，讓他們python setup.py install使用吧！正文首先今天要涉及到以下命令：--python setup.py build # 僅編譯不安裝 --...

番茄西紅柿 2021-11-22 15:08 評論0 收藏2637
#yyds干貨盤點# 3. 無轉折不編程，滾雪球學 Python

摘要：在流程控制中，你將同步學到關系運算符與邏輯運算符。關系運算符在中關系運算符其實就是比大小的概念，所以要學習的就是大于小于等于等內容。邏輯運算符邏輯運算符在中有個，分別是。含有邏輯運算符的式子，最終返回的結果也是布爾值。滾雪球學 Python，目標就是讓 Python 學起來之后，越滾越大。三、無轉折不編程如果...

xuexiangjys 2021-11-22 14:56 評論0 收藏0
#yyds干貨盤點# Python - 畫國旗

摘要：用的模塊繪制國旗小黃繪制矩形繪制五角星主程序畫國旗主體畫大星星畫小星星隱藏海龜顯示繪圖窗口用Python的turtle模塊繪制國旗Version: 0.1Author: 小黃Date: 2021.11.22import turtledef draw_rectangle(x, y, width, height)...

番茄西紅柿 2021-11-29 10:50 評論0 收藏2637
#yyds干貨盤點#Pyqt5環境搭建

摘要：干貨盤點環境搭建測試一下干貨盤點環境搭建點擊可以打開設計器。干貨盤點環境搭建隨便設計幾個控件干貨盤點環境搭建保存為在中選中它，然后點擊，會將轉換成文件。然后就可以在寫邏輯啦干貨盤點環境搭建最近萌生了寫小工具的想法，記錄一下搭建過程。1、安裝pyqt包pip3 install pyqt5-tools2、外部工具設置desi...

番茄西紅柿 2021-11-25 09:43 評論0 收藏2637
#yyds干貨盤點# Selenium Web端自動化從入門到實踐

摘要：華文宋體驗證搜索結果頁面的標題是否是自動化測試百度搜索。華文宋體移除了華文宋體版本的華文宋體也就是說，華文宋體不再得到官方的支持。一、自動化測試概念1、概念java：TestNgpython：unittest pytest2、自動化測試可行性測試目的明確，需求不會頻繁的變更對于項目的自動化測試，要看項目的具體情況一個產品需要在多個環境下部署對于web GUI測試，需要測試用例在不同的瀏覽器上...

番茄西紅柿 2021-11-25 09:43 評論0 收藏2637

發表評論

登陸后可評論

0條評論

王笑朝

男|高級講師

我要關注我要私信

TA的文章

#yyds干貨盤點# Python - 第一個爬蟲

閱讀 3520·2021-11-25 09:43
新的惡意軟件家族使用CLFS日志文件逃避檢測

閱讀 1279·2021-09-08 09:45
2021-09-06_address_list（通訊錄）

閱讀 2650·2021-09-07 09:59
#八月優惠#極光KVM：VPS價格全部下調，洛杉磯、香港CN2直連全部5折優惠

閱讀 1515·2021-08-09 13:45
使用inline-flex讓容器自適應寬度

閱讀 3362·2019-08-30 15:54
CSS 居中

閱讀 701·2019-08-29 18:35
原生js造輪子之模仿JQ的slideDown()與slideUp()

閱讀 521·2019-08-29 17:18
iOS Safari 中點擊事件失效的解決方法

閱讀 1004·2019-08-29 14:10

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

#yyds干貨盤點# Python - 第一個爬蟲

一、小試牛刀：

1.1 怎樣扒網頁呢？

四、Get 請求

五、 Post 請求

六、響應的編碼

七、Ajax的請求獲取數據

八、請求 SSL證書驗證

相關文章

**#yyds干貨盤點#Python項目打包**

#yyds干貨盤點# 3. 無轉折不編程，滾雪球學 Python

**#yyds干貨盤點# Python - 畫國旗**

**#yyds干貨盤點#Pyqt5環境搭建**

**#yyds干貨盤點# Selenium Web端自動化從入門到實踐**

發表評論

0條評論

王笑朝

男|高級講師

TA的文章

#yyds干貨盤點# Python - 第一個爬蟲

新的惡意軟件家族使用CLFS日志文件逃避檢測

2021-09-06_address_list（通訊錄）

#八月優惠#極光KVM：VPS價格全部下調，洛杉磯、香港CN2直連全部5折優惠

使用inline-flex讓容器自適應寬度

CSS 居中

原生js造輪子之模仿JQ的slideDown()與slideUp()

iOS Safari 中點擊事件失效的解決方法

最新活動