Python爬蟲教學(xué)(寫給入門的新手) 一

zone 發(fā)布于2019-07-31 10:15 / 1023人閱讀

摘要：在不懂和等協(xié)議的情況下，我直接打個比方來解釋一下什么是請求，以瀏覽器為例，人在瀏覽器輸入，然后敲擊鍵，直到頁面出現(xiàn)，整個過程，我們可以抽象為我們向百度服務(wù)器發(fā)起的一次請求。更專業(yè)，更詳細的解釋，自己去百度學(xué)習(xí)吧。

前言

??剛學(xué)完python基礎(chǔ)，想學(xué)習(xí)爬蟲的新手，這里有你想要的東西。
??本文著重點在于教新手如何學(xué)習(xí)爬蟲，并且會以外行人的思維進行形象地講解。最近我一兄弟想學(xué)，我就想寫個教學(xué)給他，然后想不如分享到網(wǎng)絡(luò)上，給熱愛學(xué)習(xí)的人們一起學(xué)習(xí)探討。各位大神路過，如發(fā)現(xiàn)文章中有不妥之處，敬請指出，畢竟我最近剛開始學(xué)會撰寫技術(shù)文章。

環(huán)境安裝

python3.7.1

pip install requests
pip install beautifulsoup4
pip install lxml

技術(shù)講解 requests庫

??requests一般用于發(fā)起http請求，并且拿到請求的結(jié)果。http常用的請求有兩種，GET和POST，爬蟲主要用的是GET請求。
??在不懂http,https和dns,TCP/IP等協(xié)議的情況下，我直接打個比方來解釋一下什么是GET請求，以360瀏覽器為例，人在360瀏覽器輸入www.baidu.com，然后敲擊enter鍵，直到頁面出現(xiàn)，整個過程，我們可以抽象為我們向百度服務(wù)器發(fā)起的一次GET請求。
??更專業(yè)，更詳細的解釋，自己去百度學(xué)習(xí)吧。
??如何使用requests庫來模擬瀏覽器的行為來獲取頁面內(nèi)容呢？
示例代碼如下

import requests
web = requests.get("https://www.baidu.com")  #向百度發(fā)起一次get請求，返回請求結(jié)果的實體類
print(web.status_code)    #請求返回的狀態(tài)碼，200是OK，404是頁面不存在，500是錯誤，更多自己百度搜索
print(type(web.content))    #頁面內(nèi)容的數(shù)據(jù)類型是bytes，因此需要解碼
print(type(web.content.decode()))
print(web.content.decode())    #解碼之后，得到的頁面內(nèi)容是結(jié)構(gòu)化的字符串

輸出如下

??這樣看起來，我們獲取到的頁面內(nèi)容不是我們在瀏覽器看到的圖形化界面，而是字符串，更像是一些代碼。如果你學(xué)過html和css那就不用多說了。沒學(xué)過也不要緊，現(xiàn)在可以簡單學(xué)一下，也就花幾分鐘了解一下就夠用了。
??html是一種標(biāo)記語言，可以被瀏覽器執(zhí)行，然后呈現(xiàn)出可視化的圖形界面。如果你把web.content.decode()這一串字符串保存在test.html里，然后雙擊打開，你會看到圖形化界面的，只不過有些圖片可能顯示不了，這里就不細說了。
??html其實很好理解，不要想得太復(fù)雜，就是一段有規(guī)律的格式化的文本。
??其基本格式就是


...
...

??html文本的標(biāo)簽一般都是成雙成對，有始有終的，比如和是一隊，千萬不能拆散，拆散就亂套了。少數(shù)除外比如
是換行用的,可以不用配對。
這里我們主要講body標(biāo)簽，網(wǎng)頁的主要內(nèi)容都是在這個標(biāo)簽里顯示的，比如標(biāo)題，段落，圖片等
在test.html里我們寫入一下代碼并且保存。



我的網(wǎng)站
這是我的網(wǎng)站

效果就是

html更多標(biāo)簽所代表的意義可以去這里學(xué)習(xí)http://www.runoob.com/html/ht...

beautifulsoup4庫

??bs4(簡稱)庫是用于解析格式化文本，提取數(shù)據(jù)用的庫。
我們利用requests庫的get函數(shù)拿到網(wǎng)頁的內(nèi)容是一段格式化的字符串，接下來就可以用bs4來解析它。
解析的示例代碼如下

from bs4 import BeautifulSoup
html = """

我的網(wǎng)站
這是我的網(wǎng)站

"""    #從網(wǎng)頁拿到html的格式化的字符串，保存到html里
soup = BeautifulSoup(html, "lxml")    #使用lxml解析器來解析文本，html和xml格式是類似的
print(soup.find_all("h1"))    #使用find_all函數(shù)來找所有的h1標(biāo)簽，返回的結(jié)果是數(shù)組
print(soup.find_all("p"))    #找所有的p標(biāo)簽，返回的結(jié)果是數(shù)組

運行結(jié)果如圖

更復(fù)雜一點的，比如

from bs4 import BeautifulSoup
html = """

我的網(wǎng)站
這是我的網(wǎng)站

測試1


測試2


"""
soup = BeautifulSoup(html, "lxml")
div_tags = soup.find_all(name="div", attrs={"class": "test-item"})
for tag in div_tags:
    print(type(tag))
    print(tag)
    print(tag.string)
    print(tag.attrs, "
")

運行結(jié)果是

??注意，tag保存的不是字符串，而是bs4模塊中的一個標(biāo)簽實體類，我們主要需要知道它的attrs屬性和string屬性，方便我們拿到一些我們想要的文本和信息，比如a標(biāo)簽的href屬性就保存在attrs里。

總結(jié)

??本文主要講了如何使用requests獲取網(wǎng)頁文本內(nèi)容，以及如何解析html文本，更多更好用的爬蟲庫，下節(jié)課看情況再講。

云服務(wù)器 GPU云服務(wù)器新手python入門 python入門教學(xué)視頻 python入門爬蟲 python爬蟲入門

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/43505.html

發(fā)表評論

登陸后可評論

0條評論

zone

男|高級講師

我要關(guān)注我要私信

TA的文章

操作符詳解（一）（跑路筆記）

閱讀 3430·2021-11-15 11:39
Python 爬蟲數(shù)據(jù)寫入csv文件中文亂碼解決以及天眼查爬蟲數(shù)據(jù)寫入csv

閱讀 1576·2021-09-22 10:02
馬斯克：特斯拉自動駕駛系統(tǒng)的目標(biāo)是比人類駕駛安全 10 倍

閱讀 1321·2021-08-27 16:24
HTML5行業(yè)現(xiàn)狀與未來 - 2016年終大盤點

閱讀 3606·2019-08-30 15:52
element ui table render-header自定義表頭信息使用

閱讀 3424·2019-08-29 16:20
三角形：它是如何工作的

閱讀 832·2019-08-28 18:12
聊聊在javascript中數(shù)組的使用

閱讀 561·2019-08-26 18:27
JavaScript繼承

閱讀 729·2019-08-26 13:32

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲教學(xué)(寫給入門的新手) 一

我的網(wǎng)站

我的網(wǎng)站

我的網(wǎng)站

相關(guān)文章

**【微信小程序爬蟲】表情包小程序圖文視頻教學(xué)，從零寫起，保姆教程?。?！**

【精華分享】：轉(zhuǎn)行數(shù)據(jù)分析的一份學(xué)習(xí)清單

寫給在迷茫中前行的前端學(xué)習(xí)/工作者

前端開發(fā)-從入門到Offer - 收藏集 - 掘金

發(fā)表評論

0條評論

zone

男|高級講師

TA的文章

操作符詳解（一）（跑路筆記）

Python 爬蟲數(shù)據(jù)寫入csv文件中文亂碼解決以及天眼查爬蟲數(shù)據(jù)寫入csv

馬斯克：特斯拉自動駕駛系統(tǒng)的目標(biāo)是比人類駕駛安全 10 倍

HTML5行業(yè)現(xiàn)狀與未來 - 2016年終大盤點

element ui table render-header自定義表頭信息使用

三角形：它是如何工作的

聊聊在javascript中數(shù)組的使用

JavaScript繼承

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲教學(xué)(寫給入門的新手) 一

我的網(wǎng)站

我的網(wǎng)站

我的網(wǎng)站

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！