Python爬蟲基礎

bang590 發布于2019-07-25 11:23 / 1635人閱讀

摘要：爬蟲架構架構組成管理器管理待爬取的集合和已爬取的集合，傳送待爬取的給網頁下載器。網頁下載器爬取對應的網頁，存儲成字符串，傳送給網頁解析器。從文檔中獲取所有文字內容正則匹配后記爬蟲基礎知識，至此足夠，接下來，在實戰中學習更高級的知識。

前言

Python非常適合用來開發網頁爬蟲，理由如下：
1、抓取網頁本身的接口
相比與其他靜態編程語言，如java，c#，c++，python抓取網頁文檔的接口更簡潔；相比其他動態腳本語言，如perl，shell，python的urllib包提供了較為完整的訪問網頁文檔的API。（當然ruby也是很好的選擇）
此外，抓取網頁有時候需要模擬瀏覽器的行為，很多網站對于生硬的爬蟲抓取都是封殺的。這是我們需要模擬user agent的行為構造合適的請求，譬如模擬用戶登陸、模擬session/cookie的存儲和設置。在python里都有非常優秀的第三方包幫你搞定，如Requests，mechanize

2、網頁抓取后的處理
抓取的網頁通常需要處理，比如過濾html標簽，提取文本等。python的beautifulsoap提供了簡潔的文檔處理功能，能用極短的代碼完成大部分文檔的處理。
其實以上功能很多語言和工具都能做，但是用python能夠干得最快，最干凈。

Life is short, you need python.

PS：python2.x和python3.x有很大不同，本文只討論python3.x的爬蟲實現方法。

爬蟲架構 架構組成

URL管理器：管理待爬取的url集合和已爬取的url集合，傳送待爬取的url給網頁下載器。
網頁下載器（urllib）：爬取url對應的網頁，存儲成字符串，傳送給網頁解析器。
網頁解析器（BeautifulSoup）：解析出有價值的數據，存儲下來，同時補充url到URL管理器。

運行流程

URL管理器 基本功能

添加新的url到待爬取url集合中。

判斷待添加的url是否在容器中（包括待爬取url集合和已爬取url集合）。

獲取待爬取的url。

判斷是否有待爬取的url。

將爬取完成的url從待爬取url集合移動到已爬取url集合。

存儲方式

1、內存（python內存）
待爬取url集合：set()
已爬取url集合：set()

2、關系數據庫（mysql）
urls(url, is_crawled)

3、緩存（redis）
待爬取url集合：set
已爬取url集合：set

大型互聯網公司，由于緩存數據庫的高性能，一般把url存儲在緩存數據庫中。小型公司，一般把url存儲在內存中，如果想要永久存儲，則存儲到關系數據庫中。

網頁下載器（urllib）

將url對應的網頁下載到本地，存儲成一個文件或字符串。

基本方法

新建baidu.py，內容如下：

import urllib.request

response = urllib.request.urlopen("http://www.baidu.com")
buff = response.read()
html = buff.decode("utf8")
print(html)

命令行中執行python baidu.py，則可以打印出獲取到的頁面。

構造Request

上面的代碼，可以修改為：

import urllib.request

request = urllib.request.Request("http://www.baidu.com")
response = urllib.request.urlopen(request)
buff = response.read()
html = buff.decode("utf8")
print(html)

攜帶參數

新建baidu2.py，內容如下：

import urllib.request
import urllib.parse

url = "http://www.baidu.com"
values = {"name": "voidking","language": "Python"}
data = urllib.parse.urlencode(values).encode(encoding="utf-8",errors="ignore")
headers = { "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0" }
request = urllib.request.Request(url=url, data=data,headers=headers,method="GET")
response = urllib.request.urlopen(request)
buff = response.read()
html = buff.decode("utf8")
print(html)

使用Fiddler監聽數據

我們想要查看一下，我們的請求是否真的攜帶了參數，所以需要使用fiddler。
打開fiddler之后，卻意外發現，上面的代碼會報錯504，無論是baidu.py還是baidu2.py。

雖然python有報錯，但是在fiddler中，我們可以看到請求信息，確實攜帶了參數。

經過查找資料，發現python以前版本的Request都不支持代理環境下訪問https。但是，最近的版本應該支持了才對。那么，最簡單的辦法，就是換一個使用http協議的url來爬取，比如，換成http://www.csdn.net。結果，依然報錯，只不過變成了400錯誤。

然而，然而，然而。。。神轉折出現了！！！
當我把url換成http://www.csdn.net/后，請求成功！沒錯，就是在網址后面多加了一個斜杠/。同理，把http://www.baidu.com改成http://www.baidu.com/，請求也成功了！神奇！！！

添加處理器

import urllib.request
import http.cookiejar

# 創建cookie容器
cj = http.cookiejar.CookieJar()
# 創建opener
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
# 給urllib.request安裝opener
urllib.request.install_opener(opener)

# 請求
request = urllib.request.Request("http://www.baidu.com/")
response = urllib.request.urlopen(request)
buff = response.read()
html = buff.decode("utf8")
print(html)
print(cj)

網頁解析器（BeautifulSoup）

從網頁中提取出有價值的數據和新的url列表。

解析器選擇

為了實現解析器，可以選擇使用正則表達式、html.parser、BeautifulSoup、lxml等，這里我們選擇BeautifulSoup。
其中，正則表達式基于模糊匹配，而另外三種則是基于DOM結構化解析。

BeautifulSoup 安裝測試

1、安裝，在命令行下執行pip install beautifulsoup4。
2、測試

import bs4
print(bs4)

使用說明

基本用法

1、創建BeautifulSoup對象

import bs4
from bs4 import BeautifulSoup

# 根據html網頁字符串創建BeautifulSoup對象
html_doc = """
The Dormouse"s story

The Dormouse"s story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
"""
soup = BeautifulSoup(html_doc)
print(soup.prettify())

2、訪問節點

print(soup.title)
print(soup.title.name)
print(soup.title.string)
print(soup.title.parent.name)

print(soup.p)
print(soup.p["class"])

3、指定tag、class或id

print(soup.find_all("a"))
print(soup.find("a"))
print(soup.find(class_="title"))
print(soup.find(id="link3"))
print(soup.find("p",class_="title"))

4、從文檔中找到所有標簽的鏈接

for link in soup.find_all("a"):
    print(link.get("href"))

出現了警告，根據提示，我們在創建BeautifulSoup對象時，指定解析器即可。

soup = BeautifulSoup(html_doc,"html.parser")

5、從文檔中獲取所有文字內容

print(soup.get_text())

6、正則匹配

link_node = soup.find("a",href=re.compile(r"til"))
print(link_node)

后記

python爬蟲基礎知識，至此足夠，接下來，在實戰中學習更高級的知識。

書簽

Python開發簡單爬蟲
http://www.imooc.com/learn/563

The Python Standard Library
https://docs.python.org/3/lib...

Beautiful Soup 4.2.0 文檔
https://www.crummy.com/softwa...

為什么python適合寫爬蟲？
http://www.cnblogs.com/benzon...

如何學習Python爬蟲[入門篇]？
https://zhuanlan.zhihu.com/p/...

你需要這些：Python3.x爬蟲學習資料整理
https://zhuanlan.zhihu.com/p/...

如何入門 Python 爬蟲？
https://www.zhihu.com/questio...

Python3.X 抓取網絡資源
http://www.open-open.com/lib/...

python網絡請求和"HTTP Error 504:Fiddler - Receive Failure"
http://blog.csdn.net/guoguo52...

怎么使用Fiddler抓取自己寫的爬蟲的包？
https://www.zhihu.com/questio...

fiddler對python腳本抓取https包時發生了錯誤?
https://www.zhihu.com/questio...

HTTPS和HTTP的區別
http://blog.csdn.net/whatday/...

GPU云服務器云服務器 python爬蟲基礎入門 python爬蟲基礎知識零基礎學python爬蟲零基礎爬蟲

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/38367.html

零基礎如何學爬蟲技術

摘要：楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，。本文來源知乎作者路人甲鏈接楚江數據提供網站數據采集和爬蟲軟件定制開發服務，服務范圍涵蓋社交網絡電子商務分類信息學術研究等。楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，http://www.chujiangdata.com。第一：Python爬蟲學習系列教程（來源于某博主：htt...

KunMinX 2019-07-25 11:29 評論0 收藏0
Python爬蟲學習路線

摘要：以下這些項目，你拿來學習學習練練手。當你每個步驟都能做到很優秀的時候，你應該考慮如何組合這四個步驟，使你的爬蟲達到效率最高，也就是所謂的爬蟲策略問題，爬蟲策略學習不是一朝一夕的事情，建議多看看一些比較優秀的爬蟲的設計方案，比如說。（一）如何學習Python 學習Python大致可以分為以下幾個階段： 1.剛上手的時候肯定是先過一遍Python最基本的知識，比如說：變量、數據結構、語法...

liaoyg8023 2019-07-31 10:27 評論0 收藏0
精通Python網絡爬蟲(0):網絡爬蟲學習路線

摘要：以上是如果你想精通網絡爬蟲的學習研究路線，按照這些步驟學習下去，可以讓你的爬蟲技術得到非常大的提升。作者：韋瑋轉載請注明出處隨著大數據時代的到來，人們對數據資源的需求越來越多，而爬蟲是一種很好的自動采集數據的手段。那么，如何才能精通Python網絡爬蟲呢？學習Python網絡爬蟲的路線應該如何進行呢？在此為大家具體進行介紹。 1、選擇一款合適的編程語言事實上，Python、P...

spacewander 2019-07-30 14:17 評論0 收藏0
python基礎爬蟲的框架以及詳細的運行流程

摘要：互聯網界對于網絡爬蟲也建立了一定的道德規范協議來約束。基礎爬蟲的框架以及詳細的運行流程基礎爬蟲框架主要包括五大模塊，分別是爬蟲調度器管理器下載器解析器數據存儲器。網絡爬蟲是什么？網絡爬蟲就是：請求網站并提取數據的自動化程序網絡爬蟲能做什么？網絡爬蟲被廣泛用于互聯網搜索引擎或其他類似網站，可以自動采集所有其能夠訪問到的頁面內容，以獲取或更新這些網站的內容和檢索方式。showImg...

Scliang 2019-07-31 09:58 評論0 收藏0
【小白+python+selenium庫+圖片爬取+反爬+資料】超詳細新手實現（01）webdriv

摘要：且本小白也親身經歷了整個從小白到爬蟲初入門的過程，因此就斗膽在上開一個欄目，以我的圖片爬蟲全實現過程為例，以期用更簡單清晰詳盡的方式來幫助更多小白應對更大多數的爬蟲實際問題。前言：一個月前，博主在學過python（一年前）、會一點網絡（能按F12）的情況下，憑著熱血和興趣，開始了pyth...

Half 2021-09-30 09:48 評論0 收藏0
首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0