Python 爬蟲利器 Selenium

RobinQu 發(fā)布于2019-07-30 17:57 / 3339人閱讀

摘要：還記得前幾節(jié)，我們在構(gòu)造請求時會給請求加上瀏覽器目的就是為了讓我們的請求模擬瀏覽器的行為，防止被網(wǎng)站的反爬蟲策略限制。創(chuàng)建一個實(shí)例打開網(wǎng)址運(yùn)行后會發(fā)現(xiàn)程序自動打開了瀏覽器，并且定向到了百度首頁。

前面幾節(jié)，我們學(xué)習(xí)了用 requests 構(gòu)造頁面請求來爬取靜態(tài)網(wǎng)頁中的信息以及通過 requests 構(gòu)造 Ajax 請求直接獲取返回的 JSON 信息。

還記得前幾節(jié)，我們在構(gòu)造請求時會給請求加上瀏覽器 headers,目的就是為了讓我們的請求模擬瀏覽器的行為，防止被網(wǎng)站的反爬蟲策略限制。今天要介紹的 Selenium 是一款強(qiáng)大的工具，它可以控制我們的瀏覽器，這樣一來程序的行為就和人類完全一樣了。

通過使用 Selenium 可以解決幾個問題：

頁面內(nèi)容是由 JavaScript 動態(tài)生成，通過 requests 請求頁面無法獲取內(nèi)容。

爬蟲程序被反爬蟲策略限制

讓程序的行為和人一樣

安裝

pip install selenium

安裝瀏覽器驅(qū)動

驅(qū)動下載地址

下載后把驅(qū)動文件加入環(huán)境變量?；蛘咧苯影羊?qū)動文件和 Python腳本放到同一文件夾下面

測試
安裝完成后，可以編寫以下腳本來測試是否安裝成功。

from selenium import webdriver
driver = webdriver.Chrome()  # 創(chuàng)建一個 Chrome WebDriver 實(shí)例
driver.get("https://www.baidu.com/")  # 打開網(wǎng)址

運(yùn)行后會發(fā)現(xiàn)程序自動打開了 Chrome 瀏覽器，并且定向到了百度首頁。

與頁面交互
WebDriver定義了很多方法，我們可以很方便的操作頁面上的元素
比如獲取元素，可以通過 driver.find_element_by_id("id")或者driver.find_element_by_name("name")以及 xpath路徑的方式來獲取元素?？梢酝ㄟ^send_keys 向輸入框中寫入文本。

from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://www.baidu.com/")
search_input = driver.find_element_by_id("kw") # 獲取到百度搜索框
search_input.send_keys("劉亦菲")  # 自動輸入 劉亦菲
submit = driver.find_element_by_id("su")  # 獲取到百度一下按鈕
submit.click()  # 點(diǎn)擊搜索

運(yùn)行以上腳本，程序會自動打開 Chrome 瀏覽器，并自動搜索劉亦菲

其他操作
Selenium 可以進(jìn)行各種各樣的操作，使程序完全符合人類的操作習(xí)慣。下面看一下還有哪些功能。

具體可以看官方文檔，這里貼一下地址
https://selenium-python-zh.readthedocs.io/en/latest/index.html

GPU云服務(wù)器云服務(wù)器 selenium網(wǎng)絡(luò)爬蟲 python開發(fā)利器 Python_selenium_phan 分析利器

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/42529.html

發(fā)表評論

登陸后可評論

0條評論

RobinQu

男|高級講師

我要關(guān)注我要私信

TA的文章

0基礎(chǔ)C語言保姆教學(xué)——第五節(jié) 數(shù)組

閱讀 3926·2021-11-24 09:38
基于C-V2X的闖紅燈預(yù)警方法與流程

閱讀 3107·2021-11-17 09:33
Megalayer雙11香港服務(wù)器和美國服務(wù)器特惠（獨(dú)立服務(wù)器月付299元）

閱讀 3879·2021-11-10 11:48
#便宜VPS#Fiberia：1核/4G/50G SSD/2T流量/1Gbps/荷蘭/月付$2.9

閱讀 1246·2021-10-14 09:48
CSS三欄布局的四種方法

閱讀 3138·2019-08-30 13:14
CSS中position屬性（sticky）

閱讀 2557·2019-08-29 18:37
CSS 入門指南：（1）工作原理

閱讀 3402·2019-08-29 12:38
不簡單的前端性能優(yōu)化

閱讀 1423·2019-08-29 12:30

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python 爬蟲利器 Selenium

相關(guān)文章

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

**爬蟲 + 自動化利器 selenium 之自學(xué)成才篇（二）**

**??爬蟲+自動化利器 selenium 之自學(xué)成才篇（一）??**

BeautifulSoup：網(wǎng)頁解析利器上手簡介

Python爬蟲學(xué)習(xí)路線

發(fā)表評論

0條評論

RobinQu

男|高級講師

TA的文章

0基礎(chǔ)C語言保姆教學(xué)——第五節(jié) 數(shù)組

基于C-V2X的闖紅燈預(yù)警方法與流程

Megalayer雙11香港服務(wù)器和美國服務(wù)器特惠（獨(dú)立服務(wù)器月付299元）

#便宜VPS#Fiberia：1核/4G/50G SSD/2T流量/1Gbps/荷蘭/月付$2.9

CSS三欄布局的四種方法

CSS中position屬性（sticky）

CSS 入門指南：（1）工作原理

不簡單的前端性能優(yōu)化

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python 爬蟲利器 Selenium

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！