Python爬蟲筆記3-解析庫Xpath的使用

simon_chen 發(fā)布于2019-07-31 10:06 / 1226人閱讀

摘要：選取名為的所有屬性庫使用庫安裝官網(wǎng)安裝進入命令行模式，執(zhí)行安裝進入終端模式，執(zhí)行安裝依賴的類庫后，執(zhí)行安裝驗證安裝導入模塊，如果沒有報錯就安裝成功。輸出結(jié)果輸出結(jié)果多了一個聲明，對解析結(jié)果沒影響。

當爬取到Html數(shù)據(jù)后，可以用正則對數(shù)據(jù)進行提取，但有時候正則表達式編寫起來不方便，而且萬一寫錯了，可能導致匹配失敗。這時候就需要借助其他解析工具了。

XML引入 什么是XML？

XML 指可擴展標記語言（EXtensible Markup Language）

XML 是一種標記語言，很類似 HTML

XML 的設(shè)計宗旨是傳輸數(shù)據(jù)，而非顯示數(shù)據(jù)

XML 的標簽需要我們自行定義。

XML 被設(shè)計為具有自我描述性。

XML 是 W3C 的推薦標準

W3School官方文檔：http://www.w3school.com.cn/xm...

XML和HTML的區(qū)別

語法要求不同

在html中不區(qū)分大小寫，在xml中嚴格區(qū)分。

在HTML中，有時不嚴格，如果上下文清楚地顯示出段落或者列表鍵在何處結(jié)尾，那么你可以省略

或者之類的結(jié)束標記。在XML中，是嚴格的樹狀結(jié)構(gòu)，絕對不能省略掉結(jié)束標記。

在XML中，擁有單個標記而沒有匹配的結(jié)束標記的元素必須用一個/ 字符作為結(jié)尾。這樣分析器就知道不用查找結(jié)束標記了。

在XML中，屬性值必須分裝在引號中。在HTML中，引號是可用可不用的。

在HTML中，可以擁有不帶值的屬性名。在XML中，所有的屬性都必須帶有相應的值。

在XML文檔中，空白部分不會被解析器自動刪除；但是html是過濾掉空格的。

設(shè)計目標不同

XML被設(shè)計為傳輸和存儲數(shù)據(jù)，其焦點是數(shù)據(jù)的內(nèi)容。

HTML顯示數(shù)據(jù)以及如何更好顯示數(shù)據(jù)。

XML的節(jié)點關(guān)系

1、父(parent)
每個元素以及屬性都有一個父。
下面是一個簡單的XML例子中，book 元素是 title、author、year 以及 price 元素的父：




  Harry Potter
  J K. Rowling
  2005
  29.99

2、子（Children）
元素節(jié)點可有零個、一個或多個子。
在下面的例子中，title、author、year 以及 price 元素都是 book 元素的子：




  Harry Potter
  J K. Rowling
  2005
  29.99

3、同胞（Sibling）
擁有相同的父的節(jié)點
在下面的例子中，title、author、year 以及 price 元素都是同胞：




  Harry Potter
  J K. Rowling
  2005
  29.99

4、先輩（Ancestor）
某節(jié)點的父、父的父，等等。
在下面的例子中，title 元素的先輩是 book 元素和 bookstore 元素：






  Harry Potter
  J K. Rowling
  2005
  29.99

5、后代（Descendant）
某個節(jié)點的子，子的子，等等。
在下面的例子中，bookstore 的后代是 book、title、author、year 以及 price 元素：






  Harry Potter
  J K. Rowling
  2005
  29.99

Xpath 什么是Xpath？

Xpath，全稱XML Path Language，即XML路徑語言，它是一門在XML文檔中查找信息的語言，可用來在 XML 文檔中對元素和屬性進行遍歷。。最初是用來搜尋XML文檔的，但是它也適用與HTML文檔的搜索。
所以在做爬蟲時，可以使用XPath來做相應的信息抽取。

W3School官方文檔：http://www.w3school.com.cn/xp...

Xpath開發(fā)工具

開源的XPath表達式編輯工具:XMLQuire(XML格式文件可用)

Chrome插件 XPath Helper

Firefox插件 XPath Checker

使用Xpath

XPath 使用路徑表達式來選取 XML 文檔中的節(jié)點或者節(jié)點集。這些路徑表達式和我們在常規(guī)的電腦文件系統(tǒng)中看到的表達式非常相似。
1、Xpath常用規(guī)則

表達式	描述
nodename	選取此節(jié)點的所有子節(jié)點
/	從當前節(jié)點選取直接子節(jié)點
//	從當前節(jié)點選取子孫節(jié)點
.	選取當前節(jié)點
..	選取當前節(jié)點的父節(jié)點
@	選取屬性

2、Xpath使用示例
以下面xmL文檔為例:






  Harry Potter
  J K. Rowling
  2005
  29.99

路徑表達式	結(jié)果
bookstore	選取bookstore元素的所有子節(jié)點
/bookstore	選取根元素bookstore。注:假如路徑起始于正斜杠/,則此路徑代表某元素的絕對路徑
bookstore/book	選取屬于bookstore的子元素的所有book元素
//book	選取所有book元素，不管在文檔的任何位置
bookstore//book	選擇屬于 bookstore 元素的后代的所有 book 元素，而不管它們位于 bookstore 之下的什么位置。
//@lang	選取名為lang的所有屬性

lxml庫使用 lxml庫安裝

lxml官網(wǎng)

Github

1、window安裝
cmd進入命令行模式，執(zhí)行

pip3 install lxml

2、ubuntu16.04安裝
ctrl+alt+t進入終端模式，執(zhí)行:

sudo apt-get install -y build-essential libssl-devl libffi-dev libxml2-dev libxslt1-dev zlib1g-dev

安裝依賴的類庫后，執(zhí)行pip安裝:

sudo pip3 install lxml

3、驗證安裝
導入lxml模塊，如果沒有報錯就安裝成功。

$ python3
>>> import lxml

etree模塊使用

初步使用
文件名lxml_test.py

# 使用 lxml 的 etree 庫
from lxml import etree 

text = """

    
         first item
         second item
         third item
         fourth item
         fifth item # 注意，此處缺少一個  閉合標簽
     
 
"""

#利用etree.HTML，將字符串解析為HTML文檔，etree模塊可自動修正HTML文本
html = etree.HTML(text) 

# 按字符串序列化HTML文檔
ret = etree.tostring(html) 

# torstring()方法返回的結(jié)果是bytes類型，這里用decode()方法將其轉(zhuǎn)化為字符串
print(ret.decode("utf-8"))

輸出結(jié)果:



    
         first item
         second item
         third item
         fourth item
         fifth item

etree模塊可以自動修正 html 代碼，例子里不僅補全了 li 標簽，還添加了 body，html 標簽。

文件讀取
除了直接讀取字符串，lxml還支持從文件里讀取內(nèi)容。這里我將上面的lxml_test.py文件執(zhí)行后的內(nèi)容保存為test.html

python lxml_test.py >> test.html

內(nèi)容就是上面的輸出結(jié)果 cat test.html:


    
         first item
         second item
         third item
         fourth item
         fifth item

使用etree.parse()方法來讀取文件。

from lxml import etree

html = etree.parse("./test.html",HTMLParser())

ret = etree.tostring(html)
print(ret.decode("utf-8"))

輸出結(jié)果




    
         first item
         second item
         third item
         fourth item
         fifth item

輸出結(jié)果多了一個DOCTYPE聲明，對解析結(jié)果沒影響。

云服務器 GPU云服務器 python 爬蟲庫爬蟲python庫 python爬蟲庫 python爬蟲常用庫

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/43239.html

發(fā)表評論

登陸后可評論

0條評論

simon_chen

男|高級講師

我要關(guān)注我要私信

TA的文章

一文看懂 MySQL 高性能優(yōu)化技巧實踐

閱讀 3471·2021-09-08 09:36
vue項目搭建以及全家桶的使用詳細教程

閱讀 2569·2019-08-30 15:54
[CSS]《CSS揭秘》第六章——用戶體驗

閱讀 2360·2019-08-30 15:54
前端面試每日3+1——第107天

閱讀 1771·2019-08-30 15:44
前端該如何準備數(shù)據(jù)結(jié)構(gòu)和算法？

閱讀 2395·2019-08-26 14:04
JavaScript中的數(shù)組

閱讀 2447·2019-08-26 14:01
Vue+Webpack項目從 60s 到 17s 的打包優(yōu)化方法

閱讀 2884·2019-08-26 13:58
黃金搭檔 -- JS 裝飾器（Decorator）與Node.js路由

閱讀 1339·2019-08-26 13:47

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲筆記3-解析庫Xpath的使用

相關(guān)文章

***Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---28、解析庫的使用：XPath***

scrapy學習筆記

Python爬蟲筆記1-爬蟲背景了解

關(guān)于爬蟲解析數(shù)據(jù)的4種方式

爬蟲學習之基于Scrapy的網(wǎng)絡(luò)爬蟲

發(fā)表評論

0條評論

simon_chen

男|高級講師

TA的文章

一文看懂 MySQL 高性能優(yōu)化技巧實踐

vue項目搭建以及全家桶的使用詳細教程

[CSS]《CSS揭秘》第六章——用戶體驗

前端面試每日3+1——第107天

前端該如何準備數(shù)據(jù)結(jié)構(gòu)和算法？

JavaScript中的數(shù)組

Vue+Webpack項目從 60s 到 17s 的打包優(yōu)化方法

黃金搭檔 -- JS 裝飾器（Decorator）與Node.js路由

最新活動