概述
參考: https://www.crummy.com/softwa...
BeautifulSoup 中定義了許多搜索解析樹的方法,但這些方法都非常類似,它們大多采用與 find_all() 相同的參數: name、attrs、string、limit 和 **kwargs,但是僅有 find() 和 find_all() 支持 recursive 參數。
這里著重介紹 find() 和 find_all(),其它"搜索方法"也這兩個類似。
Three sisters本節會以 "three sister" 作為示例:
html_doc = """過濾器The Dormouse"s story The Dormouse"s story
Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well.
""" from pprint import pprint from bs4 import BeautifulSoup import re soup = BeautifulSoup(html_doc, "html.parser")
字符串字符串可用作過濾器,BeautifulSoup 可利用字符串來篩選節點,并保留符合條件節點:
使用字符串篩選 tag 時,會保留與字符串同名 tag 節點,且總會過濾掉 HTML 文本節點
使用字符串篩選 HTML 屬性時,會保留屬性值與字符串相同的 tag 節點,且總會過濾掉 HTML 文本節點
使用字符串篩選 HTML 文本時,會保留與字符串相同的文本節點
與 str 字符串類似,我們還可將 bytes 對象用作過濾器,區別在于 BeautifulSoup 會假定編碼模式為 UTF-8。
soup = BeautifulSoup(html_doc, "html.parser") # 查找名為b的tag節點 print([f"{type(i)}::{i.name}" for i in soup.find_all("b")]) print([f"{type(i)}::{i.name}" for i in soup.find_all(b"b")]) # 查找id值為link1的tag節點 print([f"{type(i)}::{i.name}" for i in soup.find_all(id="link1")]) # 查找文本值為Elsie的文本節點 print([f"{type(i)}::{i.name}" for i in soup.find_all(text="Elsie")])
["正則表達式::b"] [" ::b"] [" ::a"] [" ::None"]
正則表達式對象可用作過濾器,BeautifulSoup 會利用正則表達式對象的 search() 方法來篩選節點,并保留符合條件節點:
使用正則表達式對象篩選 tag 時,會利用正則表達式的 search() 方法來篩選 tag 節點的名稱,并保留符合條件的 tag 節點。因為文本節點的 .name 屬性值為 None,因此總會過濾掉 HTML 文本節點
使用正則表達式對象篩選 HTML 屬性時,會利用正則表達式的 search() 方法來篩選指定屬性的值,并保留符合條件的 tag 節點。因為文本節點不包含任何 HTML 屬性,因此總會過濾掉 HTML 文本節點
使用正則表達式對象篩選 HTML 文本時,會利用正則表達式的 search() 方法來篩選文本節點,并保留符合條件的文本節點。
import re soup = BeautifulSoup(html_doc, "html.parser") # 查找名稱中包含字母b的節點 print([f"{type(i)}::{i.name}" for i in soup.find_all(re.compile(r"b"))]) # 查找class值以t開頭的tag print( [f"{type(i)}::{i.name}" for i in soup.find_all(class_=re.compile(r"^t"))]) # 查找文本值以E開頭的文本節點 print([f"{type(i)}::{i.name}" for i in soup.find_all(text=re.compile(r"^E"))])
["列表::body", " ::b"] [" ::p"] [" ::None"]
列表 list 可用作過濾器,列表中的項可以是:
可調用對象,詳見 函數
BeautifulSoup 會利用列表中的項來篩選節點,并保留符合條件節點:
使用列表篩選 tag 時,若 tag 名與列表中的某一項匹配,則會保留該 tag 節點,且總會過濾掉 HTML 文本節點
使用列表篩選 HTML 屬性時,若屬性值與列表中的某一項匹配,則會保留該 tag 節點,且總會過濾掉 HTML 文本節點
使用列表篩選 HTML 文本時,若文本與列表中的某一項匹配,則會保留該文本節點
import re def func(tag): return tag.get("id") == "link1" soup = BeautifulSoup(html_doc, "html.parser") # 查找與列表匹配的tag節點 tag = soup.find_all(["title", re.compile("b$"), func]) pprint([f"{type(i)}::{i.name}" for i in tag]) pprint( [f"{type(i)}::{i.name}" for i in soup.find_all(text=["Elsie", "Tillie"])])
["True::title", " ::b", " ::a"] [" ::None", " ::None"]
布爾值 True 可用作過濾器:
使用 True 篩選 tag 時,會保留所有 tag 節點,且過濾掉所有 HTML 文本節點
使用 True 篩選 HTML 屬性時,會保留所有具備該屬性的 tag 節點,且過濾掉所有 HTML 文本節點
使用 True 篩選 HTML 文本時,會保留所有文本節點
soup = BeautifulSoup(html_doc, "html.parser") pprint([f"{type(i)}::{i.name}" for i in soup.find_all(True)]) pprint([f"{type(i)}::{i.name}" for i in soup.find_all(id=True)]) pprint([f"{type(i)}::{i.name}" for i in soup.find_all(text=True)])
["函數::html", " ::head", " ::title", " ::body", " ::p", " ::b", " ::p", " ::a", " ::a", " ::a", " ::p"] [" ::a", " ::a", " ::a"] [" ::None", " ::None", " ::None", " ::None", " ::None", " ::None", " ::None", " ::None", " ::None", " ::None", " ::None", " ::None", " ::None", " ::None", " ::None", " ::None", " ::None", " ::None", " ::None"]
以 tag 節點為篩選對象時,過濾器函數需以 tag 節點作為參數,如果函數返回 True,則保留該 tag 節點,否則拋棄該節點。
示例 - 篩選出含 class 屬性,但不含 id 屬性的 tag 節點:
def has_class_but_no_id(tag): # Here’s a function that returns True if a tag defines the “class” attribute but doesn’t define the “id” attribute return tag.has_attr("class") and not tag.has_attr("id") soup = BeautifulSoup(html_doc, "html.parser") tag = soup.find_all(has_class_but_no_id) pprint([f"{type(i)}::{i.name}" for i in tag])
["::p", " ::p", " ::p"]
針對 HTML 屬性進行篩選時,過濾函數需以屬性值作為參數,而非整個 tag 節點。如果 tag 節點包含目標屬性,則會向過濾函數傳遞 None,否則傳遞實際值。如果函數返回 True,則保留該 tag 節點,否則拋棄該節點。
def not_lacie(href): # Here’s a function that finds all a tags whose href attribute does not match a regular expression return href and not re.compile("lacie").search(href) soup = BeautifulSoup(html_doc, "html.parser") tag = soup.find_all(href=not_lacie) for i in tag: print(f"{type(i)}::{i.name}::{i}")
::a::Elsie ::a::Tillie
針對 HTML 文本進行篩選時,過濾需以文本值作為參數,而非整個 tag 節點。如果函數返回 True,則保留該 tag 節點,否則拋棄該節點。
def func(text): return text == "Lacie" soup = BeautifulSoup(html_doc, "html.parser") print([f"{type(i)}::{i}" for i in soup.find_all(text=func)])
html_doc = """The Dormouse"s story The Dormouse"s story
Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well.
""" def surrounded_by_strings(tag): # returns True if a tag is surrounded by string objects return (isinstance(tag.next_element, NavigableString) and isinstance(tag.previous_element, NavigableString)) soup = BeautifulSoup(html_doc, "html.parser") tag = soup.find_all(surrounded_by_strings) pprint([f"{type(i)}::{i.name}" for i in tag]) # 注意空白符對輸出結果的影響
["find_all()::body", " ::p", " ::a", " ::a", " ::a", " ::p"]
