摘要:,所有筆記均托管于倉(cāng)庫(kù)。中包含的字符串或等節(jié)點(diǎn)被視作該的或節(jié)點(diǎn)。為了便于在或節(jié)點(diǎn)中進(jìn)行導(dǎo)航,提供了許多與此相關(guān)的方法。節(jié)點(diǎn)名可使用節(jié)點(diǎn)名來(lái)選取目標(biāo)節(jié)點(diǎn),此時(shí)會(huì)返回子孫節(jié)點(diǎn)中的第一個(gè)同名節(jié)點(diǎn)。
GitHub@orca-j35,所有筆記均托管于 python_notes 倉(cāng)庫(kù)。在解析樹(shù)中導(dǎo)航
歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處。
參考: Navigating the tree
在學(xué)習(xí)與解析樹(shù)相關(guān)的"導(dǎo)航字段"之前,我們需要先了解 BeautifulSoup 解析樹(shù)的結(jié)構(gòu),下面這段 HTML 和其解析樹(shù)如下:
markup = """To find out more see the standard.
""" soup = BeautifulSoup(markup, "lxml")
?"導(dǎo)航字段"的返回值總是節(jié)點(diǎn)對(duì)象(如,Tag 對(duì)象、NavigableString 對(duì)象),或由節(jié)點(diǎn)對(duì)象組成的列表(或迭代器)。
Going downTag 中包含的字符串或 Tag 等節(jié)點(diǎn)被視作該 Tag 的 children (或 descendants )節(jié)點(diǎn)。為了便于在 children (或 descendants )節(jié)點(diǎn)中進(jìn)行導(dǎo)航,BeautifulSoup 提供了許多與此相關(guān)的方法。
?BeautifulSoup 中的字符串節(jié)點(diǎn)(如,NavigableString和注釋)不支持與導(dǎo)航相關(guān)的屬性,因?yàn)樽址?jié)點(diǎn)永遠(yuǎn)不會(huì)包含任何 children 節(jié)點(diǎn)。
節(jié)點(diǎn)名可使用節(jié)點(diǎn)名來(lái)選取目標(biāo)節(jié)點(diǎn),此時(shí)會(huì)返回子孫節(jié)點(diǎn)中的第一個(gè)同名節(jié)點(diǎn)。
html_doc = """The Dormouse"s story The Dormouse"s story
Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well.
...
""" from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc, "html.parser") print(repr(f"{type(soup.head)}:{soup.head}")) print(repr(f"{type(soup.title)}:{soup.title}")) print(repr(f"{type(soup.a)}:{soup.a}"))
輸出:
".contents: The Dormouse"s story " ": The Dormouse"s story " ":Elsie"
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/45190.html
摘要:,所有筆記均托管于倉(cāng)庫(kù)。是一個(gè)用來(lái)從或文件中提取數(shù)據(jù)的庫(kù)。如果對(duì)速度有嚴(yán)格要求,應(yīng)直接使用庫(kù)來(lái)解析。對(duì)而言,解析器的速度比或更快。可以通過(guò)安裝庫(kù)來(lái)顯著提升檢測(cè)編碼方案的速度。 GitHub@orca-j35,所有筆記均托管于 python_notes 倉(cāng)庫(kù)。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處。 概述 ?官方文檔中混雜了 Py2 和 Py3 的術(shù)語(yǔ)和代碼,本筆記針對(duì) Py3 梳理了文檔...
摘要:參考概述中定義了許多搜索解析樹(shù)的方法,但這些方法都非常類似,它們大多采用與相同的參數(shù)和,但是僅有和支持參數(shù)。本節(jié)會(huì)以作為示例過(guò)濾器過(guò)濾器用于在解析樹(shù)中篩選目標(biāo)節(jié)點(diǎn),被用作搜索方法的實(shí)參。如果函數(shù)返回,則保留該節(jié)點(diǎn),否則拋棄該節(jié)點(diǎn)。 GitHub@orca-j35,所有筆記均托管于 python_notes 倉(cāng)庫(kù)。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處。參考: https://www.cr...
摘要:筆者看到了,覺(jué)得還蠻有意思的,因此,決定自己也寫(xiě)一個(gè)玩玩首先我們的爬蟲(chóng)要能將英語(yǔ)單詞翻譯成中文,因此,我們就需要一個(gè)網(wǎng)站幫助我們做這件事情。 ??最近在微信公眾號(hào)中看到有人用Python做了一個(gè)爬蟲(chóng),可以將輸入的英語(yǔ)單詞翻譯成中文,或者把中文詞語(yǔ)翻譯成英語(yǔ)單詞。筆者看到了,覺(jué)得還蠻有意思的,因此,決定自己也寫(xiě)一個(gè)玩玩~~??首先我們的爬蟲(chóng)要能將英語(yǔ)單詞翻譯成中文,因此,我們就需要一個(gè)網(wǎng)...
摘要:先打開(kāi)花千骨小說(shuō)的目錄頁(yè),是這樣的。網(wǎng)頁(yè)結(jié)構(gòu)分析首先,目錄頁(yè)左上角有幾個(gè)可以提高你此次爬蟲(chóng)成功后成就感的字眼暫不提供花千骨全集下載。打開(kāi)盤查看花千骨文件。 知識(shí)就像碎布,記得縫一縫,你才能華麗麗地亮相。 1.Beautiful Soup 1.Beautifulsoup 簡(jiǎn)介 此次實(shí)戰(zhàn)從網(wǎng)上爬取小說(shuō),需要使用到Beautiful Soup。Beautiful Soup為python的...
摘要:爬蟲(chóng)之簡(jiǎn)介提供一些簡(jiǎn)單的式的函數(shù)用來(lái)處理導(dǎo)航搜索修改分析樹(shù)等功能。自動(dòng)將輸入文檔轉(zhuǎn)換為編碼,輸出文檔轉(zhuǎn)換為編碼。已成為和一樣出色的解釋器,為用戶靈活地提供不同的解析策略或強(qiáng)勁的速度。 python爬蟲(chóng)之BeautifulSoup 簡(jiǎn)介 **Beautiful Soup提供一些簡(jiǎn)單的、python式的函數(shù)用來(lái)處理導(dǎo)航、搜索、修改分析樹(shù)等功能。它是一個(gè)工具箱,通過(guò)解析文檔為用戶提供需要抓取...
閱讀 2977·2021-11-25 09:43
閱讀 3597·2021-11-24 11:13
閱讀 3369·2021-10-14 09:42
閱讀 2570·2021-09-23 11:53
閱讀 3618·2021-09-22 15:57
閱讀 3231·2021-09-02 09:54
閱讀 3508·2019-08-30 13:47
閱讀 1647·2019-08-29 16:55