国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

使用lxml代替beautifulsoup

Drinkey / 2000人閱讀

摘要:深入使用過的都會(huì)深深地喜歡上它雖然很流行但是深入了解后你就再也不會(huì)使用了我覺得不好用速度也慢雖然可以使用作為解析器了另外這種簡直就是手工時(shí)代的操作很多人使用這幾個(gè)函數(shù)其實(shí)它們使用起來不是很愉快手工操作的另一個(gè)特征是需要自己手寫正則表達(dá)式正則

深入使用過lxml的都會(huì)深深地喜歡上它,雖然BeautifulSoup很流行,但是深入了解lxml后,你就再也不會(huì)使用bs了

我覺得beautifulsoup不好用,速度也慢(雖然可以使用lxml作為解析器了).另外soup.find_all這種簡直就是手工時(shí)代的操作(很多人使用find find_all這幾個(gè)函數(shù), 其實(shí)它們使用起來不是很愉快),手工操作的另一個(gè)特征是需要自己手寫正則表達(dá)式(正則是一個(gè)小范圍內(nèi)的軍刀,大范圍用是不對(duì)的)

多使用soup.select才是正確的選擇, 多簡單方便.

爬蟲對(duì)html頁面做的操作,大部分時(shí)候在選取東西,find_all還要自己手工去寫(比如手工寫正則表達(dá)式, it"s a hell).

使用XPath以及CSS選擇器才是明智的選擇,這兩者,瀏覽器都可以幫我們自動(dòng)生成,何樂不為?

另外,lxml用起來舒服多了,速度也不錯(cuò).

另外,lxml安裝是一個(gè)難題,常有很多錯(cuò)誤,令人望而生畏,這里提供兩種方法

Windows平臺(tái): 使用Anaconda集成安裝包,無腦解決

Ubuntu平臺(tái): sudo apt-get install python-lxml無腦解決
我從不覺得去自己解決lxml在這些平臺(tái)的安裝有什么很大價(jià)值,反而容易令人自我懷疑.(寶貴的時(shí)間為何要浪費(fèi)在這種事情上面?)

下面就來一個(gè)示例:

#####################
#  獲取SF首頁的標(biāo)題
#####################
from lxml.etree import HTML
import requests


url = "https://segmentfault.com/"
css_selector = ".title>a"  #這是利用瀏覽器自動(dòng)獲取的,我甚至都不用知道它是什么意思

text = requests.get(url).text
page = HTML(text)

titles = []
for title in page.cssselect(css_selector):
    titles.append(title.text)
    
print titles

# 這一段程序?qū)懴聛?不用動(dòng)腦筋(無腦寫),不消耗心智
利用瀏覽器獲取XPath/CSS選擇器的方法:
1. 推薦使用Firefox, 比Chrome強(qiáng)大太多
2. 右鍵元素-->copy XPath

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/37986.html

相關(guān)文章

  • Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---29、解析庫的使用BeautifulSoup

    摘要:解析器在解析的時(shí)候?qū)嶋H上是依賴于解析器的,它除了支持標(biāo)準(zhǔn)庫中的解析器,還支持一些第三方的解析器比如,下面我們對(duì)支持的解析器及它們的一些優(yōu)缺點(diǎn)做一個(gè)簡單的對(duì)比。 上一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---28、解析庫的使用:XPath下一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---30、解析庫的使用:PyQuery 前面我們介紹了正則表達(dá)式的相關(guān)用法,但是一旦正則寫的有問題,可能得到的就...

    MockingBird 評(píng)論0 收藏0
  • Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---4、數(shù)據(jù)庫的安裝:MySQL、MongoDB、Redis

    摘要:運(yùn)行結(jié)果如果運(yùn)行結(jié)果一致則證明安裝成功。上一篇文章網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)請(qǐng)求庫安裝下一篇文章網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)數(shù)據(jù)庫的安裝 上一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---2、請(qǐng)求庫安裝:GeckoDriver、PhantomJS、Aiohttp下一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---數(shù)據(jù)庫的安裝:MySQL、MongoDB、Redis 抓取下網(wǎng)頁代碼之后,下一步就是從網(wǎng)頁中提取信息,提取信息的方式有...

    xbynet 評(píng)論0 收藏0
  • Python爬蟲筆記4-BeautifulSoup使用

    摘要:方法作用查找所有符合條件的元素,返回的是列表形式參數(shù)可以根據(jù)節(jié)點(diǎn)名來查找元素。示例查詢第一個(gè)標(biāo)簽查找第一個(gè)節(jié)點(diǎn)內(nèi)容中有字符串的節(jié)點(diǎn)內(nèi)容運(yùn)行結(jié)果關(guān)于的使用就這樣吧,常用個(gè)人就覺得用好即可參考鏈接崔慶才網(wǎng)絡(luò)爬蟲開發(fā)實(shí)戰(zhàn)使用 BeautifulSoup介紹 與lxml一樣,BeautifulSoup也是一個(gè)HTML/XML的解析器,主要功能也是如何解析和提取HTML/XML數(shù)據(jù)。 幾種解析工...

    fobnn 評(píng)論0 收藏0
  • BeautifulSoup:網(wǎng)頁解析利器上手簡介

    摘要:文檔寫得很清楚,也有中文版,你只要看了最初的一小部分,就可以在代碼中派上用場(chǎng)了。 關(guān)于爬蟲的案例和方法,我們已講過許多。不過在以往的文章中,大多是關(guān)注在 如何把網(wǎng)頁上的內(nèi)容抓取下來 。今天我們來分享下,當(dāng)你已經(jīng)把內(nèi)容爬下來之后, 如何提取出其中你需要的具體信息 。 網(wǎng)頁被抓取下來,通常就是 str 字符串類型的對(duì)象 ,要從里面尋找信息,最直接的想法就是直接通過字符串的 find 方法 ...

    Carl 評(píng)論0 收藏0
  • BeautifulSoup 使用指北 - 0x01_概覽

    摘要:,所有筆記均托管于倉庫。是一個(gè)用來從或文件中提取數(shù)據(jù)的庫。如果對(duì)速度有嚴(yán)格要求,應(yīng)直接使用庫來解析。對(duì)而言,解析器的速度比或更快。可以通過安裝庫來顯著提升檢測(cè)編碼方案的速度。 GitHub@orca-j35,所有筆記均托管于 python_notes 倉庫。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處。 概述 ?官方文檔中混雜了 Py2 和 Py3 的術(shù)語和代碼,本筆記針對(duì) Py3 梳理了文檔...

    jay_tian 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<