lxml處理xml時的字符編碼問題

liuhh 發(fā)布于2019-08-27 10:51 / 861人閱讀

摘要：為了簡化問題，就把的內(nèi)容簡化為如下的形式中文，就是任性它的為，其中的節(jié)點有一個為中文字符使用提取節(jié)點的值時出現(xiàn)了如下的異常此時對應(yīng)的腳本為中文，就是任性不過簡化之前，報的是另外一個異常不論異常是哪一個，猜測還是和字符的編碼形式有關(guān)。

為了簡化問題，就把xml的內(nèi)容簡化為如下的形式:

它的encoding為gbk，其中的節(jié)點有一個為中文字符
使用lxml提取節(jié)點的值時出現(xiàn)了如下的異常

lxml.etree.XMLSyntaxError: Extra content at the end of the document

此時對應(yīng)的Python腳本為：

tst = u""
for event,element in etree.iterparse(BytesIO(tst.encode("utf-8"))):
    print("%s, %s" % (element.tag, element.text))

不過簡化之前，報的是另外一個異常

lxml.etree.XMLSyntaxError: input conversion failed due to input error, bytes 0x8B 0x2C 0xE6 0x9D

不論異常是哪一個，猜測還是和字符的編碼形式有關(guān)。
經(jīng)過各種嘗試無果，后來在stackoverflow上看到這篇文章，文中提到的問題和xml中的encoding值有關(guān)，嘗試了增加了一段代碼

tst = u""
tst = tst.replace("encoding="gbk"", "encoding="utf-8"")
for event,element in etree.iterparse(BytesIO(tst.encode("utf-8"))):
    print("%s, %s" % (element.tag, element.text))

增加了一個替換的語句，將之前的encoding="gbk"替換成encoding:"utf-8"
于是終于得到了結(jié)果：

da, 中文，就是任性
DOCUMENT, None

云服務(wù)器 GPU云服務(wù)器解析jpeg數(shù)據(jù)時的問題字符編碼編碼 xml轉(zhuǎn)義字符 xml字符串

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/110327.html

相關(guān)文章

lxml處理xml時的字符編碼問題

摘要：為了簡化問題，就把的內(nèi)容簡化為如下的形式中文，就是任性它的為，其中的節(jié)點有一個為中文字符使用提取節(jié)點的值時出現(xiàn)了如下的異常此時對應(yīng)的腳本為中文，就是任性不過簡化之前，報的是另外一個異常不論異常是哪一個，猜測還是和字符的編碼形式有關(guān)。為了簡化問題，就把xml的內(nèi)容簡化為如下的形式: 它的encoding為gbk，其中的節(jié)點有一個為中文字符使用lxml提取節(jié)點的值時出現(xiàn)了如下的...

Jackwoo 2019-07-31 11:36 評論0 收藏0
爬蟲問題總結(jié)

摘要：編碼我們發(fā)現(xiàn)，中有時候存在中文，這是就需要對進(jìn)行編碼?？梢韵葘⒅形霓D(zhuǎn)換成編碼，然后使用方法對參數(shù)進(jìn)行編碼后傳遞。本文檔對日常學(xué)習(xí)中用 python 做數(shù)據(jù)爬取時所遇到的一些問題做簡要記錄，以便日后查閱，部分問題可能因為認(rèn)識不到位會存在一些誤解，敬請告知，萬分感謝，共同進(jìn)步。估算網(wǎng)站規(guī)模該小節(jié)主要針對于整站爬取的情況。爬取整站之前，肯定是要先對一個網(wǎng)站的規(guī)模進(jìn)行估計。這是可以使用g...

nanfeiyan 2019-07-30 16:34 評論0 收藏0
Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---29、解析庫的使用：BeautifulSoup

摘要：解析器在解析的時候?qū)嶋H上是依賴于解析器的，它除了支持標(biāo)準(zhǔn)庫中的解析器，還支持一些第三方的解析器比如，下面我們對支持的解析器及它們的一些優(yōu)缺點做一個簡單的對比。上一篇文章：Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---28、解析庫的使用：XPath下一篇文章：Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---30、解析庫的使用：PyQuery 前面我們介紹了正則表達(dá)式的相關(guān)用法，但是一旦正則寫的有問題，可能得到的就...

MockingBird 2019-07-31 10:35 評論0 收藏0
Python_爬蟲基礎(chǔ)

摘要：并不是所有爬蟲都遵守，一般只有大型搜索引擎爬蟲才會遵守。的端口號為的端口號為工作原理網(wǎng)絡(luò)爬蟲抓取過程可以理解為模擬瀏覽器操作的過程。表示服務(wù)器成功接收請求并已完成整個處理過程。爬蟲概念數(shù)據(jù)獲取的方式：企業(yè)生產(chǎn)的用戶數(shù)據(jù)：大型互聯(lián)網(wǎng)公司有海量用戶，所以他們積累數(shù)據(jù)有天然優(yōu)勢。有數(shù)據(jù)意識的中小型企業(yè)，也開始積累的數(shù)據(jù)。數(shù)據(jù)管理咨詢公司政府/機(jī)構(gòu)提供的公開數(shù)據(jù) 第三方數(shù)據(jù)平臺購買...

ixlei 2019-07-30 16:38 評論0 收藏0
關(guān)于爬蟲解析數(shù)據(jù)的4種方式

摘要：大奉打更人賣報小郎君這個人仙太過正經(jīng)言歸正傳從紅月開始黑山老鬼穩(wěn)住別浪跳舞二解析數(shù)據(jù)是一個可以從或文件中提取數(shù)據(jù)的庫。目錄一、XPath解析數(shù)據(jù) 1、XPath解析數(shù)據(jù) 2、XML的樹形結(jié)構(gòu) 3、使用XPath選取節(jié)點 4、課堂案例 - 爬取起點小說網(wǎng) 二、BeautifulSoup解析...

newtrek 2021-11-23 09:51 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

liuhh

男|高級講師

我要關(guān)注我要私信

TA的文章

javascript簡單輪播圖

閱讀 1619·2019-08-29 13:53
細(xì)說瀏覽器輸入URL后發(fā)生了什么

閱讀 3218·2019-08-29 13:50
lxml處理xml時的字符編碼問題

閱讀 862·2019-08-27 10:51
svg 線條動畫

閱讀 572·2019-08-26 18:36
「leetcode」78.子集

閱讀 1820·2019-08-26 11:00
Dom詳解

閱讀 613·2019-08-26 10:36
瀏覽器輸入URL到頁面展示相關(guān)知識點圖解

閱讀 3224·2019-08-23 17:58
js編程

閱讀 2037·2019-08-23 15:17

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

lxml處理xml時的字符編碼問題

相關(guān)文章