摘要:提取文件中所有中文小程序問題描述從一個(gè)文件中提取所有中文思路打開文件讀取文件中的文本用正則匹配獲取中文將其內(nèi)容寫入到另一個(gè)文本中實(shí)現(xiàn)設(shè)置默認(rèn)編碼只能是下面要求的判斷是否為中文的正則表達(dá)式打開要提取的文件打開要寫入的文件循環(huán)讀取要讀
Python-提取文件中所有中文小程序
問題描述:
從一個(gè)txt文件中提取所有中文
思路:
打開txt文件
讀取txt文件中的文本
用正則匹配獲取中文
將其內(nèi)容寫入到另一個(gè)文本中
python實(shí)現(xiàn):
import imp
import sys
imp.reload(sys)
sys.setdefaultencoding("utf-8") #設(shè)置默認(rèn)編碼,只能是utf-8,下面u4e00-u9fa5要求的
import re
pchinese=re.compile("([u4e00-u9fa5]+)+?") #判斷是否為中文的正則表達(dá)式
f=open("data.txt") #打開要提取的文件
fw=open("getdata.txt","w")#打開要寫入的文件
for line in f.readlines(): #循環(huán)讀取要讀取文件的每一行
m=pchinese.findall(str(line)) #使用正則表達(dá)獲取中文
if m:
str1="|".join(m)#同行的中文用豎杠區(qū)分
str2=str(str1)
fw.write(str2)#寫入文件
fw.write("
")#不同行的要換行
f.close()
fw.close()#打開的文件記得關(guān)閉哦!
未驗(yàn)證
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/37489.html
摘要:時(shí)間永遠(yuǎn)都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:如果傳一個(gè)中文,下和下編碼分別是和,可以自己用打印看看文件中寫死,本來理解是跟這個(gè)文件本身編碼有關(guān),但文件編碼同樣是的情況下,下打印了的超集,下仍然是。 對編碼問題一直一知半解,之前也是得過且過,正好有個(gè)同事要我?guī)兔憘€(gè)腳本,涉及這方面的問題,借這個(gè)契機(jī)研究了一下. 先貼幾篇比較好的: 1.阮老師的上古文章(07年…),雖然古老但對理解幫助很大,從最基礎(chǔ)講起,邏輯清晰易理解. (ps:...
摘要:文檔寫得很清楚,也有中文版,你只要看了最初的一小部分,就可以在代碼中派上用場了。 關(guān)于爬蟲的案例和方法,我們已講過許多。不過在以往的文章中,大多是關(guān)注在 如何把網(wǎng)頁上的內(nèi)容抓取下來 。今天我們來分享下,當(dāng)你已經(jīng)把內(nèi)容爬下來之后, 如何提取出其中你需要的具體信息 。 網(wǎng)頁被抓取下來,通常就是 str 字符串類型的對象 ,要從里面尋找信息,最直接的想法就是直接通過字符串的 find 方法 ...
閱讀 804·2021-09-22 16:01
閱讀 2095·2021-08-20 09:37
閱讀 1700·2019-08-30 15:54
閱讀 1699·2019-08-30 15:44
閱讀 843·2019-08-28 18:23
閱讀 3021·2019-08-26 12:17
閱讀 1023·2019-08-26 11:56
閱讀 1546·2019-08-23 16:20