国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

python 生成18年寫過的博客詞云

xi4oh4o / 377人閱讀

摘要:處理文件最終得到的字符串得到所有的文本之后,使用結巴分詞,處理成單個的詞語。

文章鏈接:https://mp.weixin.qq.com/s/NmJjTEADV6zKdT--2DXq9Q

回看18年,最有成就的就是有了自己的 博客網站,堅持記錄,寫文章,累計寫了36篇了,從一開始的難以下手,到現在成為一種習慣,雖然每次寫都會一字一句斟酌,但是每次看到產出,內心還是開心的,享受這樣的過程。

這篇文章就是用python 生成自己寫的博客詞云,平常寫的博客都是markdown 格式的,直接把文件傳到后臺,前端用js去解析文件顯示的,所以我這里處理數據就不需要去爬蟲網站,直接讀文件處理的。

關于生成詞云圖的,在另外兩篇文章中也有介紹過:
[python itchat 爬取微信好友信息,生成詞云
](https://mp.weixin.qq.com/s/4E...
python爬蟲學習:爬蟲QQ說說并生成詞云圖

markdown文件處理,遍歷文件夾,匹配md 后綴的文件,讀文件,這里的root 是文件夾的絕對路徑。

import os
total = ""
file_list = os.listdir(root)
for file in file_list:
    //處理md文件
    if os.path.splitext(file)[1] == ".md":
        path = os.path.join(root,file)
        text = open(path, encoding="utf-8").read()
        //最終得到的字符串
        total = total + "
" + text

得到所有的文本之后,使用結巴分詞 pip3 install jieba,處理成單個的詞語。

import jieba
wordlist = jieba.cut(total, cut_all=True)
wl = " ".join(wordlist)

因為平常寫的文章里有很多的代碼,這里可以正則只留下中文,然后再處理中文字符。

import re
rec = re.compile("[^u4E00-u9FA5]")
total = rec.sub("", total)
wordlist = jieba.cut(total, cut_all=True)
wl = " ".join(wordlist)

最后就是生成詞云,采用WordCloud的庫

wc = WordCloud(
    # 設置背景顏色
    background_color="white",
    # 設置最大顯示的詞云數
    max_words=1000,
    # 這種字體都在電腦字體中,window在C:WindowsFonts下,mac下的是/System/Library/Fonts/PingFang.ttc 字體
    font_path="C:WindowsFontsSTFANGSO.ttf",
    height=2000,
    width=2000,
    # 設置字體最大值
    max_font_size=250,
    # 設置有多少種隨機生成狀態,即有多少種配色方案
    random_state=30,
)
myword = wc.generate(wl)  # 生成詞云
# 展示詞云圖
plt.imshow(myword)
plt.axis("off")
wc.to_file("blog.png")  # 保存圖片
plt.ion()
plt.pause(5)
plt.close()  # 圖片顯示5s,之后關閉

最終的結果顯示圖,除去代碼之后,看這些詞,不少還是跟android相關的,也是平常經常會提到的詞匯。

歡迎關注我的個人博客:https://www.manjiexiang.cn/

更多精彩歡迎關注微信號:春風十里不如認識你
一起學習,一起進步,歡迎上車,有問題隨時聯系,一起解決!!!

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/43010.html

相關文章

  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0
  • Python生成歌詞詞云

    摘要:上面是生成詞云的方法封裝,還有一些其他方法根據詞頻生成詞云根據文本生成詞云根據詞頻生成詞云根據文本生成詞云將長文本分詞并去除屏蔽詞此處指英語,中文分詞還是需要自己用別的庫先行實現,使用上面的對現有輸出重新著色。 對于數據展示這一塊有時候會用到詞云,python中提供的wordcloud模塊可以很靈活的完成生成詞云除了使用python提供的wordcloud模塊以為還有在線的生成方式ht...

    junbaor 評論0 收藏0
  • python使用jieba進行中文分詞wordcloud制作詞云

    摘要:準備工作抓取數據存到文檔中,了解問題分詞分的不太準確,比如機器學習會被切成機器和學習兩個詞,使用自定義詞典,原本的想法是只切出自定義詞典里的詞,但實際上不行,所以首先根據分詞結果提取出高頻詞并自行添加部分詞作為詞典,切詞完畢只統計自定義詞典 準備工作 抓取數據存到txt文檔中,了解jieba 問題 jieba分詞分的不太準確,比如機器學習會被切成機器和學習兩個詞,使用自定義詞典,原本...

    yvonne 評論0 收藏0
  • Python pyecharts如何繪制云圖呢?下面就給大家詳解解答

      Python pyecharts作為常用的數據可視化軟件,能夠清晰的將海量的數據,去做一個拆分,要是更直觀的去查看數據圖表的話,就需要去制作云圖了?那么,怎么制作云圖呢?下面就給大家詳細的做個解答。  詞云圖  什么是詞云圖,相信大家肯定不會感到陌生,一本書統計里面出現的詞頻,然后可視化展示,讓讀者快速的了解這個主題綱要,這就是詞云的直接效果。  詞云圖系列模板  固定模式詞云圖  修改一些參...

    89542767 評論0 收藏0
  • python玩微信(聊天機器人,好友信息統計)

    摘要:用實現微信好友性別及位置信息統計這里使用的庫開發。使用圖靈機器人自動與指定好友聊天讓室友幫忙測試發現發送表情發送文字還能回應,但是發送圖片可能不會回復,猜應該是我們申請的圖靈機器人是最初級的沒有加圖片識別功能。 1.用 Python 實現微信好友性別及位置信息統計 這里使用的python3+wxpy庫+Anaconda(Spyder)開發。如果你想對wxpy有更深的了解請查看:wxpy...

    Youngs 評論0 收藏0

發表評論

0條評論

xi4oh4o

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<