摘要:據小編簡單了解,已知對工作報告高頻詞匯進行梳理的媒體包括法制日報和新華網。高頻詞詞頻年以來政府工作報告中的提及總數發展經濟改革建設社會推進創新政策企業加強下面是新華網數據新聞部統計的高頻詞匯。
本文首發于微信公眾號號“編程派”。微信搜索“編程派”,獲取更多Python編程一手教程及優質資源吧。
上周六,總理在大會堂作政府工作報告,全球媒體矚目。每年都會有媒體對報告中的高頻詞匯進行梳理,我們也可以嘗試利用Python和分詞jieba來自己分析一下。
我們首先來看國內部分媒體的梳理結果。據小編簡單了解,已知對工作報告高頻詞匯進行梳理的媒體包括法制日報和新華網。
國內媒體梳理的高頻詞下面是法制日報公布的十大高頻詞。
高頻詞 | 詞頻 | 1978年以來政府工作報告中的提及總數 |
---|---|---|
發展 | 151 | 4828 |
經濟 | 90 | 4449 |
改革 | 74 | 2758 |
建設 | 71 | 3274 |
社會 | 66 | 3402 |
推進 | 61 | 1096 |
創新 | 61 | 414 |
政策 | 52 | 1231 |
企業 | 48 | 2304 |
加強 | 41 | 2238 |
下面是新華網數據新聞部統計的高頻詞匯。
新華網的信息圖其實有些含糊不清,有些詞頻不知道到底是2016年還是2015年的,但這里并不是我們關注的重點。
另外,新華網和法制日報得出的數據似乎有些出入,雖然并不大。那么,到底那家的數據是準確的呢?
接下來,我們就自己來計算一下報告中的高頻詞匯吧。
準備工作我們需要從網上爬取政府報告的全文,這里小編選擇中國政府網發布的報告頁面。為此,我們需要安裝requests和BeautifulSoup4這兩個常用第三方庫。
pip requests beautifulsoup
獲取了報告文本之后,接下來需要對文本進行分詞。我們選擇號稱“做最好的中文分詞組件”的jieba中文分詞庫。
pip install jieba
這里提示一下,這三個庫都支持Python 2和Python 3。但是在Python 2下,很容易就碰到編碼問題,最后打印出的中文無法正常顯示。因此,建議使用Python 3執行該腳本。
安裝好依賴包之后,我們在腳本analyze_report.py的頂部導入它們。
import jieba import requests from bs4 import BeautifulSoup文本提取
首先,我們從網上抓取政府工作報告的全文。我將這個步驟封裝在一個名叫extract_text的簡單函數中,接受url作為參數。因為目標頁面中報告的文本在所有的p元素中,所以我們只需要通過BeautifulSoup選中全部的p元素即可,最后返回一個包含了報告正文的字符串,簡單粗暴!
def extract_text(url): """Extract html content.""" page_source = requests.get(url).content bs_source = BeautifulSoup(page_source) report_text = bs_source.find_all("p") text = "" for p in report_text: text += p.get_text() text += " " return text利用jieba分詞,并計算詞頻
然后,我們就可以利用jieba進行分詞了。這里,我們要選擇全模式分詞。jieba的全模式分詞,即把句子中所有的可以成詞的詞語都掃描出來, 速度非??欤遣荒芙鉀Q歧義。之所以這么做,是因為默認的精確模式下,返回的詞頻數據不準確。
分詞時,還要注意去除標點符號,由于標點符號的長度都是1,所以我們添加一個len(word) >= 2的條件即可。
最后,我們就可以利用Counter類,將分詞后的列表快速地轉化為字典,其中的鍵值就是鍵的出現次數,也就是這個詞在全文中出現的次數啦。
def word_frequency(text): from collections import Counter words = [word for word in jieba.cut(text, cut_all=True) if len(word) >= 2] c = Counter(words) for word_freq in c.most_common(10): word, freq = word_freq print(word, freq)執行腳本
兩個函數都寫好之后,我們就可以愉快地執行啦。
url_2016 = "http://www.gov.cn/guowuyuan/2016-03/05/content_5049372.htm" text_2016 = extract_text(url_2016) word_frequency(text_2016)
最后的結果如下:
高頻詞 | 次數 |
---|---|
發展 | 152 |
經濟 | 90 |
改革 | 76 |
建設 | 71 |
社會 | 67 |
推進 | 62 |
創新 | 61 |
政策 | 54 |
企業 | 48 |
服務 | 44 |
## 小結
從上面的結果可以看出,新華網發布的高頻詞統計數據與我們自己的分析最為接近。當然,新華網的里面少了一個高頻詞:推進。
如果有朋友想要驗證結果的話,可以自己把報告全文復制到word里,然后查詢下相關的高頻詞即可,比如下面這樣:
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/37801.html
摘要:而自然語言處理被視為深度學習即將攻陷的下一個技術領域,在今年全球較高級的學術會議上,我們也看到大量的在深度學習引入方面的探索研究。和也是近幾年暫露頭角的青年學者,尤其是在將深度學習應用于領域做了不少創新的研究。 深度學習的出現讓很多人工智能相關技術取得了大幅度的進展,比如語音識別已經逼近臨界點,即將達到Game Changer水平;機器視覺也已經在安防、機器人、自動駕駛等多個領域得到應用。 ...
摘要:中試牛刀我們這里有一張祖國地圖,是否可以定制生成一個祖國版圖樣式的詞云圖呢答案是肯定的,只因為太強大,實現思路直接看代碼。 showImg(https://segmentfault.com/img/remote/1460000018757943?w=1280&h=640);Overview:0 引言1 環境2 模塊準備3 實現思路4 小試牛刀5 中試牛刀6 總結 0 引言 詞云圖,也叫...
摘要:本文轉載自微信公眾號賬號,作者為海航生態科技技術研究院大數據開發工程師高顏。文章介紹了海航生態科技輿情大數據平臺的容器化改造經驗,包括初期技術架構應用容器化架構遷移持續發布與部署。 本文轉載自微信公眾號Docker(賬號:dockerone),作者為海航生態科技技術研究院大數據開發工程師高顏。 文章介紹了海航生態科技輿情大數據平臺的容器化改造經驗,包括初期技術架構、應用容器化、架構遷...
摘要:表示學習和深度學習的興起是密切相關。自然語言處理中的深度學習在自然語言的表示學習中提及深度學習這是因為深度學習首要的用處就是進行自然語言的表示。圖是深度學習在自然語言理解中應用描述。 本文根據達觀數據特聘專家復旦大學黃萱菁教授在達觀數據舉辦的長三角人工智能應用創新張江峰會上的演講整理而成,達觀數據副總裁魏芳博士統稿 一、概念 1 什么是自然語言和自然語言理解? 自然語言是指漢語、英語、...
閱讀 863·2021-11-24 09:38
閱讀 1096·2021-10-08 10:05
閱讀 2587·2021-09-10 11:21
閱讀 2809·2019-08-30 15:53
閱讀 1834·2019-08-30 15:52
閱讀 1973·2019-08-29 12:17
閱讀 3423·2019-08-29 11:21
閱讀 1616·2019-08-26 12:17