摘要:今天學習如何使用斯坦福來進行情感分析。從官方網站下載斯坦福包。啟用使用來進行依賴注入。情感分析器創建了一個叫的類,這個類就是對某一條推文進行情感分析的。然后對每一個搜索條件找到對應的推文,并做情感分析。最后將返回結果列表給用戶。
編者注:我們發現了有趣的系列文章《30天學習30種新技術》,正在翻譯,一天一篇更新,年終禮包。下面是第 20 天的內容。
今天學習如何使用斯坦福CoreNLP Java API來進行情感分析(sentiment analysis)。前幾天,我還寫了一篇關于如何使用TextBlob API在Python里做情感分析,我已經開發了一個應用程序,會篩選出給定關鍵詞的推文(tweets)的情感,現在看看它能做什么。
應用該演示應用程序在OpenShift http://sentiments-t20.rhcloud.com/ 運行,它有兩個功能:
第一個功能是,如果你給定Twitter搜索條件的列表會,它會顯示最近20推關于給定的搜索詞的情緒。必須要勾選下圖所示的復選框來啟用此功能,(情感)積極的推文將顯示綠色,而消極的推文是紅色的。
第二個功能是做一些文字上的情感分析,如下圖
斯坦福CoreNLP是一個Java自然語言分析庫,它集成了所有的自然語言處理工具,包括詞性的終端(POS)標注器,命名實體識別(NER),分析器,對指代消解系統,以及情感分析工具,并提供英語分析的模型文件。
準備基本的Java知識是必需的,安裝最新的Java開發工具包(JDK ),可以是OpenJDK 7或Oracle JDK 7。
從官方網站下載斯坦福CoreNLP包。
注冊一個OpenShift帳戶,它是完全免費的,可以分配給每個用戶1.5 GB的內存和3 GB的磁盤空間。
安裝RHC客戶端工具,需要有ruby 1.8.7或更新的版本,如果已經有ruby gem,輸入 sudo gem install rhc ,確保它是最新版本。要更新RHC的話,執行命令 sudo gem update rhc,如需其他協助安裝RHC命令行工具,請參閱該頁面: https://www.openshift.com/developers/rhc-client-tools-install
通過 rhc setup 命令設置您的OpenShift帳戶,此命令將幫助你創建一個命名空間,并上傳你的SSH keys到OpenShift服務器。
Github倉庫今天的演示應用程序的代碼可以在GitHub找到:day20-stanford-sentiment-analysis-demo
開始創建應用程序,名稱為sentimentsapp。
$ rhc create-app sentimentsapp jbosseap --from-code=https://github.com/shekhargulati/day20-stanford-sentiment-analysis-demo.git
還可以使用如下指令:
$ rhc create-app sentimentsapp jbosseap -g medium --from-code=https://github.com/shekhargulati/day20-stanford-sentiment-analysis-demo.git
這將為應用程序創建一個容器,設置所有需要的SELinux政策和cgroup的配置,OpenShift也將創建一個私人git倉庫并克隆到本地。然后,它會復制版本庫到本地系統。最后,OpenShift會給外界提供一個DNS,該應用程序將在http://newsapp-{domain-name}.rhcloud.com/ 下可以訪問(將 domain-name 更換為自己的域名)。
該應用程序還需要對應Twitter應用程序的4個環境變量,通過去https://dev.twitter.com/apps/new 創建一個新的Twitter應用程序,然后創建如下所示的4個環境變量。
$ rhc env set TWITTER_OAUTH_ACCESS_TOKEN=-a sentimentsapp $ rhc env set TWITTER_OAUTH_ACCESS_TOKEN_SECRET= -a sentimentsapp $rhc env set TWITTER_OAUTH_CONSUMER_KEY= -a sentimentsapp $rhc env set TWITTER_OAUTH_CONSUMER_SECRET= -a sentimentsapp
重新啟動應用程序,以確保服務器可以讀取環境變量。
$ rhc restart-app --app sentimentsapp
開始在pom.xml中為stanford-corenlp和twitter4j增加Maven的依賴關系,使用3.3.0版本斯坦福corenlp作為情感分析的API。
edu.stanford.nlp stanford-corenlp 3.3.0 org.twitter4j twitter4j-core [3.0,)
該twitter4j依賴關系需要Twitter搜索。
通過更新 pom.xml 文件里的幾個特性將Maven項目更新到Java 7:
1.7 1.7
現在就可以更新Maven項目了(右鍵單擊>Maven>更新項目)。
啟用CDI使用CDI來進行依賴注入。CDI、上下文和依賴注入是一個Java EE 6規范,能夠使依賴注入在Java EE 6的項目中。
在 src/main/webapp/WEB-INF 文件夾下建一個名為beans.xml中一個新的XML文件,啟動CDI
搜索Twitter的關鍵字
創建了一個新的類TwitterSearch,它使用Twitter4J API來搜索Twitter關鍵字。該API需要的Twitter應用程序配置參數,使用的環境變量得到這個值,而不是硬編碼。
import java.util.Collections; import java.util.List; import twitter4j.Query; import twitter4j.QueryResult; import twitter4j.Status; import twitter4j.Twitter; import twitter4j.TwitterException; import twitter4j.TwitterFactory; import twitter4j.conf.ConfigurationBuilder; public class TwitterSearch { public Listsearch(String keyword) { ConfigurationBuilder cb = new ConfigurationBuilder(); cb.setDebugEnabled(true).setOAuthConsumerKey(System.getenv("TWITTER_OAUTH_CONSUMER_KEY")) .setOAuthConsumerSecret(System.getenv("TWITTER_OAUTH_CONSUMER_SECRET")) .setOAuthAccessToken(System.getenv("TWITTER_OAUTH_ACCESS_TOKEN")) .setOAuthAccessTokenSecret(System.getenv("TWITTER_OAUTH_ACCESS_TOKEN_SECRET")); TwitterFactory tf = new TwitterFactory(cb.build()); Twitter twitter = tf.getInstance(); Query query = new Query(keyword + " -filter:retweets -filter:links -filter:replies -filter:images"); query.setCount(20); query.setLocale("en"); query.setLang("en");; try { QueryResult queryResult = twitter.search(query); return queryResult.getTweets(); } catch (TwitterException e) { // ignore e.printStackTrace(); } return Collections.emptyList(); } }
在上面的代碼中,篩選了Twitter的搜索結果,以確保沒有轉推(retweet)、或帶鏈接的推文、或有圖片的推文,這樣做的原因是為了確保我們得到的是有文字的推。
情感分析器(SentimentAnalyzer)創建了一個叫SentimentAnalyzer的類,這個類就是對某一條推文進行情感分析的。
public class SentimentAnalyzer { public TweetWithSentiment findSentiment(String line) { Properties props = new Properties(); props.setProperty("annotators", "tokenize, ssplit, parse, sentiment"); StanfordCoreNLP pipeline = new StanfordCoreNLP(props); int mainSentiment = 0; if (line != null && line.length() > 0) { int longest = 0; Annotation annotation = pipeline.process(line); for (CoreMap sentence : annotation.get(CoreAnnotations.SentencesAnnotation.class)) { Tree tree = sentence.get(SentimentCoreAnnotations.AnnotatedTree.class); int sentiment = RNNCoreAnnotations.getPredictedClass(tree); String partText = sentence.toString(); if (partText.length() > longest) { mainSentiment = sentiment; longest = partText.length(); } } } if (mainSentiment == 2 || mainSentiment > 4 || mainSentiment < 0) { return null; } TweetWithSentiment tweetWithSentiment = new TweetWithSentiment(line, toCss(mainSentiment)); return tweetWithSentiment; } }
復制 englishPCFG.ser.gz 和 sentiment.ser.gz 模型到src/main/resources/edu/stanford/nlp/models/lexparser 和src/main/resources/edu/stanford/nlp/models/sentiment 文件夾下。
創建SentimentsResource最后,創建了JAX-RS資源類。
public class SentimentsResource { @Inject private SentimentAnalyzer sentimentAnalyzer; @Inject private TwitterSearch twitterSearch; @GET @Produces(value = MediaType.APPLICATION_JSON) public Listsentiments(@QueryParam("searchKeywords") String searchKeywords) { List results = new ArrayList<>(); if (searchKeywords == null || searchKeywords.length() == 0) { return results; } Set keywords = new HashSet<>(); for (String keyword : searchKeywords.split(",")) { keywords.add(keyword.trim().toLowerCase()); } if (keywords.size() > 3) { keywords = new HashSet<>(new ArrayList<>(keywords).subList(0, 3)); } for (String keyword : keywords) { List statuses = twitterSearch.search(keyword); System.out.println("Found statuses ... " + statuses.size()); List sentiments = new ArrayList<>(); for (Status status : statuses) { TweetWithSentiment tweetWithSentiment = sentimentAnalyzer.findSentiment(status.getText()); if (tweetWithSentiment != null) { sentiments.add(tweetWithSentiment); } } Result result = new Result(keyword, sentiments); results.add(result); } return results; } }
上述代碼執行以下操作:
檢查搜索關鍵字(searchkeywords)是否“不是無效且不為空”,然后將其拆分到一個數組里,只考慮三個搜索條件。
然后對每一個搜索條件找到對應的推文,并做情感分析。
最后將返回結果列表給用戶。
今天就是這些,歡迎反饋。
原文 Day 20: Stanford CoreNLP--Performing Sentiment Analysis of Twitter using Java
翻譯整理 SegmentFault
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/64009.html
摘要:日期和時間處理日期和時間的函數庫。使用中可觀察序列,創建異步基于事件應用程序的函數庫。為分布式系統提供延遲和容錯處理。發布使用本機格式分發應用程序的工具。將程序資源和打包成和的本機文件。圖像處理用來幫助創建評估或操作圖形的函數庫。 好資源要分享原文 譯者 唐尤華 翻譯自 github akullpp 構建 這里搜集了用來構建應用程序的工具。 Apache Maven:Mave...
摘要:同時推薦閱讀由,和提供的深度學習教程,其中介紹略少一些。自然語言處理的深度學習,另一個斯坦福大學的學者的創始人也是一個很好的課程,可以解決與相關的所有最新的深入學習研究。 如果您具有數學和計算機科學方面的工程背景或相關知識的編碼經驗,只需兩個月即可熟練掌握深度學習。 難以置信? 四步使它成為可能。 欲了解更多,請往下看 Step 1: 學習機器學習基礎 (可選,但強烈推薦) 開始于An...
摘要:導讀工程師可用使用很多工具庫來進行自然語言處理,比如等等,在這么多選擇中,也許是所有人的推薦。版的終于發布了,它是世界上最快的自然語言處理庫。在本文中,我們將使用,因為它是更受歡迎的深度學習庫。 導讀:工程師可用使用很多工具庫來進行自然語言處理,比如 NLTK/CoreNLP/OpenNLP/Rosette/OpenIE 等等,在這么多選擇中,spaCy 也許是所有人的推薦。1.0 版的 s...
閱讀 2029·2023-04-25 22:50
閱讀 2842·2021-09-29 09:35
閱讀 3395·2021-07-29 10:20
閱讀 3168·2019-08-29 13:57
閱讀 3366·2019-08-29 13:50
閱讀 3041·2019-08-26 12:10
閱讀 3536·2019-08-23 18:41
閱讀 2642·2019-08-23 18:01