推薦十款java開源中文分詞組件

masturbator 發(fā)布于2019-08-15 10:37 / 2532人閱讀

摘要：最初，它是以開源項目為應(yīng)用主體的，結(jié)合詞典分詞和文法分析算法的中文分詞組件。填補了國內(nèi)中文分詞方面開源組件的空白，致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件。中文分詞追求分詞的高效率和用戶良好體驗。

1：Elasticsearch的開源中文分詞器 IK Analysis(Star:2471)

IK中文分詞器在Elasticsearch上的使用。原生IK中文分詞是從文件系統(tǒng)中讀取詞典，es-ik本身可擴展成從不同的源讀取詞典。目前提供從sqlite3數(shù)據(jù)庫中讀取。es-ik-plugin-sqlite3使用方法： 1. 在elasticsearch.yml中設(shè)置你的sqlite3詞典的位置： ik_analysis_db_path: /opt/ik/dictionary.db 我提供了默認的詞典：https:/...

2：開源的java中文分詞庫 IKAnalyzer(Star:343)

IK Analyzer 是一個開源的，基于java語言開發(fā)的輕量級的中文分詞工具包。從2006年12月推出1.0版開始， IKAnalyzer已經(jīng)推出了4個大版本。最初，它是以開源項目Luence為應(yīng)用主體的，結(jié)合詞典分詞和文法分析算法的中文分詞組件。從3.0版本開始，IK發(fā)展為面向Java的公用分詞組件，獨立于Lucene項目，同時提供了對Lucene的默認...

3：java開源中文分詞 Ansj(Star:3019)

Ansj中文分詞這是一個ictclas的java實現(xiàn).基本上重寫了所有的數(shù)據(jù)結(jié)構(gòu)和算法.詞典是用的開源版的ictclas所提供的.并且進行了部分的人工優(yōu)化內(nèi)存中中文分詞每秒鐘大約100萬字(速度上已經(jīng)超越ictclas) 文件讀取分詞每秒鐘大約30萬字準(zhǔn)確率能達到96%以上目前實現(xiàn)了.中文分詞. 中文姓名識別 . 用戶自定義詞典可以應(yīng)用到自...

4：結(jié)巴分詞 ElasticSearch 插件(Star:188)

elasticsearch官方只提供smartcn這個中文分詞插件，效果不是很好，好在國內(nèi)有medcl大神（國內(nèi)最早研究es的人之一）寫的兩個中文分詞插件，一個是ik的，一個是mmseg的

5：Java分布式中文分詞組件 - word分詞(Star:672)

word分詞是一個Java實現(xiàn)的分布式的中文分詞組件，提供了多種基于詞典的分詞算法，并利用ngram模型來消除歧義。能準(zhǔn)確識別英文、數(shù)字，以及日期、時間等數(shù)量詞，能識別人名、地名、組織機構(gòu)名等未登錄詞

6：Java開源中文分詞器jcseg(Star:400)

Jcseg是什么？ Jcseg是基于mmseg算法的一個輕量級開源中文分詞器，同時集成了關(guān)鍵字提取，關(guān)鍵短語提取，關(guān)鍵句子提取和文章自動摘要等功能，并且提供了最新版本的lucene, solr, elasticsearch的分詞接口， Jcseg自帶了一個 jcseg.properties文件...

7：中文分詞庫Paoding

庖丁中文分詞庫是一個使用Java開發(fā)的，可結(jié)合到Lucene應(yīng)用中的，為互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)使用的中文搜索引擎分詞組件。Paoding填補了國內(nèi)中文分詞方面開源組件的空白，致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件。 Paoding中文分詞追求分詞的高效率和用戶良好體驗。 Paoding...

8：中文分詞器mmseg4j

1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/... )實現(xiàn)的中文分詞器，并實現(xiàn) lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使...

9：中文分詞Ansj(Star:3015)

10：Lucene中文分詞庫ICTCLAS4J

ictclas4j中文分詞系統(tǒng)是sinboy在中科院張華平和劉群老師的研制的FreeICTCLAS的基礎(chǔ)上完成的一個java開源分詞項目，簡化了原分詞程序的復(fù)雜度，旨在為廣大的中文分詞愛好者一個更好的學(xué)習(xí)機會。

轉(zhuǎn)載至：http://www.cnblogs.com/zsuxio...

云服務(wù)器 GPU云服務(wù)器中文分詞 bosonnlp-中文分詞-自然語言處理 Android開源組件自動分詞 java

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/67251.html

發(fā)表評論

登陸后可評論

0條評論

masturbator

男|高級講師

我要關(guān)注我要私信

TA的文章

spinservers：達拉斯、圣何塞機房，雙E5–2630Lv3，16核/64G內(nèi)存/1.6 TB

閱讀 2949·2021-10-28 09:32
慕課版軟件質(zhì)量保證與測試(第一章.課后作業(yè))

閱讀 2980·2021-10-11 10:57
跨境外貿(mào)獨立站怎么做域名解析？

閱讀 3125·2021-10-08 10:05
C++類和對象（萬字總結(jié)）（建議收藏！！！）

閱讀 2606·2021-09-28 09:36
Font-face目前瀏覽器的兼容性

閱讀 2221·2019-08-30 15:55
前端面試每日3+1——第113天

閱讀 2276·2019-08-30 15:44
CSS知識點及技巧整理

閱讀 2401·2019-08-30 14:02
用Vue開發(fā)仿旅游站webapp項目總結(jié) （上）

閱讀 3082·2019-08-29 17:16

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

推薦十款java開源中文分詞組件

相關(guān)文章

分詞，難在哪里？科普+解決方案！

重磅 | 完備的 AI 學(xué)習(xí)路線，最詳細的資源整理！

發(fā)表評論

0條評論

masturbator

男|高級講師

TA的文章

spinservers：達拉斯、圣何塞機房，雙E5–2630Lv3，16核/64G內(nèi)存/1.6 TB

慕課版軟件質(zhì)量保證與測試(第一章.課后作業(yè))

跨境外貿(mào)獨立站怎么做域名解析？

C++類和對象（萬字總結(jié)）（建議收藏！！！）

Font-face目前瀏覽器的兼容性

前端面試每日3+1——第113天

CSS知識點及技巧整理

用Vue開發(fā)仿旅游站webapp項目總結(jié) （上）

最新活動