NLP 開源形近字算法補完計劃（完結篇）

番茄西紅柿發布于2021-11-26 11:11 / 3192人閱讀

摘要：本文將作為漢字相似度的完結篇，為該系列畫上一個句號。起中文形近字相似度計算思路承中文形近字相似度算法實現，為漢字盡一點綿薄之力轉當代中國最貴的漢字是什么不足之處之所以有本篇，是因為上一次的算法實現存在一些不足。

前言

所有的故事都有開始，也終將結束。

本文將作為 NLP 漢字相似度的完結篇，為該系列畫上一個句號。

起-NLP 中文形近字相似度計算思路

承-中文形近字相似度算法實現，為漢字 NLP 盡一點綿薄之力

轉-當代中國最貴的漢字是什么？

不足之處

之所以有本篇，是因為上一次的算法實現存在一些不足。

巴別塔

《圣經》中有關于巴別塔建造，最終人們因為語言問題而停工的故事?。

創11:6　“看哪！他們成為一樣的人民，都是一樣的言語，如今既作起這事來，以后他們所要作的事，就沒有不成就的了。創11:7　我們下去，在那里變亂他們的口音，使他們的言語彼此不通。”創11:8　于是，耶和華使他們從那里分散在全地上；他們就停工不造那城了。

為了避免語言問題，我一開始就實現了一個 exe4j 打包的對比程序，自己跑的很順暢。

小伙伴一跑，運行失敗。各種環境配置一頓操作，最后還是報錯。

于是，我寫了一個 python 簡易版本，便于做 NLP 研究的小伙伴們學習。

https://github.com/houbb/nlp-hanzi-similar/releases/tag/pythn

java 是一種語言，python 是一種語言。

編程語言，讓人和機器之間可以溝通，卻讓人與人之間產生了隔閡。

拆字

在當代中國最貴的漢字是什么？一文中，我們首次說明了漢字的拆合。

漢字的拆分實現，核心目的之一就是為了完善漢字的相似度比較。

通過對比漢字的拆分部分，然后獲取拆字的相似度，提高對比的準確性。

拆字相似度

簡單的需求

為了便于小伙伴們理解，我們用產品經理的思維和大家介紹一下實現方式。

我的需求比較簡單。你看，【明】可以拆分【日】【月】，【冐】也可以拆分為【日】【月】。對比一下，結果是顯然的。怎么實現我不管，明天上線吧。

小伙伴們，應該已經知道怎么實現了吧？

使用體驗

誠如產品所言，這個需求已經實現。

maven 引入

    com.github.houbb    nlp-hanzi-similar    1.2.0

使用

double rate1 = HanziSimilarHelper.similar(末, 未);

對應的結果為：0.9696969696969697

更多使用細節，參考開源地址：

https://github.com/houbb/nlp-hanzi-similar

寫在完結前

涉及的項目

漢字的相似度計算到這里算是告一段落。

主要涉及的資料及項目有：

當然，還可以結果 opencc4j 進行繁簡體的處理，此處不再延伸。

之后的計劃

NLP 的領域還有很多東西需要大家攻克，畢竟中文 NLP 才剛剛開始。

技術尚未成功，同志仍需努力。

據說最近鵝城的某位黃老爺惹得大家怨聲載道。

很多小伙伴說，如果有一款軟件可以實現【月丷夫馬言卂彳山兀攴人言】的溝通功能，那么我肯定會用。

所謂說者無心，聽者有意。

寫一個通訊軟件，主要是為了鞏固下 netty 的學習，其他的都不重要。

雖然知道就算有，大家肯定也不太會改變，但是老馬還是準備試試。

java 實現思路

警告，如果你頭發已經所剩無幾，或者對實現并不感興趣。

那么就可以收藏+點贊+評論【不明覺厲】，然后離開了。

下面是枯燥的代碼實現環節。

程序員的思維

下面是程序員的思維。

首先要解決幾個問題：

（1）漢字的拆分實現

這個直接復用已經實現的漢字拆分實現。

List stringList = ChaiziHelper.chai(charWord.charAt(0));

相同的一個漢字可以有多種拆分方式，簡單起見，我們默認取第一個。

（2）相似的比較

假設我們對比 A B 兩個漢字，可以拆分為如下的子集。

A = {A1, A2, ..., Am}

B = {B1, B2, ..., Bm}

/** * 獲取拆分后對應的拆分字符 * @param charWord 字符 * @return 結果 */private char[] getSplitChars(String charWord) {    List stringList = ChaiziHelper.chai(charWord.charAt(0));    // 這里應該選擇哪一個是有講究的。此處為了簡單，默認選擇第一個。    String string = stringList.get(0);    return string.toCharArray();}

拆分后的子集對比有多種實現方式，簡單起見，我們直接遍歷元素，判斷另一個子集是否存在。

當然，遍歷的時候要以拆分數量較少的的為基準。

int minLen = Math.min(charsOne.length, charsTwo.length);// 比較double totalScore = 0.0;for(int i = 0; i <  minLen; i++) {    char iChar = charsOne[i];    String textChar = iChar+"";    if(ArrayPrimitiveUtil.contains(charsTwo, iChar)) {        //累加分數    }}

（3）拆分子集的權重

比如 一 月 兩個漢字都是子集，但是因為筆畫數不同，權重也不同。

我們用一個子集的筆畫數占整體漢字的筆畫數計算權重。

 int textNumber = getNumber(textChar, similarContext);double scoreOne = textNumber*1.0 / numberOne * 1.0;double scoreTwo = textNumber*1.0 / numberTwo * 1.0;totalScore += (scoreOne + scoreTwo) / 2.0;

ps: 這里的除以 2,是為了歸一化。保證最后的結果在 0-1 之間。

（4）筆畫數

獲取筆畫數的方式，我們可以直接復用以前的方法。

如果沒有匹配的，默認筆畫數為 1。

private int getNumber(String text, IHanziSimilarContext similarContext) {    Map map = similarContext.bihuashuData().dataMap();    Integer number = map.get(text);    if(number == null) {        return 1;    }    return number;}

java 完整實現

我們把所有的碎片拼接起來，就得到一個完整的實現。

/** * 拆字 * * @author 老馬嘯西風 * @since 1.0.0 */public class ChaiziSimilar implements IHanziSimilar {    @Override    public double similar(IHanziSimilarContext similarContext) {        String hanziOne = similarContext.charOne();        String hanziTwo = similarContext.charTwo();        int numberOne = getNumber(hanziOne, similarContext);        int numberTwo = getNumber(hanziTwo, similarContext);        // 拆分        char[] charsOne = getSplitChars(hanziOne);        char[] charsTwo = getSplitChars(hanziTwo);        int minLen = Math.min(charsOne.length, charsTwo.length);        // 比較        double totalScore = 0.0;        for(int i = 0; i <  minLen; i++) {            char iChar = charsOne[i];            String textChar = iChar+"";            if(ArrayPrimitiveUtil.contains(charsTwo, iChar)) {                int textNumber = getNumber(textChar, similarContext);                double scoreOne = textNumber*1.0 / numberOne * 1.0;                double scoreTwo = textNumber*1.0 / numberTwo * 1.0;                totalScore += (scoreOne + scoreTwo) / 2.0;            }        }        return totalScore * similarContext.chaiziRate();    }    /**     * 獲取拆分后對應的拆分字符     * @param charWord 字符     * @return 結果     */    private char[] getSplitChars(String charWord) {        List stringList = ChaiziHelper.chai(charWord.charAt(0));        // 這里應該選擇哪一個是有講究的。此處為了簡單，默認選擇第一個。        String string = stringList.get(0);        return string.toCharArray();    }    /**     * 獲取筆畫數     * @param text 文本     * @param similarContext 上下文     * @return 結果     */    private int getNumber(String text, IHanziSimilarContext similarContext) {        Map map = similarContext.bihuashuData().dataMap();        Integer number = map.get(text);        if(number == null) {            return 1;        }        return number;    }}

小結

本文引入了漢字拆字，進一步豐富了相似度的實現。

當然，實現本身依然有很多值得提升的地方，比如拆分后的選擇，是否可以遞歸拆分等，這個還是留給后人研究吧。

我是老馬，期待與你的下次重逢。

云服務器 GPU云服務器完結篇 webrtc nlp算法開源語音識別算法圖像識別算法開源

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/125244.html

如何通過人工智能“避開”內容安全的“坑”？

摘要：人工智能技術的初步應用隨著網絡強國戰略思想加強網絡內容建設等指導思想的推出和強化，內容安全已經成為互聯網企業生存和發展的生命線。歡迎訪問網易云社區，了解更多網易技術產品運營經驗。 10月16日，2018年 AIIA人工智能開發者大會在蘇州舉辦。會議邀請了國內外人工智能產業知名人物、國家政府主管部門、行業內頂尖企業、知名學者代表、開源社區優秀貢獻團隊及個人，共同交流了技術現狀趨勢、生態...

_DangJin 2019-06-28 10:59 評論0 收藏0
分享AI有道干貨 | 126 篇 AI 原創文章精選（ML、DL、資源、教程）

摘要：值得一提的是每篇文章都是我用心整理的，編者一貫堅持使用通俗形象的語言給我的讀者朋友們講解機器學習深度學習的各個知識點。今天，紅色石頭特此將以前所有的原創文章整理出來，組成一個比較合理完整的機器學習深度學習的學習路線圖，希望能夠幫助到大家。一年多來，公眾號【AI有道】已經發布了 140+ 的原創文章了。內容涉及林軒田機器學習課程筆記、吳恩達 deeplearning.ai 課程筆記、機...

jimhs 2019-06-26 18:57 評論0 收藏0
敏捷AI｜NLP技術在宜信業務中的實踐「構建用戶畫像篇」

摘要：導讀前面兩篇我們介紹了技術在宜信應用的背景敏捷技術在宜信業務中的實踐背景篇，以及應用場景之一敏捷技術在宜信業務中的實踐智能聊天機器人篇。這就是我們實現的一個實時用戶畫像處理流程。導讀：前面兩篇我們介紹了NLP技術在宜信應用的背景《敏捷AI | NLP技術在宜信業務中的實踐【背景篇】》，以及應用場景之一《敏捷AI | NLP技術在宜信業務中的實踐【智能聊天機器人篇】》。本篇為另一個場...

djfml 2019-06-26 18:46 評論0 收藏0
重磅 | 完備的 AI 學習路線，最詳細的資源整理！

摘要：是你學習從入門到專家必備的學習路線和優質學習資源。的數學基礎最主要是高等數學線性代數概率論與數理統計三門課程，這三門課程是本科必修的。其作為機器學習的入門和進階資料非常適合。書籍介紹深度學習通常又被稱為花書，深度學習領域最經典的暢銷書。 showImg(https://segmentfault.com/img/remote/1460000019011569); 【導讀】本文由知名開源平...

荊兆峰 2019-06-26 18:54 評論0 收藏0
PHP函數補完計劃：數組排序 array_reduce（）

摘要：這里的第三個參數設定了個空數組，所以它不僅作為第一個傳入自定義函數的值，也會作為的返回值給我們想要的結果以上代碼最終的返回值為原文之前在segmentfault里提了個問題有個數組，讓紅框里的鍵值連續0123456789而不是每次都重新0123，0123 想道用array_merge重新整合但是不知道循環該怎么寫 showImg(http://segmentfault.com/i...

why_rookie 2019-06-27 10:51 評論0 收藏0

發表評論

登陸后可評論

0條評論

番茄西紅柿

男|高級講師

我要關注我要私信

TA的文章

tensor

閱讀 730·2023-04-25 19:43
Windows 下安裝 XGBoost

閱讀 3974·2021-11-30 14:52
Hadoop 2.6.0 啟動問題 lib/native/libhadoop.so which mi

閱讀 3801·2021-11-30 14:52
VmShell：黑五美國VPS,免費先開通測試,滿意后付款!支持tiktok美區

閱讀 3865·2021-11-29 11:00
百度智能云：云產品特惠福利,1核2G輕量應用服務器僅48元/年

閱讀 3796·2021-11-29 11:00
Linux系統和寶塔面板如何啟用禁ping功能?

閱讀 3894·2021-11-29 11:00
301重定向怎么做?301重定向設置方法有幾種

閱讀 3571·2021-11-29 11:00
wordpress網站重定向次數過多的解決方法

閱讀 6154·2021-11-29 11:00

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

NLP 開源形近字算法補完計劃（完結篇）

前言

不足之處

巴別塔

拆字

拆字相似度

簡單的需求

使用體驗

maven 引入

使用

寫在完結前

涉及的項目

之后的計劃

java 實現思路

程序員的思維

java 完整實現

小結

相關文章

如何通過人工智能“避開”內容安全的“坑”？

分享AI有道干貨 | 126 篇 AI 原創文章精選（ML、DL、資源、教程）

**敏捷AI｜NLP技術在宜信業務中的實踐「構建用戶畫像篇」**

重磅 | 完備的 AI 學習路線，最詳細的資源整理！

PHP函數補完計劃：數組排序 array_reduce（）

發表評論

0條評論

番茄西紅柿

男|高級講師

TA的文章

tensor

Windows 下安裝 XGBoost

Hadoop 2.6.0 啟動問題 lib/native/libhadoop.so which mi

VmShell：黑五美國VPS,免費先開通測試,滿意后付款!支持tiktok美區

百度智能云：云產品特惠福利,1核2G輕量應用服務器僅48元/年

Linux系統和寶塔面板如何啟用禁ping功能?

301重定向怎么做?301重定向設置方法有幾種

wordpress網站重定向次數過多的解決方法

最新活動