国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

LibShortText簡(jiǎn)要入門(mén)

hearaway / 569人閱讀

摘要:是一個(gè)開(kāi)源的短文本包括標(biāo)題短信問(wèn)題句子等分類(lèi)工具包。又比如,選擇被誤分的樣本,調(diào)用輸出和的混淆表格,以了解哪些類(lèi)別的特征界限比較模糊。終端輸出如下第一行表示預(yù)測(cè)類(lèi)別,第一列表示真實(shí)類(lèi)別完整請(qǐng)見(jiàn)。

LibShortText是一個(gè)開(kāi)源的Python短文本(包括標(biāo)題、短信、問(wèn)題、句子等)分類(lèi)工具包。它在LibLinear的基礎(chǔ)上針對(duì)短文本進(jìn)一步優(yōu)化,主要特性有:
- 支持多分類(lèi)
- 直接輸入文本,無(wú)需做特征向量化的預(yù)處理
- 二元分詞(Bigram),不去停頓詞,不做詞性過(guò)濾
- 基于線(xiàn)性核SVM分類(lèi)器(參見(jiàn)SVM原理簡(jiǎn)介:最大間隔分類(lèi)器),訓(xùn)練和測(cè)試的效率極高
- 提供了完整的API,用于特征分析和Bad Case檢驗(yàn)

安裝

下載并在解壓后的目錄下make就OK了。
注意:不支持Windows系統(tǒng);Mac OS和Linux之間的庫(kù)不通用

性能對(duì)比

關(guān)于LibShortText的性能,我們可以拿scikit-learn的樸素貝葉斯(參見(jiàn)用scikit-learn實(shí)現(xiàn)樸素貝葉斯分類(lèi)器)和SVM(也是基于LibLinear)就前文提到的網(wǎng)頁(yè)標(biāo)題分類(lèi)問(wèn)題進(jìn)行橫向?qū)Ρ龋?/p>

分類(lèi)器 準(zhǔn)確率 計(jì)算時(shí)間(秒)
scikit-learn(nb) 76.8% 134
scikit-learn(svm) 76.9% 121
libshorttext 79.6% 49

測(cè)試環(huán)境為低配版MBA2013

顯然LibShortText無(wú)論在準(zhǔn)確率和效率上都要更勝一籌。

API說(shuō)明

雖然LibShortText提供了訓(xùn)練和測(cè)試的類(lèi)命令行操作方式,但直接從Python腳本調(diào)用更加靈活和強(qiáng)大,了解和訓(xùn)練、預(yù)測(cè)和分析相關(guān)的API是有幫助的。

預(yù)處理

Converter模塊負(fù)責(zé)將文本轉(zhuǎn)化為數(shù)值化的數(shù)據(jù)集(數(shù)據(jù)格式與LibSVM相同),由于內(nèi)置的分詞器僅支持英文,如果要用于中文短文本的分類(lèi),就必須替換分詞器(如下代碼所示)。分詞器是一個(gè)將文本轉(zhuǎn)化為單詞列表的函數(shù),值得注意的是:分詞器不會(huì)和模型一起保存,當(dāng)重載模型時(shí)也必須重載分詞器。

pythonfrom libshorttext.libshorttext.converter import *

text_converter = Text2svmConverter()
text_converter.text_prep.tokenizer = comma_tokenizer
convert_text(train_file, text_converter, svm_file)

訓(xùn)練文本的格式如下:

  

娛樂(lè) 組圖:劉亦菲短裙秀腿 濃妝變冷艷時(shí)髦女

模型

LibShortText提供兩組參數(shù)供訓(xùn)練時(shí)使用:
- train_arguments實(shí)際上是LibLinear的訓(xùn)練參數(shù),可設(shè)定松弛參數(shù)C等
- feature_arguments是特征的表現(xiàn)形式,如詞數(shù)、詞頻、TF-IDF等

預(yù)測(cè)

獲得模型后,我們可以預(yù)測(cè)新文本的類(lèi)別,LibShortText提供了兩個(gè)API:

predict_text(text_file, model) -- 針對(duì)以行分隔的測(cè)試文本

predict_single_text(single_text, model) -- 針對(duì)單條文本

類(lèi)別預(yù)測(cè)將返回一個(gè)PredictResult的對(duì)象,包含下列屬性:

predicted_y -- 預(yù)測(cè)的類(lèi)別(對(duì)單條文本預(yù)測(cè)時(shí)是字符串對(duì)象,對(duì)測(cè)試文本預(yù)測(cè)時(shí)是列表對(duì)象

decvals -- 被預(yù)測(cè)文本對(duì)所有類(lèi)別的決策變量,與文本到分類(lèi)超平面的距離有關(guān)。它是一個(gè)列表而非字典對(duì)象,如果你希望和類(lèi)別關(guān)聯(lián)起來(lái),可借助model的get_labels():

pythondecvals = zip(model.get_labels(), predict_result.decvals)

true_y -- 真實(shí)的類(lèi)別(僅對(duì)測(cè)試文本預(yù)測(cè)時(shí)存在

get_accuracy() -- 獲得測(cè)試的準(zhǔn)確率(僅對(duì)測(cè)試文本預(yù)測(cè)時(shí)存在

分析

analyzer的作用是分析LibShortText的預(yù)測(cè)結(jié)果,通過(guò)它我們可以了解哪些特征更為關(guān)鍵、哪些類(lèi)別容易被混淆。
比如分析一條體育新聞的標(biāo)題:

pythonanalyzer = Analyzer(model)
analyzer.analyze_single("國(guó)青錯(cuò)失絕殺0-0韓國(guó) 下輪平越南就出線(xiàn)")

終端輸出如下:

sports news game food porn
……
國(guó) 青 4.600e-01 -1.349e-01 -4.283e-03 0.000e+00 0.000e+00
……
decval 1.192e+00 3.396e-01 3.132e-01 2.196e-01 1.910e-01

可見(jiàn)「國(guó)」和「青」一起促成最關(guān)鍵的sports類(lèi)特征。
又比如,選擇被誤分的樣本,調(diào)用gen_confusion_table()輸出sports、star和movie的混淆表格,以了解哪些類(lèi)別的特征界限比較模糊。

pythonanalyzer = Analyzer(model)
insts = InstanceSet(predict_result).select(wrong, with_labels(["sports", "movie", "star"]))
analyzer.gen_confusion_table(insts)

終端輸出如下(第一行表示預(yù)測(cè)類(lèi)別,第一列表示真實(shí)類(lèi)別):

star movie sports
star 0 19 5
movie 21 0 1
sports 15 4 0

完整demo請(qǐng)見(jiàn)lst_classifier.py。

  

來(lái)自:建造者說(shuō)

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/37481.html

相關(guān)文章

  • TextGrocery,更好用的文本分類(lèi)Python庫(kù)

    摘要:古龍說(shuō),無(wú)論什么東西,最好的都只有一種。經(jīng)歷半年的文本分類(lèi)實(shí)踐,我們基本已斷定,最好的文本分類(lèi)算法就是支持向量機(jī)。有沒(méi)有可能把最好的文本分類(lèi)算法,包裝成一個(gè)超級(jí)簡(jiǎn)單的工具提供給大家這是我開(kāi)發(fā)的初衷。 古龍說(shuō),無(wú)論什么東西,最好的都只有一種。經(jīng)歷半年的文本分類(lèi)實(shí)踐,我們基本已斷定,最好的文本分類(lèi)算法就是SVM -- 支持向量機(jī)。 但是縱然知道了天機(jī),新手做文本分類(lèi)仍然需要學(xué)習(xí)不少東西,例...

    aaron 評(píng)論0 收藏0
  • Python入門(mén)資料大全(更新ing)

    摘要:在線(xiàn)挑戰(zhàn),還沒(méi)用過(guò),貌似現(xiàn)在對(duì)英文資料心里還有種抵觸,必須克服實(shí)驗(yàn)樓研發(fā)工程師包含了等學(xué)習(xí)課程。書(shū)的作者就是開(kāi)發(fā)了用于數(shù)據(jù)分析的著名開(kāi)源庫(kù)的作者英文資料,對(duì)數(shù)據(jù)分析中要用到的一些庫(kù),等等做了簡(jiǎn)要介紹。形式的資料,示例代碼都很全。 showImg(https://segmentfault.com/img/remote/1460000004852849); 一、說(shuō)明 面對(duì)網(wǎng)絡(luò)上紛繁復(fù)雜的資...

    wuaiqiu 評(píng)論0 收藏0
  • 阿里云服務(wù)器[新手入門(mén)]如何使用

    摘要:購(gòu)買(mǎi)登錄官網(wǎng)查看云服務(wù)器購(gòu)買(mǎi)列表,購(gòu)買(mǎi)時(shí)選擇地區(qū)操作系統(tǒng)鏡像等,購(gòu)買(mǎi)云服務(wù)器后會(huì)發(fā)送短信通知,這里只列出一個(gè)阿里云尊敬的用戶(hù)您的云服務(wù)器創(chuàng)建成功實(shí)例名稱(chēng),公網(wǎng)。1.購(gòu)買(mǎi) 登錄官網(wǎng)查看云服務(wù)器購(gòu)買(mǎi)列表,購(gòu)買(mǎi)時(shí)選擇地區(qū)、操作系統(tǒng)鏡像等,購(gòu)買(mǎi)云服務(wù)器后會(huì)發(fā)送短信通知,這里只列出一個(gè): 【阿里云】尊敬的用戶(hù):您的云服務(wù)器ECS創(chuàng)建成功(實(shí)例名稱(chēng):xxxxxxxxxx,公網(wǎng)IP:xxx.xxx.xxx...

    chanthuang 評(píng)論0 收藏0
  • 阿里云服務(wù)器入門(mén)使用

    摘要:購(gòu)買(mǎi)登錄官網(wǎng)查看云服務(wù)器購(gòu)買(mǎi)列表,購(gòu)買(mǎi)時(shí)選擇地區(qū)操作系統(tǒng)鏡像等,購(gòu)買(mǎi)云服務(wù)器后會(huì)發(fā)送短信通知,這里只列出一個(gè)阿里云尊敬的用戶(hù)您的云服務(wù)器創(chuàng)建成功實(shí)例名稱(chēng),公網(wǎng)。1.購(gòu)買(mǎi) 登錄官網(wǎng)查看云服務(wù)器購(gòu)買(mǎi)列表,購(gòu)買(mǎi)時(shí)選擇地區(qū)、操作系統(tǒng)鏡像等,購(gòu)買(mǎi)云服務(wù)器后會(huì)發(fā)送短信通知,這里只列出一個(gè): 【阿里云】尊敬的用戶(hù):您的云服務(wù)器ECS創(chuàng)建成功(實(shí)例名稱(chēng):xxxxxxxxxx,公網(wǎng)IP:xxx.xxx.xxx...

    Pocher 評(píng)論0 收藏0
  • React 入門(mén)實(shí)踐

    摘要:更多相關(guān)介紹請(qǐng)看這特點(diǎn)僅僅只是虛擬最大限度減少與的交互類(lèi)似于使用操作單向數(shù)據(jù)流很大程度減少了重復(fù)代碼的使用組件化可組合一個(gè)組件易于和其它組件一起使用,或者嵌套在另一個(gè)組件內(nèi)部。在使用后,就變得很容易維護(hù),而且數(shù)據(jù)流非常清晰,容易解決遇到的。 歡迎移步我的博客閱讀:《React 入門(mén)實(shí)踐》 在寫(xiě)這篇文章之前,我已經(jīng)接觸 React 有大半年了。在初步學(xué)習(xí) React 之后就正式應(yīng)用到項(xiàng)...

    shenhualong 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<