国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

Facebook的人工智能實驗室在Github發布開源的fastText工具

everfly / 3145人閱讀

摘要:為了能夠對文本信息進行既快速又準確的分類,人工智能研究實驗室開發出了。宣布這項新的開源技術可以在分鐘內用標準的多核訓練超過億個詞語。還能在不超過分鐘的時間內對萬個句子進行超過萬種分類。從文章發表之日起,的源代碼可以在上自由獲取。

Facebook上每天有數十億條信息被共享。為了跟上信息增長的速度,Facebook一直在使用多種不同的文本信息歸類工具。傳統的分類方法,如深度神經網絡,雖然能達到較高的較精確度,但對大量訓練的需求是一個嚴重的問題。

為了能夠對文本信息進行既快速又準確的分類,Facebook人工智能研究(FAIR)實驗室開發出了fastText。今天Facebook公開了fastText的源代碼,以供開發者隨時隨地使用它的代碼庫。

FastText不但支持文本分類,還可以通過詞匯包(bag of words)和分解詞語信息(subword information)等方法學習詞語向量表示(word vector representation)。基于Skip-gram模型,詞語以向量呈現的字母n-gram模型(假設第n個字符出現只與前n-1個字符有關的概率模型,譯注)包的形式呈現。

“為了在分類繁多的數據處理中提高效率,fastText利用了層級分類器,用樹狀的形式組織不同的分類,而不是扁平的結構(如用二叉樹結構代替列表)。”Facebook作者 Armand Joulin, Edouard Grave, Piotr Bojanowski和Tomas Mikolov在一篇帖子上說。?

對那些較低程度的人工智能來說,詞匯包的方法是快速的,因為這種方法從根本上忽略了詞語順序,而專注于計算詞語出現的概率。“詞語”被呈現在多維空間中,利用線性代數的方法計算一組或一類詞語之間的相關性。要記住,我們在電腦上輸入詞語時,都是從頭開始的。對掌握語言的人類來說,語法是有指導作用的——我們知道詞語的結構作用,知道以什么詞開始、以什么詞結尾。電腦雖然能處理最復雜的計算任務,但在區分“I love TechCrunch”和“Crunch Love iTech.”兩句話時會遇到困難。類似詞匯包這樣的方法,從根本上通過增加數學運算把質量分析轉化為數量分析。

這些技術能讓fastText運行的比傳統深度學習方法更快速。Facebook做了一個實用的對比圖表,準確地展現了兩種方法的對比結果。

FastText的使用不限于英語,還能用于德語、西班牙語、法語和捷克語等語言的處理。

這個月早些時候,Facebook在新聞推送服務中加入了防釣魚算法。雖然這個算法非常復雜,可以進行行為和語言鑒別兩方面的任務,但公開的fastText可以讓開發者自己創建與之類似的工具。

Facebook宣布這項新的開源技術可以“在10分鐘內用標準的多核CPU訓練超過10億個詞語。FastText還能在不超過5分鐘的時間內對50萬個句子進行超過30萬種分類。”這并沒有自夸。

從文章發表之日起,Facebook的fastText源代碼可以在Github上自由獲取。

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識

QQ群:81035754

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4383.html

相關文章

  • Facebook開源深度學習框架Caffe2,帶來跨平臺機器學習工具

    摘要:部署旨在幫助開發人員和研究人員訓練大規模機器學習模型,并在移動應用中提供驅動的用戶體驗。現在,開發人員可以獲取許多相同的工具,能夠在大規模分布式場景訓練模型,并為移動設備創建機器學習應用。 AI 模型的訓練和部署通常與大量數據中心或超級計算機相關聯,原因很簡單。從大規模的圖像、視頻、文本和語音等各種信息中持續處理、創建和改進模型的能力不是小型計算擅長的。在移動設備上部署這些模型,使其快速輕量...

    weapon 評論0 收藏0
  • 最新Github上各DL框架Star數量大PK

    摘要:下圖總結了絕大多數上的開源深度學習框架項目,根據項目在的數量來評級,數據采集于年月初。然而,近期宣布將轉向作為其推薦深度學習框架因為它支持移動設備開發。該框架可以出色完成圖像識別,欺詐檢測和自然語言處理任務。 很多神經網絡框架已開源多年,支持機器學習和人工智能的專有解決方案也有很多。多年以來,開發人員在Github上發布了一系列的可以支持圖像、手寫字、視頻、語音識別、自然語言處理、物體檢測的...

    oogh 評論0 收藏0
  • Facebook最新開源Torchnet工具包,加速人工智能研究

    摘要:昨日,研究人員開源工具包,并表示這個工具包可快速建立有效且可重復使用的學習系統,從而促進深度學習協同發展。支持機器學習與人工智能已經出現很多年,它們的大多研究進展已經被公用研究數據集和更強大的計算機所支持尤其是。 昨日,Facebook 研究人員開源 Torchnet 工具包,并表示這個工具包可快速建立有效且可重復使用的學習系統,從而促進深度學習協同發展。在發布的這篇 Blog 中,Face...

    hightopo 評論0 收藏0
  • 十個值得一試開源深度學習框架

    摘要:誕生已經有十年之久,但是真正起勢得益于去年開源了大量的深度學習模塊和擴展。來自一個日本的深度學習創業公司,今年月發布的一個框架。顧名思義,是的深度學習框架,也是較早的商用級別的深度學習開源庫。 本周早些時候Google開源了TensorFlow(GitHub),此舉在深度學習領域影響巨大,因為Google在人工智能領域的研發成績斐然,有著雄厚的人才儲備,而且Google自己的Gmail和搜索...

    jokester 評論0 收藏0
  • PyTorch一周年戰績總結:是否比TensorFlow來勢兇猛?

    摘要:截止到今天,已公開發行一周年。一年以來,社區中的用戶不斷做出貢獻和優化,在此深表感謝。所以與衡量它的指標包括在機器學習研究論文中的使用。來自香港科技大學的在上推出了面向普通觀眾的在線課程。 Yann LeCun Twitter截止到今天,PyTorch 已公開發行一周年。一年以來,我們致力于打造一個靈活的深度學習研究平臺。一年以來,PyTorch 社區中的用戶不斷做出貢獻和優化,在此深表感謝...

    ymyang 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<