摘要:知識圖譜開源庫或簡稱是一個用于構建語義和關聯數據應用程序的自由和開源的框架。垂直行業應用下面將以金融醫療電商行業為例,說明知識圖譜在上述行業中的典型應用。
知識圖譜構建的關鍵技術
1 知識提取
2 知識表示
3 知識融合
4 知識推理
知識推理則是在已有的知識庫基礎上進一步挖掘隱含的知識,從而豐富、擴展知識庫。在推理的過程中,往往需要關聯規則的支持。由于實體、實體屬性以及關系的多樣性,人們很難窮舉所有的推理規則,一些較為復雜的推理規則往往是手動總結的。對于推理規則的挖掘,主要還是依賴于實體以及關系間的豐富同現情況。知識推理的對象可以是實體、實體的屬性、實體間的關系、本體庫中概念的層次結構等。知識推理方法主要可分為基于邏輯的推理與基于圖的推理兩種類別。
1) 基于邏輯的推理
基于邏輯的推理基于邏輯的推理方式主要包括一階謂詞邏輯(first order logic)、描述邏輯(description logic)以及規則等。一階謂詞邏輯推理是以命題為基本進行推理,而命題又包含個體和謂詞。邏輯中的個體對應知識庫中的實體對象,具有客觀獨立性,可以是具體一個或泛指一類,例如奧巴馬、選民等;謂詞則描述了個體的性質或個體間的關系。文獻[1]針對已有一階謂詞邏輯推理方法中存在的推理效率低下等問題,提出了一種基于謂詞變遷系統的圖形推理法,定義了描述謂詞間與/或關系的謂詞,通過謂詞圖表示變遷系統,實現了反向的推理目標。實驗結果表明:該方法推理效率較高,性能優越。描述邏輯是在命題邏輯與一階謂詞邏輯上發展而來,目的是在表示能力與推理復雜度之間追求一種平衡。基于描述邏輯的知識庫主要包括Tbox(terminology box)與ABox(assertion box)[2]。通過TBox與ABox,可將關于知識庫中復雜的實體關系推理轉化為一致性的檢驗問題,從而簡化并實現推理[3]。?
通過本體的概念層次進行推理時,其中概念主要是通過OWL(Web ontology language)本體語義進行描述的。OWL文檔可以表示為一個具有樹形結構的狀態空間,這樣一些對接結點的推理算法就能夠較好地應用起來,例如文獻[4]提出了基于RDF和PD*語義的正向推理算法,該算法以RDF蘊涵規則為前提,結合了sesame算法以及PD*的語義,是一個典型的迭代算法,它主要考慮結點與推理規則的前提是否有匹配,由于該算法的觸發條件導致推理的時間復雜度較高,文獻[5]提出了ORBO算法,該算法從結點出發考慮,判斷推理規則中第一條推理關系的前提是否滿足,不僅節約了時間,還降低了算法的時間復雜度。
2)基于圖的推理
在基于圖的推理方法中,文獻[6]提出的pathconstraintrandom walk,path ranking等算法較為典型,主要是利用了關系路徑中的蘊涵信息,通過圖中兩個實體間的多步路徑來預測它們之間的語義關系。即從源節點開始,在圖上根據路徑建模算法進行游走,如果能夠到達目標節點,則推測源節點和目標節點間存在聯系。關系路徑的建模方法研究工作尚處于初期,其中在關系路徑的可靠性計算、關系路徑的語義組合操作等方面,仍有很多工作需進一步探索并完成。?
除上述兩種類別的知識推理方法外,部分研究人員將研究重點轉向跨知識庫的推理方法研究,例如文獻[7]提出的基于組合描述邏輯的Tableau算法,該方法主要利用概念間的相似性對不同知識庫。
知識圖譜開源庫
Apache Jena(或簡稱Jena)是一個用于構建語義Web和關聯數據應用程序的自由和開源的Java框架。 該框架由不同的API組成,用于處理RDF數據。
Jena是一個用于Java語義Web應用程序的API(應用程序編程接口)。它不是一個程序或工具,如果這是你正在尋找,我建議或許TopBraid Composer作為一個好的選擇。因此,Jena的主要用途是幫助您編寫處理RDF和OWL文檔和描述的Java代碼。
更多詳細內容參見官網Apache Jena, 具體應用后續參考
知識圖譜構建的典型應用
知識圖譜為互聯網上海量、異構、動態的大數據表達、組織、管理以及利用提供了一種更為有效的方式,使得網絡的智能化水平更高,更加接近于人類的認知思維。目前,知識圖譜已在智能搜索、深度問答、社交網絡以及一些垂直行業中有所應用,成為支撐這些應用發展的動力源泉。
1、智能搜索
基于知識圖譜的智能搜索是一種基于長尾的搜索,搜索引擎以知識卡片的形式將搜索結果展現出來。用戶的查詢請求將經過查詢式語義理解與知識檢索兩個階段:1) 查詢式語義理解。知識圖譜對查詢式的語義分析主要包括:① 對查詢請求文本進行分詞、詞性標注以及糾錯;② 描述歸一化,使其與知識庫中的相關知識進行匹配[8];③ 語境分析。在不同的語境下,用戶查詢式中的對象會有所差別,因此知識圖譜需要結合用戶當時的情感,將用戶此時需要的答案及時反饋給用戶;④ 查詢擴展。明確了用戶的查詢意圖以及相關概念后,需要加入當前語境下的相關概念進行擴展。2) 知識檢索。經過查詢式分析后的標準查詢語句進入知識庫檢索引擎,引擎會在知識庫中檢索相應的實體以及與其在類別、關系、相關性等方面匹配度較高的實體[9]。通過對知識庫的深層挖掘與提煉后,引擎將給出具有重要性排序的完整知識體系。?
智能搜索引擎主要以3種形式展現知識:1) 集成的語義數據。例如當用戶搜索梵高,搜索引擎將以知識卡片的形式給出梵高的詳細生平,并配合以圖片等信息;2) 直接給出用戶查詢問題的答案。例如當用戶搜索“姚明的身高是多少?”,搜索引擎的結果是“226 cm”;3) 根據用戶的查詢給出推薦列表[7]等。?
國外的搜索引擎以谷歌的Google Search、微軟的Bing Search[10]更為典型。谷歌的知識圖譜相繼融入了維基百科、CIA世界概覽等公共資源以及從其他網站搜集、整理的大量語義數據[11],微軟的BingSearch[10]和Facebook[11]、Twitter[12]等大型社交服務站點達成了合作協議,在用戶個性化內容的搜集、定制化方面具有顯著的優勢。?
國內的主流搜索引擎公司,如百度、搜狗等在近兩年來相繼將知識圖譜的相關研究從概念轉向產品應用。搜狗的知立方[13]是國內搜索引擎行業的第一款知識圖譜產品,它通過整合互聯網上的碎片化語義信息,對用戶的搜索進行邏輯推薦與計算,并將最核心的知識反饋給用戶。百度將知識圖譜命名為知心[14],主要致力于構建一個龐大的通用型知識網絡,以圖文并茂的形式展現知識的方方面面。
2、深度問答
問答系統是信息檢索系統的一種高級形式,能夠以準確簡潔的自然語言為用戶提供問題的解答。之所以說問答是一種高級形式的檢索,是因為在問答系統中同樣有查詢式理解與知識檢索這兩個重要的過程,并且與智能搜索中相應過程中的相關細節是完全一致的。多數問答系統更傾向于將給定的問題分解為多個小的問題,然后逐一去知識庫中抽取匹配的答案,并自動檢測其在時間與空間上的吻合度等,最后將答案進行合并,以直觀的方式展現給用戶。
目前,很多問答平臺都引入了知識圖譜,例如華盛頓大學的Paralex系統[15]和蘋果的智能語音助手Siri[16],都能夠為用戶提供回答、介紹等服務;亞馬遜收購的自然語言助手Evi[17],它授權了Nuance的語音識別技術,采用True Knowledge引擎進行開發,也可提供類似Siri的服務。國內百度公司研發的小度機器人[18],天津聚問網絡技術服務中心開發的大型在線問答系統OASK[19],專門為門戶、企業、媒體、教育等各類網站提供良好的交互式問答解決方案。
3、社交網絡
社交網 站 Facebook 于2013 年推出了GraphSearch[20]產品,其核心技術就是通過知識圖譜將人、地點、事情等聯系在一起,并以直觀的方式支持較精確的自然語言查詢,例如輸入查詢式:“我朋友喜歡的餐廳”“住在紐約并且喜歡籃球和中國電影的朋友”等,知識圖譜會幫助用戶在龐大的社交網絡中找到與自己最具相關性的人、照片、地點和興趣等。Graph Search提供的上述服務貼近個人的生活,滿足了用戶發現知識以及尋找最具相關性的人的需求。
垂直行業應用
下面將以金融、醫療、電商行業為例,說明知識圖譜在上述行業中的典型應用。
1、金融行業
在金融行業中,反欺詐是一個重要的環節。它的難點在于如何將不同稅務子系統中的數據整合在一起。通過知識圖譜,一方面有利于組織相關的知識碎片,通過深入的語義分析與推理,可對信息內容的一致性充分驗證,從而識別或提前發現欺詐行為;另一方面,知識圖譜本身就是一種基于圖結構的關系網絡,基于這種圖結構能夠幫助人們更有效地分析復雜稅務關系中存在的潛在風險[21]。在精準營銷方面,知識圖譜可通過鏈接的多個數據源,形成對用戶或用戶群體的完整知識體系描述,從而更好地去認識、理解、分析用戶或用戶群體的行為。例如,金融公司的市場經理用知識圖譜去分析待銷售用戶群體之間的關系,去發現他們的共同愛好,從而更有針對性地對這類用戶人群制定營銷策略[21]。
2、醫療行業
耶魯大學擁有全球較大的神經科學數據庫Senselab[22],然而,腦科學研究還需要綜合從微觀分子層面一直到宏觀行為層面的各個層次的知識。因此,耶魯大學的腦計劃研究人員將不同層次的,與腦研究相關的數據進行檢索、比較、分析、整合、建模、仿真,繪制出了描述腦結構的神經網絡圖譜,從而解決了當前神經科學所面臨的海量數據問題,從微觀基因到宏觀行為,從多個層次上加深了人類對大腦的理解,達到了“認識大腦、保護大腦、創造大腦”的目標。
3、電商行業
電商網站的主要目的之一就是通過對商品的文字描述、圖片展示、相關信息羅列等可視化的知識展現,為消費者提供最滿意的購物服務與體驗。通過知識圖譜,可以提升電商平臺的技術性、易用性、交互性等影響用戶體驗的因素[23]。?
阿里巴巴是應用知識圖譜的代表電商網站之一,它旗下的一淘網不僅包含了淘寶數億的商品,更建立了商品間關聯的信息以及從互聯網抽取的相關信息,通過整合所有信息,形成了阿里巴巴知識庫和產品庫,構建了它自身的知識圖譜[24]。當用戶輸入關鍵詞查看商品時,知識圖譜會為用戶提供此次購物方面最相關的信息,包括整合后分類羅列的商品結果、使用建議、搭配等[24]。?
除此之外,另外一些垂直行業也需要引入知識圖譜,如教育科研行業、圖書館、證券業、生物醫療以及需要進行大數據分析的一些行業[25]。這些行業對整合性和關聯性的資源需求迫切,知識圖譜可以為其提供更加較精確規范的行業數據以及豐富的表達,幫助用戶更加便捷地獲取行業知識.
4、司法行業
知識圖譜在司法領域的運用悄然興起,它幫助從業人員快速地在線檢索相關的法務內容,從而提高法院審判工作質量和效率[26]。
參考文獻
描述邏輯. 描述邏輯基礎知識[EB/OL]. (2014-02-24). http://www.2cto.com/database/201402/280927.html
LEE T W, LEWICKI M S, GIROLAMI M, et al. Blind source separation of more sources than mixtures using overcomplete representation[J]. Signal Processing Letters, 1999, 6(4): 87-90.
Ian Dickinson. Imp Iementation experience with the DIG 1.1specification[EB/OL]. (2004-05-10). http://www.hpl.hp. com/semweb/publications.html.
龔資. 基于OWL描述的本體推理研究[D]. 長春: 吉林大學, 2007.
LIU Shao-yuan, HSU K H, KUO Li-jing. A semantic service match approach based on wordnet and SWRL rules[C]//Proc of the 10th IEEE Int Conf on E-Business Engineering. Piscataway, NJ: IEEE, 2013: 419-422.
LAO N, MITCHELL T, COHEN W W. Random walk inference and learning in a large scale knowledge base[C]//Proc of EMNLP. Stroudsburg, PA: ACL, 2011:529-539.
蔣勛, 徐緒堪. 面向知識服務的知識庫邏輯結構模型[J].圖書與情報, 2013(6): 23-31.
王志, 夏士雄, 牛強. 本體知識庫的自然語言查詢重寫研究[J]. 微電子學與計算機, 2009, 26(8): 137-139.
BLANCO R, CAMBAZOGLU B B, MIKE P, et al. Entity recommendation in web search[C]//Pro of the 12th International Semantic Web ?conference(ISWC). Berlin: Springer-Verlag, 2013: 33-48.
BRACHMAN R J. What IS-A is and isn"t: an analysis of taxonomic links in semantic networks[J]. Computer; (United States), 1983, 10(1): 5-13.
Facebook. Facebook[EB/OL]. [2014-02-04]. https://www.facebook.com/.
Twitter. Twitter[EB/OL]. [2016-05-08]. https://twitter.com/.
百度百科.搜狗知立方[EB/OL]. [2016-05-07]. http://baike.baidu.com/link?url=_J_2r2xYz0qSTwlYxqPZ00ZZuYyiA_kkZAohtC5EhmIzOjSwywKheEThY2gdXdzxS
Baidu. Zhi xin[EB/OL]. [2016-06-08].
Fader. Paralex[EB/OL]. [2016-05-08]. http://knowitall.cs.washington.edu/paralex.
百度百科. Siri[EB/OL]. [2016-05-02]. http://baike.baidu.com/subview/6573497/7996501.htm.
百度百科. Evi[EB/OL]. [2016-03-18]. http://baike.baidu.com/view/7574050.htm.
百度. 度秘[EB/OL]. (2015-09-13). http://xiaodu.baidu.com/.
百度百科. OASK 問答系統[EB/OL]. [2016-03-27]. http:// baike.baidu.com/view/8206827.htm.
百度百科. Graph search[EB/OL]. [2016-01-22]. http://baike.baidu.com/view/9966007.htm.
李文哲. 互聯網金融, 如何用知識圖譜識別欺詐行為[EB/OL].
Senselab. Center for medical informatics at yale university school of medicine yale university school of medicine [EB/OL]. [2016-01-08]. http://ycmi.med.yale.edu/.
田玲, 馬麗儀. 基于用戶體驗的網站信息服務水平綜合評價研究[J]. 生態經濟, 2013(10): 160-162.
一淘網.知識圖譜[EB/OL]. (2014-12-12). https://www.
aliyun.com/zixun/aggregation/13323.html.
李涓子. 知識圖譜: 大數據語義鏈接的基石[EB/OL].(2015-02-20). http://www.cipsc.org.cn/kg2/.
知識圖譜技術在司法領域的應用:國雙科技的探索與技術分享。http://mp.weixin.qq.com/s/aVEBf_VxkXpmx3Z3xUBtm
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4643.html
摘要:本質上知識圖譜旨在描述真實世界中存在的各種實體或概念及其關系其構成一張巨大的語義網絡圖,節點表示實體或概念,邊則由屬性或關系構成。圖知識圖譜示例知識圖譜的架構知識圖譜的架構包括自身的邏輯結構以及構建知識圖譜所采用的技術體系架構。 引言隨著互聯網的發展,網絡數據內容呈現爆炸式增長的態勢。由于互聯網內容的大規模、異質多元、組織結構松散的特點,給人們有效獲取信息和知識提出了挑戰。知識圖譜(Know...
摘要:四知識圖譜應用利用知識圖譜技術可以直接給出用戶想要的搜索結果,而不再是各類鏈接。智慧城市公安機關在偵查案件時,經常看到辦案民警用圖譜梳理案件及人物關系。在電視劇人民的名義中,警方利用知識圖譜分析,可以很快看清山水集團背后的利益鏈條。 導讀:悟已往之不諫,知來者之可追。 ?小編整理了各種關于人...
摘要:為了更好地為機器學習或深度學習提供先驗知識,知識圖譜的表示學習仍是一項任重道遠的研究課題。 肖仰華:復旦大學計算機科學技術學院,副教授,博士生導師,上海市互聯網大數據工程技術中心副主任。主要研究方向為大數據管理與挖掘、知識庫等。大數據時代的到來,為人工智能的飛速發展帶來前所未有的數據紅利。在大數據的喂養下,人工智能技術獲得了前所未有的長足進步。其進展突出體現在以知識圖譜為代表的知識工程以及深...
閱讀 4188·2022-09-16 13:49
閱讀 1412·2021-11-22 15:12
閱讀 1536·2021-09-09 09:33
閱讀 1050·2019-08-30 13:15
閱讀 1739·2019-08-29 15:30
閱讀 674·2019-08-27 10:52
閱讀 2652·2019-08-26 17:41
閱讀 1908·2019-08-26 12:11