剑网3指尖江湖职业推荐 www.1468054.com 2012 年,Google 提出知識圖譜的概念并將其用于搜索引擎中, 伴隨 AI 技術的快速發展,智能服務的出現讓知識圖譜顯得尤為重要,那么,作為知識工程的重要分支,它又會給智能服務帶來哪些影響?

5 月 30 日,北京智源人工智能研究院在清華大學開展了以「知識與認知圖譜」為主題的講座,本次講座上,來自清華大學計算機系的四位學者分別從知識工程、深度學習、自然語言處理和異質資源搜索與推薦四個角度,介紹清華大學近些年相關領域的研究成果。

本文將會以李涓子教授和劉知遠副教授兩位講師的內容出發,重點介紹知識圖譜的發展現狀以及它在應用中存在的問題和解決方案。

處于技術啟動期的知識圖譜

大數據時代,通過對數據進行語義層面的解釋可以挖掘到許多隱藏的知識,它們被用于機器智能,這是從數據到智能的轉化過程。

圖0:下一代 AI 系統基石:知識圖譜將何去何從?

專家系統的出現讓知識顯得尤為重要,它是人工智能對客觀世界認知的渠道。不同于富含語義的人類交流,大數據的機器學習仍集中于低維特征空間。由于兩者之間互不相通,因此作為橋梁的知識圖譜起到了重要作用,同時,它也是整合客觀事件與實體的關鍵。

作為新一代人工智能系統的基礎,知識圖譜的重要性不言而喻,根據 2018 年下半年發布的 Gartner 曲線可以得知,知識圖譜的發展至少還需要 5 – 10 年時間才能到達一個相對成熟的階段,而通用人工智能的實現則更是需要至少 10 年。

圖1:下一代 AI 系統基石:知識圖譜將何去何從?

綜上所述,知識圖譜的發展必定要解決這兩個問題:

  • 加強高質量知識圖譜的自動標注,減少人為干涉。
  • 整體形態不再局限于三元組,更豐富的信息形態可以帶來更好的表現。

知識圖譜存在的問題與解決方案

知識圖譜在發展過程中仍存在許多技術難題,目前主要有以下幾點:

  • 機器學習中實現可解釋智能的方法;
  • 大數據環境下實現基于知識和數據驅動的方法;
  • 知識不確定和不完整的情況下完成知識推理;
  • 對高質量、大規模知識的研究獲取算法。

知識圖譜不僅僅是知識庫,它在物聯網時代會發揮更大的作用,以 IBM 的 IoT 項目為例,物聯網設備在知識圖譜上存在相互聯系的關系,假設傳感器是一個節點,那么通過解析傳感器之間傳輸的數據便可以為用戶提供服務。

除了表示學習,實體和詞向量的表示學習同樣存在許多挑戰,這其中包括詞的歧義和詞與實體聯合表示兩部分。

詞的歧義是指一詞多意的問題,這在詞向量表示中問題較為明顯,由于同一實體可能對應不同客觀事物的問題,因此詞向量表示的同時也需要對相關詞的詞義做對應的表示。

以喬丹這個詞為例,假設邁克爾·喬丹對應兩個實體,那么在做實體表示的同時就需要使用不同的向量表示,如果籃球喬丹是實體,那么其應該與籃球相關的詞在向量上更為接近,而教授喬丹則與機器學習相關的詞更為接近。

圖2:下一代 AI 系統基石:知識圖譜將何去何從?

這個問題目前有兩種解決方案,即詞義表示與基于詞義的詞和實體聯合表示。

其中,聯合表示學習主要是通過將詞和實體映射到統一低維向量空間,讓具有相似語義或知識結構的詞和實體具有相近的向量表示,以實現跨語言、文本和知識庫的聯合推演。相較于詞義表示,聯合表示學習具有以下幾點優勢:

  • 支持聯合計算,促進詞和實體語義互操作和語義融合;
  • 提升表示精度,解決文本中詞和實體的潛在歧義問題;
  • 縮小語言鴻溝,支持跨語言自燃語言理解等相關任務。

此外,詞和實體的聯合表示學習又被分為基于詞義的詞和實體聯合表示學習,及遠程監督的跨語言詞和實體的聯合表示學習。在這兩項技術的基礎之上,利用神經網絡將跨語言協同實體連接,這樣可以解決跨語言的詞和實體表示問題。

圖3:下一代 AI 系統基石:知識圖譜將何去何從?

詞義的詞和實體聯合表示學習分為實體表示學習、對齊模型、詞和實體提及表示學習三個部分,其中實體關系圖被用于實體表示學習,帶有錨文本的文檔在提取義項映射詞后分別被用于對齊模型和表示學習兩個部分。

圖4:下一代 AI 系統基石:知識圖譜將何去何從?

其中,跨語言聯合表示學習利用實體關系圖打破語言界限,結合跨語言相似句對以及圖神經網絡,讓實體與實體之間通過映射對應語義的上下文,結合聯合表示學習最終得到跨語言的語義向量空間。

圖5:下一代 AI 系統基石:知識圖譜將何去何從?

在跨語言的詞和實體表述基礎上,詞和實體的表示就可以實現對任意文本的實體鏈接,再通過映射對應語義的上下文以實現大規模實體訓練。

目前,這項技術已經被用于構建專家知識庫的「學者畫像」,這其中最簡單的應用就是分類體系的概念,其中興趣標簽可以看作是知識圖譜里面的知識標簽,利用知識標簽和上下文關系的解析,可以得到更為詳細的信息。

圖6:下一代 AI 系統基石:知識圖譜將何去何從?

通過「學者畫像」,學術界可以得到關于他更多的信息描述,其中包括研究興趣的變化、學術活躍度、研究多樣性等方面,這些均通過分析論文以及合作者關系得出。此外,這項技術還可以被用于會議的搜索和挖掘,例如會議上發表論文最多的學者以及引用最多的作者以及論文內容。

圖7:下一代 AI 系統基石:知識圖譜將何去何從?

除此之外,利用「學者畫像」得到的一些數據還可以被用于制作技術發展報告,以便于實現對某領域技術發展趨勢的預測。

知識圖譜對自然語言模型的影響

自然語言處理技術中,復雜的知識庫可以提升深度學習的理解能力,經過統一語義表示空間處理后文字、句子、短語甚至文章等語言單元可被用于復雜的自然語言處理任務,其中不乏包括語義分析、句法分析和詞法分析等。

自然語言文本中蘊含豐富的語言知識和世界知識,知識圖譜和深度學習的雙向驅動可以有效提升自然語言處理的效率,此外,機器翻譯的神經網絡模型則有以下兩個特點:

  • 將所有的語義表示為低維向量空間;
  • 語言之間的翻譯實際上是低維網絡空間里面的多層跳轉。

另外,它還包含非常多的語言單元,主要分為字、詞、短語、句子和文檔五個部分,翻譯可以看做是不同語言之間的語句聯系,以問答系統和信息檢索為例,自然語言處理主要是被用于解決語言單元之間語義聯系。

圖8:下一代 AI 系統基石:知識圖譜將何去何從?

目前,自然語言處理技術尚無法實現數據層次到更深層次的理解,因此知識提取十分重要,深度學習在理解海量數據之后可以獲得大量知識,并以此構建對應的知識圖譜。同時,經過表示學習獲取的知識也可以被用于深度學習的知識指導。

圖9:下一代 AI 系統基石:知識圖譜將何去何從?

人類知識以離散符號的形式表示,但它不與深度學習低維向量相容,通過將結構化知識映射到低維向量空間,便可以將語言中知識、文檔、句子和詞匯等單元與符號相融合,實現跨領域知識理解。

那么,這些問題該如何解決?這就不得不提及語言知識庫。

目前,知識領域比較有名的兩個語言知識庫分別是英文知識庫 WordNet 和中文知識庫 HowNet(知網),其中 HowNet 提出的義原概念,讓人類語言的所有詞匯、短語、句子甚至文檔被分解成更為細化的部分。

圖10:下一代 AI 系統基石:知識圖譜將何去何從?

其中,每一個義原可以看做是獨特的詞義標簽,這個標簽的意義是明確固定且互相獨立的,義原之間還標記了對應的語義關系,那么,是否可以讓義原知識協助指導數據驅動知識學習?目前已經有兩種方案:

  • 利用自然語言處理比較有名的詞表示學習,其中比較有名的就是以純數據驅動的 word2vec 算法,引入 HowNet 知識庫可以實現義原、詞義和詞匯進行聯合表示學習。
  • 而在句子層面,語言模型顯得尤為重要,目前深度學習框架一般采用 CNN 或者 RNN 訓練語言模型。

圖11:下一代 AI 系統基石:知識圖譜將何去何從?

但是在實際文本中,依舊有大量的詞沒有在 HowNet 里面被標注,不過這個問題可以利用義原的自動推薦解決,它主要是通過整合詞組成的義原實現,目前這項技術已經可以達到比較好的預測結果,它也可以被看做是未來重要的方向。

利用深度學習幫助單詞相關義原知識的預測,之后再用義原知識來協助理解互聯網上的文本信息,這項技術可以被用于語言和常識知識庫的探索。

圖12:下一代 AI 系統基石:知識圖譜將何去何從?

除了以 HowNet、WordNet 等為首的語言知識庫,還有商業引擎和大型知識圖譜構建的世界知識庫,它不僅包含了現實世界中各種各樣的實體,還涵蓋了他們之間的關系,世界知識庫、語言知識庫整合至數據訓練庫中,機器學習的性能會顯著提升。

世界知識庫可以協助理解復雜知識文本,深度學習自然語言處理的同時協助文本中的知識獲取可以讓相關工作形成閉環,以此實現知識圖譜和深度學習雙向驅動的效果。

知識圖譜的發展以及學術界的探討

整體來看,語言知識庫和知識圖譜是提升機器學習性能的關鍵。目前大多數知識圖譜依賴人工構建,仍然缺乏從大規模數據里獲取的手段。

本次論壇中,清華大學的李涓子教授表示他們將會在以下幾個方面做出基礎性和建設性工作:

  • 支持魯棒可解釋的知識表示獲取和推理的基礎理論以及方法研究工作;
  • 建立大規模的知識庫以及對應平臺,其中知識平臺主要是用于維持知識的生態系統;
  • 利用科技情報大數據簡歷基于學者和知識的平臺,并以其為基礎提供相應的智能服務;
  • 構建一個集群體智慧、開放、融合、結構化的知識圖譜基礎平臺,從而降低構建門檻。

目前,清華的 XLORE 跨語言知識圖譜已經包含大約 137 萬條知識,此外,他們還基于跨語言知識庫推出雙語協同實體鏈接系統 XLink。大數據挖掘與智能服務平臺 —— AMiner 則被用于學者搜索,通過給學者打上興趣標簽,用戶可以利用這些標簽對需要查找的專家有更深層次的了解。

除了跨語言知識圖譜 XLORE、雙語協同實體鏈接系統 XLink 和專業數據智能服務平臺 AMiner ,清華還在 Github 推出集義原計算、知識表示和知識獲取等算法工具匯總的工具包 Thunlp,其主要包括以下幾種工具:

  • THULAC —— 中文詞法分析
  • THUCTC —— 中文文本分類
  • THUTAG —— 關鍵詞抽取與社會標簽推薦
  • OpenKE —— 知識表示學習
  • OpenNRE —— 神經網絡關系抽取
  • OpenNE —— 網絡表示學習
  • OpenQA —— 開放域自動回答

對這套工具感興趣的讀者可以在 https://github.com/thunlp 了解更多信息。

余下全文(1/3)

本文最初發表在www.infoq.cn,文章內容屬作者個人觀點,不代表本站立場。

分享這篇文章:

請關注我們:

發表評論

電子郵件地址不會被公開。 必填項已用*標注