醫學知識圖譜構建技術

時間：2019-06-28 05:57:48 來源：作者：

摘要：醫學知識圖譜是實現智慧醫療的基石，有望帶來更高效精準的醫療服務。然而，現有知識圖譜構建技術在醫學領域中普遍存在效率低，限制多，拓展性差等問題。針對醫療數據跨語種，專業性強，結構復雜等特點，對構建醫學知識圖譜的關鍵技術進行了自底向上的全面解析，涵蓋了醫學知識表示、抽取、融合和推理以及質量評估五部分內容。此外，還介紹了醫學知識圖譜在信息檢索、知識問答、智能診斷等醫療服務中的應用現狀。最后，結合當前醫學知識圖譜構建技術面臨的重大挑戰和關鍵問題，對其發展前景進行了展望。

關鍵詞：知識圖譜；知識獲取；知識融合；知識推理；自然語言處理

引言

自 1998 年萬維網之父 Tim Berners-Lee 提出語義網，人們不斷在網絡等電子載體上表達和修正對客觀世界的理解，形成了一個概念標準化的過程，同時隨著鏈接開放數據 (Linked Open Data)的規模激增，互聯網上散落了越來越多的知識元數據。

知識圖譜就是在這樣的大數據背景下產生的一種知識表示和管理的方式，強調語義檢索能力。近年來，在人工智能的蓬勃發展下，知識圖譜涉及到的知識抽取、表示、融合、推理、問答等關鍵問題得到一定程度的解決和突破，知識圖譜成為知識服務領域的一個新熱點，受到國內外學者和工業界廣泛關注。

知識圖譜的前身是語義網，它吸收了語義網、本體在知識組織和表達方面的理念，使得知識更易于在計算機之間和計算機與人之間交換、流通和加工。具體來說，一個知識圖譜由模式圖、數據圖及兩者之間的關系組成：模式圖對人類知識領域的概念層面進行描述，強調概念及概念關系的形式化表達，模式圖中節點是概念實體，邊是概念間的語義關系，如 part-of；數據圖對物理世界層面進行描述，強調一系列客觀事實。數據圖中的節點有兩類，一是模式圖中的概念實體，二是描述性字符串，數據圖中的邊是具體事實的語義描述；模式圖和數據圖之間的關系指數據圖的實例與模式圖的概念之間的對應，或者說模式圖是數據圖的模具。

著名的通用知識圖譜中有，谷歌“Knowledge Graph”、搜狗“知立方”、YAGO、DBpedia等，它們具有規模大、領域寬，包含大量常識等特點。目前，醫學是知識圖譜應用最廣的垂直領域之一，如上海曙光醫院構建的中醫藥知識圖譜、本體醫療知識庫 SNOMED-CT，IBM Watson Health等應用近兩年也開始進入人們視線。

知識圖譜是智能大數據的前沿研究問題，它以獨有的技術優勢順應了信息化時代的發展，比如漸增式的數據模式設計；良好的數據集成；現有 RDF、OWL等標準支持；語義搜索和知識推理能力等。在醫學領域，隨著區域衛生信息化及醫療信息系統的發展，積累了海量的醫學數據。如何從這些數據中提煉信息，并加以管理、共享及應用，是推進醫學智能化的關鍵問題，是醫學知識檢索、臨床診斷、醫療質量管理、電子病歷及健康檔案智能化處理的基礎。

本文首先介紹了醫學知識圖譜的構建技術，主要涉及到醫學知識表示；醫學知識抽取，包括實體、關系、屬性的抽取；醫學知識融合；醫學知識推理和質量評估五個部分。然后介紹了基于醫學知識圖譜的包括檢索、問答、決策等的應用現狀。最后對醫學知識圖譜的研究、應用重點，面臨的挑戰以及未來的發展趨勢進行了展望。

1 醫學知識圖譜構建

本文將醫學知識圖譜構建技術歸納為五部分，即醫學知識的表示、抽取、融合、推理以及質量評估。通過從大量的結構化或非結構化的醫學數據中提取出實體、關系、屬性等知識圖譜的組成元素，選擇合理高效的方式存入知識庫。醫學知識融合對醫學知識庫內容進行消歧和鏈接，增強知識庫內部的邏輯性和表達能力，并通過人工或自動的方式為醫學知識圖譜更新舊知識或補充新知識。借助知識推理，推出缺失事實，自動完成疾病診斷與治療。質量評估則是保障數據的重要手段，提高醫學知識圖譜的可信度和準確度。

1.1 醫學知識表示

知識表示是為描述世界所做的一組約定，是知識符號化、形式化、模式化的過程，主要研究計算機存儲知識的方法，其表示方式影響系統的知識獲取、存儲及運用的效率。然而醫學數據種類繁雜，存儲方式不一，電子病歷格式和標準不同，經常涉及交叉領域等特點，導致醫學領域與其他領域在知識表示方面有所差異，同時也給醫學領域的知識表示帶來極大的挑戰。

早期醫療知識庫運用的知識表示方法有：謂詞邏輯表示法，產生式表示法，框架表示法，語義網表示法等等。比如， SNOMED-CT，早期的 MYCIN 系統，大腸桿菌數據庫 EcoCyc等。隨著知識圖譜中知識增長、關系復雜化，這些方法由于表示能力有限且缺乏靈活性，不再作為主要的知識表示方法，更多是作為醫學知識表示的輔助或補充。

本體表示法以網絡的形式表示知識，即以（實體 1，關系，實體 2）三元組來表示相關聯的兩個節點（實體），在知識圖譜提出之后逐漸得到認可。它借鑒了語義網表示法但又有所區別：本體關注的是實體固有特征，比后者更聚焦，更深入，因而也具有更大的發展潛力。而本體的描述語言也多種多樣：主要有RDF和RDF-S、DAML、OWL等。使用本體表示醫學術語可以提升數據整合能力：建立強大、可互操作的醫療信息系統；滿足重用共享傳輸醫療數據的需求；提供基于不同語義標準的統計聚合。醫學領域本體的構建，需要深入分析醫學術語的結構和概念，才能將晦澀甚至是跨語言的醫學知識有效地表達出來。目前的醫學知識本體庫有：醫學概念知識庫LinkBase，TAMBIS本體庫(TaO)等等。

知識圖譜的節點個數影響著網絡的結構復雜度及推理的效率和難度。知識表示學習借助機器學習，將研究對象的語義信息表示為稠密低維向量，有效解決數據稀疏問題，從而提升知識融合和推理性能[。低維向量表示是一種分布式表示（distributed representation），它模仿人腦中使用多個神經元存儲對象的工作機制，使用多維度向量表示對象的語義信息。知識表示學習中的代表模型有：結構化表示法（Structure Embedding，SE），單層神經網絡模型（single layer model，SLM），隱變量模型（latent factor model，LFM），基于TransE的翻譯模型等等。這些模型考慮實體間的協同性和計算開銷，用向量表示實體，再對表示實體的向量或關系進行相應的矩陣變換，提出評價函數來衡量實體間的相關性，并為之后的知識補全和推理提供重要參考。Kleyko 等人證明了分布式表示方法表示醫學圖像進行分類精度能夠與最佳經典方法相同；Henriksson 等人對比使用多種知識表示方法表示 EHR 中 4 類記錄：診斷記錄，藥物使用記錄，治療方法和病程記錄。顯然，知識表示學習無疑為醫學知識圖譜的知識表示開辟了新思路。

1.2 醫學知識抽取

醫學知識圖譜的構建主要是從非結構化數據中人工或自動地提取實體、關系和屬性。人工提取是通過專家依據一定規則收集并整理相關信息，提取知識。目前通過人工構建的醫學知識庫包括臨床醫學知識庫、SNOMED-CT、ICD-10 等。自動提取則是利用機器學習、人工智能、數據挖掘等信息抽取技術，從數據源中自動提取出知識圖譜的基本組成元素。自動構建醫學知識庫的典型例子有一體化醫學語言系統 UMLS。人工提取的代價太大，知識的自動提取是目前重點的研究方向，也是將來構建知識圖譜的趨勢。本節主要介紹如何自動從數據源中抽取知識和信息，包括實體、關系和屬性抽取。

1.2.1 實體抽取

識別文本中的生物醫學實體，其目的在于通過識別關鍵概念進一步提取關系和其他信息，并將識別的概念以標準化的形式表示出來。醫學領域的實體抽取是從醫學數據源中提取出特定類型的命名實體。本節將醫學實體的抽取方法歸納為三類：基于醫學詞典及規則的方法、基于醫學數據源的統計學和機器學習方法以及深度學習方法。

1）基于醫學詞典及規則的方法

該方法通過人工定義規則和模式匹配生成詞典或使用現有醫學詞典從語料中抽取醫學實體，該方法是具有挑戰性的。首先，目前沒有完整的字典囊括所有類型的生物命名實體，所以簡單的文本匹配算法是不足以應對實體識別的。其次，相同的單詞或短語其意義可根據上下文的改變而指代不同的物體（如，
鐵蛋白可以是生物物質或實驗室測試方法）。再次，許多生物或藥物實體同時擁有多個名稱（如 PTEN 和 MMAC指代相同的基因）。因此，基于醫學詞典及規則只在最早期被廣泛使用。 Friedman等通過自定義語義模式和語法來識別電子病歷中的醫學信息。Wu等人使用了 CHV和 SNOMED-CT兩個醫學詞典得到了不錯的實驗結果。雖然該方法能達到很高的準確度，但無法徹底解決上述問題，也過分依賴專家編寫的詞典和規則，無法適應醫學領域詞匯不斷涌現的現實情況。

2）基于醫學數據源和數學模型的機器學習方法

該方法通過使用統計學和機器學習方法，結合醫學數據源的特點訓練模型，進行實體識別。在英文醫學實體抽取方面，最具代表性的標注語料是 I2B2 2010發布的英文電子病歷標注語料。另外，還有 SemEval、NTCIR等評測，以及 NCBI語料庫等，都提供了英文醫學實體標注數據。

目前常用方法有隱馬爾可夫模型（HMM），條件隨機場模型（CRF），支持向量機模型（SVM）等。Kazama 等人使用 SVM模型進行生物醫學命名實體識別，引入了 POS，詞緩存，無監督訓練得到的 HMM狀態等特征。該方法在 GENIA 語料庫中準確率高于最大熵標記方法，并能較高效地應用于大規模語料集。Zhou等人通過一系列特征訓練 HMM 模型，包括詞的構成特征，形態特征，POS，語義觸發，文獻內名稱別名等。其識別準確率達66.5%，在 GENIA語料庫中的召回率達66.6％。綜合以上方法，Chen 和 Friedman利用MEDLEE系統來識別與生物醫學文本中與表型信息相對應的短語。該系統使用自然語言技術來識別期刊文章摘要中存在的表型短語。生物醫學的實體識別常常可使用較小的表型相關術語的知識庫。Chen 和 Friedman自動導入與語義類別相關的數千個 UMLS 術語，如細胞體功能和細胞功能障礙，以及哺乳動物本體中的幾百個術語；并手動添加了幾百個術語。實驗結果表明，其實體識別準確率達 64.0％，召回率達 77.1％。雖然結果不高，但為之后的研究人員提供了一條可行的思路。

在醫學領域，命名實體識別的痛點在于數據質量的良莠不齊以及人工標注的專業性要求高。目前有專門研究如何降低對于數據標注依賴的研究，其原理主要是利用海量未標注數據持續提升模型性能，從小樣本中進行學習，自我探索逐步學習新知識，形成一個交互學習過程。

3）深度學習方法

深度學習近年來開始被廣泛應用于命名實體識別，最具代表性的模型是2011年Collobert提出的一個深層神經網絡模型，其效果和性能超過了傳統算法。Sahu等人所提出的 CNN 與 RNN 級聯的方法生成詞嵌入特征，其結果優于目前最好的算法且不需要過多的特征工程。在醫學領域，We 等人基于CRF和雙向RNN生成特征，再使用SVM 進行疾病命名實體識別。目前醫學信息命名實體識別任務中最主流的深度學習模型是 BiLSTM-CRF 模型，Jagannatha等人對比了 CRF，BiLSTM，BiLSTM-CRF 三種模型，以及一些它們的改進模型，在英文電子病歷命名實體識別的效果，實驗結果表明所有基于 LSTM 的模型都比 CRF效果更好，并且 BiLSTM 結合 CRF 模型能夠進一步提高評測結果 2%-5%的準確率。

1.2.2 實體抽取

本文將醫學實體關系抽取歸結為兩類： a）同類型醫學實體層級關系抽取，如疾病的“腸胃病-慢性胃炎”等；b）不同類型關系抽取，如“疾病-癥狀”等。

1）同類型醫學實體層級關系抽取

同類型醫學實體層級關系相對較為單一，主要是 is-a 和 part-of關系。由于醫學有其嚴謹的學科體系和行業規范，因此此類關系往往在醫學詞典、百科、信息標準中進行。 ICD-10、SNOMED等醫療詞典或醫療數據庫重點關注醫學專業術語、受限詞匯的分類和概念標準化工作，權威且涵蓋范圍廣，在數量和質量上都有所保障，被醫療行業廣泛認可，是抽取層級間實體關系的首選來源。針對具體的醫療詞典、知識庫提供的數據格式和開放 API 接口，可通過爬蟲、正則表達式、D2R映射等技術從中抽取分層結構，抽取三元組來匹配、添加上下位關系。

2）不同類型醫學實體關系抽取

不同類型醫學實體間的語義關系識別大致基于兩大不同數據源而實現。一是百科或其他結構化數據源，如 Medline，UMLS 等；二是半結構化的電子病歷。

醫學實體類型相對有限（主要是疾病、癥狀、治療、藥品等），目前通常在兩個實體間預定義好要抽取的關系類型，再將抽取任務轉換為分類問題來處理。如何預定義實體關系目前尚未有統一的標準，這取決于醫學知識圖譜構建過程中模式圖的設置、實體識別情況、語料來源、構建目的及應用場景等，如在 I2B2 2010 評測中，將電子病歷中的實體關系分成了醫療問題與醫療問題、醫療問題與治療、醫療問題與檢查三類。

近幾年，Uzuner 團隊在句子層面抽取了六類醫療實體關系，使用實體順序和距離、鏈接語法和詞匯特征來訓練 6 個 SVM 分類器，通過對比實驗，指出詞匯特征在實體關系識別中的重要作用。在此基礎上，基于Medline 摘要，Frunza 等抽取了疾病、治療間的三種關系，并引入 UMLS 生物和醫療實體特征，取得了不錯的實驗結果。而 Abacha 等在同樣的任務中使用人工模板和 SVM 的混合模型，取得了 94.07%的平均 F值。該研究指出，在樣本數較少時，模板匹配方法起主要作用，而面向海量樣本時則 SVM 起主要作用。

此外，在關系識別的分類方法對比研究中，Bruijn 等人在 I2B2 2010 評測中對比研究了有監督分類和基于 Self-training 的半監督分類的表現，表明了UMLS、依存句法分析結果和未標記數據對關系識別有著顯著影響。除了預定義關系然后轉換為分類任務來處理的方法，還有少量研究采用了模板匹配、統計共現等方法來抽取關系。如在 Medline 摘要中通過統計基因名的共現來提取關系，并根據共現矩陣生成了關系圖，或在 Medline 摘要中通過語法依賴樹進行圖的模式匹配，進而抽取因果關系。

1.2.3 屬性抽取

屬性抽取是指對屬性和屬性值對（attribute-value pair， AVP）的抽取，其中屬性的抽取是指為醫學實體構造屬性列表，如藥品的屬性包括適應癥、禁忌癥等。屬性值的抽取是指為各實體附加具體的屬性值，如阿莫西林是青霉素過敏者禁用。常見的抽取方法包括從開放鏈接數據提取、從結構化數據庫提取、從百科類站點提取、從垂直網站進行包裝器歸納、以及利用模式匹配從查詢日志中提取等。對于醫學知識圖譜來說，主要通過上文提及的醫學詞典和主流醫學站點來進行。值得一提的是，前者關于屬性和屬性值對的描述相對比較稀疏（特別對于中文領域），因此需從主流醫學站點進一步抽取整合。

對于 AVP 結構化程度比較高的網站，如維基百科、A+醫學百科6等，有規整的信息框（InfoBox），可以方便地爬取識別InfoBox 部分，直接提取該實體對應的屬性名和屬性值，置信度高，但規模較小。而對于更多形式各異、半結構化的醫藥站點和垂直文本來說，通常是構建面向站點的包裝器，從待抽取站點采樣并標注幾個典型的詳細頁面(Detailed Pages)，利用這些頁面通過模式學習自動構建出一個或多個類 Xpath 表示的模式，然后將其應用在該站點的其他詳細頁面中從而實現自動化的 AVP 抽取。

1.3 醫學知識融合

知識融合是高層次的知識組織，使不同來源的知識在同一框架規范下進行數據整合、消歧、加工、推理驗證、更新等步驟7，目的是解決知識復用的問題，增強知識庫內部的邏輯性和表達能力。針對知識圖譜中不同粒度的知識對象，知識融合可細分為實體對齊、知識庫的融合等。

1.3.1 實體對齊

醫療知識圖譜中知識來源的多樣性導致了知識重復、知識質量良莠不齊、知識間關聯不夠明確等問題。醫學實體在不同的數據源中存在嚴重的多元指代問題，例如阿奇霉素在百度百科中被稱為希舒美，在 A+醫學百科中別名有阿齊霉素、阿奇紅霉素、疊氮紅霉素等，商品名有泰力特、希舒美、舒美特等。因此實體對齊是醫學知識融合中非常重要的一步。實體對齊是判斷多源異構數據中的實體是否指向真實世界同一對象的過程。

現有的對齊算法有成對實體對齊與集體實體對齊兩類。成對實體對齊方法只考慮實例及其屬性相似度，包括基于傳統概率模型的實體對齊方法和基于機器學習的實體對齊方法。前者以Fellegi等人將基于屬性相似性評分的實體對齊問題轉換為分類問題的工作為基礎，至今仍應用于很多實體對齊工作中；后者常用的對齊方法有分類回歸樹算法、ID3 決策樹算法、SVM 分類方法、集成學習框架等基于有監督學習的方法和無監督學習下的層次圖模型等基于無監督學習的方法。

集體實體對齊在成對實體對齊的基礎上在計算實體相似度時加入了實體間的相互關系，分為局部集體實體對齊與全局集體實體對齊。前者典型算法是使用向量空間模型和余弦相似度計算實體相似性，準確率不高，但召回率和運行速度比較可觀。后者通過不同匹配決策之間的相互影響來調整實體間的相似度，又分為基于相似性傳播和基于概率模型的集體實體對齊方法。基于相似性傳播的方法通過初始匹配以“bootstrapping” 方式迭代地產生新的匹配[。Lacoste-Julien 等人在此基礎上提出的 SiGMa 算法更適合大規模知識庫，但需要一定的人工干預。基于概率模型的方法通過為實體匹配關系和決策建立復雜的概率模型，包括關系貝葉斯網絡模型、LDA 分配模型、CRF 模型和 Markov邏輯網模型等，可以提高匹配效果，但效率還有待提高。

當來自不同知識源的數據出現數據沖突時，需要考慮知識源的可靠性以及不同信息在各知識源中出現的頻度等因素。阮彤等人]在構建中醫藥知識圖譜時對數據源的可信度進行評分，結合數據在不同來源中出現的次數，對數據項進行排序，并補充到相應的屬性值字段中。

隨著知識庫規模擴大和實體數量的增加，知識庫中的實體對齊越來越受到重視，如何準確高效地實體對齊是未來知識融合的研究重點之一。

1.3.2 知識庫融合

構建知識庫時需求和設計理念不同會導致知識庫中數據的多樣性和異構性。對于龐雜的醫療知識來說，當前多數知識庫都是針對某個科室或者某類疾病或藥物來構建的，比如脾胃病知識庫[60]、中醫藥知識圖譜等，若要得到更完善的醫療知識圖譜，需要對不同的醫療知識庫進行融合以及將尚未涵蓋的知識和不斷產生的新知識融合到已有的知識圖譜中。醫療知識圖譜的構建是一個不斷迭代更新的過程。

知識庫融合的研究工作始于“本體匹配”，初期針對本體類別的語義相似性進行匹配。隨著知識庫規模擴大和結構復雜化，類別、屬性以及實體和它們之間的相互關系等也成為考慮的因素。Suchanek 等人提出的基于概率的知識融合算法PAIRS以兩個知識庫作為輸入，能夠高效地跨本體同時對齊類別、實例、屬性和關系。但 PARIS 需要一定的人工參與。由于人類的精力和認知有限，自動地從 Web 中獲取知識并進行融合十分必要。Dong 等人提出了將以消除歧義的三元組的形式從整個網絡中提取事實與使用 PRA 和神經網絡模型兩種方法從 Freebase 圖得到的先驗知識融合在一起的知識融合方法，可達到自動構建 Web 規模的概率知識庫的水準，提升了效率。

在醫療領域，Dieng-Kuntz 等人將醫療數據庫轉換為醫療本體，然后對其他文本語料使用半自動的語言工具進行語義提取，在人工控制下對本體進行擴展和補全，并用啟發式規則自動建立知識的概念層次。Baorto 等人將數據源添加到臨床信息系統時先確定數據的控制術語是否已經存在，然后將新術語添加到 MED( Medical Entities Dictionary)，同時建立審計流程以保證引入數據的一致性。

目前醫療領域知識圖譜的融合技術雖有一些有意義的嘗試，但仍需要大量人工干預，高效的知識融合算法有待進一步研究。醫療領域的知識圖譜也可以考慮采用眾包的方式進行知識融合。

1.4 醫學知識推理

推理是從已有知識中挖掘出隱含信息，而知識推理更注重知識與方法的選擇與運用，盡量減少人工參與，推出缺失事實，完成問題求解。在醫學知識圖譜中，知識推理幫助醫生完成病患數據搜集、疾病診斷與治療，控制醫療差錯率。然而，即使對于相同的疾病，醫生也會根據病人狀況作出不同的診斷，即
醫學知識圖譜必須處理大量重復矛盾的信息，這就增加了構建醫學推理模型的復雜性。傳統的知識推理方法有基于描述邏輯（Description Logic， DL）推理，基于規則推理（Rule-based Reasoning，CBR）與基于案例推理（Case-based Reasoning，CBR）等等。Bousquet C 等人使用基于 DAML+OIL 描述邏輯執行術語推理來改進藥物警戒系統中信號檢測；Chen R 等人采用 RBR 方法開發出糖尿病診斷系統以提供用藥建議；CARE-PARNER 系統則是基于CBR給出診斷結果與治療方案等等。

傳統的知識推理方法雖在一定程度推動醫療診斷自動化進程，但是也存在學習能力不足，數據利用率不高，準確率待提升等明顯缺陷，遠未達到實際應用的要求。面對日益增長的醫療數據，診斷時不可避免地會出現信息遺漏，診斷時間延長等問題。而人工智能，尤其是人工神經網絡（Artificial Neural Networks，ANNs）擁有從海量數據挖掘有用信息的天然優勢。 ART-KNN（ART-Kohonen neural network）與 CBR 相結合可以提高后者在推理故障情況的效率和準確度。神經張量網絡模型（neural tensor networks）在 FreeBase 等開放本體庫上對未知關系推理的準確率可達 90.0%。Karegowda A G 等人在 Pima 印第安人糖尿病知識庫（PIDD）中使用了遺傳算法（Genetic Algorithm，GA）和反向傳播網絡（Back Propatation Network，BPN）的混合模型，診斷準確率提高 7%左右。

與深度學習將知識圖譜作為數據源不同，基于圖的推理則將知識圖譜視為圖，以實體為節點，以關系或屬性為邊，利用關系路徑來找到節點間的多步路徑，Path Ranking 算法，PTransE就是利用這樣的原理來推斷實體間的語義關系。圖數據庫使知識圖譜能以圖的數據結構進行存儲，與傳統數據庫相比，前者在高維度關聯查詢的效率明顯提高。然而圖數據庫尚未成熟，暫無法完成太復雜的知識推理。較為流行的圖數據庫有 Neo4j，Titan，OrientDB和 ArangoDB等。王昊奮等人在醫療質量與患者安全輔助監控系統中，就將醫療本體的數據存放在 AllegroGraph 圖數據庫中。

與通用知識圖譜相類似，醫學知識圖譜也還有對跨知識庫知識推理、基于模糊本體的知識推理等問題的研究。

1.5 質量評估

數據的質量直接影響數據的運用，質量評估是保障數據的重要手段，可以量化數據質量，篩選出置信度高的數據。醫學診斷對數據和醫學知識圖譜的可信度和準確度提出了更高的要求。質量評估并不是構建醫療知識圖譜的最后一步，而是貫穿在知識圖譜的整個生命周期：早在 2013 年本體峰會（Ontology Summit2013）就對本體的生命周期的各個階段所要進行的評估工作做了相關的說明。

目前，知識圖譜/本體的評估方法可分為四大類：基于黃金標準的方法，基于本體任務/應用的方法，數據驅動的方法，和基于指標的方法。表 1 對比了這幾種本體評估方法。

具體到醫學領域，本體評估方法因應用場景而異：Clarke 等人使用基于任務評估方法來分析基因本體的從 2004 至 2012 年的性能；Bright 等使用本體設計原則和領域專家審查意見作為指標來評估本體在抗生素決策支持系統中的效果；Gordon 等通過將電子病歷，診斷案例和臨床實踐等來構造“黃金標準”來評估，改進傳染疾病本體 BCIDO等。為方便用戶進行本體評估和加快本體評估自動化進程，本體評估工具封裝了評估方法。不同的工具從不同的視角對本體的不同指標進行評估。針對評估的側重點，選擇合適的工具才能對本體作出符合應用要求的評估。

比較常用的本體評估工具有：ODEval，OOPS，OntoManager，Core等。除了醫學本體，醫學知識圖譜還涵蓋其他復雜多樣的信息，因此，質量評估還包括對數據質量，專家信息，知識庫等方面進行評估。

相比通用領域的知識圖譜，醫學領域的知識圖譜評估存在以下特殊性：a）鑒于醫學的嚴謹性，評估往往綜合多種方法進行多角度的評估，如 Bright 等利用本體設計原則和領域專家審查來進行等級評估； b）往往需設置等級較高的警告（alerts），如與處方相關的警報包括抗生素-微生物不匹配警報、用藥過敏警報、非推薦的經驗性抗生素治療警報、治療方案-癥狀間不匹配警報等；c）除了從形式方面評價知識圖譜以外，也注重于檢驗知識差距，因為知識的全面性和準確性將直接影響臨床決策支持的置信度。此外，醫學知識圖譜是融合計算機科學等眾多學科的交叉學科，評價指標不能簡單地照搬某個的學科的指標，而是應該綜合考慮眾多因素。知識圖譜/本體評估方法如下表所示：