方正國際軟件有限公司醫療衛生事業部,北京 100080
Healthcare Industry, Founder International Co., LTD. Beijing, China 100080
摘 要:隨著數字化醫院的發展,醫院信息系統產生出大量的數據,如何管理這些歷史數據,讓信息發揮最大的作用,為決策者服務變得尤其重要。本文闡述了數據倉庫在醫院信息管理的實際應用,總結了醫院數據倉庫的構建及其OLAP應用,采用某醫院的HIS數據庫作為數據源,構建針對醫院主題進行分析的數據倉庫。實現了門診業務、住院業務、抗菌藥物管理等主題的多維數據分析,解決了現有系統中對歷史數據分析困難的問題。
關鍵詞:數據倉庫,醫院主題,關鍵績效指標(KPI),OLAP應用
1.前言
目前,全球每天產生高達100,000T字節源自醫療信息(2010年)的數據,且在近幾年來的所有數據中就有90%的數據是在過去兩年間產生的。我國信息化醫院的建設從80年代初期起步,經過了近30年的發展已經日趨成熟,醫院系統的數據庫中都存有大量的數據。在數據量爆炸式增長的今天,如何管理這些歷史數據,讓信息發揮最大作用、并易于理解和處理為決策者提供有價值的信息服務,就變得尤為重要。這信息服務中需要滿足醫院不但要知道過去發生的事情,還要知道現在發生什么,未來可能會發生什么,以及應采取哪些措施的各種信息需求。
通過數據倉庫技術,可以實現對醫院數據的整合,為決策者提供決策的數據基礎。目前,我國醫院的數字化平臺都是由多個子系統組成,各個子系統功能獨立,子系統之間通過接口進行信息交互。由于子系統之間的供應廠商不盡相同,在數據庫軟件的選擇和數據內容的定義也會是不同的,因此需要選擇一個公共的平臺作為基礎數據的基礎,在此平臺之上構建數據倉庫。例如,可以選擇HIS(醫院管理信息)系統作為數據倉庫的平臺是醫院信息化的基礎,其提供藥房藥庫管理、財務管理、人事管理、住院門診收費等眾多醫院運營的基礎管理功能。醫院其余子系統都有HIS系統接口,并通過接口傳輸信息。
2.醫院主題與重點績效指標(KPI)
在醫院信息化管理中,為了更加深入、全面地掌握醫院各業務的運營狀況,我們采用分主題制定的醫院管理模式。醫院主題是指面向醫院各業務的一組業務指標的集合。它可以針對不同的醫院業務設定其KPI(重點績效指標)予以衡量,并自主地選擇該業務下的多個維度進行分析與比較。比如對人員構成的分析就可以從編制、職級、工作性質、部門等多個不同維度,對醫院的人員構成,如在職員工數、平均年齡以及離職率進行多維分析;多維分析是指按照預先設定的分析角度,對指標進行分析,比如機構、時間、職稱、學歷、年齡段等。
目前,我們參考了《三級綜合醫院評審標準與評審細則》(2011年版)、《全國醫療衛生系統“三好一滿意”活動2012年工作方案》、《三級綜合醫院醫療資糧管理與控制指標》等衛生部指導文件,某醫院所有報表,醫療行業核心期刊(中國數字醫學、中國藥學)等國內外論文,人民醫院一、二期等數據決策系統實踐項目,從而大范圍地把醫院的主題分析分為:門診、藥房藥庫、住院、抗菌藥物、醫院感染、醫療保險、基本監測等醫院主題分析,并根據醫院的實際情況,為每個主題選取了多個能夠全面衡量主題業務情況的KPI。
在門診的主題分析中,我們選擇門診人次、急診人次、每診桌工作量、預付費人次、門診收入、門診人均藥費、平均處方金額等KPI來衡量門診業務與財務,可以監測門診業務的門診量是否異常,分析門診不同收費類型的收入占比,并進一步從時間、科室、病人、掛號類型等維度分析醫院門診的基本運營情況。
在藥房藥庫的主題分析中,我們選擇藥品收入、藥品收入占比、當前藥房(藥庫)總庫存額、藥品庫存周轉率、庫存藥品品規數、盤盈盤虧量、毒麻藥領取數量等KPI分別來衡量藥房與藥庫業務與財務,并從藥品通用名、藥品規格、供應商等維度分析醫院藥房藥庫的某個時間段的出入庫量、金額和各類藥品的庫存情況。
在住院的主題分析中,我們選擇了年住院患者出院例數、每住院人次費用、住院患者實際占用總床日等KPI來衡量住院業務與財務,從時間、病區、病種、科室等維度分析對住院床位使用情況進行合理的了解并提出合理的解決方案,更重要的是能夠對住院治療質量做出實時的監控,如住院死亡率、跌倒率、壓瘡率等。
在抗菌藥物的主題分析中,我們選擇了抗菌藥品金額、處方西藥金額、DDDs統計、DDDs強度、住院病人抗菌藥物使用率等KPI來衡量醫院抗菌藥物的使用情況,從時間、科室、醫生、藥品分級、藥品類型等維度分析醫院抗菌藥物的使用量、使用金額、使用品規數,對超過規定使用的情況進行控制,有效防止出現濫用抗菌藥物的情況。
在醫院感染的主題分析中,我們選擇了院感總發生率、手術部分總感染率、血管導管所致血行感染率等KPI從時間、科室、病房等維度分析患者在手術過程中發生感染的情況,監測重點科室,比如重癥醫學科中患者在使用不同器械過程發生感染的例數等。
在醫保的主題分析中,我們選擇了醫保病人總費用、醫保在院病人數、醫保費用返還額等KPI從時間、病區、病人身份等維度來分析某時間段中不同身份不同病人的醫院患者的報銷費用、費用返還情況等,并實時地通過計算醫保病人的人均費用判斷醫保收費是否出現異常,實施適當的解決措施。
最后,通過基本監測主題分析,我們能夠以一個更加全面與簡潔的方式去了解與監測醫院所有的業務運營情況,因為它分成資源配置、工作負荷、治療質量、工作效率、患者負擔、資產運營和科研成果七個方面,多維度分析了醫院中基本設備使用管理、接收患者的業務量、治療服務質量水平、各類型員工的工作狀態、患者的經濟負擔、資產財務的合理規劃、醫院科研技術的成長情況做出了最全面的展現。
3.醫院數據倉庫總體方案與構建
數據倉庫自從1988年被Inomn提出后,經歷快速的發展。目前有兩種數據倉庫體系結構。Bill Inmon提出的CIF體系結構與Ralph Kimball博士提出的MD(Multi-Dimension)體系結構。兩種體系結構都能實現數據的整合和數據分析功能。
3.1 CIF數據倉庫結構與MD數據倉庫結構
CIF數據倉庫開發以企業數據模型驅動,采用自頂向下的開發方式。自頂而下的開發方式需對所有系統進行分析,并要求系統相對穩定,不能輕易更換系統。開發周期長,可能不會很快看到結構。
MD體系結構是基于多維數據集市的數據倉庫結構,它所有的BI分析都是以多維設計為基礎[1]。MD采用自下而上的開發方式,采用迭代的方式逐一完成各個主題的數據集市。MD機構中缺少的是一個獨立的數據倉庫。在MD結構中,數據倉庫的是虛擬的,并且是由所有的獨立數據集市構成的。
3.2 醫院數據倉庫結構選擇與構建
從復雜性來說,CIF數據倉庫是一個企業級的數據庫,它所涉及的數據表必然包括所有主題的數據內容,在初期構建是異常的困難,很容易導致數據冗余或者數據的不規范。隨著企業的業務擴展,會增加相應主題的數據表,CIF數據倉庫數據開發會持續很長時間,對于醫院大數據庫表的增加和維護也是一項艱巨的挑戰。而MD結構,將不同的主題拆分為不同的數據集市;把復雜的業務數據庫簡化為面向主題的多維數據集。但是維度的復用將是數據集市設計的重點。醫院的系統經常有更換的可能性,如果采用CIF結構,底層數據結構發生變化,對整體的ETL和OLAP分析都會產生巨大的影響,而DM結構,只需要更新相關主題的ETL與數據維度即可,不會產生巨大的修改。綜上所述,采用MD結構的數據倉庫更適合醫院數據倉庫開發。
多維模型數據庫設計方法的中心是星型連接[2]。中心也稱之事實表,圍繞著事實表是維度表。事實表數據由兩個部分組成,維度鍵與度量值。度量值(Measure)是決策者所關心的具有實際意義的數值。例如,門診人次、手術次數。事實表中存放的事實數據通常包含大量的數據行。事實數據表的主要特點是包含數值數據,而這些數值可以統計匯總以提供有關單位運作歷史信息。維度鍵是維度表的外鍵,事實表中一般不包括描述性信息。維度是人們觀察的角度。例如,我們想觀察抗菌藥和抗菌藥的使用比例,藥品就是一個維度;希望看看哪個藥庫庫存最多,藥庫就是一個維度。包含維度信息的表是維度表。維度表包含描述事實數據表中的事實記錄的特征。有些特性提供描述性的信息,如病人的性別,年齡,醫保類型,有些特性則用于指定如何匯總事實數據表數據以便為分析者提供有用的信息,如病人的性別。
4 醫院數據倉庫ETL設計與實現
ETL是英文Extract、Transform、Load的英文縮寫,在數據倉庫項目中代表數據從業務數據庫中抽取、轉換到最終裝載到數據倉庫。通常后臺的ETL系統常常要花費70%的時間和工作量[3]。
4.1醫院數據倉庫ETL設計
第一步:統一維度處理。由于數字醫院由多個子系統組成,各個系統相互獨立。需要把
維度進行統一,讓不同主題的事實表共享相同的維度。以病人數據為例,HIS中病人信息、手麻系統中的病人信息與電子病歷中的病人信息數據存儲的內容可能不盡相同。雖然后兩個系統可以獨立做成兩個主題,但是如果各自都有獨立的病人維度,會導致各個主題之間相互獨立。因此我們需要基于HIS系統中病人一個基礎病人表,然后在這張表基礎上添加其他系統中額外的病人的數據,所有主題都能連接這唯一的病人維度即可進行病人角度的分析。
第二步:臟數據清洗。業務數據庫都存在大量的臟數據,臟數據如果導致數據報表的展現錯誤,會影響到醫院管理者的決策,所以需要盡可能刪除業務數據中的臟數據。臟數據主要體現在:重復數據,空數據,錯誤數據與應該刪除但未刪除的數據。在ETL的過程中進行數據清洗,修改明顯的錯誤數據,同時也需要各子系統的管理員對自己的歷史數據進行維護。
第三步:增量抽取。由于子系統的維護人員會經常修改歷史數據,所以簡單的抽取增量是不能保證數據的正確性。通過調研,我們定義一個時間點把業務數據庫中的數據分為穩定歷史數據和非穩定歷史數據。每日抽取時間點后的非穩定里數據與穩定數據拼成最新的全量數據。通過修改時間點來調整穩定數據的范圍。
4.2醫院數據倉庫的實現
住院的主題分析,我們可以先從HIS系統中抽取出與住院業務有關的數據,如住院收費信息數據、住院病人信息表、住院病人醫囑信息數據、出院病人信息數據、病房基本信息數據、藥房基本信息數據、藥品基本信息數據、病人基本情況信息數據、住院床位信息數據等相關數據信息,對這些數據進行整合、統一維度處理、清洗與關聯,搭建適合住院業務的數據倉庫,制定增量抽取方案。數據倉庫結構如下圖所示:
表4.1 住院業務的數據倉庫結構圖
在住院業務的數據倉庫結構圖中,我們把住院病人信息數據、住院病人醫囑信息數據、出院病人信息數據作為數據倉庫中的主表,時間信息、病房信息、藥品信息、病人信息、床位信息、醫囑類型信息、病人身份信息等作為附表,關聯于主表上,供OLAP應用中的多維度分析。
5 數據倉庫OLAP應用
聯機分析處理(OLAP)的主要特點,是直接仿照用戶的多角度思考模式,預先為用戶組建多維的數據模型,在這里,維度的是用戶的分析角度。例如對藥品收費數據的分析,時間周期是一個維度,藥品類別、開單科室、開單醫生也分別是一個維度。一旦多維數據模型建立完成,用戶可以快速地從各個分析角度獲取數據,也能動態的在各個角度之間切換或者進行多角度綜合分析,具有極大的分析靈活性。這也是聯機分析處理在近年來被廣泛關注的根本原因,它從設計理念和真正實現上都與舊有的管理信息系統有著本質的區別。
下面我們以住院主題分析中的住院藥品分析作為示例說明OLAP的應用:
圖5.1住院藥品分析的OLAP應用
上圖為住院藥品使用分析,左側為可供用戶自行選擇的時間周期維度,分為年份、季度、月份、藥品大(小)類別、藥劑類型、藥名。界面上方的兩個表格分別是使用病人姓名為單位計算每位住院病人的藥費總費用、住院總費用、藥費占比,和使用藥品為單位計算此種藥品的使用數量,平均用藥天數。界面下方左邊的兩個柱形圖分別以藥房為計算維度,統計了各個藥房藥品發放情況,界面下方右邊的一個預警盤,統計了出院病人的藥占比率。
綜合住院藥品主題的維度包括時間維度、藥品分類、藥品名稱、藥品劑型、藥房名稱、病人姓名。用戶可以從多個角度進行數據的分析,例如:2010年整年藥占比值前十的患者情況,2011年Q1葡糖糖的使用情況;2012年7月科室抗菌藥物收費排名。用戶不會局限于固定的報表格式,可以靈活的在各個角度靈活組合,找到自己想要的分析數據。
6 總結
隨著信息技術的發展,醫院管理水平的提高,構建科學、合理的數據倉庫已經是時代的趨勢。通過數據倉庫技術,對醫院的各個業務系統數據進行整合,為醫院管理者提供決策的數據支持,進而提高醫院的核心競爭力。
[1] Imhoff Claudia, Nicholas Galemmo, Jonathan G.G. Mastering Data Warehouse Design Relational and Dimensional Techniques[M]. Wiley Pub., 2003
[2] 何玉潔,張俊超. 數據倉庫與OLAP實踐教程[M]. 北京:清華大學出版社,2008
|