- 醫療衛生信息標準化技術與應用(第2版)
- 李小華主編
- 3251字
- 2022-04-21 15:50:58
第一節 概述
一、數據
數據(data)是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態以及相互關系等進行記載的物理符號或這些物理符號的組合。
數據不僅指狹義上的數字,還可以是具有一定意義的文字、字母、數字符號的組合、圖形、圖像、視頻、音頻等,也是客觀事物的屬性、數量、位置及其相互關系的抽象表示。
數據的概念十分寬泛,在每個領域,數據都可以有不同的表述。在計算機科學中,數據是指所有能輸入到計算機并被計算機程序處理的符號的介質的總稱,是用于輸入電子計算機進行處理,具有一定意義的數字、字母、符號和模擬量等的通稱。
信息(information)與數據既有聯系,又有區別。數據是信息的表現形式和載體,而信息是數據的內涵,信息是加載于數據之上,對數據做具有含義的解釋。數據和信息是不可分離的,信息依賴數據來表達。數據是符號,是物理性的,信息是對數據進行加工處理之后所得到的并對決策產生影響的數據,是邏輯性和觀念性的。數據是信息的表現形式,信息是數據有意義的表示,數據只有對實體行為產生影響時才成為信息[1]。
數據語義(semantic)是數據“升華”為信息的橋梁。數據的表現形式還不能完全表達其內容,需要經過解釋,經過解釋的數據就成為信息。例如,40是一個數據,可以是患者的體重,或是患者的體溫,還可以是患者的診療費用,如果沒有解釋,這個40并沒有實際意義。數據的解釋是指對數據含義的說明,數據的含義稱為數據語義。有關語義的詳細內容,讀者可閱讀本書相關內容。
隨著社會進步和科學發展,特別是進入大數據時代,數據在國民經濟、社會生活和國家治理中扮演著越來越重要的角色、發揮著越來越重要的作用。2015年國務院印發《促進大數據發展行動綱要》,將大數據發展上升到國家行動和國家戰略層面,未來的時代將是數據時代。
醫療衛生領域數據是社會經濟活動中最常用的數據之一。醫療衛生領域數據具有以下特點:①種類繁多:包括人口健康數據、醫療保健數據、公共衛生數據、疾病控制數據、衛生監督數據等;②形態各異:包括數字、字母、符號、圖形、圖像、語音和光電等;③結構不同:既有連續的模擬量,也有離散的數據量,有結構化的,也有非結構化的。可以說,醫療衛生領域數據是所有數據中最復雜的一類。
例如,醫院信息系統應用包括以下常用的數據類型。
1.病歷
病歷數據通常由數字、字母、符號和圖形等組成。病歷數據可以有結構化和非結構化兩類,目前常用的是非結構化的自由文檔的格式(自然語言),或即在一定模板框架下醫生可自由編輯書寫。
2.醫囑
醫囑數據主要由數字、字母和符號組成。醫囑數據通常可采用結構化表達。
3.檢驗結果
檢驗結果數據主要由數字和字母組成,部分檢驗結果數據需要采用圖表和圖像表示。數字和字母組成的檢驗結果數據可采用結構化表達。
4.檢查結果
檢查結果數據的文字報告通常由數字、字母和符號組成;圖片報告則由圖像、圖形、線條等組成。檢查結果的圖像通常采用DICOM標準格式。
5.藥品
藥品數據主要由數字、字母組成。藥品數據可用結構化表達。
6.耗材
耗材數據主要由數字、字母組成。耗材數據可用結構化表達。
7.費用
費用數據主要由數字、字母組成。費用數據可用結構化表達。
8.患者管理
患者管理數據包括患者基本信息、掛號、入出轉、床位等數據,主要由數字、字母組成,可采用結構化表達。
醫療衛生領域需要使用大量類型和結構不同的衛生數據,為了便于管理和應用,人們需要對數據進行命名、分類、表達、編碼等處理,這個處理過程就是數據標準化過程。
二、數據元
從上述對數據的討論可知,數據需要解釋才有使用價值。對數據的定義、命名、建模、分類、編碼、賦值等都是對數據的解釋。長期以來,人們對數據的解釋提出了大量的技術和方法,本部分介紹目前在國內醫療衛生領域廣泛應用的數據元模型。
數據元(Data Element)是指由一組屬性規定定義、標識、表示和允許值的數據單元。數據單元是信息的基本單位,例如住院病案首頁中的病案號、姓名、入院診斷、主要診斷等都是基本的數據單元,為數據單元賦予屬性就成為數據元。
建立數據元的目的是建立標準化的數據表達方式和采集、存儲格式,以實現數據的正確表達及準確交換,實現數據在形式和內容上的統一,為數據的互聯互通和集成共享提供支撐。
衛生信息數據元是應用于醫學信息領域的數據元,其概念與通用數據元保持一致,但具有醫療衛生領域的特點,涵蓋醫療、衛生、疾控、保健、中醫的服務和管理等。用于醫療機構與外部系統進行信息交換,醫療機構系統之間進行信息交換,醫療機構系統內部之間進行信息交換,設計數據模型、數據庫的參考等。
數據元是衛生信息的最基本的結構化(標準)單元,每一項醫療衛生業務信息都可由若干數據元組成,例如一張標準格式的病案首頁就由190個數據元組成[2]。圍繞一定業務主題形成的數據元集合稱為數據集,數據元的實際應用通常是以基本數據集的形式實現的。
數據元與醫療衛生信息系統常用的數據字典是有區別的,數據字典通常主要用來解釋一個數據庫的表、字段等數據結構意義、數據字段的取值范圍、數據值代表意義等。數據元與數據庫無關,它是由一組屬性規定的數據單元,其屬性規定來自元數據。
三、元數據
元數據(metadata)是用來定義數據的數據,是描述數據或信息資源的組織、數據域及其關系的信息,又稱為數據的數據。
元數據是描述其他數據的數據,或者說是用于提供某種資源的有關信息的結構數據(structured data)。元數據是描述信息資源或數據等對象的數據,其使用目的在于:識別資源;評價資源;追蹤資源在使用過程中的變化;實現簡單、高效地管理大量網絡化數據;實現信息資源的有效發現、查找、一體化組織和對使用資源的有效管理。
元數據具有以下基本特點。
1.元數據一經建立,便可共享。元數據的結構和完整性依賴于信息資源的價值和使用環境,元數據的開發與利用環境往往是一個變化的分布式環境,任何一種格式都不可能完全滿足不同團體的不同需要。
2.元數據首先是一種編碼體系。元數據用來描述數字化信息資源,特別是網絡信息資源的編碼體系,這導致了元數據和傳統數據編碼體系的根本區別。元數據的最為重要的特征和功能是為數字化信息資源建立一種機器可理解框架。
由于元數據也是數據,因此可以用類似數據的方法在數據庫中進行存儲和獲取。如果提供數據元的組織同時提供描述數據元的元數據,將會使數據元的使用變得準確而高效。用戶在使用數據時可以首先查看其元數據以便能夠獲取自己所需的信息。
衛生信息元數據體系構建了衛生信息系統的邏輯框架和基本模型,從而決定了衛生信息系統的數據結構、功能特征、運行模式和系統運行的總體性能。衛生信息系統的運作是基于元數據來實現的。
元數據可以理解為從不同角度,或用不同的屬性來定義數據元,即對數據元進行標準化,這些不同的角度或屬性形成了各種不同的元數據模型[3]。
除了元數據概念,信息標準化中還會經常用到元模型(metamodel)的概念。與元數據一樣,元模型是用來描述其他模型的模型[4]。
元數據早期用于圖書資源描述,現在廣泛用于不同領域間的資源和互操作性描述。1995年3月在都柏林召開的第一屆元數據研討會上,產生了一個精簡的元數據集——都柏林核心元素集(Dublin Core Element Set)。由于它的簡練、易于理解、可擴展及能與其他元數據形式進行橋接等特性,使它成為一個良好的網絡資源描述元數據集。2003年,都柏林核心元數據元素集(The Dublin Core Metadata Element Set)被國際標準化組織(ISO)批準為國際標準ISO15836 Information and documentation-The Dublin Core metadata element set。我國于2010年修改采用ISO15836,發布了GB/T25100-2010《信息與文獻 都柏林核心元數據元素集》,成為國家標準[5]。
基于都柏林核心元素集,國際標準化組織(ISO)和國際電工委員會(IEC),1995年發布了ISO/IEC 11179:1995 Information technology-Specification and standardization of data elements《信息技術-數據元的規范與標準化》,2002年我國等同采用ISO/IEC 11179,發布GB/T18391-2002《信息技術-數據元的規范與標準化》,用于指導國內數據元標準的開發與管理。2004年,ISO/IEC 11179更名為Information technology-Metadata Registries(MDR)《信息技術 元數據注冊系統》。2009年,GB/T18391-2002也被GB/T18391-2009《信息技術 元數據注冊系統(MDR)》代替。
國內衛生信息數據元標準的開發,遵守的是GB/T 18391《信息技術 元數據注冊系統(MDR)》。掌握GB/T 18391描述的數據元模型原理和方法,是做好衛生信息數據元標準的開發的前提。