- 教育大數據:開啟教育信息化2.0時代
- 李珩
- 1550字
- 2021-12-30 13:28:56
3.1 多源異構數據集成技術
前面提到,教育領域的數據除了來自各個業務系統的關系數據,還有大量的視頻、音頻、圖片、文件等非結構化數據,以及日志、文檔等半結構化數據。這些由不同應用生成的信息存儲在許多不同的數據源之中,要有效地利用這些信息,需要從多個分布、異構和自治的數據源中集成數據,同時還需要保持數據在不同系統上的完整性和一致性。
舉一個查詢的例子:找出家庭困難、成績優秀的學生進行獎學金評定。要實現這個查詢,需要對三個系統的內容進行連接:教務系統里面獲取成績;學工系統里面獲取學生信息;校園卡系統里面獲取消費信息。如果用戶不得不自己訪問這三個系統,然后在三個系統上分別進行有關信息的查詢,再自己手動把這些信息連接起來,才能得到所需的信息,那么這種復雜度必定是不可忍受的。因此,數據集成的目標就是設計出一種合適的數據集成系統,它能夠自動為用戶完成這些操作,并且在可以接受的時間內返回查詢的結果數據。至于這些結果信息是否來自多個自治而且異構的數據庫,原來的形式是否各不相同等問題,都由系統來解決。
如何將來自不同數據源的異構數據進行整合,向用戶隱藏這些差異,提供一個統一和透明的數據訪問接口,是教育大數據領域需要解決的首要問題。
數據集成問題最早提出是在20世紀70年代中期,傳統數據集成系統主要采用多數據庫系統和聯邦數據庫系統兩種不同的模式進行構建。由美國惠普公司開發的早期多數據庫系統Pegasus,實現了對本地和外部自治的數據庫的訪問。由美國密歇根大學、加拿大滑鐵盧大學以及IBM 公司等合作開發的CORDS系統,實現了對多個異構關系數據的集成,并通過查詢采樣、查詢探測、模糊查詢等技術實現了查詢優化,但是CORDS 項目的最大局限在于僅僅支持關系型數據庫。此外,如IBM的Dataloiner以及Sybase的Omni Connect等多數據庫系統也相繼被研發出來。此時的多源異構數據集成還有很多尚待解決的問題,如模式沖突、查詢優化、動態融合等。
1996年,Alon Halevy、Anand Rajaraman、Joann Ordille三人在其合著的論文Querying Heterogeneous Information Sources using Source Descriptions上,提出了一個數據集成項目“Information Mainfold”,這個項目和其他同類的項目極大地促進了數據集成的發展,并導致一系列數據集成商業項目的誕生。
Information Mainfold對數據集成這二十來年發展的主要貢獻就是其所提出的對已知的數據源內容的描述方式。一個數據集成系統會給它的用戶提供一種模式,用于用戶提交他們的查詢。其中比較典型的代表就是中介模式,它通過提供一個統一的數據邏輯視圖來隱藏底層的數據細節,使用戶可以把集成的數據源看作一個統一的整體。數據集成系統必須預先建立好中介模式與數據源模式之間的語義映射(semanic mappings)。Information Mainfold提出了著名的語義映射的構建方法,后來被稱為LAV (Local-as-View)。在中介模式下(圖3-1),數據集成系統通過中介模式將各個數據源的數據集成起來,而數據仍存儲在各個局部數據源中,通過各個數據源的包裝器(wrapper)對數據進行轉換使之符合中介模式,用戶提交的查詢可通過查詢重寫轉化為對各數據源的可執行的一系列查詢,然后查詢引擎再進行查詢優化和執行。
圖3-1 中介模式
計算機網絡技術的發展,如中間件技術、XML 技術、Web Services 技術和本體(Ontology)技術的出現,增加了對半結構化文本數據和Web 數據的處理,出現了不少利用這些技術進行集成的成果。如基于點對點(P2P) 文件共享技術的Piazza系統,基于代理技術(Agent)的Info Sleuth信息集成系統, 基于網絡服務(Web Service)技術的Active XML系統,基于本體(Ontology)技術的 Observer 系統,以及基于語義技術的SIRUP 系統等。
如今這些系統的一個基本缺點在于需要很長的建立時間。美國學者 Michael J. Franklin等人提出了數據空間(Data Space)的概念,與傳統數據集成技術不同,數據空間是與主體相關的數據以及關系的集合。數據空間中的主體采用“Pay-as-You-go”的數據管理方式:不需要任何的建立時間就能夠給用戶提供服務。隨著時間的推移,用戶的需求不斷增加,數據空間“增量式”添加服務的內容,改進服務的質量,這個過程也是數據不斷被集成的過程。