官术网_书友最值得收藏!

1.1 數據是什么

信息科學領域面臨著一個巨大挑戰——數據爆炸。IDC Global DataSphere指出,2021年全球數據總量達84.5 ZB,預計到2026年,全球結構化與非結構化數據總量將達221.2 ZB。然而,人類分析數據的能力已經遠遠落后于獲取數據的能力,這個挑戰不僅體現在數據量越來越大、維度越來越高,而且體現在數據獲取的動態性、數據內容的噪聲和互相矛盾,以及數據關系的異構與異質性等。

在信息管理、信息系統和知識管理學科中,“數據、信息、知識、智慧(Data、Information、Knowledge、Wisdom,DIKW)”層次模型是最基本的模型,具體如圖1-4所示。DIKW模型以數據為基層架構,按照信息流順序依次完成數據到智慧的轉換。四者之間的結構和功能方面的關系構成了信息科學的基礎理論。在數據科學中,這種模型也作為一種數據處理流程,完成原始數據的轉化。

圖1-4 DIKW模型

從信號獲取的角度看,數據是對目標觀察和記錄的結果,是關于現實世界中的時間、地點、事件、其他對象或概念的描述。在表達為有用的形式之前,數據本身沒有用途。關于數據,不同的學者給出了不同的定義,主要分為以下幾類。

數據即事實:數據是未經組織和處理的、離散的、客觀的觀察結果。由于缺乏上下文的聯系和解釋,因此數據本身并沒有含義和價值。如果將事實定義為真實的、正確的觀察,那么不是所有的數據都是事實,錯誤的、無意義的和非感知的數據不屬于事實。

數據即信號:從獲取的角度理解,數據是基于感知的信號刺激或信號輸入,包括視覺、聽覺、嗅覺、味覺和觸覺。每種感官對應某個信號通道,因此數據也被定義為某個器官能接收到的一種或多種能量波或能量粒子(光、熱、聲、力和電磁等)。

數據即符號:無論數據是否有意義,都可以被定義為表達感官刺激或感知的符號集合,即某個對象、事件或所處環境的屬性。代表性符號如單詞、數字、圖表和圖像視頻等,這些都是人類社會用于溝通的基本手段。因此,數據就是記錄或保存的事件或情境的符號。

主站蜘蛛池模板: 济宁市| 大连市| 喀什市| 安仁县| 留坝县| 鲜城| 汨罗市| 西盟| 巨鹿县| 达日县| 田林县| 吴堡县| 马鞍山市| 志丹县| 汉川市| 东乡| 海宁市| 专栏| 常州市| 周宁县| 玛多县| 天水市| 吉林省| 靖安县| 安宁市| 应用必备| 广河县| 门头沟区| 祥云县| 南川市| 丹寨县| 岑巩县| 黄浦区| 盈江县| 江安县| 永定县| 长海县| 宁陕县| 老河口市| 普宁市| 秦皇岛市|