官术网_书友最值得收藏!

1.1 理解數據、信息和知識

1-1 理解數據、信息和知識

在統計學等領域中,數據、信息和知識這些專業術語經常被使用。通常,這些術語有很多定義,偶爾會出現不一致甚至相矛盾的含義。數據分析的主要目標是了解數據或信息背后隱藏的知識以及更深入的邏輯或普遍規律。本書中的數據、知識等概念,均是在統計學或計算機科學背景下的概念,而非其他如心理學或認知科學中的概念。

1.1.1 數據和信息

數據是得出結論的前提。一般而言,數據和信息在一定的上下文中往往是相互關聯的。數據實際上是指離散的數字形式的客觀事實。以不同的方式組織和安排后,數據往往可以呈現出一些有助于解答公司業務問題的信息。

有時,數據看起來非常簡單,但可能數量龐大且無組織。這種離散的數據往往不能直接用來做決定或決策,因為這樣往往沒有太多意義。更重要的是,離散的數據之間沒有結構或關系。收集、傳輸和存儲數據的過程因數據類型和存儲方法而異,因此數據也經常有多種形式。常見的數據存儲形式如下:

(1)CSV文件;

(2)數據庫表單;

(3)文檔文件(Excel、PDF、Word等格式文件);

(4)HTML文件;

(5)JSON文件;

(6)TXT文本文件;

(7)XML文件。

在數據的基礎上,如果額外添加一些關系或關聯,我們就能得到信息。通常來說,這些關聯是通過為數據提供上下文或行業背景來實現的。這些行業背景很有幫助,它允許我們在一定范圍內回答有關數據的問題。例如,我們有一些籃球運動員的數據,包括身高、體重、位置、大學、出生日期、選秀權、選秀輪、首秀,以及招聘等級等。誰是第一個身高超過195cm的控球后衛?答案就在運動員的數據中。同樣,每位運動員的場均得分也是數據,而基于此數據,“誰今年場均得分最高?他的得分是多少?”對應的答案是“易建聯,場均23.2分”,這就是信息。

1.1.2 知識

當我們開始解釋和組織信息并進行使用時,知識就會隨之產生,以推動決策。知識是基于獲得的數據和信息的匯總。當有了匯總和提取而來的知識時,我們就能做出適當的決策并執行,即進行預測或判斷。

知識總量的增長有多種方式,當現有數據被重新排列或重組時,或當現有算法發生變化時,知識也在增加。一個形象的比喻是,知識就像一個箭頭,指向依賴于過去的數據和信息的某些算法的結果。

在許多情況下,知識也可以通過同數據和信息的交互得到。而對知識的理解,也尤為重要。近年來,隨著數據量的爆炸式增長,各行各業一直在努力理解現已擁有的所有數據和信息;大家都意識到數據分析的重要性。數據分析可以幫助我們得到最佳或現實的基于現有數據和信息的業務決策。

數據分析依賴于數學算法,這些算法往往用來說明數據之間的關系和知識。當數據沒有特定結構時,我們可以將數據轉換為結構化形式,并使其更貼近業務目標。數據分析和商業智能往往被一起談論,但需要注意的是,分析工作一般具有預測能力,而商業智能提供對歷史數據的分析結果。

通常而言,數據分析適用于更廣泛的數據作業,因此,數據協同目前在業務決策部門內部或外部尤為常見。在某些業務范式中,數據協同僅在內部進行廣泛的數據集的集合,但在大多數其他情況下,外部數據協同有助于連接各個層面的知識。兩種常見的外部數據協同的來源是社交媒體和消費者群。在后面的章節,我們會參考一些在現實生活中取得一些成就的商業故事和應用實例,通過分析數據來獲得知識和推動業務,改進決策,更好地了解客戶。

主站蜘蛛池模板: 东宁县| 安溪县| 郧西县| 金阳县| 上杭县| 江城| 双鸭山市| 巧家县| 高平市| 胶州市| 广南县| 临漳县| 东乌珠穆沁旗| 阿鲁科尔沁旗| 海丰县| 三穗县| 天水市| 津南区| 阿拉善左旗| 信丰县| 驻马店市| 德阳市| 泸西县| 钟山县| 河南省| 沭阳县| 阿巴嘎旗| 常山县| 大安市| 吴旗县| 武隆县| 辽中县| 永仁县| 阿城市| 蒲城县| 浦东新区| 定日县| 肥西县| 天等县| 彰化县| 高陵县|