1.2 知識的提取流程
現在我們了解了數據,它可用于描述商業或社會現象,并有助于我們進一步回答有關該現象的問題。為此,我們要盡量確保數據準確或完整、沒有錯誤,否則,基于該數據的推斷和理解將不準確或不完整。數據一般有不同類別,包括過往的性能數據、實驗數據和基準數據。過往的性能數據和實驗數據往往能夠自我解釋并提供含義,而基準數據是通過比較兩種不同物品或產品的特性,以進行標準衡量的數據。將獲取的數據轉換為信息,進一步處理后,即可用于回答問題,并得到知識。因此,下一步是如何實現信息的提取。
1.2.1 從數據中提取信息
數據往往以多種不同的形式收集和存儲,一般而言,這里所說的形式具體取決于數據表達的內容和它的實際意義。例如,籃球比賽的季后賽數據可以通過文本和視頻形式來存儲。
收集數據時一般需要處理和組織數據,因為收集到的原始數據可能會有不同的結構,甚至還會出現非結構化數據。處理和組織數據至少能提供一種尋找有關數據問題的答案的有組織的方式,如基于籃球運動員總得分進行簡單排序,基于城市名稱的字母順序排序。通常,從數據中提取信息的操作也涉及統計建模或計算等。這些從數據到真正重要的信息的提取過程,體現在了數據的查詢、訪問等操作。當前,隨著大數據時代的發展,巨大的數據集往往涉及更加復雜的轉換和處理方法,如過濾、聚合、應用相關性、縮放、歸一化以及分類等。
1.2.2 從信息中提取知識
一般而言,信息是可量化和可衡量的,信息的訪問、生成、存儲、分發、搜索、壓縮和復制,均可以通過信息量或數量來量化。信息可以轉化為知識,知識比信息更加具有確定性。
在一些領域中,知識不斷發展,尤其是當數據實時變化的時候。有時,我們可將知識看作數據和信息的組合,往其中添加經驗和專家意見以協助決策。知識發展涉及哪些步驟,以及數據如何發生變化,將在本書后續章節進行介紹。
在傳統的系統中,信息經過處理、分析后,往往以報告形式呈現。互聯網出現以來,現代化社交媒體已經成為一種新的信息提供平臺。社交媒體一直在使用外部數據,并通過數據分析提取知識。
例如,用戶通過媒體平臺發布文章,調查和收集消費者對一些產品品牌的意見,來對消費者情緒進行測量。各種非結構化的分析工具可以提供分析和統計數據,作為消費者情緒的證據,而分析和統計數據的過程,恰恰可讓數據可視化發揮重要作用。另一個例子,某媒體平臺在2022年舉辦了一項對電影評分進行預測的比賽,這項比賽的獲勝團隊在預測用戶評分方面實現了對該平臺現有方法超過10%的改進,這提高了該媒體平臺的商業價值。對知識的理解,意味著找到實際的解決方案,以及實現這些方案需要執行哪些商業步驟等。然而,這一過程的實現往往非常困難。從信息中提取知識并理解這些知識,需要創新的和創造性的思維,以及串連各種知識點的能力。在運用創造性思維的過程中,數據分析和數據可視化發揮了重要作用。
- 廈門大學歐洲語言文學系610基礎俄語歷年考研真題及詳解
- 動物免疫學技術
- CAXA實體設計2016基礎與實例教程
- 數據庫安全技術
- 朱紹侯《中國古代史(下冊)》(第5版)配套題庫【名校考研真題+章節題庫+模擬試題】
- 大學網球教程
- 中國民間文學概論(第2版)
- 蘇州大學外國語學院211翻譯碩士英語[專業碩士]歷年考研真題及詳解
- 王利明《民法學》(第4版)筆記和考研真題詳解
- 胡壯麟《語言學教程》(第3版)配套題庫【名校考研真題+課后習題+章節題庫+模擬試題】
- 全國名校新聞傳播史論歷年考研真題及詳解【5小時高清視頻】
- 吳侃《高級日語2》學習指南【課文重點+詞匯剖析+語法精解+全文翻譯+練習答案】
- 新聞報道寫作(廣東省特色專業系列教材)
- 免疫學實驗技術原理與應用
- 語言學