- Hadoop+Spark大數據分析實戰
- 遲殿委編著
- 835字
- 2023-09-08 19:24:00
1.1 什么是大數據
想了解什么是大數據?首先需要知道什么是數據,其實文本、聲音、圖片、視頻都是數據。例如你用手機數據線連上電腦的時候上傳的都是數據。
那么大數據如何定義呢?大數據指的就是數據體量達到了一定的級別,而我們現有的算法和工具無法在合理的時間內給予處理,這樣的數據才可以稱為大數據。當然,大數據還包括多樣性(Variety)、價值密度低(Valueless)、處理速度快(Velocity)等特點。但最重要的特點還是數據量(Volume)要大。我們知道描述一個物品很大的時候是需要帶上單位的。比方說,姚明很高,身高230。這樣描述顯然不準確,是cm(厘米)還是mm(毫米),如果230mm,那它只是個模型。同樣道理,大數據也需要帶有度量單位,下面是一些數據單位之間的換算關系。
● 1B(Byte,字節)=8bit
● 1KB(Kilobyte,千字節)=1024B
● 1MB(Mega byte,兆字節,簡稱兆)=1024KB
● 1GB(Giga byte,吉字節,又稱千兆)=1024MB
● 1TB(Tera byte,萬億字節,太字節)=1024GB,其中1024=210(2的10次方)
● 1PB(Peta byte,千萬億字節,拍字節)=1024TB
● 1EB(Exa byte,百億億字節,艾字節)=1024PB
● 1ZB(Zetta byte,十萬億億字節,澤字節)= 1024 EB
● 1YB(Yotta byte,一億億億字節,堯字節)= 1024 ZB
● 1BB(Bronto byte,一千億億億字節)= 1024 YB
● 1NB(Nona byte)= 1024BB
● 1DB(Dogga byte)= 1024NB
大家使用迅雷下載電影,下載速度顯示的500KB,B指的就是基本單位,即字節byte。其實大家對KB、MB、GB應該都是有一定的概念,例如使用手機拍一幅帥照大約1MB左右,一部電影差不多是幾個GB,甚至大家對TB也有概念,大家現在買移動硬盤基本都是TB級的容量了。而真正的大數據是需要至少達到這些單位的級別的,比如PB、EB、ZB、YB、NB等。
其實,這些單位是為大數據而生的,本來沒有這些單位。1PB就相當于美國國家圖書館藏書的所有內容之和。而Google每天都在處理20PB的數據。一般認為達到PB級別的數據才可以稱為大數據。這里最大的單位是YB,有家統計機構給出1YB相當于世界上所有海灘上的沙子粒數總和,準不準確無法驗證,這只是說明數據體量達到了一個海量的級別。當然,還有更大的單位沒有列出,比如比YB更大還有NB,等等,數據增長不停止的話,單位定義不會停止。
- 少兒人工智能趣味入門:Scratch 3.0動畫與游戲編程
- Bootstrap Site Blueprints Volume II
- Android Studio Essentials
- 信息可視化的藝術:信息可視化在英國
- Implementing Cisco Networking Solutions
- CKA/CKAD應試教程:從Docker到Kubernetes完全攻略
- Python機器學習實戰
- 學Python也可以這么有趣
- 大學計算機基礎實驗指導
- SQL Server與JSP動態網站開發
- ASP.NET開發與應用教程
- ExtJS Web應用程序開發指南第2版
- PyQt編程快速上手
- C語言編程魔法書:基于C11標準
- 系統分析師UML用例實戰