- 白話大數據與機器學習
- 高揚 衛崢 尹會生等
- 743字
- 2019-01-03 16:36:44
2.1 什么是數據
數據是什么?這幾乎成為一個人們熟視無睹的問題。
有不少朋友腦子里可能會直接冒出一個詞“數字”——“數字就是數據”,我相信會有一些朋友斬釘截鐵地說。
一些朋友會在稍作思考后回答“數字和字符、字母,這些都是數據”。

圖2-1 例1

圖2-2 例2
不知道你現在是不是正在糾結哪個回答更正確,抑或第二個回答更合理一些,這里先放一放。先看下面這組例子(圖2-1):
這里有6個0,請問它是數據嗎?
再看這樣的例子(圖2-2):
這里有4個1和2個a,那么它是數據嗎?
也許你可能會問,“這到底是什么意思?”不錯,這就是我們在認識數據的過程中存在的一個很要命的問題,幾乎在我們出發時就攔住了我們的去路。
我們回過頭再想想剛才的問題可能會得到比較令自己和他人信服的回答:“承載了信息的東西”才是數據,換句話說,不管是石頭上刻的畫,或者是小孩子在沙灘上歪歪扭扭寫出的字跡,或者是嬉皮士們在墻上的涂鴉,只要它表達一些確實的含義,那么這種符號就可以被認為是數據。而沒有承載信息的符號就不是數據。這個觀點似乎看上去要比前面的回答理性得多,也科學得多,但是這個觀點真的不需要補充了嗎?
我們假設這兩個例子都有一些比較特殊的場景,假設第一組里出現的6個0其實是時分秒的簡寫,000000表示00點00分00秒,而如果寫作112349則表示11點23分49秒,那么它是不是也是數據呢?假設第二組出現的4個1和2個a其實是一組密碼,4個1代表一個被約定的地點,aa代表一種被約定的事件,那這組數字和字母的意義也有了相應的解讀,那么它是不是也是數據呢?
不難看出,一些符號如果想要被認定為數據,那就必須承載一定的信息。而信息很可能是因場景而定,因解讀者的認知而定,所以一些符號是不是可以被當做數據,有相當的因素是取決于解讀者的主觀視角的。不知道這個觀點你是不是認可,總之這點很重要。