
●○●數據的由來——從三千年前說起
人類是社會性動物,會思想,會表達,會學習,會互動。雖然越來越多的證據表明,這些能力不是唯一屬于人類的,動物界還有許多種動物具有這些能力,但人類無疑是能力最高的。
雖然無法從考古材料中確鑿地證明,但人類最初在發明語言和文字之前,一定是通過肢體動作、表情和聲音表達自己的思想、情緒和愿望的,這從對其他靈長類動物的研究中得到了充分的證明。一個人的動作、表情和聲音要想讓另一個人明白其含義,不是簡單的事,恐怕要經過漫長、反復試錯的過程,才能讓人們取得共識,讓某一個動作、表情或聲音表達一種確定的含義。一旦含義確定,就會成為一群人共同的精神財富,并代際相傳。
我們今天所能見到的人類的思想情感表達的最初形式是數千年前,甚至數萬年前人類刻畫的巖畫(有考古發現說有2萬~3萬年前的巖畫,但還未有足夠多的例證)。我曾在埃及、土耳其、伊朗、阿塞拜疆、法國、美國等地的古跡中見到許多新石器時期的巖畫,中國各地也都有巖畫遺存。這些巖畫共同的主題都是人、動物、植物、山水和日月星辰,以及某些無法識別的符號類標志。巖畫主題主要是種植、戰爭、歡慶和生活。我所見過的最壯觀的地畫(也該算巖畫的一種)應該算秘魯納斯卡地畫了,是三千多年前的人類用碎石堆放而成,地畫的直徑至少幾十米,大到數百米,只有乘飛機在數百米高空才能看明白地畫的形狀。
大約經過數千年甚至上萬年的努力,人類的思想表達從巖畫發展到木制品、金屬制品、動物制品等,表達內容也從簡單到復雜、具體到抽象,從自我或家族部落欣賞到進行權力表達或成為用來交換的商品。今天,有考古證據證明,至少在五千多年前,人類開始創造出文字并以石頭、植物纖維、動物骨頭等材料為依托,刻畫留存至今。無論兩河流域、埃及、希臘還是中國的古文字,主要是用來記載帝國興衰、天災人禍、祭祀占術以及國家律法的。這些文字多發現于古代王宮和相關的建筑遺址內。
自從文字發明后,就成為人類文明記錄、傳承和傳播的主要工具。隨著社會的發展,文字開始用于文化、思想、歷史、發明和行為規范等方面。在早期,學習文字、擁有文字和使用文字是極少數人的事情,他們多屬于權貴圈、宗教界和為這兩種人服務的“知識分子”。識字的人很少,因為掌握文字的成本極高,需要富有家庭的長期投入。記錄文字很難,因為能夠留存的文字不是書寫,而是刻畫。保存文字不容易,要有房屋,有院落,甚至要有警衛。這就需要財富,需要不用勞動的人,需要專門教授文字和學習文字的人,更需要使用文字的人。于是,一個學字、識字、用字的社會階層出現了,那就是社會精英階層,也就是社會統治階層及其附庸者。事實上,直到工業革命初期,世界各國無一例外地識字率都極低,不到10%,文盲占90%以上。中國直到20世紀50年代初,掃盲仍然是個大任務,文盲占總人口的80%以上。農業社會低下的勞動生產率決定了沒有多少社會財富可以用來讓人讀書識字,交通不便、社會流動率低、商品交換不發達決定了文字需求不多,只有統治者和精英階層需要。
人類文字發展史上有幾個重要的里程碑。第一個是拼音文字的出現。文字剛出現的時候都是象形文字,漸漸地有些難以找到相應物體形狀的抽象概念無法準確表達,只好用比較抽象的形狀代替。慢慢地,一些形狀逐漸固定,形狀數量逐漸減少,文字不再與所指物體相對應,而是與文字的發音關聯起來。一個原始的文字加上前綴后綴以及變形又生成更多的詞匯,使人們可以進行更復雜和更準確的思想表達和交流。在黎巴嫩首都貝魯特附近的古堡中,我見到了遺存至今最古老并基本定形的字母表,一共二十三個字母,鑲刻在三千多年前一位國王的棺材上,據說正是這位國王在確定字母表并加以推廣上起到了決定性的歷史作用。今天所有的拼音文字都是這個字母表的延伸、變化和改進,而象形文字只有中文還在大規模地使用和發展。
第二個里程碑是紙張的發明與普及。早期的文字保留在天然獲取物上,例如石頭、獸皮、獸骨和木頭等,這存在獲取不易、書寫不易、保存不易、流傳不易的問題。接著人類把文字保留在人工制品上,例如銅鐵制品、絲麻制品、竹木制品等,這又存在產量低、成本高的問題。埃及的莎草紙(可以歸為麻制品一類)雖然歷史悠久,但由于原料只在尼羅河兩岸生長,所以不能廣為流傳。只有基于紙漿或木漿造紙的技術發明后,文字才有了大規模普及與流傳的基礎。
第三個里程碑是印刷術的發明與發展。在文字出現后的兩三千年里,文字的傳播基本上是靠手抄。在歐洲和中東地區,宗教界是文字傳播的主要力量。在中國,直到宋代,手抄仍然是文字傳播的主渠道。漸漸地,石板印刷、雕版印刷被發明出來,但其仍然屬于小眾傳播的技術。直到活字印刷,特別是印刷機的發明出現以后,書籍才成為大眾可望而可及的東西,不再是極少數貴族的獨占品。海德堡印刷機的問世,使得海量印刷成為可能,促進了以報紙為代表的大眾傳播的出現。以文字與紙張相結合、以書籍報刊為主要形式的知識與資訊傳播是人類社會得以發展前進的主要手段之一。
文字的缺點是顯而易見的。首先,文字只有一種表達方式,無法將人們的聲音、動作、表情等完整地表現出來。其次,文字有太多的存在形式,今天世界上仍然被使用的文字有數百種之多,任何一個事物都有數百種文字表達方式,這使得文字的傳播成本高昂,傳播效率不高。第三,文字的學習掌握需要漫長的過程,花費不菲的代價,即使經過十來年的努力,能夠很好掌握文字表達技巧的人在社會上仍是少數。第四,文字的表達能力有局限性,對很多自然現象和社會現象只能描述,很難精確定義。
與文字差不多同時誕生的是另一個表達體系,那就是數字。數字當然是文字的一部分,但是相對獨立,自成一格。世界各地古文字中都有自己的數字符號,但進展不一。例如零的發現,印度最早,其他文字則要晚得多。時至今日,全球普遍采用阿拉伯數字體系,但伊朗仍堅持使用古代波斯語中的數字符號,使得我們這些外人在那里旅游時看不懂鈔票的面值。與一般文字相比,數字的好處是精確定義,毫無歧義。架構在數字之上的數學則是人類思想中最縝密、最有邏輯、最有使用價值的一部分,整個科學體系完全依賴數學的發展,而不能使用數學的思想則不屬于科學。
夾在文字與數字之間的是一種特別的東西。開始它是被文字表達,但卻有精確、客觀、無歧義的特征,多用來表達世上客觀存在的東西或已經發生的事實。在古拉丁文中,這個東西被稱為Datum,其復數形式為Data,后來在英文中普遍使用為Data,意思是“to give”和“givens”,指的是內涵確定、定義明確、毫無歧義的東西。在中文中Data被翻譯成“數據”,的確是個不錯的翻譯,有“數字化的根據”的意思。
例如,“日”這個中文詞,兩個最普遍使用的意思是指天上的太陽和時間上的一天。如果能精確說明“日”是太陽系的中心,“天”是地球自轉一周的時間,那么“日”就從普通的文字變成了數據。圓周率是文字,3.1416則是數據,盡管內涵是一樣的。要想精確定義一個事物,或者說一個事物被定義的精確度,隨著人類對世界的認識發展,越來越依賴數字化定義。哪個領域被研究認識的東西被數量化定義之后,它就變成了科學的對象,也就可以更多、更深、更快地被人類所利用。
數字與數據不是一回事。數字是普適性的概念,是對一切事物的數量性質的表達。數據則是具體性的概念,是對一個事物的數量性質的表達。“8848米”是一個數字,沒有任何具體內容,只是一個長度的數量表達。“珠穆朗瑪峰海拔8848米”是一個數據,特指世界最高峰的高度。“珠穆朗瑪峰是世界最高峰”是一個文字表達,具體但不準確。所以,文字是人類對世界認識的一種抽象表述,數據是比文字更高一層的抽象表述,數字則是最高層次的抽象表述。
對一個事物可以有多種數據表述形式,取決于人們的目的和認識程度。例如,中國人口為13.6億是人口數量的數據,中國人口中54%為男性、46%為女性是性別比例數據,中國人口平均受教育程度為9年是教育數據等。對一個事物的數據表述越多,對這個事物的定義越精準,人們對這個事物的認識就越深入,可利用程度就越高。
數據是個高難度的東西。看到一個東西用文字可以模模糊糊地去描述,用頭腦可以似是而非地去思索,但是要用一組數字去準確定義這個東西則是非常困難的事。可以說,人類歷史在一定意義上就是對外部世界、對內心世界、對人與人的關系從無知到有知,從模模糊糊地知到比較確切地知,然后逐漸開始加以利用的歷史。所以,數據在很長的時間里,甚至直到第二次世界大戰前,只在非常狹窄的領域,例如數學、統計學、物理、化學、經濟學等領域里得到比較充分的利用。在其他領域,例如政治學、社會學、歷史學等領域,則很難得到足夠的數據去利用,更不用說人際互動、文化現象、心理活動這些更復雜的現象了。直到不久前,甚至即使時至今日,數據這個概念對專業人士以外的絕大多數人來說,仍然是個冷僻、生疏、似乎遠隔萬里的東西。