官术网_书友最值得收藏!

1.2 信息的定義和特征

數據處理的目的是為了獲得信息,信息是一切物質的普遍屬性。研究數據,就必須研究信息。

1.2.1 信息的定義

“信息”的英文是information,其源自拉丁語in-formare,拉丁語的原意是“預見”或“心中已有的表征”。與信息相關的英文還有message。Message是古法語,源自拉丁文mittere,拉丁語的原意是傳遞,中文譯為“消息”或“信息”。《牛津大詞典》記載,“information”一詞在中世紀被釋義為傳播的行為,近代以來才被釋義為傳播的內容。

中文“信息”一詞拆解開來,很有意味。“信”是人(左)言(右),指音信;“息”是自(上)心(下),指呼吸。我國早期的文字中并沒有“信息”一詞,類似的詞有“兆”“音”“信”和“訊”等。漢字“兆”是按照商代占卜時甲骨上的裂紋象形創造的,其本意是指甲骨燙灼后產生的裂紋,引申為“征兆”“預示”之意。漢字“音”源于“言”,是指“有節奏的聲”,也指消息。《詩經》中有“縱我不往,子寧不嗣音”的詩句,說的是音信。訊是指“問”,問來的消息就是音訊或信息。在我國香港和臺灣地區,信息就被稱為“資訊”。“信”表示人之言,就是傳來的話,朋友之間依靠書信或口信傳遞消息。后來,音信和消息在詩句或文章中組合就產生了“信息”一詞,表示音信。唐朝詩人杜牧寫的題為《寄遠》的詩中就有“塞外音書無信息,道傍車馬起塵埃”這樣的用法。

作為科學術語,信息的定義可以追溯到“熵”的定義。因為兩者的本質相關聯,所以科學家常用“熵”對信息進行定義。1865年,德國數學家克勞修斯(R.J.E.Clausius)首先提出了“熵”(entrophy)的概念。他認為熱量從高溫物體流向低溫物體是不可逆的,“熵是描述熱力學不可逆過程的量”,其物理表達式如下。

克勞修斯說“entrophy”源于希臘語“變化”,他證明熵這個量在可逆過程不會變化,在不可逆過程會增加。這就是著名的熵增加原理:“任何孤立系統中,系統的熵的總和永遠不會減少”,或者說,自然界的自發過程總是朝著熵增加的方向發展的[6]。這是利用熵的概念表述的熱力學第二定律。

隨著統計學理論的出現,科學家們開始使用統計學理論對熱力學進行解釋和概括。1877年,奧地利物理學家玻爾茲曼(L.E.Boltzmann)從統計物理學角度研究熱力學不可逆過程及熵的微觀意義,他認為系統中微觀粒子的運動可以解釋系統的宏觀現象。他給熵做的定義是“熵是系統內分子熱運動無序性的一種量度”,并提出用“S∝lnW”的關系式表示系統無序性的大小[7]。1900年,德國物理學家普朗克(M.K.E.L.Planck)引進了比例系數k,將上式表示如下。

S=klnW

其中,S是系統的熵,k為玻爾茲曼常量,W是任一宏觀狀態下的微觀狀態數。該公式表明,W越大,在該宏觀狀態下可能所處的微觀狀態數越多,系統就越混亂無序,熵值也就越大。這個公式后來被刻在了玻爾茲曼的墓碑上,被稱為“玻爾茲曼公式”。

1878年,美國著名物理化學家吉布斯(J.W.Gibbs)認為,如果考慮系統中存在多個微觀狀態i,每個微觀狀態i對應的能量值是Ei,pi是微觀狀態i在系統中出現的概率,kB是玻爾茲曼常數,他將熵的公式改寫如下[8]

吉布斯將熵的定義進一步拓展到了能量不唯一確定的系統,使熵成為非平衡態統計研究中最基本的物理概念。吉布斯也第一次提出“熵是一個關于物理系統信息不足的量度”。由此,他將統計學更廣泛地拓展到了物理學,使物理學不得不考慮事件的不確定性和偶然性。吉布斯的貢獻,使人類對信息的科學認識有了重大進步[9]

1871年,英國物理學家麥克斯韋(J.C.Maxwell)提出了似乎違反熱力學第二定律的麥克斯韋妖悖論(Maxwell Demon Paradox)。麥克斯韋妖是在物理學中假想的妖,它在一個容器中能探測并控制單個分子的運動,并通過打開和關閉一個無摩擦的活門,讓一個容器內運動快(熱)的分子和運動慢(冷)的分子分別占據不同的區域,從而使容器中不同區域的溫度不同。麥克斯韋妖的引進,可以把高溫和低溫分子集合當成兩個熱源,而且在它們之間放置一個熱機,讓熱機利用溫差對外做功。這似乎是一臺免費做功的永動機,但這個結論似乎與熱力學第二定律相違背。麥克斯韋妖悖論一直困擾著物理學界,直到科學家將信息的概念引入熱力學過程[10],麥克斯韋妖悖論才獲得了部分解釋。1929年,匈牙利物理學家希拉德(L.Szilard)引入了一個單分子熱機模型,將信息的概念引入熱力學循環中,他直觀地認為麥克斯韋妖在測量分子處于左邊還是右邊的過程(即獲取信息的過程)中會消耗能量,從而導致整體的熵的增加[11]。但當時這一直觀判斷還缺乏科學的理論證明,麥克斯韋妖悖論仍未被完全解決。

1928年,美國科學家哈特萊(R.V.Hartley)在研究信息傳輸時提出了信息量的公式[12]

I=logm

其中,I是信息量,m是信源以相等可能產生的消息的數量。

1948年,美國數學家、信息論的奠基人香農提出了信息熵的概念,并用熵首次給出了信息的明確定義。他認為,“信息是用來消除隨機不確定性的東西”。香農信息熵的公式為:

其中,S是信息熵,是對信息的量度;i是多種可能性中的某種可能性;pi是發生某種可能性i的概率[13]

香農指出,與信息相關的因素主要有兩個:一是消除隨機不確定性的事件;二是該事件結果的多種可能性的消除。香農信息熵的公式表明,如果某個事件減少了整體可能性,那么與事件結果相關的信息(量)就與可能性數量及它們各自的概率具有了信息熵公式中表明的函數關系。例如,在8個人中選出1個人當組長,每個人都有可能當選,有8種可能性,但誰最終能當選,在選舉結果出來之前是不確定的。因此,選舉結果被公布的事件(發布信息的事件)就是一個消除不確定性的事件。在8個人中,張三被選中當組長的結果就是該事件結果的一種可能性;如果張三被選中當組長,意味其他7種可能性被消除。所以,選舉結果被公布的事件中的信息(量)就是消除8種可能性的熵的量度。

香農認為,我們觀察現象可以獲得相關的信息。觀察現象的過程,其實是尋找問題答案的過程。所以,信息也被稱為資訊。問題的答案總是可以還原到“是”和“否”,完全可以用二進制中的1和0表示。二進制中的一個符號(0或1),代表著問題的二選一答案,香農把它定義為比特(bit),并指出比特就是信息的單位。當我們回答有兩種可能性的問題時,例如,“遠處亮的那盞燈是紅燈還是綠燈?”紅或綠二選一,只需要1比特信息量;當我們回答有四種可能性的問題時,例如,“遠處兩盞燈發出了什么信號?”兩盞紅、綠燈有四種組合(紅紅、紅綠、綠紅、綠綠),就需要2比特信息量;當我們回答有八種可能性的問題時,例如,“遠處三盞燈發出了什么信號?”三盞紅、綠燈有八種組合(紅紅紅、紅紅綠、紅綠紅、紅綠綠、綠紅紅、綠紅綠、綠綠紅、綠綠綠),需要3比特信息量;以此類推,有N種可能性的問題用“是”和“否”

回答,最多能夠用log2 N比特的信息就可以度量[14]。也就是說,如果所有可能事件發生的概率都相同,那么N個事件中某一個事件所發生的信息量lg(以比特計算)就是以2為底、N的對數log2 N,即lg=log2 N。例如,“16種可能性中選出1種”與“8種可能性中選出1種”產生的信息相比,信息量不同,一個是4比特,一個是3比特,因為前者減少了更多不確定性,所以產生了更多信息。

香農證明,任何信息都可以被看作對任何有限問題的任何回答,也都可以編碼為比特串。比特數據是傳播信息的通用媒介。通過“描述觀察所需的最小比特值”,就能測量此信息量。而且,香農認為,對有序程度的測量與對無序程度的測量是等同的。在高度無序的環境中進行測量會產生大量信息;相反,在高度有序的環境中進行測量所產生的信息則較少。香農對信息論的發展做出了巨大貢獻,被尊稱為“信息論之父”。香農信息論是現代信息與通信技術發展的基礎理論。

1948年,美國數學家、控制論創始人維納(N.Wiener)提出,“信息是人們在適應外部世界,并使這種適應反作用于外部世界的過程中,同外部世界進行互相交換的內容和名稱”[15]。維納認為,一個有效的行為必須通過某種反饋過程取得信息,從而了解其目的是否已經達到。他認為信息就是信息,不是物質,也不是能量,是一種非物質性的客觀存在。維納第一次提出了物質、能量、信息是構成世界的三大要素,他認為,“世界由物質組成,能量是一切物質運動的動力,信息是人類了解自然及人類社會的憑據”[16]。哈佛大學教授歐廷格(A.G.Oettinger)對這三大基本要素做了精辟的詮釋:“沒有物質,什么都不存在;沒有能量,什么都不會發生;沒有信息,什么都沒有意義。”

香農信息論解決了信息的度量,但沒有闡明信息的語義內容。而語義信息學則是研究信息內容的學科,語義信息學家認為,“信息是告知性回答中傳遞出的內容”。語義信息學認為,語義信息可以用“數據空間”來定義,可以根據形式適宜、有意義且真實的數據獲得令人滿意的語義信息[17]。美國哲學家卡爾納普(R.Carnap)和以色列數學家巴爾·希勒爾(Y.Bar-Hiller)是語義信息學的重要奠基人,1952年他們給出了信息概念的抽象形式。因為任何信息都可以用1和0的比特串進行編碼,所以語義信息論認為,已知指數集I,那么包含于集合I的任意集合A都可被視為比特的指數集:若i∈A,則為1;若i∈A,則為0,將I中的元素i視為抽象化的狀態——描述,并且將指數函數作為特征函數[18]。這些比特通過編碼、程序及編譯器等的處理就形成了信息。在特定的以邏輯為基礎的環境中,使主體可以通過觀察、提問、語言交際或推理演繹等方法,通過數據獲取關于真實世界的新信息。

20世紀60年代初,蘇聯計算機專家索羅門諾夫(R.Solomonoff)、數學家柯爾莫哥洛夫(A.Kolmogorov)等人分別獨立制定了一種測量字符串復雜度的方法,他們的理論被稱為“算法信息論”(或柯爾莫哥洛夫復雜度理論)。柯爾莫哥洛夫認為,一個數字序列的算法信息即產生此序列的最短算法的長度[19]。例如,一個由1萬個數字1組成的長序列111……所含信息并不多,因為大小約為log10000比特的程序就能輸出此序列,程序如下:For i=1 to 10000;print 1。與此類似,π=3.1415……看起來是一個無限隨機小數序列,但該序列僅包含幾比特信息,通過一段程序就可以無限地產生π的連續數字。一般來說,規則字符串的柯爾莫哥洛夫復雜性較低,而隨機字符串的柯爾莫哥洛夫復雜性幾乎相等于其自身長度。算法信息論的科學家們認為,最短算法是控制人類信息流的普遍原則,即所謂“大道至簡”。

計算機科學家認為,信息是計算機存儲和處理的有意義的對象。馮·諾伊曼和他的同事提出了“存儲程序”概念,即程序或數據在內存中都是以二進制形式存儲的數據。因此,從某種意義上說,計算即信息。在計算機科學中,數據和信息兩個詞也經常替換使用,但嚴格地說,數據和信息有很大區別。數據是原始素材,是信息的載體;信息是對數據的解釋和還原的意義。所以,在計算機科學中,采集、傳輸、計算數據而生成信息的技術被稱為“信息技術”,采集、傳輸、計算而生成信息的系統被稱為“信息系統”,對事實進行數據記錄并還原信息被稱為“信息化”,從事信息技術研發、制造和應用的業態被稱為“信息產業”。

回到麥克斯韋妖悖論,1961年美國物理學家蘭道爾(R.Landauer)的研究讓麥克斯韋妖悖論有了革命性的突破。當時在IBM 華生研究所工作的蘭道爾在研究“計算的熱力學”時提出了一個著名的把信息理論和物理學的基本問題聯系起來的定理:擦除1比特的信息將會導致kTln2(k為玻爾茲曼常數,T為環境溫度)的熱量的耗散,這個定理被稱為“蘭道爾原理”[20],即每比特信息具有kTln2焦耳的能量。蘭道爾原理指出了計算機如何用能量進行信息處理。計算機中擦除的動作會產生熱,這個動作是計算機內存中消耗能量的行為,并增加了宇宙的熵,因此信息處理也是一個熱力學過程。在此基礎上,1973年,IBM 華生研究所的美國物理學家貝內特(C.H.Bennett)證明,通常的計算過程可以幾乎不需要消耗能量即可完成,從而揭示了可逆計算過程的普適性[21]。1982年,貝內特又給出了麥克斯韋妖悖論的標準解答,從原理上解決了這個困擾物理學家100多年的悖論。2003年,貝內特在他的一篇文章中將蘭道爾原理進一步闡述為“任何邏輯上不可逆的信息操縱過程,例如,擦除1比特的信息或合并兩條計算路徑,一定伴隨著外部環境或信息存儲載體以外的自由度的熵增”[22]

信息不僅僅存在于硅基(以硅材料為基礎制造)的計算機系統中。生物信息論認為,碳基的生物體也是一個信息系統,生物體通過存貯、修改、解讀遺傳信息和執行遺傳指令形成特定的生命活動,促使生物成長發育和不斷進化[23]。人類細胞中的信息是代代相傳的,人作為一個物種的歷史,都寫在我們的遺傳密碼中[24]。人自身就是一個信息系統,神經系統構成了數據采集和傳輸系統,大腦就是人類信息獲取器和信息處理器。

量子世界顛覆了人們對信息的傳統認識。量子力學中的很多現象和規律,如量子的疊加態、糾纏態、測不準原理、疊加態坍縮、退相干等,都和信息緊密相關。量子疊加是指一個量子系統可以同時處在兩個相互排斥的量子狀態的疊加態上,同時既是0,也是1,薛定諤的貓思想實驗形象地將此表述為“一只貓可以同時既是活的又是死的”。量子糾纏是指量子粒子之間的連接或耦合,兩個粒子發生糾纏時,當一個粒子發生變化,即使兩個粒子處在超遠的距離,也會瞬間在另一個粒子中反映出來,即所謂“心心相惜”。海森堡的測不準原理(Uncertainty Principle)是指不可能同時知道一個粒子的位置和它的速度,獲取一對互補可觀測量的一個量的信息,就會失去另一個量的信息。疊加態坍縮是指粒子被觀測后,就由原來的疊加態變成了之后的某個本征態,發生了坍縮,即測量的行為使疊加態坍縮。量子退相干是指開放量子系統的量子相干性會因為與外在環境發生量子糾纏而隨著時間逐漸喪失的效應,即所謂“見異思遷”。

因此,在量子世界,量子信息論取代了經典信息論。量子信息論是量子力學與信息科學的結合,它指出量子信息是關于量子系統“狀態”所帶有的物理信息[25]。一般情況下,量子信息處理都要借助糾纏態來實現。在量子信息系統中,常用量子比特(qubit)表示信息單元,量子比特由兩個不同的量子狀態∣0〉和∣1〉(如電子自旋的上和下)實現。量子比特可處于量子狀態的線性疊加態上,如α∣0〉+β∣1〉,(α22=1)。由于可處于疊加態,一個量子比特可攜帶的信息量遠大于一個經典的比特攜帶的信息量。利用量子特性,科學家發明了量子計算機。量子計算機是處理量子信息的機器,利用量子系統實現信息的產生、傳輸、存儲、計算等任務,它的計算速度要遠遠超過現在的計算機。

綜上所述,在科學家看來,信息是和物質、能量一樣的物理實在,是宇宙中一切物質的普遍特性。數據只是信息的外在表征,是信息的載體。借助數據的載體,物理世界被記錄和描述,并通過對數據的計算和分析還原信息的意義。

信息不僅是自然科學研究的對象,也是社會科學研究的對象。人類社會是一個復雜系統,人的社會活動依賴信息的傳遞和交換。此時,信息被抽象為社會活動中各種事物的運動狀態和變化的反映。鐘義信教授就認為,“信息是事物存在方式或運動狀態,以及這種方式或狀態直接或間接的表述”[26]

在新聞傳播學中,美國學者德夫林(K.Devlin)和杜斯卡(R.Duska)對信息概念歷史進行了研究,把信息描述為一種抽象概念,即隨著現代媒體出現而自然產生的副產品。當人類的交流由個體間直接對話轉變成以技術(望遠鏡、顯微鏡、書籍、報紙、電話、電視、互聯網等)為中介的相互作用時,就需要創造出抽象的涵蓋性術語來表示這些由發送者傳輸給接收者消息時所傳遞的“內容”。德夫林說,“信息就像交流過程中來回接打的網球”,即信息是人們講話或觀察過程中來回使用的抽象傳遞方式[27]

在信息管理學中,美國信息管理專家霍頓(F.W.Horton)等人給信息下了定義,“信息是一種可管理的資源,是為了滿足用戶管理決策的需要而經過加工處理的數據”[28]。簡單地說,信息是經過加工處理的數據資源。信息管理學家普遍認為,“信息是提供給管理決策的有效的數據資源”。

信息經濟學主要研究信息的經濟屬性及其在經濟發展中的作用。美國經濟學家阿羅(K.J.Arrow)認為,信息是根據條件概率原則有效地改變概率的任何觀察結果[29],這個定義奠定了以統計學為基礎的信息經濟學的雛形。我國信息經濟學家陳禹認為,信息是一種市場參加者的市場知識與經濟環境中的事件狀態(主客觀不確定性)之間概率性建構的知識差[30]。信息經濟學家斯蒂格利茨(J.E.Stiglitz)認為,信息并不完全,獲取信息需要支付成本,存在信息非對稱,并且信息非對稱的程度受企業和個人的行為影響[31]

哲學家們提出了哲學的信息轉向,對信息的本體論、認識論和方法論等進行了研究。例如,英國哲學家佛羅利迪和我國學者鄔焜、劉鋼等都對此做了深入的研究。鄔焜提出,信息哲學把信息定義為“信息是標志間接存在的哲學范疇,它是物質(直接存在)的存在方式和狀態的自身顯示[32]。鄔焜認為,信息是由物質在相互作用中派生出來的,信息世界又是對物質世界的顯示,所以物質世界仍然是第一性的本原性存在,而信息世界則是第二性的派生性存在[33]

總之,信息是客觀實在,是物理世界的普遍屬性,是對“物理世界無序性和不確定性減少”的量度,信息揭示了無序中的有序,不確定性中的確定。因此,信息是意義之所在,沒有信息,什么都沒意義。數據則是對事實的描述和記錄,是信息的載體。經過數據處理活動,數據將被還原出有意義的信息。1980年,托夫勒在其《第三次浪潮》一書中提出,多樣化的文明帶來了大量的信息,我們也因而邁入“信息社會”。

1.2.2 信息的特征

信息具有以下特征。

(1)客觀實在性

信息是一種客觀實在,是宇宙中一切物質的普遍屬性。信息是客觀存在的、真實的,不隨人的主觀意志而改變。自然界和人類社會一直在測量信息、傳送信息、處理信息和展現信息。

(2)普遍性

只要有物質存在的地方,就必然有信息存在。信息在自然界和人類社會活動中普遍存在。

(3)意義性

信息具有意義,宇宙是通過信息來“對話”的,信息是物質與能量的運動狀態與方式,一切物質和能量服從信息定律[34]

(4)動態性

物質和能量處于不斷變化中,信息也隨之不斷變化,其信息量、信息內容和表現形式等都會隨時間而不斷變化。

(5)可識別性

信息能夠被測量和定量。借助數據,人類可以通過感覺器官、科學儀器、技術等方式獲取、傳輸、整理和認知信息,這是人類利用信息的前提。但由于外在環境的復雜性和不確定性,人們掌握的信息并不完全。

(6)可傳遞性

信息可以通過各種媒介在物與物、人與物和人與人等之間傳遞,可以從一種物質轉移到另一種物質,從一種形式轉化為另一種形式。

主站蜘蛛池模板: 无锡市| 东光县| 诸暨市| 卓资县| 乐亭县| 蛟河市| 阜阳市| 登封市| 许昌县| 会东县| 柞水县| 长阳| 灯塔市| 柳州市| 盐山县| 和林格尔县| 昌宁县| 泽普县| 聂荣县| 轮台县| 泽州县| 昭苏县| 合肥市| 镇安县| 桐柏县| 中阳县| 丹巴县| 揭东县| 义乌市| 卓尼县| 安丘市| 麦盖提县| 泸州市| 双城市| 永修县| 贺兰县| 大邑县| 临汾市| 平乐县| 黄龙县| 青田县|