官术网_书友最值得收藏!

1.3 計算機中非數值數據的信息表示

計算機除了能對數值信息進行處理(主要是各種數學運算)之外,對于諸如文字、圖形、圖像、聲音等信息也能進行各種處理,當然它們在計算機內部也必須表示成二進制編碼形式,這些統稱為非數值數據。

1.3.1 西文信息的表示

西文包括拉丁字母、數字、標點符號及一些特殊符號,它們統稱為字符(Character)。

目前國際上使用的字母、數字和符號的信息編碼系統種類很多。經常采用的是美國國家信息交換標準代碼ASCII(American Standard Code for Information Interchange)。該標準制定于1963年,目前微型計算機的字符編碼都采用ASCII碼。

ASCII碼是一種8位代碼,一般最高位可用于奇偶校驗,故僅用7位碼來代表字符信息,共有128個字符,其中34種起控制作用的稱為“功能碼”,其余94種符號(10個十進制數碼、52個英文大/小寫字母和32個專用符號$、+、-、=等)供書寫程序和描述命令之用,稱為“信息碼”,如表1-5所示。

表中第0010~0111的6行中,共有94個可打印(或顯示)的字符,又稱為圖形字符。這些字符有確定的結構形狀,可在顯示器和打印機等輸出設備上輸出。它們在計算機鍵盤上能找到相應的鍵,按鍵后就可將對應字符的二進制編碼送入計算機內。

另外,表的第0000和第0001行中共有32個字符,又稱為控制字符,它們在傳輸、打印或顯示輸出時起控制作用。按照它們的功能含義可分成如下5類。

(1)傳輸控制字符。如SOH(標題開始,01H),STX(正文開始,02H),ETX(正文結束,03H),EOT(傳輸結束,04H)等。

(2)格式控制字符。如BS(退格,08H),LF(換行,0AH),CR(回車,0DH)等。

(3)設備控制字符。如DC1~DC4(設備控制1~4,11H~14H)。

(4)信息分隔類控制字符。如US(單元分隔,1FH)等。

(5)其他控制字符。如NUL(空白,00H),BEL(告警,07H)等。

表1-5 ASCII碼字符表

此外,在圖形字符集的首尾還有2個字符也可歸入控制字符,它們是:SP(空格字符,20H)和DEL(抹除字符,7FH)。

我國于1980年制定了“信息處理交換器的7位編碼字符集”,即國家標準GB1988—80,除用人民幣符號¥代替美元符號$外,其余含義都與ASCII碼相同。

1.3.2 中文信息的表示

中文的基本組成單位是漢字,它們也屬于字符。西文字符集的字符總數不過幾百個,使用7位或8位二進制編碼就可表示。漢字具有數量大、字形復雜、同音字多等特點,這就給漢字在計算機內部的表示與處理、漢字的傳輸與交換、漢字的輸入/輸出等帶來了一系列的問題。為此我國于1981年公布了“國家標準信息交換用漢字編碼基本字符集(GB2312—80)”。該標準規定,一個漢字用2字節(256×256=65536種狀態)編碼,同時用每字節的最高位來區分是漢字編碼還是ASCII字符編碼,這樣每字節只用低7位,這就是所謂雙7位漢字編碼(128×128=16384種狀態),稱作漢字交換碼(又稱國標碼),其格式如圖1-2所示。

圖1-2 國標碼格式

目前,許多機器為了在內部能區分漢字與ASCII字符,把2字節漢字的國標碼的每字節的最高位置1,這樣就形成了漢字的另外一種編碼,稱作漢字機內碼(內碼)。若已知國標碼,則機內碼唯一確定。方法是,機內碼的每字節為原國標碼每字節加80H。機內碼用于統一不同系統所使用的不同漢字輸入碼,各種不同漢字輸入碼進入系統后,一律轉換為機內碼,使不同系統內漢字信息可以相互轉換。

GB2312—80編碼按漢字使用頻度把漢字分為高頻字(約100個)、常用字(約3000個),次常用字(約4000個),罕見字(約8000個)和死字(約4500個),并將高頻字、常用字和次常用字歸結為漢字字符集(6763個)。該字符集又分為兩級,第一級漢字為3755個,屬常用字,按漢語拼音順序排列;第二級漢字為3008個,屬非常用字,按部首排列。

漢字輸入方法很多,如區位、拼音、五筆字型等有數百種之多。其中最優者應具有易學習、易記憶、效率高(擊鍵次數少)、重碼少和容量大等特點。不同輸入法有自己的編碼方案,不同輸入法所采用的漢字編碼統稱為輸入碼。輸入碼進入機器后,必須轉換為機內碼。

傳統的漢字輸出是先用漢字字形碼(一種用點陣表示漢字字形的編碼)把漢字按字形排列或點陣,常用點陣有16×16、24×24、32×32或更高。一個16×16點陣漢字占用32字節,24×24點陣漢字占用72字節……。由此可見,漢字字形點陣的信息量很大,占用存儲空間也非常大。所有的不同字體、字號的漢字字形構成字體,通常都存儲在硬盤上,只有當要顯示輸出時,才去檢索得到欲輸出的字形。新的輸出字形可用矢量法、True Type等。

1.3.3 圖、聲、像信息的表示

計算機除了能處理漢字、數值、數據之外,還能處理聲音、圖形和圖像等各種信息,這類計算機稱為多媒體計算機。

在多媒體計算機中,各種媒體也是采用二進制編碼來表示的。首先,把聲音、圖像等各種模擬信息(如聲音波形、圖像的顏色等)經過采樣、量化和編碼,轉換成數字信息,這一過程稱為模數轉換;由于數字化信息量非常大,為了節省存儲空間、提高處理速度,往往要經過壓縮后再存儲到計算機中。經過計算機處理過的數字化信息,還需經過還原(解壓縮)、數模轉換(把數字化信息轉換為聲音、圖像等模擬信息)后再現原來的信息。例如,通過揚聲器播放聲音,通過顯示器顯示畫面。

主站蜘蛛池模板: 如皋市| 揭东县| 同心县| 彝良县| 卢氏县| 临城县| 江陵县| 讷河市| 常州市| 大宁县| 偏关县| 海南省| 阿尔山市| 正阳县| 疏附县| 长葛市| 太白县| 开阳县| 永登县| 香港| 色达县| 财经| 大连市| 宜春市| 高密市| 南通市| 长岛县| 云安县| 铜陵市| 民县| 巴林右旗| 滨州市| 德阳市| 思南县| 松潘县| 建始县| 滨海县| 九江县| 鄢陵县| 华坪县| 德昌县|