- 80x86/Pentium微型計算機原理及應用
- 吳寧 馬旭東主編
- 2004字
- 2019-01-01 04:36:58
1.3 計算機中非數值數據的信息表示
計算機除了能對數值信息進行處理(主要是各種數學運算)之外,對于諸如文字、圖形、圖像、聲音等信息也能進行各種處理,當然它們在計算機內部也必須表示成二進制編碼形式,這些統稱為非數值數據。
1.3.1 西文信息的表示
西文包括拉丁字母、數字、標點符號及一些特殊符號,它們統稱為字符(Character)。
目前國際上使用的字母、數字和符號的信息編碼系統種類很多。經常采用的是美國國家信息交換標準代碼ASCII(American Standard Code for Information Interchange)。該標準制定于1963年,目前微型計算機的字符編碼都采用ASCII碼。
ASCII碼是一種8位代碼,一般最高位可用于奇偶校驗,故僅用7位碼來代表字符信息,共有128個字符,其中34種起控制作用的稱為“功能碼”,其余94種符號(10個十進制數碼、52個英文大/小寫字母和32個專用符號$、+、-、=等)供書寫程序和描述命令之用,稱為“信息碼”,如表1-5所示。
表中第0010~0111的6行中,共有94個可打印(或顯示)的字符,又稱為圖形字符。這些字符有確定的結構形狀,可在顯示器和打印機等輸出設備上輸出。它們在計算機鍵盤上能找到相應的鍵,按鍵后就可將對應字符的二進制編碼送入計算機內。
另外,表的第0000和第0001行中共有32個字符,又稱為控制字符,它們在傳輸、打印或顯示輸出時起控制作用。按照它們的功能含義可分成如下5類。
(1)傳輸控制字符。如SOH(標題開始,01H),STX(正文開始,02H),ETX(正文結束,03H),EOT(傳輸結束,04H)等。
(2)格式控制字符。如BS(退格,08H),LF(換行,0AH),CR(回車,0DH)等。
(3)設備控制字符。如DC1~DC4(設備控制1~4,11H~14H)。
(4)信息分隔類控制字符。如US(單元分隔,1FH)等。
(5)其他控制字符。如NUL(空白,00H),BEL(告警,07H)等。
表1-5 ASCII碼字符表
此外,在圖形字符集的首尾還有2個字符也可歸入控制字符,它們是:SP(空格字符,20H)和DEL(抹除字符,7FH)。
我國于1980年制定了“信息處理交換器的7位編碼字符集”,即國家標準GB1988—80,除用人民幣符號¥代替美元符號$外,其余含義都與ASCII碼相同。
1.3.2 中文信息的表示
中文的基本組成單位是漢字,它們也屬于字符。西文字符集的字符總數不過幾百個,使用7位或8位二進制編碼就可表示。漢字具有數量大、字形復雜、同音字多等特點,這就給漢字在計算機內部的表示與處理、漢字的傳輸與交換、漢字的輸入/輸出等帶來了一系列的問題。為此我國于1981年公布了“國家標準信息交換用漢字編碼基本字符集(GB2312—80)”。該標準規定,一個漢字用2字節(256×256=65536種狀態)編碼,同時用每字節的最高位來區分是漢字編碼還是ASCII字符編碼,這樣每字節只用低7位,這就是所謂雙7位漢字編碼(128×128=16384種狀態),稱作漢字交換碼(又稱國標碼),其格式如圖1-2所示。

圖1-2 國標碼格式
目前,許多機器為了在內部能區分漢字與ASCII字符,把2字節漢字的國標碼的每字節的最高位置1,這樣就形成了漢字的另外一種編碼,稱作漢字機內碼(內碼)。若已知國標碼,則機內碼唯一確定。方法是,機內碼的每字節為原國標碼每字節加80H。機內碼用于統一不同系統所使用的不同漢字輸入碼,各種不同漢字輸入碼進入系統后,一律轉換為機內碼,使不同系統內漢字信息可以相互轉換。
GB2312—80編碼按漢字使用頻度把漢字分為高頻字(約100個)、常用字(約3000個),次常用字(約4000個),罕見字(約8000個)和死字(約4500個),并將高頻字、常用字和次常用字歸結為漢字字符集(6763個)。該字符集又分為兩級,第一級漢字為3755個,屬常用字,按漢語拼音順序排列;第二級漢字為3008個,屬非常用字,按部首排列。
漢字輸入方法很多,如區位、拼音、五筆字型等有數百種之多。其中最優者應具有易學習、易記憶、效率高(擊鍵次數少)、重碼少和容量大等特點。不同輸入法有自己的編碼方案,不同輸入法所采用的漢字編碼統稱為輸入碼。輸入碼進入機器后,必須轉換為機內碼。
傳統的漢字輸出是先用漢字字形碼(一種用點陣表示漢字字形的編碼)把漢字按字形排列或點陣,常用點陣有16×16、24×24、32×32或更高。一個16×16點陣漢字占用32字節,24×24點陣漢字占用72字節……。由此可見,漢字字形點陣的信息量很大,占用存儲空間也非常大。所有的不同字體、字號的漢字字形構成字體,通常都存儲在硬盤上,只有當要顯示輸出時,才去檢索得到欲輸出的字形。新的輸出字形可用矢量法、True Type等。
1.3.3 圖、聲、像信息的表示
計算機除了能處理漢字、數值、數據之外,還能處理聲音、圖形和圖像等各種信息,這類計算機稱為多媒體計算機。
在多媒體計算機中,各種媒體也是采用二進制編碼來表示的。首先,把聲音、圖像等各種模擬信息(如聲音波形、圖像的顏色等)經過采樣、量化和編碼,轉換成數字信息,這一過程稱為模數轉換;由于數字化信息量非常大,為了節省存儲空間、提高處理速度,往往要經過壓縮后再存儲到計算機中。經過計算機處理過的數字化信息,還需經過還原(解壓縮)、數模轉換(把數字化信息轉換為聲音、圖像等模擬信息)后再現原來的信息。例如,通過揚聲器播放聲音,通過顯示器顯示畫面。
- 課課通計算機原理
- Hands-On Internet of Things with MQTT
- Seven NoSQL Databases in a Week
- ETL with Azure Cookbook
- Verilog HDL數字系統設計入門與應用實例
- 流處理器研究與設計
- Zabbix Network Monitoring(Second Edition)
- 基于ARM 32位高速嵌入式微控制器
- PostgreSQL 10 Administration Cookbook
- 突破,Objective-C開發速學手冊
- 計算機組成與操作系統
- 自適應學習:人工智能時代的教育革命
- 計算機辦公應用培訓教程
- 軟件測試設計
- 從實踐中學嵌入式Linux操作系統