- 多媒體通信技術基礎
- 蔡安妮等編著
- 8381字
- 2018-12-27 16:46:44
1.4 多媒體系統的基本類型及相關業務
多媒體計算機是多媒體技術的最直接、最簡單的表現形式。因其本身具有存儲、運算、處理和顯示的能力,具有獨立的功能,如動畫顯示、視頻播放等,因此,多媒體計算機一出現便立即在家庭、教育和娛樂方面得到廣泛的應用。但是,多媒體技術真正的意義在于與網絡的結合,在于通過網絡(局域網和廣域網)為用戶以多媒體的方式提供信息服務。
基本的多媒體系統除了以多媒體計算機為基礎的獨立(Stand-Alone)商亭式系統之外,通過網絡提供業務的系統可以分為兩大類:一類是人與人之間交互的系統,如多媒體會議與協同工作、多媒體即時通信等;另一類是人機交互的系統,如多媒體信息檢索與查詢、點播電視等,本節中將分別對這些系統及其技術特點進行介紹,而其中所涉及的關鍵技術將在以后的章節中加以討論。
1.4.1 獨立商亭式系統
凡是以一臺多媒體計算機為核心的應用系統,例如商場的導購系統、展覽館的導游系統等,我們都稱為獨立商亭式系統。在這類系統中,除了各種媒體的采集、表示、壓縮存儲和解壓縮播放之外,如何組織素材,并運用多媒體手段將信息有效地、具有感染力(或藝術性)和方便地提供給用戶是制作應用軟件時應考慮的重要問題。這里涉及的不僅有技術、有藝術,甚至還有社會、心理學等方面的問題。多媒體制作軟件(如Authoring Tool、Authorware等),或者原有操作系統的多媒體擴展(如Video for Windows),是為制作應用軟件而提供開發環境的軟件。它不僅向應用程序的開發者提供多媒體輸入/輸出設備的接口,更重要的是,還提供建立媒體數據之間的空間布局和播放時間順序等關系的手段。因此,開發優秀的制作軟件本身遠比開發應用軟件困難。
在這類系統中,操作系統的實時性是值得重視的另一個問題。在嵌入式系統或工業控制機中常常涉及實時操作系統,在那里強調的是對事件中斷的實時響應。而在多媒體系統中,由于視頻和音頻數據需要在一定時間約束條件下(如每秒25幅圖像)連續不斷地送到輸出設備上供用戶聆聽和觀看,因此這里操作系統的實時性強調的是,處理這些有時間要求的連續媒體流的能力。
提供更友好的人—機接口是商亭式系統技術發展的一個方向。除了使用鍵盤和鼠標,觸摸式輸入也很普遍,人們還試圖通過聲音、手勢,甚至表情等多種模態的接口對系統進行控制,從而構成更人性化的多媒體交互環境。
除了獨立商亭式系統外,下面將要介紹的4類系統都是在多媒體終端與終端之間、終端與應用服務器之間有網絡相連接的多媒體通信系統。
1.4.2 多媒體信息檢索與查詢
通過因特網進行信息查詢已是當前十分普及的應用。多媒體信息檢索與查詢MIS(Multimedia Information Service)系統除可以根據關鍵字等對文本資料進行查詢之外,也同時具有對活動圖像和聲音的查詢能力。從通信方式而言,MIS是點對點(信息中心對一個用戶),或一點對多點(信息中心對多個用戶)的雙向非對稱系統。從用戶到信息源只傳送查詢命令,要求的傳輸帶寬較小,而從信息源傳送到用戶的信息則是大量的、寬帶的[見圖1-1(b)]。
MIS所涉及的兩個重要技術問題是:①如何向用戶提供豐富的信息和如何讓用戶快速、有效地查詢與瀏覽這些信息;②如何合理、有效地組織多媒體數據的存儲和檢索。

圖1-2 超文本文件結構
為了對第一個問題有所認識,首先讓我們回顧一下人人都熟悉的讀書過程。對于閱讀一本小說來說,人們通常是從頭至尾逐頁閱讀的,或者說是按順序閱讀的。但在有些情況下,特別是在技術或社會科學領域,在閱讀某本書的過程中,經常需要從另一本書或論文查找某個論點,或者說,在幾本書之間需要交叉參考的情況常常發生。圖1-2表示出用電子的方法來實現交叉參考的情況,這實際上已經是大家在因特網的查詢中十分熟悉的過程:用鼠標點擊黑框所標的地方,就會顯示出箭頭所示的有關參考信息,看完該信息后可以回到原來的頁面,或者再進入其他頁面……箭頭指向的頁面(信息單元)可能與原來的頁面在同一個文件中,也可能在其他文件里。這種信息的非順序(或稱為非線性)的組織結構稱為超文本(Hyper text),超文本中信息單元之間的鏈接稱為超鏈(Hyper Link)。當上述信息組織方式不僅用于文本,還包括其他媒體數據、特別是音頻和視頻數據時則稱為超媒體(Hypermedia)。超文本和超媒體這兩個詞在很多文獻中也常常被混用。
超媒體為用戶提供了一種在文件內部和文件之間迅速查找和瀏覽多媒體信息的方法,但是人們希望在更大的范圍內迅速、有效地獲取信息,這就不能不提到近年來推動因特網突飛猛進發展的WWW技術。WWW(World-Wide Web)最初是1989年在日內瓦CERN啟動的一個研究項目的名稱,由于它的巨大成功,現在WWW已經意味著在超媒體原理下發展起來的一系列概念和通信協議。Web這個詞也代表了世界范圍內由因特網相互連接起來的眾多的信息服務器所構成的巨大的數字化的信息空間,也有的學者將之稱為超空間(Hyperspace)。
WWW的基本思想和它所解決的問題主要體現在如下幾個方面:
(1)在超空間中沒有一個統一的管理者。任何人都可以創建超文本文件、將其與其他文件鏈接,并放入超空間中去。標準的超文本文件采用HTML(Hyper text Markup Language)格式。
(2)定義了一種在超空間中尋找所需要的文件的機制,稱為統一資源定位器URL(Universal Resource Locator)。通過URL可以知道每個文件處于哪一臺機器,叫什么名字,以及以何種機制可以將該文件傳輸到需要鏈接它的地方去。
(3)具有一個統一的、簡單的用戶界面,無論查詢到的信息來自本機,還是來自遠方的服務器,用戶從界面上看起來都是一樣的。實現WWW用戶端功能的軟件稱為瀏覽器(Browser)。通過瀏覽器不僅能夠調取HTML格式的文件,還可以調取以任何形式存儲在已有的數據庫、或信息庫中的信息(雖然此時不具備超鏈接功能)。
以上3個問題的解決,使得世界上使用不同硬件和軟件的分離的信息系統,通過因特網構成了一個龐大的統一的信息系統,從而為用戶打開了通往一個大得難以想象的信息庫的大門。這正是WWW取得巨大成功的原因。為了使用戶不至于面對浩瀚的信息而不知所措,人們又進一步設計了幫助用戶過濾掉無用信息、盡快找到所需要的信息的專門軟件,這就是所謂的搜索引擎。
隨著聲音和活動圖像等實時信息的逐步增加,因特網正在演變成世界范圍內最大的MIS系統。由于以上所介紹的如何向用戶有效地提供和查找信息的技術首先是從文字信息查詢與檢索發展起來的,關于這些技術的書籍已經很多,所以本書將不準備進一步討論這方面的內容。
MIS系統涉及的第二個重要技術問題是多媒體數據的存儲和檢索。與存儲傳統的數據不同,多媒體數據需要有適當的數據結構,以表達不同媒體數據之間在空間上與時間上的相互關系;對不同媒體要有合理的存儲方式;對于數據量大而在時間上又有嚴格要求的音頻和視頻數據流,要有實時的提取算法;當數據庫是分布式時,要能夠將處在不同地域的服務器所提供的信息協調起來同步地提供給用戶,等等。多媒體數據這種新型的數據給數據庫的設計帶來了一系列的新問題。目前的多媒體數據庫一般是對通常的關系數據庫進行擴充,或者采用面向對象的數據庫來實現,數據量很大的視頻則多以文件形式存儲。多媒體數據庫的成熟仍需要相當的時間。
此外,傳統的、利用關鍵字或屬性描述等來進行信息查詢的方式,比較適用于文字信息,用來對聲音、圖像等多媒體信息的查詢則有不方便之處。基于內容的檢索是伴隨著視頻和音頻查詢而發展起來的新技術。利用這種技術,給出(或從查找對象中自動提取出)所要求的特征,例如圖像中物體的形狀、顏色等,就能找出具有同樣、或類似特征的物體的圖像來。更高級的查詢方式則是給出“概念”或“事件”,如國旗、山脈、騎自行車的人等,找出具有同樣概念或事件的圖像或視頻來。這種方式也稱為基于語義的檢索。基于內容和基于語義的檢索涉及圖像和視頻的分析與理解、語義提取、模式識別與人工智能等,是當前多媒體領域中的一個重要研究方向。由于本書側重于多媒體通信,因此將不準備討論這方面的內容。
1.4.3 多媒體會議與協同工作
可視電話和會議電視是早在多媒體出現之前就已經存在的人與人之間進行通信的手段。計算機支持的協同工作CSCW(Computer Supported Cooperative Work)也是早在20世紀80年代初在計算機領域內提出的概念。它是指用來支持多個用戶共同參與一件工作(如共同編輯文件、修改設計圖等)的計算機系統及其相關的技術,但合作者之間不能“見面”與交談。多媒體的出現為這兩種交流形式提供了結合的基礎,合作者既能看得見、聽得到,又能一起處理事務,使他們真正像聚集在同一個房間里面對面地交流與工作。這種通信系統和業務稱為多媒體協同工作MMC(Multimedia Collaboration)。多媒體遠程醫療診斷系統、多媒體遠程教育系統等都是融入了一定MMC功能的應用。
1.會議室會議電視系統
這是傳統的會議電視系統,其原理與廣播電視系統類似,由電視攝像機對著主會場、主席等拍攝,通過電纜、光纜、微波或衛星信道送到分會場收看。如果要求主會場也能看到、聽到分會場發言的情況,傳輸信道則是雙向的,以將分會場的信號送到主會場。主會場(或者通信網的某個節點上)有信號切換設備,用來選取某一分會場的信號,并將該信號送至其他分會場;或者將幾個分會場的信號綜合起來,以分畫面的形式送給各個會場。在有的系統中,主會場還可以對分會場攝像機的攝取方向等進行控制。圖1-3是會議室會議電視系統會場的示意圖。
這類系統的一個重要特點是,需要像電視臺的演播室一樣,對被拍攝的景物(人、黑板、會場的全景等)給以專門的照明(普通室內照明設施不能滿足要求)。由于會議電視系統拍攝的景物沒有什么劇烈的運動,主要是講話人面部和形體的運動,而廣播電視要傳送包括諸如運動員的快速動作在內的高速運動的圖像,所以會議電視的攝像機、信道設備等相對于廣播電視所用設備而言比較簡單,而且在同樣的圖像分辨率下,會議電視的數據率可以被壓縮更大的倍數。另外,由于同樣的原因,為了保證動作的連續,電視圖像每秒鐘需要傳送25幀,而會議電視每秒傳送10~15幀即可以被接受。而且,會議電視的情況與人們看電視不同,看電視是一種藝術欣賞,人們對圖像的分辨率要求高,而會議則是在較長時間看一個相對固定的面貌,與會者在心理上對圖像分辨率的要求大為降低。數據率為384kb/s的系統所給出的圖像質量已經可以令人足夠滿意了。
在會議室會議電視系統中,通過電子白板等輔助人機交互設備的使用,可以多媒體方式呈現、修改、記錄和存儲計算機中的文件,實現與會各方對信息的共享。

圖1-3 會議室會議電視系統
2.桌面或手持終端會議電視系統
用計算機或手持智能設備取代會議室會議電視系統中的編解碼設備和顯示設備,是這類會議電視系統的基本特征。
在會議室會議電視系統中,攝像機不僅要拍攝講話者還要能夠對整個會場進行拍照,這要求攝像機有較大的視野和較高的靈敏度,因此其照明條件必須達到演播室的標準。而在桌面或手持系統中,攝像機只需要對準講話的人,這不僅降低了照明要求,也降低了對攝像機的視野和靈敏度要求,攝像機大為簡化。
在這類系統中,音、視頻的處理與文字等其他媒體的處理被集成在一個系統中,這使得實現與會各方的信息共享和協同工作更為方便,有利于系統向多媒體協同工作的方向發展。
3.多媒體協同工作
MMC的最終目標是希望使身處異地的人們,能夠像處于同一房間內面對面一樣地交談、協商工作,下面列舉的是人們向著這一目標所正在作的努力。
教師從顯示器屏幕的3個窗口分別看到在3個地方聽課的學生,與在一個教室中面對全體學生的感覺是不一樣的。利用計算機的圖形功能可以生成類似真實圖像的虛擬圖像,例如具有天花板、窗戶、燈具的教室,并將從3個地方傳送來的學生的現場圖像與計算機生成的虛擬教室圖像結合在一起,構成一個全體學生在內的完整的教室全貌,將會給人以更真實的感覺。
在現實生活中舉行會議時,某個與會者有時需要和鄰座說一些不愿意讓別人聽到的悄悄話,或拿出一份文件與其小聲商量;有時與會者要邊討論、邊對一個文件或一份設計圖紙同時進行修改,甚至需要共同操縱一臺儀器進行實驗;如此等等。在多媒體會議中,要實現類似現實生活中的這些行為要涉及許多技術問題。
顯示器的屏幕是平面的,無論屏幕上顯示的景象是多么的有立體感,人們仍然是身在其外,而不是身在其中。如何將虛擬現實(Virtual Reality)與協同工作結合起來,使人們在虛擬的三維環境之中協同工作是一個值得研究的課題。
人們會面時的第一個動作往往是一邊握手,一邊說“你好”。如果MMC終端可以用語言(不是鍵盤)輸入、并配有機械手,可能使你感受到遠方合作者向你握手問好的真實感覺。除了聽覺和視覺之外,將其他的感覺,如觸覺、嗅覺等結合進協同工作環境;或者將多媒體協同工作與機器人技術結合起來,使合作者能夠共同進行除了屏幕上的工作(如編輯文件之類)以外的事情,這些都是研究者在探索的問題。
總之,多媒體協同工作將從各種不同的方面,向著能夠使得被空間距離分開的人,在必要的時候可以像已經聚在一起,有面對面地一起工作的條件與自我感覺的方向發展。但要真正達到這一目標,要走的路途還相當遙遠。這里包括的不僅是技術問題,還有許多為社會學和心理學家們所感興趣和值得研究的問題。
從通信的角度來看,MMC系統是對通信系統要求最高的應用。它要求一點對多點,或者多點對多點的雙向信息傳輸。所謂一點對多點,是指一個信號要同時向多個接收點傳送。另外,在MMC系統中,聲像信號是實時產生的,需要實時地壓縮、傳送,整個系統的時延要足夠小,才能滿足人們對話時自然應答的時間要求。在復雜的協同工作系統中,要實現“開小會”和進行共同操作等,還要能夠隨時建立、撤銷某些專有信道。當涉及視、聽之外的其他形式的傳感器時,通信機制的復雜程度則會更高。
1.4.4 多媒體即時通信
即時通信系統更完整的表述是出席與即時消息系統(Present and instant messaging system,IMS)。它允許用戶相互之間了解各自的狀態和狀態的改變,如在線、離線、繁忙、隱身等,并允許用戶相互之間傳遞即時的短消息。第一個即時通信系統于1996年在以色列誕生。人們通過IM系統發送文本型的短消息,由于消息傳送的即時性,對方可以立即給予回應,一來一往如同“聊天”;可以多個人一起聊,仿佛在一個聊天室,也可以兩個人進行“私聊”,等等。由于這種交流方式的方便和快捷,IM在世界范圍內得到了迅速的發展,成為最流行的網絡應用之一。現在,IM從最初的個人聊天應用,逐步擴展到成為企業內部進行工作交流的有力工具,企業可以隨時查看各部門在線人員情況,溝通各分支機構等。同時,IM從原來支持簡單的文本短消息交流,發展到加入文件傳輸、視/音頻信息的即時傳送,使聊天者相互可以看得見、聽得著,等等。因此我們在本節標題中將它稱為多媒體即時通信,它是一個極具潛力的業務。
加入了視、音頻的IM系統從功能上講與可視電話或會議系統類似,但實現方法并不相同。可視電話系統由通話雙方通過呼叫協議直接建立雙向的連接;而經典的IM系統采用客戶端/服務器(C/S)結構,“聊天”雙方的信息需要通過服務器進行中間轉接。當傳輸視、音頻信息時,由于數據量大,服務器中轉可能引起響應的不及時,此時可以在“聊天”雙方建立直接連接,但這個連接的建立通常也需要在服務器的幫助下完成。由于服務器是IM系統的核心,用戶必須先登錄服務器才能接受各種服務,因此服務器了解各用戶的狀態及狀態的變化,從而能夠向一個用戶提供其他用戶的狀態信息,讓他了解其他人的在線情況。這就是“出席”(present)服務。而在可視電話系統中,主叫方事先并不知道被叫方是否“出席”,他必須通過一定的通信協議呼叫對方(如振鈴),對方應答則接通;對方未出席,則不能接通。

圖1-4 即時通信
如上所述,一個典型IM系統包含兩種基本服務:出席服務和即時消息服務。圖1-4(a)為出席服務的基本框圖。出席服務有兩類客戶,一類稱為出席者(presentity),另一類稱為觀察者(watcher)。出席者向出席服務提供自己的出席信息。觀察者可以定期或不定期地向出席服務請求得到某些出席者的當前出席信息;也可以訂閱(subscribe)出席信息,此時出席服務會在出席者的出席信息發生變動時主動告知訂閱者。
圖1-4(b)為即時消息服務的基本框圖,其中發送消息的一方稱為發送者,接收消息的一方稱為即時消息箱。發送者向即時消息服務發送消息,消息中包含目的即時消息箱的地址;即時消息服務則根據目的地址向該即時消息箱轉發消息。當用戶之間需要交換視、音頻消息時,發送者從服務器獲得接收方的地址和狀態信息,并通過一定的協議在服務器的幫助下建立起二者之間的直接連接。然后在此連接上視、音頻數據可以采用與可視電話和會議系統中類似的方式進行傳輸。
1.4.5 點播電視(VOD)
多媒體計算機出現以后,由于它具有以交互操作的方式調取包括伴音在內的活動圖像的功能,立即導致了這樣的構思:在電視節目中心,將節目以壓縮后的數據形式存入視頻節目庫;用戶在家里可以按照菜單調取任何一套節目,或者一套節目中的任何一段,并能實現錄像機的功能,即快進、快退、重放、慢動作以及播放靜止畫面等,這種系統與業務便是點播電視(Videoon Demand,VOD)。
從使用功能上講,VOD與多媒體信息檢索與查詢系統是類似的,但是二者的業務特點卻有很大不同,因而技術的側重點也有所不同。在多媒體信息查詢系統中,信息的主要部分通常是通過文字、圖片表達的,數據量較小,其中需要顯示的視頻圖像片斷一般時間不長。此外,在多媒體信息查詢系統中,用戶的查詢時間和查詢內容不像人們點播電視節目那樣集中。在VOD系統中,由信息中心送出的是數據率很高的電視節目,其中具有錄像質量的信號的數據率為1.5Mb/s,電視質量的信號則達2~4Mb/s。電視節目的長度是以小時計算的,在這幾個小時中,每一秒鐘內都需要傳送幾兆比特的數據,才能使用戶正常、不中斷地收看節目。另外,人們看電視的時間比較集中,晚上看電視的用戶比白天的多,晚飯后(即黃金時間)看的人則更多;看的節目也比較集中,看好片、新片的人比看劣片、舊片的人多。不難想象,要在同一時間內向數百、數千、甚至更多的用戶提供內容不同,而又連續不間斷的高速數據流,對設備和網絡的要求是很高的。
圖1-5是一個VOD系統示意圖。圖中的磁盤中存儲著大量電視節目;負責按用戶提出的要求向用戶傳送節目數據流的設備稱為視頻服務器,或流服務器。用戶終端則用來接收節目數據、并將其解碼、還原成模擬電視信號進行顯示,同時,還負責將用戶的查詢命令發送到上行(即由用戶向信息中心的方向)線路上。用戶終端可以電視機、計算機或手持智能設備為平臺。當使用不具備智能功能的電視機時,需附加機頂盒以完成與服務器的交互操作。

圖1-5 VOD系統的簡單示意圖
現在讓我們來考慮視頻服務器如何為眾多的用戶服務。必須注意,在任何瞬間,服務器只能從一個磁盤上提取一個節目的數據。如圖1-5所示,假設我們在服務器中為每一個用戶設立一個緩存區。服務器首先將第一個用戶需要的節目全部從這個磁盤中提取出來,放入該用戶的緩存區(內存),然后再為第二個用戶提取數據……由于前一個用戶所需要的全部數據都已存放在緩存區中,所以在服務器為后一個用戶提取數據時,并不影響在前一個用戶的緩存區內的數據持續不斷地向該用戶輸出。這是實現視頻服務器功能的一種最簡單的設想。但是此方法需要容量巨大的內存作為用戶的緩存區;同時,稍后提出請求的用戶要等到將前面的用戶在未來數小時內(即整個節目)所要用到的數據都提取完之后,才能得到服務,等待時間太長。
實際視頻服務器所采用的一種典型方案如圖1-6所示。在這個方案中,一個節目被分成若干段,每一段分別存儲在一個磁盤中(多個磁盤構成一個陣列)。當服務器從第一個磁盤為用戶1取出一段數據送至用戶1的數據流緩存區中后,用戶1就可以開始獲得數據、觀看節目了。這時服務器則接著從第二個磁盤中為用戶1取第二段數據,在用戶1的緩存區中的數據被用空之前,將第二段數據補充進去,使送至用戶1的數據流不至中斷;與此同時服務器又從第一個磁盤中為用戶2取出第一段數據等等。如果從磁盤中提取數據的速率超過向用戶傳送數據的速率,磁盤數m可以小于用戶數n。從磁盤中提取數據的速率越快,可以服務的用戶數越多。圖中的交叉切換模塊代表對各個數據流進行調度和控制的硬件與軟件。

圖1-6 視頻服務器
可以看到,與圖1-5所示的方案相比,在內存的占用量和用戶等待時間方面這種方案要優越得多。但是由此我們也看到,這里的視頻服務器,其硬件和軟件比多媒體信息查詢系統中的Web服務器要復雜得多。再設想一下,若干個用戶可能在相近的時間,甚至在只差幾秒鐘的情況下點播同一個節目,并且某些用戶要進行快進、快退等錄像機式的操作等,要滿足這些要求將進一步增加服務器數據提取、調度和控制的復雜性。
在通信網絡方面,相比于其他多媒體應用,如信息查詢、會議電視等,VOD是對帶寬要求最高的應用。在用戶端,對于固定網絡而言,必須采用電話線或同軸電纜的寬帶接入線路,或者光纜直接鋪設到用戶;而對于移動網絡,則只能在3G或更先進的網絡上實現。當存儲節目的信息中心與用戶在地理位置上相距很遠時,要在遠程網絡上長時間地傳送眾多的持續不斷且速率很高的數據流,對網絡是一個沉重的負擔。如何有效地進行這類通信,在后面的章節中我們將會看到,人們已經提出了一些解決方案。