
1.2.3 多媒体系统的关键技术
多媒体系统利用计算机技术和数字通信技术等处理和控制多媒体信息,多媒体开发研究的目标是将多种计算机软硬件技术、数字化声像技术和高速通信网络技术综合应用,实现对多种媒体信息获取、加工、处理、传输、存储和表现。它涉及计算机技术、数字化处理技术、音视频技术、网络通信技术等多学科的综合应用技术。在这些跨学科的高新技术中,关键性技术有以下几种:
1.多媒体压缩和解压缩技术
在多媒体计算机上运行的多媒体信息要求能够快速实时地传输处理,用传统的模拟信号方式是无法实现的,模拟方式的多媒体信息在复制、传输的过程中容易丢失,产生的噪声和误差很大,更主要的是,根本不可能在数字计算机中加工和处理。数字多媒体技术的发展,突破了传统的信息模拟化表现方式,多媒体信息采集、存储、处理、显示普遍应用了新的数字化技术,即用数字的形式来记录和表现各种媒体形式。尽管这样,由于含有文本、图形、图像、音频信息、视频影像等多种媒体类型,所占有的数据量仍然相当大,特别是音视频信息,其数据量非常惊人,如PAL制式中一幅分辨率为720×576像素、色彩为24位真彩色的画面,大约占有1.2MB左右的数据量,若以25帧/秒的速度播放,则一张700MB的CD-ROM只能播放24s左右。音频信号如果按44.1kHz的采样频率、16位双声道立体声采样,则每秒钟的数据量达到176.4KB,一张700MB的光盘,只能存放大约一个多小时的声音信息。这样庞大的数据量,对多媒体信息的处理、存储和传输是难以实现的,而目前高速网络的通信信道速率也是不允许的。要处理、传输、存储多媒体信息,必须对信息进行压缩,所以数据的压缩和编码技术就成为多媒体系统的关键问题。
进行数据压缩,前提条件是多媒体系统的原始信息中存在大量的数据冗余现象,如动态视频图像系列中,相邻两帧画面间,背景或固定物体的色彩、亮度等物理特征会有雷同,具有较大的相关性,出现帧与帧的重复,这是在时间轴上的数据冗余;在同一画面上某些局部区域中邻近像素具有相同的数据,这是空间的数据冗余;有些画面的大块区域具有明显的重复分布结构特征,如栅格之类,形成结构冗余;摄录设备记录的画面原始数据是均等的,而人类的视觉敏感性是非均匀和非线性的,对图像的中心对象和陪衬区域在视觉的敏感性上是有差异的,从而产生视觉冗余;这些在数字图像中表现出的数据冗余,为数据压缩提供了可能性。
数据压缩是指按照一定的算法,将冗余的数据转换成一种相对节省空间的数据表达格式,便于信息的保存和传输,压缩后的信息必须通过解压缩才能恢复。所以,数据的压缩处理实际包括数据的压缩和解压过程,压缩是编码过程,解压是解码过程。数据压缩的方法很多,一般分为两大类:一类是无损压缩,即压缩中数据不损失,解压时数据能够完全还原;另一类是有损压缩,允许有一定的失真度。进行数据压缩,压缩比是一个关键的指标,它是指压缩前后数据量的比值,在不引起失真的情况下,其比值较大为好。另外,压缩过程中所用的算法要简单、压缩和解压速度要快、数据还原时恢复效果要好,这些是压缩处理中需要注意的问题。
多媒体信息压缩须遵循一定的标准,目前有3种压缩编码标准是国际流行通用的:一是静止图像压缩编码标准(JPEG),是由ISO(国际标准化组织)和CCITT(国际电报电话咨询委员会)共同制定的,是针对于静止图像压缩的标准;二是动态图像压缩编码标准(MPEG),该标准解决了视频压缩问题和视频与伴音同步的问题;三是视听通信编码标准(H.261),该标准适用于可视电话和电视会议,具有实时处理能力。
2.多媒体存储技术
多媒体音频、视频、图像等信息虽经过压缩处理,仍需相当大的存储空间,传统的磁盘、磁带等存储介质已不能满足多媒体信息存储的需要。显然,多媒体存储技术是多媒体技术发展和应用的关键。光盘存储器解决了多媒体信息存储空间的问题,光盘具有存储容量大、读写速度快、保存时间长、价格便宜等优点。但目前存储设备还有移动硬盘、网盘等,这里不做详细介绍。
1)存储技术概述
存储技术是一种用光学方法读写数据的存储技术,基本原理是利用激光光束聚焦在存储介质上,通过介质对光束反射强弱的反应进行光学读写。光盘片的外径一般为120mm,高能量的激光光束在盘片上聚焦后只形成1µm的光斑,因此可以存储大量的数据。
不同的光盘片使用不同的特殊材料结构,CD-ROM光盘片主要由保护层、铝反射层、刻槽和聚碳酸脂衬垫层4部分组成(见图1-21)。保护层及聚碳酸脂衬垫层的作用是保护铝反射层,保护层位于铝反射层上面,通常还印刷有文字,若被划伤,在读取光盘数据时,激光将穿透光盘,而不能反射信号,也就不能读出光盘上的数据,因此这一层的保护比聚碳酸脂衬垫层的保护更重要。

图1-21 CD-ROM光盘结构
光盘存储数据的原理是:利用光盘上压制的许多凹槽对激光束的反射来记录信息,当激光束照射光盘凹槽时,在凹槽部分的反射光强度要比平坦部分反射光的强度弱,利用反射光强弱不同的简单原理来区分“1”和“0”。但是,信息的记录并不是直接用凹槽和平坦部分本身,而是用凹槽的前沿和后沿代表“1”,凹槽和非凹槽的长度代表“0”,这种方法比直接用凹槽和平坦部分代表“1”和“0”有效。这种光盘记录信息的方法,可以充分利用光盘的表面积,使存储容量提高。
光盘记录信息时,是由里向外刻写数据的,其光道是由中心向外逐渐展开的螺旋线,不是同心圆。
2)光盘存储格式标准
随着光盘存储技术的广泛应用,各种相应的技术标准也陆续出台,这些标准对CD工业的发展、存储格式的规范都起到了重要的推动作用。这些标准书由国际标准化组织ISO制定,因采用各种不同的封面颜色而得名,包括红、黄、绿、橙、蓝及白皮书,一种颜色代表一种规范。标准书对光存储的数据格式、编码方法、物理尺寸及CD技术等多方面做了详细规定,为软硬件技术开发提供了完整的技术说明。表1-2所示为ISO组织制定的光盘存储格式标准。
表1-2 光盘存储格式标准

续表

3)常用光盘存储器分类
常用的光盘存储器主要分为以下三类:
(1)CD-ROM(Compact Disc Read Only)
CD-ROM是一种只读光盘存储器,它只能写一次,内容一般在厂商生产时就已确定。它具有存储容量大、成本低、保存时间长等特点,一张CD-ROM有约650MB的存储容量,是软件及视频、音频等多媒体信息存储的最佳载体。1986年,世界上第一部电子图书《美国科学院百科全书》就存储在一张CD-ROM上。CD-ROM是一种只能读不能写的存储介质,信息一经写入就不能被修改和删除。通常所提到的CD-ROM是CD-ROM盘片和CD-ROM驱动器的统称。
(2)CD-R(Compact Disk Recordable)
CD-R包括CD-R刻录机和CD-R盘片。CD-R盘片允许用户用光盘刻录机写入一次,写入后盘片上的信息就不能再被改写或删除。
(3)CD-RW(Compact Disk Rewritable)
CD-RW包括CD-RW刻录机和CD-RW盘片。CD-RW盘片可重复多次写入、擦除,可以进行信息的删改,可多次刻录。
4)DVD简介
DVD(Digital Video Disk)是数字视频光盘的英文缩写,是近年来发展起来的新型光存储介质,可以保存视频、音频数据和其他类型数据。与CD-ROM相比,它具有更优越的性能,其存储容量、读写速度、播放质量都使CD-ROM相形见绌。除了音视频数据外,它还可以存储其他类型数据,因而也被称为Digital Versatile Disk(数字万用光盘)。DVD以MPEG-2为标准,一张单面单层的DVD存储容量达到4.7GB(大约可储存130min高压缩比的影视节目,还包括6个数字杜比声音轨道),其容量不仅是CD-ROM(650MB)光盘的7倍左右,而且清晰完美的播放质量也是CD-ROM无法相比的。如此巨大的容量和优越的性能,对影视、计算机游戏领域和数据存储等方面所产生的巨大影响是可想而知的。
DVD问世以来,人们习惯于将DVD系列统称为DVD,实际上DVD有很多类型,最为常见的有DVD-ROM、DVD-Video、DVD-Audio、DVD-R、DVD+RW、DVD-RAM等。DVD-ROM与CD-ROM很相似,为只读型光盘。同样是用于保存资料(数据);DVD-Video、DVD-Audio分别是视听光盘和音乐光盘,用途类似于VCD和CD;DVD-R是可一次写入型DVD,全名为DVD Recorder,与CD-R的功能类似,也是只能按顺序一次写入数据,但可反复读出;DVD-RAM和DVD+RW都是多次读写型DVD,用途类似于CD-RW,它是DVD系列中推进速度最快的产品。在上述DVD产品中,DVD-Video和DVD-Audio用于影视娱乐方面,其他4种则应用于计算机领域。对应不同类型的DVD盘片,用于播放或运行的设备也分成两大类:一类是家用电器设备(专用DVD播放机),另一类是计算机设备(DVD光驱)。
从外观上看,DVD盘片与普通的CD/VCD盘片无多大区别,但是在结构上它们是不同的。DVD的盘面凹槽更小,光道的间距更近,激光的波长更短,因而DVD比CD具有高得多的存储密度。常规的CD机和CD-ROM驱动光头发射的激光波长是780nm,而DVD机和DVD-ROM驱动器的激光波长为635~650nm,较短的激光波长有利于分辨更小的凹槽。另外DVD采用单面单层、单面双层、双面单层、双面双层几种结构。存储容量也存在较大差别,CD的容量为650MB,而DVD的容量不等,从4.7~7GB。
从兼容性上来看,所有DVD播放器和驱动器均可以读取音乐CD;DVD-ROM驱动器均可以读取CD-ROM;CD-R要视光盘而定,读取CD-R和DVD的激光波长是不相同的,现在许多DVD光驱使用两种不同的波长:一种用于读取DVD,另一种用于读取其他盘片。所以这种DVD对CD-R也具有很好的兼容性;CD-RW盘片在一些CD播放机和普通光驱上可读性并不是很好,但DVD驱动器如果使用了自动获取控制电路,就能读取;几乎任何DVD播放器都可以播放VCD。
DVD的技术标准也是生产商和用户共同关心的问题,以东芝、松下集团为代表的一方和以索尼、飞利浦集团为代表的另一方经过反复协商,于1996年达成了DVD的标准并正式出台。对DVD的容量、视频、音频等指标、技术参数做了专门规定。为DVD产品的生产提供了可循的依据。2005年2月,我国信息产业部颁布了最新的《高密度激光视盘系统技术规范》,简称EVD,成为我国电子行业的推荐性标准。用于指导数字高清音/视频产品的芯片、软件和机芯等产业链开发,统一盘片制作和播放机生产技术。
随着数字化进程的加速,更多新型存储媒体和存储技术正在不断涌现,超高密度、超大容量、超高速度的存储介质正成为各大研究机构攻克的堡垒,超级光盘技术、全息光存储、近场光存储、荧光多层存储等下一代超高密度存储技术,为未来的信息保存描绘了光明灿烂的前景,蓝光盘、活动式的激光驱动器、磁盘阵列等也将在今后的存储天地中一展风采。网络存储、虚拟存储、智能存储等全新的存储方式已在逐渐走向成熟。
3.多媒体数据库技术
多媒体数据库技术用于管理多媒体信息的数据库称为多媒体数据库,它是多媒体技术与数据库相结合的产物。与传统数据库相比,多媒体数据库中处理的数据发生了较大变化,数据对象不再只是单一的字符、数值,出现了图形、图像、声音、视频影像和动画等多样而复杂的多媒体信息。庞大的数据量和复杂的数据类型,对数据库管理系统的数据组织、控制管理提出了新的要求。多媒体数据库要在较短的时间内完成多媒体信息的检索、替换、增删、存储和传输,从功能要求和体系结构上都与传统的数据库有较大的差别,主要表现在以下几方面:
(1)多媒体数据库体系结构复杂
传统的关系数据库其数据模型是基于数值的,对表格一类的应用非常适合。因为在这类数据库中,数据只有抽象的字符和数值,形式比较单一,对数据的操作和管理都很简单。但对于多媒体这样的数据却不能适应。多媒体数据的形式复杂,类型不同,表示方式也各不相同,多媒体数据库应能处理数据对象的各种表示方式,要能反映出各种媒体数据的特性和管理各种媒体数据之间在空间或时间上的关联,以实现对多种媒体的联合操作、合成处理、数据存取及查询检索。目前,多媒体数据模型的研究还不很成熟,主要采用扩展关系型数据模型、面向对象数据模型和超媒体数据模型3种,针对专门的应用进行结构设计。如“组合型多媒体数据库结构”,它是采取各种媒体单独建库的方法,如图像数据库、文本数据库、视频数据库、音频数据库等,用户既可以单独访问某一数据库,也能访问多个数据库,还可以通过相互通信进行协调和执行相应的操作。这种体系结构也称为“协作型”多媒体数据库结构。“集中型”“主从型”也是常用的结构类型。
(2)多媒体数据库的管理难度大
多媒体数据库数据量巨大且不同媒体之间量的差异十分明显,使得数据库的组织结构和存储方法比传统数据库复杂,媒体种类的增多也增加了数据处理的难度。组织好多媒体数据库的数据,设计合适的数据结构和逻辑结构,才能对不同形式的信息组合进行有效的管理。多媒体数据库管理系统在对数据处理上,除了应具备传统数据库系统的基本功能,如数据的存储管理、数据共享、事务处理以外,还应针对多媒体信息的特点,支持一些特殊功能,如支持各种多媒体数据类型,支持对各种媒体信息的语义查询和检索,支持定长数据和非定长数据的集成管理,支持分布式环境。
(3)基于内容的非精确匹配的数据库查询方式
由于多媒体数据库中包含大量的图像、声音、视频等非格式化数据,对它们的查询和检索比较复杂,往往需要根据媒体中表达的情节内容进行检索,基于内容的检索就是对多媒体信息检索使用的一种重要技术。这种检索改变了数据库的操作形式,首先是查询机制和查询方法发生了重大改变。媒体的复合、分散、时序性质以及形象化的特点,使得查询不能只通过字符的精确匹配来完成,而应是通过媒体语义进行查询。这些媒体语义在一些媒体中是不易确定的,如视频内容查询,显然是一种模糊的、非精确的匹配方式。查询的结果也不仅仅是一张表,而是多种媒体的一组“表现”。所以多媒体数据库的查询是通过提取特征的方法,用一种近似匹配从媒体内容中提取信息线索的。
目前,多媒体数据库的研究还处于不断发展的过程中,许多的理论和技术还需要研究和探索。随着技术的进步,多媒体数据库的技术和应用将逐渐完善和成熟。
4.多媒体网络通信技术
多媒体网络通信技术的广泛应用对人类社会产生了重大影响。它是多媒体技术、网络技术和现代通信技术的有机结合,使计算机交互性、网络的分布性和多媒体信息的综合性融为一体。为我们提供了全新的信息服务方式,如多媒体电子邮件、实时视频会议、计算机支持的协同工作,远程教育和远程医疗等。
多媒体网络通信涉及众多的技术领域。要通过通信网络传输多媒体信息,让大流量的连续媒体在网上实时传输,要求网络带宽及包交换协议必须适应,同时对于多媒体技术本身的数据压缩、各媒体间的时空同步等技术也提出了更高的要求。多媒体网络的带宽、信息交换方式以及高层协议,都将直接影响传输及服务的质量。因此,多媒体通信网络要求具有足够的带宽,必须满足多媒体通信的实时性和可靠性要求,还要保证媒体间同步传送的需要。如宽带综合业务数字网(B—ISDN),其传输介质采用同步光纤网(SONET),信息交换方式采用异步传输模式(ATM)。数据传输速率可达到2.4Gbit/s,在其上可以传输高保真的立体声、普通和高清晰度的视频,是多媒体通信的理想环境。
实现多媒体数据的远程传送,通信系统必须提供有力的支撑。现在,多媒体通信技术的发展已打破了传统通信单一媒体、单一电信业务的通信系统格局,从语音处理为主转向多种媒体形式,能实现实时快速传输功能的“信息高速公路”为人们提供了人性化的交流环境。多媒体通信是综合性技术,它要求系统必须同时兼有集成性、交互性、同步性特征。解决多媒体数据压缩、通信带宽及高速可靠传送、信息实时同步等关键性技术问题。
5.多媒体同步技术
同步是指在多媒体终端上显现的视频画面、声音和文字均以同步方式工作。当几种媒体被集成后,它们构成了一个整体,在进行还原回放时,必须同步。如视频信息播放时,伴音应与口形相吻合,演播幻灯片时解说词与正在显示的内容相对应等。同步是多媒体系统中的一个关键性问题,特别是在远程通信中,多媒体同步技术显得更为重要。因为传输的多媒体信息在时空上都是相互约束、相互关联的,多媒体通信系统必须正确反应它们之间的约束关系,同步技术与系统中的许多因素有关,如通信系统、操作系统、数据库、文件及应用形式等。因此,多媒体系统中同步应在不同的层面上考虑。
(1)链路层同步
链路层同步处理的是媒体流内部以及多个媒体流之间的同步。对于单一连续媒体流,要避免因延时而在信号还原时发生抖动,如声音信号重放时出现断续的情况;如果是音视频混合数据流(如MPEG),则应保证口型声音同步;如果是若干个数据流同时播放,则需要保持不同媒体流之间正确的时间关系。在实时多媒体通信系统中,特别是引入运动图像的多媒体通信系统中,链路层的同步是十分重要的。通信线路的延时抖动、操作系统调度的实时性等都会影响到这一层的同步。
(2)表示层同步
在多媒体对象中,有的对象是由几种单一对象复合而成的,如声音、影像、字幕组成的复合视频画面,它的结构是由构成对象按某种规律组合而成的,这类对象称为复合对象。将不同表示媒体的对象复合成一个复合对象的过程引入同步机制,构成多媒体复合对象;或者用超链接将不同表示媒体的对象链接过程中引入同步机制,构成超媒体。这两个过程均在表示层级完成,故称表示层同步。MHEG和HyTime标准中的同步就属这一层。
(3)应用层同步
应用层同步实际上是根据制作脚本中对媒体表现同步的要求,用多媒体创作工具将各种不同的媒体素材有机地联系在一起,形成有声有色的多媒体信息,而在这些媒体集成的过程中,信息间同步的要求同时满足。
6.虚拟现实技术
虚拟现实技术是多媒体技术发展的更高层次,是一项综合集成技术,涉及计算机图形学、仿真技术、传感技术、网络技术、人工智能等领域。虚拟现实技术的本质就是通过计算机对外界客观物理现实进行模拟和仿真,利用三维图形生成技术、多传感交互技术以及高分辨显示技术,生成三维逼真的虚拟环境,为人们构造一个虚幻世界。让人们不受时空的限制,置身于一个虚拟环境中,去感受和体验已经过去或未来还没有发生的各种事件,观察和研究各种假设条件下事物发生和发展的过程。为人们更进一步认识和探索宏观与微观世界提供了全新的方法和手段。虚拟与现实技术所模拟的三维仿真环境,能够给人以身临其境般的真实感受,能够让人置身于其中去共同参与。使用者戴上特殊的头盔、数据手套等传感设备,或利用键盘、鼠标等输入设备,便可进入虚拟空间,成为虚拟环境的一员,进行实时交互,感知和操作虚拟世界中的各种对象,从而获得真实的感受和体会。目前,虚拟现实技术已广泛应用于航空航天、医学实习、建筑设计、军事训练、体育训练、娱乐游戏等许多领域。
虚拟现实涉及多学科、多领域的技术应用,其中比较关键的技术有大规模数据场景建模技术、动态实时的立体听觉、视觉生成技术、三维定位、方向跟踪、触觉反馈等传感技术和设备,交互技术及系统集成技术等。