多媒体技术应用的主要内容
1、数据压缩,图像处理的应用
多媒体计算机技术是面向三维图形、环绕立体声和彩色全屏幕运动画面的处理技术。数据压缩技术为图像、视频和音频信号的压缩,文件存储和分布式利用,提高通信干线的传输效率等应用提供了一个行之有效的方法,同时使计算机实时处理音频、视频信息,以保证播放出高质量的视频、音频节目成为可能。
2、音频信息处理的应用
在多媒体技术中,存储声音信息的文件格式主要有:WAV文件、VOC文件、MIDI文件、AIF文件、SON文件及RMI文件等。
3、音频信息录制编辑
把音乐和语音加到多媒体应用中,是我们研究音频处理技术的目的,下面是我们常用的音频信息录制编辑软件。
WaveEdit工具的REC命令;Sound Blaster卡的VEdit2软件;Microsoft SoundSystem卡的Quick Recorder软件;Cooledit软件;Wave Edit工具;Creative WaveStudio。
4、语音识别
语音的识别长久以来一直是人们的美好梦想,让计算机听懂人说话是发展人机语音通信和新一代智能计算机的主要目标。
随着计算机的普及、越来越多的人在使用计算机,如何给不熟悉计算机的人提供一个友好的人机交互手段,是人们感兴趣的问题,而语音识别技术就是其中最自然的一种交流手段。
5、数据库和基于内容检索的应用
多媒体信息检索技术的应用使多媒体信息检索系统、多媒体数据库,可视信息系统、多媒体信息自动获取和索引系统等应用逐渐变为现实。
基于内容的图像检索、文本检索系统己成为近年来多媒体信息检索领域中最为活跃的研究课题,基于内容的图像检索是根据其可视特征,从图像库中检索出与查询描述的图像内容相似的图像,利用图像可视特征索引,可以大大提高图像系统的检索能力。
参考资料来源:百度百科-多媒体技术应用
多媒体技术是使用计算机交互式综合技术和数字通信网络技术处理多种表示媒体——文本、图形、图像、视频和声音,使多种信息建立逻辑连接,集成为一个交互式系统。
它主要涉及如下几个部分: 它包括HCI与交互介面设计、多模态转换、压缩与编码和虚拟现实等。
音频信息处理:它包括音乐合成、特定人与非特定人的语音识别、文字——语音的相互转换等。 MPEG视频压缩技术是针对运动图像的数据压缩技术。目前又分为MPEG-I、MPEG-Ⅱ、MPEG-Ⅳ、MPEG-7和MPEG-21。
MPEG-I最初用于数字存储上活动图像及伴音的编码,数码率为1.5Mbit/s,图像采用SIF格式,两路立体声伴音的质量接近CD音质,到现在,MPEG-I压缩技术的应用已经相当成熟,广泛地应用在VCD制作,图像监控领域。
MPEG-Ⅱ是MPEG-I的扩充、丰富和完善。MPEG-Ⅱ的视频数据速率为4-5Mit/S,能提供720×480(NTSC)或720×576(PAL)分辨率的广播级质量的视像,适用于包括宽屏幕和高清晰度电视(HDTV)在内的高质量电视和广播。
随着网络、有线/无线通信系统的迅猛发展,交互式计算机和交互性电视技术的普遍应用,以及视频、音频数据综合服务等应用的发展趋势,对计算机多媒体数据压缩编码、解码技术及其遵循的标准提出更多更高的要求,有许多要求MPEG-I和MPEG-Ⅱ标准是难以支持的,因此MPEG-Ⅳ应运而生,它正是为解决这些高需求而推出的。
根据MPEG-Ⅳ开发的不同的压缩编码,我们可以分为如下几类:
●基于内容的多媒体数据访问工具:应用于从在线的程序库和传送信息的数据库中进行基于内容的信息检索。
●基于内容的处理和比特流编辑:应用于交互式家庭购物、影视的制作和编辑、数字特技。
●混合自然和人工数据编码:应用于动画和音响的自然组合,在游戏节目中观众可以移动和传送覆盖在要查看的视频之上的图形,从不同的观察点描绘图形和声音。
●改进的时间随机访问:应用于音像数据的远程终端随机访问。
●改进的编码效率:应用于低带宽信道上的有效音像数据存储和传送。
●多重并行数据流的编码:多媒体表演,如虚拟现实游戏,3维动画,训练和飞行模拟,多媒体演示和教育。
如今,越来越多的声像信息以数字形式存储和传输,这为人们更灵活地使用这些信息提供了可能性。但随之而来的问题是,随着网络上信息爆炸性的增长,获取到我们感兴趣的信息的难度却越来越大。传统的基于关键字或文件名的检索方法显然不适于数据量庞大、又不具有天然结构特征的声像数据,因此近些年来多媒体研究的一个热点是声像数据的基于内容的检索,例如“从这段新闻片中找出有首相、总统的镜头”这种形式的检索。实现这种基于内容检索的一个关键性的步骤是要定义一种描述声像信息内容的格式,而这与声像信息的存储形式(编码)又是密切相关的。国际标准化组织运动图像专家组注意到了这方面的需求和潜在的应用市场,在推出影响极大的MPEG—1、MPEG-2之后,尚未完成MPEG-4的最后定稿,便开始着手制定专门支持多媒体信息基于内容检索的编码方案:MPEG-7。
MPEG-7作为MPEG家族中的一个新成员,正式名称叫做“多媒体内容描述接口”,它将为各种类型的多媒体信息规定一种标准化的描述,这种描述与多媒体信息的内容本身一起,支持用户对其感兴趣的各种“资料”的快速、有效地检索。
以下一些应用领域将从MPEG-7标准的制定中获益:
●数字化图书馆(图像分类目录,音乐字典,…)
●多媒体目录服务
●广播式媒体选择(收音机频道,电视频道,…)
●多媒体编辑(个人电子新闻服务,媒体著作)还有一些潜在的应用领域:
●教育
●旅游信息
●娱乐(例如寻找游戏、卡拉OK节目)
●购物(例如寻找你喜欢的衣服)
MPEG-21的范围可以描述成是一个决定性(关键)技术的集成,这些技术可以通过访问全球网络和设备实现对多媒体资源的透明和增强的使用。其功能包括:内容创建、内容产品、内容发布、内容消耗和使用、内容表示、知识产权管理和保护、内容识别与描述、财政管理、用户的隐私权、终端和网络资源抽取、事件报告等。 把音乐和语音加到多媒体应用中,是我们研究音频处理技术的目的,下面是我们常用的音频信息录制编辑软件。
WaveEdit工具的REC命令;Sound Blaster卡的VEdit2软件;Microsoft SoundSystem卡的Quick Recorder软件;Cooledit软件;Wave Edit工具;Creative WaveStudio。 语音的识别长久以来一直是人们的美好梦想,让计算机听懂人说话是发展人机语音通信和新一代智能计算机的主要目标。随着计算机的普及、越来越多的人在使用计算机,如何给不熟悉计算机的人提供一个友好的人机交互手段,是人们感兴趣的问题,而语音识别技术就是其中最自然的一种交流手段。
自从20世纪80年代中期以来,新技术的不断出现使语音识别有了实质性的进展。特别是隐马尔可夫模型(HMM)的研究和广泛应用,推动了语音识别的迅速发展,陆续出现了许多基于HMM模型的语音识别软什系统。
当前,语音识别领域的研究正方兴未艾。在这方面的新算法、新思想和新的应用系统不断涌现。同时,语音识别领域也正处在一个非常关键的时期,世界各国的研究人员正在向语音识别的最高层次应用——非特定人、大词汇量、连续语音的听写机系统的研究和实用化系统进行冲刺,可以乐观地说,人们所期望的语音识别技术实用化的梦想很快就会变成现实。 世界上已研制出汉、英、日、法、德等语种的文语转换系统,并在许多领域得到了广泛应用。
DEC Talk文语转换系统:这是DEC公司在MIT的KLATT教授研制的语音合成器的基础上开发的语音生成系统,用于英语文语转换。
AT&T Bell文语转换系统:这是美国AT&T贝尔实验室研制的文语转换系统,它最初用于英语的文语转换,现在正扩展到其它语种。
Sonic文语转换系统:这是清华大学计算机系基于波形编辑的汉语文语转换系统。该系统利用汉语词库进行分词,并且根据语音学研究的成果建立了语音规则,对汉语中的某些常见语音现象进行了处理。系统采用PSOLA算法修改超音段语音特征,提高了言语输出的质量。 多媒体信息检索技术的应用使多媒体信息检索系统、多媒体数据库,可视信息系统、多媒体信息自动获取和索引系统等应用逐渐变为现实。基于内容的图像检索、文本检索系统己成为近年来多媒体信息检索领域中最为活跃的研究课题,基于内容的图像检索是根据其可视特征,包括颜色、纹理、形状、位置、运动、大小等,从图像库中检索出与查询描述的图像内容相似的图像,利用图像可视特征索引,可以大大提高图像系统的检索能力。
随着多媒体技术的迅速普及,Web上将大量出现多媒体信息,例如,在遥感、医疗、安全、商业等部门中每天都不断产生大量的图像信息。这些信息的有效组织管理和检索中都依赖基于图像内容的检索。目前,这方面的研究已引起了广泛的重视,并已有一些提供图像检索功能的多媒体检索系统软件问世。例如,由IBM公司开发的QBIC是最有代表性的系统,它通过友好的图形界面为用户提供了颜色、纹理、草图、形状等多种检索方法;美国加州大学伯克利分校与加州水资源部合作进行了Chabot计划,以便对水资源部的大量图像提供基于内容的有效检索手段。此外还有麻省理工学院的Photobook,可以利用Face,Shape,Texture,Photobook分别对人脸图像、工具和纹理进行基于内容的检索,在Virage系统中又进一步发展了将多种检索特征相融合的手段。澳大利亚的New South Wales大学已开发了NUTTAB系统,用于食品成份数据库的检索。
清华大学计算机系结合国家863高技术研究发展项目“Web上基于内容的图像检索”的研究,于1997年研制了一个Intemet上的静态图像的基于内容检索的原型系统。该项目的研究目标是开发能在Internet/Intranet环境下,通过友好的人-机界面,以颜色、纹理等图像特征或样本图像检索图像的方法和工具。 多媒体创作工具是电子出版物、多媒体应用系统的软件开发工具,它提供组织和编辑电子出版物和多媒体应用系统各种成分所需要的重要框架,包括图形、动画、声音和视频的剪辑。制作工具的用途是建立具有交互式的用户界面,在屏幕上演示电子出版物及制作好的多媒体应用系统以及将各种多媒体成分集成为一个完整而有内在联系的系统。
多媒体著作创作工具可以分成:基于时间的创作工具;基于图符(Icon)或流线(Line)创作工具;基于卡片(Card)和页面(Page)的创作工具;以传统程序语言为基础的创作工具。它们的代表软件是Action、Autherware、IconAuther、ToolBook、Hypercard、北大方正开发的方正奥斯和清华大学开发的Ark创作系统。
在多媒体著作创作中,还必须借助一些用于文本、音视频及图像处理软件系统。对于不同的媒体素材,采用的软件也不同。
用多媒体创作工具可以制作各种电子出版物及各种教材、参考书、导游和地图、医药卫生、商业手册及游戏娱乐节目,主要包括多媒体应用系统;演示系统或信息查询系统;培训和教育系统;娱乐、视频动画及广告;专用多媒体应用系统;领导决策辅助系统;饭店信息查询系统;导游系统;歌舞厅点歌结算系统;商店导购系统;生产商业实时监测系统以及证券交易实时查询系统等。 人类社会逐渐进入信息化时代,社会分工越来越细,人际交往越来越频繁,群体性、交互性、分布性和协同性将成为人们生活方式和劳动方式的基本特征,其间大多数工作都需要群体的努力才能完成。但在现实生活中影响和阻碍上述工作方式的因素太多,如打电话时对方却不在。即使电话交流也只能通过声音,而很难看见一些重要的图纸资料,要面对面的交流讨论,又需要费时的长途旅行和昂贵的差旅费用,这种方式造成了效率低、费时长、开销大的缺点。今天,随着多媒体计算机技术和通信技术的发展,两者相结合形成的多媒体通信和分布式多媒体信息系统较好地解决上述问题。
多媒体通信和分布式多媒体技术涉及:计算机支持的协同工作(CSCW)、视频会议、视频点播(VOD)等。 它是根据用户要求播放节目的视频点播系统,具有提供给单个用户对大范围的影片、视频节目、游戏、信息等进行几乎同时访问的能力。对于用户而言,只需配备响应的多媒体电脑终端或者一台电视机和机顶盒,一个视频点播遥控器,“想看什么就看什么,想什么时候看就什么时候看”,用户和被访问的资料之间高度的交互性使它区别于传统的视频节目的接收方式。它是多媒体数据压缩解压技术,综合了计算机技术、通信技术和电视技术的一门综个技术。
在这些VOD应用技术的支持和推动下,网络在线视频、在线音乐、网上直播为主要项目的网上休闲娱乐、新闻传播等服务得到了迅猛发展,各大电视台、广播媒体和娱乐业公司纷纷推出其网上节目,虽然目前由于网络带宽的限制,视频传输的效果还远不能达到人们所预期的满意程度,还是受到了越来越多的用户的青睐。
VOD和交互电视(ITV)系统的应用,在某种意义上讲是视频信息技术领域的一场革命,具有巨大的潜在市场,具体应用在电影点播、远程购物、游戏、卡拉OK服务、点播新闻、远程教学、家庭银行服务等方面。 根据一定的教学目标,在计算机上编制一系列的程序,设计和控制学习者的学习过程,使学习者通过使用该程序,完成学习任务,这一系列计算机程序称为教育多媒体软件或称为CAI(Computer Assist Instruction计算机辅助教学)。
网络远程教育模式依靠现代通信技术及多媒体技术的发展,大幅度地提高了教育传播的范围和时效,使教育传播不受时间、地点、国界和气候的影响。CAI的应用,使学生真正打破了明显的校园界限,改变了传统的“课堂教学”的概念,突破时空的限制,接受到来自不同国家、教师的指导,可获得除文本以外更丰富、直观的多媒体教学信息,共享教学资源,它可以按学习者的思维方式来组织教学内容,也可以由学习者自行控制和检测,使传统的教学由单向转向双向,实现了远程教学中师生之间、学生与学生之间的双向交流。 地理信息系统(GIS)获取、处理、操作、应用地理空间信息,主要应用在测绘、资源环境的领域。与语音图像处理技术比较,地理信息系统技术的成熟相对较晚,软件应用的专业程度相对也较高,随着计算机技术的发展,地理信息技术逐步形成为一门新兴产业。
除了大型GIS平台之外,设施管理、土地管理、城市规划、地籍测量的专业应用多媒体技术也层出不穷。 图像处理、声音处理、检索查询等多媒体技术综合应用到实时报警系统中,改善了原有的模拟报警系统,使监控系统更广泛地应用到工业生产、交通安全、银行保安、酒店管理等领域中。它能够及时发现异常情况,迅速报警,同时将报警信息存储到数据库中以备查询,并交互地综合图、文、声、动画多种媒体信息,使报警的表现形式更为生动、直观,人机界面更为友好。