找回密码
 注册
搜索
查看: 945|回复: 0

[综合资料] 嵌入式语音合成技术白皮书

[复制链接]
发表于 2006-6-3 16:55:00 | 显示全部楼层 |阅读模式
目录
1.    概述... 2
2.    系统特性... 3
2.1      新特性... 3
2.2      高品质的语音合成效果... 3
2.3      极低的资源需求... 4
2.4      良好的系统移植性... 4
2.5      灵活的系统架构... 4
2.6      高度可裁减性... 5
2.7      强大的定制能力... 5
2.8      丰富的控制接口... 6
2.9      可靠的开发支持... 6
3.    技术特点... 7
3.1      TTS合成效果指标... 7
3.1.1    整体TTS特性... 7
3.1.2    非受限文本合成引擎合成效果指标... 8
3.2      文本标注... 8
3.3      资源占用指标... 8
3.3.1   InterSound™ 4.0 KM资源占用指标... 8
3.3.2   InterSound™ 4.0 KB资源占用指标... 9
3.3.3   InterSound™ 4.0 KT资源占用指标... 9
4.    应用范围... 11
5.    用户价值体现... 12
6.    服务与支持... 13

1.      概述
随着现代科学技术的快速发展,新的科技成果被源源不断的应用到电子产品之中,我们在日常生活中接触到的电子设备变得越来越智能化和小型化,如何让人们更方便的使用各种电子设备,与机器进行便捷的信息交流和准确的信息获取,使机器具备更加人性化的使用界面,成为电子产品发展的一个潮流。语音作为一种自然、灵活、便捷的交互方式,逐渐成为重要的人机交互手段。

如今,大容量、高自然度的语音合成技术已经比较成熟,广泛的应用于声讯服务、行业企业、计算机等领域,为人们的生活带来了便利。然而,语音合成技术在嵌入式环境下却依然没有得到广泛应用,约束其发展的主要原因有几个:

l         在嵌入式环境下,硬件和软件资源往往有很大的限制,传统的基于大语料库的语音合成技术需要非常高的运算资源和存储资源,无法满足嵌入式环境下对资源的苛刻需求。
l         一些简化过的轻量级语音合成算法虽然在资源占用上可以满足嵌入式环境的要求,但是由于合成算法过于简单,语音合成效果不尽人意,往往无法达到人们可以接受的程度,最终影响了使用效果。
l         嵌入式环境的硬件和软件平台千变万化,存在无数种硬件平台、操作系统和软件环境,传统的语音合成系统在适用性和移植性上也无法满足多样的嵌入式环境的需求。

为了解决语音合成技术在嵌入式环境下的应用问题,科大讯飞公司凭借着深厚的语音技术积累以及多年的嵌入式应用开发经验,针对上述关键点进行了长时间的研究和技术攻关,最终成功推出了真正适用于嵌入式应用的中文语音合成系统InterSound™ 4.0,在系统资源占用、语音合成效果、系统移植性等多个关键点取得了突破性的进展,为语音合成技术在嵌入式环境下的应用推广迈出了重要的一步。
2.      系统特性
InterSound™ 4.0具备多项独特的功能以及优异的性能,以下将进行详细的介绍:
2.1         新特性
InterSound™ 4.0版本的新特性包括:
Ø         语种可扩充,包括多语混读模式,允许集成第三方引擎
Ø         受限文本范围可扩充
Ø         汉语拼音输入识别
Ø         支持流式文本输入
Ø         处理状态控制
Ø         处理进度通知
Ø         同步回显支持汉语拼音输出
Ø         允许关闭音频输出
Ø         支持3种发音风格
Ø         同时支持4个发音人
Ø         支持标点符号朗读
Ø         支持用户自定义汉语词库
Ø         支持用户自定义提示音
Ø         提示音支持汉字、字母、数字、符号混合的句子或短语,最大可跨8个Token
2.2         高品质的语音合成效果
InterSound™ 4.0合成系统具有高品质的语音合成效果,其原因来源于多个方面。
Ø         基于最新的嵌入式任意文本语音合成研究成果
InterSound™ 4.0在嵌入式环境下的任意文本语音合成算法上取得了重大突破,新的语音合成算法在合成效果上已经接近传统大语料库语音合成算法的效果,合成效果与以往的嵌入式语音合成系统相比,更加自然和流畅。
Ø         集成了智能的文本分析算法
InterSound™ 4.0的文本处理前端集成了多种智能的文本分析算法,将规则和统计等处理方法进行了有机的结合,具备了较强的分词、多音字识别、姓氏识别、韵律环境预测能力,以及自动识别和处理日期时间、数值金额、电话号码等文本的能力,并能通过添加外部规则的方式,快速增加对新的文本格式的支持能力。
Ø         对受限文本可定制分析算法和音库
InterSound™ 4.0系统中引入了受限定制引擎的概念,可针对文本变化范围可事先预知的特定文本制定专门的文本分析策略和音库。定制处理算法与通用合成算法相比,合成效果更为准确和自然。
2.3         极低的资源需求
InterSound™ 4.0在系统架构、代码实现、资源结构等方面进行了大量的优化工作。
Ø         整体系统架构的设计紧凑高效;
Ø         系统开发过程中,在合成算法、数据结构、代码编写等不同层面都进行了深入优化;
Ø         资源的结构设计也非常精巧,既降低了资源的尺寸,又提升了资源访问的效率。
最终的优化结果,使得InterSound™ 4.0系统在运算资源和存储资源的需求方面,都较传统的合成系统有了极大的降低。
2.4         良好的系统移植性
InterSound™ 4.0系统对不同的硬件和软件环境有极强的适应能力和移植能力,系统对与具体环境相关的部分进行了抽象设计,如果要移植到不同的环境下,只要重新实现少量接口,即可快速实现不同环境下的版本。
Ø         目前InterSound™ 4.0系统在多种处理器芯片环境下,多种操作系统甚至无操作系统的软件环境下,都已经实现了移植版本。支持的操作系统包括:Win32,WinCE,HOPEN,Nucleus,Embedded Linux,μCOS,Symbian OS等。支持的处理器芯片包括:X86系列,ARM系列,MIPS系列,EPSON,TI DSP,AD DSP,SigmaTel等32位和16位处理器。
Ø         InterSound™ 4.0可兼容不同的字节序环境,如Little-Endian和Big-Endian字节序。
Ø         InterSound™ 4.0的资源位置可以任意配置,既可配置到支持线性访问的Nor Flash,P-ROM等存储器中,也可配置到分块访问的NandFlash中,如果环境支持文件系统,还可以以文件的方式配置。这使得系统对不同嵌入式环境的支持能力大大增强。
2.5         灵活的系统架构
InterSound™ 4.0具有非常灵活的系统架构,体现在:
Ø         InterSound™ 4.0采用了面向对象以及模块化设计的思想,具有非常灵活的系统架构。在统一的系统架构下,可挂接多种的语音合成处理引擎,各个引擎遵守标准的调用接口和数据结构定义,在共享了数据处理方法的同时,又使得各引擎可以任意搭配和混合使用,针对不同的应用领域,组合出不同的功能,满足不同场合下的要求。
Ø         InterSound™ 4.0可以集成第三方的TTS引擎在系统中,这给需要多语种的用户提供了统一的操作界面和整体处理策略,既方便用户使用,有有助于充分保证混合语言合成时的效果。
Ø         InterSound™ 4.0的系统架构实现了代码和资源的分离,可更好的适应某些硬件应用场合,极少变动的系统代码可以事先Mask到ROM介质或者芯片内部,而可能会经常变动的库资源,可存储在可擦写介质中,让用户可以随时更新。
Ø         InterSound™ 4.0还允许用户在运行态可以动态插入自定义的数据处理模块,使得用户可以方便的增加新的数据处理算法,比如支持新的编解码算法,支持新的声音处理效果(如调节语速,调节音量,增加音效处理等),使得系统本身具备较强的可扩展性。
2.6         高度可裁减性
Ø         算法可裁减,有多种不同复杂度的语音合成算法可以选择,代码实现可繁可简,同时对动态RAM资源的需求也会有所变化。
Ø         功能可裁减,有多种语音合成引擎可以选择,对不需要的功能,可以不配置。
Ø         尺寸可裁减,支持多种语音合成算法和语音编解码算法,对不同的效果要求,资源的尺寸可大可小,具有很大的伸缩性。
2.7         强大的定制能力
InterSound™ 4.0的定制能力体现在多个方面。
Ø         InterSound™ 4.0灵活的系统架构,使得功能的任意配置成为可能,用户可以决定是否采用或者去除某个处理算法或模块。此外,InterSound™ 4.0的资源本身具有一定的自描述能力,用户可以通过控制资源的内容和大小来定制InterSound™系统的功能。
Ø         用户自定义词典功能的引入,使得InterSound™系统可以针对特定的文本环境定制专门的词典,在特定文本环境下,文本处理正确率大大改善。
Ø         受限定制引擎的引入,使得InterSound™系统可以针对特定的文本范围录制专门的音库,在特定文本范围下的语音合成自然度方面表现更佳。
Ø         提示音功能可以根据不同的用户的需求,对一些固定的文本内容,由播音员事先录制成提示音,当合成系统遇到这些固定文本的时候,直接使用预先录制的自然语音进行回放,达到较好的语音效果。如果将预录音引擎配合受限定制引擎使用,可以在一些特定领域下接近真人播报的效果。
Ø         讯飞公司具有多年积累下来的丰富的语音数据制作经验。针对InterSound™ 4.0的系统定制,有专门的数据定制小组负责受限引擎的制作以及预录音定制服务。可以按照用户的需求,定制专用的受限合成引擎和定制音库,录制和制作预录音音库。讯飞公司拥有自动高效的定制工具和丰富的定制经验,可以在极短的时间内满足用户的定制需求。
2.8         丰富的控制接口
讯飞公司具有多年的嵌入式应用开发经验,因此在进行系统设计的时候,充分考虑到了用户对语音合成技术的需求,在调用接口上有很多体贴的设计。
Ø         用户可以通过简短的文本标记,控制合成系统的最终表现,例如,通过“数字读法”的控制标记,用户可以任意制定遇到数的时候,是按数值方式还是号码方式来念,当然,也可以选择让系统自动判断。目前InterSound™ 4.0的基本系统支持“数的读法”,“一的读法”,“静音产生”,“多文本内码切换”,“定制引擎标记”等标记。增强型的InterSound™系统,可以支持调节语速,调节音量等增强型的文本标记,甚至扩展出更多的标记。
Ø         处理进度通知功能。InterSound™ 4.0系统首次实现了在合成文本的同时通知应用当前合成的文本位置的功能,这使得实现希望在合成语音的同时显示播放位置的应用提供了可能。
Ø         处理状态控制功能,允许用户随时暂停或停止合成,这为用户提供了更大的控制能力,配合处理进度通知功能,使用户可以实现前所未有的应用模式,例如中断当前合成插播内容,并在插播结束后从中断处恢复。
Ø         同步回显功能。InterSound™ 4.0系统可以在播放声音的同时,同步显示该声音对应的文本,使得应用可以实现边听边看,先看后听等功能,对屏幕显示空间有限的嵌入式电子设备和一些教育软件应用有非常高的实用意义。
Ø         InterSound™ 4.0提供了对多种汉字编码方式的支持,包括GB2312/GBK,Big5,Unicode(含UTF16LE、UTF16BE、UTF8等),充分考虑了不同地区用户的需求。
2.9         可靠的开发支持
Ø         InterSound™ 4.0的API开发接口非常简洁,易用,且功能强大。Standard API和Simple API两层开发接口分别针对不同层次的用户,方便用户选用。
Ø         在InterSound™ 4.0的SDK开发包中,还提供了详细的开发文档以及演示程序。
Ø         除此以外,讯飞公司还专门配置了经验丰富的技术支持人员来支持InterSound™ 4.0的应用移植和开发,解决用户开发过程中遇到的困难,帮助用户设计语音应用方案。
如上特性,保证了InterSound™ 4.0系统比较容易移植并集成到各种应用环境下,为用户的应用程序带来了强大的语音界面,并给最终客户以全新的语音效果体验。

【文件名】:0663@52RD_InterSound(tm) 4.0 技术白皮书.rar
【格 式】:rar
【大 小】:208K
【简 介】:
【目 录】:


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册

×
高级模式
B Color Image Link Quote Code Smilies

本版积分规则

Archiver|手机版|小黑屋|52RD我爱研发网 ( 沪ICP备2022007804号-2 )

GMT+8, 2024-9-28 01:17 , Processed in 0.059832 second(s), 17 queries , Gzip On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表