找回密码
 注册
搜索
查看: 1155|回复: 1

[音频编解码] 求助心理声学模型

[复制链接]
发表于 2008-6-24 10:57:02 | 显示全部楼层 |阅读模式
谁知道心理声学模型啊?我在网上只找到大概的介绍,但具体模型以及如何实现还是不知道,请高手指点。
 楼主| 发表于 2008-6-24 10:59:35 | 显示全部楼层
(1)心理声学模型1

在频域计算掩蔽门限,应该在低频段具有高分辩率(即用窄子带),在高频段具有低分辩率(即用宽子带)。这就导致了滤波器组的树结构。具有并行结构的用于子带滤波的多相滤波器组不能提供不同带宽的子带。这种滤波器组的主要优点是对时域掩蔽效应和前回声有很好的适应性。它的另一个优点是时延小和复杂性低。为了补偿这种滤波器组频谱分析精度低的缺陷,在将声音信号用滤波器组进行 32 个子带滤波的同时,对它做512点(第一层)或是1024点(第二层)的FFT。FFT的输出用来决定实际声音信号中相应的单音(类似正弦波)和非单音(类似噪声)。通过心理声学的研究知道,掩蔽分量的单音成分对掩蔽门限是有影响的,因此,有必要将单音和非单音区分开来。除绝对掩蔽门限外,每个掩蔽者单独产生的掩蔽门限根据其所处的频域位置、响度级、是否单音来进行计算。所有单独产生的掩蔽门限,以及绝对掩蔽门限加在一起,得到全局掩蔽门限。这个掩蔽曲线确定了每个子带的最小值。同时还根据比例因子和FFT输出的功率密度谱得出子带的最大信号电平。最后,求出每个块每个子带的最大信号电平与最小掩蔽门限的差值。对于第1层,块的长度由 12 个子带样值组成,对应于 384 个输入的 PCM 样值;对于第2层,块的长度由 36 个子带样值组成,对应着 1152 个 PCM 样值。最大信号电平与最小掩蔽门限的差值称作信号-掩蔽比(SMR),是比特分配的输入参数。

(2)心理声学模型2

心理声学模型2通过一个1024点的加窗FFT得到数据的频域值。这个过程每576个样点进行一次,即与混合滤波器组同步。进行单独的频域值的计算是因为混合滤波器组不容易从输入序列得到频域的模-相(幅度-相位)值,而这是计算当前输入块的频率分量的音调所必需的。

音调通过一个简单的多项式预测器来预估。其基本思想是用信号的估值代表音调。这个估值过程在模-相域进行。上两块的值被用来预测当前块每个频谱线的模和相位值。预测值和实际值的差值被归一成可能的最大值,称作“混沌尺度”,可以假定为‘0’(旋转的相位估值和实际值距离为‘0’)到‘1’(估值和实值的距离达到最远)。对从‘0’到‘1’的音调值,其“混沌尺度”的对数映射为‘0.5’到‘0.05’。

频域样值的模被转换成一个三分之一临界带能量样值。这些值再与蜗扩展函数进行卷积。门限估值的下一步是在蜗域用音调索引和卷积过的谱计算分辨噪声电平,卷积的直流 (DC) 增益必须经过修正。得到门限估值初值的最后一步是调整绝对门限,由于还不知道最后输出声音的声压级,先假定绝对门限为低于4kHz附近的最小量化位 LSB 所能代表的数值的某个数。对用扩展卷积进行掩蔽门限估值,标准中有详细描述。

计算门限的最后一步是前回声控制。如果信号的后向掩蔽对错误信号的掩蔽不充分的话,前回声是可以被听到的,这种情况还会因为综合滤波器组的时间分辨率有限而在时域扩散。这只有在信号能量突然增大,至少在信号的某些频带增大的时候发生。由此可以导出抑制前回声的充分(非必要)条件,即预估的掩蔽门限要严格控制在低于上一块的门限估值初值。这个条件限制会大大减小最后的门限估值。为了保证量化噪声低于这个修正过的门限,需要有额外的量化比特和编码循环。第3层有一个智能存储管理方案(称作比特池)专门用来在需要时提供附加比特。

我找到一些相关资料,但是不知道怎么实现,谁有实现的程序啊能不能给我一份,多谢了
点评回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies

本版积分规则

Archiver|手机版|小黑屋|52RD我爱研发网 ( 沪ICP备2022007804号-2 )

GMT+8, 2024-11-21 02:33 , Processed in 0.043653 second(s), 16 queries , Gzip On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表