乐器;声学设备的制造及制作,分析技术1.本发明涉及电子信息技术领域,进一步说,尤其涉及一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法。背景技术:2.原有的基于信号处理的方法通常基于计算参考信号、滤波信号和误差信号之间的相关性,并建立相关性和抑制残余回声的增益之间的映射,或是根据相关性估计出残余回声的功率谱,进而根据维纳滤波等降噪方法计算回声抑制增益。由于相关性难以表达原始信号之间的非线性关系,该方法难以达到优异的残余回声消除效果。由于dnn优异的非线性表达能力,其抑制回声效果明显优于传统信号处理方法。现有dnn模型网络结构复杂,并且消除结果表示近端语音失真度难以控制。因此,需要解决的问题主要包括两个方面,一方面,设计低复杂度的算法和模型,另一方面,利用传统信号处理的方法控制近端语音的失真。本发明采用信号处理和dnn模型相结合的方式,将dnn优异的非线性处理能力和信号处理的可控性结合,达到良好的非线性残余回声消除效果,同时降低整个算法的计算复杂度,并能根据声学环境控制近端语音的失真。技术实现要素:3.本发明为解决上述技术问题而采用的技术方案是提供一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,目的是设计轻量级的dnn模型,并控制最终的近端语音失真度。4.其中,具体技术方案为:5.包括:6.(1)使用基于nlms算法的线性回声消除;7.(2)线性谱域到子带谱域转换;8.(3)dnn模型;9.(4)增益控制;10.(5)子带谱域到线性谱域转换。11.上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,(1)包括:12.将参考信号x(t)和麦克风信号d(t)作为输入,经过经典的基于nlms的线性回声消除算法处理,得到滤波信号y(t)和误差信号e(t),滤波信号是指参考信号经过滤波器处理之后的信号,而误差信号是麦克风信号和滤波信号之差。13.上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,(2)包括:14.步骤2)将参考信号、滤波信号和误差信号分别做分帧、加窗和快速傅里叶变换(fft)处理,转换到线性频域,分别表示为x(k,l),y(k,l),和e(k,l),其中(以x(k,l)为例),l是音频信号的时间帧索引,k是频率索引,k取1,2,...,n/2+1,n为fft的长度,w是长度为n的分析窗(如汉宁窗),t为帧移,通常取t=n/2。15.步骤3)使用等效矩阵带宽(erb)尺度,将线性频域划分成多个子带,其转换方式为16.erb(f)=21.4log10(1+0.00437f)ꢀꢀꢀ(1)17.f(erb)=(10erb/21.4-1)/0.00437ꢀꢀꢀ(2)18.子带划分分为以下三步:1)确定线性频域的频率范围[fl,fu],在具体实施时,如对于采样率为16khz的音频信号,其待划分的频率范围可为[100,8000],通过公式(1),将线性频率范围转换为erb范围[erbl,erbu];2)确定子带个数m,在具体实施时,可取m=40,将erb范围平均划分为m等份,则m+2个erb频点可表示是为(erbl,erbl+δ,…,erbl+(m+1)δ),其中δ=(erbu-erbl)/m;3)根据等式(2),将上述erb频点转换到线性频点h(i),根据公式f(i)=floor((n+1)*h(i)/fs),(其中,n表示fft的长度,fs为采样率),得到线性频点h(i)对应的频率索引f(i)。在具体实施中,对音频信号做n=512点的fft;[0019]步骤4)使用三角滤波器组(如图3所示),设计滤波器组wm(k),其中,m=1,…,m,且[0020][0021]使用该三角滤波器组对步骤2)计算得到的频谱x(k,l),y(k,l),和e(k,l)进行滤波,得到xs(m,l),ys(m,l),和es(m,l),其中(以xs(m,l)为例),[0022]xs(m,l)=∑kwm(k)|x(k,l)|2,[0023]即得到子带频域的参考能量谱、滤波能量谱和误差能量谱。具体实施时,对于n=512点的fft,该线性谱域的频带个数为257(即512/2+1)个,而经过erb尺度的子带的转换,频带的个数减少为m=40。使用上述子带域的能量谱作为dnn模型的输入特征,则相比使用线性谱域的能量谱作为特征,dnn模型的特征维度大幅减少。[0024]上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,(3)包括:[0025]步骤5)由步骤4)计算得到的子带能量谱xs(m,l),ys(m,l),和es(m,l),将其进行合并取对数运算结果,组成dnn模型的输入特征,[0026]f(l)=log10[concat(xs(m,l),ys(m,l),es(m,l))][0027]特征的输入维度为3m。特征输入到dnn模型,推理得到输出子带时频掩蔽mask。在训练dnn模型时,其定义为[0028][0029]其中,ec(m)表示干净近端语音信号在子带m的能量,其可从训练数据集中获取,en(m)表示误差语音信号在子带m的能量,m取1,2,...,m;具体地,将维度为40的参考能量谱、滤波能量谱和误差能量谱分别取对数之后,并经过层归一化(iln)处理,合并组成维度为120的特征向量,输入到两层128维的gru模型中;在两次gru之间添加dropout层,防止训练过程中模型过拟合;假设经过层归一化处理后生成的特征在t时刻分别表示为x(t),y(t),e(t),则上述主要计算流程为[0030][0031]其中,[]表示向量连接,g(x)为gru层计算函数。[0032]最后,第二个gru层输出的特征经过维度为40的全连接层(fc)和sigmoid层处理,输出40维度的子带时频掩蔽,其t时刻输出结果为:其中,u,v分别为全连接层的权重矩阵和偏置向量。在线性频域全频带dnn模型中,该时频掩蔽mask的输出结果的维度为n/2+1,对于n=512点的fft,其维度为257,明显大于在子带的预测输出维度。因此,子带频域训练的dnn模型的的网络复杂度小于其在线性频域的复杂度。[0033]上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,(4)包括:[0034]步骤6)为处理dnn模型的过估计导致的近端语音失真现象,在模型估计的mask的基础上对子带增益进行控制。首先,残余回声能量谱估计为λ(m,l),其中,λ(m,l)=αλ(m,l-1)+(1-α)r(m,l)[0035]m=1,2,...,m.α是平滑因子,在实际实施中,取α=0.95,则后验信噪比可估计为[0036]步骤7)在近端语音存在不确定的条件下,我们使用决策导向的方法来估计先验信噪比其中,β是平滑因子,在实际实施中,取β=0.95,gh1(m,l-1)表示在l-1时间帧近端语音存在的条件下的增益;[0037]步骤8)考虑近端语音存在的不确定性,结合复高斯模型并应用贝叶斯规则,则近端语音存在概率的估计为,[0038]其中,q(m,l)是先验的近端语音不存在概率,在实际实施时,取q(m,l)为一个固定的值,即q(m,l)=q0=0.5;ξ(m,l)为先验信噪比,γ(m,l)为后验信噪比;[0039]步骤9)我们使用对数幅度谱估计器对子带增益进行估计。在近端语音不存在的情况下,设定一个阈值gmin,其指定最小底噪水平,通常可设为-10db,则近端幅度as(m,l)估计为gmines(m,l);在近端语音存在的情况下,as(m,l)估计为gh1(m,l)es(m,l),其中,gh1(m,l)表示在l时间帧近端语音存在的条件下的增益,其表达式为[0040][0041]步骤10)最后,增益函数为g(m,l)={gh1(m,l)}p(m,l)gmin1-p(m,l),其中,p(m,l)为近端语音存在概率。上述过程中,可通过参数gmin,q0,和平滑因子等对增益进行调整,以达到根据具体应用的声学环境控制近端语音的失真情况的目的。[0042]上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,(5)包括:[0043]步骤11)由步骤4)的得到的三角滤波器组wm(k),将子带增益g(m,l)转换到全带增益gf(k,l)=∑mwm(k)g(m,l),其中,m取1,2,...,m,k取1,2,...,n/2+1。[0044]步骤12)将全带增益gf(k,l)应用到误差信号的复数谱上,则残余回声抑制之后的误差信号的复数谱[0045]步骤13)复数谱经过反傅里叶变换和加合成窗,最后经过重叠相加算法,得到残余回声抑制之后的误差时域信号且[0046]为与分析窗双正交的合成窗。[0047]上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,在dnn模型的训练中,需要准备的数据包括近端语音信号数据,回声信号数据和参考信号数据,以及混响数据,其中回声数据中需包含尽可能多的设备数据,即包含不同的非线性回声;[0048]将回声数据和近端语音信号按照不同的信噪比进行混合,得到麦克风数据,将模拟的麦克风数据和参考数据经过步骤1)中的线性回声消除处理,得到滤波信号和误差信号;将其和参考信号一同送入线性谱域到子带谱域转换模块,得到上述所示的dnn模型特征,将对应的近端语音数据同样经过线性谱域到子带谱域转换模块处理,和子带误差能量谱进行计算,得到dnn模型的目标数据mask,使用均方误差损失函数作为模型的优化准则,基于深度学习训练框架,对dnn模型进行训练。[0049]本发明相对于现有技术具有如下有益效果:[0050]1.基于等效矩阵带宽(erb)尺度,将信号的线性频谱划分到多个子带进行处理,并基于三角滤波器组实现从线性频域到子带频域的转换。该转换能明显降低算法和模型的复杂度。[0051]2.采用参考信号、滤波信号和误差信号等三路信号作为特征,训练dnn模型,能够充分利用相关信息提取误差信号中的残余非线性回声。[0052]3.设计轻量级的dnn网络结构,其具有处理的实时性和计算资源消耗小的特点。[0053]4.使用对数幅度谱估计器,考虑近端语音存在的不确定性,对子带谱域增益进行控制。通过调节相关参数可对增益进行调整,进而达到根据具体应用的声学环境控制近端语音的失真情况的目的。附图说明[0054]图1为本发明的总体系统执行框图。[0055]图2为线性回声消除的实施原理图。[0056]图3为三角滤波器组示意图。[0057]图4为dnn模型的网络结构示意图。[0058]图5为子带谱增益计算流程图。具体实施方式[0059]下面结合附图和实施例对本发明作进一步的描述。[0060]本发明的总体系统执行框图如图1所示。[0061]具体操作流程描述如下:1,使用基于nlms算法的线性回声消除。[0062]步骤1)将参考信号x(t)和麦克风信号d(t)作为输入,经过经典的基于nlms的线性回声消除算法处理,得到滤波信号y(t)和误差信号e(t),滤波信号是指参考信号经过滤波器处理之后的信号,而误差信号是麦克风信号和滤波信号之差。一种线性回声消除的实施原理如图2所示。[0063]2,线性谱域到子带谱域转换。[0064]步骤2)将参考信号、滤波信号和误差信号分别做分帧、加窗和快速傅里叶变换(fft)处理,转换到线性频域,分别表示为x(k,l),y(k,l),和e(k,l),其中(以x(k,l)为例),l是音频信号的时间帧索引,k是频率索引,k取1,2,...,n/2+1,n为fft的长度,w是长度为n的分析窗(如汉宁窗),t为帧移,通常取t=n/2。[0065]步骤3)使用等效矩阵带宽(erb)尺度,将线性频域划分成多个子带,其转换方式为[0066]erb(f)=21.4log10(1+0.00437f)ꢀꢀꢀ(1)[0067]f(erb)=(10erb/21.4-1)/0.00437ꢀꢀꢀ(2)[0068]子带划分分为以下三步:1)确定线性频域的频率范围[fl,fu],在具体实施时,如对于采样率为16khz的音频信号,其待划分的频率范围可为[100,8000],通过公式(1),将线性频率范围转换为erb范围[erbl,erbu];2)确定子带个数m,在具体实施时,可取m=40,将erb范围平均划分为m等份,则m+2个erb频点可表示是为(erbl,erbl+δ,…,erbl+(m+1)δ),其中δ=(erbu-erbl)/m;3)根据等式(2),将上述erb频点转换到线性频点h(i),根据公式f(i)=floor((n+1)*h(i)/fs),(其中,n表示fft的长度,fs为采样率),得到线性频点h(i)对应的频率索引f(i)。在具体实施中,对音频信号做n=512点的fft。[0069]步骤4)使用三角滤波器组(如图3所示),设计滤波器组wm(k),其中,m=1,…,m,且[0070][0071]使用该三角滤波器组对步骤2)计算得到的频谱x(k,l),y(k,l),和e(k,l)进行滤波,得到xs(m,l),ys(m,l),和es(m,l),其中(以xs(m,l)为例),xs(m,l)=∑kwm(k)|x(k,l)|2,[0072]即得到子带频域的参考能量谱、滤波能量谱和误差能量谱。具体实施时,对于n=512点的fft,该线性谱域的频带个数为257(即512/2+1)个,而经过erb尺度的子带的转换,频带的个数减少为m=40。[0073]3,dnn模型[0074]步骤5)由步骤4)计算得到的子带能量谱xs(m,l),ys(m,l),和es(m,l),将其进行合并取对数运算结果,组成dnn模型的输入特征,[0075]f(l)=log10[concat(xs(m,l),ys(m,l),es(m,l))][0076]特征的输入维度为3m。特征输入到dnn模型,推理得到输出子带时频掩蔽mask。在训练dnn模型时,其定义为[0077][0078]其中,ec(m)表示干净近端语音信号在子带m的能量,其可从训练数据集中获取,en(m)表示误差语音信号在子带m的能量,m取1,2,...,m。dnn模型的网络结构如图4所示。具体地,将维度为40的参考能量谱、滤波能量谱和误差能量谱分别取对数之后,并经过层归一化(iln)处理,合并组成维度为120的特征向量,输入到两层128维的gru模型中;在两次gru之间添加dropout层,防止训练过程中模型过拟合;假设经过层归一化处理后生成的特征在t时刻分别表示为x(t),y(t),e(t),则上述主要计算流程为[0079][0080]其中,[]表示向量连接,g(x)为gru层计算函数。[0081]最后,第二个gru层输出的特征经过维度为40的全连接层(fc)和sigmoid层处理,输出40维度的子带时频掩蔽,其t时刻输出结果为:其中,u,v分别为全连接层的权重矩阵和偏置向量。在线性频域全频带dnn模型中,该时频掩蔽mask的输出结果的维度为n/2+1,对于n=512点的fft,其维度为257,明显大于在子带的预测输出维度。因此,子带频域训练的dnn模型的的网络复杂度小于其在线性频域的复杂度。[0082]在上述dnn模型的训练中,需要准备的数据包括近端语音信号数据,回声信号数据和参考信号数据,以及混响数据等,其中回声数据中需包含尽可能多的设备数据,即包含不同的非线性回声。将回声数据和近端语音信号按照不同的信噪比进行混合,得到麦克风数据。将模拟的麦克风数据和参考数据经过步骤1)中的线性回声处理,得到滤波信号和误差信号;将其和参考信号一同送入线性谱域到子带谱域转换模块,得到上述所示的dnn模型特征。将对应的近端语音数据同样经过线性谱域到子带谱域转换模块处理,和子带误差能量谱进行计算,得到dnn模型的目标数据mask。使用均方误差损失函数作为模型的优化准则,基于深度学习训练框架,对dnn模型进行训练。dnn模型的网络结构如图4所示。[0083]4,增益控制[0084]步骤6)为处理dnn模型的过估计导致的近端语音失真现象,在模型估计的mask的基础上对子带增益进行控制。首先,残余回声能量谱估计为λ(m,l),其中,[0085]λ(m,l)=αλ(m,l-1)+(1-α)r(m,l)[0086]m=1,2,...,m.α是平滑因子,在实际实施中,取α=0.95,则后验信噪比可估计为[0087]步骤7)在近端语音存在不确定的条件下,我们使用决策导向的方法来估计先验信噪比其中,β是平滑因子,在实际实施中,取β=0.95,gh1(m,l-1)表示在l-1时间帧近端语音存在的条件下的增益。[0088]步骤8)考虑近端语音存在的不确定性,结合复高斯模型并应用贝叶斯规则,则近端语音存在概率的估计为,[0089]其中,q(m,l)是先验的近端语音不存在概率,在实际实施时,取q(m,l)为一个固定的值,即q(m,l)=q0=0.5;ξ(m,l)为先验信噪比,γ(m,l)为后验信噪比。[0090]步骤9)我们使用对数幅度谱估计器对子带增益进行估计。在近端语音不存在的情况下,设定一个阈值gmin,其指定最小底噪水平,通常可设为-10db,则近端幅度as(m,l)估计为gmines(m,l);在近端语音存在的情况下,as(m,l)估计为gh1(m,l)es(m,l),其中,gh1(m,l)表示在l时间帧近端语音存在的条件下的增益,其表达式为[0091][0092]步骤10)最后,增益函数为g(m,l)={gh1(m,l)}p(m,l)gmin1-p(m,l),其中,p(m,l)为近端语音存在概率。上述过程中,可通过参数gmin,q0,和平滑因子等对增益进行调整,以达到根据具体应用的声学环境控制近端语音的失真情况的目的。上述增益控制流程如图5所示。[0093]5,子带谱域到线性谱域转换[0094]步骤11)由步骤4)的得到的三角滤波器组wm(k),将子带增益g(m,l)转换到全带增益gf(k,l)=∑mwm(k)g(m,l),其中,m取1,2,...,m,k取1,2,...,n/2+1。[0095]步骤12)将全带增益gf(k,l)应用到误差信号的复数谱上,则残余回声抑制之后的误差信号的复数谱[0096]步骤13)复数谱经过反傅里叶变换和加合成窗,最后经过重叠相加算法,得到残余回声抑制之后的误差时域信号且为与分析窗双正交的合成窗。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法与流程
作者:admin
2022-11-09 09:36:49
369
- 下一篇: 带收纳的河道水面污染处理装置的制作方法
- 上一篇: 晶圆测试用的定位标记结构、曝光区域及晶圆的制作方法