乐器;声学设备的制造及制作,分析技术1.本公开涉及计算机技术领域,尤其涉及语音技术领域、人工智能技术领域、深度学习技术领域,具体涉及一种身份认证方法、装置、电子设备、计算机可读存储介质和计算机程序产品。背景技术:2.人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。3.随着科技的迅速发展,利用声纹来进行验证已经被广泛应用于安防、互联网及金融等领域。目前,基于声纹进行验证的系统通常是先验证音频是否为攻击音频,如果不是攻击音频再对音频中的声纹特征进行提取,以进行验证。4.在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。技术实现要素:5.本公开提供了一种身份认证方法、装置、电子设备、计算机可读存储介质和计算机程序产品。6.根据本公开的一方面,提供了一种身份认证方法,包括:获取待认证音频的声学特征;基于声学特征,对待认证音频进行攻击音频识别,以获取待认证音频的攻击音频预测结果;基于声学特征,获取待认证音频与注册音频之间的声纹特征相似度;以及基于攻击音频预测结果以及声纹特征相似度进行身份预测,以获取身份认证结果。7.根据本公开的另一方面,提供了一种身份认证模型的训练方法,包括:获取第一样本数据集,其中,第一样本数据集中的每个样本数据包括测试音频、注册音频以及相应的身份认证标签;针对第一样本数据集中的每个样本数据,执行下述操作:获取该样本数据中的测试音频对应的第一声学特征和注册音频对应的第二声学特征;将第一声学特征分别输入到至少一个预训练的第一特征提取网络,以获取至少一个第一特征,其中,至少一个第一特征中的每个第一特征用于判断待认证音频是否为攻击音频,至少一个第一特征提取网络中的每个第一特征提取网络基于不同结构的神经网络构建;将第一声学特征和第二声学特征一并分别输入到至少一个预训练的第二特征提取网络,以获取第一声学特征相应的至少一个测试音频特征以及与至少一个测试音频特征中的每个测试音频特征相应的注册音频特征,其中,至少一个第二特征提取网络中的每个第二特征提取网络基于不同结构的神经网络构建;将至少一个第一特征输入攻击音频预测网络,以获取该测试音频的攻击音频预测结果;获取至少一个测试音频特征中的每个测试音频特征和与该测试音频特征相应的注册音频特征之间的特征相似度;将攻击音频预测结果和与至少一个测试音频特征对应的至少一个特征相似度输入身份预测网络,以获取身份预测结果;以及基于身份预测结果和该样本数据相应的身份认证标签,调整攻击音频预测网络的参数以及身份预测网络的参数。8.根据本公开的另一方面,提供了一种身份认证装置,包括:第一获取单元,被配置为获取待认证音频的声学特征;识别单元,被配置为基于声学特征,对待认证音频进行攻击音频识别,以获取待认证音频的攻击音频预测结果;第二获取单元,被配置为基于声学特征,获取待认证音频与注册音频之间的声纹特征相似度;以及预测单元,被配置为基于攻击音频预测结果以及声纹特征相似度进行身份预测,以获取身份认证结果。9.根据本公开的另一方面,提供了一种身份认证模型的训练装置,包括:第三获取单元,被配置为获取第一样本数据集,其中,第一样本数据集中的每个样本数据包括测试音频、注册音频以及相应的身份认证标签;执行单元,被配置为针对第一样本数据集中的每个样本数据,执行下述子单元的操作:第五获取子单元,被配置为获取该样本数据中的测试音频对应的第一声学特征和注册音频对应的第二声学特征;第一输入子单元,被配置为将第一声学特征分别输入到至少一个预训练的第一特征提取网络,以获取至少一个第一特征,其中,至少一个第一特征中的每个第一特征用于判断待认证音频是否为攻击音频,至少一个第一特征提取网络中的每个第一特征提取网络基于不同结构的神经网络构建;第二输入子单元,被配置为将第一声学特征和第二声学特征一并分别输入到至少一个预训练的第二特征提取网络,以获取第一声学特征相应的至少一个测试音频特征以及与至少一个测试音频特征中的每个测试音频特征相应的注册音频特征,其中,至少一个第二特征提取网络中的每个第二特征提取网络基于不同结构的神经网络构建;第三输入子单元,被配置为将至少一个第一特征输入攻击音频预测网络,以获取该测试音频的攻击音频预测结果;第六获取子单元,被配置为获取至少一个测试音频特征中的每个测试音频特征和与该测试音频特征相应的注册音频特征之间的特征相似度;第四输入子单元,被配置为将攻击音频预测结果和与至少一个测试音频特征对应的至少一个特征相似度输入身份预测网络,以获取身份预测结果;以及调整子单元,被配置为基于身份预测结果和该样本数据相应的身份认证标签,调整攻击音频预测网络的参数以及身份预测网络的参数。10.根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述身份认证方法或上述身份认证模型的训练方法。11.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述身份认证方法或上述身份认证模型的训练方法。12.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述身份认证方法或上述身份认证模型的训练方法。13.根据本公开的一个或多个实施例,能够通过将攻击音频识别与身份认证相结合,使身份预测所依据的特征信息更加丰富,提升了认证效率的同时,也提升了认证的准确率。14.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明15.附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。16.图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;17.图2示出了根据本公开的实施例的身份认证方法的流程图;18.图3示出了根据本公开的示例性实施例的身份认证模型的结构示意图;19.图4示出了根据本公开的实施例的身份认证模型的训练方法的流程图;20.图5示出了根据本公开的示例性实施例的攻击音频识别网络的结构示意图;21.图6示出了根据本公开的实施例的身份认证装置的结构框图;22.图7示出了根据本公开的实施例的身份认证模型的训练装置的结构框图;23.图8示出了能够用于实现本公开攻击音频识别网络的实施例的示例性电子设备的结构框图。具体实施方式24.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。25.在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个要素与另一要素区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。26.在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。27.随着人工智能技术的发展,在安防、互联网、金融、智慧城市等领域,利用声纹来进行身份认证以登录系统越来越普及,一般情况下身份认证(auto speaker verification,asv)系统都存在被某种手段攻破的可能性,所以为了降低被攻破的可能性,一般系统都会包含例如攻击音频识别、活体检测等防攻击(也称反抗手段,counter measure,cm)功能。28.相关技术中,攻击音频识别与身份认证功能是分开处理,即先验证该音频是否是正常音频,而不是录音回放、语音合成、拼接或语音转换等攻击音频;若判断该音频不是攻击音频,则对该音频提取声纹特征,以与注册音频进行比较,从而得出是否通过身份认证的结论。由于攻击音频识别与身份认证这两个系统是割裂开的,身份认证的准确率和效率都难以进一步提升。29.本公开的实施例提供了一种身份认证方法,能够通过将攻击音频识别与身份认证相结合,使身份预测所依据的信息更加丰富,提升了认证效率的同时,也提升了认证的准确率。30.下面将结合附图详细描述本公开的实施例。31.图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1,该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。32.在本公开的实施例中,服务器120可以运行使得能够执行身份认证方法或身份认证模型的训练方法的一个或多个服务或软件应用。33.在某些实施例中,服务器120还可以提供其他服务或软件应用,这些服务或软件应用可以包括非虚拟环境和虚拟环境。在某些实施例中,这些服务可以作为基于web的服务或云服务提供,例如在软件即服务(saas)模型下提供给客户端设备101、102、103、104、105和/或106的用户。34.在图1所示的配置中,服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解,各种不同的系统配置是可能的,其可以与系统100不同。因此,图1是用于实施本文所描述的各种方法的系统的一个示例,并且不旨在进行限制。35.用户可以使用客户端设备101、102、103、104、105和/或106来获取待认证音频。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图1仅描绘了六种客户端设备,但是本领域技术人员将能够理解,本公开可以支持任何数量的客户端设备。36.客户端设备101、102、103、104、105和/或106可以包括各种类型的计算机设备,例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、智能屏设备、自助服务终端设备、服务机器人、游戏系统、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算机设备可以运行各种类型和版本的软件应用程序和操作系统,例如microsoft windows、apple ios、类unix操作系统、linux或类linux操作系统(例如google chrome os);或包括各种移动操作系统,例如microsoft windows mobile os、ios、windows phone、android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(pda)等。可穿戴设备可以包括头戴式显示器(诸如智能眼镜)和其他设备。游戏系统可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端设备能够执行各种不同的应用程序,例如各种与internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(sms)应用程序,并且可以使用各种通信协议。37.网络110可以是本领域技术人员熟知的任何类型的网络,其可以使用多种可用协议中的任何一种(包括但不限于tcp/ip、sna、ipx等)来支持数据通信。仅作为示例,一个或多个网络110可以是局域网(lan)、基于以太网的网络、令牌环、广域网(wan)、因特网、虚拟网络、虚拟专用网络(vpn)、内部网、外部网、区块链网络、公共交换电话网(pstn)、红外网络、无线网络(例如蓝牙、wifi)和/或这些和/或其他网络的任意组合。38.服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如pc(个人计算机)服务器、unix服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作系统的一个或多个虚拟机,或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中,服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。39.服务器120中的计算单元可以运行包括上述任何操作系统以及任何商业上可用的服务器操作系统的一个或多个操作系统。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个,包括http服务器、ftp服务器、cgi服务器、java服务器、数据库服务器等。40.在一些实施方式中,服务器120可以包括一个或多个应用程序,以分析和合并从客户端设备101、102、103、104、105和/或106的用户接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序,以经由客户端设备101、102、103、104、105和/或106的一个或多个显示设备来显示数据馈送和/或实时事件。41.在一些实施方式中,服务器120可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器120也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。云服务器是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(vps,virtual private server)服务中存在的管理难度大、业务扩展性弱的缺陷。42.系统100还可以包括一个或多个数据库130。在某些实施例中,这些数据库可以用于存储数据和其他信息。例如,数据库130中的一个或多个可用于存储诸如音频文件和视频文件的信息。数据库130可以驻留在各种位置。例如,由服务器120使用的数据库可以在服务器120本地,或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据库130可以是不同的类型。在某些实施例中,由服务器120使用的数据库例如可以是关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。43.在某些实施例中,数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库,例如键值存储库,对象存储库或由文件系统支持的常规存储库。44.图1的系统100可以以各种方式配置和操作,以使得能够应用根据本公开所描述的各种方法和装置。45.根据本公开的实施例,如图2所示,提供了一种身份认证方法,包括:步骤s201、获取待认证音频的声学特征;步骤s202、基于声学特征,对待认证音频进行攻击音频识别,以获取待认证音频的攻击音频预测结果;步骤s203、基于声学特征,获取待认证音频与注册音频之间的声纹特征相似度;以及步骤s204、基于攻击音频预测结果以及声纹特征相似度进行身份预测,以获取身份认证结果。46.由此,通过将攻击音频识别与身份认证相结合,能够使身份预测所依据的特征信息更加丰富,提升了认证效率的同时,也提升了认证的准确率。47.其中,攻击音频可以是指对用户的语音进行处理后得到的音频,或是通过特定语音处理设备合成或转换得到的音频,例如对用户语音进行录音得到的音频、将多段用户语音进行拼接得到的音频、通过语音合成器等设备合成的音频、通过语音转换器转换得到的音频等。也就是说,攻击音频并非直接采集的用户语音。48.由于直接采集的用户真实语音(也即非攻击音频)是不经过任何的后期处理的音频,用户真实语音在采集过程中可能会叠加环境噪声、设备噪声以及模数转换所产生的信号等;而对于攻击音频,例如设备合成的合成语音,通常不具备叠加的环境噪声;又例如,用户语音的录音,相对于正常音频通常会叠加更多的环境噪声、设备噪声等。也即,通常攻击音频与正常音频之间的区别在于其所叠加的环境噪声/设备噪声等方面存在差异,通过将这些差异提取出来,即可对攻击音频与正常音频进行区分。49.在一些实施例中,待认证音频可能是攻击音频,也可能是正常音频。50.在一些实施例中,首先可以对待认证音频进行一些预处理操作,例如可以包括去除音频中的静音片段、分帧等,其中,分帧可以是将待认证音频按照帧长25ms、帧移10ms,将一段待认证音频分为多个音频帧。随后,在对待认证音频进行预处理操作的基础上,提取该待认证音频的声学特征。51.在一些实施例中,声学特征可以是包括但不限于梅尔频率倒谱参数(mel frequency cepstral coefficient,mfcc)特征、常数q变换倒谱参数(constant q cepstral coefficients,cqcc)特征等。在一些实施例中,可以分别对该待认证音频的每一个音频帧进行上述声学特征的提取。52.在一些实施例中,在提取到上述声学特征的基础上,可以进一步采用一个滑窗(窗口长度例如为5帧),从而对连续的多个帧的声学特征进行均值规整,从而消除各个帧两端可能会造存在的信号不连续性。53.在一些实施例中,可以进一步对上述声学特征进行差分处理,例如可以为一阶差分处理、二阶差分处理等,并将进行差分处理后的声学特征作为攻击音频识别网络和身份认证网络的输入特征。由此,通过差分处理,能够获得更加丰富的声学特征,从而为攻击音频识别网络和身份认证网络提供更多的特征信息,进一步提升识别和预测的准确率。54.在一些实施例中,基于声学特征,对待认证音频进行攻击音频识别,以获取待认证音频的攻击音频预测结果可以包括:基于声学特征,分别通过至少一个第一特征提取网络获取至少一个第一特征,其中,至少一个第一特征中的每个第一特征用于判断待认证音频是否为攻击音频,至少一个第一特征提取网络中的每个第一特征提取网络基于不同结构的神经网络构建;以及基于至少一个第一特征,获取攻击音频预测结果。55.由此,通过至少一个不同结构的特征提取网络进行第一特征的提取,并基于至少一个第一特征进行攻击音频的识别预测,从而提升预测的准确率。56.在一些实施例中,第一特征提取网络可以是基于ubm-gmm、svm、dnn、cnn、lstm、conformer、tdnn等不同结构的神经网络中的一个或多个构建的,当应用多个第一特征提取网络对待认证音频的第一特征进行提取时,每个第一特征提取网络可以分别基于上述不同的神经网络进行构建,由此,通过利用不同神经网络对特征提取的侧重点不同,从而获取到更加丰富的音频特征信息(也即第一特征)。57.在一些实施例中,可以通过将待认证音频的每个帧对应的声学特征依次输入到第一特征提取网络中,从而获得每个帧对应的第一特征,随后对上述每个帧对应的第一特征进行平均,从而获取该待认证音频的第一特征。58.在一些实施例中,攻击音频预测结果可以是通过将该待认证音频的第一特征输入到一个预测网络中获得的,该预测网络可以是基于dnn、cnn、lstm等神经网络中的一个构建的。通过将上述第一特征输入到预测网络中,即可得到该预测网络输出的攻击音频预测结果。59.在一些实施例中,攻击音频预测结果可以是该待认证音频是攻击音频的概率。60.在一些实施例中,攻击音频预测结果也可以是一个二维向量,分别包括该待认证音频是攻击音频的概率以及该待认证音频不是攻击音频的概率。61.在一些实施例中,至少一个第一特征提取网络的数量可以为至少二个,基于至少一个第一特征,获取攻击音频预测结果可以包括:通过基于注意力机制的特征融合网络,获取至少一个第一特征的第一融合特征向量;以及将第一融合特征向量输入攻击音频预测网络,以获取攻击音频预测结果。62.由此,通过注意力机制将多个第一特征进行融合,从而能够基于训练得到的特征融合网络对不同的第一特征给予不同的权重,从而实现对多个第一特征的重要性程度的刻画,基于上述特征融合所得的特征向量进行预测,能够进一步提升预测的准确率。63.在一些实施例中,当分别通过不同的第一特征提取网络提取待认证音频的多个第一特征时,在将第一特征输入到预测网络之前,可以首先通过一个特征融合网络对上述第一特征进行特征融合,从而获取第一融合特征向量。64.在一些实施例中,上述特征融合网络可以是一个基于注意力机制的网络,其能够通过对多个第一特征(记为hi,其中i∈[1,n],n为第一特征提取网络的数量)进行如下公式的计算,从而获取第一融合特征向量hcm:[0065]a=softmax(tanh(htw1)w2)[0066]hcm=ha[0067]其中,矩阵h由多个第一特征组成,也即h=[h1,h2,…,hn],w1、w2分别为该特征融合网络的权重矩阵,a为经过计算得到的权重系数向量。[0068]在一些实施例中,基于声学特征,获取待认证音频与注册音频之间的声纹特征相似度可以包括:基于声学特征,分别通过至少一个第二特征提取网络获取至少一个第二特征,其中,至少一个第二特征中的每个第二特征用于进行身份认证,至少一个第二特征提取网络中的每个第二特征提取网络基于不同结构的神经网络构建;以及对至少一个第二特征中的每个第二特征,分别获取该第二特征与注册音频的声纹特征之间的声纹特征相似度。[0069]由此,通过一个或多个不同的特征提取网络进行第二特征的提取,并基于至少一个第二特征分别进行与注册音频之间的特征相似度比对,能够通过不同的网络获取到更多待识别音频及注册音频的特征信息,结合这些信息能够进一步提升预测的准确率。[0070]在一些实施例中,第二特征提取网络可以是基于ubm-gmm、svm、dnn、cnn、lstm、conformer、tdnn等不同结构的神经网络中的一个或多个构建的,当应用多个第二特征提取网络对待认证音频的第二特征进行提取时,每个第二特征提取网络可以分别基于上述不同的神经网络进行构建,由此,通过利用不同神经网络对特征提取的侧重点不同,从而基于不同的侧重点与注册音频进行特征相似度对比,从而能够进一步提升预测的准确性。[0071]在一些实施例中,可以通过将待认证音频的每个帧对应的声学特征依次输入到第二特征提取网络中,从而获得每个帧对应的第二特征,随后对上述每个帧对应的第二特征进行平均,从而获取该待认证音频的第二特征。[0072]在一些实施例中,在每次获取待认证音频的第二特征时,可以同时通过将注册音频的声学特征输入到每个第二特征提取网络,获得每个待认证音频的第二特征对应的注册音频声纹特征,从而基于该第二特征及其相应的注册音频声纹特征分别计算声纹特征相似度。[0073]在一些实施例中,注册音频在输入到第二特征提取网络之前也可以进行与上述操作类似的预处理操作、声学特征提取操作以及差分操作等。[0074]在一些实施例中,注册音频的声纹特征可以预先通过输入到每个第二特征提取网络,获得每个第二特征提取网络相应的注册音频声纹特征。由此,通过将注册音频的声纹特征进行预先提取并保存,能够节省计算资源,提升身份认证的效率。[0075]在一些实施例中,每个第二特征及其相应的注册音频声纹特征之间的声纹特征相似度,可以通过计算向量之间的余弦相似度等方式来计算。当通过多个第二特征提取网络分别进行第二特征提取时,对于同一待认证音频,可以基于每个第二特征提取网络获取一个声纹特征相似度得分,从而能够构成一个多维的相似度得分向量。[0076]在一些实施例中,基于攻击音频预测结果以及声纹特征相似度进行身份预测,以获取身份认证结果可以包括:基于攻击音频预测结果以及至少一个第二特征分别对应的至少一个声纹特征相似度,生成第二融合特征向量;以及基于第二融合特征向量进行身份预测,以获取待认证音频的身份认证结果。[0077]由此,通过将攻击音频预测结果与多个声纹特征相似度组成一个融合特征向量,并基于该向量进行预测,从而能够实现攻击音频识别和身份认证的高效结合,提高识别效率和准确率。[0078]在一些实施例中,可以将攻击音频预测结果(例如可以是一个二维向量,分别包括该待认证音频是攻击音频的概率以及该待认证音频不是攻击音频的概率)以及至少一个第二特征(例如可以是一个一维或多维的声纹特征相似度得分向量)进行拼接,从而生成一个第二融合特征向量,并基于该融合特征向量进行预测,从而获取最终的身份认证结果。[0079]在一些实施例中,可以通过将第二融合特征向量输入到一个预测网络中获得相应的预测结果,该预测网络可以是基于dnn、cnn、lstm等神经网络中的一个构建的。预测网络的预测结果可以是一个用于指示该待认证音频与注册音频是否为同一用户的标签;也可以是该待认证音频与注册音频为同一用户的概率,当概率大于某阈值时,则可判断该待认证音频通过身份认证。[0080]图3示出了根据本公开的示例性实施例的身份认证模型的结构示意图。[0081]在一些示例性实施例中,如图3所示,身份认证模型300包括n个第一特征提取网络(记为cm-1,cm-2,…,cm-n)以及m个第二特征提取网络(记为asv-1,asv-2,…,asv-m),其中n和m均为大于1的正整数,并且其中,每个第一特征提取网络均基于不同结构的神经网络构建,每个第二特征提取网络也均基于不同结构的神经网络构建。[0082]可以将待认证音频的声学特征输入n个第一特征提取网络。相应的,通过n个第一特征提取网络能够分别获得每个第一特征提取网络对应的第一特征(记为h1,h2,…,hn),并将上述第一特征一并输入基于注意力机制的特征融合网络中,从而获得第一融合特征向量hcm;随后将第一融合特征向量hcm输入攻击音频预测网络,从而获得一个二维向量scm,其中,scm中的两个数值分别表示该待认证音频是攻击音频的概率以及该待认证音频不是攻击音频的概率。[0083]同时,可以将待认证音频的声学特征和注册音频的声学特征同时输入到m个第二特征提取网络。相应的,通过m个第二特征提取网络能够分别获得待认证音频与注册音频之间的声纹特征相似度得分(记为scv1,scv2,…,scvm),从而构成一个声纹特征相似度向量scv。[0084]随后,通过将二维向量scm和声纹特征相似度向量scv进行拼接,从而获得第二融合特征向量,并将其输入到预测网络中,从而获得用于指示身份认证是否通过的预测结果。[0085]在一些实施例中,如图4所示,提供了一种身份认证模型的训练方法,包括:步骤s401、获取第一样本数据集,其中,第一样本数据集中的每个样本数据包括测试音频、注册音频以及相应的身份认证标签;针对第一样本数据集中的每个样本数据,执行下述操作:步骤s402、获取该样本数据中的测试音频对应的第一声学特征和注册音频对应的第二声学特征;步骤s403、将第一声学特征分别输入到至少一个预训练的第一特征提取网络,以获取至少一个第一特征,其中,至少一个第一特征中的每个第一特征用于判断待认证音频是否为攻击音频,至少一个第一特征提取网络中的每个第一特征提取网络基于不同结构的神经网络构建;步骤s404、将第一声学特征和第二声学特征一并分别输入到至少一个预训练的第二特征提取网络,以获取第一声学特征相应的至少一个测试音频特征以及与至少一个测试音频特征中的每个测试音频特征相应的注册音频特征,其中,至少一个第二特征提取网络中的每个第二特征提取网络基于不同结构的神经网络构建;步骤s405、将至少一个第一特征输入攻击音频预测网络,以获取该测试音频的攻击音频预测结果;步骤s406、获取至少一个测试音频特征中的每个测试音频特征和与该测试音频特征相应的注册音频特征之间的特征相似度;步骤s407、将攻击音频预测结果和与至少一个测试音频特征对应的至少一个特征相似度输入身份预测网络,以获取身份预测结果;以及步骤s408、基于身份预测结果和该样本数据相应的身份认证标签,调整攻击音频预测网络的参数以及身份预测网络的参数。[0086]在一些实施例中,对每个第一特征提取网络进行预训练的方式具体可以包括如下操作。首先基于可以分别基于不同结构的神经网络(例如ubm-gmm、svm、dnn、cnn、lstm、conformer、tdnn等神经网络)分别构建完整的,如图5所示,包括输入层、多个隐含层(隐含层h1、隐含层h2、…、隐含层hn)以及输出层。[0087]随后,获取用于训练攻击音频识别网络的训练数据(可以为如aishell、voxceleb、asvspoof等开源数据集),其中,每个训练数据包括样本音频以及用于指示其是否为攻击音频的标签。通过将每条样本音频的声学特征输入上述攻击音频识别网络,获得攻击音频预测结果,并基于该预测结果与该样本音频对应的标签计算损失函数(例如可以应用交叉熵损失函数),并基于该损失函数调整该攻击音频识别网络的参数,从而完成该攻击音频识别网络的训练。[0088]在构建上述身份认证模型时,每个预训练的第一特征提取网络可以基于上述相应的攻击音频识别网络获取。具体的,可以通过将上述训练好的攻击音频识别网络的输出层去掉,仅保留输入层以及多个隐含层以作为一个第一特征提取网络。在一些实施例中,也可以通过将上述训练好的攻击音频识别网络的输出层以及与输出层相邻的一个或多个隐含层去掉,仅保留输入层和剩余的多个隐含层,以作为一个第一特征提取网络。[0089]类似的,预训练的第二特征提取网络也可以通过与上述方法类似的训练方法获得,在此不做赘述。[0090]由此,基于上述经过预训练的至少一个第一特征提取网络和至少一个第二特征提取网络构建身份认证模型,并将每个样本数据中的测试音频及注册音频分别输入上述身份认证模型,进而获取输出的预测结果,并基于预测结果及样本数据对应的标签计算损失函数(例如可以为交叉熵损失函数),通过最小化该损失函数进行参数调整,从而最终完成该模型的训练。[0091]在一些实施例中,至少一个预训练的第一特征提取网络的数量为至少二个,将至少一个第一特征输入攻击音频预测网络,以获取该测试音频的攻击音频预测结果可以包括:将至少一个第一特征输入特征融合网络,以获取第一融合特征向量;以及将第一融合特征向量输入攻击音频预测网络,以获取该测试音频的攻击音频预测结果;并且其中,基于身份预测结果和该样本数据相应的身份认证标签,调整攻击音频预测网络的参数以及身份预测网络的参数包括:基于身份预测结果和该样本数据相应的身份认证标签,调整特征融合网络的参数、攻击音频预测网络的参数以及身份预测网络的参数。[0092]由此,通过上述方法训练的身份认证模型通过将攻击音频识别与身份认证相结合,使身份预测所依据的特征信息更加丰富,提升了认证效率的同时,也提升了认证的准确率。[0093]为进一步对上述身份认证模型在身份认证准确率方面的性能提升,相关工作人员分别应用相关技术中的方案(即攻击音频识别系统与身份验证系统相互独立的方案)和本公开的实施例提供的方法,基于同一测试集进行实验。其中,根据本公开提供的方法构建的身份认证模型中分别包括三个第一特征提取网络和三个第二特征提取网络,并且其中攻击音频识别网络和预测网络分别应用了四层的dnn神经网络。[0094]相关技术人员分别基于asvspoof 2019(说话人识别攻击比赛)的测试集合dev和测试集合eval,对相关技术中的身份认证系统(包括相互独立的攻击音频识别系统与身份验证系统)和本公开的身份认证模型进行测试,测试结果如下:[0095][0096]通过上述测试结果可以看出,通过本公开的身份认证模型能够有效降低等错误率,也即本公开的方法能够有效提高声纹身份认证的准确率。[0097]在一些实施例中,如图6所示,提供了一种身份认证装置600,包括:第一获取单元610,被配置为获取待认证音频的声学特征;识别单元620,被配置为基于声学特征,对待认证音频进行攻击音频识别,以获取待认证音频的攻击音频预测结果;第二获取单元630,被配置为基于声学特征,获取待认证音频与注册音频之间的声纹特征相似度;以及预测单元640,被配置为基于攻击音频预测结果以及声纹特征相似度进行身份预测,以获取身份认证结果。[0098]其中,身份认证装置600中的单元610-单元640的操作与上述身份认证方法中的步骤s201-步骤s204的操作类似,在此不做赘述。[0099]在一些实施例中,识别单元可以包括:第一获取子单元,被配置为基于声学特征,分别通过至少一个第一特征提取网络获取至少一个第一特征,其中,至少一个第一特征中的每个第一特征用于判断待认证音频是否为攻击音频,至少一个第一特征提取网络中的每个第一特征提取网络基于不同结构的神经网络构建;以及第二获取子单元,被配置为基于至少一个第一特征,获取攻击音频预测结果。[0100]在一些实施例中,至少一个第一特征提取网络的数量可以为至少二个,第二获取子单元可以包括:获取模块,被配置为通过基于注意力机制的特征融合网络,获取至少一个第一特征的第一融合特征向量;以及第一输入模块,被配置为将第一融合特征向量输入攻击音频预测网络,以获取攻击音频预测结果。[0101]在一些实施例中,第二获取单元可以包括:第三获取子单元,被配置为基于声学特征,分别通过至少一个第二特征提取网络获取至少一个第二特征,其中,至少一个第二特征中的每个第二特征用于进行身份认证,至少一个第二特征提取网络中的每个第二特征提取网络基于不同结构的神经网络构建;以及第四获取子单元,被配置为对至少一个第二特征中的每个第二特征,分别获取该第二特征与注册音频的声纹特征之间的声纹特征相似度。[0102]在一些实施例中,预测单元可以包括:生成子单元,被配置为基于攻击音频预测结果以及至少一个第二特征分别对应的至少一个声纹特征相似度,生成第二融合特征向量;以及预测子单元,被配置为基于第二融合特征向量进行身份预测,以获取待认证音频的身份认证结果。[0103]在一些实施例中,如图7所示,提供了一种身份认证模型的训练装置700,包括:第三获取单元710,被配置为获取第一样本数据集,其中,第一样本数据集中的每个样本数据包括测试音频、注册音频以及相应的身份认证标签;执行单元720,被配置为针对第一样本数据集中的每个样本数据,执行下述子单元的操作:第五获取子单元721,被配置为获取该样本数据中的测试音频对应的第一声学特征和注册音频对应的第二声学特征;第一输入子单元722,被配置为将第一声学特征分别输入到至少一个预训练的第一特征提取网络,以获取至少一个第一特征,其中,至少一个第一特征中的每个第一特征用于判断待认证音频是否为攻击音频,至少一个第一特征提取网络中的每个第一特征提取网络基于不同结构的神经网络构建;第二输入子单元723,被配置为将第一声学特征和第二声学特征一并分别输入到至少一个预训练的第二特征提取网络,以获取第一声学特征相应的至少一个测试音频特征以及与至少一个测试音频特征中的每个测试音频特征相应的注册音频特征,其中,至少一个第二特征提取网络中的每个第二特征提取网络基于不同结构的神经网络构建;第三输入子单元724,被配置为将至少一个第一特征输入攻击音频预测网络,以获取该测试音频的攻击音频预测结果;第六获取子单元725,被配置为获取至少一个测试音频特征中的每个测试音频特征和与该测试音频特征相应的注册音频特征之间的特征相似度;第四输入子单元726,被配置为将攻击音频预测结果和与至少一个测试音频特征对应的至少一个特征相似度输入身份预测网络,以获取身份预测结果;以及调整子单元727,被配置为基于身份预测结果和该样本数据相应的身份认证标签,调整攻击音频预测网络的参数以及身份预测网络的参数。[0104]其中,身份认证模型的训练装置700中的单元710-单元720、子单元721-子单元727的操作与上述身份认证模型的训练方法中的步骤s401-步骤s408的操作类似,在此不做赘述。[0105]在一些实施例中,至少一个预训练的第一特征提取网络的数量为至少二个,第三输入子单元包括:第二输入模块,被配置为将至少一个第一特征输入特征融合网络,以获取第一融合特征向量;以及第三输入模块,被配置为将第一融合特征向量输入攻击音频预测网络,以获取该测试音频的攻击音频预测结果;并且其中,调整子单元还被配置为基于身份预测结果和该样本数据相应的身份认证标签,调整特征融合网络的参数、攻击音频预测网络的参数以及身份预测网络的参数。[0106]根据本公开的实施例,还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。[0107]参考图8,现将描述可以作为本公开的服务器或客户端的电子设备800的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。[0108]如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram803中,还可存储电子设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。[0109]电子设备800中的多个部件连接至i/o接口805,包括:输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备,输入单元806可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入,并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元807可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元808可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙tm设备、802.11设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。[0110]计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如上述身份认证方法或上述身份认证模型的训练方法。例如,在一些实施例中,上述身份认证方法或上述身份认证模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到ram 803并由计算单元801执行时,可以执行上文描述的上述身份认证方法或上述身份认证模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述身份认证方法或上述身份认证模型的训练方法。[0111]本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。[0112]用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。[0113]在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。[0114]为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。[0115]可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。[0116]计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。[0117]应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。[0118]虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
身份认证方法、装置、设备及存储介质与流程
作者:admin
2022-08-31 13:42:57
256
- 下一篇: 一种基于强化学习的数据中心能效优化方法和系统与流程
- 上一篇: 加压恢复系统的制作方法