专利技术

文本校对方法及装置、电子设备、存储介质与流程专利技术说明

 作者：admin  2023-07-05 10:07:50  754

计算;推算;计数设备的制造及其应用技术1.本技术涉及人工智能技术领域，例如涉及一种文本校对方法及装置、电子设备、存储介质。背景技术：2.用户通过键盘或者语音输入文字的时候，会遇到大量的错误，这些错误给用户的使用带来了不便。目前，人工智能比较广泛地应用于自然语言处理(natural language processing，nlp)领域，其中，seq2seq模型是一种包含解码器以及编码器的模型，该模型在词性标注、语义依存分析、机器翻译等领域均取得了显著成绩。3.在实现文本校对的相关技术中，先通过seq2seq模型获得输入文本的词向量序列对应的语义向量以及纠错标签，再通过seq2seq模型获得词向量序列、语义向量以及各输入词的纠错标签三者对应的校对后的文本。4.在实现本技术实施例的过程中，发现相关技术中至少存在如下问题：5.现有技术通常利用基于双向编码表征模型(bidirectional encoder representations from transformers，bert)的纠错判定模型，由于输入文本包含错字信息，错字信息容易对基于bert的纠错判定模型产生干扰，因此导致校对的准确率较差。技术实现要素：6.为了对披露的实施例的一些方面有基本的理解，下面给出了简单的概括。所述概括不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围，而是作为后面的详细说明的序言。7.本技术实施例提供了一种文本校对方法及装置、电子设备、存储介质，以提高文本校对的准确率。8.在一些实施例中，文本校对方法包括：在当前解码处理过程中，获得输入文本的编码向量中的当前子向量，其中，所述当前子向量在所述编码向量中的位置与已完成的解码处理过程的次数对应；对所述当前子向量进行解码处理，获得当前输出词表以及所述当前输出词表的概率分布；在所述输入文本中确定待校对词，其中，所述待校对词在所述输入文本中的位置与已完成的解码处理过程的次数对应；根据所述待校对词、所述待校对词对应的混淆集、所述当前输出词表以及所述概率分布，确定与所述待校对词对应的校对结果；根据所述校对结果确定校对后的文本。9.可选地，所述根据所述待校对词、所述待校对词对应的混淆集、所述当前输出词表以及所述概率分布，确定与所述待校对词对应的校对结果，包括：将所述当前输出词表中的至少一个词确定为目标词集；确定所述混淆集与所述目标词表的交集；在所述交集为空集的情况下，将所述待校对词确定为所述校对结果；在所述交集为非空集的情况下，根据所述交集与所述待校对词之间的包含关系，确定所述校对结果。10.可选地，所述根据所述交集与所述待校对词之间的包含关系，确定校对结果，包括：在所述交集不包含所述待校对词的情况下，将所述交集中概率最大的词确定为所述校对结果；在所述交集包含所述待校对词的情况下，将所述待校对词确定为所述校对结果。11.可选地，将所述当前输出词表中的至少一个词确定为目标词集，包括：将所述当前输出词表中设定数量的词确定为目标词集；其中，所述目标词集的任一词的概率大于或等于所述当前输出词表中非目标词集的任一词的概率。12.可选地，所述对所述当前子向量进行解码处理，获得当前输出词表以及所述当前输出词表的概率分布，包括：在第一次解码处理的情况下，对初始值进行解码处理，以获得所述当前输出词表以及所述当前输出词表的概率分布。13.可选地，所述对所述当前子向量进行解码处理，获得当前输出词表以及所述当前输出词表的概率分布，包括：在非第一次解码处理的情况下，对前一个校对结果以及所述当前子向量进行解码处理，以获得所述当前输出词表以及所述当前输出词表的概率分布，其中，所述前一个校对效果是前一次解码处理过程中获得的校对结果。14.可选地，所述对前一个校对结果以及所述当前子向量进行解码处理，以获得所述当前输出词表以及所述当前输出词表的概率分布，包括：获得前一次解码处理过程中的中间解码状态；根据所述中间解码状态与所述编码向量中每个子向量的匹配程度，确定所述编码向量中每个子向量的权重；将所述编码向量中每个子向量及其对应权重的加权和，确定为动态语义编码向量；对所述动态语义编码向量、所述前一个校对结果以及所述当前子向量进行解码处理，以获得所述当前输出词表以及所述当前输出词表的概率分布。15.可选地，文本校对方法还包括：在获得当前解码处理过程的校对结果之后，连接已获得的全部校对结果，以获得当前已校对文本；在所述当前已校对文本的长度与所述输入文本的长度相同的情况下，结束解码处理。16.可选地，所述输入文本的编码向量是通过如下方式确定的：将所述输入文本进行文本嵌入和位置嵌入，获得输入向量；利用至少一个子编码器对所述输入向量进行多次处理；将最后一个子编码器的输出确定为所述编码向量。17.可选地，所述根据所述校对结果确定校对后的文本，包括：在多次解码处理后，按照解码处理过程的先后顺序，依次连接每次解码处理过程获得的校对结果，获得校对后的文本。18.在一些实施例中，文本校对装置包括获得模块、解码模块、第一确定模块、第二确定模块和第三确定模块；所述获得模块被配置为在当前解码处理过程中，获得输入文本的编码向量中的当前子向量，其中，所述当前子向量在所述编码向量中的位置与已完成的解码处理次数对应；所述解码模块被配置为对所述当前子向量进行解码处理，获得当前输出词表以及所述当前输出词表的概率分布；所述第一确定模块被配置为在所述输入文本中确定待校对词，其中，所述待校对词在所述输入文本中的位置与已完成的解码处理次数对应；所述第二确定模块被配置为根据所述待校对词、所述待校对词对应的混淆集、所述当前输出词表以及所述概率分布，确定与所述待校对词对应的校对结果；所述第三确定模块被配置为根据所述校对结果确定校对后的文本。19.可选地，第二确定模块包括第一确定单元、第二确定单元和第三确定单元；所述第一确定单元被配置为将所述当前输出词表中的至少一个词确定为目标词集；所述第二确定单元被配置为确定所述混淆集与所述目标词表的交集；所述第三确定单元被配置为在所述交集为空集的情况下，将所述待校对词确定为所述校对结果；在所述交集为非空集的情况下，根据所述交集与所述待校对词之间的包含关系，确定所述校对结果。20.可选地，所述根据所述交集与所述待校对词之间的包含关系，确定校对结果，包括：在所述交集不包含所述待校对词的情况下，将所述交集中概率最大的词确定为所述校对结果；在所述交集包含所述待校对词的情况下，将所述待校对词确定为所述校对结果。21.可选地，所述第一确定单元被具体配置为将所述当前输出词表中的至少一个词确定为目标词集，包括：将所述当前输出词表中设定数量的词确定为目标词集；其中，所述目标词集的任一词的概率大于或等于所述当前输出词表中非目标词集的任一词的概率。22.可选地，所述解码模块包括第一解码单元，所述第一解码单元被配置为在第一次解码处理的情况下，对初始值进行解码处理，以获得所述当前输出词表以及所述当前输出词表的概率分布。23.可选地，所述解码模块包括第二解码单元，所述第二解码单元被配置为在非第一次解码处理的情况下，对前一个校对结果以及所述当前子向量进行解码处理，以获得所述当前输出词表以及所述当前输出词表的概率分布，其中，所述前一个校对效果是前一次解码处理过程中获得的校对结果。24.可选地，第二解码单元被具体配置为获得前一次解码处理过程中的中间解码状态；根据所述中间解码状态与所述编码向量中每个子向量的匹配程度，确定所述编码向量中每个子向量的权重；将所述编码向量中每个子向量及其对应权重的加权和，确定为动态语义编码向量；对所述动态语义编码向量、所述前一个校对结果以及所述当前子向量进行解码处理，以获得所述当前输出词表以及所述当前输出词表的概率分布。25.可选地，文本校对装置还包括结束模块，所述结束模块被配置为在获得当前解码处理过程的校对结果之后，连接已获得的全部校对结果，以获得当前已校对文本；在所述当前已校对文本的长度与所述输入文本的长度相同的情况下，结束解码处理。26.可选地，文本校对装置还包括编码模块，所述编码模块被配置为将所述输入文本进行文本嵌入和位置嵌入，获得输入向量；利用至少一个子编码器对所述输入向量进行多次处理；将最后一个子编码器的输出确定为所述编码向量。27.可选地，所述第三确定模块被具体配置为在多次解码处理后，按照解码处理过程的先后顺序，依次连接每次解码处理过程获得的校对结果，获得校对后的文本。28.在一些实施例中，电子设备包括处理器和存储有程序指令的存储器，所述处理器被配置为在执行所述程序指令时，执行前述实施例提供的文本校对方法。29.在一些实施例中，存储介质存储有程序指令，所述程序指令在运行时，执行前述实施例提供的文本校对方法。30.本技术实施例提供的文本校对方法及装置、电子设备、存储介质，可以实现以下技术效果：31.在对输入文本的编码向量中的当前子向量进行解码处理的过程中，首先获得当前输出词表以及当前输出词表的概率分布，再结合当前输出词表及其概率分布、待校对词的混淆集，以降低输入文本包含的错字信息对校对模型产生的影响，最终获得准确率比较高的校对结果，这样，提高了文本校对的准确率。32.以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本技术。附图说明33.一个或一个以上实施例通过与之对应的附图进行示例性说明，这些示例性说明和附图并不构成对实施例的限定，附图中具有相同参考数字标号的元件视为类似的元件，并且其中：34.图1是本技术实施例提供的一种文本校对方法的示意图；35.图2是本技术实施例提供的一种文本校对方法的模型的示意图；36.图3a至图3f是本技术实施例提供的一种文本校对方法的模型的细节示意图；37.图4是本技术实施例提供的一种文本校对装置的示意图；38.图5是本技术实施例提供的一种电子设备的示意图。具体实施方式39.为了能够更加详尽地了解本技术实施例的特点与技术内容，下面结合附图对本技术实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本技术实施例。在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。然而，在没有这些细节的情况下，一个或一个以上实施例仍然可以实施。在其它情况下，为简化附图，熟知的结构和装置可以简化展示。40.本技术实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术实施例的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。41.除非另有说明，术语“多个”表示两个以上。42.本技术实施例中，字符“/”表示前后对象是一种“或”的关系。例如，a/b表示：a或b。43.术语“和/或”是一种描述对象的关联关系，表示可以存在三种关系。例如，a和/或b，表示：a或b，或，a和b这三种关系。44.本技术提供的文本校对方法基于序列到序列(seq2seq)的模型，首先利用编码器对输入文本进行编码处理，获得编码向量，再对编码向量进行多次解码处理，获得最终的校对后的文本。本技术实施例提供的文本校对方法，对每一次解码处理过程进行了详细说明。45.图1是本技术实施例提供的一种文本校对方法的示意图。46.结合图1所示，文本校对方法包括：47.s101、在当前解码处理过程中，获得输入文本的编码向量中的当前子向量。48.输入文本的编码向量可通过如下方式确定：将输入文本进行文本嵌入(embedding)和位置嵌入，获得输入向量；利用至少一个子编码器对输入向量进行多次处理；将最后一个子编码器的输出确定为编码向量。49.其中，在文本嵌入过程中，将输入文本由自然语言转换成词嵌入向量，词嵌入向量中包括输入文本中每个词对应的向量；在位置嵌入过程中，对输入文本的每个词的位置进行标记，获得位置嵌入向量，并且位置嵌入向量的维度与词嵌入向量的维度相同；将词嵌入向量和位置嵌入向量的加和确定为输入向量。50.在本技术实施例中，将上述获得输入文本的编码向量的过程称为编码过程，执行该编码过程的模块可称为编码器。在本技术实施例中，一个编码器可包括多个子编码器，其中，多个子编码器顺次连接；利用至少一个子编码器对输入向量进行多次处理，可包括：将上一个子编码器的输出确定为下一个子编码器的输入；其中，第一个子编码器对输入向量进行编码处理；最后一个子编码器的输出为该编码器的输出，即编码向量。51.在任一子编码器中，可包括多头自注意力网络以及前馈神经网络，多头自注意力网络的输入为该子编码器的输入，多头自注意力网络的输出为前馈神经网络的输入，前馈神经网络的输出为该子编码器的输出。52.进一步地，还可利用残差网络对多头自注意力网络以及前馈神经网络进行优化处理。53.在一些应用场景中，可利用bert对输入文本进行编码处理，获得编码向量。bert的表征能力强，利用bert可获得比较准确的文本特征。54.当然，在对输入文本进行编码处理的过程中，采用已经训练好的bert。即，在实际应用中，在搭建bert之后，需利用正确的训练集对bert进行训练。在训练过程中，可将bert在训练集上进行微调(fine-tune)。这样，采用较小的训练集即可将bert训练好。55.利用bert对输入文本进行编码处理，可提高编码向量的表征能力，提高召回率。56.应当理解的是，上述列举利用bert对输入文本进行编码处理，仅为示例性说明，本领域技术人员还可采用现有技术中具有编码的功能其他模型，例如是长短期记忆(long short-term memory，lstm)模型，或者循环神经网络(recurrent neural network，rnn)模型，本技术实施例对编码模型不做具体限定。57.编码向量中子向量的数量与输入文本的长度对应，例如，在输入文本为“不同凡想”的情况下，可将每个字符编码为一个子向量，这样，编码器向量中的子向量的数量为4个，该4个子向量按由先至后的顺序依次为：“不”对应的子向量，“同”对应的子向量，“凡”对应的子向量，“想”对应的子向量。58.当前子向量在编码向量中的位置与已完成的解码处理过程的次数对应。例如，在已完成的解码处理过程的次数为0的情况下，当前解码处理过程属于第1次解码处理过程，按由先至后的顺序，将编码向量中的第1个子向量确定为当前子向量；在已完成的解码处理过程的次数为1的情况下，当前解码处理过程属于第2次解码处理过程，按由先至后的顺序，将编码向量中的第2个子向量确定为当前子向量；在已完成的解码处理过程的次数为2的情况下，当前解码处理过程属于第3次解码处理过程，按由先至后的顺序，将编码向量中的第3个子向量确定为当前子向量；依此类推，这里不再赘述。59.这样，依据已完成的解码处理过程的次数，可在输入文本的编码向量中获得当前子向量。60.s102、对当前子向量进行解码处理，获得当前输出词表以及当前输出词表的概率分布。61.这里的当前输出词表中每个元素由一个或一个以上字符构成，例如，当前输出词表中每个元素可为一个汉字，或者，一个词语(两个以上汉字构成)；或者，当前输出词表中每个元素可为一个字母(例如单个字母或一个单词中的字母)，或者，一个单词(两个以上字母构成)，或者，一个词组(两个以上单词构成)。62.这里对当前子向量进行解码处理的解码器可以是lstm，也可以是rnn，还可以是卷积神经网络(convolutional neural networks，cnn)模型以及transformer模型等。63.在对编码向量进行解码处理的过程中，所采用的解码器同样是训练好的解码器。即，在实际应用中，在搭建编码器与解码器之后，需要利用正确的训练集对编码器以及解码器进行训练，之后再利用训练好的编码器对输入文本进行编码处理，获得编码向量，利用训练好的解码器对编码向量进行解码处理，获得当前输出词表以及当前输出词表的概率分布。64.在训练过程中，可利用交叉熵损失函数训练用于对输入文本进行编码处理的编码器以及对编码向量进行解码处理的解码器。这样，可使得模型在训练过程中的收敛速度比较快，便于快速获得训练好的编码器与解码器。65.本技术实施例提供的解码器，每解码处理一次，获得一个校对结果，多次解码获得多个校对结果。在第一次解码处理的情况下，可对初始值(例如：《sos》)以及当前子向量进行解码处理，获得当前输出词表以及当前输出词表的概率分布。例如编码向量中的子向量对应的文本按由先至后的顺序依次为“不”、“同”、“凡”和“想”，则在第一次解码处理的情况下，可对初始值《sos》以及“不”对应的子向量进行解码处理。66.在非第一次解码处理的情况下，对前一个校对结果以及当前子向量进行解码处理，以获得当前输出词表以及当前输出词表的概率分布，其中，前一个校对效果是前一次解码处理过程中获得的校对结果。例如，在当前解码处理过程为第二次解码处理的情况下，前一次(即第一次)解码处理过程中获得前一个校对结果为“不”，则将前一个校对结果“不”，以及“不”对应的子向量进行解码处理。67.以下以将lstm或rnn作为解码器，对文本校对方法进行示例性说明。在将lstm或rnn作为解码器的情况下，对当前子向量进行解码处理，获得当前输出词表以及当前输出词表的概率分布，可包括：利用lstm或rnn对前一个校对结果以及当前子向量进行处理，以获得当前输出词表以及当前输出词表的概率分布，其中，前一个校对效果是前一次解码处理过程中获得的校对结果。68.在利用rnn作为解码器的情况下，利用rnn对前一个校对结果、前一次解码处理过程的中间解码状态以及当前子向量进行处理，获得当前输出词表以及当前输出词表的概率分布；其中，前一个校对结果是在前一次解码处理过程中获得的。69.在利用lstm作为解码器的情况下，利用lstm对前一个校对结果、前一次解码处理过程的中间解码状态以及当前子向量进行处理，获得当前输出词表以及当前输出词表的概率分布；其中，前一个校对结果是在前一次解码处理过程中获得的。70.进一步地，对当前子向量进行解码处理，获得当前输出词表以及当前输出词表的概率分布，可包括：获得前一次解码处理过程中的中间解码状态；根据中间解码状态与编码向量中每个子向量的匹配程度，确定编码向量中每个子向量的权重；将编码向量中每个子向量及其对应权重的加权和，确定为动态语义编码向量；对动态语义编码向量、前一个校对结果以及当前子向量进行解码处理，以获得当前输出词表以及当前输出词表的概率分布。71.以rnn或lstm为代表的解码器通常包括输出层、隐藏层以及输入层，中间解码状态指的是在一次解码过程中，解码器的隐藏层的输出量。72.可利用如下方式获得中间解码状态与编码向量中每个子向量的匹配程度：73.eij＝a(si-1，hj)74.其中，eij为前一次解码处理过程中的中间解码状态与编码向量中第j个子向量的匹配程度，si-1为前一次解码处理过程中的中间解码状态，hj为编码向量中的第j个子向量，a为fnn(feedforward neural network，前馈神经网络)，其参数可通过训练获得，i为包括当前解码处理过程在内的总解码次数；si-1和hj均为a的输入量，eij为a的输出量。75.在应用过程中，将si-1和hj输入至训练好的a，a的输出量即为eij。76.可通过如下方式确定编码向量中每个子向量的权重：[0077][0078]其中，αij为编码向量中第j个子向量的权重，eij为前一次解码处理过程中的中间解码状态与编码向量中第j个子向量的匹配程度，n为编码向量中子向量的总数，eik为一次解码处理过程中的中间解码状态与编码向量中第k个子向量的匹配程度，i为包括当前解码处理过程在内的总解码次数。[0079]进一步地，可通过如下方式确定动态语义编码向量：[0080][0081]其中，ci为动态语义编码向量，αij编码向量中第j个子向量的权重，hj为编码向量中的第j个子向量，n为编码向量中子向量的总数，i为包括当前解码处理过程在内的总解码次数。[0082]最后，可利用如下方式对动态语义编码向量、前一个校对结果以及当前子向量进行解码处理：[0083]p(yi)＝g(yi-1，si，ci，xi)[0084]si＝f(yi-1，ci，si-1)[0085]其中，yi为当前输出词表，p(yi)为当前输出词表的概率分布，g以及f为rnn或lstm中的连接结构，其参数可通过训练获得，yi-1为前一个校对结果，si为当前解码处理过程中的中间解码状态，si-1为前一次解码处理过程中的中间解码状态，ci为动态语义编码向量，xi为当前子向量，i为包括当前解码处理过程在内的总解码次数。[0086]在应用过程中，可将yi-1、ci以及si-1输入至训练好的f中，f的输出量即为si；再将yi-1、si、ci以及xi输入至训练好的g中，g的输出量即为p(yi)。[0087]在一些实际应用中，可以采用注意力模型bahdanau attention对编码向量进行处理，并对bahdanauattention处理后的编码向量进行解码处理。当然，这里的注意力模型bahdanau attention仅为示例性模式，本领域技术人员还可以采用现有技术中其他注意力模型对编码向量进行处理，例如selfattention等，这里不做具体限定。[0088]对于第一次解码处理过程的情况，可将初始值(例如《sos》)确定为前一个校对结果，将另一个初始值(例如空值)确定为前一次解码处理过程的中间解码状态。[0089]s103、在输入文本中确定待校对词。[0090]这里的待校对词由一个或一个以上字符构成，例如，待校对词可为一个汉字，或者，一个词(两个以上汉字构成)；或者，待校对词可为一个字母例如单个字母或一个单词中的字母)，或者，一个单词(两个以上字母构成)，或者，一个词组(两个以上单词构成)。[0091]待校对词在输入文本中的位置与已完成的解码处理过程的次数对应。例如，在待校对词为一个汉字的情况下，输入文本为“不同凡想”，在已完成的解码处理过程的次数为0的情况下，当前解码处理过程属于第1次解码处理过程，将输入文本中的第一个汉字“不”确定为待校对词；在已完成的解码处理过程的次数为1的情况下，当前解码处理过程属于第2次解码处理过程，将输入文本中的第二个汉字“同”确定为待校对词；在已完成的解码处理过程的次数为2的情况下，当前解码处理过程属于第3次解码处理过程，将输入文本中的第三个汉字“凡”确定为待校对词；依此类推，这里不再赘述。[0092]s104、根据待校对词、待校对词对应的混淆集、当前输出词表以及概率分布，确定与待校对词对应的校对结果。[0093]上述待校对词的混淆集，包括待校对词的拼音相近词和字形相近词。[0094]例如，在待校对词为“想”的情况下，混淆集可以是[翔享响险像厢香息乡巷相向祥项线象详箱]；在待校对词为“对”的情况下，混淆集可以是[队对堆隧怼都]；在待校对词为“禾”的情况下，混淆集可以是[合和河木]。[0095]在实际应用中，可以由人工标注混淆集，并将混淆集存储在数据库中，在获得待校对词之后，通过查询数据库，即可获得待校对词的混淆集。[0096]可选地，根据待校对词、待校对词对应的混淆集、当前输出词表以及概率分布，确定与待校对词对应的校对结果，包括：将当前输出词表中的至少一个词确定为目标词集，确定混淆集与目标词集的交集；在交集为空集的情况下，将待校对词确定为校对结果；在交集为非空集的情况下，根据交集与待校对词之间的包含关系，确定校对结果。[0097]这里的校对结果，指的是当前解码处理过程最终获得的校对结果，与待校对词相对应。[0098]在常规的解码器进行解码处理的过程中，在获得当前输出词表以及当前输出词表的概率分布后，通常将当前输出词表中概率最大的词确定为校对结果。在本技术实施例中，在获得当前输出词表以及当前输出词表的概率分布后，并未直接根据当前输出词表的概率分布确定本次解码处理的解码结果(校对结果)，而是取该当前输出词表的目标词集与待校对词的混淆集的交集，再结合交集确定出校对结果。即，每次解码过程均会结合原始输入文本以确定校对结果。[0099]这样的校对结果更加贴近于输入文本所要表达的含义，使得校对结果更加准确。在现有网络文化中，经常会派生出一些词语，例如“躺平”、“佛系青年”等，利用本技术实施例提供的文本校对方案，在编码处理过程中，将会对语义进行一定的分析，在初次接触到这些派生词语后，解码获得当前输出词表中往往不会包含这些派生词语，这种情况下，本方案将会将待校对词确定为校对结果。由此可见，本技术实施例提供的文本校对方法提高了文本校对的准确率。[0100]具体地，根据交集与待校对词之间的包含关系，确定校对结果，包括：在交集不包含待校对词的情况下，将交集中概率最大的词确定为校对结果；在交集包含待校对词的情况下，将待校对词确定为校对结果。在该确定校对结果的过程中，如果交集包括待校对词，则仍将该校对词确定为校对结果，可进一步提高文本校对方法的准确率。例如，在待校对词为故意采用谐音字，或同形字以表达特定的含义的情况下，采用本技术实施例提供的文本校对方案，可仍保持原始输入文本，进一步提高了文本校对的准确率。[0101]在具体应用中，将当前输出词表中的至少一个词确定为目标词集，可包括：将当前输出词表中设定数量的词确定为目标词集；其中，目标词集的任一词的概率大于或等于当前输出词表中非目标词集的任一词的概率。例如，在一次校对过程中，输入文本为“不同凡想”，在第四次解码后，获得的当前输出词表及其概率分布为“[我：0.0001，你：0.000003，想：0.00002，响：0.45，向：0.1，...，unk：0.005]”，第四次解码对应的输入文本中的待校对词为“想”，“想”的混淆集为[翔享响险像厢香息乡巷相向祥项线象详箱]；在设定数量为2的情况下，目标词表及其概率分布为：[响：0.45，向：0.1]，此时混淆集与目标词表的交集及其概率分布为[响：0.45，向：0.1]；如果设定数量为3，目标词表及其概率分布为[响：0.45，向：0.1，unk：0.005]，此时交集及其概率分布为[响：0.45，向：0.1]；如果设定数量为4，则目标词表及其概率分布为[响：0.45，向：0.1，unk：0.005，我：0.0001]，交集及其概率分布为[响：0.45，向：0.1]；以此类推。上述“unk”是unknown words的简称，在当前输出词表及其概率分布中，通常将概率较小的一些词替换为“unk”，以提高计算效率。[0102]这里的设定数量用于平衡文本校对方法的校对速度与校对准确率，设定数量越大，则文本校对方法的校对速度越快，校对准确率越高；设定数量越小，则文本校对方法的校对速度越慢，校对准确率越低。本技术实施例对设定数量的具体数值不做限定，本领域技术人员可根据实际对校对速度以及校对准确率的需求，适应性确定设定数量的具体数值。[0103]在一些具体应用中，输入文本为“不同凡想”，在第四次解码后，获得的当前输出词表及其概率分布为“[我：0.0001，你：0.000003，想：0.00002，响：0.45，向：0.1，...，unk：0.005]”，第四次解码对应的输入文本中的待校对词为“想”，“想”的混淆集为[翔享响险像厢香息乡巷相向祥项线象详箱]；在设定数量为2、3、4的情况下，交集及其概率分布为[响：0.45，向：0.1]，交集不包含待校对词，因此将交集中概率最大的词“响”确定为校对结果；在设定数量为5的情况下，交集及其概率分布为[响：0.45，向：0.1，想：0.00002]，交集包含待校对词，因此将待校对词“想”确定为校对结果。[0104]由此可见，输入文本的待校对词参与每一次解码过程。在第一次解码处理过程中，输入文本中的第一个待校词以其混淆集的方式参与第一次解码处理过程，输入文本中的第一个待校对词对第一个校对结果产生影响；在非第一次解码处理过程中，当前解码处理过程获得的校对结果还与之前的解码处理过程获得的校对结果具有关联关系，而之前的解码处理过程获得的校对结果均受到输入文本的影响，这样，输入文本同时以直接和间接的方式对当前结果产生影响。由此可见，在解码结束之后，输入文本的整体内容均参与到解码过程中。这样，该文本校对方法的每一次解码处理获得校对结果与输入文本的契合度较高，校对更准确。[0105]尤其是采用lstm作为解码器，由于lstm具有长期记忆功能，可以使输入文本对解码过程的参与度更高，随着解码次数的增加，输入文本对解码过程的参与越来越高，每一次解码处理获得校对结果与输入文本的契合度越来越高，校对准确率越来越高。[0106]s105、根据校对结果确定校对后的文本。[0107]在对输入文本的编码向量中的当前子向量进行解码处理的过程中，首先获得当前输出词表以及当前输出词表的概率分布，再结合当前输出词表及其概率分布、待校对词的混淆集，以降低输入文本包含的错字信息对校对模型产生的影响，最终获得准确率比较高的校对结果，这样，提高了文本校对的准确率。[0108]每次解码可获得一个校对结果，上述技术方案描述的是一次解码并获得校对结果以及校对后的文本的过程。在具体应用中，在多次解码处理后，按照解码处理过程的先后顺序，依次连接每次解码处理过程获得的校对结果，获得校对后的文本。[0109]在一些应用场景中，如果校对结果与待校对词相同，则判定待校对词无误；如果校对结果与待校对词不相同，则判定待校对词可能存在错误，可对该待校对词进行标记处理，例如在word文本中，可对该可能存在错误的待校对词进行标记高亮、标记下划线、改变字体颜色或类型等处理，从而提示用户。[0110]每次解码可获得一个校对结果，在获得当前解码处理过程的校对结果之后，连接已获得的全部校对结果，以获得当前已校对文本；判断当前已校对文本的长度是否与输入文本的长度相同，在当前已校对文本的长度小于输入文本的长度的情况下，继续解码；在当前已校对文本的长度与输入文本的长度相同的情况下结束解码处理。[0111]例如，输入文本“不同凡想”的长度为4，对“不同凡想”进行编码处理获得编码向量，再对编码向量进行解码处理。第一次解码获得校对结果为“不”，此时当前已校对文本为“不”，其长度为1，小于输入文本的长度，继续第二次解码，获得校对结果“同”，此时当前已校对文本为“不同”，其长度为2，小于输入文本的长度，继续第三次解码，获得校对结果“凡”，此时当前已校对文本为“不同凡”，其长度为3，仍小于输入文本的长度，继续第四次解码，获得校对结果为“响”，此时当前已校对文本为“不同凡响”，其长度为4，等于输入文本的长度，此时停止解码。[0112]图2是本技术实施例提供的一种文本校对方法的模型的示意图，以输入文本为“不同凡想”为例，对文本校对方法进行示例性说明。图2的下半部分为编码处理过程的示意图，图2的上半部分为解码处理过程的示意图，示意了由先至后不同时刻的四次解码处理过程，每次解码处理过程均利用解码单元h进行解码处理；利用编码器对输入文本“不同凡想”进行编码，以获得编码向量[x1，x2，x3，x4]，其中，x1是“不”对应的子向量，x2是“同”对应的子向量，x3是“凡”对应的子向量，x4是“想”对应的子向量；在解码过程中，解码器h依次对编码向量中的子向量进行解码，并获得每个子向量对应的解码结果：首先将初始值《sos》以及编码向量中的第一个子向量x1(“不”对应的子向量)输入至解码器的解码单元h，获得第一个校对结果“不”；下一时刻将第一个校对结果“不”、上一时刻解码处理过程中的中间解码状态以及第二个子向量x2(“同”对应的子向量)再次输入至解码器的解码单元h，获得第二个校对结果“同”；再下一时刻将第二个校对结果“同”、上一时刻解码处理过程中的中间解码状态以及第三个子向量x3(“凡”对应的子向量)再次输入至解码器的解码单元h，获得第三个校对结果“凡”，最后时刻将第三个校对结果“凡”、上一时刻解码处理过程中的中间解码状态以及第四个子向量x4(“想”对应的子向量)再次输入至解码器的解码单元h，获得第四个校对结果“响”，此时连接全部校对结果获得的已校对文本为“不同凡响”，其长度与输入文本的长度相同，停止解码。[0113]图3a至图3f是本技术实施例提供的一种文本校对方法的模型的细节示意图，以输入文本为“不同凡想”为例，对文本校对方法进行示例性说明。为便于说明，将按照时间由先至后的顺序，将不同解码处理过程中的同一个解码单元依次称为第一个解码单元h1、第二个解码单元h2、第三个解码单元h3和第四解码单元h4，上述四个解码单元的结构相同，输入量和中间解码状态不同。[0114]结合图3a所示，对利用编码器对输入文本“不同凡想”进行编码，获得对应的编码向量x＝[x1，x2，x3，x4]。这里的编码器可以bert，还可以是rnn或者lstm。[0115]结合图3b所示，在第一时刻，利用解码器对编码向量进行第一次解码，这里的解码器可以是lstm，将中间解码状态(图中未示出，第一时刻的中间解码状态为0)、初始值《sos》以及第一个子向量x1输入至解码器的第一个解码单元h1中，并获得第一个输出词表及其概率分布y1。[0116]结合图3c所示，由于是第一次解码，获得输入文本“不同凡想”中第一个待校对词“不”的混淆集，结合该混淆集、第一个输出词表及其概率分布y1，获得第一个校对结果“不”。[0117]该校对结果“不”与输入文本中的第一个词“不”相同，判定输入文本中的第一个词不存在错误。[0118]此时已校对文本为“不”，其长度小于“不同凡想”的长度，继续解码。[0119]结合图3d所示，在第二时刻(第二时刻在第一时刻之后)，将第一个校对结果“不”、第一个解码单元h1的中间解码状态以及编码向量中的第二个子向量x2，输入至解码器的第二个解码单元h2，获得第二个输出词表及其概率分布y2，再获得输入文本“不同凡想”中的第二个待校对词“同”的混淆集，结合该混淆集、第二个输出词表及其概率分布y2，获得第二个校对结果“同”。[0120]该校对结果与输入文本中的第二个词“同”相同，判定输入文本中的第二个词不存在错误。[0121]此时已校对文本为“不同”，其长度小于“不同凡想”的长度，继续解码。[0122]结合图3e所示，在第三时刻(第三时刻在第二时刻之后)，将第二个校对结果“同”、第二个解码单元h2的中间解码状态以及编码向量中的第三个子向量x3，输入至解码器的第三个解码单元h3，获得第三个输出词表及其概率分布y3，再获得输入文本“不同凡想”中的第三个待校对词“凡”的混淆集，结合该混淆集、第三个输出词表及其概率分布y3，获得第三个校对结果“凡”。[0123]该校对结果与输入文本中的第三个词“凡”相同，判定输入文本中的第三个词不存在错误。[0124]此时已校对文本为“不同凡”，其长度小于“不同凡想”的长度，继续解码。[0125]结合图3f所示，将第三个校对结果“凡”、第三个解码单元h3的解码状态以及编码向量中的第四个子向量x4，输入至解码器的第四个解码单元h4，获得第四个输出词表及其概率分布y4，再获得输入文本“不同凡想”中的第四个待校对词“想”的混淆集，结合该混淆集、第四个输出词表及其概率分布y4，获得第四个校对结果“响”。[0126]该校对结果“响”与输入文本中的第四个词“想”不相同，判定输入文本的第四个词可能存在错误。[0127]此时已校对文本为“不同凡响”，其长度等于“不同凡想”的长度，停止解码。[0128]图4是本技术实施例提供的一种文本校对装置的示意图。[0129]结合图4所示，文本校对装置包括获得模块41、解码模块42、第一确定模块43、第二确定模块44和第三确定模块45；获得模块41被配置为在当前解码处理过程中，获得输入文本的编码向量中的当前子向量，其中，当前子向量在编码向量中的位置与已完成的解码处理次数对应；解码模块42被配置为对当前子向量进行解码处理，获得当前输出词表以及当前输出词表的概率分布；第一确定模块43被配置为在输入文本中确定待校对词，其中，待校对词在输入文本中的位置与已完成的解码处理次数对应；第二确定模块44被配置为根据待校对词、待校对词对应的混淆集、当前输出词表以及概率分布，确定与待校对词对应的校对结果；第三确定模块35被配置为根据校对结果确定校对后的文本。[0130]可选地，第二确定模块44包括第一确定单元、第二确定单元和第三确定单元；第一确定单元被配置为将当前输出词表中的至少一个词确定为目标词集；第二确定单元被配置为确定混淆集与目标词表的交集；第三确定单元被配置为在交集为空集的情况下，将待校对词确定为校对结果；在交集为非空集的情况下，根据交集与待校对词之间的包含关系，确定校对结果。[0131]可选地，根据交集与待校对词之间的包含关系，确定校对结果，包括：在交集不包含待校对词的情况下，将交集中概率最大的词确定为校对结果；在交集包含待校对词的情况下，将待校对词确定为校对结果。[0132]可选地，第一确定单元被具体配置为将当前输出词表中的至少一个词确定为目标词集，包括：将当前输出词表中设定数量的词确定为目标词集；其中，目标词集的任一词的概率大于或等于当前输出词表中非目标词集的任一词的概率。[0133]可选地，解码模块42包括第一解码单元，第一解码单元被配置为在第一次解码处理的情况下，对初始值进行解码处理，以获得当前输出词表以及当前输出词表的概率分布。[0134]可选地，解码模块42包括第二解码单元，第二解码单元被配置为在非第一次解码处理的情况下，对前一个校对结果以及当前子向量进行解码处理，以获得当前输出词表以及当前输出词表的概率分布，其中，前一个校对效果是前一次解码处理过程中获得的校对结果。[0135]可选地，第二解码单元被具体配置为获得前一次解码处理过程中的中间解码状态；根据中间解码状态与编码向量中每个子向量的匹配程度，确定编码向量中每个子向量的权重；将编码向量中每个子向量及其对应权重的加权和，确定为动态语义编码向量；对动态语义编码向量、前一个校对结果以及当前子向量进行解码处理，以获得当前输出词表以及当前输出词表的概率分布。[0136]可选地，文本校对装置还包括结束模块，结束模块被配置为在获得当前解码处理过程的校对结果之后，连接已获得的全部校对结果，以获得当前已校对文本；在当前已校对文本的长度与输入文本的长度相同的情况下，结束解码处理。[0137]可选地，文本校对装置还包括编码模块，编码模块被配置为将输入文本进行文本嵌入和位置嵌入，获得输入向量；利用至少一个子编码器对输入向量进行多次处理；将最后一个子编码器的输出确定为编码向量。[0138]可选地，第三确定模块45被具体配置为在多次解码处理后，按照解码处理过程的先后顺序，依次连接每次解码处理过程获得的校对结果，获得校对后的文本。[0139]在一些实施例中，电子设备包括处理器和存储有程序指令的存储器，处理器被配置为在执行程序指令时，执行前述实施例提供的文本校对方法。[0140]图5是本技术实施例提供的一种电子设备的示意图。结合图5所示，电子设备包括：[0141]处理器(processor)51和存储器(memory)52，还可以包括通信接口(communication interface)53和总线54。其中，处理器51、通信接口53、存储器52可以通过总线54完成相互间的通信。通信接口53可以用于信息传输。处理器51可以调用存储器52中的逻辑指令，以执行前述实施例提供的文本校对方法。[0142]此外，上述的存储器52中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。[0143]存储器52作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本技术实施例中的方法对应的程序指令/模块。处理器41通过运行存储在存储器52中的软件程序、指令以及模块，从而执行功能应用以及数据处理，即实现上述方法实施例中的方法。[0144]存储器52可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器52可以包括高速随机存取存储器，还可以包括非易失性存储器。[0145]本技术实施例提供了一种存储介质，存储有计算机可执行指令，计算机可执行指令设置为执行前述实施例提供的文本校对方法。[0146]本技术实施例提供了一种计算机程序产品，计算机程序产品包括存储在计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行前述实施例提供的文本校对方法。[0147]上述的计算机可读存储介质可以是暂态计算机可读存储介质，也可以是非暂态计算机可读存储介质。[0148]本技术实施例的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括一个或一个以上指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术实施例中方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质，包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机读取存储器(random access memory，ram)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。[0149]以上描述和附图充分地示出了本技术的实施例，以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且，本技术中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。另外，当用于本技术中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法或者设备中还存在另外的相同要素。本文中，每个实施例重点说明的可以是与其他实施例的不同之处，各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言，如果其与实施例公开的方法部分相对应，那么相关之处可以参见方法部分的描述。[0150]本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，可以取决于技术方案的特定应用和设计约束条件。技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能，但是这种实现不应认为超出本技术实施例的范围。技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。[0151]本文所披露的实施例中，所揭露的方法、产品(包括但不限于装置、设备等)，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，可以仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外，在本技术实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。[0152]附图中的流程图和框图显示了根据本技术实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或一个以上用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明：本文中引用的各种信息及资料（包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主体（包括但不限于公司、媒体、协会等机构）的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理！本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理，本文部分文字与图片资源来自于网络，部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益，请立即通知我们，情况属实，我们会第一时间予以删除，并同时向您表示歉意,谢谢!

关键词：计算;推算;计数设备的制造及其应用技术专利技术

下一篇： 基于联合学习的设备检测方法及装置与流程专利技术说明
上一篇： 一种模糊视频修复方法及装置与流程专利技术说明

专利技术

文本校对方法及装置、电子设备、存储介质与流程专利技术说明

相关内容查看全部 

一种低温环境下的

仿生高黏附沥青改

一种汽车安全气囊

机床以及诊断方法

元器件料带计数装

一种折叠式多层线

一种矫形套装的制

一种旋转开合的庭

瓦楞纸用箱纸板的

一种电石块重型链

文本校对方法及装置、电子设备、存储介质与流程 专利技术说明

相关内容 查看全部 

文本校对方法及装置、电子设备、存储介质与流程专利技术说明

相关内容查看全部 