发布信息

一种识别交互内容的方法、识别装置和系统与流程

作者:admin      2022-08-26 21:41:49     661



计算;推算;计数设备的制造及其应用技术1.本技术涉及人机交互技术领域,尤其涉及识别交互内容的方法、识别装置和系统。背景技术:2.在电子白板、智能音箱等智能设备上,经常会存在识别的场景,例如识别用户的手写或者语音的输入内容等。在现有的识别的交互过程中,当系统对用户输入的内容识别错误时,则通常需要用户删除或者撤销当前识别结果、重新输入内容,并让系统对该重新输入的内容再识别。在识别难度较大或者识别准确率较低的场景下,对同样的输入内容可能会反复识别错误,因而需要多次执行“用户删除或者撤销识别结果、用户重新输入、系统重新识别”的过程。例如,在图1所示的手写识别的场景中,用户期望系统能正确识别“1.”,当用户第一次手写输入“1.”时被错误识别成“人”,用户删除该识别结果,并再次手写输入“1.”,此时又被错误识别成了“.”。如此反复,在用户第4次输入时才得到正确的识别结果。可见,在现有的识别过程中,纠错效率较低,用户体验不好。技术实现要素:3.有鉴于此,本技术提供一种识别交互内容的方法、识别装置和系统,基于用户对识别结果的反馈操作实现快速纠错,有助于提升系统的识别纠错效率和用户的体验。4.为达上述目的,本技术提供如下技术方案:5.第一方面,本技术提供了一种识别交互内容的方法,该方法包括:识别第一交互内容;显示该第一交互内容的第一识别结果;然后,当检测到用户对该第一识别结果的纠错操作时,获取上述第一交互内容的第二识别结果、以及至少一个候选识别结果,并显示上述得到的第二识别结果、以及至少一个候选识别结果。6.通过本技术的第一方面,直接显示第一交互内容的第一识别结果,这样,当第一识别结果是用户期望的结果时,则无需用户进一步的操作,因而识别的效率较高。而当检测到用户第一识别结果的纠错操作时,直接显示第一交互内容的第二识别结果和至少一个候选识别结果。这样,当第二识别结果是用户期望的结果时,无需用户的进一步操作,即便第二识别结果不是用户期望的结果,用户也可以从直接从显示的候选识别结果中选择自己期望的识别结果。因此,即使在识别出错的情况下,识别系统也可以实现快速纠错,提升识别的效率和用户的体验。7.在一种可能的实现方式中,当检测到用户选择上述候选识别结果中的第三识别结果时,显示该第三识别结果。8.在一种可能的实现方式中,上述显示第二识别结果,可以为:显示第二识别结果为待确认状态;当在显示第二识别结果、以及候选识别结果后的预定时间内没有检测到用户选择候选识别结果中的第三识别结果时,显示所述第二识别结果为确认状态。通过这种方式,可以进一步提升用户的体验。9.在一种可能的实现方式中,上述显示第二识别结果,还可以为:将第二识别结果显示在所述第一识别结果的位置上。10.在一种可能的实现方式中,上述识别第一交互内容,可以为:识别第一交互内容得到多个候选识别结果,以及该多个候选识别结果中每个候选识别结果置信度;上述显示第一识别结果,可以为:显示多个候选识别结果中置信度最高的候选识别结果。11.在一种可能的实现方式中,上述获取第一交互内容的第二识别结果,以及至少一个候选识别结果,可以为:从上述多个候选识别结果中选择置信度第二高的候选识别结果作为第二识别结果,并从上述多个候选识别结果中选择至少一个候选识别结果作为所述候选识别结果。12.在一种可能的实现方式中,还可以根据第一交互内容及其纠错信息对位于上下文的第二交互内容进行联想纠错;其中,第一交互内容的纠错信息包括上述第一识别结果,和/或第二识别结果,和/或第三识别结果。通过这种方式,可以进一步提升识别系统纠错的效率和识别的准确率。13.第二方面,本技术提供了一种识别交互内容的方法,该方法包括:接收第一交互内容,识别该第一交互内容,并输出该第一交互内容的第一识别结果到显示器;接收用户的操作信息,当确定该操作信息为对上述第一识别结果的纠错操作时,获取第一交互内容的第二识别结果以及至少一个候选识别结果,并输出该第二识别结果以及至少一个候选识别结果到显示器。14.在一种可能的实现方式中,在输出至少一个候选识别结果到显示器之后,接收用户的操作信息,当确定所述操作信息为选择上述至少一个候选识别结果中的第三识别结果时,输出第三识别结果到显示器。15.在一种可能的实现方式中,上述输出所述第二识别结果到显示器,可以为:设置第二识别结果的显示模式为待确认状态;当在输出第二识别结果、以及候选识别结果到显示器后的预定时间内确定没有选择候选识别结果中的第三识别结果的用户操作信息时,设置第二识别结果的显示模式为确认状态。通过这种方式,可以进一步提升用户的体验。16.在一种可能的实现方式中,上述输出所述第二识别结果到显示器,还可以为:设置第二识别结果在显示器上的显示位置与前述第一识别结果在显示器上的显示位置一致。17.第三方面,本技术提供一种识别装置,该识别装置包括:接收单元,用于18.接收第一交互内容,以及获取用户的操作信息;处理单元,用于识别上述第一交互内容;还用于在确定接收单元接收的用户操作为对第一交互内容的第一识别结果的纠错操作时,确定第一交互内容的第二识别结果,以及至少一个候选识别结果;输出单元,用于在处理单元识别第一交互内容之后,输出上述第一识别结果,还用于在处理单元7获取第一交互内容的第二识别结果,以及至少一个候选识别结果之后,输出第二识别结果以及至少一个候选识别结果到显示器。在一种可能的实现方式中,上述处理单元还用于确定接收单元接收的用户操作中是否存在选择所述候选识别结果中的第三识别结果的操作;输出单元还用于在所述处理单元确定用户选择候选识别结果中的第三识别结果的操作时,输出第三识别结果到显示器。19.在一种可能的实现方式中,上述输出单元在输出第二识别结果到显示器时,具体用于:设置第二识别结果的显示模式为待确认状态;当在输出第二识别结果、以及候选识别结果到显示器后的预定时间内处理单元确定没有用户选择候选识别结果中的第三识别结果时,切换第二识别结果的显示模式到确认状态。20.在一种可能的实现方式中,上述输出单元在输出第二识别结果到显示器时,具体用于:设置第二识别结果在显示器上的显示位置与第一识别结果在显示器上的显示位置一致。21.在一种可能的实现方式中,处理单元在识别第一交互内容时具体用于:识别第一交互内容得到多个候选识别结果,以及多个候选识别结果中每个候选识别结果的置信度;输出单元在输出第一识别结果到显示器时,具体用于:输出上述多个候选识别结果中置信度最高的候选识别结果到显示器。22.在一种可能的实现方式中,处理单元在获取第一交互内容的第二识别结果,以及候选识别结果时,具体用于:从上述多个候选识别结果中选择置信度第二高的候选识别结果作为所述第二识别结果,并从所述多个候选识别结果中选择至少一个候选识别结果作为所述候选识别结果。。23.在一种可能的实现方式中,处理单元还用于根据第一交互内容的纠错信息对上下文中的第二交互内容进行纠错。24.第四方面,本技术提供一种识别装置,该识别装置包括存储器和一个或多个处理器;所述存储器与所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述计算机指令被所述识别装置执行时,使得所述识别装置执行上述第二方面提供的任一种可能的实现方式所述的识别交互内容的方法。25.第五方面,本技术提供一种识别系统,该识别系统包括识别装置、输入设备以及显示器;其中,输入设备用于获取交互的内容,并将交互的内容发送到识别装置上处理;识别装置用于执行上述第二方面提供的任一种可能的实现方式所述的识别交互内容的方法;显示器用于显示识别装置输出到所述显示器上的内容。26.第六方面,本技术提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,当所述计算机程序在计算机上执行时,使得所述计算机执行如上述第一方面或第二方面提供的任一种可能的实现方式所述的识别交互内容的方法。27.第七方面,本技术提供一种计算机程序产品,该计算机程序产品包括计算机执行指令,当该计算机执行指令在计算机上执行时,使得所述计算机执行如上述第一方面或第二方面提供的任一种可能的实现方式所述的识别交互内容的方法。28.本技术中第二方面到第七方面及其各种实现方式的具体描述,可以参考第一方面及其各种实现方式中的详细描述;并且,第二方面到第七方面及其各种实现方式的有益效果,可以参考第一方面及其各种实现方式中的有益效果分析,此处不再赘述。附图说明29.图1为现有手写识别场景中的识别交互内容方法示意图。30.图2为本技术实施例提供的一种识别系统的一种硬件结构示意图。31.图3为本技术实施例提供的识别系统的一种结构示意图。32.图4为本技术实施例提供的识别系统的另一种结构示意图。33.图5为本技术实施例提供的一种识别交互内容方法的流程示意图。34.图6a-图6b为本技术实施例提供的识别交互内容方法中的识别处理示意图。35.图7a-图7b为基于本技术实施例提供的置信度调整准则得到的置信度的变化曲线示意图。36.图8为本技术实施例提供的一种识别装置示意图。37.图9为本技术实施例提供的另一种识别装置示意图。38.图10为本技术实施例提供的计算机程序产品的结构示意图。具体实施方式39.在本技术实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。40.在本技术的实施例中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。41.下面将结合各个附图对本技术技术方案的实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。42.本技术实施例提供一种识别系统,该识别系统在获取到第一交互内容时,对第一交互内容进行识别得到多个候选识别结果,以及每个候选识别结果的置信度,并将该多个候选识别结果中置信度最高的第一识别结果输出到显示器上显示置信度置信度。然后,当系统检测到用户对上述显示的第一识别结果的纠错操作时,说明系统识别得到的第一识别结果不是用户期望的,则输出第二识别结果和候选识别结果到显示器。其中,第二识别结果可以是上述多个候选识别结果中置信度第二高的识别结果,输出到显示器的候选识别结果可以是上述多个候选识别结果中除第一识别结果和第二识别结果之外的一个或多个识别结果。置信度置信度43.进一步地,当系统检测到用户选择上述显示的候选识别结果中的第三识别结果时,则说明上述第二识别结果仍然不是用户期望的结果,则将用户选择的第三识别结果作为最终的识别结果,此时,输出第三识别结果到显示器显示;否则,则以第二识别结果作为最终的识别结果。44.可选地,识别系统还可以根据上述第一交互内容的纠错信息对上下文中与第一交互内容相同或相似的第二交互内容自动联想纠错。45.可见,本技术提供的识别系统,在识别第一交互内容得到第一识别结果后,直接输出第一识别结果到显示器,这样,当第一识别结果是用户期望的结果时,则无需用户进一步的操作,因而在识别的过程中,交互的效率较高。而当识别系统检测到用户第一识别结果的纠错操作时,输出第二识别结果到显示器上显示,同时输出候选识别结果到显示器上显示。这样,当第二识别结果是用户期望的结果时,无需用户的进一步操作,即便第二识别结果不是用户期望的结果,用户也可以从直接从显示的候选识别结果中选择自己期望的第三识别结果。因此,在识别出错的情况下,识别系统也可以实现快速纠错,提升识别过程中,纠错的效率和用户的体验。46.此外,识别系统还可以根据用户的对第一识别内容的纠错信息自动进行上下文联想纠错,因而可以进一步提升识别系统纠错的效率和识别的准确率。47.上述识别交互内容的方法可以通过安装在智能设备上的识别应用程序实现,例如手写识别应用程序,或者语音识别应用程序。48.上述应用程序可以是安装在设备中的嵌入式应用程序(即设备的系统应用),也可以是可下载应用程序。其中,嵌入式应用程序是作为设备(如电子白板,手机等)实现的一部分提供的应用程序。可下载应用程序是一个可以提供自己的因特网协议多媒体子系统(internet protocol multimedia subsystem,ims)连接的应用程序,该可下载应用程序是可以预先安装在设备中的应用或可以由用户下载并安装在设备中的第三方应用。49.图2,为本技术实施例提供的识别系统的硬件结构。如图2所示,识别系统10包括处理器11、存储器12、输入设备13以及显示器14。50.处理器11是识别系统10的控制中心,可以是一个通用中央处理单元(central processing unit,cpu),也可以是其他通用处理器,例如,图形处理器(graphics processing unit,gpu),神经网络处理器(neural-network processing units,npu)等。其中,通用处理器可以是微处理器或者是任何常规的处理器等。作为一个示例,处理器11可以包括一个或多个cpu,和/或一个或多个gpu,和/或一个或多个npu。例如,图2中所示处理器11包括cpu 0和cpu 1、gpu0和gpu1,以及npu0和npu1。51.存储器12,可以是只读存储器(read-only memory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,ram)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器12可以独立于处理器11,也可以通过总线与处理器11相连接,还可以和处理器11集成在一起。存储器12用于存储数据、指令或者程序代码。处理器11调用并执行存储器12中存储的指令或程序代码时,能够实现本技术实施例提供的识别交互内容的方法。52.输入设备13,用于接收输入的交互内容,并将该交互内容送到处理器11上进行识别等处理。输入设备13可以包括触控板131,语音采集器132和图像采集器133等输入设备中的一种或多种。例如,当识别系统10需要进行手写识别时,输入设备13可以包括触控板131,用以采集手写输入的交互内容;当识别系统10需要进行语音识别时,输入设备13可以包括语音采集器132,用以采集语音输入的交互内容等。可以理解的是,根据实际识别需求的不同,输入设备13还可以包括其他形式的输入设备,例如键盘,鼠标,遥控器等,本技术对此不作限定。53.触控板131可以采用电阻式、电容式、红外线以及表面声波等多种类型来实现触控板。触控板131用于采集用户在其上或附近的触摸事件(比如用户使用手指、触控笔等任何适合的物体在触控板上或在触控板附近的操作),并将采集到的触摸信息发送给其他器件(例如处理器11)处理。其中,用户在触控板附近的触摸事件可以称之为悬浮触控;悬浮触控可以是指,用户无需为了选择、移动或拖动目标(例如图标等)而直接接触触控板,而只需用户位于设备附近以便执行所想要的功能。54.语音采集器132也称“话筒”,或“传声器”等,可以是单麦克风;或者可选地,也可以是麦克风阵列。语音采集器132用于采集语音信号,并将语音信号转换为电信号后发送给其他器件(例如处理器11)处理。55.图像采集器133可以是ccd(charge-coupled device,电荷耦合器件)、cmos(complementary metal oxide semiconductor,互补金属氧化物半导体)等成像设备,也称“摄像头”。图像采集器133用于采集图像,并将采集的图像数据发送给其他器件处理,例如,用于采集包含手写内容的图像,并将该图像传送到处理器11上来识别该图像中的手写内容。56.显示器14,可以是液晶、或者有机发光二极管等形式的显示屏。显示器14用来显示处理器11输出显示器的信息,例如,用于显示处理器11输出的交互的内容、对交互内容的识别结果、或者系统与用户交互的界面等。57.可以理解的是,当输入设备13包括触控板131时,显示器14与触控板131可以是集成在一起的形式,例如集成在一起形成触摸屏。58.上述处理器11、存储器12、输入设备13、以及显示器14可以集成在一个设备上,在这种实现下,识别系统10可以是电子白板、智能手机、智慧屏、带显示器的智能音箱,带触摸屏的笔记本电脑、带触摸屏的计算机、平板、上网本、车载等终端设备。示例性的,如果是电子白板,参考图3所述,上述识别应用程序可以在电子白板20内运行。可选的,该识别系统10(即电子白板20)还可以包括触摸笔21,用户可通过触摸笔21在电子白板20的触摸屏(包括触控板131和显示屏14)上手写输入。59.此外,上述处理器11、存储器12、输入设备13、以及显示器14也可以分别集成在不同的设备上,在这种实现下,上述识别系统10可以包括多个设备。示例性的,,如图4所示,识别系统10包括:电子白板20,计算机32,和投影机33。可选地,人机交互系统10还可以包括触摸笔21,触摸笔21用于在电子白板20的触控板13上输入触摸操作。其中,处理器11可以是计算机32的处理器。存储器12可以是计算机32的存储器。这时,上述人机交互应用程序可以在计算机32内运行。另外,触控板131和显示器14可以是电子白板20的触摸屏。可选地,语音采集器132可以集成在电子白板20中,或者,语音采集器14也可以集成在计算机32、投影机33或者触摸笔21中,本技术实施对此不作限定。同样,图像采集器133可以集成在电子白板20中,或者,图像采集器133也可以集成在计算机32、投影机33或者触摸笔21中,本技术实施对此不作限定。60.需要说明的是,在本技术中,处理器11与输入设备13之间,或者处理器11与显示器14之间,可以通过有线的方式连接,例如,通过usb(universal serial bus,通用串行总线)接口、或者hdmi(high-definition multimedia interface,高清多媒体接口)等方式连接。处理器11与输入设备13之间,或者处理器11与显示器14之间,还可以通过无线的方式连接,例如,wi-fi、或者蓝牙等方式连接,在这种方式下,识别系统10还可以包括收发器,并通过该收发器接收输入设备13发送的交互内容,且通过收发器将输出的需要显示的内容发送到显示器14上显示。61.图2中示出的结构并不构成对该识别系统10的限定,除图2所示部件之外,该识别系统10可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。上述对识别系统10的描述也仅为示例性说明,并不构成对本实施例的限定。62.下面结合附图对本技术实施例提供的识别交互内容的方法进行描述。63.请参考图5,以手写识别场景为例,示出了本技术实施例提供的一种识别交互内容的方法的流程示意图,该方法可以由上述识别系统10来执行,具体地,可以由上述识别系统10中的处理器或者包含处理器的计算设备来执行。在该实施例中,假设识别系统10的结构是如图3所示的集成在一个设备上的情况。该识别交互内容的方法包括但不限于以下步骤:64.s301、获取第一交互内容。65.在该实施例中,第一交互内容包括手写的内容,该内容可以是手写的任意文字,图,表格,数学公式,或者音乐符号等,本技术对此不作限定。66.第一交互内容可以是用户通过手指或触摸笔在电子白板的触摸屏上手写的内容。在该场景下,识别系统可以通过触摸屏来采集用户的手写位置轨迹信息。67.第一交互内容还可以是书写在纸件、黑板等任意介质上的手写内容。在该场景下,识别系统可以通过电子白板的图像采集器来拍摄包括交互的手写内容的图像。68.可选地,在本步骤中,为了进一步提升用户的体验,识别系统还可以输出获取到的第一交互内容,具体地,输出到电子白板的显示器上显示。例如,将触控板上报的手写位置轨迹信息输出到显示器上显示,或者,将摄像头拍摄的包含手写内容的图像输出到显示器上显示,以便于用户直观地在电子白板的显示屏上看到第一交互内容。69.s302、识别第一交互内容,输出第一交互内容的第一识别结果到显示器。70.识别系统在获取到第一交互内容后,通过识别其中包含的手写笔迹的轨迹信息,进而得到识别结果并将其转化为标准的印刷格式。具体处理过程如下:71.首先,识别系统将第一交互内容输入识别模型中。其中,该识别模型可以是识别系统预先采用神经网络,或者其他机器学习算法训练得到的。识别系统输入到识别模型中的第一交互内容的格式,可以是识别系统通过触摸屏采集到的手写的位置轨迹信息,也可以是通过摄像头采集到的包含手写笔迹的图像,还可以是识别模型可以识别的其他格式,本技术对此不作限定。72.可选地,识别系统还可以在将待第一交互内容输入到识别模型之前,先对第一交互内容进行预处理,例如进行采样、平滑、去噪、去重和归一化等处理。通过该预处理可以摒弃无关的输入数据,以提升识别的速度和准确性。73.可选地,在实际应用中,如果识别系统需要识别文字、图、表或者数学符号、公式等多种类型的手写内容时,为了进一步提升识别的准确率,识别系统可以针对不同类型的手写内容训练多个不同的识别模型,例如文字识别模型,图识别模型等。在这种实现方式下,识别系统还可以先对第一交互内容进行预判断,得到其中包含的手写内容的类型,然后将其输入到对应类型的识别模型中进行识别;例如,如果判断第一交互内容中包含的手写类型为图,则将其输入到图识别模型中。74.然后,识别系统上的识别模型对输入的第一交互内容进行推理计算,输出对应的识别结果。通常情况下,识别模型输出的识别结果通常包含多个候选识别结果,以及每个候选结果的置信度。其中,识别结果的置信度通常是用来衡量该识别结果的真实性的程度,置信度越高,则该识别结果为真,即为正确的识别结果的可能性越大;反之则反。实际应用中,通常使用置信度值的高低来衡量置信度的高低;在有些实现方式下,置信度值越高,则代表置信度越高;而在有些方式下,可能置信度值越低,则代表置信度越高;这取决于系统的预定的规则。在本技术实施例中,置信度值越高,则其对应的置信度越高。75.最后,识别系统可以从上述多个候选识别结果中选择第一识别结果,例如,选择所述多个候选识别结果中置信度最高的候选识别结果作为第一识别结果,并将第一识别结果输出到显示器上显示。这样,用户可以直观地看到输出的第一识别结果。例如,在图6a所示的例子中,识别模型输出的多个候选识别结果中,“手鸟”的置信度值最高,则识别系统选择并输出到显示器上显示的第一识别结果为“手鸟”。此时,用户可以通过显示器看到第一交互内容的识别结果为“手鸟”。76.s303、当检测到用户对第一识别结果的纠错操作时,输出第一交互内容的第二识别结果和候选识别结果到显示器。77.识别系统在向用户呈现第一识别结果后,如果该第一识别结果不是用户期望的结果,通常会检测到用户的纠错操作。例如,在该实施例中,用户在看到第一交互内容的识别结果为“手鸟”时,通常会执行纠错操作。78.纠错操作可以是系统预定义的任意操作。例如,可以是让用户通过触摸屏对第一识别结果执行单击,双击,长按,圈选或者划除等操作,也可以是让用户通过指关节敲击触摸屏等操作。79.可选地系统预定义的纠错操作还可以其他多模态形式的输入操作,例如让用户通过语音采集器或者图像采集器等输入设备输入特定的语音、手势或者表情等。具体地,如,可以让用户通过语音助手输入“帮我纠错”,或者对着摄像头执行“摆手”,或者对着摄像头执行特定的某个表情等。80.可以理解的是,如果识别系统还包括鼠标,键盘,遥控器等其他的输入设备,则纠错操作也可以是让用户通过上述输入设备选中第一识别结果、再选择预定的“撤销”,“删除”,“擦除”或者“重写”等菜单。81.识别系统可以通过输入设备检测用户的操作,当检测到与上述预定义的纠错操作一致的操作时,则认为检测到了用户对上述第一识别结果的纠错操作,即用户对第一识别结果的负反馈。82.当识别系统检测到对第一识别结果的纠错操作时,即检测到用户对第一识别结果的负反馈时,因而可以判断第一识别结果并非是用户期望的结果,因而可以输出第二识别结果和候选识别结果到显示器,以便于用户确认自己期望的识别结果。具体地,识别系统可以从上述模型输出的多个候选识别结果中,选择一个置信度较高的候选识别结果作为第二识别结果,例如,选择置信度第二高的候选识别结果作为第二识别结果;并从上述模型输出的多个候选识别结果中选择一个或多个候选识别结果作为输出到显示器上的候选识别结果。可选地,识别系统输出到显示器上的候选识别结果可以是上述模型输出的多个候选识别结果中除第一识别结果和第二识别结果之外的一个或多个候选识别结果。例如,在图6a所示的例子中,置信度值第二高的候选识别结果为“手写”,因而系统可以输出“手写”到显示器,同时可以将除“手鸟”和“手写”之外的其他候选识别结果“手乌”,“手刍”和“手马”输出到显示器。可以理解的是,系统显示候选识别结果的方式,可以是以列表的形式呈现,也可以其其他的形式呈现,本技术对此不作限定。83.可选地,识别系统在输出第二识别结果到显示器显示时,可以直接将第二识别结果输出到第一识别结果的显示位置处,以直接替换第一识别结果,以免除用户的进一步操作,从而提升识别纠错的效率。84.可选地,当识别系统输出第二识别结果到显示器上显示时,可以以待确认的状态来显示,例如,在第二识别结果的附近同时显示闪烁的光标,或者为第二识别结果显示背景等,当在预定的时间内没有检测到用户选择上述候选识别结果中的内容的操作时,则将第二识别结果的显示模式切换为确认状态。其中,识别系统以待确认状态显示第二识别结果,表示第二识别结果当前处于可编辑的状态,并不是系统最终确认的结果。待确认状态的显示方式可以是系统预定义的其他方式,本技术对此不作限定。85.s304、在检测用户选择候选识别结果中的第三识别结果时,输出第三识别结果到显示器。86.如前述,第二识别结果可能仍然不是用户期望的结果,在这种情况下,识别系统通常会检测到用户选择候选识别结果中的某个识别结果,例如,第三识别结果“手马”。此时,可以认为用户选择的该第三识别结果“手马”才是用户期望的识别结果,因而,识别系统可以将第三识别结果输出到显示器上显示。具体地,可以将第三识别结果输出显示在上述第二识别结果的显示位置处,从而直接替换第二识别结果,以免除用户的进一步操作,从而提升识别纠错时交互的效率。87.可选地,识别系统可以预设时间阈值,在显示候选识别结果后,如果在预设的时间阈值之内,检测到用户选择第三识别结果时,则执行上述输出第三识别结果的动作。否则,如果在预设的时间阈值内,没有检测到用户选择第三识别结果,则认为第二识别结果是用户期望的识别结果,在这种情况下,可以停止输出候选识别结果到显示器,即,候选识别结果从显示器上消失;可选地,此时还可以将第二识别结果的显示模式从确认状态切换为确认状态。88.s305、根据第一交互内容的纠错信息对与第一交互内容相同或相似的第二交互内容进行纠错。89.第一交互内容的纠错信息可以包括第一交互内容,以及第一交互内容的经用户确认过的正确识别结果,和/或第一交互内容的经用户确认过的错误识别结果。例如,在该实施例中,第一交互内容的纠错信息可以包括:第一交互内容的纠错信息可以包括第一交互内容本身,以及经用户确认过的正确识别结果“手写”,和/或经用户确认过的错误识别结果“手鸟”。90.与第一交互内容相同或相似的第二交互内容可以是第一交互内容的上文内容,即,在获取并识别第一交互内容之前已经完成识别的交互内容;与第一交互内容相同或相似的第二交互内容还可以是第一交互内容的下文内容,即,在完成第一交互内容的识别之后,后续获取到的交互内容。91.识别系统可以根据第一交互内容的纠错信息自动对第二交互内容纠错,这是因为,通常情况下,识别模型识别错误的内容具有历史相似性,前面识别错误的内容,下次很可能还是识别错误。而在实时性要求较高的场景中,用户可能没有对所有识别出错的内容进行及时纠正。此时,当识别系统在获取第一交互内容的纠错信息后,可以自动对已经上文识别的内容进行检查(假设存在上文),如果上文中存在与第一交互内容相同的第二交互内容,则采用经确认的第一交互内容的正确结果纠正所述相同交互内容的原来的识别结果。例如,在该实施例中,如果之前还存在与第一交互内容相同的、且已经完成识别的识别内容,识别系统可以检测其识别结果是否为用户确认过的正确识别结果“手写”,如果不是,可以采用该正确的识别结果“手写”来纠正其识别结果。此外,识别系统还可以根据所述确认的正确识别结果纠错上文相似的第二交互内容,例如,如果用户在前面手写的“1、”被错误识别成了“人”,且没有被及时纠错;然后,用户书写“2、”被错误识别成了“不”,用户对“2、”的识别结果进行了纠错,且确认的纠错结果为“2、”,此时,识别系统可以自动对前文的识别结果“人”进行自动纠错为“1、”。92.可选地,识别系统可以保存第一交互内容的纠错信息,当下文(即,后续)在获取到与第一交互内容相同或相似的第二交互内容时,可以直接将用户确认的正确的识别结果作为第一识别结果。93.可选地,识别系统可以保存第一交互内容的纠错信息,当下文(即,后续)在获取到与第一交互内容相同或相似的第二交互内容时,也可以在输出第二交互内容的第一识别结果到显示器之前,可以根据第一交互内容的纠错信息,对第二交互内容多个候选识别结果的置信度进行调整。具体地,如果第二交互内容的候选识别结果中包含接收到过用户负反馈操作的识别结果,即经用户确认过的错误的识别结果,例如该实施例中的第一识别结果“手鸟”,则可以调低第一识别结果“手鸟”的置信度。对于接收到负反馈操作的识别结果,为了能得到正确结果,识别系统可以选择让该识别结果的置信度快速下降。例如,将该识别结果的置信度下降较大的幅度。94.进一步地,如果第二交互内容的候选识别结果中包含接收到过用户正反馈操作的识别结果,即经用户确认过的正确的识别结果,例如该实施例中的第二识别结果“手写”,则可以调高正确的识别结果“手写”的置信度。可选地,可以小幅强化第一识别结果的置信度,例如,将第一识别结果的置信度增大较小的幅度。95.在上述思想下,第二交互内容的候选识别结果的置信度可以按照如下的公式来调整:96.c′=θc+(1-θ)(cγ+β)ꢀꢀꢀꢀ(1)97.c′=θc+(1-θ)(cγ-β)ꢀꢀꢀꢀ(2)98.其中,公式(1)可以应用于收到过正反馈操作的候选识别结果的置信度的调整,公式(2)应用于收到过负反馈操作的候选识别结果的置信度的调整。99.在上述公式中,c′是调整后的置信度,c是调整之前的置信度;参数θ是衰减率,其取值越大表示收到正反馈时置信度增大,以及收到负反馈时置信度减小的速度越慢;γ和β是常量,其取值与置信度和具体业务有关。例如,如果置信度的最高值为100,β可以取小于100的任何数,γ的取值则满足β+100γ=100。请参考图7a和图7b,是基于公式(1)和(2)得到的置信度的调整变化曲线。具体地,图7a是识别系统接收到某个识别结果的4次正反馈和1次负反馈时的置信度调整曲线,图7b是识别系统接收到某个识别结果的99次正反馈和1次负反馈时的置信度调整曲线。可以看出,对于收到过正反馈操作的识别结果的置信度缓慢上升,而对于接收到过负反馈的识别结果的置信度会快速下降。100.需要说明的是,上述公式(1)和(2)仅为实现调整第一识别结果的置信度的一种示例。在实际应用中,根据业务类型、识别模型、或者用户的使用习惯等实际特征,第一识别结果的调整方式还可能是其他的实现方式。101.可以理解的是,上述根据第一交互内容的纠错信息调整第二交互内容的候选识别结果的置信度的过程,也可以应用在检测到用户对第二交互内容的第一识别结果的纠错操作时,即,当识别系统检测到用户对第二识别内容的第一识别结果的纠错操作时,可以按照上述的过程调整候选识别结果中包含的收到过用户正反馈和/或负反馈操作的识别结果的置信度,经过该调整后,再从候选识别结果中选择置信度最高的识别结果作为第二识别结果。置信度可选地,识别系统还可以将没有收到过用户纠错操作的第一识别结果作为接收到用户正反馈操作的识别结果。例如,在实际应用中,当第一识别结果识别正确,例如,一定时间内没有检测到用户对第一识别结果的纠错操作,即识别系统可以认为该第一识别结果为接收到用户的正反馈操作的识别结果。此时,该第一识别结果也可以通过上述类似的方式,应用在下文的纠错中。102.可选地,识别系统还可以记录检测到的用户的操作类型,例如,上述的正负反馈操作,操作时长,该操作对应的交互内容,以及第一识别结果等信息,这些信息可以在更新或者重新训练识别模型时,可以将上述信息作为模型更新或者重新训练的一种特征,这样,更新或者重新训练后的模型可以在首次就得到经用户确认过的正确的识别结果。因此,本技术可以利用上述这些信息进一步提升识别模型的准确率。103.上述描述可知,在该实施例中,识别系统在识别第一交互内容得到第一识别结果后,直接输出第一识别结果到显示器,这样,当第一识别结果是用户期望的结果时,则无需用户进一步的操作,因而识别时交互的效率较高;而当识别系统检测到用户第一识别结果的纠错操作时,直接以第二识别结果替换显示第一识别结果,同时显示候选识别结果,这样,当第二识别结果是用户期望的结果时,无需用户的进一步操作,即便第二识别结果不是用户期望的结果,用户也可以从直接从候选识别结果中选择自己期望的第三识别结果。因此,在识别出错的情况下,本技术提供的识别交互内容的方法也可以实现快速纠错,提升识别时交互的效率和用户的体验。104.此外,本技术还能够根据用户对第一识别内容的纠错信息自动对上文纠错,可以进一步提升识别系统纠错的效率;并且,本技术还能够根据所述纠错信息自动对下文纠错,以进一步提升识别系统的识别的准确率。105.本技术提供的识别交互内容的方法,除了可以应用在上述手写识别的场景中之外,还可以应用在语音识别,或者基于语音的意图识别等场景。下面以基于语音的意图识别,例如,通过语音执行打电话的场景为例,对图5所示的识别交互内容的方法进行简要描述。106.在s301中,第一交互内容为语音内容,识别系统可以通过语音采集器获取第一交互内容。在该实施例中,假设第一交互内容对应的内容为“连接李玉荣”。107.在s302中,识别系统可以采用asr(automatic speech recognition,自动语音识别)技术识别第一交互内容对应的语音内容,将其转化为文本,假设该识别得到的第一识别结果为“连接李玉龙”;接着,识别系统可以采用nlu(natural language understanding,自然语言理解)技术提取上述文本的意图、槽位信息,明白是要打电话给李玉龙;最后识别系统可以采用dm(dialog management,对话管理)技术根据意图、槽位信息执行具体动作,即,连接李玉龙。并且,识别系统会将拨打电话给李玉龙的操作输出到显示器上显示,让用户知道,识别系统正在执行用户的语音指令。108.在s303中,如果用户对识别系统执行的结果不满意,则识别系统会在短时间内获取到用户退出该执行过程或者重新唤醒语音的操作,即接收到用户的负反馈信号。例如,在该实施例中,第一交互内容中的“李玉荣”被识别成“李玉龙”,dm执行拨打电话给李玉龙的操作,在执行拨打操作后用户立即挂断,这时识别系统会获取到用户的负反馈操作,即纠错操作。将候选识别结果中置信度次高的识别结果作为第二识别结果,并输出第二识别结果和候选识别结果到显示器。如图6b所示,在该实施例中,置信度次高的识别结果为“连接李玉荣”。因此,识别系统可以输出该第二识别结果“连接李玉荣”,同时显示候选识别结果“连接李玉农”、“连接李玉如”。可选地,系统可以执行呼叫李玉荣的操作。109.可以理解的是,在该实施例中,如果第一交互内容中的“李玉荣”被正确识别,dm执行拨打电话给李玉荣的操作,在预定的时间内没有接收到用户的主动挂断的操作,则识别系统认为接收到用户的正反馈信号。110.在s304中,同样,如果用户选择候选识别结果中的第三识别结果时,例如“连接李玉如”,则说明第二识别结果“连接李玉荣”仍然不是用户期望的结果,则输出用户选择的第三识别结果到显示器;可选地,识别系统可以执行呼叫李玉如的操作。111.在s305中,在该实施例的场景中,不存在上文,因此不需要根据第一交互内容的纠错信息对上文纠错,但可以根据该纠错信息对下文纠错。例如,当识别系统下次再次获取到第二交互内容,例如“连接李玉荣”的语音指令时,在识别该指令的意图时,可以根据上述纠错信息调整识别结果的置信度,从而提升识别的准确率。具体地,如果该第二交互内容的候选识别结果中包含“连接李玉龙”,因为该识别结果为接收到过用户负反馈操作的识别结果,因此,可以调低该识别结果的置信度。进一步地,如果该第二交互内容的候选识别结果中包含“连接李玉荣”,因而该识别结果是接收到过用户正反馈操作的识别结果,因此,可以调高该识别结果的置信度。112.可以理解的是,本技术提供的上述识别交互内容的方法,也可以应用在其他语音识别的场景,例如,在根据采集到的会场上的语音生成会议纪要的场景中。在该场景下,可以利用第一交互内容的纠错信息对上文和下文中相同或相似的交互内容进行联想纠错。113.上述主要从方法的角度对本技术实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。114.本技术实施例还提供一种识别装置,该识别装置可以是包括图2中识别系统中的处理器11和存储器12的计算设备,且可以用于执行上述图5所示的识别交互内容的方法。如图8所示,为该识别装置对应的实体结构示意图,该识别装置可以包括处理器601,存储器602。存储器602用于存储数据、指令或者程序代码。处理器601调用并执行存储器602中存储的指令或程序代码时,能够执行图5所示的识别交互内容的方法。115.存储器602和处理器601的其他方面的描述可以参考前文在介绍识别系统10时,对存储器12和处理器11的描述,在此不再赘述。116.可以理解的是,本技术中的识别装置还可能包括其他的模块,例如,可以包括外设接口。其中,外设接口包括但不限于usb,hdmi,网口(可以是有线网口,或者无线网口)等。识别装置通过外设接口与其他装置进行数据交互。具体地,识别装置可以通过外设接口获取其他装置提供的数据并将其送到处理器上进行处理,例如,获取第一和第二交互内容,以及用户的操作数据等。或者,识别装置通过外设接口将处理器输出的数据传递到其他装置上,例如,将第一识别结果输出到显示器上显示等。117.此外,可以根据上述识别交互内容的方法示例对上述识别装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本技术实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。118.如图9所示,为本技术实施例提供的一种识别装置的逻辑功能示意图,该识别装置用于执行图5所示的识别交互内容的方法。该识别装置包括获取单元701,处理单元702以及输出单元703。其中,119.接收单元701用于接收第一交互内容,以及用于接收用户的操作信息。120.处理单元702用于识别第一交互内容;还用于在确定所述接收单元701接收的用户操作为对识别出的第一识别结果的纠错操作时,确定所述第一交互内容的第二识别结果,以及至少一个候选识别结果。121.输出单元703用于在所述处理单元702识别所述第一交互内容之后,输出上述第一识别结果,还用于在处理单元702获取第一交互内容的第二识别结果,以及至少一个候选识别结果之后,输出第二识别结果以及至少一个候选识别结果到显示器。122.可选地,输出单元703在输出第二识别结果到显示器时,可以设置第二识别结果的显示位置与第一识别结果的显示位置一致。123.可选地,处理单元702还用于确定接收单元701接收的用户操作是否为选择上述候选识别结果中的第三识别结果的操作;输出单元703还用于在处理单元702确定所述接收单元接收的用户操作信息为选择上述候选识别结果中的第三识别结果时,输出该第三识别结果到显示器。可选地,输出单元703在输出第三识别结果到显示器时,可以设置第三识别结果的显示位置与第二识别结果的显示位置一致。124.可选地,输出单元703在输出第二识别结果到显示器时,具体用于:设置第二识别结果的显示模式为待确认状态;当在输出第二识别结果、以及候选识别结果到显示器后的预定时间内,处理单元702确定没有选择上述候选识别结果中的第三识别结果的用户操作时,切换第二识别结果的显示模式到确认状态。125.可选地,处理单元702在识别第一交互内容时,具体用于:识别第一交互内容得到多个候选识别结果,以及该多个候选识别结果中每个候选识别结果的置信度;输出单元703在输出第一识别结果时,具体用于:输出所述处理单元702识别得到的多个候选识别结果中置信度最高的候选识别结果。126.可选地,处理单元702在获取第二识别结果,以及至少一个候选识别结果时,具体用于:从上述多个候选识别结果中选择置信度第二高的候选识别结果作为所述第二识别结果,并从所述多个候选识别结果中选择至少一个候选识别结果作为所述候选识别结果。可选地,处理单元702还用于根据第一交互内容的纠错信息对上下文中的第二交互内容进行纠错。127.关于上述各个功能单元执行图5所示的识别交互内容的方法时的具体描述参见前述的方法实施例,此处不再赘述。此外,上述提供的任一种识别装置的解释以及有益效果的描述均可参考上述对应的方法实施例,不再赘述。128.本技术另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当指令在识别系统或者识别装置上运行时,该识别系统或者识别装置执行上述方法实施例所示的方法流程中识别系统或者识别装置执行的各个步骤。129.在一些实施例中,所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。130.图10示意性地示出本技术实施例提供的计算机程序产品的概念性局部视图,所述计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。131.在一个实施例中,计算机程序产品是使用信号承载介质80来提供的。所述信号承载介质80可以包括一个或多个程序指令,其当被一个或多个处理器运行时可以提供以上针对图5描述的功能或者部分功能。因此,例如,参考图5中s301~s306的一个或多个特征可以由与信号承载介质80相关联的一个或多个指令来承担。此外,图10中的程序指令也描述示例指令。132.在一些示例中,信号承载介质80可以包含计算机可读介质81,诸如但不限于,硬盘驱动器、紧密盘(cd)、数字视频光盘(dvd)、数字磁带、存储器、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等等。133.在一些实施方式中,信号承载介质80可以包含计算机可记录介质82,诸如但不限于,存储器、读/写(r/w)cd、r/w dvd、等等。134.在一些实施方式中,信号承载介质80可以包含通信介质83,诸如但不限于,数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路、等等)。135.信号承载介质80可以由无线形式的通信介质83(例如,遵守ieee 802.11标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令可以是,例如,计算机可执行指令或者逻辑实施指令。136.在一些示例中,诸如针对图2描述的识别系统或者针对图8-图9描述的识别装置可以被配置为,响应于通过计算机可读介质81、计算机可记录介质82、和/或通信介质83中的一个或多个程序指令,提供各种操作、功能、或者动作。137.应该理解,这里描述的布置仅仅是用于示例的目的。因而,本领域技术人员将理解,其它布置和其它元素(例如,机器、接口、功能、顺序、和功能组等等)能够被取而代之地使用,并且一些元素可以根据所期望的结果而一并省略。另外,所描述的元素中的许多是可以被实现为离散的或者分布式的组件的、或者以任何适当的组合和位置来结合其它组件实施的功能实体。138.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本技术实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。139.以上所述,仅为本技术的具体实施方式。熟悉本技术领域的技术人员根据本技术提供的具体实施方式,可想到变化或替换,都应涵盖在本技术的保护范围之内。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部