计算;推算;计数设备的制造及其应用技术1.本技术涉及票据识别技术领域,具体而言,涉及一种跨场景票据识别方法、装置、设备和存储介质。背景技术:2.在目前的票据识别领域,票据识别方法及装置均根据特定领域中逻辑展开识别的,比如增值税票据领域的票据识别方法只针对识别增值税这一种票据,各领域的票据识别方法大同小异,均是针对本领域的发票进行设计的,这些票据识别方法及装置一个共同的问题在于方法不能复用,不能识别多种票据,针对性太强,适用性较低。因此,需要一种能够识别多种票据,适用性较高的方法。技术实现要素:3.本技术的主要目的在于提供一种跨场景票据识别方法、装置、设备和存储介质,以解决相关技术中不能识别多种票据,针对性太强,适用性较低的问题。4.为了实现上述目的,第一方面,本技术提供了一种跨场景票据识别方法,其特征在于,包括:获取训练票据图像及其标签,所述标签为标准票据内容;对所述训练票据图像进行像素识别,获取所述训练票据图像的训练特征向量;所述训练票据图像机器标签均至少包括两种,所述训练特征向量包括至少两种,所述至少两种所述训练特征向量构成一个训练特征向量集;根据所述训练特征向量和所述训练票据图像的所述标签,训练机器学习分类模型;获取现场票据图像;对所述现场票据图像进行像素识别,获取所述现场票据图像的现场特征向量;通过所述机器学习分类模型将所述现场特征向量与所述训练特征向量特征集中的所有所述训练特征向量进行比对,获得比对结果。5.进一步地,对所述训练票据图像进行像素识别,获取获取所述训练票据图像的训练票据特征向量包括:对所述训练票据图像进行降噪处理、倾斜度矫正和二值化处理,获得预处理图像;识别所述预处理图像中的文字区域,对所述文字区域进行分类处理,并将连续的一段文字注意分割成单个训练字段;逐一提取每个所述训练字段的训练字段特征向量;将每个训练字段特征向量输入字段分类器,获得所述预处理图像中的文字识别结果;通过语言模型分析所述预处理图像中的文字识别结果的语言上下文关系,矫正所述文字分类器输出的文字识别结果,获得所述训练票据特征向量。6.进一步地,对所述训练票据图像进行像素识别,获取所述训练票据图像的所述训练票据特征向量,包括:对所述训练票据图像进行像素识别,获得所述训练票据图像的票据类型、票据号码、票据代码、开票日期、供应商名称、供应商纳税人识别号、票据金额和票据税额;对所述训练票据图像的票据类型、票据号码、票据代码、开票日期、供应商名称、供应商纳税人识别号、票据金额和票据税额进行处理,生成所述训练票据特征向量。7.进一步地,对所述训练票据图像的票据类型、票据号码、票据代码、开票日期、供应商名称、供应商纳税人识别号、票据金额和票据税额进行处理,生成所述训练票据特征向量,包括:对所述票据类型和所述供应商名称分别进行量化表示;对所述票据金额和所述票据税额进行离散化表示。8.进一步地,将所述训练票据图像、所述训练票据特征向量、标签存储至区块链中的历史票据库;将所述现场票据图像、所述现场特征向量、票据识别结果存储至所述训练票据库,以更新所述训练票据库。9.进一步地,将所述训练票据图像、所述训练票据特征向量、标签存储至区块链中的训练票据库;将所述现场票据图像、所述现场特征向量、票据识别结果存储至所述训练票据库,以更新所述训练票据库。10.进一步地,根据所述训练票据特征向量,获得所述训练票据图像对应的训练对象信息;根据所述训练对象信息获得训练对象特征向量;根据所述训练票据图像及其标签,确定所述训练对象特征向量的标注,所述标注为未具有虚开票据行为或具有虚开票据行为;根据所述训练对象特征向量及其标注,训练机器学习预测模型;获取现场对象信息;根据所述现场对象信息提取现场对象的现场对象特征向量;通过所述机器学习预测模型对所述现场对象特征向量进行处理,获得所述现场对象的对象预测结果,其中所述对象预测结果为未具有虚开票据行为或具有虚开票据行为。11.进一步地,本发明还提供一种跨场景票据识别装置,包括: 训练票据信息获取单元,用于获取训练票据图像及其标签,所述标签为标准票据内容; 训练票据向量获取单元,用于对所述训练票据图像进行像素识别,获取所述训练票据图像的训练票据特征向量;机器分类模型训练单元,用于根据所述训练票据特征向量和所述训练票据图像对应的标签,训练机器学习分类模型;现场票据图像获取单元,用于获取现场票据图像;现场票据向量获取单元,用于对所述现场票据图像进行像素识别,获取所述现场票据图像的现场票据特征向量;票据识别结果获得单元,用于通过所述机器学习分类模型对所述现场票据特征向量进行处理,获得所述现场票据图像的票据识别结果,其中所述票据识别结果为一种标准票据内容。12.进一步地,本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述的跨场景票据识别方法。13.进一步地,一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的跨场景票据识别方法。14.本发明具有如下的有益效果:使用多种训练票据图像训练出多个训练特征向量构成一个训练特征向量集,每个训练特征向量针对识别一种票据,在识别现场票据图像过程中,通过提取现场票据中的现场特征向量,然后比对现场特征向量与训练特征向量集中的所有训练特征向量,找出与现场特征向量相等的训练特征向量,此训练特征向量的标签就是对训练票据图像的识别结果。训练特征向量集中有多少数量的训练特征向量,此方法就能识别多少种票据。附图说明15.构成本技术的一部分的附图用来提供对本技术的进一步理解,使得本技术的其它特征、目的和优点变得更明显。本技术的示意性实施例附图及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:图1是根据本技术实施例提供的跨场景票据识别方法的流程图;图2是根据本技术实施例提供的跨场景票据识别装置的结构示意图;图3是根据本技术实施例提供的跨场景票据识别设备的结构示意图。具体实施方式16.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。17.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。18.另外,术语“多个”的含义应为两个以及两个以上。19.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。20.参考图1,在本发明的一实施例中的跨场景票据识别方法,包括:步骤s101,获取训练票据图像及其标签,所述标签为标准票据内容;步骤s102,对所述训练票据图像进行像素识别,获取所述训练票据图像的训练票据特征向量;所述训练票据图像机器标签均至少包括两种,所述训练特征向量包括至少两种,所述至少两种所述训练特征向量构成一个训练特征向量集;步骤s103,根据所述训练特征向量和所述训练票据图像的所述标签,训练机器学习分类模型;步骤s104,获取现场票据图像;步骤s105,对所述现场票据图像进行像素识别,获取所述现场票据图像的现场特征向量;步骤s106,通过所述机器学习分类模型将所述现场特征向量与所述训练票据特征向量特征集中的所有所述训练特征向量进行比对,获得比对结果。21.在本发明的一实施例中,所述特征向量集存在一个专用的数据库中,在对进行比对时调用数据库中的训练特征向量集,对特征向量集中的所有训练特征向量进行逐条扫描并逐条与现场票据图像中采集到的现场特征向量进行对比,直至找出与现场特征向量相等的那一训练特征向量,此训练特征向量所对应的标签即是识别结果——现场票据图像的内容。在本实施例中,上述专用的数据库内存有多种数据向量集对应识别不同种类的训练票据图像或现场票据图像。22.一种跨场景票据识别方法,包括:获取训练票据图像及其标签,所述标签为标准票据内容;对所述训练票据图像进行像素识别,获取所述训练票据图像的训练特征向量;所述训练票据图像机器标签均至少包括两种,所述训练特征向量包括至少两种,所述至少两种所述训练特征向量构成一个训练特征向量集;根据所述训练特征向量和所述训练票据图像的所述标签,训练机器学习分类模型;获取现场票据图像;对所述现场票据图像进行像素识别,获取所述现场票据图像的现场特征向量;通过所述机器学习分类模型将所述现场特征向量与所述训练特征向量特征集中的所有所述训练特征向量进行比对,获得比对结果。23.获取训练票据图像,该阶段在建立模型前需要准备数据并做预处理。在预处理时要定义识别字段分配给有关的信息,如挖掘类型和特定的控制字段。在分类和回归技术中用的训练阶段还要有一个确认处理,称确认阶段,作为数据挖掘分类和回归技术训练阶段的一部分。它给数据挖掘模型输入另外的数值组,可作为测试阶段 的描述,其结果作为实例以决定运算法则结束时间。24.像素识别,在本实施例中主要使用像素识别法识别出训练票据图像中的文字,识别出训练具体而言包括以下步骤:1)图像采集图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。25.2)图像增强图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。26.3)图像复原图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。27.4)图像编码与压缩数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准jpeg,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。28.5)图像分割技术图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。29.图像识别将图像处理得到的图像进行特征提取和分类。识别方法中基本的也是常用的方法有统计法(或决策理论法)、句法(或结构)方法、神经网络法、模板匹配法和几何变换法。30.在本实施例中,在对训练票据图像进行图像识别后,对训练票据图像中对应文字部分的每个文字建立模式识别,将建立的模式与标准字库中的文字进行比对,进而识别出训练票据图像中所有的文字。之后在对所有文字的顺序进阿里特征向量表征文字的意思。具体过程包括:对所述训练票据图像进行降噪处理、倾斜度矫正和二值化处理,获得预处理图像;识别所述预处理图像中的文字区域,对所述文字区域进行分类处理,并将连续的一段文字注意分割成单个训练字段;逐一提取每个所述训练字段的训练字段特征向量;将每个训练字段特征向量输入字段分类器,获得所述预处理图像中的文字识别结果;通过语言模型分析所述预处理图像中的文字识别结果的语言上下文关系,矫正所述文字分类器输出的文字识别结果,获得所述训练票据特征向量。对所述训练票据图像进行像素识别,获得所述训练票据图像的票据类型、票据号码、票据代码、开票日期、供应商名称、供应商纳税人识别号、票据金额和票据税额;在本实实施例中,对所述训练票据图像的票据类型、票据号码、票据代码、开票日期、供应商名称、供应商纳税人识别号、票据金额和票据税额进行处理,生成所述训练票据特征向量。对所述训练票据图像的票据类型、票据号码、票据代码、开票日期、供应商名称、供应商纳税人识别号、票据金额和票据税额进行处理,生成所述训练票据特征向量,包括:对所述票据类型和所述供应商名称分别进行量化表示;对所述票据金额和所述票据税额进行离散化表示。将所述训练票据图像、所述训练票据特征向量、标签存储至区块链中的历史票据库;将所述现场票据图像、所述现场特征向量、票据识别结果存储至所述训练票据库,以更新所述训练票据库。将所述训练票据图像、所述训练特征向量、标签存储至区块链中的训练票据库;将所述现场票据图像、所述现场特征向量、票据识别结果存储至所述训练票据库,以更新所述训练票据库。31.根据所述训练票据特征向量,获得所述训练票据图像对应的训练对象信息;根据所述训练对象信息获得训练对象特征向量;根据所述训练票据图像及其标签,确定所述训练对象特征向量的标注,所述标注为未具有虚开票据行为或具有虚开票据行为;根据所述训练对象特征向量及其标注,训练机器学习预测模型;获取现场对象信息;根据所述现场对象信息提取现场对象的现场对象特征向量;通过所述机器学习预测模型对所述现场对象特征向量进行处理,获得所述现场对象的对象预测结果,其中所述对象预测结果为未具有虚开票据行为或具有虚开票据行为。32.本发明还公开了一种跨场景票据识别装置,参见附图2所示的一种跨场景票据识别装置的结构示意图;该装置包括:训练票据信息获取单元21,用于获取训练票据图像及其标签,所述标签为标准票据内容;训练票据向量获取单元22,用于对所述训练票据图像进行像素识别,获取所述训练票据图像的训练票据特征向量;机器分类模型训练单元23,用于根据所述训练票据特征向量和所述训练票据图像对应的标签,训练机器学习分类模型;现场票据图像获取单元24,用于获取现场票据图像;现场票据向量获取单元25,用于对所述现场票据图像进行像素识别,获取所述现场票据图像的现场票据特征向量;票据识别结果获得单元26,通过所述机器学习分类模型将所述现场特征向量与所述训练票据特征向量特征集中的所有所述训练特征向量进行比对,获得比对结果。33.第三方面,本发明还公开了一种电子设备,参见附图3所示的电子设备的结构示意图;包括至少一个处理器31和至少一个存储器32;所述存储器32用于存储一个或多个程序指令;所述处理器31,用于运行一个或多个程序指令,用以执行上述任意一项的方法。34.第四方面,本技术还提出了一种计算机可读存储介质,计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行上述任一项所述的方法。35.可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。36.存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。37.其中,非易失性存储器可以是只读存储器(read-only memory,简称rom)、可编程只读存储器(programmable rom,简称prom)、可擦除可编程只读存储器(erasable prom,简称eprom)、电可擦除可编程只读存储器(electrically eprom,简称eeprom)或闪存。38.易失性存储器可以是随机存取存储器(random access memory,简称ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,简称sram)、动态随机存取存储器(dynamic ram,简称dram)、同步动态随机存取存储器(synchronous dram,简称sdram)、双倍数据速率同步动态随机存取存储器(double data ratesdram,简称ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,简称esdram)、同步连接动态随机存取存储器(synchlink dram,简称sldram)和直接内存总线随机存取存储器(directrambus ram,简称drram)。39.本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。40.本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。41.以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
跨场景票据识别方法、装置、设备和存储介质与流程
作者:admin
2022-08-23 18:07:41
994
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术
- 下一篇: 一种用于处理低挥发分焦炭的环保气化装置
- 上一篇: 用于执行体内外科手术的外科系统的制作方法