发布信息

图像处理装置、图像处理方法和计算机可读存储介质与流程

作者:admin      2022-09-02 16:47:11     715



计算;推算;计数设备的制造及其应用技术1.本公开涉及图像处理领域,具体涉及一种图像处理装置、图像处理方法和计算机可读存储介质。背景技术:2.对涉及诸如证件、文档等的对象的图像的自动分类可以帮助人们快速地从这样的图像中提取有效信息,从而节省人力,提高效率。然而,由于诸如证件、文档等的对象的多样性,对包括这样的对象的图像进行自动分类是十分具有挑战性的工作。因此,需要一种可以有效地对输入图像进行分类以获得输入图像所涉及的对象的类别的技术。技术实现要素:3.在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。4.鉴于以上问题,本公开的目的是提供一种图像处理装置、图像处理方法和计算机可读存储介质,其至少使得可以有效地对输入图像进行分类,以获得表示输入图像所涉及的对象的类别的最终分类结果。5.根据本公开的一方面,提供了一种图像处理装置,包括:特征提取单元,被配置成提取输入图像的特征;文本检测单元,被配置成基于通过所述特征提取单元所提取的所述特征检测所述输入图像中的文本;语种识别单元,被配置成识别所述文本检测单元所检测到的文本的语种;文本识别单元,被配置成基于所述语种识别单元的识别结果来识别所检测到的所述文本,以获得至少一个字符串集合;以及第一分类单元,被配置成通过将所述至少一个字符串集合和预定字符串集合进行匹配,来对所述输入图像进行分类,以获得表示所述输入图像所涉及的对象的类别的第一分类结果,以供获取所述对象的类别的最终分类结果。6.根据本公开的另一方面,提供了一种图像处理方法,包括:特征提取步骤,用于提取输入图像的特征;文本检测步骤,用于基于通过所述特征提取步骤所提取的所述特征检测所述输入图像中的文本;语种识别步骤,用于识别通过所述文本检测步骤所检测到的文本的语种;文本识别步骤,用于基于通过所述语种识别步骤所获取的识别结果来识别所检测到的所述文本,以获得至少一个字符串集合;以及第一分类步骤,用于基于所述识别结果和所述至少一个字符串集合对所述输入图像进行分类,以获得表示所述输入图像所涉及的对象的类别的第一分类结果,以供获取所述对象的类别的最终分类结果。7.根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品,以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。8.在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。附图说明9.本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:10.图1是示出根据本公开的实施例的图像处理装置的功能配置示例的框图;11.图2是示出根据本公开的实施例的语种识别单元的功能配置示例的框图;12.图3是示出根据本公开的实施例的第一分类单元所执行的字符串匹配处理的流程示例的流程图;13.图4是示出根据本公开的另外的实施例的图像处理装置的功能配置示例的框图;14.图5是示出根据本公开的另外的实施例的图像处理装置的一种具体实现方式的架构示例的框图;15.图6a至图6c是示出利用基于图注意力网络(graph attention network:gat)的分类模型所进行的融合处理的原理的示意图;16.图7是示出根据本公开的另外的实施例的图像处理装置的一种具体实现方式的架构示例的框图;17.图8是示出根据本公开的实施例的图像处理方法的流程示例的流程图;18.图9是示出根据本公开的另外的实施例的图像处理方法的流程示例的流程图;以及19.图10是示出作为本公开的实施例中可采用的个人计算机的示例结构的框图。具体实施方式20.在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。21.在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。22.下面结合附图详细说明根据本公开的实施例。23.首先,将参照图1描述根据本公开的实施例的图像处理装置100的实现示例。图1是示出根据本公开的实施例的图像处理装置100的功能配置示例的框图。24.如图1所示,根据本公开的实施例的图像处理装置100可以包括特征提取单元102、文本检测单元104、语种识别单元106、文本识别单元108和第一分类单元110。25.特征提取单元102可以被配置成提取输入图像的特征。例如,特征提取单元102可以采用resnet-50作为特征提取网络来提取输入图像的特征,然而特征提取单元102还可以采用其他合适的特征提取网络来提取输入图像的特征,这里将不再赘述。26.文本检测单元104可以被配置成基于通过特征提取单元102所提取的特征检测输入图像中的文本。例如,文本检测单元104可以检测输入图像中的文本的存在与否以及/或者文本的位置。比如,文本检测单元104可以采用基于可微分二值化(differentiable binarization)的文本检测方法(例如,参见aaai-2020,《real-time scene text detection with differentiable binarization》)来检测输入图像中的文本的位置。文本的位置可以通过对应的文本框的位置坐标来表示。27.语种识别单元106可以被配置成识别文本检测单元104所检测到的文本的语种。例如,语种识别单元106可以采用基于图块的卷积神经网络(patch-based cnn)方法,将文本检测单元104所检测到的每个文本框划分为多个图像块,然后分别对每个图像块进行语种识别,最后投票得到最终的语种识别结果。也就是说,对于某个文本框,可以将所对应的图像块的数目最多的语种作为该文本框的语种识别结果。例如,在某个文本框被划分为3个图像块、并且其中2个图像块的语种为第一语种(例如,中文)而其中1个图像块的语种为第二语种(例如,英文),则可以将第一语种作为该文本框的语种识别结果。28.下面将参照图2对根据本公开的实施例的语种识别单元106的功能配置示例进行描述。图2是示出根据本公开的实施例的语种识别单元106的功能配置示例的框图。29.例如,如图2所示,语种识别单元106可以包括文本框划分子单元1062、特征提取子单元1064和分类子单元1068。30.文本框划分子单元1062可以被配置成将每个文本框划分为多个图像块。特征提取子单元1064可以被配置成提取每个图像块的特征。分类子单元1068可以被配置成基于每个图像块的特征对图像块进行分类,以获得每个图像块所对应的语种,从而得到每个文本框的语种识别结果。31.例如,如图2所示,语种识别单元106还可以包括特征处理子单元1066,被配置成对特征提取子单元1064所提取的每个图像块的特征进行处理,以获得经处理的特征。在这种情况下,分类子单元1068可以被配置成基于经由特征处理子单元1066所获得的每个图像块的经处理的特征对图像块进行分类。32.文本识别单元108可以被配置成基于语种识别单元106的识别结果来识别所检测到的文本,以获得至少一个字符串集合。例如,文本识别单元108可以针对每个文本行,基于语种识别单元106所识别的该文本行所涉及的语种,选择相应的文本识别引擎来识别该文本行,以得到每个文本行的识别字符串。例如,一个字符串集合可以包括对一个文本行进行识别所获得的字符串。此外,例如,一个字符串集合可以包括对一个文本框中的一个或多个文本行进行识别所获得的字符串。33.字符串可以包括任何字符,例如中文字符、日文字符、拉丁字符、符号等。34.第一分类单元110可以被配置成通过将经由文本识别单元108获得的至少一个字符串集合和预定字符串集合进行匹配,来对输入图像进行分类,以获得表示输入图像所涉及的对象的类别的第一分类结果,以供获取对象的类别的最终分类结果。例如,对象可以是文档、证件等,然而对象不限于此。在下文中,为了方便描述,将主要结合对象是证件的情况对本发明进行描述。35.诸如身份证件的证件在人类生活中是不可缺少的。身份证件具有各种类型,比如个人身份证、驾驶证、护照、居住证等。酒店、安保、银行、租车等多个行业都需要个人身份证件来确认身份和提供服务。证件的自动分类可以帮助人们快速地从包括证件的图像中提取有效信息,从而节省人力,提高效率。然而,由于各个国家和地区的证件的不一致性和多样性,对这些证件进行自动分类是十分具有挑战性的工作。36.现有的证件分类方法一般可分为两类:基于视觉的方法和基于文本的方法。基于视觉的方法主要是从证件图像中提取视觉特征并进行分类。由于某些证件非常相似,该方法可能会导致错误分类。另外,由于证件来自不同的国家和/或地区,如果证件图像中存在多语种文本,基于文本的现有分类方法是不适用的。37.如上所述,根据本公开的实施例的图像处理装置100基于语种识别结果来识别输入图像中的文本,以获得至少一个字符串集合,并且进而通过将所获得的至少一个字符串集合和预定字符串集合进行匹配,来对输入图像进行分类。因而,根据本公开的实施例的图像处理装置100可以对包含多种语种的文本的输入图像(例如,证件图像、文档图像等)进行分类。38.此外,根据本公开的实施例的图像处理装置100所包括的各个单元是解耦的,因而方便对各个单元的性能进行调试。再者,根据本公开的实施例的图像处理装置100易于扩展图像所涉及的对象(例如,文档、证件等)的类型。另外,根据本公开的实施例的图像处理装置100可以适用于各种包括文本的图像的场景。39.另外,根据本公开的实施例的图像处理装置100基于字符串匹配对输入图像进行分类,因而可以仅基于输入图像中的字符串对对象进行分类,并且易于对象类型(例如,证件类型(比如,个人身份证、驾驶证、护照、居住证等)、文档类型)扩展。40.例如,根据本公开的实施例,可以基于语种识别单元106的识别结果而选择预定字符串集合。例如,可以从表示对象的类别的字符串集合中选择语种识别单元106所识别到的一个或更多个语种的字符串,作为预定字符串集合,从而可以减少字符串匹配所需的时间。41.例如,根据本公开的实施例,第一分类单元110可以被配置成通过将上述至少一个字符串集合中的与输入图像中的预定位置范围对应的字符串子集和预定字符串集合进行匹配,来对输入图像进行分类,使得可以进一步减少字符匹配所花费的时间。例如,在输入图像是证件图像的情况下,考虑到证件中的关键字主要集中在证件的靠近证件上边缘和下边缘的位置,因此第一分类单元110可以仅将上述至少一个字符串集合中的、与证件图像中的靠近图像上边缘和下边缘的位置范围对应的字符串子集和预定字符串集合进行匹配。比如,在输入图像是证件图像的情况下,第一分类单元110可以仅将上述至少一个字符串集合中的、与0≤y<h/3和0.7*h<y≤h的位置范围对应的字符串子集和预定字符串集合进行匹配。其中,y表示在证件图像的高度方向上的坐标,h表示证件图像的高度。42.例如,根据本公开的实施例,第一分类单元110可以被配置成:将待匹配的字符串集合与预定字符串集合中的第一子集进行匹配以获取第一匹配结果;将待匹配的字符串集合与预定字符串集合中的、基于第一匹配结果的第二子集进行匹配以获取第二匹配结果;以及基于第一匹配结果和第二匹配结果对输入图像进行分类,从而可以进一步减少字符串匹配所需的时间。待匹配的字符串集合可以是通过文本识别单元108获得的上述至少一个字符串集合或者上述至少一个字符串集合中的与预定位置范围对应的字符串集合。43.作为示例,输入图像所涉及的对象的类别可以通过对象所对应的国家或地区和对象的对象类型来表示。在这种情况下,第一子集可以包括表示多个国家和/或地区的名称的字符串并且第二子集可以包括表示多种对象类型的字符串,或者第一子集可以包括表示多种对象类型的字符串并且第二子集可以包括表示多个国家和/或地区的名称的字符串。44.例如,地区可以是某些国家所包括的地区,比如美国的不同的州。此外,地区可以是包括一个以上国家的地区,比如,欧洲。45.作为另外的示例,对象的类别可以仅通过对象的对象类型来表示。例如,在待分类的输入图像所涉及的对象所对应的国家或地区已知的情况下,对象的类别可以仅通过对象的对象类型(比如,证件类型,文档类型)来表示。46.下面将参照图3结合输入图像是证件图像的具体示例对第一分类单元所执行的字符串匹配处理进行说明。图3是示出根据本公开的实施例的第一分类单元110所执行的字符串匹配处理的流程示例的流程图。47.如图3所示,字符串匹配处理开始于步骤s301。在步骤s302中,第一分类单元110可以通过诸如动态规划等的方法将待匹配的字符串集合与第一子集进行匹配以获得召回分数(recall score)。例如,在图3所示的示例中,第一子集可以包括所有国家和/或地区的名称的关键字。比如,第一子集可以包括通过各种语种表示的所有国家和/或地区的名称的关键字,或者第一子集可以仅包括通过语种识别单元106所识别的语种表示的所有国家和/或地区的名称的关键字。48.在步骤s304中,第一分类单元110可以选择前k1(k1为自然数且大于0)个最大的召回分数所对应的国家或地区作为国家/地区候选,然后处理进行至步骤s306。49.在步骤s306中,第一分类单元110可以从预定字符串集合中,选择在步骤s304中所获取的国家/地区候选所包括的证件类型的关键字作为第二子集,然后处理进行至步骤s308。50.在步骤s308中,第一分类单元110可以通过诸如动态规划等的方法将待匹配的字符串集合与在步骤s306中所获取的第二子集进行匹配以获得召回分数,然后处理进行至步骤s310。51.在步骤s310中,第一分类单元110可以选择前k2(k2为自然数且大于0)个最大的召回分数所对应的证件类型作为对象类型候选,然后处理进行至步骤s312。52.在步骤s312中,可以将在步骤s304中所获得的国家/地区候选和在步骤s310中所获得的对象类型候选组合,针对每个组合,基于该组合中的国家/地区候选的召回分数(在步骤s302中获得的召回分数)和对象类型候选的召回分数(在步骤s308中获得的召回分数)获得该组合的召回分数,并且选择前k3(k3为自然数且大于0)个最大的召回分数所对应的组合作为组合候选。然后,处理可以结束(步骤s313)。53.例如,可以将召回分数最大的组合候选用作第一分类结果。54.例如,对于每个组合,可以将该组合中的国家/地区候选的召回分数(在步骤s302中获得的召回分数)和对象类型候选的召回分数(在步骤s308中获得的召回分数)的均值用作该组合的召回分数。55.此外,例如,还可以分别对国家/地区候选和对象类型候选设置召回分数的阈值,并且仅选择召回分数大于相应的阈值的国家/地区候选和对象类型候选。56.如上所述,根据本公开的实施例的第一分类单元110可以基于将待匹配的字符串集合与第一子集进行匹配而获取的第一匹配结果来选择第二子集,使得可以进一步减少字符串匹配所需要的时间。57.注意,虽然上文参照图3描述了第一子集包括表示多个国家和/或地区的名称的字符串并且第二子集包括表示多种对象类型的字符串的示例。然而,第一子集可以包括表示多种对象类型的字符串并且第二子集可以包括表示多个国家和/或地区的名称的字符串。在这种情况下,第一分类单元110可以基于第一匹配结果选择包括相应的对象类型的国家和/或地区的关键字作为第二子集。58.上文已经参照图1至图3描述了根据本公开的实施例的图像处理装置100的实现示例,下面将参照图4至图6描述根据本公开的实施例的图像处理装置400的实现示例。59.图4是示出根据本公开的另外的实施例的图像处理装置400的功能配置示例的框图。图5是示出根据本公开的另外的实施例的图像处理装置的一种具体实现方式的架构示例的框图。60.如图4和图5所示,根据本公开的实施例的图像处理装置400可以包括特征提取单元402、文本检测单元404、语种识别单元406、文本识别单元408、第一分类单元410、特征转换单元412、视觉特征提取单元414、文本特征提取单元416和第二分类单元418。特征提取单元402、文本检测单元404、语种识别单元406和文本识别单元408的具体配置可以与上文参照图1至图3所描述的图像处理装置100的特征提取单元102、文本检测单元104、语种识别单元106和文本识别单元108的具体配置类似,因此这里将不再重复说明。61.特征转换单元412可以被配置成对特征提取单元402所提取的特征进行转换处理,以获取经转换的特征。例如,特征转换单元412可以执行图片嵌入(image embedding)处理。62.视觉特征提取单元414可以被配置成基于特征提取单元402所提取的特征,来提取输入图像的、与文本检测单元404所检测到的文本对应的区域的视觉特征(也可以称为roi特征)。63.文本特征提取单元416可以被配置成在通过文本识别单元408所获得的至少一个字符串集合仅涉及预定语种的字符的情况下,基于上述至少一个字符串集合来提取输入图像的文本特征。例如,文本特征提取单元416可以根据预定编码规则对上述至少一个字符串集合进行编码,并且所获得的结果用作输入图像的文本特征。例如,预定语种的字符可以是拉丁字符。64.注意,在本文中,至少一个字符串集合仅涉及预定语种的字符并不意味着至少一个字符串集合仅涉及预定语种,而是意味着至少一个字符串集合可以涉及该预定语种的字符可以表示的一个或多个语种。例如,在预定语种的字符是拉丁字符的示例情况下,至少一个字符串集合可以涉及拉丁字符表示的一个或多个语种,比如,拉丁语、英语等。65.第二分类单元418可以被配置成在通过文本识别单元408所获得的至少一个字符串集合仅涉及预定语种的字符的情况下,利用预先训练的分类模型,基于通过特征转换单元412所获取的经转换的特征、通过视觉特征提取单元414所提取的视觉特征以及通过文本特征提取单元416所提取的文本特征,对输入图像进行分类,以获得表示输入图像所涉及的对象的类别的第二分类结果。66.例如,预先训练的分类模型可以是基于图注意力网络(graph attention network:gat)的分类模型。67.例如,在第二分类结果满足预定条件的情形下,可以将第二分类结果用作输入图像所涉及的对象的类别的最终分类结果。例如,预定条件可以是第二分类单元418的分类精度大于或等于预定阈值。分类精度例如可以通过分类分数来表示。68.例如,第一分类单元410可以被配置成在上述至少一个字符串集合仅涉及预定语种的字符的情况下,仅在第二分类结果不满足预定条件的情形下对输入图像进行分类,以获得第一分类结果作为输入图像所涉及的对象的类型的最终分类结果。例如,在上述至少一个字符串集合仅涉及预定语种的字符的情况下,第一分类单元410可以仅在第二分类单元418的分类精度小于预定阈值或者第二分类结果显示输入图像涉及负样本的情形下,对输入图像进行分类,以获得第一分类结果作为最终分类结果。69.如上所述,根据本公开的另外的实施例的图像处理装置400可以在上述至少一个字符串集合仅涉及预定语种的字符的情况下,通过第二分类单元418获取第二分类结果,并且在第二分类结果满足预定条件的情形下,可以将第二分类结果用作最终分类结果。此外,在第二分类结果不满足预定条件的情形下,可以通过第一分类单元410获取第一分类结果作为最终分类结果。由于第一分类单元410易于对象类型扩展,并且第二分类单元418的分类速度快,所以包括第一分类单元410和第二分类单元418两者的图像处理装置400可以在保证分类速度和分类精度的情况下支持更多对象类型。70.例如,根据本公开的实施例,如图5所示,第二分类单元418可以包括特征融合子单元4182和分类子单元4184。71.特征融合子单元4182可以被配置成利用预先训练的分类模型的特征融合层,对通过视觉特征提取单元414所提取的视觉特征和文本特征提取单元416所提取的文本特征进行融合,以获得输入图像的全局图网络特征。72.分类子单元4184可以被配置成利用通过特征转换单元412所获取的经转换的特征和通过特征融合子单元4182所获取的全局图网络特征,对输入图像进行分类,以获得表示输入图像所涉及的对象的类别的第二分类结果。73.下面将参照图6a至图6c对特征融合子单元4182利用预先训练的分类模型(即,基于gat的分类模型)所进行的融合处理的原理进行说明。图6a至图6c是示出利用基于gat的分类模型所进行的融合处理的原理的示意图。74.如图6b所示,gat可以包括多个节点。在本实施方式中,每个节点的特征(也称为“节点特征”)表示每个文本块的特征,其包括两个部分,即,感兴趣区域(roi,region of interest)特征和对应的文本特征,如图6a所示的那样。例如,可以将通过将表示roi特征的向量r与表示对应的文本特征的向量t结合而获得的向量(即,(r,t)或(t,r))作为相应的节点的特征向量。也就是说,节点的特征向量所包含的元素数目为相应的roi特征的向量和相应的文本特征的向量的元素数目之和。75.根据gat的结构,每个节点均可以通过添加邻居节点的信息来进行更新。具体地,待更新的节点hi可以通过下式(1)更新为hi'。[0076][0077]其中,ni是待更新的节点hi的邻居节点hj的数目。αij表示节点hi和hj之间的相关性。w是gat的权重,其反映gat中的线性变换,σ是激活函数。在训练过程中,αij和w均会发生变化。[0078]如图6c中所示,待更新的节点h1具有五个邻居节点h2至h6,它们与节点h1之间的相关性分别由α12至α16表示,节点h1的自相关性由α11表示。通过上式(1)可以得到更新的节点h1'。gat通过若干次迭代更新后可达到稳定状态。例如,可以将达到稳定状态后的各个节点的特征用作全局图网络特征。[0079]在一般的gat中,αij的值为0或1。αij的值为0表示节点hi和hj未连接,并且αij的值为1表示节点hi和hj相互连接。为了考虑gat中的边的特征,可以采用基于egnn的gat(即,egnn(a))对节点进行更新。在这种情况下,可以将式(1)中的αij用由下式(2)表示的eij替代。[0080][0081]在式(2)中,xij表示节点hi和hj所对应的文本块在x方向(即,输入图像的宽度方向)上的距离,yij表示节点hi和hj所对应的文本块在y方向(即,输入图像的高度方向)上的距离,l和g分别表示输入图像的宽度和高度,li和gi分别表示节点hi所对应的文本块的宽度和高度,lj和gj分别表示节点hj所对应的文本块的宽度和高度。[0082]egnn(a)聚合了节点的特征和对应的边的特征,因而由此得到全局图网络特征有助于进一步提高分类精度。关于egnn的详细原理可参见《exploiting edge features for graph neural networks》,cvpr2019。[0083]如上所述,根据本公开的实施例的图像处理装置对输入图像的视觉特征和文本特征进行融合以获得全局网络特征,并且进一步基于经转换的特征和全局网络特征对输入图像进行分类,使得可以进一步提高分类精度。[0084]例如,根据本公开的实施例,如图7所示,分类子单元4184可以包括第一分类部4184a和第二分类部4184b。[0085]第一分类部4184a可以被配置成利用通过特征转换单元412所获取的经转换的特征和通过特征融合子单元4182所获取的全局图网络特征,对输入图像进行分类,以获得所述第一分类子结果。[0086]第二分类部4184b可以被配置成利用通过特征转换单元412所获取的经转换的特征和通过特征融合子单元4182所获取的全局图网络特征,对输入图像进行分类,以获得第二分类子结果。[0087]例如,第一分类部4184a和第二分类部4184b可以共享预先训练的分类模型的除最后一层(例如,全连接层)之外的其余层。[0088]作为示例,第一分类子结果可以与输入图像所涉及的对象所对应的国家或地区有关,而第二分类子结果可以与对象的对象类型有关。例如,在图7所示的示例中,第一分类子结果显示对象所对应的国家为孟加拉(bangladesh),第二分类子结果显示对象类型为id卡(idcard)。[0089]注意,在图7中,为了方便说明,仅示出了图像处理装置400的部分功能块。另外,如本领域技术人员可以理解的,在图7中所示出的所提取的特征等仅是示例,而非限制性的。[0090]此外,图7中的英文单词“usa”、“italy”、“bangladesh”、“de”、“idcard”、“dl”和“permiso”分别表示美国、意大利、孟加拉、德国、id卡、驾驶证和许可证。[0091]作为另外的示例,第一分类子结果可以与对象的对象类型有关,而第二分类子结果可以与输入图像所涉及的对象所对应的国家或地区有关。[0092]如上所述,根据本公开的实施例的图像处理装置400可以包括用以获取第一分类子结果的第一分类部4184a和用以获取第二分类子结果的第二分类部4184b,使得可以进一步提高分类精度。[0093]例如,根据本公开的实施例,预先训练的分类模型是利用样本图像集、通过如下方式对初始分类模型进行训练而得到的:提取样本图像的特征;对所提取的特征进行转换处理,以获取经转换的特征;基于所提取的特征检测样本图像中的文本;识别所检测到的文本的语种;基于语种识别的结果来识别所检测到的文本,以获得至少一个字符串集合;基于所提取的特征,来提取样本图像的、与所检测到的文本对应的区域的视觉特征;基于上述至少一个字符串集合,来提取样本图像的文本特征;利用初始分类模型的特征融合层,对样本图像的视觉特征和样本图像的文本特征进行融合,以获得样本图像的全局图网络特征;以及利用通过样本图像的经转换的特征和全局图网络特征,基于针对初始分类模型的第一损失子函数和第二损失子函数,来训练初始分类模型以满足预定的收敛条件,从而得到预先训练的分类模型。比如,可以通过类似faster r-cnn(faster region-based convolutional neural network,快速区域卷积神经网络)的多分支训练方法对初始分类模型进行训练(参见例如faster r-cnn:towards real-time object detection with region proposal networks,2017)。[0094]例如,第一损失子函数可以与对象类型有关,并且第二损失子函数可以与国家和/或地区有关。[0095]例如,预定收敛条件可以是训练达到预定次数、第一损失子函数和第二损失子函数的函数值分别小于相应的预定阈值或者第一损失函数的值和第二损失函数的值的加权和小于预定阈值。[0096]上文已经描述了根据本公开的实施例的图像处理装置100,与上述图像处理装置100的实施例相对应地,本公开还提供了以下图像处理方法的实施例。[0097]图8是示出根据本公开的实施例的图像处理方法800的流程示例的流程图。如图8所示,根据本公开的实施例的图像处理方法800可以开始于开始步骤s802,并且结束于结束步骤s826。图像处理方法800可以包括特征提取步骤s804、文本检测步骤s806、语种识别步骤s808、文本识别步骤s810和第一分类步骤s814。[0098]在特征提取步骤s804中,可以提取输入图像的特征。例如,特征提取步骤s804可以通过上文参照图1至图3所描述的特征提取单元102来实施,因而具体细节可参见上文对特征提取单元102的描述,这里将不再赘述。[0099]在文本检测步骤s806中,可以基于通过特征提取步骤s804所提取的特征检测输入图像中的文本。例如,在文本检测步骤s806中,可以检测输入图像中的文本的存在与否以及/或者文本的位置。比如,文本检测步骤s806可以通过上文参照图1至图3所描述的文本检测单元104来实施,因而具体细节可参见上文对文本检测单元104的描述,这里将不再赘述。[0100]在语种识别步骤s808中,可以识别通过文本检测步骤s806所检测到的文本的语种。例如,语种识别步骤s808可以通过上文参照图1至图3所描述的语种识别单元106来实施,因而具体细节可参见上文对语种识别单元106的描述,这里将不再赘述。[0101]在文本识别步骤s810中,可以基于语种识别步骤s808的识别结果来识别所检测到的文本,以获得至少一个字符串集合。例如,文本识别步骤s810可以通过上文参照图1至图3所描述的文本识别单元108来实施,因而具体细节可参见上文对文本识别单元108的描述,这里将不再赘述。[0102]在第一分类步骤s814中,可以通过将经由文本识别步骤s810获得的至少一个字符串集合和预定字符串集合进行匹配,来对输入图像进行分类,以获得表示输入图像所涉及的对象的类别的第一分类结果,以供获取对象的类别的最终分类结果。例如,第一分类步骤s814可以通过上文参照图1至图3所描述的第一分类单元110来实施,因而具体细节可参见上文对第一分类单元110的描述,这里将不再赘述。[0103]如上所述,与根据本公开的实施例的图像处理装置100类似地,根据本公开的实施例的图像处理方法800可以基于语种识别结果来识别输入图像中的文本,以获得至少一个字符串集合,并且进而通过将所获得的至少一个字符串集合和预定字符串集合进行匹配,来对输入图像进行分类,因此可以对包含多种语种的文本的输入图像(例如,证件图像、文档图像等)进行分类。[0104]此外,根据本公开的实施例的图像处理方法800易于扩展图像所涉及的对象(例如,文档、证件等)的类型。另外,根据本公开的实施例的图像处理方法800可以适用于各种包括文本的图像的场景。[0105]另外,根据本公开的实施例的图像处理方法800基于字符串匹配对输入图像进行分类,因而可以仅基于输入图像中的字符串对对象进行分类,并且易于对象类型扩展。[0106]例如,根据本公开的实施例,可以基于语种识别步骤s808的识别结果而选择预定字符串集合。例如,可以从表示对象的类别的字符串集合中选择在语种识别步骤s808中所识别到的一个或更多个语种的字符串,作为预定字符串集合,从而可以减少字符串匹配所需的时间。[0107]例如,根据本公开的实施例,在第一分类步骤s814中,可以被配置成通过将上述至少一个字符串集合中的与输入图像中的预定位置范围对应的字符串子集和预定字符串集合进行匹配,来对输入图像进行分类,使得可以进一步减少字符匹配所花费的时间。[0108]例如,根据本公开的实施例,在第一分类步骤s814中,可以将待匹配的字符串集合与预定字符串集合中的第一子集进行匹配以获取第一匹配结果;将待匹配的字符串集合与预定字符串集合中的、基于第一匹配结果的第二子集进行匹配以获取第二匹配结果;以及基于第一匹配结果和第二匹配结果对输入图像进行分类,从而可以进一步减少字符串匹配所需的时间。待匹配的字符串集合可以是通过文本识别步骤s810获得的上述至少一个字符串集合或者上述至少一个字符串集合中的与预定位置范围对应的字符串集合。[0109]作为示例,输入图像所涉及的对象的类别可以通过对象所对应的国家或地区和对象的对象类型来表示。在这种情况下,第一子集可以包括表示多个国家和/或地区的名称的字符串并且第二子集可以包括表示多种对象类型的字符串,或者第一子集可以包括表示多种对象类型的字符串并且第二子集可以包括表示多个国家和/或地区的名称的字符串。[0110]作为另外的示例,对象的类别可以仅通过对象的对象类型来表示。例如,在待分类的输入图像所涉及的对象所对应的国家或地区已知的情况下,对象的类别可以仅通过对象的对象类型来表示。[0111]上文已经参照图8描述了根据本公开的实施例的图像处理方法800的实现示例,下面将参照图9描述根据本公开的另外的实施例的图像处理方法900的实现示例。[0112]图9是示出根据本公开的另外的实施例的图像处理方法900的流程示例的流程图。[0113]如图9所示,根据本公开的实施例的图像处理方法900可以开始于开始步骤s902,并且结束于结束步骤s926。图像处理方法900可以包括特征提取步骤s904、文本检测步骤s906、语种识别步骤s908、文本识别步骤s910、字符串集合判定步骤s912、第一分类步骤s914、特征转换步骤s916、视觉特征提取步骤s918、文本特征提取步骤s920、第二分类步骤s922和第二分类结果判定步骤s924。特征提取步骤s904、文本检测步骤s906、语种识别步骤s908和文本识别步骤s910与上文参照图8描述的特征提取步骤s804、文本检测步骤s806、语种识别步骤s808和文本识别步骤s810类似,因此这里将不再重复说明。[0114]在字符串集合判定步骤s912中,可以判定通过文本识别步骤s910所获得的至少一个字符串集合是否仅涉及预定语种的字符。在判定上述至少一个字符串集合不是仅涉及预定语种的字符的情况下(步骤s912,“否”),处理进行至第一分类步骤s914。[0115]在第一分类步骤s914中,可以通过将经由文本识别步骤s910获得的至少一个字符串集合和预定字符串集合进行匹配,来对输入图像进行分类,以获得表示输入图像所涉及的对象的类别的第一分类结果,作为最终分类结果。例如,第一分类步骤s914可以通过上文参照图4至图7所描述的第一分类单元410来实施,因而具体细节可参见上文对第一分类单元410的描述,这里将不再赘述。[0116]另一方面,在判定上述至少一个字符串集合仅涉及预定语种的字符的情况下(步骤s912,“是”),处理进行至特征转换步骤s916。[0117]在特征转换步骤s916中,可以对通过特征提取步骤s904所提取的特征进行转换处理,以获取经转换的特征。例如,特征转换步骤s916可以通过上文参照图4至图7所描述的特征转换单元412来实施,因而具体细节可参见上文对特征转换单元412的描述,这里将不再赘述。[0118]在视觉特征提取步骤s918中,可以基于通过特征提取步骤s904所提取的特征,来提取输入图像的、与通过文本检测步骤s906所检测到的文本对应的区域的视觉特征(也可以称为roi特征)。例如,视觉特征提取步骤s918可以通过上文参照图4至图7所描述的视觉特征提取单元414来实施,因而具体细节可参见上文对视觉特征提取单元414的描述,这里将不再赘述。[0119]在文本特征提取步骤s920中,可以基于通过文本识别步骤s810所获得的至少一个字符串集合来提取输入图像的文本特征。文本特征提取步骤s920可以通过上文参照图4至图7所描述的文本特征提取单元416来实施,因而具体细节可参见上文对文本特征提取单元416的描述,这里将不再赘述。[0120]在第二分类步骤s922中,可以利用预先训练的分类模型,基于通过特征转换步骤s916所获取的经转换的特征、通过视觉特征提取步骤s918所提取的视觉特征以及通过文本特征提取步骤s920所提取的文本特征,对输入图像进行分类,以获得表示输入图像所涉及的对象的类别的第二分类结果。第二分类步骤s922可以通过上文参照图4至图7所描述的第二分类单元418来实施,因而具体细节可参见上文对第二分类单元418的描述,这里将不再赘述。[0121]在第二分类结果判定步骤s924中,可以判定第二分类结果是否满足预定条件。在判定第二分类结果满足预定条件的情况下(步骤s924,“是”),可以输出第二分类结果作为最终分类结果,并且处理结束。[0122]另一方面,在判定第二分类结果不满足预定条件的情况下(步骤s924,“否”),处理进行至第一分类步骤s914。[0123]如上所述,与根据本公开的另外的实施例的图像处理装置400类似地,根据本公开的另外的实施例的图像处理方法900可以在上述至少一个字符串集合仅涉及预定语种的字符的情况下,通过第二分类步骤s922获取第二分类结果,并且在第二分类结果满足预定条件的情形下,可以将第二分类结果用作最终分类结果。此外,在第二分类结果不满足预定条件的情形下,可以通过第一分类步骤s914获取第一分类结果作为最终分类结果。因此根据本公开的另外的实施例的图像处理方法900可以在保证分类速度和分类精度的情况下支持更多对象类型。[0124]例如,根据本公开的实施例,第二分类单元418可以包括特征融合子步骤和分类子步骤(图9未示出)。[0125]在特征融合子步骤中,可以利用预先训练的分类模型的特征融合层,对通过视觉特征提取步骤s918所提取的视觉特征和文本特征提取步骤s920所提取的文本特征进行融合,以获得输入图像的全局图网络特征。例如,特征融合子步骤可以通过上文参照图5所描述的特征融合子单元4182来实施,因而具体细节可参见上文对特征融合子单元4182描述,这里将不再赘述。[0126]在分类子步骤中,可以利用通过特征转换步骤s916所获取的经转换的特征和通过特征融合子步骤所获取的全局图网络特征,对输入图像进行分类,以获得表示输入图像所涉及的对象的类别的第二分类结果。例如,分类子步骤可以通过上文参照图5所描述的分类子单元4184来实施,因而具体细节可参见上文对分类子单元4184描述,这里将不再赘述。[0127]如上所述,根据本公开的实施例的图像处理方法900对输入图像的视觉特征和文本特征进行融合以获得全局网络特征,并且进一步基于经转换的特征和全局网络特征对输入图像进行分类,使得可以进一步提高分类精度。[0128]例如,根据本公开的实施例,分类子步骤可以包括第一分类子步骤和第二分类子步骤(图9未示出)。[0129]在第一分类子步骤中,可以利用通过特征转换步骤s916所获取的经转换的特征和通过特征融合子步骤所获取的全局图网络特征,对输入图像进行分类,以获得所述第一分类子结果。[0130]在第二分类子步骤中,可以利用通过特征转换步骤s916所获取的经转换的特征和通过特征融合子步骤所获取的全局图网络特征,对输入图像进行分类,以获得第二分类子结果。[0131]如上所述,根据本公开的实施例的图像处理方法900可以包括用以获取第一分类子结果的第一分类子步骤和用以获取第二分类子结果的第二分类子步骤,使得可以进一步提高分类精度。[0132]应指出,尽管以上描述了根据本公开的实施例的图像处理装置和图像处理方法的功能配置和操作,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块和操作进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。[0133]此外,还应指出,这里的方法实施例是与上述装置实施例相对应的,因此在方法实施例中未详细描述的内容可参见装置实施例中相应部分的描述,在此不再重复描述。[0134]此外,本公开还提供了存储介质和程序产品。应理解,根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述图像处理方法,因此在此未详细描述的内容可参考先前相应部分的描述,在此不再重复进行描述。[0135]相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。[0136]另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图10所示的通用个人计算机700安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。[0137]在图10中,中央处理单元(cpu)701根据只读存储器(rom)702中存储的程序或从存储部分708加载到随机存取存储器(ram)703的程序执行各种处理。在ram 703中,也根据需要存储当cpu 701执行各种处理等时所需的数据。[0138]cpu 701、rom 702和ram703经由总线704彼此连接。输入/输出接口705也连接到总线704。[0139]下述部件连接到输入/输出接口705:输入部分706,包括键盘、鼠标等;输出部分707,包括显示器,比如阴极射线管(crt)、液晶显示器(lcd)等,和扬声器等;存储部分708,包括硬盘等;和通信部分709,包括网络接口卡比如lan卡、调制解调器等。通信部分709经由网络比如因特网执行通信处理。[0140]根据需要,驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。[0141]在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。[0142]本领域的技术人员应当理解,这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(cd-rom)和数字通用盘(dvd))、磁光盘(包含迷你盘(md)(注册商标))和半导体存储器。或者,存储介质可以是rom702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。[0143]以上参照附图描述了本公开的优选实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。[0144]例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外,以上功能之一可由多个单元来实现。无需说,这样的配置包括在本公开的技术范围内。[0145]在该说明书中,流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理,而且包括并行地或单独地而不是必须按时间序列执行的处理。此外,甚至在按时间序列处理的步骤中,无需说,也可以适当地改变该顺序。[0146]另外,根据本公开的技术还可以如下进行配置。[0147]附记1.一种图像处理装置,包括:[0148]特征提取单元,被配置成提取输入图像的特征;[0149]文本检测单元,被配置成基于通过所述特征提取单元所提取的所述特征检测所述输入图像中的文本;[0150]语种识别单元,被配置成识别所述文本检测单元所检测到的文本的语种;[0151]文本识别单元,被配置成基于所述语种识别单元的识别结果来识别所检测到的所述文本,以获得至少一个字符串集合;以及[0152]第一分类单元,被配置成通过将所述至少一个字符串集合和预定字符串集合进行匹配,来对所述输入图像进行分类,以获得表示所述输入图像所涉及的对象的类别的第一分类结果,以供获取所述对象的类别的最终分类结果。[0153]附记2.根据附记1所述的图像处理装置,其中,所述预定字符串集合是基于所述语种识别单元的识别结果而选择的。[0154]附记3.根据附记2所述的图像处理装置,其中,所述第一分类单元被配置成通过将所述至少一个字符串集合中的与所述输入图像中的预定位置范围对应的字符串集合和所述预定字符串集合进行匹配,来对所述输入图像进行分类。[0155]附记4.根据附记3所述的图像处理装置,其中,所述第一分类单元被配置成:[0156]将与所述预定位置范围对应的字符串集合与所述预定字符串集合中的第一子集进行匹配以获取第一匹配结果;[0157]将与所述预定位置范围对应的字符串集合与所述预定字符串集合中的、基于所述第一匹配结果的第二子集进行匹配以获取第二匹配结果;以及[0158]基于所述第一匹配结果和所述第二匹配结果对所述输入图像进行分类。[0159]附记5.根据附记4所述的图像处理装置,其中,所述输入图像所涉及的对象的类别通过所述对象所对应的国家或地区和所述对象的对象类型来表示,以及[0160]其中,所述第一子集包括表示多个国家和/或地区的名称的字符串并且所述第二子集包括表示多种对象类型的字符串,或者所述第一子集包括表示多种对象类型的字符串并且所述第二子集包括表示多个国家和/或地区的名称的字符串。[0161]附记6.根据附记1至5中任一项所述的图像处理装置,还包括:[0162]特征转换单元,被配置成对所述特征提取单元所提取的特征进行转换处理,以获取经转换的特征;[0163]视觉特征提取单元,被配置成基于所述特征提取单元所提取的特征,来提取所述输入图像的、与所述文本检测单元所检测到的文本对应的区域的视觉特征;[0164]文本特征提取单元,被配置成在所述至少一个字符串集合仅涉及预定语种的字符的情况下,基于所述至少一个字符串集合,来提取所述输入图像的文本特征;以及[0165]第二分类单元,被配置成在所述至少一个字符串集合仅涉及所述预定语种的字符的情况下,利用预先训练的分类模型,基于通过所述特征转换单元所获取的经转换的特征、通过所述视觉特征提取单元所提取的所述视觉特征以及通过所述文本特征提取单元所提取的所述文本特征,对所述输入图像进行分类,以获得表示所述输入图像所涉及的对象的类别的第二分类结果,[0166]其中,在所述第二分类结果满足预定条件的情形下,将所述第二分类结果用作所述输入图像所涉及的对象的类别的最终分类结果,[0167]其中,所述第一分类单元进一步被配置成在所述至少一个字符串集合仅涉及预定语种的字符的情况下,仅在所述第二分类结果不满足预定条件的情形下对所述输入图像进行分类,以获得所述第一分类结果作为所述输入图像所涉及的对象的类型的最终分类结果,以及[0168]其中,所述预先训练的分类模型是基于图注意力网络的分类模型。[0169]附记7.根据附记6所述的图像处理装置,其中,所述第二分类单元包括:[0170]特征融合子单元,被配置成利用所述预先训练的分类模型的特征融合层,对通过所述视觉特征提取单元所提取的所述视觉特征和通过所述文本特征提取单元所提取的所述文本特征进行融合,以获得所述输入图像的全局图网络特征;以及[0171]分类子单元,被配置成利用通过所述特征转换单元所获取的经转换的特征和通过所述特征融合子单元所获取的全局图网络特征,对所述输入图像进行分类,以获得表示所述输入图像所涉及的对象的类别的第二分类结果。[0172]附记8.根据附记7所述的图像处理装置,其中,[0173]所述输入图像所涉及的对象的类别通过所述对象所对应的国家或地区和所述对象的对象类型来表示,[0174]所述第二分类结果包括表示所述对象所对应的国家或地区的第一分类子结果和表示所述对象的对象类型的第二分类子结果,[0175]所述分类子单元包括第一分类部和第二分类部,[0176]所述第一分类部被配置成利用通过所述特征转换单元所获取的经转换的特征和通过所述特征融合子单元所获取的全局图网络特征,对所述输入图像进行分类,以获得所述第一分类子结果,以及[0177]所述第二分类部被配置成利用通过所述特征转换单元所获取的经转换的特征和通过所述特征融合子单元所获取的全局图网络特征,对所述输入图像进行分类,以获得所述第二分类子结果。[0178]附记9.根据附记8所述的图像处理装置,其中,所述预先训练的分类模型是利用样本图像集、通过如下方式对初始分类模型进行训练而得到的:[0179]提取样本图像的特征;[0180]对所提取的所述特征进行转换处理,以获取经转换的特征;[0181]基于所提取的所述特征检测所述样本图像中的文本;[0182]识别所检测到的文本的语种;[0183]基于语种识别的结果来识别所检测到的所述文本,以获得至少一个字符串集合;[0184]基于所提取的所述特征,来提取所述样本图像的、与所检测到的文本对应的区域的视觉特征;[0185]基于所述至少一个字符串集合,来提取所述样本图像的文本特征;[0186]利用所述初始分类模型的特征融合层,对所述样本图像的视觉特征和所述样本图像的文本特征进行融合,以获得所述样本图像的全局图网络特征;以及[0187]利用通过所述样本图像的经转换的特征和全局图网络特征,基于针对所述初始分类模型的第一损失子函数和第二损失子函数,来训练所述初始分类模型以满足预定的收敛条件,从而得到所述预先训练的分类模型。[0188]附记10.一种图像处理方法,包括:[0189]特征提取步骤,用于提取输入图像的特征;[0190]文本检测步骤,用于基于通过所述特征提取步骤所提取的所述特征检测所述输入图像中的文本;[0191]语种识别步骤,用于识别通过所述文本检测步骤所检测到的文本的语种;[0192]文本识别步骤,用于基于通过所述语种识别步骤所获取的识别结果来识别所检测到的所述文本,以获得至少一个字符串集合;以及[0193]第一分类步骤,用于基于所述识别结果和所述至少一个字符串集合对所述输入图像进行分类,以获得表示所述输入图像所涉及的对象的类别的第一分类结果,以供获取所述对象的类别的最终分类结果。[0194]附记11.根据附记10所述的图像处理方法,其中,所述预定字符串集合是基于所述语种识别步骤的识别结果而选择的。[0195]附记12.根据附记11所述的图像处理方法,其中,在所述第一分类步骤中,通过将所述至少一个字符串集合中的与所述输入图像中的预定位置范围对应的字符串集合和所述预定字符串集合进行匹配,来对所述输入图像进行分类。[0196]附记13.根据附记12所述的图像处理方法,其中,在所述第一分类步骤中:[0197]将与所述预定位置范围对应的字符串集合与所述预定字符串集合中的第一子集进行匹配以获取第一匹配结果;[0198]将与所述预定位置范围对应的字符串集合与所述预定字符串集合中的、基于所述第一匹配结果的第二子集进行匹配以获取第二匹配结果;以及[0199]基于所述第一匹配结果和所述第二匹配结果对所述输入图像进行分类。[0200]附记14.根据附记13所述的图像处理方法,其中,所述输入图像所涉及的对象的类别通过所述对象所对应的国家或地区和所述对象的对象类型来表示,以及[0201]其中,所述第一子集包括表示多个国家和/或地区的名称的字符串并且所述第二子集包括表示多种对象类型的字符串,或者所述第一子集包括表示多种对象类型的字符串并且所述第二子集包括表示多个国家和/或地区的名称的字符串。[0202]附记15.根据附记10至14中任一项所述的图像处理方法,其中,在所述至少一个字符串集合仅涉及预定语种的字符的情况下,所述方法还包括:[0203]特征转换步骤,用于对通过所述特征提取步骤所提取的特征进行转换处理,以获取经转换的特征;[0204]视觉特征提取步骤,用于基于通过所述特征提取步骤所提取的特征,来提取所述输入图像的、与所检测到的所述文本对应的区域的视觉特征;[0205]文本特征提取步骤,用于基于所述至少一个字符串集合,来提取所述输入图像的文本特征;以及[0206]第二分类步骤,用于利用预先训练的分类模型,基于通过所述特征转换步骤所获取的经转换的特征、通过所述视觉特征提取步骤所提取的所述视觉特征以及通过所述文本特征提取步骤所提取的所述文本特征,对所述输入图像进行分类,以获得表示所述输入图像所涉及的对象的类别的第二分类结果,[0207]其中,在所述第二分类结果满足预定条件的情形下,将所述第二分类结果用作所述输入图像所涉及的对象的类别的最终分类结果,[0208]其中,在所述至少一个字符串集合仅涉及预定语种的字符的情况下,仅在所述第二分类结果不满足预定条件的情形下执行所述第一分类步骤,以获得所述第一分类结果作为所述输入图像所涉及的对象的类型的最终分类结果,以及[0209]其中,所述预先训练的分类模型是基于图注意力网络的分类模型。[0210]附记16.根据附记15所述的图像处理方法,其中,所述第二分类步骤包括:[0211]特征融合子步骤,用于利用所述预先训练的分类模型的特征融合层,对通过所述视觉特征提取步骤所提取的所述视觉特征和通过所述文本特征提取步骤所提取的所述文本特征进行融合,以获得所述输入图像的全局图网络特征;以及[0212]分类子步骤,用于利用通过所述特征转换步骤所获取的经转换的特征和通过所述特征融合子步骤所获取的全局图网络特征,对所述输入图像进行分类,以获得表示所述输入图像所涉及的对象的类别的第二分类结果。[0213]附记17.根据附记16所述的图像处理方法,其中,[0214]所述输入图像所涉及的对象的类别通过所述对象所对应的国家或地区和所述对象的对象类型来表示,[0215]所述第二分类结果包括表示所述对象所对应的国家或地区的第一分类子结果和表示所述对象的对象类型的第二分类子结果,[0216]所述分类子步骤包括第一分类子步骤和第二子步骤,[0217]在所述第一分类子步骤,用于利用通过所述特征转换步骤所获取的经转换的特征和通过所述特征融合子步骤所获取的全局图网络特征,对所述输入图像进行分类,以获得所述第一分类子结果,以及[0218]在所述第二分类子步骤中,用于利用通过所述特征转换步骤所获取的经转换的特征和通过所述特征融合子步骤所获取的全局图网络特征,对所述输入图像进行分类,以获得所述第二分类子结果。[0219]附记18.根据附记17所述的图像处理方法,其中,所述预先训练的分类模型是利用样本图像集、通过如下方式对初始分类模型进行训练而得到的:[0220]提取样本图像的特征;[0221]对所提取的所述特征进行转换处理,以获取经转换的特征;[0222]基于所提取的所述特征检测所述样本图像中的文本;[0223]识别所检测到的文本的语种;[0224]基于语种识别的结果来识别所检测到的所述文本,以获得至少一个字符串集合;[0225]基于所提取的所述特征,来提取所述样本图像的、与所检测到的文本对应的区域的视觉特征;[0226]基于所述至少一个字符串集合,来提取所述样本图像的文本特征;[0227]利用所述初始分类模型的特征融合层,对所述样本图像的视觉特征和所述样本图像的文本特征进行融合,以获得所述样本图像的全局图网络特征;以及[0228]利用通过所述样本图像的经转换的特征和全局图网络特征,基于针对所述初始分类模型的第一损失子函数和第二损失子函数,来训练所述初始分类模型以满足预定的收敛条件,从而得到所述预先训练的分类模型。[0229]附记19.一种存储有程序指令的计算机可读存储介质,当所述程序指令被计算机执行时用于执行附记10至18中任一项所述的方法。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部