计算;推算;计数设备的制造及其应用技术基于区域缓冲的knn算法的信息分类方法和装置技术领域1.本公开的实施例一般涉及数据处理技术领域,并且更具体地,涉及基于区域缓冲的knn算法的信息分类方法和装置。背景技术:2.随着人工智能技术的发展,信息处理技术也越来越得到广泛的应用。在信息处理过程中,往往会涉及到的对信息进行分类。现有计算中,通常采用knn(k-nearestneighbor)最邻近节点算法对信息进行分类。3.k最邻近法(knn,k-nearest neighbor)是一常用的机器学习算法。该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。knn算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。4.但此方法的有一个最大的问题就是计算量较大,这是因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的k个最邻近点。在常见的拟合算法中,可以使用公式表示样本特征,从而大幅减少计算量;而knn每次都需要对全域进行计算,所以随着样本的增加,计算量会越来越大。5.现有的knn算法在处理计算量大的数据时,计算效率低,从而影响信息分类的效率,进而直接影响了机器学习的效率。技术实现要素:6.根据本公开的实施例,提供了。7.在本公开的第一方面,提供一种基于区域缓冲的knn算法的信息分类方法,包括:8.获取目标信息集合,所述目标信息集合包括多条待分类的信息;9.对所述目标信息集合中的信息进行处理,生成对应多维空间中的特征点,每个特征点对应一个特征向量;10.将所述多维空间按照预设规则划分为多个子空间;11.建立所述特征点和所述子空间的对应关系;12.从目标子空间向周围子空间进行扩散遍历,直到遍历到的特征点的数量满足预设条件,将遍历到的特征点划分为一个类,从而将所述目标信息集合划分为多个类。13.在一些实施例在中,还包括:14.在所述按照预设步长对多维空间进行划分,将多维空间在每个维度上划分为多个区间,从而将多维空间划分为多个子空间的同时,持续接收新加入到所述目标信息集合中的待分类的信息,将新接收到的待分类的信息处理成对应的特征点。15.在一些实施例在中,所述包括:16.在所述按照预设步长对多维空间进行划分,将多维空间在每个维度上划分为多个区间,从而将多维空间划分为多个子空间的同时,按照预设时间间隔接收新加入到所述目标信息集合中的待分类的信息,将新接收到的待分类的信息处理成对应的特征点。17.在一些实施例在中,还包括:18.按照预设时间间隔对划分的子控件更新,将新加入到所述目标信息集合中的待分类的信息处理成对应的特征点,将生成的特征点划分到对应的子空间中。19.在一些实施例在中,所述将所述多维空间按照预设规则划分为多个子空间,包括:20.按照预设步长对多维空间进行划分,将多维空间在每个维度上划分为多个区间,从而将多维空间划分为多个子空间,所述子空间的每个维度的取值范围对应多维空间的一个区间。21.在一些实施例在中,所述建立所述特征点和所述子空间的对应关系,包括:22.生成列表,在列表中记录子空间的编号以及子空间内对应的特征点。23.在一些实施例在中,所述从目标子空间向周围子空间进行扩散遍历,直到遍历到的特征点的数量满足预设条件,将遍历到的特征点划分为一个类,从而将所述目标信息集合划分为多个类,包括:24.选取目标特征点,按照到目标特征点所在子空间的距离由小到大的顺序向周围逐层进行扩散遍历,直到遍历到的子空间中的特征点的数量大于或等于k,将遍历到的特征点划分为一个类,从而将所述目标信息集合划分为多个类,其中,k为最邻近结点算法的期望输出值的个数。25.在本公开的第二方面,提供一种基于区域缓冲的knn算法的信息分类装置,包括:26.信息获取模块,用于获取目标信息集合,所述目标信息集合包括多条待分类的信息;27.信息处理模块,用于对所述目标信息集合中的信息进行处理,生成对应多维空间中的特征点,每个特征点对应一个特征向量;28.空间划分模块,用于将所述多维空间按照预设规则划分为多个子空间;29.关系建立模块,用于建立所述特征点和所述子空间的对应关系;30.信息分类模块,用于从目标子空间向周围子空间进行扩散遍历,直到遍历到的特征点的数量满足预设条件,将遍历到的特征点划分为一个类,从而将所述目标信息集合划分为多个类。31.在本公开的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。32.在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。33.通过本公开的基于区域缓冲的knn算法的信息分类方法,能够提高在处理计算量大的数据时的计算效率,从而提高信息分类的效率,进而提高机器学习的效率。34.发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。附图说明35.结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:36.图1示出了本公开实施例一的基于区域缓冲的knn算法的信息分类方法的流程图;37.图2示出了本公开实施例二的基于区域缓冲的knn算法的信息分类装置的结构示意图;38.图3示出了本公开实施例三的基于区域缓冲的knn算法的信息分类设备的结构示意图。具体实施方式39.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。40.另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。41.本公开实施例的基于区域缓冲的knn算法的信息分类方法,可以应用于对数据量较大的信息数据进行分类,以提高分类效率。具体地,将待分类的信息转化为多维空间中的特征点,然后利用优化后的knn算法即(区域缓冲knn算法)将特征点划分到多个子空间中,从目标子空间向周围子空间进行扩散遍历,直到遍历到的特征点的数量满足预设条件,将遍历到的特征点划分为一个类。从而提高在处理计算量大的数据时的计算效率,进而提高机器学习的效率。42.常规的knn算法,需要计算所有其他节点到目标节点的平均距离,并判断该平均距离是否为最小值,若不是最小值则更换目标节点,重复计算,通过多次迭代确定最终目标节点,使得其他节点到最终目标节点的平均距离值最小。常规的knn算法,每更换一次目标节点,就需要计算一次其他节点到目标节点的距离,进而计算得到平均距离,这样,当数据量过大时,例如达到百万级以上时,则需要的时间太长,从而影响了算法效率,进而影响了提高机器学习的效率。43.由于现有技术中常规的knn算法在对图像进行分类时,存在的上述技术问题,本公开实施例提供一种基于区域缓冲的knn算法的信息分类方法。44.具体地,如图1所示,为本公开实施例一的基于区域缓冲的knn算法的信息分类方法的流程图。在本实施例中,所述基于区域缓冲的knn算法的信息分类方法,可以包括以下步骤;45.s101:获取目标信息集合,所述目标信息集合包括多条待分类的信息。46.本公开实施例的方法,通过对常规的knn算法进行优化,以提高knn算法的计算效率,并利用优化后的knn算法对信息进行分类。47.首先,需要获取待分类的信息。本公开实施例中的待分类的信息,可以是通过上游程序生成的中间图信息,例如对图像进行裁剪后生成的待分类的图像,或者对文本信息进行关键词提取后生成的待分类的文本信息,也可以是接收到其他程序发送的图像数据或文本数据,例如可以是其他程序直接发送的待分类的图像或文本数据,这里不再一一列举。48.s102:对所述目标信息集合中的信息进行处理,生成对应多维空间中的特征点,每个特征点对应一个特征向量。49.在本实施例中,当获取到目标图像集合后,对目标信息集合中的信息进行处理,生成对应的特征点,该特征点为多维空间中的点,每个特征点对应一个特征向量。以人脸图像为例,可以预先定义特征点的维度,例如眼间距、眉间距、嘴唇最大宽度、嘴唇最大高度等。并且生成的特征点是可以动态增加的,即可以对新接收到的信息进行实时的特征转换,生成对应的特征点。50.s103:将所述多维空间按照预设规则划分为多个子空间。51.在本实施例中,在根据目标信息集合中的信息生成对应的特征点后,生成的特征点对应多维空间中的点,每个特征点对应一个特征向量。例如,特征点a对应的特征向量为a’(a1,a2,a3,……,an),其中n为多维空间的维度。52.具体地,可以按照预设步长对多维空间进行划分,将多维空间在每个维度上划分为多个区间,从而将多维空间划分为多个子空间,所述子空间的每个维度的取值范围对应多维空间的一个区间。53.以三维空间为例,步长为5,则可以将三维空间划分为多个边长为5的正方体空间,也就是说,特征点的坐标在(x,y,z)~(x+5,y+5,z+5),范围内的时,将这些特征点分别划分同一子空间,并且,用子空间中最靠近多维空间原点的点的坐标表示子空间,即用坐标(x,y,z)表示该子空间。上述只是示例性的说明了三维空间的划分,对于更高维空间的划分,也可以参照上述方式进行。54.s104:建立所述特征点和所述子空间的对应关系。55.具体地,可以生成列表,在列表中记录子空间的编号以及子空间内对应的特征点。例如,在将所述多维空间划分为多个子空间后,按照其他子空间到目标子空间的距离由小到大的顺序将其他子空间进行排序。例如子空间(x+5,y,z),(x,y+5,z),(x,y,z+5)到子空间(x,y,z)的距离为5,则子空间(x+5,y,z),(x,y+5,z),(x,y,z+5)排在同一顺序位,子空间(x+5,y+5,z),(x,y+5,z+5),(x+5,y,z+5)到子空间(x,y,z)的距离为则子空间(x+5,y+5,z),(x,y+5,z+5),(x+5,y,z+5)排在同一顺序位,按照同样的方式,可以对其他子空间进行排序,从而建立特征点和子空间的对应关系。56.s105:从目标子空间向周围子空间进行扩散遍历,直到遍历到的特征点的数量满足预设条件,将遍历到的特征点划分为一个类,从而将所述目标信息集合划分为多个类。57.在建立特征点和子空间的对应关系后,选取目标特征点,按照到目标特征点所在子空间的距离由小到大的顺序向周围逐层进行扩散遍历,直到遍历到的子空间中的特征点的数量大于或等于k,将遍历到的特征点划分为一个类,从而将所述目标信息集合划分为多个类,其中,k为最邻近结点算法的期望输出值的个数。58.本公开的基于区域缓冲的knn算法的信息分类方法,能够提高在处理计算量大的数据时的计算效率,从而提高信息分类的效率,进而提高机器学习的效率。59.作为本公开的一个实施例,在上述实施例中,还可以包括:60.在所述按照预设步长对多维空间进行划分,将多维空间在每个维度上划分为多个区间,从而将多维空间划分为多个子空间的同时,持续接收新加入到所述目标信息集合中的待分类的信息,将新接收到的待分类的信息处理成对应的特征点。或者包括:在所述按照301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法。74.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。75.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。76.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。77.此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。78.尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
基于区域缓冲的KNN算法的信息分类方法和装置与流程
作者:admin
2022-08-31 16:32:42
950
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术
- 下一篇: 数字病理切片扫描仪中切片位置的检测方法和装置与流程
- 上一篇: 一种应用于无人机的充电方法及装置与流程