发布信息

文档搜索的优化处理方法、装置及电子设备与流程

作者:admin      2022-11-19 09:17:13     647



计算;推算;计数设备的制造及其应用技术1.本技术涉及数据处理技术领域,尤其涉及一种文档搜索的优化处理方法、装置及电子设备。背景技术:2.在文档库搜索时,各种不同的用户具备不同的搜索需求,各种不同的用户具备不同的文档排序要求。3.目前多按照文档与搜索需求之间的相似度来排序搜索得到的文档,这就导致客户的检索时间长,搜索效率较低。4.因此,亟需一种能够提高文档搜索效率的技术方案。技术实现要素:5.有鉴于此,本技术提供一种文档搜索的优化处理方法、装置及电子设备,用以解决文档搜索速率较低的技术问题。如下:6.一种文档搜索的优化处理方法,所述方法包括:7.获得文档搜索请求,所述文档搜索请至少包含有搜索关键词,所述搜索关键词基于预设的搜索标签和输入操作得到;8.使用所述搜索关键词,在数据集合中获得与所述搜索关键词相匹配的第一搜索结果;所述数据集合中包含有多条历史搜索结果,所述历史搜索结果对应有历史关键词和至少一个历史文档;所述历史搜索结果包含按照所述历史关键词在每个所述历史文档中的多个搜索部分分别进行搜索得到的关键词统计信息,所述历史文档针对每个所述搜索部分按照所述关键词统计信息具有文档次序;9.使用所述搜索关键词,在包含多个文档的文档库中获得第二搜素结果,所述第二搜索结果包含按照所述搜索关键词在每个目标文档中的多个搜索部分分别进行搜索得到的关键词统计信息,所述目标文档针对每个所述搜索部分按照所述关键词统计信息具有文档次序;10.根据所述第二搜索结果中的所述目标文档针对每个所述搜索部分的文档次序,对所述第一搜索结果中的所述历史文档针对每个所述搜索部分的文档次序进行调整;11.根据所述第一搜索结果中的历史文档针对每个所述搜索部分的文档次序,对所述第一搜索结果中的历史文档进行排序,以得到所述历史文档的目标次序;12.按照所述目标次序,输出所述历史文档对应的文档信息。13.上述方法,优选的,使用所述搜索关键词,在包含多个文档的文档库中获得第二搜素结果,包括:14.将所述搜索关键词与文档库中的每个文档的每个搜索部分分别进行匹配,以得到每个所述文档针对每个所述搜索部分的匹配参数;15.针对每个所述文档,根据每个所述搜索部分对应的权重值,对所述搜索部分对应的匹配参数加权求和,以得到每个所述文档的匹配度值;16.根据每个所述文档的匹配度值,确定与所述搜索关键词满足匹配条件的目标文档;17.根据每个所述目标文档针对每个所述搜索部分的匹配参数,获得第二搜索结果。18.上述方法,优选的,所述匹配参数包括:每个所述文档在每个所述搜索部分中包含的与所述搜索关键词相匹配的关键词的统计数量;19.所述目标文档针对每个所述搜索部分的文档次序与所述目标文档在相应的所述搜索部分对应的所述统计数量相匹配。20.上述方法,优选的,每个所述搜索部分对应的权重值的获取过程,包括:21.获得多个搜索记录数据;所述搜索记录数据包含记录关键词、搜索部分、记录文档、记录匹配度值;22.将所述记录关键词与所述记录文档的每个所述搜索部分分别进行匹配,以得到每个所述记录文档针对每个所述搜索部分的记录匹配参数;23.根据所述记录匹配度值和所述记录匹配参数,获得每个所述搜索部分对应的权重值。24.上述方法,优选的,还包括:25.根据所述历史关键词在每个所述历史文档中的多个搜索部分分别进行搜索得到的关键词统计信息,对所述搜索部分进行合并,以得到新的搜索部分;26.根据所述新的搜索部分,更新每个所述历史文档在每个所述新的搜索部分对应的关键词统计信息。27.上述方法,优选的,对所述搜索部分进行合并,包括:28.在所述搜索部分对应的关键词统计信息满足合并条件的情况下,获得与所述搜索部分满足关联关系的目标部分;29.将所述目标部分与所述搜索部分进行合并,以得到新的搜索部分。30.上述方法,优选的,所述搜索部分具有优先级;31.其中,根据所述第二搜索结果中的所述目标文档针对每个所述搜索部分的文档次序,对所述第一搜索结果中的所述历史文档针对每个所述搜索部分的文档次序进行调整,包括:32.使用所述第二搜索结果中的所述目标文档针对所述搜索部分的文档次序,按照所述搜索部分的优先级从高到低的次序,依次对所述第一搜索结果中的所述历史文档针对每个所述搜索部分的文档次序进行调整。33.上述方法,优选的,所述搜索部分的优先级与所述搜索部分对应的关键词统计信息相匹配。34.一种文档搜索的优化处理装置,所述装置包括:35.请求获得单元,用于获得文档搜索请求,所述文档搜索请至少包含有搜索关键词,所述搜索关键词基于预设的搜索标签和输入操作得到;36.历史搜索单元,用于使用所述搜索关键词,在数据集合中与所述搜索关键词相匹配的第一搜索结果;所述数据集合中包含有多条历史搜索结果,所述历史搜索结果对应有历史关键词和至少一个历史文档;所述历史搜索结果包含按照所述历史关键词在每个所述历史文档中的多个搜索部分分别进行搜索得到的关键词统计信息,所述历史文档针对每个所述搜索部分按照所述关键词统计信息具有文档次序;37.实时搜索单元,用于使用所述搜索关键词,在包含多个文档的文档库中获得第二搜素结果,所述第二搜索结果包含按照所述搜索关键词在每个目标文档中的多个搜索部分分别进行搜索得到的关键词统计信息,所述目标文档针对每个所述搜索部分按照所述关键词统计信息具有文档次序;38.文档调整单元,用于根据所述第二搜索结果中的所述目标文档针对所述搜索部分的文档次序,对所述第一搜索结果中的所述历史文档针对所述搜索部分的文档次序进行调整;39.文档排序单元,用于根据所述第一搜索结果中的历史文档针对每个所述搜索部分的文档次序,对所述第一搜索结果中的历史文档进行排序,以得到所述历史文档的目标次序;40.信息输出单元,用于按照所述目标次序,输出所述历史文档对应的文档信息。41.一种电子设备,包括:42.存储器,用于存储计算机程序以及所述计算机程序运行所产生的数据;43.处理器,用于执行所述计算机程序,以实现:获得文档搜索请求,所述文档搜索请至少包含有搜索关键词,所述搜索关键词基于预设的搜索标签和输入操作得到;使用所述搜索关键词,在数据集合中与所述搜索关键词相匹配的第一搜索结果;所述数据集合中包含有多条历史搜索结果,所述历史搜索结果对应有历史关键词和至少一个历史文档;所述历史搜索结果包含按照所述历史关键词在每个所述历史文档中的多个搜索部分分别进行搜索得到的关键词统计信息,所述历史文档针对每个所述搜索部分按照所述关键词统计信息具有文档次序;使用所述搜索关键词,在包含多个文档的文档库中获得第二搜素结果,所述第二搜索结果包含按照所述搜索关键词在每个目标文档中的多个搜索部分分别进行搜索得到的关键词统计信息,所述目标文档针对每个所述搜索部分按照所述关键词统计信息具有文档次序;根据所述第二搜索结果中的所述目标文档针对所述搜索部分的文档次序,对所述第一搜索结果中的所述历史文档针对所述搜索部分的文档次序进行调整;根据所述第一搜索结果中的历史文档针对每个所述搜索部分的文档次序,对所述第一搜索结果中的历史文档进行排序,以得到所述历史文档的目标次序;按照所述目标次序,输出所述历史文档对应的文档信息。44.从上述技术方案可以看出,本技术公开的一种文档搜索的优化方法、装置及电子设备中,在获得到文档搜索请求之后,根据其中的搜索关键词,在包含多条历史搜索结果的数据集合中查找相匹配的第一搜索结果,并在包含多个文档的文档库中查找相匹配的第二搜索结果,进而根据第二搜索结果中的目标文档针对每个搜索部分的文档次序,对第一搜索结果中的历史文档针对每个搜索部分的文档次序进行调整,之后,再根据第一搜索结果中的历史文档针对每个搜索部分的文档次序,对第一搜索结果中的历史文档进行排序,以得到历史文档的目标次序,最后按照目标次序,输出历史文档对应的文档信息。可见,本技术中记录对文档按照多个搜索部分分别进行搜索所的得到搜索结果,用于指导实时搜索中各个搜索部分的文档排序,使得排序出的文档与各个搜索部分相关,避免排序条件单元的情况,进而提高文档的搜索效率。附图说明45.为了更清楚地说明本技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。46.图1为本技术实施例一提供的一种文档搜索的优化处理方法的流程图;47.图2、图3、图4分别为本技术实施例一提供的一种文档搜索的优化处理方法的部分流程图;48.图5为本技术实施例二提供的一种文档搜索的优化处理装置的结构示意图;49.图6、图7分别为本技术实施例二提供的一种文档搜索的优化处理装置的另一结构示意图;50.图8为本技术实施例三提供的一种电子设备的结构示意图。具体实施方式51.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。52.参考图1所示,为本技术实施例一提供的一种文档搜索的优化处理方法的实现流程图,该方法可以适用于能够进行数据处理的电子设备中,如计算机或服务器。本实施例中的技术方案主要用于提高文档搜索效率。53.具体的,本实施例中的方法可以包含如下步骤:54.步骤101:获得文档搜索请求。55.其中,文档搜索请求中包含至少一个搜索关键词。搜索关键词基于预设的搜索标签和输入操作得到。这里的输入操作是指用户通过输入界面所输入的操作,其中包含有输入关键词等,而搜索标签是指用户相关的预设标签,如业务系统标签、用户职位标签等。56.步骤102:使用搜索关键词,在数据集合中获得与搜索关键词相匹配的第一搜索结果。57.其中,数据集合中包含有多条历史搜索结果,历史搜索结果对应有历史关键词和至少一个历史文档;历史搜索结果包含按照历史关键词在每个历史文档中的多个搜索部分分别进行搜索得到的关键词统计信息,历史文档针对每个搜索部分按照关键词统计信息具有文档次序。58.需要说明的是,这里的搜索部分可以理解为文档的被搜索区域,如文档标题、文档正文、文档标签等。59.具体的,本实施例中可以使用搜索关键词与数据集合中每条历史搜索结果对应的历史关键词进行相似度比对,进而将相似度满足相应条件如相似度大于相应阈值的历史搜索结果确定为与搜索关键词相匹配的第一搜索结果。60.例如,数据集合可以记为map数据区,其中包含多条历史搜索结果,每条历史搜素结果对应有key和value,其中的key为用户的业务系统标签、用户的职位标签和用户输入条件(输入关键词)组成,相应的value值为eky对应的历史文档,而历史搜索结果中的关键词统计信息可以理解为按照key中的关键词在各个搜索部分进行关键词匹配后所得到的满足匹配条件的关键词的统计数量。搜索部分之间的优先级与搜索部分对应的关键词统计信息相匹配,也就是说,按照关键词统计信息中统计数量的大小,搜索部分之间具有相应高低的优先级。61.例如,文档a在正文部分匹配到的关键词有30个,文档a在标题部分匹配到的关键词有2个,文档a在标签部分匹配到的关键词有4个,那么正文部分的优先级高于标签部分的优先级,标签部分的优先级高于标题部分的优先级。62.且针对每个搜索部分,历史文档之间按照统计数量具有文档次序。例如,文档b在正文部分匹配到的关键词有20个,文档c在正文部分匹配到的关键词有17个,那么针对该正文部分,文档b排序在文档c之前。63.例如,搜索部分记为搜索核心,在文档中有核心1、核心3和核心2,第一搜索结果对应有历史文档a、b、c、d、e、m、n,针对每个核心的历史文档的文档次序为:[a,b,c,d,e]、[d,c,e,m]、[a,b,n]。[0064]步骤103:使用搜索关键词,在包含多个文档的文档库中获得第二搜素结果。[0065]其中,第二搜索结果包含按照搜索关键词在每个目标文档中的多个搜索部分分别进行搜索得到的关键词统计信息,目标文档针对每个搜索部分按照关键词统计信息具有文档次序。[0066]具体的,本实施例中使用搜索关键词,在文档库中的每个文档中进行关键词匹配,以得到每个文档在每个搜索部分上匹配到的关键词的统计数量,按照该统计数量,获得到文档库中与搜索关键词相匹配的目标文档以及目标文档针对每个搜索部分之间的文档次序。[0067]例如,使用搜索关键词“****”在文档库中的每个文档的正文、标签和标题等部分分别进行关键词搜索,以得到与搜索关键词相匹配的多个目标文档以及这多个目标文档之间分别针对正文部分、标签部分以及标题部分的文档次序。[0068]步骤104:根据第二搜索结果中的目标文档针对每个搜索部分的文档次序,对第一搜索结果中的历史文档针对每个搜索部分的文档次序进行调整。[0069]具体的,本实施例中可以使用第二搜索结果中的所述目标文档针对所述搜索部分的文档次序,按照所述搜索部分的优先级从高到低的次序,依次对所述第一搜索结果中的所述历史文档针对每个所述搜索部分的文档次序进行调整。[0070]例如,使用第二搜索结果的文档次序,对针对核心1、核心3和核心2的文档次序[a,b,c,d,e]、[d,c,e,m]、[a,b,n]进行调整,因为在第二搜索结果中,针对核心1的文档d排序在文档c之前,针对核心3的文档e排序在文档c之前,因此,调整后的文档次序为[a,b,d,c,e]、[d,e,c,m]、[a,b,n]。[0071]步骤105:根据第一搜索结果中的历史文档针对每个搜索部分的文档次序,对第一搜索结果中的历史文档进行排序,以得到所述历史文档的目标次序。[0072]具体的,本实施例中可以按照搜索部分之间的优先级从高到低的次序,对第一搜索结果中的历史文档进行排序,以得到历史文档的目标次序。[0073]例如,针对核心1、核心3和核心2的文档次序[a,b,d,c,e]、[d,e,c,m]、[a,b,n],以核心1为最高优先级,以核心2为最低优先级,对文档a、b、c、d、e、m、n排序为:[a,b,d,c,e,m,n]。[0074]步骤106:按照目标次序,输出历史文档对应的文档信息。[0075]例如,将文档按照[a,b,d,c,e,m,n]的文档次序,输出文档的页面链接,用户在选中页面链接后,就可以跳转到相应的文档,以读取文档的内容。[0076]从上述技术方案可以看出,本技术实施例一提供的一种文档搜索的优化方法中,在获得到文档搜索请求之后,根据其中的搜索关键词,在包含多条历史搜索结果的数据集合中查找相匹配的第一搜索结果,并在包含多个文档的文档库中查找相匹配的第二搜索结果,进而根据第二搜索结果中的目标文档针对每个搜索部分的文档次序,对第一搜索结果中的历史文档针对每个搜索部分的文档次序进行调整,之后,再根据第一搜索结果中的历史文档针对每个搜索部分的文档次序,对第一搜索结果中的历史文档进行排序,以得到历史文档的目标次序,最后按照目标次序,输出历史文档对应的文档信息。可见,本实施例中记录对文档按照多个搜索部分分别进行搜索所的得到搜索结果,用于指导实时搜索中各个搜索部分的文档排序,使得排序出的文档与各个搜索部分相关,避免排序条件单元的情况,进而提高文档的搜索效率。[0077]在一种实现方式中,步骤103在获得第二搜索结果时,可以通过以下方式实现,如图2中所示:[0078]步骤201:将搜索关键词与文档库中的每个文档的每个搜索部分分别进行匹配,以得到每个文档针对每个搜索部分的匹配参数。[0079]例如,将搜索关键词分别与文档库中每个文档的每个搜索部分进行关键词匹配,进而得到每个文档在每个搜索部分与搜索关键词之间的匹配参数。[0080]具体的,这里的匹配参数可以为:每个文档在每个搜索部分包含的与搜索关键词相匹配的关键词的统计数量。例如,文档a在正文部分匹配到的关键词有30个,文档a在标题部分匹配到的关键词有2个,文档a在标签部分匹配到的关键词有4个,相应的,文档a对应的匹配参数包含:正文部分的30、标题部分的2和标签部分的4。[0081]步骤202:针对每个文档,根据每个搜索部分对应的权重值,对搜索部分对应的匹配参数加权求和,以得到每个文档的匹配度值。[0082]其中,针对不同文档,每个搜索部分对应的权重值可能有所不同,基于此,本实施例中针对每个文档,分别使用该文档在每个搜索部分对应的权重值对相应搜索部分对应的匹配参数如统计数量进行加权求和(也可以为加权求平均),以得到每个文档的匹配度值。每个文档的匹配度值表征该文档与搜索关键词之间的匹配程度。[0083]步骤203:根据每个文档的匹配度值,确定与搜索关键词满足匹配条件的目标文档。[0084]其中,匹配条件可以为:匹配度值大于或等于预设的匹配阈值。基于此,本实施例中对匹配度值与匹配阈值进行大小判断,如果匹配度值大于或等于匹配阈值,那么该文档与搜索关键词相匹配,记为目标文档,如果匹配度值小于匹配阈值,那么该文档与搜索关键词不匹配。[0085]步骤204:根据每个目标文档针对每个搜索部分的匹配参数,获得第二搜索结果。[0086]其中,目标文档针对每个搜索部分的文档次序与目标文档在相应的所述搜索部分对应的统计数量相匹配。[0087]例如,在确定与搜索关键词满足匹配条件的目标文档之后,针对每个搜索部分,按照相应匹配参数中的统计数量,对目标文档进行排序,以得到目标文档针对每个搜索部分的文档次序。[0088]例如,文档b在正文部分匹配到的关键词有20个,文档c在正文部分匹配到的关键词有17个,那么针对该正文部分,文档次序为[b,c],由此得到第二搜索结果。[0089]在一种实现方式中,每个搜索部分对应的权重值可以通过以下方式获得,如图3中所示:[0090]步骤301:获得多个搜索记录数据。[0091]其中,搜索记录数据为历史搜索过程中所记录的历史数据。例如,获取线下客户在文档库中的检索记录,并对检索记录进行归类,以得到搜索记录数据。具体的,搜索记录数据中包含记录关键词(历史搜索所使用的关键词)、搜索部分、记录文档(历史搜索中与记录关键词相匹配的文档)、记录匹配度值(记录文档与记录关键词之间的匹配度值)。[0092]步骤302:将记录关键词与记录文档的每个搜索部分分别进行匹配,以得到每个记录文档针对每个搜索部分的记录匹配参数。[0093]例如,将记录关键词分别与记录文档的每个搜索部分进行关键词匹配,进而得到每个记录文档在每个搜索部分与记录关键词之间的记录匹配参数。[0094]其中,记录匹配参数可以为每个记录文档在每个搜索部分包含的与记录关键词相匹配的关键词的统计数量。[0095]步骤303:根据记录匹配度值和记录匹配参数,获得每个搜索部分对应的权重值。[0096]在一种实现方式中,本实施例中首先初始化每个搜索部分对应的权重值,使用权重值对一组记录匹配参数进行加权求和,以得到初始匹配度值,这里的一组记录匹配参数是指一个记录文档针对每个搜索部分的记录匹配参数;之后,根据初始匹配度值与记录匹配度值之间的差值,对每个搜索部分对应的权重值进行调整;之后,使用调整后的权重值对新的一组记录匹配参数进行加权求和,以得到中间匹配度值;之后,根据中间匹配度值与记录匹配度值之间的差值,对每个搜索部分对应的权重值进行调整;以此列推,直到中间匹配度值与记录匹配度值之间的差值小于或等于差值阈值,确定此时的权重值为每个搜索部分对应的准确的权重值。[0097]在另一种实现方式中,本实施例中可以按照搜索部分的数量,选择相应数量的多组记录匹配参数,以每个搜索部分的权重值为自变量以记录匹配度值为因变量,根据记录匹配参数建立多个多元一次方程组,通过求解这多个多元一次方程组,得到每个搜索部分的权重值。[0098]在一种实现方式中,本实施例中的方法还可以包含如下步骤,如图4中所示:[0099]步骤401:根据历史关键词在每个历史文档中的多个搜索部分分别进行搜索得到的关键词统计信息,对搜索部分进行合并,以得到新的搜索部分。[0100]具体的,本实施例中可以在搜索部分对应的关键词统计信息满足合并条件的情况下,获得与搜索部分满足关联关系的目标部分,进而将目标部分与搜索部分进行合并,以得到新的搜索部分。[0101]其中,合并条件可以为:搜索部分对应的关键词统计信息中的统计数量小于或等于数量阈值。也就是说,本实施例中对各个搜索部分对应的关键词统计信息中的统计数量的大小进行检测,只有在统计数量较小时,考虑将该搜索部分与其他搜索部分进行合并。[0102]具体的,关联条件可以为:搜索部分的要素项(关键词)之间的相似度大于或等于相似阈值,基于此,本实施例中在其他搜索部分中找到相似度较高的目标部分,然后将目标部分与满足合并条件的搜索部分进行合并,合并后的部分即为新的搜索部分。[0103]步骤402:根据新的搜索部分,更新每个历史文档在每个新的搜索部分对应的关键词统计信息。[0104]其中,本实施例中在得到新的搜索部分之后,根据这个新的搜索部分对应的合并前的两个搜索部分(即目标部分与满足合并条件的搜索部分)对应的关键词统计信息,更新这个新的搜索部分对应的关键词统计信息。[0105]参考图5,为本技术实施例二提供的一种文档搜索的优化处理装置的结构示意图,该装置可以配置在能够进行数据处理的电子设备中,如计算机或服务器等。本实施例中的技术方案主要用于提高文档搜索效率。[0106]具体的,本实施例中的装置可以包含如下单元:[0107]请求获得单元501,用于获得文档搜索请求,所述文档搜索请至少包含有搜索关键词,所述搜索关键词基于预设的搜索标签和输入操作得到;[0108]历史搜索单元502,用于使用所述搜索关键词,在数据集合中与所述搜索关键词相匹配的第一搜索结果;所述数据集合中包含有多条历史搜索结果,所述历史搜索结果对应有历史关键词和至少一个历史文档;所述历史搜索结果包含按照所述历史关键词在每个所述历史文档中的多个搜索部分分别进行搜索得到的关键词统计信息,所述历史文档针对每个所述搜索部分按照所述关键词统计信息具有文档次序;[0109]实时搜索单元503,用于使用所述搜索关键词,在包含多个文档的文档库中获得第二搜素结果,所述第二搜索结果包含按照所述搜索关键词在每个目标文档中的多个搜索部分分别进行搜索得到的关键词统计信息,所述目标文档针对每个所述搜索部分按照所述关键词统计信息具有文档次序;[0110]文档调整单元504,用于根据所述第二搜索结果中的所述目标文档针对所述搜索部分的文档次序,对所述第一搜索结果中的所述历史文档针对所述搜索部分的文档次序进行调整;[0111]文档排序单元505,用于根据所述第一搜索结果中的历史文档针对每个所述搜索部分的文档次序,对所述第一搜索结果中的历史文档进行排序,以得到所述历史文档的目标次序;[0112]信息输出单元506,用于按照所述目标次序,输出所述历史文档对应的文档信息。[0113]从上述技术方案可以看出,本技术实施例二提供的一种文档搜索的优化装置中,在获得到文档搜索请求之后,根据其中的搜索关键词,在包含多条历史搜索结果的数据集合中查找相匹配的第一搜索结果,并在包含多个文档的文档库中查找相匹配的第二搜索结果,进而根据第二搜索结果中的目标文档针对每个搜索部分的文档次序,对第一搜索结果中的历史文档针对每个搜索部分的文档次序进行调整,之后,再根据第一搜索结果中的历史文档针对每个搜索部分的文档次序,对第一搜索结果中的历史文档进行排序,以得到历史文档的目标次序,最后按照目标次序,输出历史文档对应的文档信息。可见,本实施例中记录对文档按照多个搜索部分分别进行搜索所的得到搜索结果,用于指导实时搜索中各个搜索部分的文档排序,使得排序出的文档与各个搜索部分相关,避免排序条件单元的情况,进而提高文档的搜索效率。[0114]在一种实现方式中,实时搜索单元503具体用于:将所述搜索关键词与文档库中的每个文档的每个搜索部分分别进行匹配,以得到每个所述文档针对每个所述搜索部分的匹配参数;针对每个所述文档,根据每个所述搜索部分对应的权重值,对所述搜索部分对应的匹配参数加权求和,以得到每个所述文档的匹配度值;根据每个所述文档的匹配度值,确定与所述搜索关键词满足匹配条件的目标文档;根据每个所述目标文档针对每个所述搜索部分的匹配参数,获得第二搜索结果。[0115]在一种实现方式中,所述匹配参数包括:每个所述文档在每个所述搜索部分中包含的与所述搜索关键词相匹配的关键词的统计数量;所述目标文档针对每个所述搜索部分的文档次序与所述目标文档在相应的所述搜索部分对应的所述统计数量相匹配。[0116]在一种实现方式中,本实施例中的装置还可以包含如下单元,如图6中所示:[0117]权重获得单元507,用于:获得多个搜索记录数据;所述搜索记录数据包含记录关键词、搜索部分、记录文档、记录匹配度值;将所述记录关键词与所述记录文档的每个所述搜索部分分别进行匹配,以得到每个所述记录文档针对每个所述搜索部分的记录匹配参数;根据所述记录匹配度值和所述记录匹配参数,获得每个所述搜索部分对应的权重值。[0118]在一种实现方式中,本实施例中的装置还可以包含如下单元,如图7中所示:[0119]部分合并单元508,用于根据所述历史关键词在每个所述历史文档中的多个搜索部分分别进行搜索得到的关键词统计信息,对所述搜索部分进行合并,以得到新的搜索部分,例如,在所述搜索部分对应的关键词统计信息满足合并条件的情况下,获得与所述搜索部分满足关联关系的目标部分;将所述目标部分与所述搜索部分进行合并,以得到新的搜索部分;根据所述新的搜索部分,更新每个所述历史文档在每个所述新的搜索部分对应的关键词统计信息。[0120]在一种实现方式中,所述搜索部分具有优先级;文档调整单元504具体用于:使用所述第二搜索结果中的所述目标文档针对所述搜索部分的文档次序,按照所述搜索部分的优先级从高到低的次序,依次对所述第一搜索结果中的所述历史文档针对每个所述搜索部分的文档次序进行调整。[0121]可选方案中,所述搜索部分的优先级与所述搜索部分对应的关键词统计信息相匹配。[0122]需要说明的是,本实施例中各单元的具体实现可以参考前文中的相应内容,此处不再详述。[0123]参考图8,为本技术实施例三提供的一种电子设备的结构示意图,该电子设备可以为能够进行数据处理的电子设备中,如计算机或服务器。本实施例中的技术方案主要用于提高文档搜索效率。[0124]具体的,本实施例中的电子设备可以包含如下结构:[0125]存储器801,用于存储计算机程序以及所述计算机程序运行所产生的数据;[0126]处理器802,用于执行所述计算机程序,以实现:获得文档搜索请求,所述文档搜索请至少包含有搜索关键词,所述搜索关键词基于预设的搜索标签和输入操作得到;使用所述搜索关键词,在数据集合中与所述搜索关键词相匹配的第一搜索结果;所述数据集合中包含有多条历史搜索结果,所述历史搜索结果对应有历史关键词和至少一个历史文档;所述历史搜索结果包含按照所述历史关键词在每个所述历史文档中的多个搜索部分分别进行搜索得到的关键词统计信息,所述历史文档针对每个所述搜索部分按照所述关键词统计信息具有文档次序;使用所述搜索关键词,在包含多个文档的文档库中获得第二搜素结果,所述第二搜索结果包含按照所述搜索关键词在每个目标文档中的多个搜索部分分别进行搜索得到的关键词统计信息,所述目标文档针对每个所述搜索部分按照所述关键词统计信息具有文档次序;根据所述第二搜索结果中的所述目标文档针对所述搜索部分的文档次序,对所述第一搜索结果中的所述历史文档针对所述搜索部分的文档次序进行调整;根据所述第一搜索结果中的历史文档针对每个所述搜索部分的文档次序,对所述第一搜索结果中的历史文档进行排序,以得到所述历史文档的目标次序;按照所述目标次序,输出所述历史文档对应的文档信息。[0127]从上述技术方案可以看出,本技术实施例三提供的一种电子设备中,在获得到文档搜索请求之后,根据其中的搜索关键词,在包含多条历史搜索结果的数据集合中查找相匹配的第一搜索结果,并在包含多个文档的文档库中查找相匹配的第二搜索结果,进而根据第二搜索结果中的目标文档针对每个搜索部分的文档次序,对第一搜索结果中的历史文档针对每个搜索部分的文档次序进行调整,之后,再根据第一搜索结果中的历史文档针对每个搜索部分的文档次序,对第一搜索结果中的历史文档进行排序,以得到历史文档的目标次序,最后按照目标次序,输出历史文档对应的文档信息。可见,本实施例中记录对文档按照多个搜索部分分别进行搜索所的得到搜索结果,用于指导实时搜索中各个搜索部分的文档排序,使得排序出的文档与各个搜索部分相关,避免排序条件单元的情况,进而提高文档的搜索效率。[0128]以银行客户使用咨询系统搜索文档为例,本技术建立一种文档库基于多核心的索引优化方案,该方案能够动态的对核心进行创建,每个核心采用不同的索引匹配和排序方案,在客户检索时能够对多核心的匹配结果集进行优化排序,解决传统搜索条件单一的问题,同时在系统使用过程中,能够基于客户的搜索特性对核心进行撤并,实时更新文档库的搜索引擎权重,进一步提升客户的搜索准确性和实时性。本技术中的方案主要包含以下三个模块:[0129]核心创建模块:根据多类型客户的搜索需求,定制多核心文档库数据匹配规则,并存储到多个服务器节点中。[0130]数据排序模块:对客户的搜索需求进行多服务器分布式数据匹配,对各核心的匹配数据进行综合排序。[0131]核心撤并模块:对核心使用过程中的命中次数以及核心排序时的主辅顺序对当前的多核心进行撤并。[0132]可见,本技术建立的一种文档库基于多核心的索引优化方案中,能够兼容多种客户搜索需求设置不同的搜索权重和搜索要素项,实现自定义搜索的多条件综合排序,并且在使用过程中能够对多个核心进行撤并,具体方案如下所示:[0133]根据客户的搜索需求不同,定制多个搜索虚拟核心(即前文中的搜索部分),核心中存储了三个区域的内容实现不同条件搜索,即:规则区、统计区、map数据区。[0134]其中的规则区是在线下获取客户的检所记录时,对检索记录进行归类,识别不同客户的不同搜索需求,针对没一类搜索需求,将客户的检索条件与检索的结果集进行反推,识别获取文档库中各文档的要素项,针对各核心的要素项如正文、标题、标签,对要素项的权重进行计算,计算方法为:以客户检索记录中的客户检索输入条件和搜索结果集为测试集,对各要素项初始化随机权重,以客户的命中文档为标签,对各权重进行粒子群算法调整,当计算得到各权重的局部最优解后设置为各要素项权重。[0135]统计区的数据是为客户输入条件(搜索关键词)匹配数据(历史文档)返回客户后,核心匹配到数据的主辅顺序以及对应数据的应用次数。[0136]map数据区的key为客户的业务系统标签、职位标签结合客户检索输入条件,value值为当前条件下的最匹配数据集合。将各个核心的上述数据存储至多个服务器节点中,各核心之间无先后顺序。[0137]客户输入检索条件后,首先对各个核心的数据区进行匹配,自动获取客户的标签信息以及标签项下的历史搜索和当前搜索,通过客户的标签信息和输入的检索条件和历史搜索信息进行key值匹配,得到匹配度大于系统阈值的结果集d(第一搜索结果),对d中的各核心的搜索历史中的该标签项进行搜索排序加成,得到各核心的匹配度综合排序,例如核心1、核心3、核心2,即;其次对多个核心分别按照多机器分布式计算各规则对应数据,得出结果集[a,b,c,d,e]、[d,c,e,m]、[a,b,n],将d中的结果集与该结果集进行比较,进行排序第一次优化得到[a,b,d,c,e]、[d,e,c,m]、[a,b,n],再将整体的数据按照核心1、核心3、核心2进行二次排序,合并多核心为一个数据列表,即[a,b,d,c,e,m,n],最终将结果多服务器节点的结果去重后返回给客户。[0138]在客户接受排序结果后,系统对客户的文档结果进行记录,同时对核心的统计区数据进行填充,填充项包括各核心的命中次数、核心排序的历史排名等,系统定时对统计区的数据进行计算,当核心的统计区数数据次数小于系统阈值时,对当前核心m进行撤并,撤并时对其余核心要素项进行相似度比较,对相似度最高的核心n执行撤并操作,即以n为主,将m的检索记录测试集添加到n中,并且以n的当前要素项和权重为基准,对权重进行粒子群迭代,获取最好的结果作为新的权重,同时将m的数据区数据迁移至n中。[0139]本发明提供的文档搜索的优化处理方法、装置及电子设备可用于大数据或其他领域,例如,可用于大数据领域中的海量数据搜索场景。其他领域为除金融领域之外的任意领域,例如,分布式领域、云计算领域、人工智能领域、物联网领域。上述仅为示例,并不对本发明提供的发明名称的应用领域进行限定。[0140]本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。[0141]专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。[0142]结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。[0143]对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部