计算;推算;计数设备的制造及其应用技术1.本发明涉及数字本文处理技术领域,更具体地,涉及一种简历标签化筛选系统及方法。背景技术:2.随着网络招聘的发展,招聘网站利用自身人才资源为企业提供相关的招聘收费服务,大多数企业每次招聘需要重新付费,无法有效的积累人才资源,对人才资源进行二次利用,减少招聘的支出。同时企业自身发布招聘虽然能收到大量的简历,但是也存在应聘者盲目投递。企业hr只能主观上根据招聘职位要求的信息与大量的简历信息进行匹配,增加了企业hr的工作量和简历筛选难度,也容易错失人才,以及人才的误用。3.目前,也有部分企业构建自身的简历库,但是简历筛选是通过关键词检索简历库里简历内容文本,这导致检索出的简历和招聘岗位的要求匹配度低,检索效率低。4.现有技术中公开了一种基于层叠序列标注的简历信息抽取方法的专利,该专利利用pdfminer对pdf简历进行解析,将原始pdf转成多行的文本表示,解决其中出现的顺序混乱和错误断行问题;训练过程数据标记:利用远程监督的数据回标并在标记过程中合并同类项;简历信息区块划分:对于经过pdfminer得到句子,针对每个句子分类判断其所在的区块;利用双层序列标注模型,实现句子层面和短文本片段层面的信息抽取。后续利用简历分块信息实现过滤,有效提高了召回率的同时没有大幅减少准确率,该专利能够有效的实现简历信息的抽取。技术实现要素:5.本发明提供一种简历标签化筛选系统,该系统选简历准确,效率较高。6.本发明又一目的在于提供一种简历标签化筛选方法。7.为了达到上述技术效果,本发明的技术方案如下:8.一种简历标签化筛选系统,包括:9.上传模块,用于接收投递的简历和招聘网站购买的简历,存入简历库;10.解析模块,用于解析读取简历文件内容和自然语言技术处理简历的内容,对简历内容进行分词、字母大写转成小写、过滤停用词处理;11.标签模块,用于对解析后的简历内容文本用sif-fasttext多标签模型进行标签预测,为简历打上技能、岗位和行业等标签及标签概率;12.筛选模块,用于从简历库中筛选符合条件的简历,通过选择多个简历标签,从简历库中筛选出同时满足多个标签的简历,再对简历命中的标签权重进行求和,得到简历的排名得分,得分越高排名越前。13.进一步地,所述解析模块的具体处理过程是:14.1):简历文本的字与字之间没有间隔,并且单个汉字具有的意义弱于词组,将简历文本进行分词,把词作为简历特征使模型训练学习更准确;采用基于词频查找最大概率路径实现的jieba分词算法,使用其精确模式分词,已被分出的词语将不会再次被其它词语占有;15.2):简历文本中技能、框架名称等存在字母大小写形式不同,导致模型训练时将相同的名称当成不同的特征,模型特征维度增加,进而模型训练时间变长,模型预测准确率降低;16.3):构建停用词库根据词匹配的方式删除简历文本中多余的词,减少简历的特征维度,停用词库的内容是合并去重了中文停用词库、哈工大停用词表和百度停用词表,再加上简历通用无意义词包括“电话”、“邮箱”。17.进一步地,所述标签模块进行sif-fasttext多标签模型构建步骤如下:18.1):将解析后简历文本的用fasttext算法生成文本中词向量[v1,v2,…,vn],n表示简历文本的词;[0019]2):根据公式(1)计算简历每个词的权重,其中,n表示简历文本的词,p(n)表示词n的词频,b=0.2为调整词权重wn的超参数;[0020]如果不计算简历中词的权重,则简历中的所有词对于简历同样重要,导致模型提取不到不同简历之间区别特征,采用公式(1)计算的权重代表频率越低的词在当前简历出现了,那么它在简历中的重要性更大,也就是加权系数更大,从而使不同标签的简历特征更明显,多标签模型学习后预测的准确率更高:[0021][0022]3):根据公式(2)词向量之和求平均计算简历的整个文本向量,其中,n表示简历文本的词,wt表示词的权重,vt表示词的向量:[0023][0024]4):根据公式(3)利用pca方法获得第一主成分上平均向量的投影来进行句向量修改,其中,vs=[vs1,vs2,…,vsm]表示每份简历的文本向量,μ为pca求得的vs的第一主成分;[0025]vs=vs-μμtvsꢀꢀꢀ(3);[0026]5)再根据fasttext浅层的神经网络构建多标签模型。[0027]进一步地,使用pca方法进行数据降维是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征;使用pca计算出第一主成分得出所有简历文本向量的共有信息,每份简历文本向量删除“共有部分”,保留每个简历文本向量各自拥有的特征,多标签模型学习后预测的准确率更高。[0028]进一步地,所述筛选模块的具体处理过程是:[0029]1);根据选择的标签去匹配简历库中简历预测的标签;[0030]2):将命中所有标签的简历筛选出来作为待排序简历集合;[0031]3):根据公式(4)计算待排序简历集合中每份简历的排名得分,其中n表示选择的标签,wt表示简历预测标签的权重:[0032][0033]4):根据排名得分对待排序简历集合进行降序排序,最终返回符合筛选条件的排序简历集合。[0034]一种简历标签化筛选方法,包括以下步骤:[0035]s1:上传模块接收投递的简历和招聘网站购买的简历,存入简历库;[0036]s2:解析读取简历文件内容和自然语言技术处理简历的内容,对简历内容进行分词、字母大写转成小写、过滤停用词处理;[0037]s3:对解析后的简历内容文本用sif-fasttext多标签模型进行标签预测,为简历打上技能、岗位和行业等标签及标签概率;[0038]s4:从简历库中筛选符合条件的简历,通过选择多个简历标签,从简历库中筛选出同时满足多个标签的简历,再对简历命中的标签权重进行求和,得到简历的排名得分,得分越高排名越前。[0039]进一步地,所述步骤s2的具体处理过程是:[0040]s21:简历文本的字与字之间没有间隔,并且单个汉字具有的意义弱于词组,将简历文本进行分词,把词作为简历特征使模型训练学习更准确;采用基于词频查找最大概率路径实现的jieba分词算法,使用其精确模式分词,已被分出的词语将不会再次被其它词语占有;[0041]s22:简历文本中技能、框架名称等存在字母大小写形式不同,导致模型训练时将相同的名称当成不同的特征,模型特征维度增加,进而模型训练时间变长,模型预测准确率降低;[0042]s23:构建停用词库根据词匹配的方式删除简历文本中多余的词,减少简历的特征维度,停用词库的内容是合并去重了中文停用词库、哈工大停用词表和百度停用词表,再加上简历通用无意义词包括“电话”、“邮箱”。[0043]进一步地,所述步骤s3中进行sif-fasttext多标签模型构建步骤如下:[0044]s31:将解析后简历文本的用fasttext算法生成文本中词向量[v1,v2,…,vn],n表示简历文本的词;[0045]s32:根据公式(1)计算简历每个词的权重,其中,n表示简历文本的词,p(n)表示词n的词频,b=0.2为调整词权重wn的超参数;[0046]如果不计算简历中词的权重,则简历中的所有词对于简历同样重要,导致模型提取不到不同简历之间区别特征,采用公式(1)计算的权重代表频率越低的词在当前简历出现了,那么它在简历中的重要性更大,也就是加权系数更大,从而使不同标签的简历特征更明显,多标签模型学习后预测的准确率更高:[0047][0048]s33:根据公式(2)词向量之和求平均计算简历的整个文本向量,其中,n表示简历文本的词,wt表示词的权重,vt表示词的向量:[0049][0050]s34:根据公式(3)利用pca方法获得第一主成分上平均向量的投影来进行句向量修改,其中,vs=[vs1,vs2,…,vsm]表示每份简历的文本向量,μ为pca求得的vs的第一主成分:[0051]νs=vs-μμtvsꢀꢀꢀ(3);[0052]s35:再根据fasttext浅层的神经网络构建多标签模型。[0053]进一步地,使用pca方法进行数据降维是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征;使用pca计算出第一主成分得出所有简历文本向量的共有信息,每份简历文本向量删除“共有部分”,保留每个简历文本向量各自拥有的特征,多标签模型学习后预测的准确率更高:[0054]进一步地,所述步骤s4的具体过程是:[0055]s41:根据选择的标签去匹配简历库中简历预测的标签;[0056]s42:将命中所有标签的简历筛选出来作为待排序简历集合;[0057]s43:根据公式(4)计算待排序简历集合中每份简历的排名得分,其中n表示选择的标签,wt表示简历预测标签的权重:[0058][0059]s44:根据排名得分对待排序简历集合进行降序排序,最终返回符合筛选条件的排序简历集合。[0060]与现有技术相比,本发明技术方案的有益效果是:[0061]本发明基于sif句向量表示方法替代fasttext多标签模型中词向量之和求平均或者加入tf-idf权重求平均的句向量表示,使sif-fasttext标签预测准确率优于传统fasttext多标签模型;筛选功能模块以标签预测概率作为简历标签的权重,简历筛选时不单单只筛选标签关键词,还结合模型标签权重,使筛选出来的简历排名更加准确并且效率更高。附图说明[0062]图1为本发明系统结构图;[0063]图2为本发明方法过程示意图。具体实施方式[0064]附图仅用于示例性说明,不能理解为对本专利的限制;[0065]为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;[0066]对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。[0067]下面结合附图和实施例对本发明的技术方案做进一步的说明。[0068]实施例1[0069]如图1所示,一种简历标签化筛选系统,包括:[0070]上传模块,用于接收投递的简历和招聘网站购买的简历,存入简历库;[0071]解析模块,用于解析读取简历文件内容和自然语言技术处理简历的内容,对简历内容进行分词、字母大写转成小写、过滤停用词处理;[0072]标签模块,用于对解析后的简历内容文本用sif-fasttext多标签模型进行标签预测,为简历打上技能、岗位和行业等标签及标签概率;[0073]筛选模块,用于从简历库中筛选符合条件的简历,通过选择多个简历标签,从简历库中筛选出同时满足多个标签的简历,再对简历命中的标签权重进行求和,得到简历的排名得分,得分越高排名越前。[0074]解析模块的具体处理过程是:[0075]1):简历文本的字与字之间没有间隔,并且单个汉字具有的意义弱于词组,将简历文本进行分词,把词作为简历特征使模型训练学习更准确;采用基于词频查找最大概率路径实现的jieba分词算法,使用其精确模式分词,已被分出的词语将不会再次被其它词语占有;[0076]2):简历文本中技能、框架名称等存在字母大小写形式不同,导致模型训练时将相同的名称当成不同的特征,模型特征维度增加,进而模型训练时间变长,模型预测准确率降低;[0077]3):构建停用词库根据词匹配的方式删除简历文本中多余的词,减少简历的特征维度,停用词库的内容是合并去重了中文停用词库、哈工大停用词表和百度停用词表,再加上简历通用无意义词包括“电话”、“邮箱”。[0078]标签模块进行sif-fasttext多标签模型构建步骤如下:[0079]1):将解析后简历文本的用fasttext算法生成文本中词向量[v1,v2,…,vn],n表示简历文本的词;[0080]2):根据公式(1)计算简历每个词的权重,其中,n表示简历文本的词,p(n)表示词n的词频,b=0.2为调整词权重wn的超参数;[0081]如果不计算简历中词的权重,则简历中的所有词对于简历同样重要,导致模型提取不到不同简历之间区别特征,采用公式(1)计算的权重代表频率越低的词在当前简历出现了,那么它在简历中的重要性更大,也就是加权系数更大,从而使不同标签的简历特征更明显,多标签模型学习后预测的准确率更高:[0082][0083]3):根据公式(2)词向量之和求平均计算简历的整个文本向量,其中,n表示简历文本的词,wt表示词的权重,vt表示词的向量:[0084][0085]4):根据公式(3)利用pca方法获得第一主成分上平均向量的投影来进行句向量修改,其中,vs=[vs1,vs2,…,vsm]表示每份简历的文本向量,μ为pca求得的vs的第一主成分;[0086]vs=vs-μμtvsꢀꢀꢀ(3);[0087]5)再根据fasttext浅层的神经网络构建多标签模型。[0088]使用pca方法进行数据降维是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征;使用pca计算出第一主成分得出所有简历文本向量的共有信息,每份简历文本向量删除“共有部分”,保留每个简历文本向量各自拥有的特征,多标签模型学习后预测的准确率更高。[0089]筛选模块的具体处理过程是:[0090]1);根据选择的标签去匹配简历库中简历预测的标签;[0091]2):将命中所有标签的简历筛选出来作为待排序简历集合;[0092]3):根据公式(4)计算待排序简历集合中每份简历的排名得分,其中n表示选择的标签,wt表示简历预测标签的权重:[0093][0094]4):根据排名得分对待排序简历集合进行降序排序,最终返回符合筛选条件的排序简历集合。[0095]实施例2[0096]如图2所示,一种简历标签化筛选方法,包括以下步骤:[0097]s1:上传模块接收投递的简历和招聘网站购买的简历,存入简历库;[0098]s2:解析读取简历文件内容和自然语言技术处理简历的内容,对简历内容进行分词、字母大写转成小写、过滤停用词处理;[0099]s3:对解析后的简历内容文本用sif-fasttext多标签模型进行标签预测,为简历打上技能、岗位和行业等标签及标签概率;[0100]s4:从简历库中筛选符合条件的简历,通过选择多个简历标签,从简历库中筛选出同时满足多个标签的简历,再对简历命中的标签权重进行求和,得到简历的排名得分,得分越高排名越前。[0101]步骤s2的具体处理过程是:[0102]s21:简历文本的字与字之间没有间隔,并且单个汉字具有的意义弱于词组,将简历文本进行分词,把词作为简历特征使模型训练学习更准确;采用基于词频查找最大概率路径实现的jieba分词算法,使用其精确模式分词,已被分出的词语将不会再次被其它词语占有;[0103]s22:简历文本中技能、框架名称等存在字母大小写形式不同,导致模型训练时将相同的名称当成不同的特征,模型特征维度增加,进而模型训练时间变长,模型预测准确率降低;[0104]s23:构建停用词库根据词匹配的方式删除简历文本中多余的词,减少简历的特征维度,停用词库的内容是合并去重了中文停用词库、哈工大停用词表和百度停用词表,再加上简历通用无意义词包括“电话”、“邮箱”。[0105]步骤s3中进行sif-fasttext多标签模型构建步骤如下:[0106]s31:将解析后简历文本的用fasttext算法生成文本中词向量[v1,v2,…,vn],n表示简历文本的词;[0107]s32:根据公式(1)计算简历每个词的权重,其中,n表示简历文本的词,p(n)表示词n的词频,b=0.2为调整词权重wn的超参数;[0108]如果不计算简历中词的权重,则简历中的所有词对于简历同样重要,导致模型提取不到不同简历之间区别特征,采用公式(1)计算的权重代表频率越低的词在当前简历出现了,那么它在简历中的重要性更大,也就是加权系数更大,从而使不同标签的简历特征更明显,多标签模型学习后预测的准确率更高:[0109][0110]s33:根据公式(2)词向量之和求平均计算简历的整个文本向量,其中,n表示简历文本的词,wt表示词的权重,vt表示词的向量:[0111][0112]s34:根据公式(3)利用pca方法获得第一主成分上平均向量的投影来进行句向量修改,其中,vs=[vs1,vs2,…,vsm]表示每份简历的文本向量,μ为pca求得的vs的第一主成分:[0113]vs=vs-μμtvsꢀꢀꢀ(3);[0114]s35:再根据fasttext浅层的神经网络构建多标签模型。[0115]使用pca方法进行数据降维是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征;使用pca计算出第一主成分得出所有简历文本向量的共有信息,每份简历文本向量删除“共有部分”,保留每个简历文本向量各自拥有的特征,多标签模型学习后预测的准确率更高:[0116]步骤s4的具体过程是:[0117]s41:根据选择的标签去匹配简历库中简历预测的标签;[0118]s42:将命中所有标签的简历筛选出来作为待排序简历集合;[0119]s43:根据公式(4)计算待排序简历集合中每份简历的排名得分,其中n表示选择的标签,wt表示简历预测标签的权重:[0120][0121]s44:根据排名得分对待排序简历集合进行降序排序,最终返回符合筛选条件的排序简历集合。[0122]实施例3[0123]一种简历标签化筛选方法,包括以下步骤:[0124]s1:上传模块接收投递的简历和招聘网站购买的简历,存入简历库;[0125]s2:解析读取简历文件内容和自然语言技术处理简历的内容,对简历内容进行分词、字母大写转成小写、过滤停用词处理;[0126]s3:对解析后的简历内容文本用sif-fasttext多标签模型进行标签预测,为简历打上技能、岗位和行业等标签及标签概率;[0127]s4:从简历库中筛选符合条件的简历,通过选择多个简历标签,从简历库中筛选出同时满足多个标签的简历,再对简历命中的标签权重进行求和,得到简历的排名得分,得分越高排名越前。[0128]步骤s2的具体处理过程是:[0129]s21:简历文本的字与字之间没有间隔,并且单个汉字具有的意义弱于词组,将简历文本进行分词,把词作为简历特征使模型训练学习更准确;采用基于词频查找最大概率路径实现的jieba分词算法,使用其精确模式分词,已被分出的词语将不会再次被其它词语占有;[0130]s22:简历文本中技能、框架名称等存在字母大小写形式不同,导致模型训练时将相同的名称当成不同的特征,模型特征维度增加,进而模型训练时间变长,模型预测准确率降低;[0131]s23:构建停用词库根据词匹配的方式删除简历文本中多余的词,减少简历的特征维度,停用词库的内容是合并去重了中文停用词库、哈工大停用词表和百度停用词表,再加上简历通用无意义词包括“电话”、“邮箱”。[0132]步骤s3中进行sif-fasttext多标签模型构建步骤如下:[0133]s31:将解析后简历文本的用fasttext算法生成文本中词向量[v1,v2,…,vn],n表示简历文本的词;[0134]s32:根据公式(1)计算简历每个词的权重,其中,n表示简历文本的词,p(n)表示词n的词频,b=0.2为调整词权重wn的超参数;[0135]如果不计算简历中词的权重,则简历中的所有词对于简历同样重要,导致模型提取不到不同简历之间区别特征,采用公式(1)计算的权重代表频率越低的词在当前简历出现了,那么它在简历中的重要性更大,也就是加权系数更大,从而使不同标签的简历特征更明显,多标签模型学习后预测的准确率更高:[0136][0137]s33:根据公式(2)词向量之和求平均计算简历的整个文本向量,其中,n表示简历文本的词,wt表示词的权重,vt表示词的向量:[0138][0139]s34:根据公式(3)利用pca方法获得第一主成分上平均向量的投影来进行句向量修改,其中,vs=[vs1,vs2,…,vsm]表示每份简历的文本向量,μ为pca求得的vs的第一主成分:[0140]vs=vs-μμtvsꢀꢀꢀ(3);[0141]s35:再根据fasttext浅层的神经网络构建多标签模型。[0142]使用pca方法进行数据降维是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征;使用pca计算出第一主成分得出所有简历文本向量的共有信息,每份简历文本向量删除“共有部分”,保留每个简历文本向量各自拥有的特征,多标签模型学习后预测的准确率更高:[0143]步骤s4的具体过程是:[0144]s41:根据选择的标签去匹配简历库中简历预测的标签;[0145]s42:将命中所有标签的简历筛选出来作为待排序简历集合;[0146]s43:根据公式(4)计算待排序简历集合中每份简历的排名得分,其中n表示选择的标签,wt表示简历预测标签的权重:[0147][0148]s44:根据排名得分对待排序简历集合进行降序排序,最终返回符合筛选条件的排序简历集合。[0149]由于简历内容较多以及涉及保密性,实例的简历文件内容只有一句工作内容描述(表1)。简历文件通过上传模块上传到系统简历库,上传模块支持doc、docx和pdf格式文件、支持20个简历文件批量上传。[0150]表1简历文件内容表[0151]序号简历内容1使用vue框架进行前端开发,且开发对应的规则功能接口。[0152]简历内容进入解析模块,解析模块读取简历文件里文本内容且对简历内容进行分词、字母大写转成小写、过滤停用词等处理(如表2)。[0153]表2内容处理结果表[0154][0155][0156]简历解析后的内容流转到标签模块,标签模块根据训练好的sif-fasttext多标签模型标签模型,为简历打标签及其概率且将数据入库存储,结果如下(表3):[0157]表3简历打标签结果[0158][0159]hr可以使用筛选模块,筛选简历库里标签匹配的简历,不需要遍历简历内容,提高简历检索速度。假如简历库数据如下表所示,hr在系统标签多选框勾选mysql、java、后端开发多个标签,可以筛选出同时拥有三个标签的简历,两份简历为林某.pdf、吴某.docx,根据标签权重计算简历排名得分分别为2.44和2.65,所以吴某.docx简历为第一优先级(如表4)。[0160]表4筛选结果[0161][0162][0163]相同或相似的标号对应相同或相似的部件;[0164]附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;[0165]显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种简历标签化筛选系统及方法与流程
作者:admin
2022-08-31 09:48:13
402
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术
- 下一篇: 一种阵列化微型吸盘成型制造方法
- 上一篇: 一种基于MPC控制的AGV路径跟踪方法及系统与流程