专利技术

一种基于NLP技术的企业自动打标签模型生成方法、系统、设备以及存储介质与流程专利技术说明

 作者：admin  2022-11-26 12:05:32  696

计算;推算;计数设备的制造及其应用技术一种基于nlp技术的企业自动打标签模型生成方法、系统、设备以及存储介质技术领域1.本发明涉及人工智能技术领域，具体涉及一种基于nlp技术的企业自动打标签模型生成方法、系统、设备以及存储介质。背景技术：2.目前对于企业进行分类、打标签通常都依赖于传统人工选择的方式，利用业务专家的经验进行打标签。存在效率低、人工成本高以及专家主观因素占比过高等缺点。并且随着时代的发展，越来越多的企业会出现多个标签的情况，而人工选择的方式非常容易出现遗漏、误判等情况的出现。而且目前需要打标签的企业数据越来越多，这就对传统的人工打标签方式造成了很大的困难。3.综上所述，现有打标签方式存在的缺陷为：由于依赖于人工，存在效率低、正确率低、人工成本高以及专家主观因素占比过高。技术实现要素：4.本发明解决了现有打标签方式由于依赖于人工，存在效率低、正确率低、人工成本高以及专家主观因素占比过高的问题。5.本发明所述的一种基于nlp技术的企业自动打标签模型生成方法，包括以下步骤：6.步骤s1,抓取互联网企业信息，将其形成基础数据源；7.步骤s2,对基础数据源进行相应处理，利用nlp技术从处理后的基础数据源中提取企业关键信息；8.步骤s3,结合企业原有的标签数据，将企业关键信息和标签数据进行模型训练；9.步骤s4,结合模型训练结果，调整模型参数和变更输入数据，对模型进行多次迭代，生成训练模型；10.步骤s5,结合实际情况进行补充模型规则，生成自动打标签模型。11.进一步地，在本发明的一个实施例中，所述的步骤s1中，所述的抓取互联网企业信息的方式包括网络爬虫采集和历史企业标签库数据。12.进一步地，在本发明的一个实施例中，所述的步骤s2中，所述的基础数据源进行相应处理，包括以下步骤：13.步骤s201，将基础数据源中的数据进行数据清洗，去除数据中的干扰项；14.步骤s202，将清洗后的基础数据源中的数据进行分词；15.步骤s203，根据步骤s202分词结果进行专业词汇和停用词汇的管理补充。16.进一步地，在本发明的一个实施例中，所述的步骤s2中，所述的利用nlp技术从处理后的基础数据源中提取企业关键信息的部分专业词汇进行权重调整。17.进一步地，在本发明的一个实施例中，所述的步骤s3中，所述的模型训练采用xgboost算法。18.进一步地，在本发明的一个实施例中，所述的步骤s3中，所述的将企业标签数据进行模型训练，包括以下步骤：19.步骤s301，将企业标签数据作为结果集，利用nlp技术提取企业标签数据的向量化数据；20.步骤s302，结合结果集进行训练集、验证集和交叉验证集的切割后，进行模型训练。21.本发明所述的一种基于nlp技术的企业自动打标签模型生成系统，所述系统包括以下模块：22.抓取模块,抓取互联网企业信息，将其形成基础数据源；23.处理模块,对基础数据源进行相应处理，利用nlp技术从处理后的基础数据源中提取企业关键信息；24.模型模块,结合企业原有的标签数据，将企业关键信息和标签数据进行模型训练；25.迭代模块,结合模型训练结果，调整模型参数和变更输入数据，对模型进行多次迭代，生成训练模型；26.生成模块,结合实际情况进行补充模型规则，生成自动打标签模型。27.本发明所述的一种电子设备，、包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；28.存储器，用于存放计算机程序；29.处理器，用于执行存储器上所存放的程序时，实现上述方法中任一所述的方法步骤。30.本发明所述的一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述方法中任一所述的方法步骤。31.本发明解决了现有打标签方式由于依赖于人工，存在效率低、正确率低、人工成本高以及专家主观因素占比过高的问题。具体有益效果包括：32.1、本发明所述的一种基于nlp技术的企业自动打标签模型生成方法，首先通过抓取企业基本信息，形成企业基本信息数据库，通过数据清洗以及迭代的分词方式，使用nlp技术进行关键数据提取，并且在中文文本向量化之前引入和专业词汇加权的方式，使得数据模型计算更为精准。同时采用效果最好的模型计算方法，反复迭代训练数据模型，最后增加业务规则模型，提供更满足业务需求也更加精准的企业自动打标签服务，从而有效的解决了现有打标签方式由于依赖于人工，存在效率低、正确率低、人工成本高以及专家主观因素占比过高的问题。33.2、本发明所述的一种基于nlp技术的企业自动打标签模型生成方法，企业基本信息数据进行数据清洗，去除数据中的干扰项，删除部分不适合参与模型的数据字段，提高了数据的准确度。34.3、本发明所述的一种基于nlp技术的企业自动打标签模型生成方法，生成的训练模型结合业务数据以及专家建议，建立规则模型，进行补充训练模型，保证使用模型输出的结果是满足业务相关需要的。附图说明35.本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：36.图1是具体实施方式所述的一种基于nlp技术的企业自动打标签模型生成方法流程图。37.图2是具体实施方式所述的基础数据模块图。38.图3是具体实施方式所述的企业基本信息数据处理流程图。具体实施方式39.下面结合附图将对本发明的多种实施方式进行清楚、完整地描述。通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。40.本实施方式所述的一种基于nlp技术的企业自动打标签模型生成方法，包括以下步骤：41.步骤s1,抓取互联网企业信息，将其形成基础数据源；42.步骤s2,对基础数据源进行相应处理，利用nlp技术从处理后的基础数据源中提取企业关键信息；43.步骤s3,结合企业原有的标签数据，将企业关键信息和标签数据进行模型训练；44.步骤s4,结合模型训练结果，调整模型参数和变更输入数据，对模型进行多次迭代，生成训练模型；45.步骤s5,结合实际情况进行补充模型规则，生成自动打标签模型。46.本实施方式中，所述的步骤s1中，所述的抓取互联网企业信息的方式包括网络爬虫采集和历史企业标签库数据。47.本实施方式中，所述的步骤s2中，所述的基础数据源进行相应处理，包括以下步骤：48.步骤s201，将基础数据源中的数据进行数据清洗，去除数据中的干扰项；49.步骤s202，将清洗后的基础数据源中的数据进行分词；50.步骤s203，根据步骤s202分词结果进行专业词汇和停用词汇的管理补充。51.本实施方式中，所述的步骤s2中，所述的利用nlp技术从处理后的基础数据源中提取企业关键信息的部分专业词汇进行权重调整。52.本实施方式中，所述的步骤s3中，所述的模型训练采用xgboost算法。53.本实施方式中，所述的步骤s3中，所述的将企业标签数据进行模型训练，包括以下步骤：54.步骤s301，将企业标签数据作为结果集，利用nlp技术提取企业标签数据的向量化数据；55.步骤s302，结合结果集进行训练集、验证集和交叉验证集的切割后，进行模型训练。56.本实施方式所述的一种基于nlp技术的企业自动打标签模型生成系统，所述系统包括以下模块：57.抓取模块,抓取互联网企业信息，将其形成基础数据源；58.处理模块,对基础数据源进行相应处理，利用nlp技术从处理后的基础数据源中提取企业关键信息；59.模型模块,结合企业原有的标签数据，将企业关键信息和标签数据进行模型训练；60.迭代模块,结合模型训练结果，调整模型参数和变更输入数据，对模型进行多次迭代，生成训练模型；61.生成模块,结合实际情况进行补充模型规则，生成自动打标签模型。62.本实施方式所述的一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；63.存储器，用于存放计算机程序；64.处理器，用于执行存储器上所存放的程序时，实现上述实施方式中任一所述的方法步骤。65.本实施方式所述的一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施方式中任一所述的方法步骤。66.本实施方式基于本发明所述的一种基于nlp技术的企业自动打标签模型生成方法，结合图1能更好的理解本实施方式，提供一种实际的实施方式：67.步骤s1：建立基础数据源：抓取互联网企业信息，形成基础数据源；68.步骤s2：提取关键信息：利用nlp技术进行企业关键信息提取；69.步骤s3：初级模型训练：结合标签数据，进行模型训练；70.步骤s4：迭代模型：结合模型参数以及数据情况，对模型进行迭代；71.步骤s5：补充模型规则：结合业务专家建议，补充模型规则；72.步骤s6：生成最终自动打标签模型。73.基础数据主要分为两部分，第一是通过网络爬虫采集的企业基本信息数据，第二是历史企业标签库数据。如图2所示，然后通过nlp技术对相关企业基本信息进行分词、关键信息提取以及向量化；结合公司原有的相关企业标签数据，将相关关键信息和标签数据训练成模型；74.企业基本信息数据是不能直接输入到模型训练的，如图3所示，首先需要进行数据清洗，去除数据中的干扰项，删除部分不适合参与模型的数据字段，提高数据的准确度；然后进行分词，该部分是一个迭代的过程，需要根据分词结果进行专业词汇以及停用词汇的管理补充；然后通过nlp技术提取各个行业的关键信息；然后适当调节部分专业词汇的权重，使得数据更适用于模型计算，然后通过相关算法进行中文文本向量化。75.企业信息打标签本质上是一个多分类任务，所以这里采用xgboost算法进行模型训练。将企业标签数据作为结果集，利用nlp模块提取的向量化数据，结合结果集进行训练集、验证集、交叉验证集的切割，然后进行模型训练；通过模型训练结果，适当调参以及变更输入数据，进行模型迭代，生成训练模型。76.结合业务数据以及专家建议，建立规则模型，进行补充训练模型，保证使用模型输出的结果是满足业务相关需要的。最后提供模型服务，输入是企业基本信息，输出是企业标签，完成企业自动化打标签。77.综上，本发明首先是抓取企业基本信息，形成企业基本信息数据库；通过数据清洗以及迭代的分词方式，使用nlp技术进行关键数据提取，并且在中文文本向量化之前引入和专业词汇加权的方式，使得数据模型计算更为精准。同时采用效果最好的模型计算方法，反复迭代训练数据模型；最后增加业务规则模型，提供更满足业务需求也更加精准的企业自动打标签服务。78.以上对本发明所提出的一种基于nlp技术的企业自动打标签模型生成方法、系统、设备以及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明：本文中引用的各种信息及资料（包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主体（包括但不限于公司、媒体、协会等机构）的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理！本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理，本文部分文字与图片资源来自于网络，部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益，请立即通知我们，情况属实，我们会第一时间予以删除，并同时向您表示歉意,谢谢!

关键词：计算;推算;计数设备的制造及其应用技术专利技术

下一篇： 一种高尔夫球场智能集成跟随车专利技术说明
上一篇： 一种高效的棉花转基因植株嫁接技术专利技术说明

专利技术

一种基于NLP技术的企业自动打标签模型生成方法、系统、设备以及存储介质与流程专利技术说明

相关内容查看全部 

一种低温环境下的

仿生高黏附沥青改

一种汽车安全气囊

机床以及诊断方法

元器件料带计数装

一种折叠式多层线

一种矫形套装的制

一种旋转开合的庭

瓦楞纸用箱纸板的

一种电石块重型链

一种基于NLP技术的企业自动打标签模型生成方法、系统、设备以及存储介质与流程 专利技术说明

相关内容 查看全部 

一种基于NLP技术的企业自动打标签模型生成方法、系统、设备以及存储介质与流程专利技术说明

相关内容查看全部 