发布信息

一种基于词义相似度的智能数据治理方法和系统与流程

作者:admin      2022-08-23 19:58:51     297



计算;推算;计数设备的制造及其应用技术1.本发明属于数据治理领域,尤其涉及一种基于词义相似度的智能数据治理方法和系统。背景技术:2.自然语言处理(natural language processing,nlp):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。3.数据治理(data governance):是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。4.国际数据管理协会(dama)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。5.国际数据治理研究所(dgi)给出的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(who)能根据什么信息,在什么时间(when)和情况(where)下,用什么方法(how),采取什么行动(what)。6.狭义上讲,数据治理是指对数据质量的管理、专注在数据本身。广义上讲,数据治理是对数据的全生命周期进行管理,包含数据采集、清洗、转换等传统数据集成和存储环节的工作、同时还包含数据资产目录、数据标准、质量、安全、数据开发、数据价值、数据服务与应用等,整个数据生命期而开展开的业务、技术和管理活动都属于数据治理范畴。有的专家干脆把广义的数据治理称为数据资产管理。7.数据治理专注于将数据作为企事业单位数据资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高数据质量,实现数据内外部共享,并能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产价值。8.近年来,随着大数据平台和工业互联网兴起,数据治理平台主要采取数据中台技术和微服务架构初步替代传统架构,面向大数据架构下,为数据资源中心与外部数据系统提供数据服务。对内和对外系统提供云服务。9.数据治理的目标是提高数据的质量(准确性和完整性),保证数据的安全性(保密性,完整性及可用性),实现数据资源在各组织机构部门的共享;推进信息资源的整合,对接和共享,从而提升企业信息化水平,充分发挥信息化的作用。10.现有技术大部分通过将收集上来的数据进行人工关联或者字符串匹配的方式进行数据与数据以及数据与分类的关联。11.人工匹配的缺点是工作量较大,耗时较长。字符串匹配的方式虽然解决了部分人工匹配的工作,但单一字符串匹配的匹配率较低,不能完全解决人工匹配工作量的问题。技术实现要素:12.为解决上述技术问题,本发明提出一种基于词义相似度的智能数据治理方法和系统的技术方案,以解决上述技术问题。13.本发明第一方面公开了一种基于词义相似度的智能数据治理方法,所述方法包括:14.步骤s1、中文分词:将一个词语或语句进行分词处理;15.步骤s2、词性标注:在所述中文分词的基础上,对分词之后的词语或语句进行词性的标注;16.步骤s3、关键字提取:基于所述词性的标注之后的结果,根据所需要的词性划分,进行关键字提取;17.步骤s4、相识度判断:对关键字提取之后的词语或语句与分类分级模版中的相关词语进行比较,给出相似度。18.根据本发明第一方面的方法,在所述步骤s1中,中文分词的模型有六种,分别为:crf分词、n-最短路径分词、nlp分词、极速字典分词、标准分词和深度学习分词。19.根据本发明第一方面的方法,在所述步骤s1中,根据六种所述模型的精准率、召回率、f1值、新词召回率和正确召回率,选择所述六种模型中的一种对词语或语句进行分词处理。20.根据本发明第一方面的方法,在所述步骤s2中,所述词性标注有四种:hmm词性标注、crf词性标注、感知机词性标注和深度学习词性标注。21.根据本发明第一方面的方法,在所述步骤s3中,所述根据所需要的词性划分,进行关键字提取的具体方法包括:22.提取名词以及含有特殊含义的词性,将助词、副词和动词去除。23.根据本发明第一方面的方法,在所述步骤s4中,所述对关键字提取之后的词语或语句与分类分级模版中的相关词语进行比较,给出相似度的具体方法包括:24.对关键字提取之后的词语或语句与所述分类分级模版中的相关词语进行比较,给通过词向量方式给出相似度的分数。25.根据本发明第一方面的方法,在所述步骤s4中,所述相似度的分数在(0-1]的闭包之中,越接近1则相似度越高,越接近0则相似度越低。26.本发明第二方面公开了一种基于词义相似度的智能数据治理系统,所述系统包括:27.第一处理模块,被配置为,中文分词:将一个词语或语句进行分词处理;28.第二处理模块,被配置为,词性标注:在中文分词的基础上,对分词之后的词语或语句进行词性的标注;29.第三处理模块,被配置为,关键字提取:基于词性标注之后的结果,根据所需要的词性划分,进行关键字提取;30.第四处理模块,被配置为,相识度判断:对关键字提取之后的词语或语句与分类分级模版中的相关词语进行比较,给出相似度。31.根据本发明第二方面的系统,第一处理模块,被配置为,中文分词的模型有六种,分别为:crf分词、n-最短路径分词、nlp分词、极速字典分词、标准分词和深度学习分词。32.根据本发明第二方面的系统,第一处理模块,被配置为,根据六种所述模型的精准率、召回率、f1值、新词召回率和正确召回率,选择所述六种模型中的一种对词语或语句进行分词处理。33.根据本发明第二方面的系统,第二处理模块,被配置为,所述词性标注有四种:hmm词性标注、crf词性标注、感知机词性标注和深度学习词性标注。34.根据本发明第二方面的系统,第三处理模块,被配置为,所述根据所需要的词性划分,进行关键字提取的具体包括:35.提取名词以及含有特殊含义的词性,将助词、副词和动词去除。36.根据本发明第二方面的系统,第四处理模块,被配置为,所述对关键字提取之后的词语或语句与分类分级模版中的相关词语进行比较,给出相似度的具体包括:37.对关键字提取之后的词语或语句与所述分类分级模版中的相关词语进行比较,给通过词向量方式给出相似度的分数。38.根据本发明第二方面的系统,第四处理模块,被配置为,所述相似度的分数在(0-1]的闭包之中,越接近1则相似度越高,越接近0则相似度越低。39.本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本公开第一方面中任一项的一种基于词义相似度的智能数据治理方法中的步骤。40.本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开第一方面中任一项的一种基于词义相似度的智能数据治理方法中的步骤。41.本发明提出的方案,帮助提高数据治理过程中数据的分类以及匹配的自动化以及准确度。平台通过集成自然语义分析等技术手段,实现数据安全基础元数据与分类分级的自动智能匹配,通过匹配的过程不断的完善语料库,实现平台自我学习的过程,从而提高匹配的效率和准确度。附图说明42.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。43.图1为根据本发明实施例的一种基于词义相似度的智能数据治理方法的流程图;44.图2为根据本发明实施例的词性标注示意图;45.图3为根据本发明实施例的相识度判断示意图;46.图4为根据本发明实施例的一种基于词义相似度的智能数据治理系统的结构图;47.图5为根据本发明实施例的一种电子设备的结构图。具体实施方式48.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。49.本发明第一方面公开了一种基于词义相似度的智能数据治理方法。图1为根据本发明实施例的一种基于词义相似度的智能数据治理方法的流程图,如图1所示,所述方法包括:50.步骤s1、中文分词:将一个词语或语句进行分词处理;51.步骤s2、词性标注:在中文分词的基础上,对分词之后的词语或语句进行词性的标注;52.步骤s3、关键字提取:基于词性标注之后的结果,根据所需要的词性划分,进行关键字提取;53.步骤s4、相识度判断:对关键字提取之后的词语或语句与分类分级模版中的相关词语进行比较,给出相似度。54.在步骤s1,中文分词:将一个词语或语句进行分词处理。55.在一些实施例中,在所述步骤s1中,中文分词的模型有六种:分别为:crf分词、n-最短路径分词、nlp分词、极速字典分词、标准分词和深度学习分词。56.根据六种模型的精准率、召回率、f1值、新词召回率和正确召回率,选择所述六种模型中的一种对词语或语句进行分词处理。57.具体地,每种分词模型测评结果如表1:58.表159.模型精准率召回率f1值新词召回率正确召回率crf分词96.8696.6496.7571.5497.33n-最短路径分词87.3185.9286.6153.2386.81nlp分词91.8790.7491.3038.7892.15极速字典分词91.7395.6993.672.4798.22标准分词85.3687.7286.5239.2098.04深度学习分词97.50ꢀꢀꢀꢀ60.f1值为综合指标,精准率与召回率的调和值。61.在步骤s2,词性标注:在中文分词的基础上,对分词之后的词语或语句进行词性的标注。62.在一些实施例中,在所述步骤s2中,所述词性标注有四种:hmm词性标注、crf词性标注、感知机词性标注和深度学习词性标注。63.具体地,词性标注示例如图2所示。64.在步骤s3,关键字提取:基于词性标注之后的结果,根据所需要的词性划分,进行关键字提取。65.在一些实施例中,在所述步骤s3中,所述根据所需要的词性划分,进行关键字提取的具体方法包括:66.提取名词以及含有特殊含义的词性,将助词、副词和动词去除。67.在步骤s4,相识度判断:对关键字提取之后的词语或语句与分类分级模版中的相关词语进行比较,给出相似度。68.在一些实施例中,在所述步骤s4中,所述对关键字提取之后的词语或语句与分类分级模版中的相关词语进行比较,给出相似度的具体方法包括:69.对关键字提取之后的词语或语句与分类分级模版中的相关词语进行比较,给通过词向量方式出相似度的分数。70.所述相似度的分数在(0-1]的闭包之中,越接近1则相似度越高,越接近0则相似度越低。71.具体地,相识度判断的示例如图3所示。72.最后通过以上方式,将自然语言处理的能力融入到数据治理过程中,解决了之前单纯通过字符串比对的方式进行数据治理准确度低的弊端,从而帮助提高数据治理过程中数据的分类以及匹配的自动化以及准确度以及效率。73.综上,本发明提出的方案能够帮助提高数据治理过程中数据的分类以及匹配的自动化以及准确度。平台通过集成自然语义分析等技术手段,实现数据安全基础元数据与分类分级的自动智能匹配,通过匹配的过程不断的完善语料库,实现平台自我学习的过程,从而提高匹配的效率和准确度。74.本发明第二方面公开了一种基于词义相似度的智能数据治理系统。图4为根据本发明实施例的一种基于词义相似度的智能数据治理系统的结构图;如图4所示,所述系统100包括:75.第一处理模块101,被配置为,中文分词:将一个词语或语句进行分词处理;76.第二处理模块102,被配置为,词性标注:在中文分词的基础上,对分词之后的词语或语句进行词性的标注;77.第三处理模块103,被配置为,关键字提取:基于词性标注之后的结果,根据所需要的词性划分,进行关键字提取;78.第四处理模块104,被配置为,相识度判断:对关键字提取之后的词语或语句与分类分级模版中的相关词语进行比较,给出相似度。79.根据本发明第二方面的系统,第一处理模块101,被配置为,中文分词的模型有六种,分别为:crf分词、n-最短路径分词、nlp分词、极速字典分词、标准分词和深度学习分词。80.根据本发明第二方面的系统,第一处理模块101,被配置为,根据六种所述模型的精准率、召回率、f1值、新词召回率和正确召回率,选择所述六种模型中的一种对词语或语句进行分词处理。81.根据本发明第二方面的系统,第二处理模块102,被配置为,所述词性标注有四种:hmm词性标注、crf词性标注、感知机词性标注和深度学习词性标注。82.根据本发明第二方面的系统,第三处理模块103,被配置为,所述根据所需要的词性划分,进行关键字提取的具体包括:83.提取名词以及含有特殊含义的词性,将助词、副词和动词去除。84.根据本发明第二方面的系统,第四处理模块104,被配置为,所述对关键字提取之后的词语或语句与分类分级模版中的相关词语进行比较,给出相似度的具体包括:85.对关键字提取之后的词语或语句与所述分类分级模版中的相关词语进行比较,给通过词向量方式给出相似度的分数。86.根据本发明第二方面的系统,第四处理模块104,被配置为,所述相似度的分数在(0-1]的闭包之中,越接近1则相似度越高,越接近0则相似度越低。87.本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明公开第一方面中任一项的一种基于词义相似度的智能数据治理方法中的步骤。88.图5为根据本发明实施例的一种电子设备的结构图,如图5所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、近场通信(nfc)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。89.本领域技术人员可以理解,图5中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本技术方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。90.本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本发明公开第一方面中任一项的一种基于词义相似度的智能数据治理方法中的步骤中的步骤。91.请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部