发布信息

一种内部威胁数据的检测方法及系统与流程

作者:admin      2022-08-19 18:07:24     376



计算;推算;计数设备的制造及其应用技术1.本发明涉及计算机技术领域,特别是涉及一种内部威胁数据的检测方法及系统。背景技术:2.内部威胁是指内部人员他们的计算机操作行为与现有的计算机系统惯例相比是异常的。内部威胁通常会给政府、企业、医院和教育机构造成重大损失。3.在数据泄露和内部网攻击的情况下,恶意的内部活动往往表现为针对特定内部人员的异常行为或异常网络流量内容。例如,销售人员从销售部门服务器远程下载价格记录是正常的,而人力资源专员这样做是不正常的,但是在企业系统中操作本身是正常的。事实上,内部威胁行为非常复杂,使用传统的基于规则的方法和估计理论来检测是不可行的。技术实现要素:4.基于此,有必要针对以上内部威胁难以检测的技术问题,提供一种内部威胁数据的检测方法及系统。5.一种内部威胁数据的检测方法,所述方法包括:6.将过滤掉内部威胁数据之后的正常编码数据与获取的用户行为记录数据的编码数据进行对比;7.当对比结果呈现数据分布不一致时,则判断所述用户行为记录数据为内部威胁数据。8.在其中一个实施例中,将过滤掉内部威胁数据之后的正常编码数据与获取的用户行为记录数据的编码数据进行对比之前,所述方法还包括:9.基于k个级联分离训练的自动编码器对初始训练集进行过滤;10.将过滤后的数据编码到第k个自动编码器的码层中;11.将编码数据作为所述正常编码数据;12.其中所述k为大于1的自然数。13.在其中一个实施例中,所述基于k个级联分离训练的自动编码器对初始训练集进行过滤,包括:14.采用第一个自动编码器对所述初始训练集进行过滤;15.基于所述第一个自动编码器的重构误差和所述初始训练集确定第二自动编码器需要过滤的第二训练集;16.采用第二自动编码器对所述第二训练集进行过滤;17.依次使第k个自动编码器对所述第k个训练集进行过滤。18.在其中一个实施例中,当对比结果呈现数据分布不一致时,则判断所述用户行为记录数据为内部威胁数据,包括:19.获取所述正常编码数据的正态分布和所述用户行为记录数据的编码数据的分布;20.当所述正态分布和所述用户行为记录数据的编码数据的分布不一致时,判断所述用户行为记录数据为内部威胁数据。21.一种内部威胁数据的检测系统,所述系统包括:22.对比模块,用于将过滤掉内部威胁数据之后的正常编码数据与获取的用户行为记录数据的编码数据进行对比;23.判断模块,用于当对比结果呈现数据分布不一致时,则判断所述用户行为记录数据为内部威胁数据。24.在其中一个实施例中,所述系统还包括:25.过滤模块,用于基于k个级联分离训练的自动编码器对初始训练集进行过滤;26.编码模块,用于将过滤后的数据编码到第k个自动编码器的码层中,并将编码数据作为所述正常编码数据;27.其中所述k为大于1的自然数。28.在其中一个实施例中,所述过滤模块还用于:29.采用第一个自动编码器对所述初始训练集进行过滤;30.基于所述第一个自动编码器的重构误差和所述初始训练集确定第二自动编码器需要过滤的第二训练集;31.采用第二自动编码器对所述第二训练集进行过滤;32.依次使第k个自动编码器对所述第k个训练集进行过滤。33.在其中一个实施例中,所述判断模块还用于:34.获取所述正常编码数据的正态分布和所述用户行为记录数据的编码数据的分布;35.当所述正态分布和所述用户行为记录数据的编码数据的分布不一致时,判断所述用户行为记录数据为内部威胁数据。36.本发明中,正常编码数据为采用级联多自动编码器从所有用户行为记录数据中过滤出内部威胁数据之后的数据,用户行为记录数据可以为通过不同方式采集的用户的计算机操作数据,当用户行为记录数据的编码数据与正常编码数据的数据分布不一致时,表示该用户的行为记录数据为内部威胁数据,表示用户可能为伪装者、叛徒或无意的违反者。由此,本发明基于数据的分布情况确定数据是否为内部威胁数据,更为方便可靠,检测准确性更高。附图说明37.图1为一实施例的内部威胁数据的检测方法的流程图;38.图2为自动编码器的结构示意图;39.图3为多编码器的过滤结构示意图。具体实施方式40.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。41.图1为一实施例的内部威胁数据的检测方法的流程图,如图1所示,所述方法包括:42.步骤110,将过滤掉内部威胁数据之后的正常编码数据与获取的用户行为记录数据的编码数据进行对比;43.步骤120,当对比结果呈现数据分布不一致时,则判断所述用户行为记录数据为内部威胁数据。44.本发明中,正常编码数据为采用级联多自动编码器从所有用户行为记录数据中过滤出内部威胁数据之后的数据,用户行为记录数据可以为通过不同方式采集的用户的计算机操作数据,当用户行为记录数据的编码数据与正常编码数据的数据分布不一致时,表示该用户的行为记录数据为内部威胁数据,表示用户可能为伪装者、叛徒或无意的违反者。由此,本发明基于数据的分布情况确定数据是否为内部威胁数据,更为方便可靠,检测准确性更高。45.本实施例的另一实现方式中,所述将过滤掉内部威胁数据之后的正常编码数据与获取的用户行为记录数据的编码数据进行对比之前,所述方法还包括:46.基于k个级联分离训练的自动编码器对初始训练集进行过滤;47.将过滤后的数据编码到第k个自动编码器的码层中;48.将编码数据作为所述正常编码数据;49.其中所述k为大于1的自然数。50.本实施例中,一个基本的自动编码器是一个具有对称结构的深度神经网络。图2为自动编码器的结构示意图,如图2所示,该网络包括输入层(input layer)、隐层(lidden layer)和输出层(output layer),各层之间全连接。可看作由一个编码器(encoder)和一个解码器(decoder)组成。它们不需要标签,其目的是在输出层重构输入。在这个前馈网络中,编码器层将输入编码到中间代码层codelayer,然后解码器层将代码层得到的解码到输出层。基本损耗函数定义为输入层和输出层之间的重构误差。51.图3为多编码器的过滤结构示意图,如图3所示,ae1至aek表示k个级联分离训练的自动编码器。52.本实施例的一实现方式中,所述基于k个级联分离训练的自动编码器对初始训练集进行过滤,包括:53.采用第一个自动编码器对所述初始训练集进行过滤;54.基于所述第一个自动编码器的重构误差和所述初始训练集确定第二自动编码器需要过滤的第二训练集;55.采用第二自动编码器对所述第二训练集进行过滤;56.依次使第k个自动编码器对所述第k个训练集进行过滤。57.本实施例中,初始训练集可以采用以下方法生成,具体的,包括:58.给定一个没有标注标签的关于用户操作的系统日志数据集,其目标是检测组织内部潜在的内部威胁活动。假设内部威胁事件很少出现在系统日志中。该框架基于深度神经网络可以学习大部分正常数据的模式,但由于内部威胁数据的缺乏,不能重建异常数据模式的思想。59.特征抽取应当适应五种内部威胁场景:(1)员工下班后登录,使用可移动设备窃取敏感信息;(2)员工突然访问求职网站,并给竞争对手发送大附件;(3)员工假扮雇主向员工发送电子邮件,扰乱公司正常运营;(4)雇员登录到其他雇员的电脑查找敏感文件并用电子邮件将文件发送给自己或存储在一个可移动设备;(5) 员工突然上传大量文件到网盘。60.为了提取适当的特征来区分内部威胁记录和正常记录,将包含设备、电子邮件、文件、网络和登录数据的日志文件组合起来,聚合每个用户每天的每条记录的识别特征。事件发生情况记录在特征矩阵列中(例如,在一天的办公时间后,用户向不寻常的第三方发送带有或不带大附件的电子邮件的次数)。61.表1显示了删除无意义列后的聚合数据特征和用户元数据特性。如果一个值在给定的日志之前出现在超过5%的日志记录中,那么它就被计入正常值 (usual),否则计入不正常值(unusual)。62.如下表1为经过特征工程之后抽取的特征数据:[0063]“user,day,role,projects,department,team,supervisor,function,[0064]psychometricscoreo,psychometricscorec,psychometricscoree,[0065]psychometricscorea,psychometricscoren,officehour logon usualpc,[0066]afterhour logon unusualpc,officehour logon unusualpc,[0067]afterhour logon usualpc,officehour deviceconnect,[0068]officehour devicedisconnect,afterhour deviceconnect,[0069]afterhour devicedisconnect,officehour fileopen,[0070]officehour filecopy,officehour filewrite,officehour filedelete,[0071]afterhour fileopen,afterhour filecopy,afterhour filewrite,[0072]afterhour filedelete,officehour unusualurl wwwvisit,[0073]officehour usualurl wwwvisit,officehour unusualurl wwwupload,[0074]officehour usualurl wwwupload,officehour unusualurl wwwdownload,[0075]officehour usualurl wwwdownload,afterhour unusualurl wwwvisit,[0076]afterhour usualurl wwwvisit,afterhour unusualurl wwwupload,[0077]afterhour usualurl wwwupload,afterhour unusualurl wwwdownload,[0078]afterhour usualurl wwwdownload,officehour logon,officehour logoff,[0079]afterhour logon,afterhour logoff,officehour unusualemail attachyes,[0080]officehour usualemail attachyes,officehour unusualemail attachno,[0081]officehour usualemail attachno,afterhour unusualemail attachyes,[0082]afterhour usualemail attachyes,afterhour unusualemail attachno,[0083]afterhour usualemail attachno”[0084]表1[0085]本实施例中,从日志文件中提取合适的特征后,可以构造一个聚合的特征矩阵。聚合的特征矩阵的每一行都对应于一个用户在一天内所做的操作,并且每一行都仅且只对应于一个用户在一天内所做的操作。[0086]其中,特征矩阵中的列表示特定事件或用户元数据项的实例数。特征矩阵被随机分割以产生训练集和测试数据集。这里产生的训练集即为初始训练集。[0087]本实施例中,将输入表示为输出表示为其中,[0088]其中,n表示输入记录的数量,d表示输入和输出矩阵的维数。[0089]本实施例在过滤数据时,首先采用第一个自动编码器ae1对初始训练集进行过滤。第一个自动编码器ae1的输入x与输出的重构误差可以采用以下公式1计算:[0090][0091]本实施例,重构误差表示一个n维向量,li表示其为第i个元素。[0092]由此,可以进一步过滤出重构误差最大时对应为r%的初始训练集[0093]用剩余的训练集训练下一个自动编码器,即第二个自动编码器。重复以上步骤,直到所有k个自动编码器都完成了过滤。[0094]可以理解,假设内部事件在整个训练集中所占的比例为p0。那么,随机选取内部威胁事件记录的概率为p0。设c是系数。此外,让cp0是一个自动编码器过滤出一个项目作为内部威胁记录的概率。即:一个自动编码器过滤内部威胁数据的能力是随机过滤能力的c倍。[0095]本实施例中,使用第一个自动编码器,根据重构误差滤除相应的训练数据的最大r%。假设初始训练集包含n个总记录和s个内部威胁的记录,经过第k个自动编码器(aek)之后,剩余训练集中的内部威胁数据比例为pk。[0096]第一个自编码器过滤后训练集中内部威胁记录的剩余比例(也与第二个自编码器过滤前的原始内部威胁记录比例相同)为:[0097][0098]其中,cr≤1。[0099]以上公式用数学归纳法得到如下表达式:[0100][0101]为了过滤出训练集中所有的内部威胁记录,必须满足以下条件:[0102][0103]本实施例中,经过多个自动编码器过滤之后的数据,几乎是完全正常的数据(或仅包含可以忽略不计的异常)。然后将正常数据编码到第k个自动编码器的码层表示中,估计所识别的编码正常记录的分布。这使得当内部威胁记录的编码特征表示与已识别的编码正常记录的分布不一致时,可以识别内部威胁记录。[0104]即本实施例中,当对比结果呈现数据分布不一致时,则判断所述用户行为记录数据为内部威胁数据,包括:[0105]获取所述正常编码数据的正态分布和所述用户行为记录数据的编码数据的分布;[0106]当所述正态分布和所述用户行为记录数据的编码数据的分布不一致时,判断所述用户行为记录数据为内部威胁数据。[0107]本实施例还提供了一种内部威胁数据的检测系统,所述系统包括:[0108]对比模块,用于将用于识别内部威胁数据的正常编码数据与获取的用户行为记录数据的编码数据进行对比;[0109]判断模块,用于当对比结果呈现数据分布不一致时,则判断所述用户行为记录数据为内部威胁数据。[0110]在一实施例中,所述系统还包括:[0111]过滤模块,用于基于k个级联分离训练的自动编码器对初始训练集进行过滤;[0112]编码模块,用于将过滤后的数据编码到第k个自动编码器的码层中,并将编码数据作为所述正常编码数据;[0113]其中所述k为大于1的自然数。[0114]在一实施例中,所述过滤模块还用于:[0115]采用第一个自动编码器对所述初始训练集进行过滤;[0116]基于所述第一个自动编码器的重构误差和所述初始训练集确定第二自动编码器需要过滤的第二训练集;[0117]采用第二自动编码器对所述第二训练集进行过滤;[0118]依次使第k个自动编码器对所述第k个训练集进行过滤。[0119]在一实施例中,所述判断模块还用于:[0120]获取所述正常编码数据的正态分布和所述用户行为记录数据的编码数据的分布;[0121]当所述正态分布和所述用户行为记录数据的编码数据的分布不一致时,判断所述用户行为记录数据为内部威胁数据。[0122]以上系统的实现可以参考以上方法的实现过程,本实施例不再具体阐述。[0123]以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。[0124]以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部