模块化免疫神经网络模型在计算机病毒分类检测中的应用

作者:admin 来源:未知 点击数: 发布时间:2019年05月11日

  模块化免疫神经收集模子在计较机病毒分类检测中的使用

  跟着消息手艺的成长和互联网使用的普及,计较机系统遭到计较机病毒的要挟。检测,指将可疑文件作为输入,施行某病毒检测算法后输出成果(无毒、带毒/带何种毒)的过程,本色上是对文件的分类。病毒分类检测应属于模式识别范围。因为单一的手艺无法无效地匹敌计较机病毒,手艺的融归并用及智能化,将是将来计较机病毒检测的趋向。故采用免疫算法和神经收集的新型收集模子,对计较机病毒分类检测进行研究。

  1模子的提出

  人工神经收集和人工免疫系统都是受生物学的开导成长而来的理论和手艺,两者在生物学道理和人工道理上各有异同。研究表白,免疫道理能够使用到神经收集中,以提高神经收集的机能;反之,神经收集理论也能够使用到人工免疫系统中,从而发生一个彼此之间能够受益的研究范畴。

  图1中,抗原(Ag)暗示神经收集中输入神经元到输出神经元的权向量Wk(由抗体Ab和自体库集S配合感化后,根基调理好的权向量),基于计较机病毒的入侵检测中,代表一类收集数据包,以二进制串暗示。抗体(Ab)暗示神经收集中的输入样本。S代表自体库调集。权值及输入样本和输出单位都利用二进制,即只利用0和1暗示,如图2。

  起首抗体库中的向量城市和白体库的向量进行识别。若是抗体库中的向量一旦和自体库中的向量婚配,则会进行剪枝操作。

  沿用保守的抗体收集特征,划定ξj暗示收集中抗体j的抗原浓度,即抗体j所能识此外抗原个数。1个抗体细胞k与某种抗原细胞的亲和力,由权向量与该抗体的汉明距离(Hamming)决定,可由式(1)获得与Ag可能性的最大形态序列δ:

  亲和力δ越大,申明这种抗体可以或许对此抗原进行较好的应对,保留。相反,通过剪枝的体例,从收集中删掉。把不与本身反映的抗体保留,进行匹敌原的识别,进行后续的工作。

  否认选择后的抗体与抗原进行神经收集的感化,法则如上,若是抗体不婚配,按照已有的神经收集的权值算法的改前进骤进行权值的调整,以达到在给定抗体空间中具有最大的解空间度,即2个抗体之间有最大的不不异度。

  更新抗体种群,颠末若干次的叠代运算,把抗体种群锻炼收敛于一个较不变的调集,即进修过程完毕。进修完成后,能够用于计较机病毒检测中。

  2 模子设想思绪

  整个收集的合作进修步调分为2部门:

  第1部门:起首从抗体库里按照概率密度P(Ab)选择出1个抗体进行输入。并和自体库S进交运算,并设定阈值ε,当满足式(2)时:

  抗体颠末了自体耐受,变为成熟的检测器,且不与自体发生免疫应对,是及格的检测器。若是跨越阈值ε,则从收集中删除此抗体节点。抗体Ab1和自体集S中的S1发生了免疫应对。

  第2部门:颠末自体耐受的抗体别离和某个抗原Agk进行感化,在抗体内部设定1个ξi,一旦抗原的权向量和抗体的汉明距离跨越阈值ε,ξj添加1,若是ξj长时间等于0,将此抗体从收集中删去。当ξj添加到1个常值M时,不再继续添加,启动1个计时器,按必然的间隔时间t递减ξj,避免了长时间未发生应对的抗体继续残留在抗体库中。新模子中的神经收集处置单位如图3。

  在该模子中,每个神经元的根基性质不异,但具体形式分歧。因而,每个神经元的激活函数被设想成可变形式,也就是说,激活函数的根基性质连结不变,但具体的形式该当能够通过调整函数的参数来改变,任一神经元i的激活函数可设想成:

  3 抗体自体库的成立

  随机获取一组输入向量抗原X,按照式(1)发生与X最婚配的核心序列k,把k添加到抗体群中。因为计较机病毒入侵检测中在某段时间呈现不异的入侵行为的概率较高,可按照收集利用环境,进行最快速度的婚配运算,而不需要进行进修功能。

  抗体自体库次要由选择抗体集、交叉抗体集和变异抗体集构成。

  1)选择抗体集的设想:是包管免疫算法种群优胜劣汰的主要抗体集,且有较多的实现。

  2)交叉抗体集的设想:交叉就是把2个父个别的部门布局加替代重组而生成新个别的操作,其目标是能鄙人一代发生新的优化抗体集。

  3)变异抗体集的设想:因免疫算法中变异抗体集以辅助手段呈现,故采用本位变异的方式即可。

  4 仿实在验

  其锻炼方式如图4。

  4.1 仿真锻炼初始数据的收集

  目宿世界上良多研究机构和研究人员努力于计较机病毒入侵检测方面的研究和系统开辟,供给了一些测试材料调集,包罗收集材料、基于主机的审计材料和系统挪用序列。

  收集传输和谈/收集和谈(TCP/IP)对需要组织传输的材料包进行打包。TCP层在包中插手了头消息如:源埠、目标埠、序列号、ACK确认号、偏移量、SYN、FIN、窗口和告急指针等。含有TCP头消息的包被送到IP层,加IP材料包头如:包头长度、办事类型、材料包长度、分段偏移量、保存期、和谈类型、源地址和方针地址等。而一般和非常的数据包都在网上传输,其特征是有不同的。

  为测试改良后的收集在病毒入侵检测使用中的结果,采用了具有30万条数据记实的测试数据集,每条数据包罗了收集数据包的包头消息、收集毗连消息和数据消息等,每条数据包含96位的二进制代码。此中前32位二进制为源IP地址,32-64位二进制为方针IP地址,64-96位二进制暗示了一些数据消息,每个数据被标识表记标帜为非常或者一般。该数据源由MATLAB操纵random()函数发生一组随机的小数,由于考虑到是二进制运算,划定:

  如许随机发生的二进制串96个为一组,模仿的IP数据包,一共发生96万个二进制串组合。

  4.2 抗体自体库仿真锻炼(自体库的成立)

  利用这1万条数据进行自体库的成立和神经收集的进修。在不竭调整抗体自体库的同时,使自体库的解空间在最大程度上获得提高,最初趋近与一个不变的自体库接调集。操纵成立好的抗体检测库检测未知的29万条数据记载。仿线 病毒入侵检测算法的仿真锻炼

  成立起自体库后,进行病毒入侵检测算法的仿真试验,步调如下:

  起首,引入新的一组数据向量,与自体库也就是所谓的回忆细胞婚配,若是在必然的阈值范畴内婚配度很高,则认为该向量为入侵行为,并把婚配度提拔1;相反,若是婚配度不高,则找出回忆细胞里与之亲和力较大的进行权值的调整,达到两者之间的最优婚配度,然后把新的向量作为抗体调集插手到回忆细胞,反复操作,完成后统计成果。

  检测算法仿真法式如下:

  在模式识别范畴中,Receiver OperatingCharacteristics(ROC)曲线用于比力分歧分类检测算法的机能。曲线下的面积越大,则算法分类检测机能越好越不变。图5为该模子与遗传算法模子以及保守抗体模子的基于MATLAB情况下的仿真测试ROC图。可见,集成新型抗体模子收集ROC曲线个收集模子的面积。申明基于

  免疫神经收集模子的计较机病毒检测模子机能要优于其它2个,正好支撑了文献[2]的结论。文献[2]对基于n-gram的恶意代码检测取得了很好的结果,一共测试了8种分类器,成果如图5、图6,此中Boosted J48机能最优。

  1)由表1可知,自体库选得过小,会形成单抗体的高扰动率,屡次更新抗体群,缺乏抗体的多样性,笼盖范畴减小。

  2)自体库过大,会形成锻炼收集的时间增加。拟采用200条为自体库大小,对这30万条数据记实通过新模子进行检测,并与单免疫算法模子和保守的抗体收集模子进行对比,如表2。虽然此收集模子在时间上略逊于其他两种已知算法模子,但在精确率上却有较着的提高。

  由尝试可知,基于免疫算法和神经收集的新型收集模子降低了保守的病毒入侵检测模子的误报率和漏报率,提高了免疫系统的进修效率和系统的智能化程度,在系统的容错性上也有较大的改善,对提高系统的检测能力具有主要意义。

(编辑:admin)
http://tocotrim.com/bd/347/