基于机器学习的加密网络数据分类识别关键技术的研究与实现

基于机器学习的加密网络数据分类识别关键技术的研究与实现

在通信网络中,对加密数据的有效分类识别对网络监管和安全防护意义重大。对计算机网络而言,网络流量多被定义为具有相同五元组的连续数据包,且传统方法一般基于流或载荷的统计特征对其进行分类识别。而在物联网、卫星通信网等特殊网络中,由于应用的特殊性和网络设备的受限性,使用的通信协议具有结构紧凑、数据传输突发等特点,导致网络中的数据多以离散无序短报文的形式存在,缺乏流统计特征,传统基于流的分类识别方法对其无法适用。同时,由于长度较短,现有基于载荷统计特征的分类识别方法对其效果不佳。此外,随着网络环境的不断变化和加密私有协议的大量使用,数据标签的获取较为困难,在协议规范未知和缺乏标记数据条件下的分类识别难度更大。针对上述特殊网络中的离散加密短数据的分类识别问题,本文基于深度学习对其关键技术展开研究,论文的主要工作及创新点包括:1.当处理对象为公开协议数据时,针对目标数据集协议种类单一且无标记数据的问题,提出一种基于长短时记忆网络(LSTM)和模型迁移的加密网络数据无监督分类识别算法。构建了基于LSTM的分类识别网络,将网络数据视为时间序列,利用公开或生成的源域数据对网络进行预训练,基于模型迁移方法将预训练后LSTM网络迁移至目标数据进行分类识别,并使用动态时间规整(DTW)方法指导源域的选择。实验表明,在Text、ACARS、HTTP&SSH等数据集上无监督分类识别的准确率和F1值均超过96%,同时构建的LSTM网络能够有效解决数据离散、长度较短的问题。2.当处理对象为公开协议数据时,针对目标数据集协议种类混杂且仅有少量标记数据的问题,提出一种基于生成对抗网络(GAN)的两阶段半监督加密网络数据分类识别算法。第一阶段构建了基于GAN的数据筛选网络,基于目标域少量带标记数据,利用GAN中的判别器对源域数据进行筛选;第二阶段构建了基于GAN的半监督分类识别网络,利用筛选出的同分布无标签数据和少量标记数据实现半监督分类识别。实验表明,在以ACARS、AIS1、AIS4、HTTP、DNS、SMTP、FTP和SSH等为源域数据,对ACARS、AIS和HTTP混合数据进行分类识别时,当标记率低至0.06%,准确率和F1值能保持在91%以上,与传统半监督分类识别方法相比,提升超过10个百分点。3.当处理对象为私有协议数据时,针对目标数据集协议种类混杂且无标记数据的问题,提出一种基于数据重构的加密网络数据分类识别算法。提出基于数据重构和卷积神经网络(CNN)的加密概率计算方法,计算整体数据各字节偏移量的加密概率;提出基于离散序列导数的疑似加密字段集生成算法,提取加密概率跳跃点,生成所有可能的加密字段集合;提出基于矩特征向量的加密字段匹配算法,匹配出待测数据所属的加密字段模式,判断数据是否加密的同时提取加密字段起止位置。实验表明,在ACARS(上行和下行)、TLS、SSH、AIS消息1等5种不同协议构成的混合数据集上,正向覆盖度、反向覆盖度和F1值均达到90%,与基于传统方法的匹配结果相比,本文的综合效果最好。4.针对加密网络数据的分类识别实际应用需求,设计并实现一种加密网络数据智能分类识别算法软件模块,可采用离线方式外挂于现有数据平台。根据实际需求设计了软件框架,分析了软硬件条件,实现了数据预处理、加密网络数据分类识别、结果展示和指标统计等功能,并通过实际数据对软件的各模块功能进行了验证。

基本信息

题目基于机器学习的加密网络数据分类识别关键技术研究与实现
文献类型硕士论文
作者鞠永慧
作者单位战略支援部队信息工程大学
导师李青
文献来源战略支援部队信息工程大学
发表年份2021
学科分类信息科技
专业分类互联网技术,自动化技术
分类号TP181;TP393.08
关键词网络流量分类,加密网络数据,机器学习,迁移学习,数据重构
总页数:85
文件大小:4025K

论文目录

摘要
Abstract
第一章 绪论
  1.1 研究背景与意义
  1.2 国内外研究现状
    1.2.1 基于载荷的分类识别
      1.2.1.1 基于解析载荷的方法
      1.2.1.2 基于载荷统计特征的方法
    1.2.2 基于流统计特征的分类识别
    1.2.3 基于机器学习的分类识别
      1.2.3.1 基于传统机器学习的方法
      1.2.3.2 基于深度学习的方法
    1.2.4 小结
  1.3 论文主要工作
    1.3.1 问题分析
    1.3.2 论文研究内容与主要结构
第二章 基于LSTM和模型迁移的无监督加密网络数据分类识别算法
  2.1 问题描述
  2.2 基于LSTM和模型迁移的无监督分类识别算法(LSTM-TL)
    2.2.1 LSTM网络模型
    2.2.2 基于LSTM的模型迁移
  2.3 实验及分析
    2.3.1 实验设计及参数设置
      2.3.1.1 实验环境及参数
      2.3.1.2 数据集
      2.3.1.3 评价指标
    2.3.2 LSTM网络模型参数及性能分析
      2.3.2.1 性能分析
      2.3.2.2 参数分析
      2.3.2.3 与典型算法对比
    2.3.3 LSTM-TL算法参数及性能分析
      2.3.3.1 性能分析
      2.3.3.2 参数分析
      2.3.3.3 与典型算法对比
  2.4 本章小结
第三章 基于GAN的两阶段半监督加密网络数据分类识别算法
  3.1 问题描述
  3.2 基于GAN的两阶段半监督分类识别算法(TS-GAN算法)
    3.2.1 基于GAN的数据筛选
    3.2.2 基于GAN的分类识别
    3.2.3 基于LSTM的分类器
  3.3 实验及分析
    3.3.1 实验设计
    3.3.2 各独立方法的性能分析
      3.3.2.1 数据筛选方法性能分析
      3.3.2.2 半监督分类识别方法性能分析
    3.3.3 TS-GAN整体性能分析
      3.3.3.1 参数α的影响
      3.3.3.2 参数β的影响
      3.3.3.3 数据筛选的必要性
    3.3.4 TS-GAN对复杂数据处理能力
    3.3.5 与经典算法的对比
  3.4 本章小结
第四章 基于数据重构的加密网络数据分类识别算法
  4.1 问题描述
  4.2 基于数据重构的加密网络数据分类识别算法
    4.2.1 基于数据重构的加密概率计算
    4.2.2 基于离散序列导数的疑似加密字段集生成
    4.2.3 基于矩特征向量的加密字段匹配
  4.3 实验及分析
    4.3.1 实验设计
    4.3.2 加密网络数据分类识别算法各部分性能分析
      4.3.2.1 加密概率序列计算
      4.3.2.2 跳跃点提取和疑似加密字段集生成
      4.3.2.3 加密字段匹配
    4.3.3 加密网络数据分类识别算法整体性能
      4.3.3.1 对复杂数据处理能力
      4.3.3.2 阈值ε对算法的影响
      4.3.3.3 与经典匹配算法对比
  4.4 本章小结
第五章 加密网络数据智能分类识别算法软件模块
  5.1 总体设计
    5.1.1 功能需求
    5.1.2 开发环境
    5.1.3 模块设计
  5.2 工程实现
  5.3 软件各模块功能验证
    5.3.1 软件登陆模块
    5.3.2 数据预处理模块
    5.3.3 LSTM-TL 模块
      5.3.3.1 有监督分类识别
      5.3.3.2 无监督分类识别
    5.3.4 TS-GAN 模块
      5.3.4.1 数据筛选
      5.3.4.2 半监督分类识别
    5.3.5 RPDC 模块
      5.3.5.1 加密概率计算
      5.3.5.2 疑似加密字段生成
      5.3.5.3 加密字段匹配
  5.4 本章小结
第六章 总结与展望
  6.1 全文总结
  6.2 工作展望
致谢
参考文献
作者简历

参考文献

[1] 工信部印发《工业数据分类分级指南(试行)》[J]. 自动化博览 2021(01)
[2] 关于印发《工业数据分类分级指南(试行)》的通知[J]. 上海建材 2020(02)
[3] 工信部组织召开工业数据分类分级应用试点线上工作会[J]. 智能制造 2020(06)
[4] 工信部组织召开工业数据分类分级应用试点线上工作会[J]. 智能制造 2020(06)
[5] 公共文化服务大数据分类体系框架构建[J]. 图书馆论坛 2020(09)
[6] 大数据下的海量统计数据分类挖掘方法研究[J]. 福建电脑 2017(01)
[7] 基于人工智能的电商大数据分类与挖掘算法[J]. 电子技术与软件工程 2020(21)
[8] 电子档案元数据分类及元数据库建设研究[J]. 档案时空 2019(12)
[9] 基于激光特征数据分类的数学建模仿真分析[J]. 激光杂志 2019(06)
[10] 图书馆借阅数据分类信息的关联性研究[J]. 办公室业务 2018(11)
[11] 工业数据分类分级线上工作研讨会召开[J]. 电子世界 2021(05)
[12] 不均衡数据分类下特征有效识别分析[J]. 计算机仿真 2018(04)
[13] 关于大数据网络中数据分类优化识别研究[J]. 计算机仿真 2018(08)
[14] 基于OECD个人数据分类的“通知——同意”原则的有效性困境与出路[J]. 现代情报 2021(03)
[15] 网络教育数据分类与分析研究[J]. 软件导刊 2019(05)
[16] 大数据网络中数据分类优化识别分析[J]. 技术与市场 2019(06)
[17] 网络数据分类的通用化设计[J]. 考试周刊 2010(23)
[18] 工信部信息技术发展司召开工业数据分类分级线上工作研讨会[J]. 工业控制计算机 2021(03)
[19] 法规[J]. 电器 2020(04)
[20] 强化数据分类 提高企业数据管理能力[J]. 软件和集成电路 2020(10)
[21] 数据分类/分级及其相关标准解析[J]. 中国质量与标准导报 2019(04)
[22] 数据分类:简单的概念,不简单的实践[J]. 中国信息安全 2012(02)
[23] 基于模糊支持向量机的非平衡数据分类[J]. 微型机与应用 2017(16)
[24] 小区域混合大跨度数据分类方程的数学稳定性研究[J]. 科技通报 2013(11)
[25] 金融数据分类的最佳实践[J]. 华南金融电脑 2010(12)
[26] 引入行为特征概念的海量图像数据分类法研究[J]. 计算机仿真 2014(06)
[27] 面向流数据分类的在线学习综述[J]. 软件学报 2020(04)
[28] 基于随机森林的数据分类应用研究[J]. 山西大同大学学报(自然科学版) 2019(05)
[29] 基于BIM云系统的数据分类与处理研究[J]. 辽宁师专学报(自然科学版) 2017(02)
[30] 基于改进模糊规则权重算法的不平衡造价数据分类及其应用研究[J]. 工程管理学报 2015(02)

相似文献

[1]基于粗糙集和神经网络的数据分类技术研究[D]. 张亚平.大连理工大学2008
[2]基于主动学习的非均衡数据分类研究[D]. 李卓然.辽宁师范大学2012
[3]训练数据分类结果的不可指定性与模糊决策树泛化能力关系的研究[D]. 高相辉.河北大学2007
[4]基于改进型SVM的不平衡数据分类[D]. 张文荣.中国石油大学(华东)2015
[5]面向不平衡数据分类问题的核逻辑回归算法的设计与实现[D]. 王鹏.西安电子科技大学2015
[6]基于粗糙集与神经网络的数据分类研究及应用[D]. 罗建华.大连理工大学2008
[7]基于粗糙集的数据分类知识发现方法及其应用研究[D]. 高娜.大连海事大学2012
[8]基于神经网络的数据分类研究[D]. 柴绍斌.大连理工大学2007
[9]非平衡数据下的核方法分类研究[D]. 马胜祥.复旦大学2009
[10]多元不均衡数据分类问题研究[D]. 毕璟君.河南大学2017
基于机器学习的加密网络数据分类识别关键技术的研究与实现
下载Doc文档

猜你喜欢