网络加密流量的相关研究

王茂南

3487
文章

75
评论

2019年11月26日07:58:41

评论4 5308字阅读17分41秒

摘要主要介绍关于网络加密流量的识别的相关研究和进展. 包括了这个领域的关键词(方便之后进行搜索), 这个领域的综述文献的阅读和整理.

文章目录(Table of Contents)

简介

这一篇会对网络加密流量检测的相关研究做一个综述. 将各个方面进行简单的说明. 差不多就是对相关综述文献的阅读和整理. 关于具体加密流量检测的方法和实验, 会在之后进行介绍.

方向关键词

Network encrypted traffic
Encrypted traffic identification
Encryption protocol
Abnormal encrypted traffic
Encrypted Traffic Characterization
VPN Traffic Characterization

网络加密流量相关研究

加密流量识别类型

加密与非加密流量识别: 识别哪些流量是加密的, 哪些是未加密的.
加密协议识别: 识别加密流量采用的协议, 如SSH, SSL, IPSec.
加密应用识别: 如Skype, BitTorrent, YouTube等.
加密服务识别: 加密流量所属的服务类型, 如网页浏览(Web browning), 流媒体(streaming media), 即时通讯等.
异常流量识别: 如识别出DDoS, APT, Botnet等恶意流量.

加密流量识别方法

关于这部分详细的方法介绍(每一部分的文章介绍), 会在后面进行单独的介绍.

基于有效载荷的方式
基于分组负载随机性检测的方法
基于机器学习的方法
基于主机行为的方法
基于数据分组大小分布的方法
基于多策略融合的方式

对于基于机器学习的方法, 我们还可以进行更加详细的分类, 这个是参考下面这篇文章.

Rezaei, Shahbaz, and Xin Liu. "Deep learning for encrypted traffic classification: An overview." IEEE communications magazine 57.5 (2019): 76-81.

这里是按照使用CNN, 或是RNN, 或是AE等来进行分类的, 我们会在网络加密流量实验–基于原始流量中进行详细的介绍.

加密流量识别使用的数据集

VPN-nonVPN dataset (ISCXVPN2016)

这一个数据集第一次提出, 来自于下面这一篇文章(这篇文章也是在说明他提取的time-related features对区分加密流量是有显著的作用的).

Draper-Gil, Gerard, Arash Habibi Lashkari, Mohammad Saiful Islam Mamun, and Ali A. Ghorbani. "Characterization of encrypted and vpn traffic using time-related." In Proceedings of the 2nd international conference on information systems security and privacy (ICISSP), pp. 407-414. 2016.

下面简单对上面的文章和相应的数据集进行介绍.

该数据集有14种原始流量数据, 7种常规的加密流量和7种VPN协议封装的流量, 下面是7种使用到的traffic.

下面是中文综述中进行整理的内容(图中少了一种), 就是在数据集中每一个traffic都会有正常加密和带有VPN加密的流量(这张图可能来自End-to-end Encrypted Traffic Classification with One-dimensional Convolution Neural Networks这一篇文章).

实验设计

在本文中, 作者设计了两种实验, 分别是

先识别VPN和no-VPN, 接着在识别各类traffic;
直接对所有的traffic进行分类, VPN和no-VPN放在一起分类;

对于上面两个场景, 可以对于数据集中的Scenario A和Scenario B. 其中Scenario A会分为1,2. 因为在这个阶段分成两个步骤.

Scenario A: In this Scenario we do the characterization in two steps. First, we distinguish between VPN and Non-VPN traffic and then we characterize each type of traffic separately (VPN and Non-VPN). In order to do this, we have divided our dataset in two different datasets: one with regular encrypted traffic flows and the other one with VPN traffic flows. (这里有两个数据集, 一个数据集只有VPN和no-VPN的label, 另一个有每一种traffic的label, 例如此时一个数据集中已经告知是VPN, 接着从中区分VPN-Email或是VPN-Chat)

Scenario B: In this Scenario, we use a mixed dataset to do the characterization in one step. The input of our classifier is regular encrypted traffic and VPN traffic. (这里是将14中traffic混合在一起)

原文作者是从原始流量(pcap)生成特征来进行分类实验的. 在生成特征的时候, 因为要确定一个session的开始和结束, TCP可以使用FIN packet来确定结束的时间, UDP就使用flow timeout来确定session的结束时间. 在本实验中, 使用了15, 30, 60, 120这四种timeout(本文测试结果表明通过flow timeout=15得到的分类准确率是比较好的).

最终, 作者对原始数据集提取获得了以下的特征信息. 详细的特征描述见下面表格的内容(其中Idle表示初始化状态).

下面是关于特征的详细的文字描述.

fiat: Forward Inter Arrival Time, the time between two packets sent forward direction (mean, min, max, std).
biat: Backward Inter Arrival Time, the time between two packets sent backwards (mean, min, max, std).
flowiat: Flow Inter Arrival Time, the time between two packets sent in either direction (mean, min, max, std).
active: The amount of time time a flow was active before going idle (mean, min, max, std).
idle: The amount of time time a flow was idle before becoming active (mean, min, max, std).
fb psec: Flow Bytes per second.
fp psec: Flow packets per second. duration: The duration of the flow.

作者在文章中也提了一下关于延迟的问他, 他定义了FT+FE+ML, 其中

FT: flow time
FE: feature extraction
ML: machine learning algorithm time to perform classification

实验内容与结果

下面, 作者使用了两个算法(C4.5 Decision Tree和KNN)来对提取的特征进行测试. 分别是两个场景. 同时测试了不同的flow timeout.

首先对于Scenario A的第一个部分(we classify traffic into VPN and Non-VPN).

如下图所示, 表现了不同算法在不同timeout情况下的准确率表现. 图的左侧(框出的部分)是Precision, 可以看到timeout越小, 准确率越高(using shorter timeout values improve the accuracy rate). 同时对于同一个timeout, 也是比较了两种算法的结果.

这一部分最好的准确率是, the best results are achieved using the C4.5 algorithm and 15s ftm: 0.89 for VPN and 0.906 for Non-VPN.

接着对于Scenario A的第二个部分(focuses on the characterization of VPN and Non-VPN traffic).

最终的性能图如下所示, 一列分别表示每一个traffic的准确率, 每一列上面的点表示不同timeout不同算法下的准确率.

最终的关于准确率的描述, the best results (average Pr) are obtained with C4.5 and 15s of ftm: 0.84 and 0.89 for the VPN and Non-VPN classifiers respectively. Moreover, the average Pr for all traffic categories is higher than 0.84.

Scenario B的实验结果(这里图片和上面Scenario A的第二个部分类似, 这里只使用了两个算法做测试, 分别是C4.5 Decision Tree和KNN)

In this Scenario all encrypted and VPN traffic are mixed together in one dataset, and the objective is to characterize the traffic without previously dividing VPN from Non-VPN traffic, therefore we will have 14 types of traffic: 7 encrypted and 7 VPN traffic categories.

下图是两种算法, 在VPN和no-VPN上两种指标的值(Precision, Recall).

关于直接分类的最优结果的展示, the highest average Pr from the different ftm(flow timeout) values is around 0.783 for C4.5 and 0.711 for KNN algorithms, around 0.5 points lower that the best values from Scenario A.

下载链接: VPN-nonVPN dataset (ISCXVPN2016)

Tor-nonTor dataset (ISCXTor2016)

这个数据集是关于使用Tor来进行加密的数据集, 包含不同应用使用Tor加密与不使用Tor加密后的结果. 下面是关于这个数据集介绍的文献

Lashkari, Arash Habibi, Gerard Draper-Gil, Mohammad Saiful Islam Mamun, and Ali A. Ghorbani. "Characterization of Tor Traffic using Time based Features." In ICISSP, pp. 253-262. 2017.

下载链接: Tor-nonTor dataset (ISCXTor2016)