基于XGBoost的流量分析识别系统

关于本项目

本项目为2020年中国高校计算机大赛(C4)－网络技术挑战赛EP2初赛赛项，题目为构建一个在线流量识分析与识别系统，能够实时识别出网络上的正常业务流量、恶意软件流量和网络攻击流量，并对各种流量随时序的变化进行进行可视化展示，我们在XGboost模型的基础上使用Stacking集成学习技术，将思博伦官方给出的流量pcap包解析为流量的URL进行训练, 最终在官方给出的测试流量包上达到 82.18% 的准确率。（该项目的决赛版本将模型换为了时空神经网络）。

环境依赖

运行以下命令安装环境依赖：

pip install -r requirements.txt

数据集

我们的数据读取和预处理(TF-IDF编码)逻辑由在process.py模块完成训练所用的数据集采用赛方提供的pcap包数据集，已经经过Scapy的解析将流量的URL提取出来，放在项目目录中的data文件夹下，三种类型的流量分别存放为业务流量.csv、恶意软件.csv、网络攻击.csv。

因为我们采用的是线上实时分析系统，线上实时测试数据需要从MySQL数据库中读取，经过模型的推断后再在前端可视化呈现。我们这里为了方便已经将MySQL中的已经经过Scapy解析的URL流量数据提取出来存放在data目录下，将流量内容和时间戳分别保存为时间戳.csv和测试流量.csv。

特征工程

特征工程逻辑由feature.py模块完成，详情可阅读项目根目录下的项目介绍PDF文档。

模型

我本地训练好的特征选择模型和主模型已经分别保存在项目的features_model目录和model目录下，可直接进行测试。

项目目录说明

-data ------------------- 存放数据

-features_model ------------------- 存放用于特征选择的相关模型

-model ------------------- 存放最终训练的相关主模型

-prediction ------------------- 存放对第6年数据的预测结果

-feature.py ------------------- 完成特征选择的操作（包含尝试依据不同的阈值选取特征并训练模型）

-main.py ------------------- 主文件，用于从构建特征工程到模型的训练、评估与推断的pipline

-model.py ------------------- 在训练集和验证集上进行关于主模型的训练与验证的实现

-process.py ------------------- 完成数据的读取与预处理操作

使用方法

运行:

python main.py \
    --features_model load \
    --main_model load

features_model参数表示选择是否重新开始训练特征选择模型，若需重新训练特征选择模型可将 feature_model 参数设置为 retrain ，否则设置为 load直接加载已经训练好的特征选择模型(（但前提是特征选择模型已经放置于 features_model目录下）)。

main_model参数表示是否重新开始训练主模型（即Stacking+XGBoost模型），若需重新训练主模型可将 main_model 参数设置为 retrain ，否则设置为 load直接加载已经训练并保存好的模型（但前提是主模型已经放置于 model目录下）。

上线后的代码是从MySQL中读取测试数据集，这里为了方便我们已经将经过Scapy解析的测试数据集放在data目录下，在模型训练与验证完成之后，会直接进行推断操作。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

基于XGBoost的流量分析识别系统

关于本项目

环境依赖

数据集

特征工程

模型

项目目录说明

使用方法

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 54 Commits
data		data
features_model		features_model
model		model
prediction		prediction
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
feature.py		feature.py
main.py		main.py
model.py		model.py
process.py		process.py
requirements.txt		requirements.txt
基于集成学习的流量分析识别系统.pdf		基于集成学习的流量分析识别系统.pdf

License

orion-orion/XGBoost-Flow-Analysis

Folders and files

Latest commit

History

Repository files navigation

基于XGBoost的流量分析识别系统

关于本项目

环境依赖

数据集

特征工程

模型

项目目录说明

使用方法

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages