(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111393416.0
(22)申请日 2021.11.23
(71)申请人 广州大学
地址 510006 广东省广州市番禺区大 学城
外环西路23 0号
(72)发明人 王宇 韦国成 薛含笑
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
代理人 李君
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
智能音箱网络流量的分类方法、 系统、 电子
设备和存 储介质
(57)摘要
本发明公开了一种智能音箱网络流量的分
类方法、 系统、 电子设备和存储介质, 所述方法包
括: 采集智 能音箱网络流量数据; 智 能音箱网络
流量数据包 括Common类、 Play类、 Direction类和
Control类; 对智能音箱网络流量数据进行预处
理, 得到特征数据集; 采取联合信息增益与
Pearson相关系数的方法对特征数据集进行特征
选择, 得到 特征子集; 根据特征子集, 通过网络流
量分类器实现智能音箱网络流量的分类。 本发明
采用联合信息增益与 Pearson相关系数对智能音
箱流量进行特征选择, 提高了分类器的性能, 同
时采用基于机器学习的流量分类技术可以更直
观有效的对网络流量进行分类识别, 用以评估其
安全状况。
权利要求书2页 说明书12页 附图8页
CN 114219008 A
2022.03.22
CN 114219008 A
1.一种智能音箱网络流 量的分类方法, 其特 征在于, 所述方法包括:
采集智能音箱网络流量数据; 所述智能音箱网络流量数据包括Common类、 Play类、
Direction类和Control类;
对所述智能音箱网络流 量数据进行 预处理, 得到特 征数据集;
采取联合信息增益与Pearson相关系数的方法对所述特征数据集进行特征选择, 得到
特征子集;
根据所述特 征子集, 通过网络流 量分类器实现智能音箱网络流 量的分类。
2.根据权利要求1所述的分类方法, 其特 征在于, 使用W ireshark进行流 量数据的采集;
采集的智能音箱网络流量数据被保存为PCAP文件, 其中每行数据表示一个网络数据
包, 所述网络数据包包括源端口号、 目标端口号、 源IP地址、 目标IP地址、 Unix 时间戳、 数据
包载荷大小和协议类型信息 。
3.根据权利要求1所述的分类方法, 其特征在于, 所述预处理, 包括流量聚合、 特征处理
和数据集标注, 其中:
所述流量聚合, 读取PCAP文件, 获取单个数据包的五元组信息; 以所述五元组信息为依
据, 根据传输协议中的SYN和FI N标志位进行流切割, 从而保存完整的网络流, 得到双向流;
所述特征处理, 将所述双 向流中的数据转化为特征向量格式, 再将双 向流分为两个方
向的单向流; 根据流量数据包长度、 载荷以及时间戳的统计特征, 分别对双向流和单向流中
的数据进行 特征提取, 获得网络流特 征;
所述数据集标注, 根据智能音箱网络流量数据的的产生方式, 在所述网络流特征上打
上相应的标签, 从而得到特 征数据集。
4.根据权利要求1所述的分类方法, 其特征在于, X和Y分别为所述特征数据集中的任意
两个特征, X和Y称为特 征对;
所述采取联合信息增益与Pearson相 关系数的方法对所述特征数据集进行特征选择,
得到特征子集, 包括:
设置阈值 k;
计算所述特 征数据集中所有特 征对的Pearso n相关系数;
若特征对的Pearso n相关系数 大于阈值 k, 则计算特 征对的信息增益;
计算出所有的信息增益; 并将信息增益较小值所对应的特 征删除;
将剩余特 征子集作为特 征选择结果, 即为特 征子集。
5.根据权利要求4所述的分类方法, 其特征在于, 所述特征对X和Y的Pearson相关系数
为X和Y之间的协方差和标准差的商, 即:
其中,
和
分别表示特征X和Y所有取值的算术平均值, Xi和Yi分别表示 特征X和Y在
第i条数据流的特 征取值。
6.根据权利要求 4所述的分类方法, 其特 征在于, 所述特 征对X和Y的信息增益 为:权 利 要 求 书 1/2 页
2
CN 114219008 A
2G(Y,X)=H(X) ‑H(X|Y) (2)
其中, H(X)为信息熵, H(X|Y)为条件熵;
在信息论中, 信息熵用来描述随机事 件的不确定性或纯度, 其定义 为:
假设随机变量为Xi(i=1,2, …,n), 对于每一个 可能的取值xi, 其概率为P(X=xi), pi=P
(X=xi), 则随机变量的信息熵为:
条件熵用来衡量在特 征Y下、 特 征X的不确定性, 其定义 为:
7.根据权利要求1所述的分类方法, 其特征在于, 所述根据所述特征子集, 通过网络流
量分类器实现智能音箱网络流量的分类, 是分别采用随机森林、 朴素贝叶斯、 贝叶斯网络和
支持向量机构建网络流 量分类器, 实现对智能音箱网络流 量的分类。
8.一种智能音箱网络流 量的分类系统, 其特 征在于, 所述系统包括:
数据采集模块, 用于采集智能音箱网络流量数据; 所述智能音箱网络流量数据包括
Common类、 Play类、 Directi on类和Control类;
数据预处 理模块, 用于对所述智能音箱网络流 量数据进行 预处理, 得到特 征数据集;
数据集特征选择模块, 用于采取联合信息增益与Pearson相 关系数的方法对所述特征
数据集进行 特征选择, 得到特 征子集;
分类模块, 用于根据所述特征子集, 通过网络流量分类器实现智能音箱网络流量的分
类。
9.一种电子设备, 包括处理器以及用于存储处理器可执行程序的存储器, 其特征在于,
所述处理器执行存储器存储的程序时, 实现权利要求1 ‑7任一项所述的分类方法。
10.一种存储介质, 存储有程序, 其特征在于, 所述程序被处理器执行时, 实现权利要求
1‑7任一项所述的分类方法。权 利 要 求 书 2/2 页
3
CN 114219008 A
3
专利 智能音箱网络流量的分类方法、系统、电子设备和存储介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:22:15上传分享