(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111500806.3
(22)申请日 2021.12.09
(71)申请人 深圳索信达数据技 术有限公司
地址 518000 广东省深圳市南 山区粤海街
道高新区社区高新南六道6号迈科龙
大厦1801、 1901
申请人 深圳数希科技有限公司
(72)发明人 万友平 邵俊 张孜勉 支磊
(74)专利代理 机构 深圳中细软知识产权代理有
限公司 4 4528
代理人 袁文英
(51)Int.Cl.
G06N 20/00(2019.01)
G06N 3/08(2006.01)
(54)发明名称
特征重要性评估方法、 装置、 设备和介质
(57)摘要
本发明公开了一种特征重要性评估方法, 该
方法包括: 获取包含若干个数据样本的数据集,
并通过孤立森立算法对数据集进行异常值检测,
以确定若干个异常样本的异常分数。 再获取目标
异常样本在目标决策树的第一深度, 根据目标决
策树内目标异常样本的第一深度和异常分数计
算目标决策树的第一重要性分数, 从而确定出不
同决策树的重要程度。 最后获取目标特征在目标
决策树上的第二深度, 根据目标决策树内目标特
征的第二深度和目标决策树的第一重要性分数
计算目标特征的第二重要性分数, 这样就能确定
出不同特征的重要性程度, 继而可以帮助降低特
征维度, 增加业务洞察的易得性。 此外, 还提出了
特征重要性评估 装置、 设备和存 储介质。
权利要求书2页 说明书8页 附图2页
CN 114386616 A
2022.04.22
CN 114386616 A
1.一种特 征重要性评估方法, 其特 征在于, 所述方法, 包括:
获取包含多个数据样本的数据集和所述数据集对应的多个预设特征, 所述多个预设特
征用于从不同特 征维度对所述数据集进行划分;
基于预先随机构建的多个决策树, 对所述数据集进行异常值检测, 以确定所述若干个
数据样本中的若干个异常样 本, 并计算所述若干个异常样 本的异常分数; 其中, 一个决策树
以至少一个预设特征为树节点, 对所述数据集进行划分, 所述异常分数用于指示所述异常
样本在所述数据集中的异常程度;
获取目标异常样本在目标决策树的第 一深度, 根据 所述目标决策树内各个异常样本的
第一深度和异常分数, 计算所述 目标决策树的第一重要性分数, 所述 目标异常样本为所述
若干个异常样本中的任意一个, 所述 目标决策树为所述若干个决策树中的任意一个, 所述
第一深度为所述目标异常样本对应的叶节点的路径深度, 所述第一重要性分数用于指示所
述目标决策树在所述若干个决策树中的重要程度;
获取目标特征在 当前决策树上的第 二深度, 根据 所述各个当前 决策树内所述目标特征
的第二深度和所述各个当前决策树的第一重要性分数计算所述目标特征的第二重要性分
数, 所述目标特征为所述若干个预设特征中的任意一个, 所述当前决策树为包含所述 目标
特征的其中一个决策树, 所述第二深度为所述 目标特征对应的树节点的深度, 所述第二重
要性分数用于指示所述目标 特征在所述多个预设特 征中的重要程度。
2.根据权利要求1所述的方法, 其特征在于, 所述根据所述目标 决策树内各个异常样本
的第一深度和异常 分数, 计算所述目标决策树的第一重要性分数, 包括:
根据所述目标异常样本的第一深度和异常分数计算所述目标异常样本在所述目标决
策树内的局部异常分数, 所述局部异常分数用于指示所述目标异常样本在所述若干个异常
样本中的异常程度;
对所述目标决策树内各个异常样本的局部异常分数进行求和, 以计算得到所述目标 决
策树的第一重要性分数。
3.根据权利要求2所述的方法, 其特 征在于, 计算所述局部异常 分数的公式为:
G_ij=S_i/ h_ij
其中, 所述S_i为第i个目标异常样本的异常分数, 1<i<n, n为所述若干个异常样本的
数量; h_ij第i个目标异常样 本在第j个目标决策树内的第一深度, 1<j<M, M为所述若干个
决策树的数量。
4.根据权利要求1所述的方法, 其特征在于, 所述根据所述各当前 决策树内所述目标特
征的第二深度和所述各当前决策树的第一重要性分数计算所述目标特征的第二重要性分
数, 包括:
根据所述当前决策树内所述目标特征的第二深度和所述当前决策树的第一重要性分
数计算所述目标特征在所述当前决策树的增量得分, 所述增量得分用于指示所述目标特征
在所述目标决策树的重要性 程度;
对所述各个当前 决策树的增量得分进行求和, 以计算得到所述目标特征的第 二重要性
分数。
5.根据权利要求 4所述的方法, 其特 征在于, 计算所述增量得分的公式为:
delta_sf_d=ST_d*po w(2,‑depth_d)权 利 要 求 书 1/2 页
2
CN 114386616 A
2其中, ST_d为第d个目标特征所在当前决策树的第一重要性分数, 1<d<D, D为所述若
干个预设特征的数量, depth_d为第d个目标特征在对应当前决策树的深度, pow(x, y)表示x
的y次幂。
6.根据权利要求5所述的方法, 其特征在于, 该增量得分的公式中满足depth_d<m_
depth, 其中m_depth为预设深度。
7.根据权利要求1所述的方法, 其特征在于, 所述根据所述目标 决策树内所述目标异常
样本的第一深度和异常 分数计算所述目标决策树的第一重要性分数之后, 还 包括:
将第一重要性分数大于或等于预设的重要性分数阈值的决策树作为重要决策树, 从所
述重要决策树中确定所述当前决策树。
8.一种特 征重要性评估 装置, 其特 征在于, 所述装置包括:
异常值检测模块, 用于获取包含多个数据样本的数据集和所述数据集对应的多个预设
特征, 所述多个预设特征用于从不同特征维度对所述数据集进行划分; 基于预先随机构建
的多个决策树, 对所述数据集进行异常值检测, 以确定所述若干个数据样本中的若干个异
常样本, 并计算所述若干个异常样 本的异常分数; 其中, 一个决策树以至少一个预设特征为
树节点, 对所述数据集进行划分, 所述异常分数用于指示所述异常样本在所述数据集中的
异常程度;
第一重要性分数计算模块, 用于获取目标异常样本在目标决策树的第一深度, 根据所
述目标决策树内各个异常样本的第一深度和异常分数, 计算所述目标决策树的第一重要性
分数, 所述 目标异常样本为所述若干个异常样本中的任意一个, 所述 目标决策树为所述若
干个决策树中的任意一个, 所述第一深度为所述 目标异常样本对应的叶节点的路径深度,
所述第一重要性分数用于指示所述目标决策树在所述若干个决策树中的重要程度;
特征重要性计算模块, 用于获取目标特征在当前决策树上的第二深度, 根据所述各个
当前决策树内所述目标特征的第二深度和所述各个当前决策树的第一重要性分数计算所
述目标特征 的第二重要性分数, 所述 目标特征为所述若干个预设特征中的任意一个, 所述
当前决策树为包含所述目标特征的其中一个决策树, 所述第二深度为所述目标特征对应的
树节点的深度, 所述第二重要性分数用于指示所述目标特征在所述多个预设特征中的重要
程度。
9.一种计算机可读存储介质, 存储有计算机程序, 其特征在于, 所述计算机程序被处理
器执行时, 使得 所述处理器执行如权利要求1至7中任一项所述方法的步骤。
10.一种特征重要性评估设备, 包括存储器和处理器, 其特征在于, 所述存储器存储有
计算机程序, 所述计算机程序被所述处理器执行时, 使得所述处理器执行如权利要求1至7
中任一项所述方法的步骤。权 利 要 求 书 2/2 页
3
CN 114386616 A
3
专利 特征重要性评估方法、装置、设备和介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:22:26上传分享