(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111404913.6
(22)申请日 2021.11.24
(71)申请人 杭州博盾 习言科技有限公司
地址 311121 浙江省杭州市余杭区五常街
道文一西路9 98号18幢210室
(72)发明人 周一竞 张宇 孟丹 李宏宇
李晓林
(74)专利代理 机构 北京律智知识产权代理有限
公司 11438
代理人 孙宝海 袁礼君
(51)Int.Cl.
G06N 20/00(2019.01)
G06K 9/62(2022.01)
G06F 21/62(2013.01)
(54)发明名称
联邦学习系统、 联邦学习系统中的特征选择
方法及装置
(57)摘要
本申请提供了一种联邦学习系统、 联邦学习
系统中的特征选择方法及装置, 系统至少包括第
一参与方和第二参与方, 第一参与方持有样本的
第一特征以及样本标签, 第二参与方持有样本的
第二特征; 第一参与方配置为: 基于第一特征计
算得到联合样本集中各样本分别与中心样本之
间的第一距离, 并获取第二参与方基于第二特征
计算得到的联合样本集中各样本分别与中心样
本之间的第二距离; 基于第二距离对第一距离进
行更新, 得到联合样本集中各样 本分别与中心样
本之间的综合距离; 基于样本标签以及综合距
离, 筛选出第一同类样本和第一异类样本; 对第
一特征的权重进行更新, 并对第一特征进行筛
选。 本申请提高了第一参与方对其所持有第一特
征进行特征选择的精准度。
权利要求书3页 说明书13页 附图4页
CN 113962401 A
2022.01.21
CN 113962401 A
1.一种联邦学习系统, 其特征在于, 所述系统至少包括第 一参与方和第 二参与方, 所述
第一参与方持有样本的第一特征以及样本的样本标签, 所述第二参与方持有样本的第二特
征, 所述第一参与方以及所述第二参与方分别选取相同样本组成的联合样本集, 并分别从
所述联合样本集中选取相同的一个样本作为中心样本R;
所述第一 参与方配置为:
基于所述第 一特征计算得到所述联合样本集中各样本分别与 所述中心样本R之间的第
一距离, 并获取所述第二参与方基于所述第二特征计算得到的所述联合样本集中各样本分
别与所述中心样本R之间的第二距离;
基于所述第 二距离对所述第 一距离进行更新, 得到所述联合样本集中各样本分别与 所
述中心样本R之间的综合距离;
基于所述样本标签以及所述综合距离, 从与所述中心样本R标签相同的样本中筛选出
综合距离最近的k个样本作为第一同类样本, 以及从与所述中心样本R标签不同的各类样本
中分别筛 选出综合距离最近的k个样本作为第一异类样本, 其中, k 为大于0的自然数;
基于所述第一同类样本与所述中心样本R在各第一特征上的特征距离, 以及所述第一
异类样本与所述中心样本R在各第一特征上的特征距离, 对各第一特征的权重进 行更新, 并
根据更新后的权 重对第一特 征进行筛 选。
2.根据权利要求1所述的系统, 其特 征在于, 所述第一 参与方配置为:
与所述第二参与 方预先约定一个随机数种子, 使得所述第 一参与方以及所述第 二参与
方每次根据所述随机数种子进行采样, 分别选取 出所述联合样本集。
3.根据权利要求1所述的系统, 其特 征在于, 所述第一 参与方配置为:
从所述联合样本集中随机选取一个样本作为中心样本R, 并将所述中心样本R的标识发
送给所述第二 参与方, 以使得 所述第二 参与方根据所述标识选取 所述中心样本R。
4.根据权利要求1所述的系统, 其特 征在于, 所述第一 参与方配置为:
计算所述第 一距离与 所述第二距离之间的向量距离, 将所述向量距离作为更新后的第
一距离, 并将所述更新后的第一距离作为对应样本与所述中心样本R之间的综合距离 。
5.根据权利要求1 ‑4任一项所述的系统, 其特 征在于, 所述第一 参与方配置为:
筛选得到更新后权 重大于预设权 重阈值的第一特 征;
或者, 按照更新后权重从大到小的顺序对所述第一特征进行排序, 筛选得到排序靠前
的预设数目个第一特 征。
6.一种联邦学习系统, 其特征在于, 所述系统中至少包括第 一参与方以及第 二参与方,
所述第一参与方持有样本的第一特征以及样本的样本标签, 所述第二参与方持有样本的第
二特征, 所述第一参与方以及所述第二参与方分别选取相同样本组成的联合样本集, 并分
别将所述联合样本集中的同一样本作为中心样本R;
所述第二 参与方配置为:
通过隐私计算的方式对所述第一参与方生成的第一矩阵以及所述第二参与方生成的
第二矩阵进 行处理, 得到第二同类样本与所述中心样本R在各第二特征上的特征距离, 以及
第二异类样本与所述中心样 本R在各第二特征上的特征距离, 其中, 所述第一矩阵用于描述
所述联合样本集中各样本的样本标签, 所述第二矩阵用于描述所述联合样本集中各样本的
第二特征, 所述第二同类样本为基于第二特征确定的与所述中心样本R标签相同且距离所权 利 要 求 书 1/3 页
2
CN 113962401 A
2述中心样本R最近的k个样本, 所述第二异类样本为基于第二特征确定的与所述中心样本R
标签不同的每一类样本中距离所述中心样本R最近的k个样本;
基于所述第二同类样本与所述中心样本R在各第二特征上的特征距离, 以及所述第二
异类样本与所述中心样本R在各第二特征上的特征距离, 对各第二特征的权重进 行更新, 并
根据更新后的权 重对第二特 征进行筛 选。
7.根据权利要求6所述的系统, 其特 征在于, 所述第二 参与方配置为:
若所述第二特征为连续值, 则对所述第二特征进行归一化处理, 并基于归一化处理后
的第二特 征生成所述第二矩阵。
8.根据权利要求6或7所述的系统, 其特征在于, 所述系统还包括可信第 三方, 所述可信
第三方配置为:
从所述第一 参与方接收所述第一矩阵, 并从所述第二 参与方接收所述第二矩阵;
基于所述第 一矩阵以及所述第 二矩阵, 计算得到所述第 二同类样本与 所述中心样本在
各第二特征上的特征距离, 以及所述第二异类样本与所述中心样本在各第二特征上的特征
距离;
将所述第二同类样本与所述中心样本在各第 二特征上的特征距离, 以及所述第 二异类
样本与所述中心样本在各第二特 征上的特征距离发送给 所述第二 参与方。
9.一种联邦学习系统中的特征选择方法, 其特征在于, 所述系统中至少包括第一参与
方以及第二参与方, 所述第一参与方持有样本的第一特征以及样本的样本标签, 所述第二
参与方持有样本的第二特征, 所述第一参与方以及所述第二参与方分别选取相同样本组成
的联合样本集, 并分别从所述联合样本集中选取相同的一个样本作为中心样 本R, 所述方法
应用于所述第一 参与方, 所述方法包括:
基于所述第 一特征计算得到所述联合样本集中各样本分别与 所述中心样本R之间的第
一距离, 并获取所述第二参与方基于所述第二特征计算得到的所述联合样本集中各样本分
别与所述中心样本R之间的第二距离;
基于所述第 二距离对所述第 一距离进行更新, 得到所述联合样本集中各样本分别与 所
述中心样本R之间的综合距离;
基于所述样本标签以及所述综合距离, 从与所述中心样本R标签相同的样本中筛选出
综合距离最近的k个样本作为第一同类样本, 以及从与所述中心样本R标签不同的各类样本
中分别筛 选出综合距离最近的k个样本作为第一异类样本, 其中, k 为大于0的自然数;
基于所述第一同类样本与所述中心样本R在各第一特征上的特征距离, 以及所述第一
异类样本与所述中心样本R在各第一特征上的特征距离, 对各第一特征的权重进 行更新, 并
根据更新后的权 重对第一特 征进行筛 选。
10.一种联邦学习系统中的特征选择装置, 其特征在于, 所述系统中至少包括第一参与
方以及第二参与方, 所述第一参与方持有样本的第一特征以及样本的样本标签, 所述第二
参与方持有样本的第二特征, 所述第一参与方以及所述第二参与方分别选取相同样本组成
的联合样本集, 并分别从所述联合样本集中选取相同的一个样本作为中心样 本R, 所述装置
设于所述第一 参与方, 所述装置包括:
距离计算模块, 配置为基于所述第 一特征计算得到所述联合样本集中各样本分别与 所
述中心样本R之间的第一距离, 并获取所述第二参与方基于所述第二特征计算得到的所述权 利 要 求 书 2/3 页
3
CN 113962401 A
3
专利 联邦学习系统、联邦学习系统中的特征选择方法及装置
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:22:42上传分享