专利 联邦学习系统、联邦学习系统中的特征选择方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111404913.6 (22)申请日 2021.11.24 (71)申请人杭州博盾习言科技有限公司地址 311121 浙江省杭州市余杭区五常街道文一西路9 98号18幢210室 (72)发明人周一竞　张宇　孟丹　李宏宇　李晓林　 (74)专利代理机构北京律智知识产权代理有限公司 11438 代理人孙宝海　袁礼君 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) G06F 21/62(2013.01) (54)发明名称联邦学习系统、联邦学习系统中的特征选择方法及装置 (57)摘要本申请提供了一种联邦学习系统、联邦学习系统中的特征选择方法及装置，系统至少包括第一参与方和第二参与方，第一参与方持有样本的第一特征以及样本标签，第二参与方持有样本的第二特征；第一参与方配置为：基于第一特征计算得到联合样本集中各样本分别与中心样本之间的第一距离，并获取第二参与方基于第二特征计算得到的联合样本集中各样本分别与中心样本之间的第二距离；基于第二距离对第一距离进行更新，得到联合样本集中各样本分别与中心样本之间的综合距离；基于样本标签以及综合距离，筛选出第一同类样本和第一异类样本；对第一特征的权重进行更新，并对第一特征进行筛选。本申请提高了第一参与方对其所持有第一特征进行特征选择的精准度。权利要求书3页说明书13页附图4页 CN 113962401 A 2022.01.21 CN 113962401 A 1.一种联邦学习系统，其特征在于，所述系统至少包括第一参与方和第二参与方，所述第一参与方持有样本的第一特征以及样本的样本标签，所述第二参与方持有样本的第二特征，所述第一参与方以及所述第二参与方分别选取相同样本组成的联合样本集，并分别从所述联合样本集中选取相同的一个样本作为中心样本R；所述第一参与方配置为：基于所述第一特征计算得到所述联合样本集中各样本分别与所述中心样本R之间的第一距离，并获取所述第二参与方基于所述第二特征计算得到的所述联合样本集中各样本分别与所述中心样本R之间的第二距离；基于所述第二距离对所述第一距离进行更新，得到所述联合样本集中各样本分别与所述中心样本R之间的综合距离；基于所述样本标签以及所述综合距离，从与所述中心样本R标签相同的样本中筛选出综合距离最近的k个样本作为第一同类样本，以及从与所述中心样本R标签不同的各类样本中分别筛选出综合距离最近的k个样本作为第一异类样本，其中， k 为大于0的自然数；基于所述第一同类样本与所述中心样本R在各第一特征上的特征距离，以及所述第一异类样本与所述中心样本R在各第一特征上的特征距离，对各第一特征的权重进行更新，并根据更新后的权重对第一特征进行筛选。 2.根据权利要求1所述的系统，其特征在于，所述第一参与方配置为：与所述第二参与方预先约定一个随机数种子，使得所述第一参与方以及所述第二参与方每次根据所述随机数种子进行采样，分别选取出所述联合样本集。 3.根据权利要求1所述的系统，其特征在于，所述第一参与方配置为：从所述联合样本集中随机选取一个样本作为中心样本R，并将所述中心样本R的标识发送给所述第二参与方，以使得所述第二参与方根据所述标识选取所述中心样本R。 4.根据权利要求1所述的系统，其特征在于，所述第一参与方配置为：计算所述第一距离与所述第二距离之间的向量距离，将所述向量距离作为更新后的第一距离，并将所述更新后的第一距离作为对应样本与所述中心样本R之间的综合距离。 5.根据权利要求1 ‑4任一项所述的系统，其特征在于，所述第一参与方配置为：筛选得到更新后权重大于预设权重阈值的第一特征；或者，按照更新后权重从大到小的顺序对所述第一特征进行排序，筛选得到排序靠前的预设数目个第一特征。 6.一种联邦学习系统，其特征在于，所述系统中至少包括第一参与方以及第二参与方，所述第一参与方持有样本的第一特征以及样本的样本标签，所述第二参与方持有样本的第二特征，所述第一参与方以及所述第二参与方分别选取相同样本组成的联合样本集，并分别将所述联合样本集中的同一样本作为中心样本R；所述第二参与方配置为：通过隐私计算的方式对所述第一参与方生成的第一矩阵以及所述第二参与方生成的第二矩阵进行处理，得到第二同类样本与所述中心样本R在各第二特征上的特征距离，以及第二异类样本与所述中心样本R在各第二特征上的特征距离，其中，所述第一矩阵用于描述所述联合样本集中各样本的样本标签，所述第二矩阵用于描述所述联合样本集中各样本的第二特征，所述第二同类样本为基于第二特征确定的与所述中心样本R标签相同且距离所权　利　要　求　书 1/3 页 2 CN 113962401 A 2述中心样本R最近的k个样本，所述第二异类样本为基于第二特征确定的与所述中心样本R 标签不同的每一类样本中距离所述中心样本R最近的k个样本；基于所述第二同类样本与所述中心样本R在各第二特征上的特征距离，以及所述第二异类样本与所述中心样本R在各第二特征上的特征距离，对各第二特征的权重进行更新，并根据更新后的权重对第二特征进行筛选。 7.根据权利要求6所述的系统，其特征在于，所述第二参与方配置为：若所述第二特征为连续值，则对所述第二特征进行归一化处理，并基于归一化处理后的第二特征生成所述第二矩阵。 8.根据权利要求6或7所述的系统，其特征在于，所述系统还包括可信第三方，所述可信第三方配置为：从所述第一参与方接收所述第一矩阵，并从所述第二参与方接收所述第二矩阵；基于所述第一矩阵以及所述第二矩阵，计算得到所述第二同类样本与所述中心样本在各第二特征上的特征距离，以及所述第二异类样本与所述中心样本在各第二特征上的特征距离；将所述第二同类样本与所述中心样本在各第二特征上的特征距离，以及所述第二异类样本与所述中心样本在各第二特征上的特征距离发送给所述第二参与方。 9.一种联邦学习系统中的特征选择方法，其特征在于，所述系统中至少包括第一参与方以及第二参与方，所述第一参与方持有样本的第一特征以及样本的样本标签，所述第二参与方持有样本的第二特征，所述第一参与方以及所述第二参与方分别选取相同样本组成的联合样本集，并分别从所述联合样本集中选取相同的一个样本作为中心样本R，所述方法应用于所述第一参与方，所述方法包括：基于所述第一特征计算得到所述联合样本集中各样本分别与所述中心样本R之间的第一距离，并获取所述第二参与方基于所述第二特征计算得到的所述联合样本集中各样本分别与所述中心样本R之间的第二距离；基于所述第二距离对所述第一距离进行更新，得到所述联合样本集中各样本分别与所述中心样本R之间的综合距离；基于所述样本标签以及所述综合距离，从与所述中心样本R标签相同的样本中筛选出综合距离最近的k个样本作为第一同类样本，以及从与所述中心样本R标签不同的各类样本中分别筛选出综合距离最近的k个样本作为第一异类样本，其中， k 为大于0的自然数；基于所述第一同类样本与所述中心样本R在各第一特征上的特征距离，以及所述第一异类样本与所述中心样本R在各第一特征上的特征距离，对各第一特征的权重进行更新，并根据更新后的权重对第一特征进行筛选。 10.一种联邦学习系统中的特征选择装置，其特征在于，所述系统中至少包括第一参与方以及第二参与方，所述第一参与方持有样本的第一特征以及样本的样本标签，所述第二参与方持有样本的第二特征，所述第一参与方以及所述第二参与方分别选取相同样本组成的联合样本集，并分别从所述联合样本集中选取相同的一个样本作为中心样本R，所述装置设于所述第一参与方，所述装置包括：距离计算模块，配置为基于所述第一特征计算得到所述联合样本集中各样本分别与所述中心样本R之间的第一距离，并获取所述第二参与方基于所述第二特征计算得到的所述权　利　要　求　书 2/3 页 3 CN 113962401 A 3

专利 联邦学习系统、联邦学习系统中的特征选择方法及装置

专利联邦学习系统、联邦学习系统中的特征选择方法及装置