专利 数据摘要生成方法、模型训练方法、相关装置及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111452498.1 (22)申请日 2021.11.30 (71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号 (72)发明人高志鹏　芮兰兰　杨杨　杨岩　赵晨　莫梓嘉　林怡静　俞新蕾　 (74)专利代理机构北京金咨知识产权代理有限公司 11612 代理人宋教花 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) G06N 3/08(2006.01) G06F 21/62(2013.01) G06V 10/94(2022.01)G06V 10/762(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 40/16(2022.01) (54)发明名称数据摘要生成方法、模型训练方法、相关装置及系统 (57)摘要本申请实施例提供数据摘要生成方法、模型训练方法、相关装置及系统，其中的数据摘要生成方法包括：根据接收的全局模型的模型参数以及本地的训练数据所属的模型训练贡献层级，自适应生成本地的训练数据对应的数据摘要，其中，本地的训练数据与多份非本地的训练数据分布式设置，且各份训练数据各自所属的模型训练贡献层级为预先对各份训练数据分别进行分层聚类而得；输出本地的训练数据对应的数据摘要以基于各份训练数据各自对应的数据摘要共同训练全局模型。本申请能够有效提高生成数据摘要的针对性及自适应性，并能够提高数据摘要在分布式学习过程中的有效性及可靠性，进而能够有效提高使用数据摘要训练得到的全局模型的应用有效性及准确性。权利要求书2页说明书16页附图5页 CN 114358120 A 2022.04.15 CN 114358120 A 1.一种数据摘要生成方法，其特征在于，包括：根据接收的全局模型的模型参数以及本地的训练数据所属的模型训练贡献层级，自适应生成所述本地的训练数据对应的数据摘要，其中，所述本地的训练数据与多份非本地的训练数据分布式设置，且各份所述训练数据各自所属的模型训练贡献层级为预先对各份所述训练数据分别进行分层聚类而得；输出所述本地的训练数据对应的数据摘要以基于该本地的训练数据对应的数据摘要和多份非本地的所述训练数据各自对应的数据摘要共同训练所述全局模型。 2.根据权利要求1所述的数据摘要生成方法，其特征在于，在所述根据接收的全局模型的模型参数以及本地的训练数据所属的模型训练贡献层级，自适应生成所述本地的训练数据对应的数据摘要之前，还包括：获取本地的训练数据对应的全部特征参数；基于熵权法确定各个所述特征参数各自对应的权重，并根据各个所述特征参数各自对应的权重确定所述本地的训练数据的模型训练贡献分值；输出所述本地的训练数据的模型训练贡献分值，以汇总各份所述训练数据各自对应的模型训练贡献分值，并基于各份所述训练数据各自对应的模型训练贡献分值对各份所述训练数据进行分层聚类以确定各份所述训练数据各自所属的模型训练贡献层级。 3.根据权利要求2所述的数据摘要生成方法，其特征在于，所述特征参数包括：样本数量、非独立同分布程度和平衡偏移度；相对应的，所述基于熵权法确定各个所述特征参数各自对应的权重，包括：将所述本地的训练数据对应的样本数量、非独立同分布程度和平衡偏移度输入预设的熵权综合评价模型，以使该熵权综合评价模型分别输出所述样本数量、非独立同分布程度和平衡偏移度各自对应的权重。 4.根据权利要求1所述的数据摘要生成方法，其特征在于，所述根据接收的全局模型的模型参数以及本地的训练数据所属的模型训练贡献层级，自适应生成所述本地的训练数据对应的数据摘要，包括：根据所述本地的训练数据所属的模型训练贡献层级确定所述本地的训练数据对应的合成数据集的样本数量以初始化合成数据集；针对接收的全局模型的模型参数，基于预设的自适应数据冷凝算法生成所述本地的训练数据对应的数据摘要。 5.根据权利要求4所述的数据摘要生成方法，其特征在于，所述针对接收的全局模型的模型参数，基于预设的自适应数据冷凝算法生成所述本地的训练数据对应的数据摘要，包括：针对接收的全局模型的模型参数，根据所述本地的训练数据训练得到一目标参数的第一神经网络，并基于初始化的合成数据集训练得到所述目标参数的第二神经网络；根据所述第一神经网络的解对所述第二神经网络进行收敛，以得到收敛后的合成数据集，并将该收敛后的合成数据集确定为所述本地的训练数据对应的数据摘要。 6.一种模型训练方法，其特征在于，包括：输出全局模型的模型参数，以基于该模型参数以及分布式设置的各份训练数据分别所属的模型训练贡献层级自适应生成各份所述训练数据分别对应的数据摘要，其中，各份所权　利　要　求　书 1/2 页 2 CN 114358120 A 2述训练数据各自所属的模型训练贡献层级为预先对各份所述训练数据分别进行分层聚类而得；接收分布式设置的各份所述训练数据分别对应的数据摘要，并基于各份所述训练数据分别对应的数据摘要共同训练所述全局模型。 7.一种数据摘要生成装置，其特征在于，包括：摘要生成模块，用于根据接收的全局模型的模型参数以及本地的训练数据所属的模型训练贡献层级，自适应生成所述本地的训练数据对应的数据摘要，其中，所述本地的训练数据与多份非本地的训练数据分布式设置，且各份所述训练数据各自所属的模型训练贡献层级为预先对各份所述训练数据分别进行分层聚类而得；摘要输出模块，用于输出所述本地的训练数据对应的数据摘要以基于该本地的训练数据对应的数据摘要和多份非本地的所述训练数据各自对应的数据摘要共同训练所述全局模型。 8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的数据摘要生成方法，或者，所述处理器执行所述计算机程序时实现权利要求6所述的模型训练方法。 9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至5任一项所述的数据摘要生成方法，或者，所述计算机程序被处理器执行时实现权利要求6所述的模型训练方法。 10.一种分布式学习系统，其特征在于，包括：中央服务器以及分别与该中央服务器之间通信连接的各个客户端；所述中央服务器用于执行权利要求6所述的模型训练方法；所述客户端用于执行权利要求1至 5任一项所述的数据摘要生成方法。权　利　要　求　书 2/2 页 3 CN 114358120 A 3

专利 数据摘要生成方法、模型训练方法、相关装置及系统

专利数据摘要生成方法、模型训练方法、相关装置及系统