金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111412953.5 (22)申请日 2021.11.25 (71)申请人 支付宝 (杭州) 信息技 术有限公司 地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人 刘鹤洋  (74)专利代理 机构 中国贸促会专利商标事务所 有限公司 1 1038 代理人 於菪珉 (51)Int.Cl. G06F 21/62(2013.01) G06F 21/60(2013.01) G06F 21/53(2013.01) G06N 20/00(2019.01) (54)发明名称 机器学习模型的训练方法和调用方法以及 机器学习系统 (57)摘要 本说明书实施例提供一种机器学习模型的 训练方法和调用方法以及机器学习系统。 该训练 方法包括: 由可验证计算引擎平台获取一个或多 个参与者中的每个参与者的包括训练数据的第 一训练数据集; 在所述可验证计算引擎平台的可 信执行环 境中, 根据所述一个或多个参与者的所 有第一训练数据集获取水印化训练数据集, 其 中, 所述水印化训练数据集包括具有水印标签的 水印训练数据和不具有水印标签的训练数据; 以 及在所述可信执行环境中, 基于所述水印化训练 数据集进行训练, 以产生所述机 器学习模型。 权利要求书5页 说明书15页 附图4页 CN 114065293 A 2022.02.18 CN 114065293 A 1.一种机器学习模型的训练方法, 包括: 由可验证计算引擎平台获取一个或多个参与者中的每个参与者的包括训练数据的第 一训练数据集; 在所述可验证计算引擎平台的可信执行环境中, 根据所述一个或多个参与者的所有第 一训练数据集获取水印化训练数据集, 其中, 所述水印化训练数据集包括具有水印标签的 水印训练数据和不具有水印标签的训练数据; 以及 在所述可信执行环境中, 基于所述水印化训练数据集进行训练, 以产生所述机器学习 模型。 2.根据权利要求1所述的训练方法, 在根据所述一个或多个参与者的所有第一训练数 据集获取 水印化训练数据集之后, 所述训练方法还 包括: 将水印训练数据中的来源于每个参与者的训练数据的水印训练子数据分别返回给相 应的参与者。 3.根据权利要求1所述的训练方法, 在基于所述水印化训练数据集进行训练, 以产生所 述机器学习模型之后, 所述训练方法还 包括: 在所述可信执行环境中, 利用公钥对所述机器学习模型进行加密以产生密文模型; 以 及 分别将所述密文模型返回给所述一个或多个参与者中的每个参与者, 以供相应的参与 者在其本地存 储所述密文模型。 4.根据权利要求3所述的训练方法, 其中, 每个参与者的相匹配的公钥和私钥由在所述 可信执行环境中产生, 且私钥被存 储在所述可信执 行环境中。 5.根据权利要求3所述的训练方法, 其中, 每个参与者的相匹配的公钥和私钥是基于 RSA算法生成的。 6.根据权利要求1所述的训练方法, 其中, 根据所述一个或多个参与者的所有第 一训练 数据集获取 水印化训练数据集包括: 合并所述 一个或多个参与者的所有第一训练数据集, 以产生第二训练数据集; 从所述第二训练数据集中提取第三训练数据集, 其中, 所述第三训练数据集为所述第 二训练数据集的非空真子集, 且所述第三训练数据集包括来自所述一个或多个参与者中的 每个参与者的训练数据; 根据所述第三训练数据集来产生第 四训练数据集, 其中, 所述第 四训练数据集中的每 条训练数据的特征部分由对所述第三训练数据集中的相 应的训练数据的特征部分进行水 印化处理而产生, 且所述第四训练数据集中的每条训练数据的标签部 分由将所述第三训练 数据集中的相应的训练数据的标签部分修改为水印标签而产生; 以及 将所述第四训练数据集与所述第二训练数据集的至少一部分合并为所述水印化训练 数据集。 7.根据权利要求6所述的训练方法, 其中, 合并所述一个或多个参与者的所有第 一训练 数据集, 以产生第二训练数据集包括: 将所述一个或多个参与者中的每个参与者的具有相同或相应的数据标识的训练数据 合并为所述第二训练数据集中的同一条训练数据, 并将所述一个或多个参与者中的每个参 与者的具有不相同且不相 应的数据标识的训练数据作为所述第二训练数据集中的不同条权 利 要 求 书 1/5 页 2 CN 114065293 A 2训练数据; 以及 按照相同的方式排布所述第二训练数据集中的每条训练数据的特 征部分和标签部分。 8.根据权利要求6所述的训练方法, 其中, 从所述第 二训练数据集中提取第 三训练数据 集包括: 使用分别与每个参与者一一对应的参与者身份标识来标记相应的参与者的第一训练 数据集中的所有训练数据; 以及 基于参与者身份标识来提取所述第二训练数据集中的部分训练数据作为所述第三训 练数据集中的训练数据, 以使得所述第三训练数据集包括来自所述一个或多个参与者中的 每个参与者的训练数据。 9.根据权利要求8所述的训练方法, 其中, 当存在多个参与者时, 在所述多个参与者中, 所述第三训练数据集中的每个参与者的训练数据的数目与该参与者的第一训练数据集中 的训练数据的数目的比例彼此相等。 10.根据权利要求8所述的训练方法, 其中, 所述第三训练数据集中的每个参与者的训 练数据的数目与该参与者的第一训练数据集中的训练数据的数目的比例在从5%至35%的 范围内。 11.根据权利要求8所述的训练方法, 其中, 所述第三训练数据集中的每个参与者的训 练数据是从该参与者的第一训练数据集中随机提取的。 12.根据权利要求6所述的训练方法, 其中, 所述第四训练数据集中的每条训练数据的 特征部分由对所述第三训练数据集中的相 应的训练数据的特征部分进行水印化处理而产 生包括: 将噪声与所述第 三训练数据集中的训练数据的特征部分进行叠加, 并将叠加的结果作 为所述第四训练数据集中的相应的训练数据的特 征部分; 其中, 噪声的维度、 所述第三训练数据集中的训练数据的特征部分的维度和所述第 四 训练数据集中的训练数据的特 征部分的维度彼此相等。 13.根据权利要求12所述的训练方法, 其中, 噪声包括根据非训练数据而产生的噪声; 或者 噪声包括基于图像对抗 算法而产生的噪声; 或者 噪声包括高斯噪声。 14.根据权利要求1所述的训练方法, 其中, 当所述机器学习 模型为分类模型时, 水印标 签被设置为对应于水印类型的标签。 15.根据权利要求1所述的训练方法, 其中, 当所述机器学习 模型为回归模型时, 水印标 签被设置为对应于所述机器学习模型的最小输出值或最大输出值的标签。 16.根据权利要求1所述的训练方法, 其中, 所述机器学习模型包括多方学习模型或深 度学习模型。 17.根据权利要求1所述的训练方法, 在产生所述机器学习模型之后, 所述训练方法还 包括: 在所述可信执行环境中, 测试并记录所述机器学习 模型的对具有水印标签的水印测试 数据的水印识别准确率。 18.一种机器学习 模型的调用方法, 其中, 所述机器学习 模型被配置为 能够执行水印化权 利 要 求 书 2/5 页 3 CN 114065293 A 3

.PDF文档 专利 机器学习模型的训练方法和调用方法以及机器学习系统

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 机器学习模型的训练方法和调用方法以及机器学习系统 第 1 页 专利 机器学习模型的训练方法和调用方法以及机器学习系统 第 2 页 专利 机器学习模型的训练方法和调用方法以及机器学习系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:22:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。