金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111444911.X (22)申请日 2021.11.30 (65)同一申请的已公布的文献号 申请公布号 CN 113868240 A (43)申请公布日 2021.12.31 (73)专利权人 深圳佑驾创新科技有限公司 地址 518049 广东省深圳市福田区梅林街 道梅都社区中康路136号深圳新一代 产业园1栋401 (72)发明人 刘国清 杨广 王启程 郑伟  孔令宇 杨国武  (74)专利代理 机构 深圳市倡 创专利代理事务所 (普通合伙) 44660 代理人 罗明玉(51)Int.Cl. G06F 16/215(2019.01) G06F 16/28(2019.01) G06N 20/00(2019.01) 审查员 邹玥 (54)发明名称 数据清洗方法及计算机可读存 储介质 (57)摘要 本发明提供了一种数据清洗方法, 包括: 获 取第一数据集和第二数据集, 其中, 第一数据集 的第一数据包括第一原标签, 第二数据集的第二 数据包括第二原标签; 利用第一数据集训练第一 分类器; 利用第二数据集训练第二分类器; 将第 一数据输入第二分类器并获取相应的第一预测 标签; 将第二数据输入第一分类器并获取相应的 第二预测标签; 根据第一预测标签和第一原标签 对第一原标签进行增强处理和弱化处理, 并更新 第一数据; 根据第二预测标签和第二原标签对第 二原标签进行增强处理和弱化处理, 并更新第二 数据; 以及将更新后的第一数据和更新后的第二 数据合并成目标数据集。 本发明技术方案能够有 效对数据集进行清洗, 弱化 错误标签的可信度。 权利要求书2页 说明书7页 附图3页 CN 113868240 B 2022.03.11 CN 113868240 B 1.一种数据清洗方法, 其特 征在于, 所述数据清洗方法包括: 获取第一数据集和第二数据集, 其中, 所述第 一数据集的第 一数据包括第 一原标签, 所 述第二数据集的第二数据包括第二原标签; 利用所述第一数据集训练第一分类 器; 利用所述第二数据集训练第二分类 器; 将所述第一数据输入所述第二分类 器并获取相应的第一预测标签; 将所述第二数据输入所述第一分类 器并获取相应的第二预测标签; 根据所述第一预测标签和所述第一原标签对所述第一原标签进行增强处理和弱化处 理以得到第一增强标签和 第一弱化标签, 并利用所述第一增强标签和所述第一弱化标签更 新所述第一数据, 其中, 利用所述第一增强标签和所述第一弱化标签更新所述第一数据具 体包括: 将所述第一数据的第一原标签更新 为所述第一增强标签; 选取第一数量的第一数据成为第一子数据集, 其中, 所述第一子数据集中的第一子数 据包括所述第一增强标签; 以及 将所述第一子数据的第一增强标签更新 为相应的所述第一弱化标签; 根据所述第二预测标签和所述第二原标签对所述第二原标签进行增强处理和弱化处 理以得到第二增强标签和 第二弱化标签, 并利用所述第二增强标签和所述第二弱化标签更 新所述第二数据; 以及 将更新后的第一数据和更新后的第二数据合并成目标 数据集。 2.如权利要求1所述的数据清洗方法, 其特征在于, 根据 所述第一预测标签和所述第 一 原标签对所述第一原标签进行增强处 理以得到第一增强标签具体包括: 将每一所述第一数据的第一预测标签和第一原标签进行点积运算以得到相应的第一 增强标签。 3.如权利要求2所述的数据清洗方法, 其特征在于, 根据 所述第一预测标签和所述第 一 原标签对所述第一原标签进行弱化处 理以得到第一弱化标签具体包括: 计算每一所述第一数据的第一预测标签和第一原标签之间的距离; 按照所述距离从远到 近的顺序选取第一数量的第一数据成为第一子数据集; 以及 将所述第一子数据的第一增强标签乘以第一 值以得到所述第一弱化标签。 4.如权利要求3所述的数据清洗方法, 其特征在于, 计算每一所述第 一数据的第 一预测 标签和第一原标签之间的距离具体包括: 计算每一所述第一数据的第一预测标签和第一原标签之间的第一汉明距离 。 5.如权利要求2所述的数据清洗方法, 其特征在于, 将每一所述第 一数据的第 一预测标 签和第一原标签进行点积运算以得到相应的第一增强标签之后, 所述数据清洗方法还包 括: 对所述第一增强标签进行归一 化处理。 6.如权利要求1所述的数据清洗方法, 其特征在于, 根据 所述第二预测标签和所述第 二 原标签对所述第二原标签进行增强处理以得到第二增强标签, 并利用所述第二增强标签更 新所述第二数据具体包括: 将每一所述第二数据的第二预测标签和第二原标签进行点积运算以得到相应的第二权 利 要 求 书 1/2 页 2 CN 113868240 B 2增强标签; 以及 将所述第二数据的第二原标签更新 为所述第二增强标签。 7.如权利要求6所述的数据清洗方法, 其特征在于, 根据 所述第二预测标签和所述第 二 原标签对所述第二原标签进行弱化处理以得到第二弱化标签, 并利用所述第二弱化标签更 新所述第二数据具体包括: 计算每一所述第二数据的第二预测标签和第二原标签之间的距离; 按照所述距离从远到近的顺序选取第二数量的第二数据成为第二子数据集, 其中, 所 述第二子数据集中的第二子数据包括所述第二增强标签; 将所述第二子数据的第二增强标签乘以第二 值以得到所述第二弱化标签; 以及 将所述第二子数据的第二增强标签更新 为相应的所述第二弱化标签。 8.如权利要求6所述的数据清洗方法, 其特征在于, 将每一所述第 二数据的第 二预测标 签和第二原标签进行点积运算以得到相应的第二增强标签之后, 所述数据清洗方法还包 括: 对所述第二增强标签进行归一 化处理。 9.如权利要求1所述的数据清洗方法, 其特征在于, 获取第 一数据集和第 二数据集具体 包括: 获取样本数据集; 以及 将所述样本数据集中的数据随机均分为所述第一数据集和所述第二数据集。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于存储程序指 令, 所述程序指令可被处 理器执行以实现如权利要求1至9中任一项所述的数据清洗方法。权 利 要 求 书 2/2 页 3 CN 113868240 B 3

.PDF文档 专利 数据清洗方法及计算机可读存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据清洗方法及计算机可读存储介质 第 1 页 专利 数据清洗方法及计算机可读存储介质 第 2 页 专利 数据清洗方法及计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:22:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。