金融行业标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111444911.X (22)申请日 2021.11.30 (65)同一申请的已公布的文献号 申请公布号 CN 113868240 A (43)申请公布日 2021.12.31 (73)专利权人 深圳佑驾创新科技有限公司 地址 518049 广东省深圳市福田区梅林街 道梅都社区中康路136号深圳新一代 产业园1栋401 (72)发明人 刘国清 杨广 王启程 郑伟 孔令宇 杨国武 (74)专利代理 机构 深圳市倡 创专利代理事务所 (普通合伙) 44660 代理人 罗明玉(51)Int.Cl. G06F 16/215(2019.01) G06F 16/28(2019.01) G06N 20/00(2019.01) 审查员 邹玥 (54)发明名称 数据清洗方法及计算机可读存 储介质 (57)摘要 本发明提供了一种数据清洗方法, 包括: 获 取第一数据集和第二数据集, 其中, 第一数据集 的第一数据包括第一原标签, 第二数据集的第二 数据包括第二原标签; 利用第一数据集训练第一 分类器; 利用第二数据集训练第二分类器; 将第 一数据输入第二分类器并获取相应的第一预测 标签; 将第二数据输入第一分类器并获取相应的 第二预测标签; 根据第一预测标签和第一原标签 对第一原标签进行增强处理和弱化处理, 并更新 第一数据; 根据第二预测标签和第二原标签对第 二原标签进行增强处理和弱化处理, 并更新第二 数据; 以及将更新后的第一数据和更新后的第二 数据合并成目标数据集。 本发明技术方案能够有 效对数据集进行清洗, 弱化 错误标签的可信度。 权利要求书2页 说明书7页 附图3页 CN 113868240 B 2022.03.11 CN 113868240 B 1.一种数据清洗方法, 其特 征在于, 所述数据清洗方法包括: 获取第一数据集和第二数据集, 其中, 所述第 一数据集的第 一数据包括第 一原标签, 所 述第二数据集的第二数据包括第二原标签; 利用所述第一数据集训练第一分类 器; 利用所述第二数据集训练第二分类 器; 将所述第一数据输入所述第二分类 器并获取相应的第一预测标签; 将所述第二数据输入所述第一分类 器并获取相应的第二预测标签; 根据所述第一预测标签和所述第一原标签对所述第一原标签进行增强处理和弱化处 理以得到第一增强标签和 第一弱化标签, 并利用所述第一增强标签和所述第一弱化标签更 新所述第一数据, 其中, 利用所述第一增强标签和所述第一弱化标签更新所述第一数据具 体包括: 将所述第一数据的第一原标签更新 为所述第一增强标签; 选取第一数量的第一数据成为第一子数据集, 其中, 所述第一子数据集中的第一子数 据包括所述第一增强标签; 以及 将所述第一子数据的第一增强标签更新 为相应的所述第一弱化标签; 根据所述第二预测标签和所述第二原标签对所述第二原标签进行增强处理和弱化处 理以得到第二增强标签和 第二弱化标签, 并利用所述第二增强标签和所述第二弱化标签更 新所述第二数据; 以及 将更新后的第一数据和更新后的第二数据合并成目标 数据集。 2.如权利要求1所述的数据清洗方法, 其特征在于, 根据 所述第一预测标签和所述第 一 原标签对所述第一原标签进行增强处 理以得到第一增强标签具体包括: 将每一所述第一数据的第一预测标签和第一原标签进行点积运算以得到相应的第一 增强标签。 3.如权利要求2所述的数据清洗方法, 其特征在于, 根据 所述第一预测标签和所述第 一 原标签对所述第一原标签进行弱化处 理以得到第一弱化标签具体包括: 计算每一所述第一数据的第一预测标签和第一原标签之间的距离; 按照所述距离从远到 近的顺序选取第一数量的第一数据成为第一子数据集; 以及 将所述第一子数据的第一增强标签乘以第一 值以得到所述第一弱化标签。 4.如权利要求3所述的数据清洗方法, 其特征在于, 计算每一所述第 一数据的第 一预测 标签和第一原标签之间的距离具体包括: 计算每一所述第一数据的第一预测标签和第一原标签之间的第一汉明距离 。 5.如权利要求2所述的数据清洗方法, 其特征在于, 将每一所述第 一数据的第 一预测标 签和第一原标签进行点积运算以得到相应的第一增强标签之后, 所述数据清洗方法还包 括: 对所述第一增强标签进行归一 化处理。 6.如权利要求1所述的数据清洗方法, 其特征在于, 根据 所述第二预测标签和所述第 二 原标签对所述第二原标签进行增强处理以得到第二增强标签, 并利用所述第二增强标签更 新所述第二数据具体包括: 将每一所述第二数据的第二预测标签和第二原标签进行点积运算以得到相应的第二权 利 要 求 书 1/2 页 2 CN 113868240 B 2增强标签; 以及 将所述第二数据的第二原标签更新 为所述第二增强标签。 7.如权利要求6所述的数据清洗方法, 其特征在于, 根据 所述第二预测标签和所述第 二 原标签对所述第二原标签进行弱化处理以得到第二弱化标签, 并利用所述第二弱化标签更 新所述第二数据具体包括: 计算每一所述第二数据的第二预测标签和第二原标签之间的距离; 按照所述距离从远到近的顺序选取第二数量的第二数据成为第二子数据集, 其中, 所 述第二子数据集中的第二子数据包括所述第二增强标签; 将所述第二子数据的第二增强标签乘以第二 值以得到所述第二弱化标签; 以及 将所述第二子数据的第二增强标签更新 为相应的所述第二弱化标签。 8.如权利要求6所述的数据清洗方法, 其特征在于, 将每一所述第 二数据的第 二预测标 签和第二原标签进行点积运算以得到相应的第二增强标签之后, 所述数据清洗方法还包 括: 对所述第二增强标签进行归一 化处理。 9.如权利要求1所述的数据清洗方法, 其特征在于, 获取第 一数据集和第 二数据集具体 包括: 获取样本数据集; 以及 将所述样本数据集中的数据随机均分为所述第一数据集和所述第二数据集。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于存储程序指 令, 所述程序指令可被处 理器执行以实现如权利要求1至9中任一项所述的数据清洗方法。权 利 要 求 书 2/2 页 3 CN 113868240 B 3
专利 数据清洗方法及计算机可读存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 01:22:12
上传分享
举报
下载
原文档
(586.2 KB)
分享
友情链接
T-ACEF 108—2023 公民绿色低碳行为温室气体减排量化指南 行:不停车缴费.pdf
SL-T 62-2020 水工建筑物水泥灌浆施工技术规范.pdf
GB-T 22710-2008 低压断路器用电子式控制器.pdf
T-CTA 002—2019 船舶水尺计重工作规范.pdf
DB37-T 3642-2019 全氟己酮灭火系统设计、施工及验收规范 山东省.pdf
GM-T 0001.3-2012 祖冲之序列密码算法:第3部分:基于祖冲之算法的完整性算法.pdf
GB-T 25810-2019 染料 产品标志、标签、包装、运输和贮存通则.pdf
DB37-T 4649.3—2023 智能制造 第3部分:数字化车间建设指南 山东省.pdf
DB52-T 1401.23-2020 山地旅游 第23部分:漂流服务规范 贵州省.pdf
GB-T 41665-2022 制造执行系统模块化框架.pdf
GB-T 41391-2022 信息安全技术 移动互联网应用程序(App)收集个人信息基本要求.pdf
T-ZZB 3057—2023 水车式多工位组合加工机床.pdf
商用密码检测机构管理办法(征求意见稿).pdf
GB-T 15116-2023 压铸铜合金及铜合金压铸件.pdf
JR-T 0138-2016 银团贷款业务技术指南.pdf
专利 一种温控板及电池箱.PDF
ISO27001 中文解说版.pdf
GB-T 14263-2010 散装浮选铜精矿取样、制样方法.pdf
GB-T 21061-2007 国家电子政务网络技术和运行管理规范.pdf
DB11-T 1190.2-2018 古建筑结构安全性鉴定技术规范 第2部分:石质构件 北京市.pdf
1
/
3
13
评价文档
赞助2元 点击下载(586.2 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。