金融行业标准网
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111581442.6 (22)申请日 2021.12.2 2 (65)同一申请的已公布的文献号 申请公布号 CN 114282721 A (43)申请公布日 2022.04.05 (73)专利权人 中科三清科技有限公司 地址 100193 北京市海淀区东北旺西路8号 院36号楼5层523室 (72)发明人 樊旭 陈焕盛 文质彬 柴源  陈婷婷 亢思静 秦东明 肖林鸿  吴剑斌  (74)专利代理 机构 北京北汇律师事务所 1 1711 专利代理师 马亚坤 (51)Int.Cl. G06Q 10/04(2012.01)G06Q 50/26(2012.01) G06K 9/62(2022.01) 审查员 陈佳怡 (54)发明名称 污染物预报模型训练方法、 装置、 电子设备 及存储介质 (57)摘要 本发明提供一种污染物预报模 型训练方法、 装置、 电子设备及存储介质。 方法包括: 当触发训 练任务时, 获取预报数据集和原始数据集; 其中, 预报数据集包括第一指定时期内的样本数据; 原 始数据集包括第二指定时期内的样 本数据; 在预 报数据集中, 获取每个污染物预报浓度和对应的 污染物观测浓度之间的绝对误差; 根据绝对误 差, 在预报数据集中筛选得到大误差数据集; 根 据大误差数据集和原始数据集, 获得重构数据 集; 根据重构数据集对污染物预报模型进行训 练, 获得更新的污染物预报模型; 当触发预报任 务时, 将目标污染物观测浓度和目标气象要素特 征数据输入 更新的污染物预报模 型进行处理, 获 得目标污染物预报浓度。 采用本发明, 可 以提高 污染物预报模型的预报效果。 权利要求书3页 说明书12页 附图4页 CN 114282721 B 2022.12.20 CN 114282721 B 1.一种污染物预报模型训练方法, 其特 征在于, 包括: 当触发训练任务时, 获取预报数据集和原始数据集; 其中, 所述预报数据集包括第一指 定时期内的样本数据; 所述原始数据集包括第二指定时期内的样本数据; 所述第一指定时 期是指触发训练任务的时刻之前的更新周期内的时段; 所述第二指定时期 长于所述第一指 定时期; 所述样本数据至少包括污染物预报浓度、 污染物 观测浓度和气象要素 特征数据; 在所述预报数据集中, 获取每个污染物预报浓度和对应的污染物观测浓度之间的绝对 误差; 根据所述绝对误差, 在所述预报数据集中筛选得到大误差数据集, 其中, 通过设置界 限, 确定超过所述界限的绝对误差为大误差, 根据所述大误差从所述预报数据集中取出与 所述大误差相对应的样 本数据, 进而多个所述大误差对应的样本数据共同形成所述大误差 数据集; 对所述大误差数据集进行扩充得到新数据集, 并根据所述大误差数据集、 所述新数据 集和所述原 始数据集, 获得重构数据集; 根据所述重构数据集对污染物预报模型进行训练, 获得 更新的污染物预报模型; 当触发预报任务 时, 将目标污染物观测浓度和目标气象要素特征数据输入所述更新的 污染物预报模型进行处 理, 获得目标污染物预报浓度。 2.根据权利要求1所述的污染物预报模型训练方法, 其特征在于, 所述根据所述绝对误 差, 在所述预报数据集中筛 选得到大误差数据集, 包括: 获取百分位阈值和所述预报数据集包 含的样本数量; 根据所述百分位阈值和所述样本数量, 确定 筛选标记; 将全部绝对误差进行排序, 在所述预报数据集中, 获取每一个序号大于所述筛选标记 的绝对误差对应的样本数据, 形成所述大误差数据集。 3.根据权利要求1所述的污染物预报模型训练方法, 其特征在于, 所述对所述大误差数 据集进行扩充得到新数据集, 并根据所述大误差数据集、 所述新数据集和所述原始数据集, 获得重构数据集, 包括: 根据所述大误差数据集和所述原始数据集, 通过SMOTE算法进行对所述大误差数据集 进行扩充, 并获取重构数据集。 4.根据权利要求3所述的污染物预报模型训练方法, 其特征在于, 所述根据所述大误差 数据集和所述原始数据集, 通过S MOTE算法进行对所述大误差数据集进 行扩充, 并获取重构 数据集, 包括: 根据预定规则从所述原 始数据集中获取子数据集; 在所述子数据集中, 按照邻 近算法获取所述大误差数据集中每个样本数据对应的邻 近 样本数据; 根据所述大误差数据集中每 个样本数据与所述邻近样本数据, 获取新数据集; 将所述原 始数据集、 所述大误差数据集以及所述 新数据集 合并, 形成所述重构数据集。 5.根据权利要求4所述的污染物预报模型训练方法, 其特征在于, 所述根据所述大误差 数据集中每 个样本数据与所述邻近样本数据, 获取新数据集包括: 根据所述大误差数据集中每个样本数据与全部邻近样本数据, 获取多个新样本数据, 具体如下:权 利 要 求 书 1/3 页 2 CN 114282721 B 2其中, Xnew为新样本数据; Xi为所述大误差数据集中第i个样本数据; 为与第i个样本 数据对应的邻近样本数据; P为0 至1之间的随机数; 将全部新样本数据组合 为新数据集。 6.根据权利要求4所述的污染物预报模型训练方法, 其特征在于, 在所述子数据集中, 按照邻近算法获取 所述大误差数据集中每 个样本数据对应的邻近样本数据, 包括: 确定所述大误差数据集中每个样本数据与所述子数据集中任意样本数据之间的欧氏 距离; 在所述子数据集中, 将欧式距离小于或者等于预定阈值对应的样本数据, 作为所述每 个样本数据对应的邻近样本数据。 7.根据权利要求1 ‑6中任一所述的污染物预报模型训练方法, 其特征在于, 所述方法还 包括: 对所述目标气象要素 特征数据和所述目标污染物预报浓度建立对应关系并进行存 储; 当与所述目标污染物预报浓度对应的目标污染物观测浓度完成观测时, 对所述目标污 染物预报浓度和所述目标污染物 观测浓度建立对应关系并进行存 储。 8.一种污染物预报模型训练装置, 其特 征在于, 所述装置包括: 第一获取模块, 用于当触发训练任务时, 获取预报数据集和原始数据集; 其中, 所述预 报数据集包括第一指 定时期内的样本数据; 所述原始数据集包括第二指定时期内的样本数 据; 所述第一指定时期是指触发训练任务的时刻之前 的更新周期内的时段; 所述第二指定 时期长于所述第一指定时期; 所述样本数据至少包括污染物预报浓度、 污染物观测浓度和 气象要素 特征数据; 第二获取模块, 用于在所述预报数据集中, 获取每个污染物预报浓度和对应的污染物 观测浓度之间的绝对误差; 筛选模块, 用于根据所述绝对误差, 在所述预报数据集中筛选得到大误差数据集, 其 中, 通过设置界限, 确定超过所述界限的绝对误差为大误差, 根据所述大误差从所述预报数 据集中取出与所述大误差相对应的样本数据, 进而多个所述大误差对应的样本数据共同形 成所述大误差数据集; 第三获取模块, 用于对所述大误差数据集进行扩充得到新数据集, 并根据所述大误差 数据集、 所述 新数据集和所述原 始数据集, 获得重构数据集; 训练模块, 用于根据所述重构数据集对污染物预报模型进行训练, 获得更新的污染物 预报模型; 第四获取模块, 用于当触发预报任务时, 将目标污染物观测浓度和目标气象要素特征 数据输入所述更新的污染物预报模型进行处 理, 获得目标污染物预报浓度。 9.一种电子设备, 包括: 处理器; 以及 存储程序的存 储器, 其中, 所述程序包括指令, 所述指令在由所述处理器执行时使所述处理器执行根据权 利要求1‑7中任一项所述的方法。权 利 要 求 书 2/3 页 3 CN 114282721 B 3

.PDF文档 专利 污染物预报模型训练方法、装置、电子设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 污染物预报模型训练方法、装置、电子设备及存储介质 第 1 页 专利 污染物预报模型训练方法、装置、电子设备及存储介质 第 2 页 专利 污染物预报模型训练方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:10:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。