金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111454707.6 (22)申请日 2021.12.01 (71)申请人 万达信息股份有限公司 地址 200233 上海市徐汇区桂平路481号20 号楼5层 (72)发明人 谢志宇 沈欢 姜锋 徐奎东  潘宁 杨凯雷 汤士伟 杨秋芬  严岚 张丽 王卫新 马玉刚  周融 党忠妍 汪森然 王奇  韦法林 田亚龙 张志航 吕军成  (74)专利代理 机构 上海申汇 专利代理有限公司 31001 代理人 翁若莹 柏子雵 (51)Int.Cl. G16H 50/30(2018.01)G16H 50/20(2018.01) G16H 50/70(2018.01) G16H 10/60(2018.01) G06F 16/22(2019.01) G06F 16/25(2019.01) G06F 16/2458(2019.01) G06F 16/28(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 基于大数据算法的疾病风险预测模型生成 系统 (57)摘要 本发明提供的一种基于大数据算法的疾病 风险预测模 型生成系统, 用于对患者患有目标疾 病的疾病风险进行预测, 其特征在于, 包括数据 存储平台、 数据融合单元、 特征重要性分析单元、 特征处理单元、 建模单元、 模型训练单元、 最优模 型选取单元以及模型应用单元。 本发 明具有如下 优点: 全量数据挖掘分析, 使用大数据仓库HIVE 存储数据, SPARK计算引擎读取多表数据并打通 融合。 使用SPARK计算引擎中的机器学习模块来 建模训练及测试数据, 得到评估最优秀的模型来 预测新患者患病风险程度。 权利要求书1页 说明书5页 附图1页 CN 114300132 A 2022.04.08 CN 114300132 A 1.一种基于大数据算法的疾病风险预测模型生成系统, 用于对患者患有目标疾病的疾 病风险进 行预测, 其特征在于, 包括数据存储平台、 数据融合单元、 特征重要性分析单元、 特 征处理单元、 建模单 元、 模型训练单 元、 最优模型选取 单元以及模型应用单 元, 其中: 数据存储平台从各个医疗机构获取所有患者的相关医疗数据, 医疗数据包括证件号 码、 证件类型、 作用范围、 业务域、 卡号、 卡类型、 医疗机构代码, 将所有医疗数据 汇集成患者 信息表; 数据融合单元基于患者信息表中的相关字段生成与患者唯一对应的PID, 将该PID作 为 主键唯一标识; 并且 数据融合单元采用SPARK计算引擎使用患者信息表中的证件号码、 证件 类型、 医疗机构代码字段与各个医疗机构的患者诊疗相关业务表中的证件号码、 证件类型、 医疗机构代码字段进行关联, 从而实现PID与各个医疗机构的同一患者的患者诊疗相关业 务表的关联, 打通不同医疗机构的数据, 获得与同一PID相关联的不同医疗机构者诊疗相关 业务表所记载的身份信息数据及生理指标数据, 每个数据为与当前PID相关的特征, 并基于 医学常识为该PID生成当前患者患有目标疾病的疾病 风险标签lab el, 进而得到每个PID的 特征信息数据, 该 特征信息数据具有已完成赋值的疾病风险标签label字段; 特征重要性分析单元获得数据融合单元输出的所有PID的特征信息数据, 对特征信息 数据中除疾病风险标签label字段外的其他所有维度字段进行特征处理, 将这些字段转化 为特征向量并做归一化处理, 获得与每个PID唯一对应的特征向量数据, 特征向量数据包括 疾病风险标签label字段; 特征重要性分析单元计算出特征向量数据中各特征的重要性, 并 取重要性 排名靠前的特 征组成新的特 征向量, 由此 得到更新后的特 征向量数据; 由特征处理单元对特征重要性分析单元输出的特征向量数据中的特征做ETL和特征工 程, 并将所有特 征向量数据拆分成两份, 一份是训练数据集, 另一份是测试 数据集; 算法选取单元根据对目标疾病的疾病风险预测属于分类还是回归问题进行判断, 若属 于分类问题, 则从SPARK计算引擎的算法库中选择至少两个分类算法模型, 若属于回归问 题, 则从S PARK计算引擎的算法库中选择至少两个回归算法模型; 建模单元获得算法选取 单元所选取的算法模型后进行建模; 模型训练单元利用特征处理单元输出的训练数据集对建模单元所建立的所有模型进 行训练, 获得多个训练后的疾病风险预测模型; 最优模型选取单元利用特征处理单元输出的测试数据集对模型训练单元输出的所有 疾病风险预测模型进 行测试, 根据测试结果从 中选择一个最优的疾病风险预测模型作为针 对目标疾病的疾病风险预测模型, 并将模型保存到 HDFS大数据文件系统上; 模型应用单元, 用于加载存储在HDFS大数据文件系统上的最优模型, 预测新患者的疾 病风险程度。 2.如权利要求1所述的一种基于大数据算法的疾病风险预测模型生成系统, 其特征在 于, 所述数据融合单元基于患者信息表中的证件号码、 证件类型、 作用范围、 业务域这四个 字段通过md5加密算法生成所述PID。 3.如权利要求1所述的一种基于大数据算法的疾病风险预测模型生成系统, 其特征在 于, 所述特 征重要性分析 单元利用随机森林算法计算出 特征向量数据中各 特征的重要性。 4.如权利要求1所述的一种基于大数据算法的疾病风险预测模型生成系统, 其特征在 于, 在进行最优 模型选择时, 设置不同的评估指标来对 模型的预测效果进行评估。权 利 要 求 书 1/1 页 2 CN 114300132 A 2基于大数据算法的疾病风险预测模型生成系统 技术领域 [0001]本发明涉及一种用于生成基于大 数据算法的疾病风险预测模型的系统。 背景技术 [0002]中国作为一个人口大国, 国民对于个人健康 问题越来越关注, 因此可以预测用户 疾病风险的预测模型 得到越来越多的关注。 [0003]现有的预测模型采用数据挖掘方式来辨识各个特征与相关疾病的关联性从而获 得模型训练集, 以实现对预测模型的训练, 使得训练后的模型能够得出风险预测结论。 但由 于中国是一个人 口大国, 因此会产生海量的可以进行疾病风险预测的数据。 而传统的数据 挖掘方式在对海量数据进行挖掘时, 普遍使用随机采样方式来进行建模训练, 这与全量数 据训练相比, 准确 率有所不足。 并且现有的疾病风险预测模型大多采用统计方法来进行预 测, 预测准确率 不高。 [0004]现有疾病的风险程度预测是通过经验即统计方法来预测, 本发明是使用机器学习 算法来预测。 发明内容 [0005]本发明的目的是: 提供一种使用机器学习算法来预测疾病风险的模型生成系统, 在该模型生成系统中使用全量数据对 模型进行训练。 [0006]为了达到上述目的, 本发明的技术方案是提供了一种基于大数据算法的疾病风险 预测模型生成系统, 用于对患者患有目标疾病的疾病风险进 行预测, 其特征在于, 包括数据 存储平台、 数据融合单元、 特征重要性分析单元、 特征处理单元、 建模单元、 模型训练单元、 最优模型选取 单元以及模型应用单 元, 其中: [0007]数据存储平台从各个医疗机构获取所有患者的相关医疗数据, 医疗数据包括证件 号码、 证件类型、 作用范围、 业务域、 卡号、 卡类型、 医疗机构代码, 将所有医疗数据 汇集成患 者信息表; [0008]数据融合单元基于患者信息表中的相关字段生成与患者唯一对应的PID, 将该PID 作为主键唯一标识; 并且 数据融合单元采用SPARK计算引擎使用患者信息表中的证件号码、 证件类型、 医疗机构代码字段与各个医疗机构的患者诊疗相关业务表中的证件号码、 证件 类型、 医疗机构代码 字段进行关联, 从而实现PID与各个医疗机构的同一患者的患者诊疗相 关业务表的关联, 打通不同医疗机构的数据, 获得与同一PID相关联的不同医疗机构者诊疗 相关业务表所记载的身份信息数据及生理指标数据, 每个数据为与当前PID相关的特征, 并 基于医学常识为该PID生成当前患者患有目标疾病的疾病风险标签label, 进而得到每个 PID的特征信息数据, 该 特征信息数据具有已完成赋值的疾病风险标签label字段; [0009]特征重要性分析单元获得数据 融合单元输出的所有PID的特征信息数据, 对特征 信息数据中除疾病风险标签label字段外的其他所有维度字段进行特征处理, 将这些字段 转化为特征向量并做归一化处理, 获得与每个PID唯一对应的特征向量数据, 特征向量数据说 明 书 1/5 页 3 CN 114300132 A 3

.PDF文档 专利 基于大数据算法的疾病风险预测模型生成系统

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于大数据算法的疾病风险预测模型生成系统 第 1 页 专利 基于大数据算法的疾病风险预测模型生成系统 第 2 页 专利 基于大数据算法的疾病风险预测模型生成系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:21:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。