金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111458931.2 (22)申请日 2021.12.02 (71)申请人 山东大学 地址 250000 山东省济南市山大南路27号 (72)发明人 余之刚 陈增敬 何勇 刘丽媛  考春雨 王斐 杨芙 范叶叶  (74)专利代理 机构 济南联合竟成知识产权代理 事务所(普通 合伙) 37371 代理人 田相迪 (51)Int.Cl. G16H 50/20(2018.01) G16H 50/70(2018.01) G06N 20/00(2019.01) (54)发明名称 基于惩罚COX回归的乳腺癌预测方法 (57)摘要 本发明公开了基于惩罚COX回归的乳 腺癌预 测方法, 将随访数据处理为生存数据备用, 数据 预处理后的全部预测因子作为模 型的输入变量, 通过bootstrap法采样获得T个自助 样本集, 基于 不同的自助 样本集分别独立构建惩罚COX回归模 型作为集成学习的基预测器, 基预测器构建后, 使用简单平均法组合该T个基预测器, 最终形成 集成惩罚COX回归模型作为乳 腺癌发病预测的集 成预测器。 该基于惩罚COX回归的乳腺癌预测方 法, 采用Bagging集成框架和惩罚回归模型的独 特结构, 有助于探讨不同维度因素与我国女性乳 腺癌发病风险的关系, 从而辅助医生对预防乳 腺 癌发病给出建议, 可 以降低估计量的方差, 避免 了单一分类器估计的不稳定性, 提高了预测性 能。 权利要求书2页 说明书6页 附图2页 CN 114141360 A 2022.03.04 CN 114141360 A 1.基于惩罚COX回归的乳腺癌预测方法, 其特 征在于, 包括以下步骤: S1: 问卷设计: 基于乳腺癌流行病学特征以及相关影响因素设计调查问卷, 问卷涉及遗传因素、 高脂 饮食、 运动缺乏、 睡眠、 心理等多个维度的非 实验危险因子; S2: 随访数据收集: 研究通过该问卷调查收集了来自中25 ‑70岁122058名女性的乳腺疾病流行病学研究数 据, 对其中121837名健康女性进行了为期10年的随访调查, 记录随访数据备份; S3: 数据预处 理: 对问卷收集来的随访数据进行数据清洗, 对重复、 缺失、 异常数据进行处理, 其中若某 一列空数据比例高, 删除数据, 否则, 用列均值等方法来替代空数据, 对非数值数据进行数 值化处理, 最后将 “乳腺癌发病 ”作为所关心的事件建立删失标签, 将随访数据 处理为生存 数据备用; S4: 基预测器构建: 将步骤S3、 数据预处理后的全部预测因子作为模型的输入变量, 并将得到的原始样本 数据集以7:3的比例随机划分为训练样本集和测试样本集; 对于训练样本集, 通过 bootstrap法采样获得T个自助样本集, 基于不同的自助样本集分别独立构建惩罚COX回归 模型作为 集成学习的基预测器; S5: 集成预测器构建: 在步骤S4、 基预测器构建后, 使用简单平均法组合该T个基预测器, 最终形成集成惩罚 COX回归模型作为乳腺癌发病预测的集成预测器; S6: 预测因子 重要性评估: 基于步骤S4、 基预测器构 建中的T个惩罚COX回归乳腺癌预测模型得到的每个特征变量 的回归系 数, 使用合适的方式评估预测因子对乳腺癌 发病的影响程度, 根据评估情况筛选 出对乳腺癌预测影响最大的几个预测因子, 来构成特征子集, 作为模 型的又一输入变量, 重 复步骤S4、 S5, 得到预测效果 好且计算复杂度低的简化模型; S7: 集成预测器性能评估: 由步骤S2、 数据预处理中得到的训练样本集训练其他经典预测模型: Gail逻辑回归模 型、 惩罚COX回归单模 型(PCR), 由步骤S2、 数据预处理中得到的测试样 本集分别测试Gail逻 辑回归模型、 惩罚COX回归单模型(PCR)以及集成惩罚COX回归(EPCR)预测模型, 分别计算 AUC值、 E/O比, 绘制ROC曲线以及校准图, 以评估比较三种模 型的预测性能, 验证集 成预测器 的预测表现是否优于其 他模型。 2.基于惩罚COX回归的乳腺癌预测方法, 其特征在于: 步骤S1中, 在问卷设计过程中, 所 设计收集的危险因子可不单单为非实验因子, 也可纳入临床诊断中的血液指标、 乳腺密度、 组学指标等实验因子, 以提高模型最终预测性能。 3.基于惩罚COX回归的乳腺癌预测方法, 其特征在于: 步骤S2中, 随访数据收集中, 可以 将被调查人员的包 含到不同的年龄阶段女性。 4.基于惩罚COX回归的乳腺癌预测方法, 其特征在于: 步骤S3中, 将整理好的乳腺癌生 存数据进行重新备份, 备份后直接收录在医院乳腺癌专病数据库内。 5.基于惩罚COX回归的乳腺癌预测方法, 其特征在于: 步骤S4中, 基于不同自助样本集权 利 要 求 书 1/2 页 2 CN 114141360 A 2独立训练惩罚C OX回归乳腺癌预测模 型作为基预测器时, 将模型数据参数进 行调优, 再得到 最终预测效果 最好的基预测器。 6.基于惩罚COX回归 的乳腺癌预测方法, 其特征在于: 步骤S6中, 依据T个惩罚COX回归 乳腺癌预测模型得到的每个预测因子的回归系数, 统计每个预测因子回归系数的非零频率 作为预测因子重要性评估的指标, 并依据预测因子数目参数给定适当阈值, 非零频率高于 阈值的预测因子作为重要预测因子 。 7.基于惩罚COX回归的乳腺癌预测方法, 其特征在于: 步骤S6中, 使用步骤S3中的测试 样本集测试集 成惩罚COX回归模 型和其他经典模 型, 比较AUC值、 E/ O比、 校准图等指标, 验证 集成预测器是否优于其 他经典模型。权 利 要 求 书 2/2 页 3 CN 114141360 A 3

.PDF文档 专利 基于惩罚COX回归的乳腺癌预测方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于惩罚COX回归的乳腺癌预测方法 第 1 页 专利 基于惩罚COX回归的乳腺癌预测方法 第 2 页 专利 基于惩罚COX回归的乳腺癌预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:21:37上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。