金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111550459.5 (22)申请日 2021.12.17 (71)申请人 西安理工大 学 地址 710048 陕西省西安市碑林区金花 南 路5号 (72)发明人 孟海宁 郑毅 童新宇 姬文江  李维 张嘉薇 黑新宏  (74)专利代理 机构 西安弘理专利事务所 61214 专利代理师 王奇 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 50/26(2012.01) G06Q 50/30(2012.01) G06K 9/62(2022.01) (54)发明名称 基于KNN和AdaBoo st的铁路事故类型预测方 法 (57)摘要 本发明公开一种基于 KNN和AdaBoo st的铁路 事故类型预测方法, 具体涉及, 计算铁路事故历 史数据集属性的稀疏度, 根据稀 疏度阈值删除部 分属性列; 对铁路事故数据中的字符型数据进行 编码; 使用KNN算法对铁路事故数据进行缺失值 填补; 对铁路事故数据进行归一化, 归一化后的 数据随机划分为训练集和测试集; 使用AdaBoo st 方法, 构造铁路事故类型预测分类器, 在测试集 上检验分类器性能。 本发明公开的方法对铁路事 故数据进行了有效的预处理, 并使用集成学习方 法AdaBoo st来缓解原始数据的类不平 衡问题, 提 升了事故类型 预测的性能。 权利要求书2页 说明书7页 附图2页 CN 114444765 A 2022.05.06 CN 114444765 A 1.基于KN N和AdaBo ost的铁路事故类型 预测方法, 其特 征在于, 包括以下步骤: 步骤1, 对原始的铁路事故历史数据集进行稀疏性分析, 根据稀疏性阈值删除部分冗余 属性; 步骤2, 对步骤1处理后的铁路事故历史数据集中的字符型属性, 进行硬编码, 将字符型 属性转换为数值型属性; 步骤3, 对步骤2处理后的铁路事故历史数据集, 进行基于KNN算法的数据填补, 填补原 数据中的缺失值; 步骤4, 对步骤3处理完成的铁路事故历史数据集, 进行归一化操作, 并按照一定比例随 机划分训练集和 测试集; 步骤5, 将步骤4中归一化后的铁路事故历史数据集, 随机划分成训练集和测试集, 使用 AdaBoost算法在训练集数据上训练分类 器, 在测试集上验证分类 器性能。 2.如权利要求1所述的基于KNN和AdaBoost的铁路事故类型预测方法, 其特征在于, 步 骤3中使用KNN算法对铁路事故数据进 行缺失值补全, 通过计算缺 失型样本和其他完整样本 的样本间距离, 取前k最为接近的完整样本, 加权平均后作为当前缺失型样本补全后的数 值。 3.如权利要求2所述的基于KNN和AdaBoost的铁路事故类型预测方法, 其特征在于, 所 述步骤3的具体步骤为: 步骤3.1, 对每一条包含缺失值的事故记录Ri, 计算Ri到所有完整事故记录的样本间距 离d, 利用KNN算法对该样本间距离进行排序, 保留距离最近的前k个样本记录, 作为当前缺 失样本填补的依据; 其中完整事故记录表示一条没有缺 失值的记录, 样本间距离d 的计算方 式如公式(1)所示: 其中Ri和Ri分别表示第i条记录和第j条记录, 在该公式中, 默认左边的记录为含缺失值 型记录, 右边记录为完整记录, 则从含缺失值记录Ri到完整记录Rj的样本间距离d(i,j)如式 (1)所示, 表示了 两个记录在样本空间上的相似性, 该距离越小则二 者越为接 近; 步骤3.2, 根据与含缺失值记录在样本空间最近的前k个事故记录, 对缺失记录进行数 据填补; 其中, 由k个事故记录, 计算得到当前缺失记录的公式如式(2)所示: 其中Ri为第i个含缺失值的事故记录, Rj为第j个在样本空间距离上距 Ri最近的记录, 如 式(2)所示, 经 过如上计算, 得到 了缺失值 填补后的Ri。 4.如权利要求1所述的基于KNN和AdaBoost的铁路事故类型预测方法, 其特征在于, 所 述步骤5中使用AdaBoost 集成学习方法建立铁 路事故类型分类器, 包括使用M个相同的决策 树弱分类 器作为弱学习器, 经 过加权平均得到最终的软件缺陷强分类 器。 5.如权利要求1所述的基于KNN和AdaBoost的铁路事故类型预测方法, 其特征在于, 所 述步骤5的训练过程具体为:权 利 要 求 书 1/2 页 2 CN 114444765 A 2步骤5.1, 将步骤4中重采样后训练集, 进行十折交叉验证的划分, 整个训练数据集划分 成10份, 每一份都将被作为验证集, 在训练 时使用9份数据进 行训练, 使用剩余的1份作为验 证集检验分类器性能, 重复这个过程 10次, 加权平均作为分类器的最 终性能指标, 至训练过 程结束, 得到训练完成的铁 路事故类型分类器C。 采用AdaBoost学习方法训练得到最 终分类 器的过程, 见公式(4)、 (5)、 (6): 其中, αm为第m个决策树弱分类器的权重, Cm(x)为第m个决策树弱分类器, C(x)为集成学 习得到的强分类器, sign函数用来取m个弱分类器结果加权后的正负, em为第m个决策树弱 分类器分类的错 误率; 步骤5.2, 使用步骤5.1训练完成的强分类器C, 采用精确率、 正确率、 召回率和F1 ‑score 性能指标, 在测试集上对训练完成的软件缺陷分类 器进行性能检验。权 利 要 求 书 2/2 页 3 CN 114444765 A 3

.PDF文档 专利 基于KNN和AdaBoost的铁路事故类型预测方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于KNN和AdaBoost的铁路事故类型预测方法 第 1 页 专利 基于KNN和AdaBoost的铁路事故类型预测方法 第 2 页 专利 基于KNN和AdaBoost的铁路事故类型预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:09:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。