金融行业标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111550459.5 (22)申请日 2021.12.17 (71)申请人 西安理工大 学 地址 710048 陕西省西安市碑林区金花 南 路5号 (72)发明人 孟海宁 郑毅 童新宇 姬文江 李维 张嘉薇 黑新宏 (74)专利代理 机构 西安弘理专利事务所 61214 专利代理师 王奇 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 50/26(2012.01) G06Q 50/30(2012.01) G06K 9/62(2022.01) (54)发明名称 基于KNN和AdaBoo st的铁路事故类型预测方 法 (57)摘要 本发明公开一种基于 KNN和AdaBoo st的铁路 事故类型预测方法, 具体涉及, 计算铁路事故历 史数据集属性的稀疏度, 根据稀 疏度阈值删除部 分属性列; 对铁路事故数据中的字符型数据进行 编码; 使用KNN算法对铁路事故数据进行缺失值 填补; 对铁路事故数据进行归一化, 归一化后的 数据随机划分为训练集和测试集; 使用AdaBoo st 方法, 构造铁路事故类型预测分类器, 在测试集 上检验分类器性能。 本发明公开的方法对铁路事 故数据进行了有效的预处理, 并使用集成学习方 法AdaBoo st来缓解原始数据的类不平 衡问题, 提 升了事故类型 预测的性能。 权利要求书2页 说明书7页 附图2页 CN 114444765 A 2022.05.06 CN 114444765 A 1.基于KN N和AdaBo ost的铁路事故类型 预测方法, 其特 征在于, 包括以下步骤: 步骤1, 对原始的铁路事故历史数据集进行稀疏性分析, 根据稀疏性阈值删除部分冗余 属性; 步骤2, 对步骤1处理后的铁路事故历史数据集中的字符型属性, 进行硬编码, 将字符型 属性转换为数值型属性; 步骤3, 对步骤2处理后的铁路事故历史数据集, 进行基于KNN算法的数据填补, 填补原 数据中的缺失值; 步骤4, 对步骤3处理完成的铁路事故历史数据集, 进行归一化操作, 并按照一定比例随 机划分训练集和 测试集; 步骤5, 将步骤4中归一化后的铁路事故历史数据集, 随机划分成训练集和测试集, 使用 AdaBoost算法在训练集数据上训练分类 器, 在测试集上验证分类 器性能。 2.如权利要求1所述的基于KNN和AdaBoost的铁路事故类型预测方法, 其特征在于, 步 骤3中使用KNN算法对铁路事故数据进 行缺失值补全, 通过计算缺 失型样本和其他完整样本 的样本间距离, 取前k最为接近的完整样本, 加权平均后作为当前缺失型样本补全后的数 值。 3.如权利要求2所述的基于KNN和AdaBoost的铁路事故类型预测方法, 其特征在于, 所 述步骤3的具体步骤为: 步骤3.1, 对每一条包含缺失值的事故记录Ri, 计算Ri到所有完整事故记录的样本间距 离d, 利用KNN算法对该样本间距离进行排序, 保留距离最近的前k个样本记录, 作为当前缺 失样本填补的依据; 其中完整事故记录表示一条没有缺 失值的记录, 样本间距离d 的计算方 式如公式(1)所示: 其中Ri和Ri分别表示第i条记录和第j条记录, 在该公式中, 默认左边的记录为含缺失值 型记录, 右边记录为完整记录, 则从含缺失值记录Ri到完整记录Rj的样本间距离d(i,j)如式 (1)所示, 表示了 两个记录在样本空间上的相似性, 该距离越小则二 者越为接 近; 步骤3.2, 根据与含缺失值记录在样本空间最近的前k个事故记录, 对缺失记录进行数 据填补; 其中, 由k个事故记录, 计算得到当前缺失记录的公式如式(2)所示: 其中Ri为第i个含缺失值的事故记录, Rj为第j个在样本空间距离上距 Ri最近的记录, 如 式(2)所示, 经 过如上计算, 得到 了缺失值 填补后的Ri。 4.如权利要求1所述的基于KNN和AdaBoost的铁路事故类型预测方法, 其特征在于, 所 述步骤5中使用AdaBoost 集成学习方法建立铁 路事故类型分类器, 包括使用M个相同的决策 树弱分类 器作为弱学习器, 经 过加权平均得到最终的软件缺陷强分类 器。 5.如权利要求1所述的基于KNN和AdaBoost的铁路事故类型预测方法, 其特征在于, 所 述步骤5的训练过程具体为:权 利 要 求 书 1/2 页 2 CN 114444765 A 2步骤5.1, 将步骤4中重采样后训练集, 进行十折交叉验证的划分, 整个训练数据集划分 成10份, 每一份都将被作为验证集, 在训练 时使用9份数据进 行训练, 使用剩余的1份作为验 证集检验分类器性能, 重复这个过程 10次, 加权平均作为分类器的最 终性能指标, 至训练过 程结束, 得到训练完成的铁 路事故类型分类器C。 采用AdaBoost学习方法训练得到最 终分类 器的过程, 见公式(4)、 (5)、 (6): 其中, αm为第m个决策树弱分类器的权重, Cm(x)为第m个决策树弱分类器, C(x)为集成学 习得到的强分类器, sign函数用来取m个弱分类器结果加权后的正负, em为第m个决策树弱 分类器分类的错 误率; 步骤5.2, 使用步骤5.1训练完成的强分类器C, 采用精确率、 正确率、 召回率和F1 ‑score 性能指标, 在测试集上对训练完成的软件缺陷分类 器进行性能检验。权 利 要 求 书 2/2 页 3 CN 114444765 A 3
专利 基于KNN和AdaBoost的铁路事故类型预测方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 03:09:45
上传分享
举报
下载
原文档
(675.3 KB)
分享
友情链接
GB-T 18312-2015 双筒望远镜检验规则.pdf
ISO IEC 27034-3-2018.pdf
T-GIES 012—2023 LED驱动电源技术规范.pdf
GB-T 18305-2016 质量管理体系 汽车生产件及相关服务件组织应用GB-T 19001—2008的特别要求.pdf
GB-T 23997-2009 室内装饰装修用溶剂型聚氨酯木器涂料.pdf
GB-T 30886-2014 环形套筒窑.pdf
GB-T 37988-2019 信息安全技术 数据安全能力成熟度模型.pdf
DB44-T 1944-2016 碳排放管理体系 要求及使用指南 广东省.pdf
GM-T 0003.4-2012 SM2椭圆曲线公钥密码算法第4部分:公钥加密算法.pdf
T-CEC 5074—2022 抽水蓄能电站工程施工总进度编制导则.pdf
SY-T 6540-2021 钻井液完井液损害油层室内评价方法.pdf
T-CCUA 003—2019 金融信息科技服务外包风险管理能力成熟度评估规范.pdf
ISO 5393 2017 Rotary tools for threaded fasteners — Performance test method.pdf
alienvault 业内人士指南之应急响应 insiders guide incident response 英文版.pdf
Cisco路由器安全配置基线.doc
奇安信2023年第二版-电子数据司法鉴定典型案例集.pdf
GB-T 12688.5-2019 工业用苯乙烯试验方法 第5部分:总醛含量的测定 滴定法.pdf
GB-T 2679.1-2020 纸 透明度的测定 漫反射法.pdf
ISO17799-2005 信息安全管理实施指南 中文.pdf
GB-T 8566-2022系统与软件工程 软件生存周期过程.pdf
1
/
3
12
评价文档
赞助2元 点击下载(675.3 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。