专利 基于KNN和AdaBoost的铁路事故类型预测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111550459.5 (22)申请日 2021.12.17 (71)申请人西安理工大学地址 710048 陕西省西安市碑林区金花南路5号 (72)发明人孟海宁　郑毅　童新宇　姬文江　李维　张嘉薇　黑新宏　 (74)专利代理机构西安弘理专利事务所 61214 专利代理师王奇 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 50/26(2012.01) G06Q 50/30(2012.01) G06K 9/62(2022.01) (54)发明名称基于KNN和AdaBoo st的铁路事故类型预测方法 (57)摘要本发明公开一种基于 KNN和AdaBoo st的铁路事故类型预测方法，具体涉及，计算铁路事故历史数据集属性的稀疏度，根据稀疏度阈值删除部分属性列；对铁路事故数据中的字符型数据进行编码；使用KNN算法对铁路事故数据进行缺失值填补；对铁路事故数据进行归一化，归一化后的数据随机划分为训练集和测试集；使用AdaBoo st 方法，构造铁路事故类型预测分类器，在测试集上检验分类器性能。本发明公开的方法对铁路事故数据进行了有效的预处理，并使用集成学习方法AdaBoo st来缓解原始数据的类不平衡问题，提升了事故类型预测的性能。权利要求书2页说明书7页附图2页 CN 114444765 A 2022.05.06 CN 114444765 A 1.基于KN N和AdaBo ost的铁路事故类型预测方法，其特征在于，包括以下步骤：步骤1，对原始的铁路事故历史数据集进行稀疏性分析，根据稀疏性阈值删除部分冗余属性；步骤2，对步骤1处理后的铁路事故历史数据集中的字符型属性，进行硬编码，将字符型属性转换为数值型属性；步骤3，对步骤2处理后的铁路事故历史数据集，进行基于KNN算法的数据填补，填补原数据中的缺失值；步骤4，对步骤3处理完成的铁路事故历史数据集，进行归一化操作，并按照一定比例随机划分训练集和测试集；步骤5，将步骤4中归一化后的铁路事故历史数据集，随机划分成训练集和测试集，使用 AdaBoost算法在训练集数据上训练分类器，在测试集上验证分类器性能。 2.如权利要求1所述的基于KNN和AdaBoost的铁路事故类型预测方法，其特征在于，步骤3中使用KNN算法对铁路事故数据进行缺失值补全，通过计算缺失型样本和其他完整样本的样本间距离，取前k最为接近的完整样本，加权平均后作为当前缺失型样本补全后的数值。 3.如权利要求2所述的基于KNN和AdaBoost的铁路事故类型预测方法，其特征在于，所述步骤3的具体步骤为：步骤3.1，对每一条包含缺失值的事故记录Ri，计算Ri到所有完整事故记录的样本间距离d，利用KNN算法对该样本间距离进行排序，保留距离最近的前k个样本记录，作为当前缺失样本填补的依据；其中完整事故记录表示一条没有缺失值的记录，样本间距离d 的计算方式如公式(1)所示：其中Ri和Ri分别表示第i条记录和第j条记录，在该公式中，默认左边的记录为含缺失值型记录，右边记录为完整记录，则从含缺失值记录Ri到完整记录Rj的样本间距离d(i,j)如式 (1)所示，表示了两个记录在样本空间上的相似性，该距离越小则二者越为接近；步骤3.2，根据与含缺失值记录在样本空间最近的前k个事故记录，对缺失记录进行数据填补；其中，由k个事故记录，计算得到当前缺失记录的公式如式(2)所示：其中Ri为第i个含缺失值的事故记录， Rj为第j个在样本空间距离上距 Ri最近的记录，如式(2)所示，经过如上计算，得到了缺失值填补后的Ri。 4.如权利要求1所述的基于KNN和AdaBoost的铁路事故类型预测方法，其特征在于，所述步骤5中使用AdaBoost 集成学习方法建立铁路事故类型分类器，包括使用M个相同的决策树弱分类器作为弱学习器，经过加权平均得到最终的软件缺陷强分类器。 5.如权利要求1所述的基于KNN和AdaBoost的铁路事故类型预测方法，其特征在于，所述步骤5的训练过程具体为：权　利　要　求　书 1/2 页 2 CN 114444765 A 2步骤5.1，将步骤4中重采样后训练集，进行十折交叉验证的划分，整个训练数据集划分成10份，每一份都将被作为验证集，在训练时使用9份数据进行训练，使用剩余的1份作为验证集检验分类器性能，重复这个过程 10次，加权平均作为分类器的最终性能指标，至训练过程结束，得到训练完成的铁路事故类型分类器C。采用AdaBoost学习方法训练得到最终分类器的过程，见公式(4)、 (5)、 (6)：其中， αm为第m个决策树弱分类器的权重， Cm(x)为第m个决策树弱分类器， C(x)为集成学习得到的强分类器， sign函数用来取m个弱分类器结果加权后的正负， em为第m个决策树弱分类器分类的错误率；步骤5.2，使用步骤5.1训练完成的强分类器C，采用精确率、正确率、召回率和F1 ‑score 性能指标，在测试集上对训练完成的软件缺陷分类器进行性能检验。权　利　要　求　书 2/2 页 3 CN 114444765 A 3

专利 基于KNN和AdaBoost的铁路事故类型预测方法

专利基于KNN和AdaBoost的铁路事故类型预测方法