专利 基于随机森林的电动汽车充电站充电流失用户预测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111444126.4 (22)申请日 2021.11.30 (71)申请人湖州电力设计院有限公司长兴分公司地址 313100 浙江省湖州市长兴县画溪街道包桥路3 6号申请人国网浙江长兴县供电有限公司 (72)发明人俞晓吉　林瑞学　袁晟　刘远　董顺良　袁方期　黄善南　郭金金　 (74)专利代理机构浙江翔隆专利事务所(普通合伙) 33206 代理人王晓燕 (51)Int.Cl. G06Q 30/02(2012.01) G06K 9/62(2022.01)G06N 20/00(2019.01) (54)发明名称基于随机森林的电动汽车充电站充电流失用户预测方法 (57)摘要本发明公开了基于随机森林的电动汽车充电站充电流失用户预测方法，涉及数据处理领域。本发明包括步骤：获取数据，包括充电桩半年内充电交易记录数据和充电桩资产明细数据；数据预处理：对存在缺失、异常的数据进行处理，按用户进行数据整合，得到充电用户指标宽表，并基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量；基于充电流失用户预测模型算法构建的充电用户流失预测方法，深入全面地对用户充电留存情况经进行分析，实现充电流失用户的精准预测，通过提前预判用户的流失倾向，为充电站的运营策略提供数据支持，并优化自身的运营策略，进行差异化运营，从而提升老用户的留存率，助力电动汽车充电站点的绿色健康发展。权利要求书5页说明书20页附图5页 CN 114155025 A 2022.03.08 CN 114155025 A 1.基于随机森林的电动汽车充电站充电流失用户预测方法，其特征在于包括以下步骤： 1)获取数据，包括充电桩半年内充电交易记录数据和充电桩资产明细数据； 2)数据预处理：对存在缺失、异常的数据进行处理，按用户进行数据整合，得到充电用户指标宽表，并基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量；充电用户指标宽表内容包括：充电用户观察期内充电活跃情况、充电过程遇到的设备故障情况、享受到的充电优惠情况、用户账户余额状况和投诉情况；数据预处理包括： 201)缺失值的处理：将缺失值调整为固定值；包括均值、中间值、一个指定的常数，或将缺失值调整为一个服从正态分布的随机值； 202)异常值的处理：异常值用3个标准差的最大值或最小值替换，将异常值调整为距离最近的正常值；异常值要检验异常值出现的原因，并相应的处理异常值；如果异常值没有业务含义，则直接剔除异常值，或用空值 NULL来替代异常值； 203)按用户进行数据整合：指标数据经过异常值处理、缺失值处理后，确保每个用户只有一个对应的指标值；基于用户id，将各充电指标关联，得到充电用户指标宽表； 204)相关衍生变量的生成：衍生变量是服务模型建设的变量，基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量； 3)将经数据预处理后的数据输入充电流失用户预测模型中，生成已流失充电用户清单及预测流失的充电用户清单，输出充电流失风险高、中、低用户标签，通过用户画像实现风险的准确预判；所述充电流失用户预测模型基于随机森林算法进行建模； 4)当用户群体数据随着时间发生变化时，则需要对充电流失用户预测模型模型进行重建、迭代优化。 2.根据权利要求1所述的基于随机森林的电动汽车充电站充电流失用户预测方法，其特征在于：在步骤3)中，采用的充电流失用户预测模型的构建包括以下步骤： A)收集原始数据； B)数据预处理：对少数类样本进行分析；并根据少数类样本人工合成新样本添加到数据集中； C)对样本用户群进行分类，总的样本用户群体分为流失用户和未流失用户，在总的样本用户群基础上分为训练集和测试集； D)通过训练集数据进行训练，结合训练结果进行模型调参，完成模型训练； D01)在训练集中抽取 K个训练样本； D02)等概率抽取属性子集； D03)生成技术属性子集指数； D04)选择最优属性分支 D05)得到节点分支； D05)判断是否满足结束训练的条件，若是则生成K棵决策树，若否，则返回步骤D02)；直至完成基于随机森林的充电流失用户预测模型训练； E)使用测试集验证模型结果，避免过拟合或者拟合不足的问题； F)对模型整体效果进行评估，若评估结果满足条件，则根据评估结果，调整参数，并返回步骤D)再次优化迭代模型。权　利　要　求　书 1/5 页 2 CN 114155025 A 23.根据权利要求2所述的基于随机森林的电动汽车充电站充电流失用户预测方法，其特征在于：样本均衡处理时采用smote合成少数类过采样技术的算法，使得样本均衡处理后的流失样本和未流失样本数接近或相同。 4.根据权利要求3所述的基于随机森林的电动汽车充电站充电流失用户预测方法，其特征在于：在步骤F)中，使用ROC曲线、 AUC值以及KS值对模型进行初步评估，同时结合混淆矩阵，对模型的初步效果进行评价；模型效果包括准确率、精度、召回率；一、准确率：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比；也就是损失函数是0‑1损失时测试数据集上的准确率； Accuracy＝(TP+TN)/(TP+TN+FP+FN) 二、精度：预测正类预测正确的样本数，占预测是正类的样本数的比例； Precision＝TP/(TP+FP) 三、召回率：预测正类预测正确的样本数，占实际是正类的样本数的比例； Recall＝TP/(TP+FN) 其中： TP：被判定为正样本，事实上也是正样本； TN：被判定为负样本，事实上也是负样本； FP：被判定为正样本，但事实上是负样本； FN：被判定为负样本，但事实上是正样本。 5.根据权利要求4所述的基于随机森林的电动汽车充电站充电流失用户预测方法，其特征在于：当准确率、精度或召回率小于设定值时，则结合业务情况进一步进行参数调整；参数调整利用网格搜索的方式，将指定的参数范围进行穷举搜索；选取比较好的前3个参数组合方式进行分析；参数包括不纯度的衡量指标、随机森林树的数量、限制分枝时考虑的特征个数、树的最大深度、一个节点在分枝后的每个子节点最少包含的样本数量，一个节点必须包含最小样本数。 6.根据权利要求5所述的基于随机森林的电动汽车充电站充电流失用户预测方法，其特征在于：当模型一开始的拟合效果不好，在后序的参数调整时，基于比较好的前3个参数组合方式，不纯度的衡量指标选择使用信息熵；随机森林树的数量中选取数量较少的，限制分枝时考虑的特征个数采用aut o；一个节点在分枝后的每个子节点最少包含的样本数量选择样本数量较多，一个节点必须包含最小样本数选择较多。 7.根据权利要求6所述的基于随机森林的电动汽车充电站充电流失用户预测方法，其特征在于：在步骤2)中，指标设计模块中变量定义为：权　利　要　求　书 2/5 页 3 CN 114155025 A 3

专利 基于随机森林的电动汽车充电站充电流失用户预测方法

专利基于随机森林的电动汽车充电站充电流失用户预测方法