金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111444126.4 (22)申请日 2021.11.30 (71)申请人 湖州电力设计院有限公司长兴 分公 司 地址 313100 浙江省湖州市长兴县画溪街 道包桥路3 6号 申请人 国网浙江长兴县供电有限公司 (72)发明人 俞晓吉 林瑞学 袁晟 刘远  董顺良 袁方期 黄善南 郭金金  (74)专利代理 机构 浙江翔隆专利事务所(普通 合伙) 33206 代理人 王晓燕 (51)Int.Cl. G06Q 30/02(2012.01) G06K 9/62(2022.01)G06N 20/00(2019.01) (54)发明名称 基于随机森林的电动汽车充电站充电流失 用户预测方法 (57)摘要 本发明公开了基于随机森林的电动汽车充 电站充电流失用户预测方法, 涉及数据处理领 域。 本发明包括步骤: 获取数据, 包括充电桩半年 内充电交易记录数据和充电桩资产明细数据; 数 据预处理: 对存在缺失、 异常的数据进行处理, 按 用户进行数据整合, 得到充电用户指标宽表, 并 基于指标设计模块的变量定义生成与充电流失 用户预测模 型相关的各衍生变量; 基于充电流失 用户预测模型算法构建的充电用户流失预测方 法, 深入全面地对用户充电留存情况经进行分 析, 实现充电流失用户的精准预测, 通过提前预 判用户的流失倾向, 为充电站的运营策略提供数 据支持, 并优化自身的运营策略, 进行差异化运 营, 从而提升老用户的留存率, 助力电动汽车充 电站点的绿 色健康发展。 权利要求书5页 说明书20页 附图5页 CN 114155025 A 2022.03.08 CN 114155025 A 1.基于随机森林的电动汽车充电站充电流失用户预测方法, 其特征在于包括以下步 骤: 1)获取数据, 包括充电桩半年内充电交易记录数据和充电桩资产明细数据; 2)数据预处理: 对存在缺失、 异常的数据进行处理, 按用户进行数据整合, 得到充电用 户指标宽表, 并基于指标设计模块的变量定义生成与充电流 失用户预测模 型相关的各衍生 变量; 充电用户指标宽表内容包括: 充电用户观 察期内充电活跃情况、 充电过程遇到的设备 故障情况、 享受到的充电优惠情况、 用户账户余 额状况和投诉情况; 数据预处 理包括: 201)缺失值的处理: 将缺失值调整为固定值; 包括均 值、 中间值、 一个指定的常数, 或将 缺失值调整为 一个服从正态分布的随机值; 202)异常值的处理: 异常值用3个标准差的最大值或最小值替换, 将异常值调整为距离 最近的正常值; 异常值要检验异常值出现的原因, 并相应的处理异常值; 如果异常值没有业 务含义, 则直接剔除异常值, 或用空值 NULL来替代异常值; 203)按用户进行数据整合: 指标数据经过异常值处理、 缺失值处理后, 确保每个用户只 有一个对应的指标值; 基于用户id, 将各充电指标关联, 得到充电用户指标宽表; 204)相关衍生变量的生成: 衍生变量是服务模型建设的变量, 基于指标设计模块的变 量定义生成与充电流失用户预测模型相关的各衍 生变量; 3)将经数据预处理后的数据输入充电流失用户预测模型中, 生成已流失充电用户清单 及预测流失的充电用户清单, 输出充电流失风险高、 中、 低用户标签, 通过用户画像实现风 险的准确预判; 所述充电流失用户预测模型基于随机森林算法进行建模; 4)当用户群体数据随着时间发生变化时, 则需要对充电流失用户预测模型模型进行重 建、 迭代优化。 2.根据权利要求1所述的基于随机森林的电动汽车充电站充电流失用户预测方法, 其 特征在于: 在步骤3)中, 采用的充电流失用户预测模型的构建包括以下步骤: A)收集原 始数据; B)数据预处理: 对少数类样本进行分析; 并根据少数类样本人工合成新样本添加到数 据集中; C)对样本用户群进行分类, 总的样本用户群体分为流失用户和未流失用户, 在总的样 本用户群 基础上分为训练集和 测试集; D)通过训练集数据进行训练, 结合训练结果进行模型调参, 完成模型训练; D01)在训练集中抽取 K个训练样本; D02)等概率抽取属性子集; D03)生成技 术属性子集指数; D04)选择最优属性分支 D05)得到节点分支; D05)判断是否满足结束训练的条件, 若是则生成K棵决策树, 若否, 则返回步骤D02); 直 至完成基于随机森林的充电流失用户预测模型训练; E)使用测试集验证模型 结果, 避免过拟合或者拟合 不足的问题; F)对模型整体效果进行评估, 若评估结果满足条件, 则根据评估结果, 调整参数, 并返 回步骤D)再次优化迭代模型。权 利 要 求 书 1/5 页 2 CN 114155025 A 23.根据权利要求2所述的基于随机森林的电动汽车充电站充电流失用户预测方法, 其 特征在于: 样本均衡处理时采用smote合 成少数类过采样技术的算法, 使 得样本均衡处理后 的流失样本和未流失样本数接 近或相同。 4.根据权利要求3所述的基于随机森林的电动汽车充电站充电流失用户预测方法, 其 特征在于: 在步骤F)中, 使用ROC曲线、 AUC值以及KS值对模型进行初步评估, 同时结合混淆 矩阵, 对模型的初步效果进行评价; 模型效果包括 准确率、 精度、 召回率; 一、 准确率: 对于给定的测试数据集, 分类器正确分类的样本数与总样本数之比; 也就 是损失函数 是0‑1损失时测试 数据集上的准确率; Accuracy=(TP+TN)/(TP+TN+FP+FN) 二、 精度: 预测正类预测正确的样本数, 占预测是正类的样本数的比例; Precision=TP/(TP+FP) 三、 召回率: 预测正类预测正确的样本数, 占实际是正类的样本数的比例; Recall=TP/(TP+FN) 其中: TP: 被判定为 正样本, 事实上也是正样本; TN: 被判定为负 样本, 事实上也是负 样本; FP: 被判定为 正样本, 但事实上 是负样本; FN: 被判定为负 样本, 但事实上 是正样本 。 5.根据权利要求4所述的基于随机森林的电动汽车充电站充电流失用户预测方法, 其 特征在于: 当准确率、 精度或召回率小于设定值时, 则结合业务情况进一步进行参数调整; 参数调整利用网格搜索的方式, 将指 定的参数范围进 行穷举搜索; 选取比较好的前3个参数 组合方式进 行分析; 参数包括不纯度的衡量指标、 随机森林树的数量、 限制分枝时考虑的特 征个数、 树的最大深度、 一个节点在分枝后的每个子节点最少包含的样本数量, 一个节点必 须包含最小样本数。 6.根据权利要求5所述的基于随机森林的电动汽车充电站充电流失用户预测方法, 其 特征在于: 当模型一开始的拟合效果不好, 在后序的参数调整时, 基于比较好的前3个参数 组合方式, 不纯度的衡量指标选择使用信息熵; 随机森林树的数量中选取数量较少的, 限制 分枝时考虑的特征个数采用aut o; 一个节 点在分枝后的每个子节 点最少包含的样 本数量选 择样本数量较多, 一个节点必须包 含最小样本数选择较多。 7.根据权利要求6所述的基于随机森林的电动汽车充电站充电流失用户预测方法, 其 特征在于: 在步骤2)中, 指标设计模块中变量定义 为: 权 利 要 求 书 2/5 页 3 CN 114155025 A 3

.PDF文档 专利 基于随机森林的电动汽车充电站充电流失用户预测方法

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于随机森林的电动汽车充电站充电流失用户预测方法 第 1 页 专利 基于随机森林的电动汽车充电站充电流失用户预测方法 第 2 页 专利 基于随机森林的电动汽车充电站充电流失用户预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:21:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。