专利 基于Hadoop的并行化BP神经网络的能耗预测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111557495.4 (22)申请日 2021.12.19 (71)申请人南京理工大学地址 210094 江苏省南京市孝陵卫20 0号 (72)发明人胡文斌　姚跃　李华轩　秦建楠　 (74)专利代理机构南京理工大学专利中心 32203 代理人王玮 (51)Int.Cl. G06Q 10/04(2012.01) G06N 3/08(2006.01) G06K 9/62(2022.01) G06F 16/182(2019.01) (54)发明名称基于Hadoop的并行化BP神经网络的能耗预测方法 (57)摘要本发明公开了一种基于Hadoop的并行化BP 神经网络的能耗预测方法，该方法将现在主流的集成学习相关算法与Hadoop分布式平台结合，通过并行计算的方式提高模型建立速度，通过建立多个模型甚至多种不同模型组合的方法来提高算法的泛化能力。本发明能够实现地铁未来能耗的精确预测，提高预测算法的处理能力、计算速度和泛化能力，通过对未来周期的能耗进行预测，优化地铁的控制策略和日常运行，对地铁能效管理、能源分配提供可靠的数据支持。权利要求书2页说明书6页附图3页 CN 114298387 A 2022.04.08 CN 114298387 A 1.一种基于 Hadoop的并行化BP神经网络的能耗预测方法，其特征在于，包括以下步骤：步骤1、获取地铁列车及变电站历史统计数据，初步清洗并存储到Hadoop分布式系统中；步骤2、通过Map任务将样本数据进行随机化处理，并按照一定比例将新样本划分为训练样本和测试样本，并分别进行归一化处理；步骤3、将数据划分成小型数据集，存储在分布式文件系统数据各节点中，作为网络训练参数；步骤4、采用灰色关联分析法建立能耗影响因素评估体系，体系中包括对影响因素重要度排序，确定样本数据初始化权值；步骤5、初始化BP神经网络训练参数，包括误差函数与期望误差值，学习速率，输入层、隐含层、输出层神经元节点个数，阈值和权值；步骤6、节点启动 Map任务接收训练样本，进行网络训练，计算当前网络连接权值变化量输出中间结果， Reduce操作计算所有权值变化量平均值作为输出，批处理训练网络，调整网络中各层的权重；步骤7、重复步骤(6)，直到网络预测相对误差达到初始设定的误差目标或达到初始设定的最大迭代次数。步骤8、根据训练好的并行能耗预测模型对地铁列车能耗进行预测得到预测结果，并与真实值对比，计算准确率。 2.根据权利要求1所述的基于Hadoop的并行化BP神经网络的能耗预测方法，其特征在于，步骤1中所述的获取的地铁列车及变电站历史统计数据，具体如下：从轨道交通SCADA系统中获取地铁牵引能耗原始数据，原始数据包括待预测日期之前若干天的地铁列车牵引能耗历史数据，以及客流、运行里程、温度、湿度、开行列次信息的历史数据。 3.根据权利要求1所述的基于Hadoop的并行化BP神经网络的能耗预测方法，其特征在于，步骤2所述的将样本数据通过Hado op中的Map任务进行随机化处理，具体如下：数据样本先按照 Hadoop平台提前设置好的分片大小进行分块操作，每一个分块由相互独立的Map任务进行并行处理，通过Hadoop平台的Shuffle机制将原来根据某个属性团簇在一起、数据一致性高于设定的阈值的数据集进行随机打散，随机地下发到下游的Reduce任务中进行重新组合，进而形成多样性高的多个数据块作为新的训练样本。 4.根据权利要求1所述的基于Hadoop的并行化BP神经网络的能耗预测方法，其特征在于，步骤2中所述的对训练集数据进行归一化处理，具体如下：数据归一化方法采用Z ‑score标准化方法，公式如下：其中， x*为归一化后的数据， x为个体观测值， μ为训练集数据的均值， δ为训练集数据的标准差。 5.根据权利要求1所述的基于Hadoop的并行化BP神经网络的能耗预测方法，其特征在于，步骤4所述的根据灰色关联分析法建立能耗影响评估体系，计算输入输出影响度初始化权值，具体如下：权　利　要　求　书 1/2 页 2 CN 114298387 A 2步骤1.1：选取地铁日牵引能耗为参考数列，能耗的影响因素变量为比较数列，记为Zi＝ {zi(k)|k＝1,2,…,n},i＝0,1,2, …m；其中， zi(k)为选取出来的参考数列和比较数列，将参考数列设为z0(k)， i为参考数列和比较数列各自的编号， m为参考数列和比较数列的总数， k 为选取数据的日期， n 为总的天数；步骤1.2：对地铁日牵引能耗与各影响因素进行无量纲化：其中，为序列Zi的算术平均值；步骤1.3：计算各影响因素与地铁日牵引能耗的关联系数：其中， Δi(k)＝|z0(k)‑z′i(k)|， z′i(k)为对zi(k)进行无量纲化后的值，为所选日期中Δi(k)的最大值，为所选取日期中Δi(k)的最小值， ρ 称为分辨系数；步骤1.4：计算各影响因素与地铁日牵引能耗的关联度r0i：其中， ξ0i(k)为步骤1.3求得的关联系数， k 为选取数据的日期， n 为总的天数；步骤1.5：按求得的关联度数值大小确定初始化权值大小。 6.根据权利要求1所述的基于Hadoop的并行化BP神经网络的能耗预测方法，其特征在于，步骤6中所述的将启动Map 任务接收训练样本，进行网络训练，计算当前网络连接权值变化量输出中间结果，具体如下：首先通过设置Hadoop Map任务的split_nu m、 split_size、 default_num、 goal_nu m参数值来决定每个Map任务处理的数据块大小，其中参数分别表示分割数量、分片大小、默认分割数量、期望分割数量；参数设置完成后可计算出Map任务的并行度，训练样本按照分块传送到不同的Map 任务中作为输入，在各自的Map 任务中相互独立的计算每个数据对于当前权值的修正值。 7.根据权利要求1所述的基于Hadoop的并行化BP神经网络的能耗预测方法，其特征在于，步骤6中所述的Reduce操作计算所有权值变化量平均值作为输出，批处理训练网络，调整网络中各层的权重，具体如下：每个Reduce操作接收来自Map操作产生的键/值对序列，将权值相同的序列分到同一个 Reduce任务上，然后计算所有权值变化量的平均值作为输出，之后通过批处理训练网路，调整网络中各层的权重。权　利　要　求　书 2/2 页 3 CN 114298387 A 3

专利 基于Hadoop的并行化BP神经网络的能耗预测方法

专利基于Hadoop的并行化BP神经网络的能耗预测方法