金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111394967.9 (22)申请日 2021.11.23 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 童楚婕  (74)专利代理 机构 北京三友知识产权代理有限 公司 11127 代理人 周晓飞 汤在彦 (51)Int.Cl. G06Q 40/02(2012.01) G06Q 10/06(2012.01) G06N 20/00(2019.01) G06F 16/2458(2019.01) (54)发明名称 大数据分析方法及装置 (57)摘要 本发明公开了一种大数据分析方法及 装置, 应用于大数据技术领域, 其中该方法包括: 接收 待分析数据、 再抽样子样本数目、 计算统计量集 合、 模型评价指标、 结果整合方法及预设结果精 度; 循环确定最优样本数据, 每个循环周 期均执 行以下操作: 对待分析数据进行再抽样, 得到周 期子样本; 根据计算统计量集合, 得到周 期子样 本计算结果; 根据模型评价指标, 得到周 期子样 本计算结果精度; 根据结果整合方法, 将每一周 期的子样 本计算结果精度进行整合, 得到周期 整 合结果精度; 周期整合结果精度达到预设结果精 度时, 得到最优样本数据。 本发明可以高效准确 地进行大数据分析得到高精度的样 本数据, 使 得 在硬件有限的条件下进行高效准确地建模。 权利要求书3页 说明书9页 附图3页 CN 114092224 A 2022.02.25 CN 114092224 A 1.一种大 数据分析 方法, 其特 征在于, 包括: 接收待分析数据、 再抽样子样本数目、 计算统计量集合、 模型评价指标、 结果整合方法 及预设结果精度; 循环确定最优样本数据, 每 个循环周期均执 行以下操作: 对所述待分析数据进行再抽样, 得到数目为所述再抽样子样本数目的当前周期子样 本; 根据所述计算统计量集合, 对所述当前周期子样本进行数据分析, 得到当前周期子样 本计算结果; 根据所述模型评价指标, 对所述当前周期子样本计算结果进行计算, 得到当前周期子 样本计算结果精度; 根据所述结果整合方法, 将每一周期的子样本计算结果精度进行整合, 得到当前周期 整合结果精度; 在当前周期整合结果精度未达到所述预设结果精度时, 进入下一循环周期的操作, 直 到当前周期整合结果精度达到所述预设结果精度时, 得到最优样本数据; 所述最优样本数 据用于建立银行贷前预测模型; 所述银行贷前预测模型用于根据客户资产负债信息、 客户 基本信息及违约信息, 预测客户的贷款 风险。 2.如权利要求1所述的大数据分析方法, 其特征在于, 所述待分析数据包括客户资产负 债信息、 客户基本信息及违约信息 。 3.如权利要求1所述的大数据分析方法, 其特征在于, 对所述待分析数据进行再抽样, 得到数目为所述再抽样子样本数目的当前周期子样本, 包括: 利用R语言随机读取的方法, 对所述待分析数据进行再抽样, 得到数目为所述再抽样子 样本数目的当前周期子样本 。 4.如权利要求1所述的大数据分析方法, 其特征在于, 根据所述计算统计量集合, 对所 述当前周期子样本进行 数据分析, 得到当前周期样子 本计算结果, 包括: 去除当前周期子样本中存在异常的样本, 得到异常数据处理后的当前周期子样本; 所 述异常的样本为与当前周期子样本特 征相比存在预设差异特 征值的样本; 对异常数据处理后的当前周期子样本进行缺失值填充处理, 得到缺失值填充处理后的 当前周期子样本; 对缺失值填充处理后的当前周期子样本进行数据向量化处理, 得到数据向量化处理后 的样本数据; 根据所述计算统计量集合, 对得到数据向量化处理后的样本数据进行数据分析, 得到 当前周期样子 本计算结果。 5.如权利要求1所述的大数据分析方法, 其特征在于, 所述再抽样子样本数目大于所述 待分析数据数目开 根号。 6.如权利要求1所述的大数据分析方法, 其特征在于, 所述银行贷前预测模型为广义相 加模型。 7.一种大 数据分析装置, 其特 征在于, 包括: 接收模块, 用于接收待分析数据、 再抽样子样本数目、 计算统计量集合、 模型评价指标、 结果整合方法及预设结果精度;权 利 要 求 书 1/3 页 2 CN 114092224 A 2最优样本数据确定模块, 用于循环确定最优样本数据, 每 个循环周期均执 行以下操作: 对所述待分析数据进行再抽样, 得到数目为所述再抽样子样本数目的当前周期子样 本; 根据所述计算统计量集合, 对所述当前周期子样本进行数据分析, 得到当前周期子样 本计算结果; 根据所述模型评价指标, 对所述当前周期子样本计算结果进行计算, 得到当前周期子 样本计算结果精度; 根据所述结果整合方法, 将每一周期的子样本计算结果精度进行整合, 得到当前周期 整合结果精度; 在当前周期整合结果精度未达到所述预设结果精度时, 进入下一循环周期的操作, 直 到当前周期整合结果精度达到所述预设结果精度时, 得到最优样本数据; 所述最优样本数 据用于建立银行贷前预测模型; 所述银行贷前预测模型用于根据客户资产负债信息、 客户 基本信息及违约信息, 预测客户的贷款 风险。 8.如权利要求7所述的大数据分析装置, 其特征在于, 所述待分析数据包括客户资产负 债信息、 客户基本信息及违约信息 。 9.如权利要求7所述的大数据分析装置, 其特征在于, 所述最优样本数据确定模块具体 用于: 利用R语言随机读取的方法, 对所述待分析数据进行再抽样, 得到数目为所述再抽样子 样本数目的当前周期子样本 。 10.如权利要求7所述的大数据分析装置, 其特征在于, 所述最优样本数据确定模块具 体用于: 去除当前周期子样本中存在异常的样本, 得到异常数据处理后的当前周期子样本; 所 述异常的样本为与当前周期子样本特 征相比存在预设差异特 征值的样本; 对异常数据处理后的当前周期子样本进行缺失值填充处理, 得到缺失值填充处理后的 当前周期子样本; 对缺失值填充处理后的当前周期子样本进行数据向量化处理, 得到数据向量化处理后 的样本数据; 根据所述计算统计量集合, 对数据向量化处理后的样本数据进行数据分析, 得到当前 周期样子 本计算结果。 11.如权利要求7所述的大数据分析装置, 其特征在于, 所述再抽样子样本数目大于所 述待分析 数据数目开 根号。 12.如权利要求7所述的大数据分析装置, 其特征在于, 所述银行贷前预测模型为广义 相加模型。 13.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至6任一所述方 法。 14.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程 序, 所述计算机程序被处 理器执行时实现权利要求1至 6任一所述方法。 15.一种计算机程序产品, 其特征在于, 所述计算机程序产品包括计算机程序, 所述计权 利 要 求 书 2/3 页 3 CN 114092224 A 3

.PDF文档 专利 大数据分析方法及装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 大数据分析方法及装置 第 1 页 专利 大数据分析方法及装置 第 2 页 专利 大数据分析方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:21:59上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。