金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111495550.1 (22)申请日 2021.12.08 (71)申请人 兴业银行股份有限公司 地址 350000 福建省福州市湖东路154 号 申请人 兴业数字金融服 务(上海)股份有限 公司 (72)发明人 孙立炜  (74)专利代理 机构 上海段和段律师事务所 31334 代理人 施嘉薇 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/25(2019.01) G06F 16/28(2019.01) G06N 20/00(2019.01) (54)发明名称 基于金融云端数据仓库和数据湖的数据管 理方法和系统 (57)摘要 本发明提供了一种基于金融云端数据仓库 和数据湖的数据管理方法和系统, 包括: 步骤1: 在引入新的数据源时, 根据数据性质和数据价 值, 区分骨干数据和边缘数据; 步骤2: 对于骨干 数据, 按照数据模型建设思路, 对原始数据进行 表级分析、 字段级分析, 根据分析结果完成骨干 数据的引入; 步骤3: 对于边缘数据, 按照实时宽 表引入, 根据源数据格式建立目标宽表, 编写ET L 脚本, 完成脚本单元测试, 从而完成边缘数据引 入。 本发明实现了一套数据仓库结合数据湖的解 决方案, 数据仓库根据先整理后存储的原则, 具 有数据关联性强、 标准统一的特性; 数据湖根据 先存储后使用的原则, 更利于高效的数据分析、 数据探索。 权利要求书2页 说明书5页 附图1页 CN 114138768 A 2022.03.04 CN 114138768 A 1.一种基于金融云端数据仓库和数据湖的数据管理方法, 其特 征在于, 包括: 步骤1: 在引入新的数据源时, 根据数据性质和数据价 值, 区分骨干数据和边 缘数据; 步骤2: 对于骨干数据, 按照数据模型建设思路, 对原始数据进行表级分析、 字段级分 析, 根据分析 结果完成骨干数据的引入; 步骤3: 对于边缘数据, 按照实时宽表引 入, 根据源数据格式建立目标宽表, 编写ETL脚 本, 完成脚本单 元测试, 从而完成边 缘数据引入。 2.根据权利要求1所述的基于金融云端数据仓库和数据湖的数据管理方法, 其特征在 于, 所述步骤2包括: 步骤2.1: 根据表级分析、 字段级分析的分析结果编写Mapping, 明确数据表或者字段的 模型定位, 并生成ETL脚本, 完成脚本单 元测试; 步骤2.2: 在测试环境验证脚本逻辑正确性、 准确性, 同时完成数据质量检核, 包括数据 唯一性、 数据关联度、 数据标准 性; 步骤2.3: 上线脚本, 配置调度, 完成骨干数据引入。 3.根据权利要求1所述的基于金融云端数据仓库和数据湖的数据管理方法, 其特征在 于, 所述步骤3包括: 步骤3.1: 在测试环境验证脚本 逻辑正确性、 准确性; 步骤3.2: 上线脚本, 配置调度, 确定数据保留策略, 完成边 缘数据引入; 步骤3.3: 在引入边 缘数据时明确数据消费者, 并进行 数据生命周期管理。 4.根据权利要求1所述的基于金融云端数据仓库和数据湖的数据管理方法, 其特征在 于, 所述骨干数据包括账户、 客户、 机构、 账务和渠道数据; 将骨干数据按模型建设思路整合 到数据仓库, 保证引入数据的集 合度; 所述边缘数据包括交易明细、 流水信息和 统计分析宽表; 使用明细事实宽表的形式存 放边缘数据, 同时维持边 缘数据和骨干数据的关联度。 5.根据权利要求1所述的基于金融云端数据仓库和数据湖的数据管理方法, 其特征在 于, 通过人工识别的方式区分数据性质, 或者通过机器学习的方式实现数据性质的自动化 区分; 通过人工识别的方式识别数据价 值, 数据复用率越高的数据, 数据价 值越高。 6.一种基于金融云端数据仓库和数据湖的数据管理系统, 其特 征在于, 包括: 模块M1: 在引入新的数据源时, 根据数据性质和数据价 值, 区分骨干数据和边 缘数据; 模块M2: 对于骨干数据, 按照数据模型建设思路, 对原始数据进行表级分析、 字段级分 析, 根据分析 结果完成骨干数据的引入; 模块M3: 对于边缘数据, 按照实时宽表引入, 根据源数据格式建立目标宽表, 编写ETL脚 本, 完成脚本单 元测试, 从而完成边 缘数据引入。 7.根据权利要求6所述的基于金融云端数据仓库和数据湖的数据管理系统, 其特征在 于, 所述模块M2包括: 模块M2.1: 根据表级分析、 字段级分析的分析结果编写Mapping, 明确数据表或者字段 的模型定位, 并生成ETL脚本, 完成脚本单 元测试; 模块M2.2: 在测试环境验证脚本逻辑正确性、 准确性, 同时完成数据质量检核, 包括数 据唯一性、 数据关联度、 数据标准 性;权 利 要 求 书 1/2 页 2 CN 114138768 A 2模块M2.3: 上线脚本, 配置调度, 完成骨干数据引入。 8.根据权利要求6所述的基于金融云端数据仓库和数据湖的数据管理系统, 其特征在 于, 所述模块M 3包括: 模块M3.1: 在测试环境验证脚本 逻辑正确性、 准确性; 模块M3.2: 上线脚本, 配置调度, 确定数据保留策略, 完成边 缘数据引入; 模块M3.3: 在引入边 缘数据时明确数据消费者, 并进行 数据生命周期管理。 9.根据权利要求6所述的基于金融云端数据仓库和数据湖的数据管理系统, 其特征在 于, 所述骨干数据包括账户、 客户、 机构、 账务和渠道数据; 将骨干数据按模型建设思路整合 到数据仓库, 保证引入数据的集 合度; 所述边缘数据包括交易明细、 流水信息和 统计分析宽表; 使用明细事实宽表的形式存 放边缘数据, 同时维持边 缘数据和骨干数据的关联度。 10.根据权利要求6所述的基于金融云端数据仓库和数据湖的数据管理系统, 其特征在 于, 通过人工识别的方式区分数据性质, 或者通过机器学习的方式实现数据性质的自动化 区分; 通过人工识别的方式识别数据价 值, 数据复用率越高的数据, 数据价 值越高。权 利 要 求 书 2/2 页 3 CN 114138768 A 3

.PDF文档 专利 基于金融云端数据仓库和数据湖的数据管理方法和系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于金融云端数据仓库和数据湖的数据管理方法和系统 第 1 页 专利 基于金融云端数据仓库和数据湖的数据管理方法和系统 第 2 页 专利 基于金融云端数据仓库和数据湖的数据管理方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:21:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。