金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111478534.1 (22)申请日 2021.12.0 6 (71)申请人 东云睿连 (武汉) 计算 技术有限公司 地址 430000 湖北省武汉市东湖新 技术开 发区金融港四路18号普天物 联网创新 研发基地 (一期) 6A栋4层-2室 (72)发明人 洪志刚 黄林 林健 徐驰  (74)专利代理 机构 武汉智正诚专利代理事务所 (普通合伙) 42278 代理人 李卫 (51)Int.Cl. H04L 41/0894(2022.01) G06N 20/00(2019.01) (54)发明名称 基于RDMA设备的深度学习作业运行方法及 系统 (57)摘要 本发明属于机器学习技术领域, 公开了一种 基于RDMA设备的深度学习作业运行方法及系统。 所述方法包括: 对RDMA网卡设备进行虚拟化, 以 生成多个虚拟网卡; 在接收到深度学习 作业容器 发送的网卡 分配请求时, 通过单根容器网络接口 将对应的虚拟网卡挂载至所述深度学习作业容 器; RDMA分布式作业适配软件在接收到 所述深度 学习作业容器发送的作业运行信息时, 根据所述 作业运行信息分配RDMA网卡设备资源并进行作 业运行。 通过RDMA网卡设备满足高通信带宽, 降 低了对CPU资源的消耗、 降低延时, 利用单根容器 网络接口能够实现性能隔离、 安全隔离 。 权利要求书2页 说明书7页 附图2页 CN 114374609 A 2022.04.19 CN 114374609 A 1.一种基于RDMA设备的深度学习作业 运行方法, 其特 征在于, 所述方法包括: 对RDMA网卡设备进行虚拟化, 以生成多个虚拟网卡; 在接收到深度 学习作业容器发送的网卡分配请求 时, 通过单根容器网络接口将对应的 虚拟网卡 挂载至所述深度学习作业 容器; 在接收到所述深度学习作业容器发送的作业运行信 息时, 根据 所述作业运行信 息分配 RDMA网卡设备资源并进行作业 运行。 2.如权利要求1所述的基于RDMA设备的深度学习作业运行方法, 其特征在于, 所述对 RDMA网卡设备进行虚拟化, 以生成多个虚拟网卡的步骤, 具体包括: 对RDMA网卡设备进行虚拟化, 以生成多个虚拟网卡实例, 并创建虚拟机将所述虚拟网 卡实例挂载至所述虚拟机 。 3.如权利要求2所述的基于RDMA设备的深度学习作业运行方法, 其特征在于, 所述在接 收到深度学习作业容器发送的网卡分配请求时, 通过单根容器网络接口将对应的虚拟网卡 挂载至所述深度学习作业 容器的步骤, 具体包括: 在接收到深度 学习作业容器发送的网卡分配请求 时, 通过单根容器网络接口遍历所有 虚拟网卡; 在遍历获取到的虚拟网卡为非占用状态的目标虚拟网卡 时, 停止遍历并将所述目标虚 拟网卡挂载至所述深度学习作业 容器。 4.如权利要求3所述的基于RDMA设备的深度学习作业运行方法, 其特征在于, 所述在遍 历获取到的虚拟网卡为非占用状态的目标虚拟网卡时, 停止遍历并将所述目标虚拟网卡挂 载至所述深度学习作业 容器的步骤, 具体包括: 在遍历获取到的虚拟网卡为非占用状态的目标虚拟网卡 时, 将所述目标虚拟网卡的当 前状态设置为占用状态; 将所述目标虚拟网卡的虚拟设备文件挂载至所述深度学习作业容器, 并将所述目标虚 拟网卡设置在所述深度学习作业 容器对应的网络命名空间。 5.如权利要求4所述的基于RDMA设备的深度学习作业运行方法, 其特征在于, 所述在接 收到所述深度学习作业容器发送的作业运行信息时, 根据所述作业运行信息对所述深度学 习作业分配RDMA网卡设备资源以进行作业 运行的步骤, 具体包括: 在接收到所述深度 学习作业容器发送的作业运行信息时, 遍历所有RDMA网络硬件列表 以获取RDMA网卡设备信息; 在遍历到的RDMA网卡设备信息与所述作业运行信息匹配时, 停止遍历并将所述RDMA网 卡设备信息作为目标网卡设备信息; 根据所述目标网卡设备信 息及所述作业运行信 息获取环境变量参数, 并根据 所述环境 变量进行作业 运行。 6.如权利要求1所述的基于RDMA设备的深度学习作业运行方法, 其特征在于, 所述在接 收到所述深度学习作业容器发送的作业运行信息时, 根据所述作业运行信息对所述深度学 习作业分配RDMA网卡设备资源以进行作业 运行的步骤之后, 还 包括: 在接收到深度 学习作业容器发送的释放请求 时, 通过单根容器网络接口对所述深度 学 习作业容器进行虚拟网卡卸载。 7.如权利要求6所述的基于RDMA设备的深度学习作业运行方法, 其特征在于, 所述在接权 利 要 求 书 1/2 页 2 CN 114374609 A 2收到深度学习作业容器发送的释放请求时, 通过单根容器网络接口对所述深度学习作业容 器进行虚拟网卡卸载的步骤, 具体包括: 在接收到深度 学习作业容器发送的释放请求 时, 通过单根容器网络接口释放掉所述虚 拟网卡的IP地址、 子网掩码和网关配置, 将所述虚拟网卡的网络命名空间从所述深度学习 作业容器的网络命名空间还原为宿主机的网络命名空间, 并将所述虚拟网卡从所述深度学 习作业容器卸载, 并将所述虚拟网卡设备的当前状态由占用状态修改为空 闲状态。 8.一种基于RDMA设备的深度学习作业运行系统, 其特征在于, 所述系统包括: 一个主节 点及多个子节点; 其中, 所述子节点包括: 物理机, 用于对RDMA网卡设备进行虚拟化, 以生成多个虚拟网卡; 单根容器网络接口, 用于在接收到深度学习作业容器发送的网卡分配请求时, 将对应 的虚拟网卡 挂载至所述深度学习作业 容器; 所述物理机, 还用于在接收到所述深度学习作业容器发送的作业运行信息时, 根据所 述作业运行信息分配RDMA网卡设备资源并进行作业 运行。权 利 要 求 书 2/2 页 3 CN 114374609 A 3

.PDF文档 专利 基于RDMA设备的深度学习作业运行方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于RDMA设备的深度学习作业运行方法及系统 第 1 页 专利 基于RDMA设备的深度学习作业运行方法及系统 第 2 页 专利 基于RDMA设备的深度学习作业运行方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:21:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。