金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111461022.4 (22)申请日 2021.11.30 (71)申请人 深圳太力生物技 术有限责任公司 地址 518048 广东省深圳市福田区福保街 道福保社区海红道1号综合信兴一期 三层323-M号 (72)发明人 梁楚亨 张祥涛 陈亮 黄贺声  梁国龙  (74)专利代理 机构 武汉臻诚专利代理事务所 (普通合伙) 42233 代理人 胡星驰 (51)Int.Cl. G16B 40/00(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 20/00(2019.01) (54)发明名称 基于整合学习的培养基预测系统、 训练及培 养基预测方法 (57)摘要 本发明公开了一种基于整合学习的培养基 预测系统, 其特征在于, 包括特征输入模块、 细胞 株特征向量获取模块、 所述培养基成分特征向量 获取模块、 数据整合模块、 和特征提取及回归模 块。 通过本发 明所构思的以上技术方案与现有技 术相比, 由于该机器学习模型能够矢量化处理不 同细胞株的信息, 能够有效地提取蕴含在不同细 胞株的规律, 识别细胞株的相似度, 获得泛化能 力更强的模型。 权利要求书3页 说明书10页 附图4页 CN 114121163 A 2022.03.01 CN 114121163 A 1.一种基于整合学习的培养基预测系统, 其特征在于, 包括特征输入模块、 细胞株特征 向量获取模块、 所述培养基成分特征向量获取模块、 数据整合模块、 和特征提取及回归模 块; 所述特征输入模块, 用于将输入的关联有细胞株编号的培养基配方数据, 分别提取细 胞株编号和培养基配方数据, 并将所述细胞株编号输出到细胞株特征向量获取模块, 将所 述培养基配方数据输出到所述培 养基成分特 征向量获取模块; 所述细胞株特征向量获取模块, 用于将所述细胞株编号进行矢量化, 获得细胞株特征 向量, 形成细胞株特 征向量集合提交给所述数据整合模块; 所述培养基成分特征向量获取模块, 用于将所述培养基成分数据 预处理为培养基成分 特征向量, 形成培 养基成分特 征向量集合并提交给 数据整合模块; 所述数据整合模块, 用于将所述细胞株特征向量集合和培养基成分特征向量集合进行 整合获得输入特 征矩阵, 并将所述输入特 征矩阵提交给 特征提取回归 模块; 所述特征提取回归模块, 用于将所述输入特征矩阵采用深度学习神经网络进行特征映 射, 获得映射特 征进行回归计算, 输出细胞培 养效果向量。 2.如权利要求1所述的基于整合学习的培养基预测系统, 其特征在于, 所述细胞株特征 向量, 包括先验特征和/或计算特征; 所述先验特征, 即根据先验知识确定的所述细胞株编 号相应细胞株所具备 的特征; 所述计算特征, 为采用智能算法为特定编号细胞株赋予的预 设维度的向量 值, 优选采用带有embed ding层的神经网络层训练方法获取。 3.如权利要求2所述的基于整合学习的培养基预测系统, 其特征在于, 将细胞株编号矢 量化作为embedding层的权值, 所述embedding层的权值定义方法包括但不限于以下方法中 的一种或多种的组合: 其一: 采用编码方法将细 胞株编号进行编码作 为embeddin g层的权值; 所述编码方法包 括但不限于独热编码、 标签编码 其二: 采用细胞株先验特 征作为embed ding层的权值; 其三: 细胞株的系列 与类型特征的编码作为embed ding层的权值。 其四: embed ding层初始采用随机 权值, 采用端到端的方法训练embed ding层的权值。 4.如权利要求1所述的基于整合学习的培养基预测系统, 其特征在于, 所述数据整合模 块采用的数据整合方法, 包括矩阵拼接, 矩阵求和, 矩阵点积, 矩阵相乘; 优选采用 矩阵拼 接。 5.如权利要求1所述的基于整合学习的培养基预测系统, 其特征在于, 所述特征提取回 归模块采用的所述深度学习神经网络, 包括用于提取N维特征的N个顺序相连的特征提取 层; 所述每个特征提取层用于实现注意力机制特征提取, 优选包括一个或多个顺序连接的 多头注意力模块以及全连接模块; 所述多头注意力模块, 优选包括多个顺序连接的多头注 意力层, 提取 结果与输入进行 特征相加及标准 化作为多头注意力模块的输出。 6.如权利要求1所述的基于整合学习的培养基预测系统, 其特征在于, 所述细胞培养效 果包括培 养细胞的密度, 培 养细胞的活率, 以及培 养基细胞的蛋白表达量。 7.如权利要求1至6任意一项所述的整合学习的培养基预测系统的训练方法, 其特征在 于, 包括以下步骤: (1)获取针对不同细胞株获取总训练数据集;权 利 要 求 书 1/3 页 2 CN 114121163 A 2(2)模型训练: 采用步骤(1)获取的针对不同细胞株获取总训练数据集, 对细胞株特征 向量获取模块、 特征提取回归模块进 行联合训练, 使 得损失函数收敛, 获得经训练的细胞株 特征向量获取模块、 特 征提取回归 模块。 (3)对于步骤(2)获得的细胞株特征向量获取模块、 和特征提取回归模块对所有的细胞 株分别进行性能评价, 当对于所有种类的细胞株的预测性能满足要求时, 结束训练并将此 时的特征向量获取模块、 特征提取回归模块作为训练结果输出; 当目标细胞株训练结果不 满足预测性能时, 则增加相应细胞株的样 本配方数据, 重复步骤(1)至(3), 重新汇总训练数 据集训练测试模型并进行测试; 所述目标细胞株为所述基于整合学习的培养基预测系统所 涵盖的细胞株中的一个或多个。 8.如权利要求7所述的整合学习的培养基预测系统的训练方法, 其特征在于, 步骤(1) 优选包括以下子步骤: (1‑1)收集训练配方: 在细胞株相应的各成分的添加范围内进行采样, 得到涵盖多个的 细胞株训练配方形成样本配方数据库, 所述培养基配方关联有细胞株编号; 所述样本配方 数据库的样本总量在10 00到50000个; (1‑2)获得培 养指标数据: 对于步骤(1)中获得的样本配方数据库中存储的培养基样本配方, 按照优化目的进行 实验, 获得关联有细胞株特 征的培养基配方的培 养效果; (1‑3)组织总训练数据 集: 将步骤(1 ‑1)中获得的关联有细胞株编号的配方数据库与相 应培养效果数据组合进行 数据清洗后为总训练数据集; 步骤(2)采用的损失函数包括但不限于MSE均方误差(L2损失), MAE平均绝对误差(L1损 失), Huber损失, Log ‑Cosh损失; 优选MSE均方误差, 更优选损失函数可附带L1或L2正则化 项, 优选L2正则化; 步骤(2)具体优选为: 将总训练数据集的关联有细胞株编号的配方数据库预处理后输入到特征输入模块, 分 别提取细胞株编号和培养基配方数据, 并将所述细胞株编号输出到细胞株特征向量 获取模 块, 将所述培养集配方数据输出到所述培养基成分特征向量获取模块; 所述细胞株特征向 量获取模块对细胞株编号进行矢量化, 获得细胞株特征向量; 所述培养基成分特征向量获 取模块, 用于将所述培养基成分数据预处理为培养基成分特征向量; 细胞株特征向量和培 养基成分特征向量经过数据整合, 输入到特征提取回归模块进行特征映射, 获得映射特征 并进行回归计算, 根据回归计算输出 的培养效果预测 值与总训练数据集的培养效果值, 计 算损失值; 采用梯度下降法进行模型训练。 9.一种涵盖多类别细胞株的培养基预测方法, 其特征在于, 应用 如权利要求1至6任意 一项所述的基于整合学习的培 养基预测系统, 包括以下步骤: S1、 对于所述基于整合学习的培养基预测系统所涵盖的特定类别的细胞株, 在其相应 的待优化的培养基配方中的每一成分的添加比例空间内进行搜索获得待预测的关联有细 胞株编号的培 养基配方数据集合; S2、 将步骤S1获得的培养基配方数据集合及其相应的细胞类别编码输入到本发明提供 的基于整合学习的培 养基预测系统, 输出细胞培 养效果向量。 10.如权利要求9所述的涵盖多类别细胞株的培养基预测方法, 其特征在于, 步骤S1采权 利 要 求 书 2/3 页 3 CN 114121163 A 3

.PDF文档 专利 基于整合学习的培养基预测系统、训练及培养基预测方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于整合学习的培养基预测系统、训练及培养基预测方法 第 1 页 专利 基于整合学习的培养基预测系统、训练及培养基预测方法 第 2 页 专利 基于整合学习的培养基预测系统、训练及培养基预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:21:38上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。