金融行业标准网
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111400540.5 (22)申请日 2021.11.23 (65)同一申请的已公布的文献号 申请公布号 CN 114067912 A (43)申请公布日 2022.02.18 (73)专利权人 天津金匙医学 科技有限公司 地址 301799 天津市武清区武清开发区福 源道北侧创业总部 基地B21号楼 901室 (72)发明人 韩朋 饶冠华 高建鹏 陈方媛  蒋智  (74)专利代理 机构 北京知汇林知识产权代理事 务所(普通 合伙) 11794 专利代理师 董涛 (51)Int.Cl. G16B 30/10(2019.01)G16B 30/20(2019.01) G16B 50/00(2019.01) G16B 40/00(2019.01) G16H 70/40(2018.01) G06N 20/00(2019.01) (56)对比文件 US 20140 30712 A1,2014.01.3 0 CA 2950327 A1,2015.12.0 3 CN 113228194 A,2021.08.0 6 审查员 程呈 (54)发明名称 基于机器学习筛选细菌耐药表型相关重要 特征基因的方法 (57)摘要 本申请涉及一种基于机器学习技术筛选细 菌耐药表型相关重要特征基因的方法, 该方法针 对细菌抗生素耐药表型, 基于BGWAS思想搜集公 共平台上目标细菌基因组或者现行收集测序组 装后得到的大样本量菌株基因组数据及其对应 的抗生素药物药敏测试结果, 使用机器学习方法 进行基因型与耐药表型两者间关联分析, 以筛选 出与耐药表型相关的重要特征基因(非核心耐药 基因), 同时得到重要特征基因的权重系数, 最后 使用ROC分析确定各 药物相关耐药基因可靠性。 权利要求书2页 说明书12页 附图3页 CN 114067912 B 2022.06.17 CN 114067912 B 1.一种基于机器学习筛选细菌耐药表型相关重要特征基因的方法, 其特征在于, 所述 方法包括如下步骤: 步骤1)获取目标细菌 菌株基因组数据, 同时收集对应药 敏测试结果数据; 步骤2)基于细菌基因 组contig序列进行耐药 数据库比对注释; 步骤3)针对目标药物, 进行基因型与耐药表型数据关联分析, 筛选与耐药产生相关的 重要特征基因, 并计算重要特 征基因权 重系数; 所述重要特 征基因为非核心耐药基因; 所述步骤3)中所述关联分析采用拉索回归模型进行关联分析: 以基因检出分布矩阵和 药物药敏测试结果矩阵作为输入, 进 行基因型和耐药表型数据的关联分析, 并做k重交叉验 证, 筛选得到与耐药表型相关的重要特 征基因, 并得到 重要特征基因的权 重系数。 2.根据权利要求1所述的方法, 其特 征在于, 还 包括: 步骤4)ROC分析评估基于 筛选出的重要特 征基因预测药 敏结果的模型性能。 3.根据权利 要求2所述的方法, 其特征在于, 所述ROC分析如下: 基于步骤3)得到的重要 特征基因权重系数的矩阵, 定义并计算Score值, 并以此作为阴阳性判读指标, 绘制ROC曲线 以及确定cut  off值, 用验证集样本进行验证和评估模型性能; 所述 其中arg_Wi表示检出相应 基因的权 重系数值。 4.根据权利要求1 ‑3任一所述的方法, 其特征在于, 所述步骤3)中拉索回归模型进行关 联分析具体为: 以基因检出分布矩阵和药物药敏测试结果矩阵作为输入, 使用glmnet程序 包进行基因型和耐药表型数据的关联分析, 并做k重交叉验证, 所述k=5~15, 筛选得到与 耐药表型相关的重要特 征基因, 并得到 重要特征基因的权 重系数。 5.根据权利要求4所述的方法, 其特征在于, 所述重要特征基因筛选为: 根据不同个数 特征基因下的模型CV错误率、 AUC变化曲线, 选择在CV错误率最低且此时模型AUC值相对稳 定处所对应数目的基因为重要特 征基因。 6.根据权利要求4所述的方法, 其特征在于, 所述步骤3)进一步可包括人工召回, 所述 人工召回为: 对与耐药表型PPV较高的基因进 行人工召回, 并基于以上得到的重要 特征基因 其权重系数值计算得到召回基因的权 重系数。 7.根据权利要求1 ‑3任一所述的方法, 其特征在于, 所述步骤2)中所述比对注释为: 将 contig序列与CARD耐药基因参考序列库进行比对, 过滤掉identity和覆盖度低的hit, 将每 条contig比对 上的区域选择best  hit作为该contig区域的最终比对结果, 并添加耐药基因 的注释信息 。 8.根据权利要求7所述的方法, 其特征在于, 所述过滤为: 过滤掉identity小于90%或 参比基因覆盖度小于90%的hit。 9.根据权利要求1 ‑3任一所述的方法, 其特征在于, 所述步骤1)中所述菌株基因组个数 >=100, 菌株来源涵盖各种亚型, 耐药株与敏感株的菌株数目比例均衡。 10.根据权利要求9所述的方法, 其特征在于, 所述获取是从公共数据库搜索下载已发 表的目标基因 组序列, 或者 通过现行收集临床培 养鉴定出的细菌 菌株进行测序组装获得。 11.根据权利要求10所述的方法, 其特征在于, 所述从公共数据库搜索下载为: 从NCBI   NDARO数据库和PATRIC数据库平台搜集记录有药敏测试结果的细菌菌株信息, 整理表型数权 利 要 求 书 1/2 页 2 CN 114067912 B 2据, 并根据基因组组装id号从ncbi  genome数据库或根据PATRIC  id从PATRIC 数据库批量下 载基因组数据。 12.根据权利要求1 ‑3任一所述方法, 其特 征在于, 所述细菌包括但不限于大肠埃希式菌、 肺炎克雷伯式菌、 鲍曼不动杆菌、 铜绿假单胞 菌、 阴沟肠杆菌复合群、 金黄 色葡萄球菌、 屎肠球菌、 粪肠球菌、 肺炎链球菌、 化脓性链球菌、 流感嗜血 杆菌、 表皮葡萄球菌; 所述耐药表型包括但不限于耐受碳青霉烯类、 头孢菌素类、 青霉素类、 β 内酰胺类抗生 素抑制剂、 氨基糖苷类、 磺胺类、 四环素类、 喹诺酮 类、 糖肽类、 恶唑烷酮类、 多粘菌素药物的 表型。权 利 要 求 书 2/2 页 3 CN 114067912 B 3

.PDF文档 专利 基于机器学习筛选细菌耐药表型相关重要特征基因的方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于机器学习筛选细菌耐药表型相关重要特征基因的方法 第 1 页 专利 基于机器学习筛选细菌耐药表型相关重要特征基因的方法 第 2 页 专利 基于机器学习筛选细菌耐药表型相关重要特征基因的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:21:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。