(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111400540.5
(22)申请日 2021.11.23
(65)同一申请的已公布的文献号
申请公布号 CN 114067912 A
(43)申请公布日 2022.02.18
(73)专利权人 天津金匙医学 科技有限公司
地址 301799 天津市武清区武清开发区福
源道北侧创业总部 基地B21号楼 901室
(72)发明人 韩朋 饶冠华 高建鹏 陈方媛
蒋智
(74)专利代理 机构 北京知汇林知识产权代理事
务所(普通 合伙) 11794
专利代理师 董涛
(51)Int.Cl.
G16B 30/10(2019.01)G16B 30/20(2019.01)
G16B 50/00(2019.01)
G16B 40/00(2019.01)
G16H 70/40(2018.01)
G06N 20/00(2019.01)
(56)对比文件
US 20140 30712 A1,2014.01.3 0
CA 2950327 A1,2015.12.0 3
CN 113228194 A,2021.08.0 6
审查员 程呈
(54)发明名称
基于机器学习筛选细菌耐药表型相关重要
特征基因的方法
(57)摘要
本申请涉及一种基于机器学习技术筛选细
菌耐药表型相关重要特征基因的方法, 该方法针
对细菌抗生素耐药表型, 基于BGWAS思想搜集公
共平台上目标细菌基因组或者现行收集测序组
装后得到的大样本量菌株基因组数据及其对应
的抗生素药物药敏测试结果, 使用机器学习方法
进行基因型与耐药表型两者间关联分析, 以筛选
出与耐药表型相关的重要特征基因(非核心耐药
基因), 同时得到重要特征基因的权重系数, 最后
使用ROC分析确定各 药物相关耐药基因可靠性。
权利要求书2页 说明书12页 附图3页
CN 114067912 B
2022.06.17
CN 114067912 B
1.一种基于机器学习筛选细菌耐药表型相关重要特征基因的方法, 其特征在于, 所述
方法包括如下步骤:
步骤1)获取目标细菌 菌株基因组数据, 同时收集对应药 敏测试结果数据;
步骤2)基于细菌基因 组contig序列进行耐药 数据库比对注释;
步骤3)针对目标药物, 进行基因型与耐药表型数据关联分析, 筛选与耐药产生相关的
重要特征基因, 并计算重要特 征基因权 重系数;
所述重要特 征基因为非核心耐药基因;
所述步骤3)中所述关联分析采用拉索回归模型进行关联分析: 以基因检出分布矩阵和
药物药敏测试结果矩阵作为输入, 进 行基因型和耐药表型数据的关联分析, 并做k重交叉验
证, 筛选得到与耐药表型相关的重要特 征基因, 并得到 重要特征基因的权 重系数。
2.根据权利要求1所述的方法, 其特 征在于, 还 包括:
步骤4)ROC分析评估基于 筛选出的重要特 征基因预测药 敏结果的模型性能。
3.根据权利 要求2所述的方法, 其特征在于, 所述ROC分析如下: 基于步骤3)得到的重要
特征基因权重系数的矩阵, 定义并计算Score值, 并以此作为阴阳性判读指标, 绘制ROC曲线
以及确定cut off值, 用验证集样本进行验证和评估模型性能; 所述
其中arg_Wi表示检出相应 基因的权 重系数值。
4.根据权利要求1 ‑3任一所述的方法, 其特征在于, 所述步骤3)中拉索回归模型进行关
联分析具体为: 以基因检出分布矩阵和药物药敏测试结果矩阵作为输入, 使用glmnet程序
包进行基因型和耐药表型数据的关联分析, 并做k重交叉验证, 所述k=5~15, 筛选得到与
耐药表型相关的重要特 征基因, 并得到 重要特征基因的权 重系数。
5.根据权利要求4所述的方法, 其特征在于, 所述重要特征基因筛选为: 根据不同个数
特征基因下的模型CV错误率、 AUC变化曲线, 选择在CV错误率最低且此时模型AUC值相对稳
定处所对应数目的基因为重要特 征基因。
6.根据权利要求4所述的方法, 其特征在于, 所述步骤3)进一步可包括人工召回, 所述
人工召回为: 对与耐药表型PPV较高的基因进 行人工召回, 并基于以上得到的重要 特征基因
其权重系数值计算得到召回基因的权 重系数。
7.根据权利要求1 ‑3任一所述的方法, 其特征在于, 所述步骤2)中所述比对注释为: 将
contig序列与CARD耐药基因参考序列库进行比对, 过滤掉identity和覆盖度低的hit, 将每
条contig比对 上的区域选择best hit作为该contig区域的最终比对结果, 并添加耐药基因
的注释信息 。
8.根据权利要求7所述的方法, 其特征在于, 所述过滤为: 过滤掉identity小于90%或
参比基因覆盖度小于90%的hit。
9.根据权利要求1 ‑3任一所述的方法, 其特征在于, 所述步骤1)中所述菌株基因组个数
>=100, 菌株来源涵盖各种亚型, 耐药株与敏感株的菌株数目比例均衡。
10.根据权利要求9所述的方法, 其特征在于, 所述获取是从公共数据库搜索下载已发
表的目标基因 组序列, 或者 通过现行收集临床培 养鉴定出的细菌 菌株进行测序组装获得。
11.根据权利要求10所述的方法, 其特征在于, 所述从公共数据库搜索下载为: 从NCBI
NDARO数据库和PATRIC数据库平台搜集记录有药敏测试结果的细菌菌株信息, 整理表型数权 利 要 求 书 1/2 页
2
CN 114067912 B
2据, 并根据基因组组装id号从ncbi genome数据库或根据PATRIC id从PATRIC 数据库批量下
载基因组数据。
12.根据权利要求1 ‑3任一所述方法, 其特 征在于,
所述细菌包括但不限于大肠埃希式菌、 肺炎克雷伯式菌、 鲍曼不动杆菌、 铜绿假单胞
菌、 阴沟肠杆菌复合群、 金黄 色葡萄球菌、 屎肠球菌、 粪肠球菌、 肺炎链球菌、 化脓性链球菌、
流感嗜血 杆菌、 表皮葡萄球菌;
所述耐药表型包括但不限于耐受碳青霉烯类、 头孢菌素类、 青霉素类、 β 内酰胺类抗生
素抑制剂、 氨基糖苷类、 磺胺类、 四环素类、 喹诺酮 类、 糖肽类、 恶唑烷酮类、 多粘菌素药物的
表型。权 利 要 求 书 2/2 页
3
CN 114067912 B
3
专利 基于机器学习筛选细菌耐药表型相关重要特征基因的方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:21:45上传分享