金融行业标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111475238.6 (22)申请日 2021.12.04 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 余剑威 田晋川 (74)专利代理 机构 北京三高永信知识产权代理 有限责任公司 1 1138 专利代理师 李文静 (51)Int.Cl. G10L 15/26(2006.01) G06F 16/33(2019.01) G06F 16/683(2019.01) G06N 20/00(2019.01) (54)发明名称 音频识别方法、 装置、 计算机设备及存储介 质 (57)摘要 本申请实施例公开了一种音 频识别方法、 装 置、 计算机设备及存储介质, 属于计算机技术领 域。 该方法包括: 对目标音频数据进行识别, 得到 多个文本数据中的每个文本数据的第一关联特 征; 对于每个文本数据, 基于该文本数据的第一 关联特征和其他文本数据的第一 关联特征, 确定 该文本数据的第一融合特征, 第一融合特征与该 文本数据的第一关联特征正相关, 且与每个文本 数据的第一 关联特征之和负相关; 基于每个文本 数据的第一融合特征, 在多个文本数据中确定与 目标音频数据匹配的目标文本数据。 由于考虑的 因素较多, 因此基于第一融合特征, 确定与目标 音频数据匹配的目标文本数据, 能够提高音 频识 别的准确性。 权利要求书6页 说明书35页 附图9页 CN 114495938 A 2022.05.13 CN 114495938 A 1.一种音频识别方法, 其特 征在于, 所述方法包括: 对目标音频数据进行识别, 得到多个文本数据中的每个所述文本数据的第一关联特 征, 所述第一关联 特征表示所述文本数据与所述目标音频 数据之间的关联程度; 对于每个所述文本数据, 基于所述文本数据的第 一关联特征和其他文本数据的第 一关 联特征, 确定所述文本数据的第一融合特征, 所述第一融合特征与所述文本数据的第一关 联特征正相关, 且与每 个所述文本数据的第一关联 特征之和负相关; 基于每个所述文本数据的第 一融合特征, 在多个所述文本数据中确定与所述目标音频 数据匹配的目标文本数据。 2.根据权利要求1所述的方法, 其特征在于, 所述对目标音频数据进行识别, 得到多个 文本数据中的每 个所述文本数据的第一关联 特征, 包括: 对所述目标音频数据进行识别, 得到每个所述文本数据的第 一关联特征和第 二关联特 征, 所述第二关联 特征表示由所述目标音频 数据识别到所述文本数据的可能性; 所述基于每个所述文本数据的第 一融合特征, 在多个所述文本数据中确定与 所述目标 音频数据匹配的目标文本数据, 包括: 对每个所述文本数据的所述第 一融合特征和所述第 二关联特征进行加权 融合, 得到每 个所述文本数据的融合分值; 在多个所述文本数据中, 将对应的融合分值最大的文本数据确定为所述目标文本数 据。 3.根据权利要求1所述的方法, 其特征在于, 所述对目标音频数据进行识别, 得到多个 文本数据中的每 个所述文本数据的第一关联 特征, 包括: 对所述目标音频数据进行识别, 得到每个所述文本数据的第 一关联特征和第 三关联特 征, 所述第三关联特征表示由所述目标音频数据中的多个音频帧识别到所述文本数据中的 多个字符的可能性; 所述基于每个所述文本数据的第 一融合特征, 在多个所述文本数据中确定与 所述目标 音频数据匹配的目标文本数据, 包括: 对每个所述文本数据的所述第 一融合特征和所述第 三关联特征进行加权 融合, 得到每 个所述文本数据的融合分值; 在多个所述文本数据中, 将对应的融合分值最大的文本数据确定为所述目标文本数 据。 4.根据权利要求1所述的方法, 其特征在于, 所述目标音频数据包括n个音频帧, n为大 于1的正整数, 每 个所述文本数据中包括多个字符, 所述方法还 包括: 对所述目标音频数据中的n个音频帧进行识别, 得到多个第一文本片段以及每个所述 第一文本片段中的每个字符的字符分值, 所述字符分值表示由所述n个音频帧识别到所述 字符的可能性; 对于每个所述第一文本片段, 基于所述第一文本片段, 对所述n个音频帧进行识别, 得 到多个第二文本片段和每个所述第二文本片段中的最后一个字符的字符分值, 每个所述第 二文本片段包括所述第一文本片段和所述最后一个字符, 所述字符分值表示在由所述n个 音频帧识别到所述第一文本片段的情况下识别到所述最后一个字符的可能性, 直至得到的 多个文本片段的最后一个字符中字符分值最高的为结尾字符, 所述结尾字符指示所述文本权 利 要 求 书 1/6 页 2 CN 114495938 A 2数据的结尾; 将识别到的多个文本片段分别确定为所述文本数据, 并基于每个所述文本数据中每个 字符的字符分值, 确定每个所述文本数据的文本分值, 所述文本分值与每个所述字符的字 符分值正相关; 所述基于每个所述文本数据的第 一融合特征, 在多个所述文本数据中确定与 所述目标 音频数据匹配的目标文本数据, 包括: 基于每个所述文本数据的所述第 一融合特征和所述文本分值, 在多个所述文本数据中 确定所述目标文本数据。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述第 一文本片段, 对所述n个音 频帧进行识别, 得到多个第二文本片段和每个所述第二文本片段中的最后一个字符的字符 分值, 包括: 基于所述第一文本片段, 对所述n个音频帧进行识别, 得到多个所述第二文本片段、 每 个所述第二文本片段对应的第一分值以及第二分值, 其中, 所述第一分值表示由所述n个音 频帧识别到所述第二文本片段的可能性, 所述第二分值表示由所述n个音频帧识别到所述 第一文本片段的情况 下未识别到新的字符的可能性; 将每个所述第 二文本片段对应的第 一分值与所述第 二分值之间的差值, 确定为每个所 述第二文本片段中最后一个字符的字符分值。 6.根据权利要求5所述的方法, 其特征在于, 所述基于所述第 一文本片段, 对所述n个音 频帧进行识别, 得到多个所述第二文本片段、 每个所述第二文本片段对应的第一分值以及 第二分值, 包括: 基于所述第 一文本片段, 对所述n个音频帧进行识别, 得到多个预设文本片段中的每个 预设文本片段的n个关联子特征, 所述预设文本片段对应的第p个关联子特征表示所述预设 文本片段与前p个音 频帧之间的关联程度, 所述p为不大于n的正整 数, 多个所述预设文本片 段中包括多个所述第二文本片段和所述第一文本片段; 对于每个所述第 二文本片段, 基于所述第二文本片段的n个关联子特征, 以及除了所述 第二文本片段之外的预设文本片段的n个关联子特征, 确定所述第二文本片段对应的第一 分值; 基于所述第一文本片段的n个关联子特征, 以及除了所述第一文本片段之外的预设文 本片段的n个关联子特 征, 确定所述第二分值。 7.根据权利要求6所述的方法, 其特征在于, 所述基于所述第二文本片段的n个关联子 特征, 以及除了所述第二文本片段之外的预设文本片段的n个关联子特征, 确定所述第二文 本片段对应的第一分值, 包括: 基于所述第二文本片段的n个关联子特征, 以及除了所述第二文本片段之外的预设文 本片段的n个关联子特征, 确定n个关联分值, 其中, 第p个关联分值与所述第二文本片段的 第p个关联子特 征正相关, 且与每 个所述预设文本片段的第p个关联子特 征之和负相关; 基于n个关联分值, 确定所述第二文本片段对应的第一分值, 所述第一分值与所述n个 关联分值 正相关。 8.根据权利要求1所述的方法, 其特征在于, 所述目标音频数据包括n个音频帧, n为大 于1的正整数, 每 个所述文本数据中包括多个字符, 所述方法还 包括:权 利 要 求 书 2/6 页 3 CN 114495938 A 3
专利 音频识别方法、装置、计算机设备及存储介质
文档预览
中文文档
51 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共51页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-19 01:23:05
上传分享
举报
下载
原文档
(1.9 MB)
分享
友情链接
HJ 1049-2019 水质 4种硝基酚类化合物的测定 液相色谱-三重四极杆质谱法.pdf
GB-T 22264.2-2022 安装式数字显示电测量仪表 第2部分:电流表和电压表的特殊要求.pdf
GB-T 37973-2019 信息安全技术 大数据安全管理指南 .pdf
SL-T 813-2021 规划水资源论证技术导则.pdf
Q-GDW 12108-2021 电力物联网全场景安全技术要求.pdf
GB-T 43048-2023 智慧城市 城市运行指标体系 总体框架.pdf
DB51-T 2868-2022 机关事务应急保障规范 四川省.pdf
奇安信 2020年Android平台恶意样本整体态势分析报告.pdf
GB-T 15843.3-2016 信息技术 安全技术 实体鉴别 第3部分:采用数字签名技术的机制.pdf
GB-T 43269-2023 信息安全技术 网络安全应急能力评估准则.pdf
GB-T 5375-2006 摩托车和轻便摩托车型号编制方法.pdf
数据安全及备份恢复测评指导书-三级V1.0.doc
GM-T 0017-2012 智能密码钥匙密码应用接口数据格式规范.pdf
GB-T 20491-2017 用于水泥和混凝土中的钢渣粉.pdf
GB-T 15852.1-2020 信息技术 安全技术 消息鉴别码 第1部分:采用分组密码的机制.pdf
DB3306-T 046-2022 城镇燃气管理平台数字化建设规范 绍兴市.pdf
T-GDNAS 003—2022 ECMO导管维护技术规范.pdf
YD-T 4024-2022 数据中心液冷服务器系统总体技术要求和测试方法.pdf
GB-T 42760-2023 智慧城市 感知终端应用指南.pdf
DB65-T 4536.5—2022 电子政务外网建设规范第5部分:网络安全实施指南 新疆维吾尔自治区.pdf
1
/
3
51
评价文档
赞助2.5元 点击下载(1.9 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。