金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111475238.6 (22)申请日 2021.12.04 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 余剑威 田晋川  (74)专利代理 机构 北京三高永信知识产权代理 有限责任公司 1 1138 专利代理师 李文静 (51)Int.Cl. G10L 15/26(2006.01) G06F 16/33(2019.01) G06F 16/683(2019.01) G06N 20/00(2019.01) (54)发明名称 音频识别方法、 装置、 计算机设备及存储介 质 (57)摘要 本申请实施例公开了一种音 频识别方法、 装 置、 计算机设备及存储介质, 属于计算机技术领 域。 该方法包括: 对目标音频数据进行识别, 得到 多个文本数据中的每个文本数据的第一关联特 征; 对于每个文本数据, 基于该文本数据的第一 关联特征和其他文本数据的第一 关联特征, 确定 该文本数据的第一融合特征, 第一融合特征与该 文本数据的第一关联特征正相关, 且与每个文本 数据的第一 关联特征之和负相关; 基于每个文本 数据的第一融合特征, 在多个文本数据中确定与 目标音频数据匹配的目标文本数据。 由于考虑的 因素较多, 因此基于第一融合特征, 确定与目标 音频数据匹配的目标文本数据, 能够提高音 频识 别的准确性。 权利要求书6页 说明书35页 附图9页 CN 114495938 A 2022.05.13 CN 114495938 A 1.一种音频识别方法, 其特 征在于, 所述方法包括: 对目标音频数据进行识别, 得到多个文本数据中的每个所述文本数据的第一关联特 征, 所述第一关联 特征表示所述文本数据与所述目标音频 数据之间的关联程度; 对于每个所述文本数据, 基于所述文本数据的第 一关联特征和其他文本数据的第 一关 联特征, 确定所述文本数据的第一融合特征, 所述第一融合特征与所述文本数据的第一关 联特征正相关, 且与每 个所述文本数据的第一关联 特征之和负相关; 基于每个所述文本数据的第 一融合特征, 在多个所述文本数据中确定与所述目标音频 数据匹配的目标文本数据。 2.根据权利要求1所述的方法, 其特征在于, 所述对目标音频数据进行识别, 得到多个 文本数据中的每 个所述文本数据的第一关联 特征, 包括: 对所述目标音频数据进行识别, 得到每个所述文本数据的第 一关联特征和第 二关联特 征, 所述第二关联 特征表示由所述目标音频 数据识别到所述文本数据的可能性; 所述基于每个所述文本数据的第 一融合特征, 在多个所述文本数据中确定与 所述目标 音频数据匹配的目标文本数据, 包括: 对每个所述文本数据的所述第 一融合特征和所述第 二关联特征进行加权 融合, 得到每 个所述文本数据的融合分值; 在多个所述文本数据中, 将对应的融合分值最大的文本数据确定为所述目标文本数 据。 3.根据权利要求1所述的方法, 其特征在于, 所述对目标音频数据进行识别, 得到多个 文本数据中的每 个所述文本数据的第一关联 特征, 包括: 对所述目标音频数据进行识别, 得到每个所述文本数据的第 一关联特征和第 三关联特 征, 所述第三关联特征表示由所述目标音频数据中的多个音频帧识别到所述文本数据中的 多个字符的可能性; 所述基于每个所述文本数据的第 一融合特征, 在多个所述文本数据中确定与 所述目标 音频数据匹配的目标文本数据, 包括: 对每个所述文本数据的所述第 一融合特征和所述第 三关联特征进行加权 融合, 得到每 个所述文本数据的融合分值; 在多个所述文本数据中, 将对应的融合分值最大的文本数据确定为所述目标文本数 据。 4.根据权利要求1所述的方法, 其特征在于, 所述目标音频数据包括n个音频帧, n为大 于1的正整数, 每 个所述文本数据中包括多个字符, 所述方法还 包括: 对所述目标音频数据中的n个音频帧进行识别, 得到多个第一文本片段以及每个所述 第一文本片段中的每个字符的字符分值, 所述字符分值表示由所述n个音频帧识别到所述 字符的可能性; 对于每个所述第一文本片段, 基于所述第一文本片段, 对所述n个音频帧进行识别, 得 到多个第二文本片段和每个所述第二文本片段中的最后一个字符的字符分值, 每个所述第 二文本片段包括所述第一文本片段和所述最后一个字符, 所述字符分值表示在由所述n个 音频帧识别到所述第一文本片段的情况下识别到所述最后一个字符的可能性, 直至得到的 多个文本片段的最后一个字符中字符分值最高的为结尾字符, 所述结尾字符指示所述文本权 利 要 求 书 1/6 页 2 CN 114495938 A 2数据的结尾; 将识别到的多个文本片段分别确定为所述文本数据, 并基于每个所述文本数据中每个 字符的字符分值, 确定每个所述文本数据的文本分值, 所述文本分值与每个所述字符的字 符分值正相关; 所述基于每个所述文本数据的第 一融合特征, 在多个所述文本数据中确定与 所述目标 音频数据匹配的目标文本数据, 包括: 基于每个所述文本数据的所述第 一融合特征和所述文本分值, 在多个所述文本数据中 确定所述目标文本数据。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述第 一文本片段, 对所述n个音 频帧进行识别, 得到多个第二文本片段和每个所述第二文本片段中的最后一个字符的字符 分值, 包括: 基于所述第一文本片段, 对所述n个音频帧进行识别, 得到多个所述第二文本片段、 每 个所述第二文本片段对应的第一分值以及第二分值, 其中, 所述第一分值表示由所述n个音 频帧识别到所述第二文本片段的可能性, 所述第二分值表示由所述n个音频帧识别到所述 第一文本片段的情况 下未识别到新的字符的可能性; 将每个所述第 二文本片段对应的第 一分值与所述第 二分值之间的差值, 确定为每个所 述第二文本片段中最后一个字符的字符分值。 6.根据权利要求5所述的方法, 其特征在于, 所述基于所述第 一文本片段, 对所述n个音 频帧进行识别, 得到多个所述第二文本片段、 每个所述第二文本片段对应的第一分值以及 第二分值, 包括: 基于所述第 一文本片段, 对所述n个音频帧进行识别, 得到多个预设文本片段中的每个 预设文本片段的n个关联子特征, 所述预设文本片段对应的第p个关联子特征表示所述预设 文本片段与前p个音 频帧之间的关联程度, 所述p为不大于n的正整 数, 多个所述预设文本片 段中包括多个所述第二文本片段和所述第一文本片段; 对于每个所述第 二文本片段, 基于所述第二文本片段的n个关联子特征, 以及除了所述 第二文本片段之外的预设文本片段的n个关联子特征, 确定所述第二文本片段对应的第一 分值; 基于所述第一文本片段的n个关联子特征, 以及除了所述第一文本片段之外的预设文 本片段的n个关联子特 征, 确定所述第二分值。 7.根据权利要求6所述的方法, 其特征在于, 所述基于所述第二文本片段的n个关联子 特征, 以及除了所述第二文本片段之外的预设文本片段的n个关联子特征, 确定所述第二文 本片段对应的第一分值, 包括: 基于所述第二文本片段的n个关联子特征, 以及除了所述第二文本片段之外的预设文 本片段的n个关联子特征, 确定n个关联分值, 其中, 第p个关联分值与所述第二文本片段的 第p个关联子特 征正相关, 且与每 个所述预设文本片段的第p个关联子特 征之和负相关; 基于n个关联分值, 确定所述第二文本片段对应的第一分值, 所述第一分值与所述n个 关联分值 正相关。 8.根据权利要求1所述的方法, 其特征在于, 所述目标音频数据包括n个音频帧, n为大 于1的正整数, 每 个所述文本数据中包括多个字符, 所述方法还 包括:权 利 要 求 书 2/6 页 3 CN 114495938 A 3

.PDF文档 专利 音频识别方法、装置、计算机设备及存储介质

文档预览
中文文档 51 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共51页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 音频识别方法、装置、计算机设备及存储介质 第 1 页 专利 音频识别方法、装置、计算机设备及存储介质 第 2 页 专利 音频识别方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:23:05上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。