专利 音频识别方法、装置、计算机设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111475238.6 (22)申请日 2021.12.04 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人余剑威　田晋川　 (74)专利代理机构北京三高永信知识产权代理有限责任公司 1 1138 专利代理师李文静 (51)Int.Cl. G10L 15/26(2006.01) G06F 16/33(2019.01) G06F 16/683(2019.01) G06N 20/00(2019.01) (54)发明名称音频识别方法、装置、计算机设备及存储介质 (57)摘要本申请实施例公开了一种音频识别方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：对目标音频数据进行识别，得到多个文本数据中的每个文本数据的第一关联特征；对于每个文本数据，基于该文本数据的第一关联特征和其他文本数据的第一关联特征，确定该文本数据的第一融合特征，第一融合特征与该文本数据的第一关联特征正相关，且与每个文本数据的第一关联特征之和负相关；基于每个文本数据的第一融合特征，在多个文本数据中确定与目标音频数据匹配的目标文本数据。由于考虑的因素较多，因此基于第一融合特征，确定与目标音频数据匹配的目标文本数据，能够提高音频识别的准确性。权利要求书6页说明书35页附图9页 CN 114495938 A 2022.05.13 CN 114495938 A 1.一种音频识别方法，其特征在于，所述方法包括：对目标音频数据进行识别，得到多个文本数据中的每个所述文本数据的第一关联特征，所述第一关联特征表示所述文本数据与所述目标音频数据之间的关联程度；对于每个所述文本数据，基于所述文本数据的第一关联特征和其他文本数据的第一关联特征，确定所述文本数据的第一融合特征，所述第一融合特征与所述文本数据的第一关联特征正相关，且与每个所述文本数据的第一关联特征之和负相关；基于每个所述文本数据的第一融合特征，在多个所述文本数据中确定与所述目标音频数据匹配的目标文本数据。 2.根据权利要求1所述的方法，其特征在于，所述对目标音频数据进行识别，得到多个文本数据中的每个所述文本数据的第一关联特征，包括：对所述目标音频数据进行识别，得到每个所述文本数据的第一关联特征和第二关联特征，所述第二关联特征表示由所述目标音频数据识别到所述文本数据的可能性；所述基于每个所述文本数据的第一融合特征，在多个所述文本数据中确定与所述目标音频数据匹配的目标文本数据，包括：对每个所述文本数据的所述第一融合特征和所述第二关联特征进行加权融合，得到每个所述文本数据的融合分值；在多个所述文本数据中，将对应的融合分值最大的文本数据确定为所述目标文本数据。 3.根据权利要求1所述的方法，其特征在于，所述对目标音频数据进行识别，得到多个文本数据中的每个所述文本数据的第一关联特征，包括：对所述目标音频数据进行识别，得到每个所述文本数据的第一关联特征和第三关联特征，所述第三关联特征表示由所述目标音频数据中的多个音频帧识别到所述文本数据中的多个字符的可能性；所述基于每个所述文本数据的第一融合特征，在多个所述文本数据中确定与所述目标音频数据匹配的目标文本数据，包括：对每个所述文本数据的所述第一融合特征和所述第三关联特征进行加权融合，得到每个所述文本数据的融合分值；在多个所述文本数据中，将对应的融合分值最大的文本数据确定为所述目标文本数据。 4.根据权利要求1所述的方法，其特征在于，所述目标音频数据包括n个音频帧， n为大于1的正整数，每个所述文本数据中包括多个字符，所述方法还包括：对所述目标音频数据中的n个音频帧进行识别，得到多个第一文本片段以及每个所述第一文本片段中的每个字符的字符分值，所述字符分值表示由所述n个音频帧识别到所述字符的可能性；对于每个所述第一文本片段，基于所述第一文本片段，对所述n个音频帧进行识别，得到多个第二文本片段和每个所述第二文本片段中的最后一个字符的字符分值，每个所述第二文本片段包括所述第一文本片段和所述最后一个字符，所述字符分值表示在由所述n个音频帧识别到所述第一文本片段的情况下识别到所述最后一个字符的可能性，直至得到的多个文本片段的最后一个字符中字符分值最高的为结尾字符，所述结尾字符指示所述文本权　利　要　求　书 1/6 页 2 CN 114495938 A 2数据的结尾；将识别到的多个文本片段分别确定为所述文本数据，并基于每个所述文本数据中每个字符的字符分值，确定每个所述文本数据的文本分值，所述文本分值与每个所述字符的字符分值正相关；所述基于每个所述文本数据的第一融合特征，在多个所述文本数据中确定与所述目标音频数据匹配的目标文本数据，包括：基于每个所述文本数据的所述第一融合特征和所述文本分值，在多个所述文本数据中确定所述目标文本数据。 5.根据权利要求4所述的方法，其特征在于，所述基于所述第一文本片段，对所述n个音频帧进行识别，得到多个第二文本片段和每个所述第二文本片段中的最后一个字符的字符分值，包括：基于所述第一文本片段，对所述n个音频帧进行识别，得到多个所述第二文本片段、每个所述第二文本片段对应的第一分值以及第二分值，其中，所述第一分值表示由所述n个音频帧识别到所述第二文本片段的可能性，所述第二分值表示由所述n个音频帧识别到所述第一文本片段的情况下未识别到新的字符的可能性；将每个所述第二文本片段对应的第一分值与所述第二分值之间的差值，确定为每个所述第二文本片段中最后一个字符的字符分值。 6.根据权利要求5所述的方法，其特征在于，所述基于所述第一文本片段，对所述n个音频帧进行识别，得到多个所述第二文本片段、每个所述第二文本片段对应的第一分值以及第二分值，包括：基于所述第一文本片段，对所述n个音频帧进行识别，得到多个预设文本片段中的每个预设文本片段的n个关联子特征，所述预设文本片段对应的第p个关联子特征表示所述预设文本片段与前p个音频帧之间的关联程度，所述p为不大于n的正整数，多个所述预设文本片段中包括多个所述第二文本片段和所述第一文本片段；对于每个所述第二文本片段，基于所述第二文本片段的n个关联子特征，以及除了所述第二文本片段之外的预设文本片段的n个关联子特征，确定所述第二文本片段对应的第一分值；基于所述第一文本片段的n个关联子特征，以及除了所述第一文本片段之外的预设文本片段的n个关联子特征，确定所述第二分值。 7.根据权利要求6所述的方法，其特征在于，所述基于所述第二文本片段的n个关联子特征，以及除了所述第二文本片段之外的预设文本片段的n个关联子特征，确定所述第二文本片段对应的第一分值，包括：基于所述第二文本片段的n个关联子特征，以及除了所述第二文本片段之外的预设文本片段的n个关联子特征，确定n个关联分值，其中，第p个关联分值与所述第二文本片段的第p个关联子特征正相关，且与每个所述预设文本片段的第p个关联子特征之和负相关；基于n个关联分值，确定所述第二文本片段对应的第一分值，所述第一分值与所述n个关联分值正相关。 8.根据权利要求1所述的方法，其特征在于，所述目标音频数据包括n个音频帧， n为大于1的正整数，每个所述文本数据中包括多个字符，所述方法还包括：权　利　要　求　书 2/6 页 3 CN 114495938 A 3

专利 音频识别方法、装置、计算机设备及存储介质

专利音频识别方法、装置、计算机设备及存储介质