专利 用于识别对话语音的方法、装置以及可拆卸的拾音设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111505670.5 (22)申请日 2021.12.10 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人杨松　孟宪海　王福到　陈杰　李鑫　王凯　 (74)专利代理机构北京英赛嘉华知识产权代理有限责任公司 1 1204 代理人王达佐　马晓亚 (51)Int.Cl. G10L 15/26(2006.01) G10L 25/51(2013.01) G10L 17/00(2013.01) G01S 5/20(2006.01)G06N 20/00(2019.01) (54)发明名称用于识别对话语音的方法、装置以及可拆卸的拾音设备 (57)摘要本公开提供了用于识别对话语音的方法、装置以及可拆卸的拾音设备，涉及计算机技术领域，尤其涉及语音技术和机器学习技术领域。具体实现方案为：从预设的麦克风阵列获取至少两个说话人的对话语音；对该对话语音进行方位判决处理，生成目标数目个说话人角色；将该对话语音中与说话人角色对应的语音分别输入至预先训练的该目标数目个语音解码器，生成语音识别文字。权利要求书2页说明书10页附图5页 CN 114203181 A 2022.03.18 CN 114203181 A 1.一种用于识别对话语音的方法，包括：从预设的麦克风阵列获取至少两个说话人的对话语音；对所述对话语音进行方位判决处理，生成目标数目个说话人角色；将所述对话语音中与说话人角色对应的语音分别输入至预先训练的所述目标数目个语音解码器，生成语音识别文字。 2.根据权利要求1所述的方法，其中，所述预设的麦克风阵列包括环形阵列；以及所述对所述对话语音进行方位判决处理，生成目标数目个说话人角色，包括：对于所述对话语音中的语音片段，根据该语音片段在所述麦克风阵列中的能量分布确定说话人的方向；根据所生成的说话人的方向的数量，生成所述目标数目个说话人角色。 3.根据权利要求2所述的方法，其中，所述根据该语音片段在所述麦克风阵列中的能量分布确定说话人的方向，包括：根据该语音片段在所述麦克风阵列中的能量分布确定说话人的方位所归属的所述麦克风阵列的扇区；将归属于同一个预设扇区的语音片段确定为同一个说话人角色对应的语音。 4.根据权利要求2所述的方法，其中，所述根据该语音片段在所述麦克风阵列中的能量分布确定说话人的方向，包括：确定呈环形阵列排列的所述麦克风阵列中所接收到的该语音片段中声音的能量最高的第一数目个麦克风的位置；根据所确定的第一数目个麦克风的位置的朝向确定该语音片段对应的说话人的方向。 5.根据权利要求2所述的方法，其中，所述根据所生成的说话人的方向的数量，生成所述目标数目个说话人角色，包括：将所生成的说话人的方向进行聚类，生成第二数目个聚类后的方向；将对应于同一个所述聚类后的方向的语音片段的说话人确定为一个说话人角色，生成所述目标数目个说话人角色。 6.一种用于识别对话语音的装置，包括：获取单元，被配置成从预设的麦克风阵列获取至少两个说话人的对话语音；生成单元，被配置成对所述对话语音进行方位判决处理，生成目标数目个说话人角色；识别单元，被配置成将所述对话语音中与说话人角色对应的语音分别输入至预先训练的所述目标数目个语音解码器，生成语音识别文字。 7.根据权利要求6所述的装置，其中，所述预设的麦克风阵列包括环形阵列；以及所述生成单元，包括：确定模块，被配置成对于所述对话语音中的语音片段，根据该语音片段在所述麦克风阵列中的能量分布确定说话人的方向；生成模块，被配置成根据所生成的说话人的方向的数量，生成所述目标数目个说话人角色。 8.根据权利要求7 所述的装置，其中，所述确定模块进一步被配置成：根据该语音片段在所述麦克风阵列中的能量分布确定说话人的方位所归属的所述麦克风阵列的扇区；权　利　要　求　书 1/2 页 2 CN 114203181 A 2将归属于同一个预设扇区的语音片段确定为同一个说话人角色对应的语音。 9.根据权利要求7 所述的装置，其中，所述确定模块被进一步配置成：确定呈环形阵列排列的所述麦克风阵列中所接收到的该语音片段中声音的能量最高的第一数目个麦克风的位置；根据所确定的第一数目个麦克风的位置的朝向确定该语音片段对应的说话人的方向。 10.根据权利要求7 所述的装置，其中，所述生成模块被进一步配置成：将所生成的说话人的方向进行聚类，生成第二数目个聚类后的方向；将对应于同一个所述聚类后的方向的语音片段的说话人确定为一个说话人角色，生成所述目标数目个说话人角色。 11.一种用于识别对话语音的方法，包括：对目标客户端发送的处理后对话语音进行方位判决处理，生成目标数目个说话人角色，其中，所述处理后对话语音基于所述客户端对原始对话语音的预处理而得到，所述原始对话语音利用根据预设的通道数和采样率适配成功的麦克风阵列获取；将所述对话语音中与说话人角色对应的语音分别输入至预先训练的所述目标数目个语音解码器，生成语音识别文字；将所述语音识别文字发送至所述目标客户端。 12.一种用于识别对话语音的装置，包括：角色生成单元，被配置成对目标客户端发送的处理后对话语音进行方位判决处理，生成目标数目个说话人角色，其中，所述处理后对话语音基于所述客户端对原始对话语音的预处理而得到，所述原始对话语音利用根据预设的通道数和采样率适配成功的麦克风阵列获取；语音识别单元，被配置成将所述对话语音中与说话人角色对应的语音分别输入至预先训练的所述目标数目个语音解码器，生成语音识别文字；文字发送单元，被配置成将所述语音识别文字发送至所述目标客户端。 13.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1 ‑5、 11中任一项所述的方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1 ‑5、 11中任一项所述的方法。 15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1 ‑5、 11中任一项所述的方法。 16.一种可拆卸的拾音设备，包括：预设的麦克风阵列，被配置成响应于确定与客户端适配成功，持续获取对话语音，其中，所述适配的参数包括以下至少一项：通道数，采样率；方向判别器，被配置成根据所述对话语音中的语音片段在所述麦克风阵列中的能量分布，确定该语音片段对应的说话人的方向。权　利　要　求　书 2/2 页 3 CN 114203181 A 3

专利 用于识别对话语音的方法、装置以及可拆卸的拾音设备

专利用于识别对话语音的方法、装置以及可拆卸的拾音设备