金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111505670.5 (22)申请日 2021.12.10 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 杨松 孟宪海 王福到 陈杰  李鑫 王凯  (74)专利代理 机构 北京英赛 嘉华知识产权代理 有限责任公司 1 1204 代理人 王达佐 马晓亚 (51)Int.Cl. G10L 15/26(2006.01) G10L 25/51(2013.01) G10L 17/00(2013.01) G01S 5/20(2006.01)G06N 20/00(2019.01) (54)发明名称 用于识别对话语音的方法、 装置以及可拆卸 的拾音设备 (57)摘要 本公开提供了用于识别对话语音的方法、 装 置以及可拆卸的拾音设备, 涉及计算机技术领 域, 尤其涉及语音技术和机器学习技术领域。 具 体实现方案为: 从预设的麦克风阵列获取至少两 个说话人的对话语音; 对该对话语音进行方位判 决处理, 生成目标数目个说话人角色; 将该对话 语音中与说话人角色对应的语音分别输入至预 先训练的该目标数目个语音解码器, 生成语音识 别文字。 权利要求书2页 说明书10页 附图5页 CN 114203181 A 2022.03.18 CN 114203181 A 1.一种用于识别对话语音的方法, 包括: 从预设的麦克风阵列获取至少两个说话人的对话语音; 对所述对话语音 进行方位判决处 理, 生成目标 数目个说话人角色; 将所述对话语音中与说话人角色对应的语音分别输入至预先训练的所述目标数目个 语音解码器, 生成语音识别文字 。 2.根据权利要求1所述的方法, 其中, 所述预设的麦克风阵列包括环形阵列; 以及 所述对所述对话语音 进行方位判决处 理, 生成目标 数目个说话人角色, 包括: 对于所述对话语音中的语音片段, 根据该语音片段在所述麦克风阵列中的能量分布确 定说话人的方向; 根据所生成的说话人的方向的数量, 生成所述目标 数目个说话人角色。 3.根据权利要求2所述的方法, 其中, 所述根据该语音片段在所述麦克风阵列中的能量 分布确定说话人的方向, 包括: 根据该语音片段在所述麦克风阵列中的能量分布确定说话人的方位所归属的所述麦 克风阵列的扇区; 将归属于同一个预设扇区的语音片段确定为同一个说话人角色对应的语音。 4.根据权利要求2所述的方法, 其中, 所述根据该语音片段在所述麦克风阵列中的能量 分布确定说话人的方向, 包括: 确定呈环形阵列排列的所述麦克风阵列中所接收到的该语音片段中声音的能量最高 的第一数目个麦克风的位置; 根据所确定的第一数目个麦克风的位置的朝向确定该语音片段对应的说话人的方向。 5.根据权利要求2所述的方法, 其中, 所述根据所生成的说话人的方向的数量, 生成所 述目标数目个说话人角色, 包括: 将所生成的说话人的方向进行聚类, 生成第二数目个聚类后的方向; 将对应于同一个所述 聚类后的方向的语音片段的说话人确定为一个说话人角色, 生成 所述目标 数目个说话人角色。 6.一种用于识别对话语音的装置, 包括: 获取单元, 被配置成从预设的麦克风阵列获取至少两个说话人的对话语音; 生成单元, 被配置成对所述对话语音 进行方位判决处 理, 生成目标 数目个说话人角色; 识别单元, 被配置成将所述对话语音中与说话人角色对应的语音分别 输入至预先训练 的所述目标 数目个语音解码器, 生成语音识别文字 。 7.根据权利要求6所述的装置, 其中, 所述预设的麦克风阵列包括环形阵列; 以及 所述生成单元, 包括: 确定模块, 被配置成对于所述对话语音中的语音片段, 根据该语音片段在所述麦克风 阵列中的能量分布确定说话人的方向; 生成模块, 被配置成根据所生成的说话人的方向的数量, 生成所述目标数目个说话人 角色。 8.根据权利要求7 所述的装置, 其中, 所述确定模块进一 步被配置成: 根据该语音片段在所述麦克风阵列中的能量分布确定说话人的方位所归属的所述麦 克风阵列的扇区;权 利 要 求 书 1/2 页 2 CN 114203181 A 2将归属于同一个预设扇区的语音片段确定为同一个说话人角色对应的语音。 9.根据权利要求7 所述的装置, 其中, 所述确定模块被进一 步配置成: 确定呈环形阵列排列的所述麦克风阵列中所接收到的该语音片段中声音的能量最高 的第一数目个麦克风的位置; 根据所确定的第一数目个麦克风的位置的朝向确定该语音片段对应的说话人的方向。 10.根据权利要求7 所述的装置, 其中, 所述 生成模块被进一 步配置成: 将所生成的说话人的方向进行聚类, 生成第二数目个聚类后的方向; 将对应于同一个所述 聚类后的方向的语音片段的说话人确定为一个说话人角色, 生成 所述目标 数目个说话人角色。 11.一种用于识别对话语音的方法, 包括: 对目标客户 端发送的处理后对话语音进行方位判决处理, 生成目标数目个说话人角 色, 其中, 所述处理后对话语音基于所述客户端对原始对话语音的预 处理而得到, 所述原始 对话语音利用根据预设的通道数和采样率 适配成功的麦克风阵列获取; 将所述对话语音中与说话人角色对应的语音分别输入至预先训练的所述目标数目个 语音解码器, 生成语音识别文字; 将所述语音识别文字发送至所述目标客户端。 12.一种用于识别对话语音的装置, 包括: 角色生成单元, 被配置成对目标客户端发送的处理后对话语音进行方位判决处理, 生 成目标数目个说话人角色, 其中, 所述处理后对话语音基于所述客户端对原始对话语音的 预处理而得到, 所述原始对话语音利用根据预设的通道数和采样率适配成功的麦克风阵列 获取; 语音识别单元, 被配置成将所述对话语音中与说话人角色对应的语音分别输入至预先 训练的所述目标 数目个语音解码器, 生成语音识别文字; 文字发送单 元, 被配置成将所述语音识别文字发送至所述目标客户端。 13.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑5、 11中任一项所述的方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑5、 11中任一项所述的方法。 15.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现根 据权利要求1 ‑5、 11中任一项所述的方法。 16.一种可拆卸的拾音设备, 包括: 预设的麦克风阵列, 被配置成响应于确定与客户端适配成功, 持续获取对话语音, 其 中, 所述适配的参数包括以下至少一项: 通道数, 采样率; 方向判别器, 被配置成根据 所述对话语音中的语音片段在所述麦克风阵列中的能量分 布, 确定该语音片段对应的说话人的方向。权 利 要 求 书 2/2 页 3 CN 114203181 A 3

.PDF文档 专利 用于识别对话语音的方法、装置以及可拆卸的拾音设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于识别对话语音的方法、装置以及可拆卸的拾音设备 第 1 页 专利 用于识别对话语音的方法、装置以及可拆卸的拾音设备 第 2 页 专利 用于识别对话语音的方法、装置以及可拆卸的拾音设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:22:31上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。