金融行业标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111412965.8 (22)申请日 2021.11.25 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518044 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 岳天驰 (74)专利代理 机构 北京同达信恒知识产权代理 有限公司 1 1291 代理人 朱佳 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/253(2020.01) G06F 40/258(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 文本通顺度 的检测方法、 装置、 设备及存储 介质 (57)摘要 本申请涉及计算机领域, 特别涉及人工智能 领域, 提供了一种文本通顺度的检测方法、 装置、 设备及存储介质, 应用于云技术、 人工智能、 智慧 交通、 辅助 驾驶等各种场景。 该方法包括: 从待检 测文本中的至少一个语句中, 分别获得相应字 符 上下文特征集合和文本类型特征, 再基于上述两 个特征, 确定至少一个语句各自的注意力特征, 最后基于获得的至少一个注意力特征, 分别确定 相应语句的通顺度检测结果, 并基于至少一个语 句的通顺度检测结果, 确定待检测文本的文本通 顺度检测结果。 使用一个检测模 型检测不同场景 下的文本通顺度, 解决了因标注数据集数量不 足, 造成的泛化性差、 检测准确率低的问题。 而 且, 每次检测获得的注意力特征, 也有利于提高 检测准确率。 权利要求书3页 说明书16页 附图10页 CN 114138934 A 2022.03.04 CN 114138934 A 1.一种文本通 顺度的检测方法, 其特 征在于, 包括: 获取包含至少一个 语句的待检测文本; 针对所述至少一个语句进行特征提取, 分别获得所述至少一个语句各自的字符上下文 特征集合和文本类型 特征; 基于获得的至少一个字符上下文特征集合和至少一个文本类型特征, 分别获得相应语 句的注意力特 征, 其中, 一个注意力特 征表征相应 语句中的关键 字符信息; 基于获得的至少一个注意力特征, 分别确定相应语句的通顺度检测结果, 并基于获得 的所述至少一个 语句的通 顺度检测结果, 确定所述待检测文本的文本通 顺度检测结果。 2.如权利要求1所述的方法, 其特征在于, 所述针对所述至少一个语句进行特征提取, 分别获得 所述至少一个 语句各自的字符上 下文特征集合和文本类型 特征, 包括: 针对各个 语句, 分别执 行以下操作: 对一个语句进行分字处 理, 获得相应的字符序列; 基于文本通顺度检测模型的特征提取模块进行特征提取, 获得所述字符序列中各个字 符各自的字符内容特 征及字符位置特 征, 以及所述 一个语句的文本类型 特征; 基于所述文本通顺度检测模型的编码模块, 对各个字符内容特征、 各个字符位置特征 以及所述文本类型 特征进行编码, 获得 所述一个语句的字符上 下文特征集合。 3.如权利要求2所述的方法, 其特征在于, 所述基于文本通顺度检测模型的特征提取模 块进行特征提取, 获得所述字符序列中各个字符各自的字符内容特征及字符位置特征, 以 及所述一个语句的文本类型 特征, 包括: 基于所述文本通顺度检测模型的第 一特征提取子模块, 对所述字符序列中所述各个字 符的内容及所述各个字符的位置进行特征提取, 获得所述各个字符各自的字符内容特征及 字符位置特 征; 基于所述文本通顺度检测模型的第 二特征提取子模块, 对所述一个语句携带的文本类 型标识进行 特征提取, 获得 所述一个语句的文本类型 特征。 4.如权利要求2所述的方法, 其特征在于, 所述对所述一个语句进行分字处理, 获得相 应的字符序列, 包括: 在所述一个语句的句首 添加分类标识符, 以及 在相应语句的句尾添加分离标识符; 将所述分类标识符、 所述一个语句包含的各个字以及所述分离标识符, 拼接为所述字 符序列。 5.如权利要求1所述的方法, 其特征在于, 所述基于获得的至少一个字符上下文特征集 合和至少一个文本类型 特征, 分别获得相应 语句的注意力特 征, 包括: 针对各个 语句, 分别执 行以下操作: 将一个语句的文本类型特征, 分别与相应的字符上下文特征集合中的各个字符上下文 特征进行归一 化处理, 获得所述一个语句包含的各个字符各自的注意力评估值; 通过对所述各个字符各自的字符上下文特征和各个注意力 评估值进行加权求和, 获得 所述一个语句的注意力特 征。 6.如权利要求2~3任一项所述的方法, 其特征在于, 通过执行以下操作训练所述文本 通顺度检测模型: 使用多个样本标注数据集训练所述文本通顺度检测模型, 直至所述文本通顺度检测模权 利 要 求 书 1/3 页 2 CN 114138934 A 2型符合迭代 停止条件为止, 输出训练完毕的文本通 顺度检测模型; 其中, 每读取一个样本标注数据集, 基于所述文本通顺度检测模型输出的所述一个样 本标注数据集中各个样本标注数据各自的第一样本预测标签、 第二样本预测标签, 预设的 标题通顺度检测模型或者正文通顺度检测模型输出的所述各个样本标注数据各自的第三 样本预测标签、 第四样本预测标签, 以及所述各个样本标注数据各自的实际分类标签, 重新 调整所述文本通 顺度检测模型的模型参数。 7.如权利要求6所述的方法, 其特征在于, 所述基于所述文本通顺度检测模型输出的所 述一个样本标注数据集中各个样本标注数据各自的第一样本预测标签、 第二样本预测标 签, 预设的标题通顺度检测模型或者正文通顺度检测模型输出的所述各个样本标注数据各 自的第三样本预测标签、 第四样本预测标签, 以及所述各个样本标注数据各自的实际分类 标签, 重新调整所述文本通 顺度检测模型的模型参数, 包括: 基于所述文本通顺度检测模型输出的所述一个样本标注数据集中所述各个样本标注 数据的第一样本预测标签、 第二样本预测标签, 所述标题通顺度检测模型或所述正文通顺 度检测模型输出 的所述各个样本标注数据各自的第三样本预测标签、 第四样本预测标签, 确定所述文本通 顺度检测模型的第一模型损失值; 基于所述各个样本标注数据各自的第三样本预测标签、 第 四样本预测标签, 以及所述 各个样本标注数据各自的实际分类标签, 确定所述文本通顺度检测模型的第二模型损失 值; 基于所述第 一模型损失值和所述第 二模型损失值, 重新调整所述文本通顺度检测模型 的模型参数。 8.如权利要求1所述的方法, 其特征在于, 所述基于获得的至少一个注意力特征, 分别 确定相应 语句的通 顺度检测结果, 包括: 针对所述至少一个注意力特 征, 分别执 行以下操作: 将一个语句对应的一个注意力特征输入文本通顺度检测模型的文本通顺度分类模块 中, 获得所述一个语句的第一目标预测标签和第二目标预测标签, 其中, 所述第一目标预测 标签表征所述一个语句文本通顺的预测概率, 所述第二目标预测标签表征所述一个语句文 本不通顺的预测概 率; 将预测概 率最大值对应的目标 预测标签, 作为所述 一个语句的通 顺度检测结果。 9.如权利要求1~5任一项所述的方法, 其特征在于, 在确定所述待检测文本的文本通 顺度检测结果之后, 还 包括: 当所述待检测文本的文本通顺度检测结果显示所述待检测文本中, 存在语句错误的语 句数量位于第一语句错 误数量区间时, 延迟推送所述待检测文本; 当所述待检测文本的文本通顺度检测结果显示所述待检测文本中, 存在语句错误的语 句数量位于第二语句错 误数量区间时, 提 示重新审核所述待检测文本; 当所述待检测文本的文本通顺度检测结果显示所述待检测文本中, 存在语句错误的语 句数量位于第三语句错 误数量区间时, 拦截所述待检测文本; 其中, 所述第 二语句错误数量 区间的取值范围大于所述第 一语句错误数量区间的取值 范围, 且小于所述第三语句错 误数量区间的取值范围。 10.一种文本通 顺度的检测装置, 其特 征在于, 包括:权 利 要 求 书 2/3 页 3 CN 114138934 A 3
专利 文本通顺度的检测方法、装置、设备及存储介质
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 01:22:14
上传分享
举报
下载
原文档
(1.4 MB)
分享
友情链接
20230129-中信建投-人工智能行业从CHAT_GPT到生成式AI(Generative AI):人工智能新范式,重新定义生产力.pdf
DB3713-T 208-2020 普通住宅前期物业管理服务等级划分 临沂市.pdf
GM-T 0053-2016 密码设备管理 远程监控与合规性检验数据接口规范.pdf
ISO IEC 38500 2024 Information technology — Governance of IT for the organizatio.pdf
TTAF 180.3—2023 小程序个人信息保护规范 第3部分:全流程开发管理.pdf
GB-T 6719-2009 袋式除尘器技术要求.pdf
GB-T 31495.2-2015 信息安全技术 信息安全保障指标体系及评价方法 第2部分:指标体系.pdf
资产管理 数据资产确权登记导则.pdf
GB-T 36344-2018信息技术数据质量评价指标.pdf
GB-T 3979-2008 物体色的测量方法.pdf
AI安全白皮书 华为.pdf
GB-T 16946-2017 短波单边带通信设备通用规范.pdf
T-CEC 712—2022 抽水蓄能电站故障录波配置导则.pdf
GB-T 38558-2020 信息安全技术 办公设备安全测试方法.pdf
GB-T 41547-2022 地采暖用木质地板.pdf
GB-T 32211-2015 液相色谱用可变波长光度检测器的测试方法.pdf
GB-T 30819-2014 机器人用谐波齿轮减速器.pdf
T-QLKZSH 4—2023 橇装式加油装置管理规范.pdf
DB23-T 3275—2022 养老机构分级照护服务规范 黑龙江省.pdf
GB-T 38664.1-2020 信息技术 大数据 政务数据开放共享 第1部分:总则.pdf
1
/
3
30
评价文档
赞助2元 点击下载(1.4 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。