金融行业标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111457767.3 (22)申请日 2021.12.01 (71)申请人 马上消费金融股份有限公司 地址 401120 重庆市渝北区黄山大道中段 52号渝兴广场B2栋4至8楼 (72)发明人 李长林 蒋宁 王洪斌 吴海英 权佳成 曹磊 (74)专利代理 机构 北京国昊天诚知识产权代理 有限公司 1 1315 代理人 付先智 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 20/00(2019.01) (54)发明名称 敏感词识别方法及装置 (57)摘要 本说明书实施例提供了敏感词识别方法及 装置, 其中, 一种敏感词识别方法包括: 基于 预设 词库识别待识别文本包含的敏感词, 得到词集 合; 根据所述待识别文本确定所述词集合中各敏 感词的语义属性; 根据所述各敏感词的语义属性 确定第一词集合; 若所述第一词集合满足情感识 别条件, 则将所述待识别文本输入情感识别模型 进行情感属性识别, 获得所述待识别文本的情感 属性; 若所述情感属性为目标情感属性, 则将所 述待识别文本输入敏感词识别模型进行敏感词 识别, 并将识别获得的第二词集合与所述第一词 集合进行合并。 采用本申请实施例可提升敏感词 识别准确率。 权利要求书2页 说明书19页 附图8页 CN 114239591 A 2022.03.25 CN 114239591 A 1.一种敏感词识别方法, 其特 征在于, 所述方法包括: 基于预设词库识别待识别文本包 含的敏感词, 得到词集 合; 根据所述待识别文本确定所述词集 合中各敏感词的语义属性; 根据所述各 敏感词的语义属性确定第一词集 合; 若所述第一词集合满足情 感识别条件, 则将所述待识别文本输入情 感识别模型进行情 感属性识别, 获得 所述待识别文本的情感属性; 若所述情感属性为目标情 感属性, 则将所述待识别文本输入敏感词识别模型进行敏感 词识别, 并将识别获得的第二词集 合与所述第一词集 合进行合并。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述待识别文本确定所述词集合 中各敏感词的语义属性, 包括: 确定所述词集合中与第 一语义规则对应的第 一类敏感词, 以及与第 二语义规则对应的 第二类敏感词; 按照所述第 一语义规则确定所述第 一类敏感词在所述待识别文本 中的语义属性, 以及 按照所述第二语义 规则确定所述第二类敏感词在所述待识别文本中的语义属性。 3.根据权利要求2所述的方法, 其特征在于, 所述按照所述第 一语义规则确定所述第 一 类敏感词在所述待识别文本中的语义属性, 包括: 获取所述待识别文本中包 含所述第一类敏感词的敏感词文本; 计算所述敏感词文本与第一预设语义表中第一文本的第一相似度, 以及, 计算所述敏 感词文本与第二预设语义表中第二文本的第二相似度; 基于所述第一相似度与所述第二相似度确定所述第一类敏感词在所述待识别文本中 的语义属性。 4.根据权利要求2所述的方法, 其特征在于, 所述按照所述第 二语义规则确定所述第 二 类敏感词在所述待识别文本中的语义属性, 包括: 对所述待识别文本进行语义识别, 并确定所述待识别文本的文本属性; 基于所述文本属性确定所述第二类敏感词的语义属性。 5.根据权利要求1所述的方法, 其特征在于, 所述情 感识别条件, 包括: 所述第 一词集合 中的敏感词不 为空; 所述方法还 包括: 若所述第一词集合中的敏感词为空, 将所述第 一词集合作为所述待识别文本的敏感词 识别结果输出。 6.一种模型训练方法, 其特 征在于, 所述方法包括: 将测试文本 输入初始敏感词识别模型进行 敏感词识别, 获得测试 敏感词集 合; 根据所述测试敏感词集合计算识别准确率, 并根据 所述识别准确率确定目标敏感词集 合; 按照划分条件对所述目标敏感词集合进行类别划分, 根据类别划分结果更新训练样本 集; 基于更新后的训练样本集对所述初始敏感词识别模型进行模型训练, 获得敏感词识别 模型。 7.根据权利要求6所述的方法, 其特征在于, 所述根据所述测试敏感词集合计算识别准权 利 要 求 书 1/2 页 2 CN 114239591 A 2确率, 并根据所述识别准确率确定目标 敏感词集 合, 包括: 根据所述测试敏感词集合计算所述测试文本的文本识别准确率, 以及所述测试文本中 各敏感词的词识别准确率; 将所述各敏感词的词识别准确率小于所述文本识别准确率的敏感词确定为所述目标 敏感词集 合中的目标 敏感词。 8.根据权利要求6所述的方法, 其特征在于, 所述目标敏感词集合包括第 三类敏感词和 第四类敏感词, 所述 根据类别划分结果更新训练样本集, 包括: 基于所述第三类敏感词, 对所述训练样本集中训练样本的标注信息进行 更新; 将更新获得的训练样本更新至所述训练样本集; 或者, 确定包含所述第四类敏感词的文本样本中的待标注敏感词; 在所述文本样本 中对所述待标注敏感词 进行标注 处理, 并将标注 处理后的包含标注信 息的文本样本更新至所述训练样本集。 9.根据权利要求6所述的方法, 其特 征在于, 还 包括: 删除所述训练样本集中的训练样本中第一类敏感词和第二类敏感词的标注信息; 将删除后获得的训练样本更新至所述训练样本集。 10.一种敏感词识别装置, 其特 征在于, 所述装置包括: 第一识别模块, 用于基于预设词库识别待识别文本包 含的敏感词, 得到词集 合; 属性确定模块, 用于根据所述待识别文本确定所述词集 合中各敏感词的语义属性; 集合确定模块, 用于根据所述各 敏感词的语义属性确定第一词集 合; 若所述第 一词集合满足情感识别条件, 则运行情 感识别模块, 所述情感识别模块, 用于 将所述待识别文本输入情感识别模型进行情感属性识别, 获得所述待识别文本的情感属 性; 若所述情 感属性为目标情感属性, 则运行第二识别模块, 所述第二识别模块, 用于将所 述待识别文本输入敏感词识别模型进 行敏感词识别, 并将识别获得的第二词集合与所述第 一词集合进行合并。 11.一种敏感词识别设备, 其特 征在于, 所述设备包括: 处理器; 以及, 被配置为存储计算机可执行指令的存储器, 所述计算机可执行指令在被 执行时使所述处 理器执行如权利要求1 ‑5任一项所述的敏感词识别方法。 12.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于存储计算机 可执行指令, 所述计算机可执行指令在被处理器执行时实现如权利要求1 ‑5任一项所述的 敏感词识别方法。权 利 要 求 书 2/2 页 3 CN 114239591 A 3
专利 敏感词识别方法及装置
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 01:22:08
上传分享
举报
下载
原文档
(907.3 KB)
分享
友情链接
DB52-T1407-2019 政府数据 开放数据核心元数据 贵州省.pdf
DL-T 2041-2019 分布式电源接入电网承载力评估导则.pdf
GB-T 36399-2018 连续热镀铝硅合金镀层钢板及钢带.pdf
GB-T 5106-2012 圆柱直齿渐开线花键 量规.pdf
信通院 人工智能伦理治理研究报告 2023年.pdf
T-SHPPA 022—2023 医药企业ESG信息披露指南.pdf
GB-T 3410.2-2008 大坝监测仪器 测缝计 第2部分:振弦式测缝计.pdf
T-TAF 077.1—2020 APP收集使用个人信息最小必要评估规范 总则.pdf
GB-T 41895-2022 细胞中DNA病毒测定 MNP标记法.pdf
GB-T 43435-2023 信息安全技术 移动互联网应用程序 App 软件开发工具包 SDK 安全要求.pdf
德勤中国 数字化时代下的网络安全战略框架 .pdf
GB-T 24718-2023 防眩板.pdf
GB 4824-2019 工业、科学和医疗设备 射频骚扰特性 限值和测量方法.pdf
DB31-T 668.17-2020 节能技术改造及合同能源管理项目节能量审核与计算方法 第17部分:异形柔性保温 上海市.pdf
YD-T 3763.1-2021 研发运营一体化(DevOps)能力成熟度模型 第1部分:总体架构.pdf
GB-T 32918.2-2016 信息安全技术 SM2椭圆曲线公钥密码算法 第2部分:数字签名算法.pdf
GB-T 4780-2020 汽车车身术语.pdf
NB-T 10936-2022 电加热锅炉技术条件.pdf
GB-T 26358-2022 旅游度假区等级划分.pdf
GB-T 12754-2019 彩色涂层钢板及钢带.pdf
1
/
3
30
评价文档
赞助2元 点击下载(907.3 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。