金融行业标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111493645.X (22)申请日 2021.12.08 (71)申请人 北京金山数字 娱乐科技有限公司 地址 100085 北京市海淀区西二 旗中路33 号院5号楼1 1层002号 (72)发明人 汪洲 李长亮 (74)专利代理 机构 北京开阳星知识产权代理有 限公司 1 1710 代理人 张子青 (51)Int.Cl. G06F 40/274(2020.01) G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称 字符判别方法、 装置、 电子设备和存 储介质 (57)摘要 本公开涉及一种字符判别方法、 装置、 电子 设备和存储介质, 方法包括: 获取输入字符, 输入 字符包括第一字符和第二字 符, 其中第一字符可 以是院校, 第二字符可以是学科, 首先确定第一 字符对应的目标字符, 若第二字符在目标字符对 应的目标列表内, 则生成第二字符对应的判别结 果, 该判定结果可以是该学科是院校内的重点学 科。 本公开提供的方法能够准确的识别出输入字 符所代表的院校和学科, 并对学科进行判定, 也 就是能够准确的判断出输入的学科是否是输入 的院校的重点学科, 当输入字 符是院校或学科的 简称或别称时, 也能准确识别出院校或学科, 方 法比较灵活, 且便 于实施。 权利要求书2页 说明书13页 附图4页 CN 114372460 A 2022.04.19 CN 114372460 A 1.一种字符判别方法, 其特 征在于, 所述方法包括: 获取输入字符, 所述输入字符包括第一字符和第二字符; 确定所述第一字符对应的目标字符; 若所述第二字符在所述目标字符对应的目标列表内, 则生成所述第 二字符对应的判别 结果。 2.根据权利要求1所述的方法, 其特征在于, 所述确定所述第一字符对应的目标字符, 包括: 若所述第一字符的字符数量和所述第 二字符的字符数量均大于第 一预设阈值, 则判断 所述第一字符是否在第一预设数据库内; 若是, 则在所述第一预设数据库内确定所述第一 字符对应的目标字符; 若否, 则在所述第一预设数据库内确定至少一个候选字符, 并在所述至少一个候选字 符中确定目标字符。 3.根据权利要求2所述的方法, 其特征在于, 所述在所述第 一预设数据库内确定至少一 个候选字符, 并在所述至少一个候选 字符中确定目标字符, 包括: 在所述第一预设数据库内, 按照对所述第一字符增加第一预设数量的字符的规则, 确 定与所述第一字符对应的至少一个候选 字符; 计算所述第一字符的字符数量和所述至少一个候选 字符的字符数量的差值; 通过预先训练的相似度模型计算所述至少一个候选 字符与所述第一字符间的相似度; 根据所述相似度和所述差值, 在所述至少一个候选 字符中确定目标字符。 4.根据权利要求2所述的方法, 其特征在于, 所述在所述第 一预设数据库内确定至少一 个候选字符, 并在所述至少一个候选 字符中确定目标字符, 包括: 在所述第一预设数据库内, 按照对所述第一字符删除第二预设数量的字符的规则, 确 定与所述第一字符对应的至少一个候选 字符。 5.根据权利要求1所述的方法, 其特征在于, 所述若所述第 二字符在所述目标字符对应 的目标列表内, 则生成所述第二字符对应的判别结果, 包括: 若所述目标字符在第 二预设数据库内, 则从所述第 二预设数据库中获取所述目标字符 对应的目标列表; 判断所述第二字符是否在所述目标列表内; 若是, 则生成所述第二字符对应的判别结 果。 6.根据权利要求5所述的方法, 其特 征在于, 所述方法还 包括: 若所述第二字符不在所述目标列表内, 则计算所述第 二字符和所述目标列表中各名称 的相似度, 得到与所述目标列表中各名称对应的相似度分数; 若任一所述相似度分数大于第二预设阈值, 则确定所述第二字符在所述目标列表内, 并生成所述第二字符对应的判别结果。 7.根据权利要求6所述的方法, 其特征在于, 所述计算所述第 二字符和所述目标列表中 各名称的相似度, 得到与所述目标列表中各名称对应的相似度分数, 包括: 根据所述第 二字符和所述目标列表中各名称, 通过预先训练的语料相似度模型计算相 似度, 得到与所述目标列表中各名称对应的第一相似度分数; 根据所述第 二字符和所述目标列表中各名称, 通过预先训练的语义相似度模型计算相权 利 要 求 书 1/2 页 2 CN 114372460 A 2似度, 得到与所述目标列表中各名称对应的第二相似度分数; 根据所述第 二字符和所述目标列表中各名称, 通过预先训练的文本相似度模型计算相 似度, 得到与所述目标列表中各名称对应的第三相似度分数; 根据所述第一相似度分数、 所述第二相似度分数和所述第三相似度分数, 得到与所述 目标列表中各名称对应的相似度分数。 8.根据权利要求7 所述的方法, 其特 征在于, 所述方法还 包括: 获取第一训练样本, 所述第 一训练样本包括第 一级学科的字符样本和所述第 一级学科 对应的第二级 学科的字符样本, 所述第一级 学科的字符样本和所述第二级 学科的字符样本 具有相同的标签; 根据所述第一训练样本对构建的语义相似度模型进行训练。 9.一种字符判别装置, 其特 征在于, 所述装置包括: 获取单元, 用于获取输入字符, 所述输入字符包括第一字符和第二字符; 确定单元, 用于确定所述第一字符对应的目标字符; 生成单元, 用于若所述第二字符在所述目标字符对应的目标列表内, 则生成所述第二 字符对应的判别结果。 10.一种电子设备, 其特 征在于, 包括: 存储器; 处理器; 以及 计算机程序; 其中, 所述计算机程序存储在所述存储器中, 并被配置为由所述处理器执行以实现如 权利要求1至8中任一所述的字符判别方法。 11.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现如权利要求1至8中任一所述的字符判别方法的步骤。权 利 要 求 书 2/2 页 3 CN 114372460 A 3
专利 字符判别方法、装置、电子设备和存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 01:22:00
上传分享
举报
下载
原文档
(743.1 KB)
分享
友情链接
DB3206-T 1040-2022 叉车司机实际操作技能考核规范 南通市.pdf
T-ACEF 030—2022 城镇排水系统 厂、站、网一体化 运行监测与智能化管理技术规程.pdf
数据安全合规评估方法-1.19发布.pdf
SY-T 7657.3-2021 天然气 利用光声光谱-红外光谱-燃料电池联合法测定组成 第3部分:红外光谱法测定乙烷及以上烷烃、二氧化碳、一氧化碳含量.pdf
T-CSEIA 1003—2023 能源工业互联网平台 发电侧电力数据的分类分级规范.pdf
天空卫生 数据防泄露 DLP 技术指南完整电子版.pdf
DB52-T 1636.2-2021 机关事务云 第2部分:公务用车监督管理数据 贵州省.pdf
GB-T 19670-2023 机械安全 防止意外启动.pdf
GB-T 27011-2019 合格评定 认可机构要求.pdf
T-CCUA 016—2021 超级计算数据中心设计要求.pdf
GB-T 3565.4-2022 自行车安全要求 第4部分:车闸试验方法.pdf
T-CITS 0020—2023 数字化实验室建设指南.pdf
GB-T 17729-2023 长途客车内空气质量要求及检测方法.pdf
GB-T 42961-2023 植被生态质量的气候变化影响评价方法.pdf
GB-T 36989-2018 用超声流量计测量液态烃流量.pdf
DB37-T 3483-2019 人民防空可视化互联平台功能要求 山东省.pdf
T-CAGHP 016—2018 地质灾害监测仪器物理接口规定 试行.pdf
GB-T 30677-2014 轻型汽车电子稳定性控制系统性能要求及试验方法.pdf
T-CQTSHRA 008—2024 人才测评服务业务规范.pdf
T-CAAMTB 126—2023 铝合金车轮自动去毛刺 工艺规范.pdf
1
/
3
20
评价文档
赞助2元 点击下载(743.1 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。