金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111436610.2 (22)申请日 2021.11.29 (71)申请人 上海保链科技有限公司 地址 201802 上海市嘉定区众仁路39 9号1 幢12层B区J5415室 (72)发明人 龚快快  (74)专利代理 机构 苏州京昀知识产权代理事务 所(普通合伙) 32570 代理人 顾友 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/253(2020.01) G06N 20/00(2019.01) G16H 50/70(2018.01) (54)发明名称 基于医疗场景结合汉语特征的数据归一处 理方法及装置 (57)摘要 本申请提供了一种基于医疗场景结合汉语 特征的数据归一处理方法、 装置、 计算机设备及 存储介质, 方法包括: 获取待处理数据, 将待处理 数据输入至预设搜索引擎中进行完全匹配, 若完 全匹配未命中, 则在预设搜索引擎中按照预设匹 配规则进行模糊匹配, 获取多个候选词, 根据待 处理数据以及多个候选词计算每一候选词与待 处理数据的第一相似度, 根据待处理数据的上下 文信息以及多个候选词计算每一候选词与待处 理数据的第二相似度, 根据第一相似度以及第二 相似度从多个候选词中确定出待处理数据对应 的归一化目标词, 本发明通过从待处理数据的上 下文信息中提取有效特征参与到候选词与待处 理数据之间的相似度计算中, 提高对码的准确 率。 权利要求书2页 说明书10页 附图3页 CN 114201968 A 2022.03.18 CN 114201968 A 1.一种基于医疗场景 结合汉语特 征的数据归一处 理方法, 其特 征在于, 所述方法包括: 获取待处 理数据, 将所述待处 理数据输入至预设搜索引擎中进行完全匹配; 若完全匹配未命中, 则在所述预设搜索引擎中按照预设匹配规则进行模糊匹配, 获取 多个候选词; 根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的 第一相似度; 根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述 待处理数据的第二相似度; 根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数 据对应的归一 化目标词。 2.根据权利要求1所述的基于医疗场景结合汉语特征的数据归一处理方法, 其特征在 于, 所述根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词 与所 述待处理数据的第二相似度包括: 根据所述待处理数据的上下文提取预设特征, 并计算所述预设特征对应的预设特征向 量; 根据所述预设特征向量以及每一所述候选词的词向量计算得到每一所述候选词与所 述待处理数据的第二相似度。 3.根据权利要求1或2所述的基于 医疗场景结合汉语特征的数据归一处理方法, 其特征 在于, 所述根据所述待处理数据以及所述多个候选词计算每一所述候选词 与所述待处理数 据的第一相似度包括: 利用预先构建的词向量模型分别计算所述多个候选词的词向量以及所述待处理数据 的词向量; 根据每一所述候选词的词向量以及所述待处理数据的词向量计算得到每一所述候选 词与所述待处 理数据的第一相似度。 4.根据权利要求1或2所述的基于 医疗场景结合汉语特征的数据归一处理方法, 其特征 在于, 所述在所述预设搜索引擎中按照预设匹配规则进行模糊匹配, 获取多个候选词包括: 分别按照汉字、 拼音及部首匹配规则在所述预设搜索引擎中进行模糊匹配, 分别获取 对应的第一初筛词、 第二初筛词和第三初筛词; 根据所述第 一初筛词、 所述第 二初筛词以及所述第 三初筛词与 所述待处理数据的相似 度从所述第一初筛词、 所述第二初筛词以及所述第三初筛词中确定多个候选词。 5.根据权利要求1或2所述的基于 医疗场景结合汉语特征的数据归一处理方法, 其特征 在于, 所述方法还 包括: 在获取到所述待处理数据后, 对所述待处理数据进行预处理, 所述预处理至少包括将 繁体字转换为简体字; 所述将所述待处 理数据输入至预设搜索引擎中进行完全匹配包括: 将预处理后的所述待处 理数据输入至预设搜索引擎中进行完全匹配。 6.根据权利要求1或2所述的基于 医疗场景结合汉语特征的数据归一处理方法, 其特征 在于, 所述根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处 理数据对应的归一 化目标词包括:权 利 要 求 书 1/2 页 2 CN 114201968 A 2根据所述第一相似度以及所述第二相似度的预设权重计算得到每一所述候选词与所 述待处理数据的加权相似度; 确定满足预设要求的所述加权相似度对应的候选词为所述待处理数据对应的归一化 目标词。 7.根据权利要求1或2所述的基于 医疗场景结合汉语特征的数据归一处理方法, 其特征 在于, 所述预设搜索引擎包括ElasticSearc h。 8.一种基于医疗场景 结合汉语特 征的数据归一处 理装置, 其特 征在于, 所述装置包括: 完全匹配模块, 用于获取待处理数据, 将所述待处理数据输入至预设搜索引擎中进行 完全匹配; 模糊匹配模块, 用于若完全匹配未命中, 则在所述预设搜索引擎中按照预设匹配规则 进行模糊匹配, 获取多个候选词; 第一计算模块, 用于根据所述待处理数据以及所述多个候选词计算每一所述候选词与 所述待处 理数据的第一相似度; 第二计算模块, 用于根据所述待处理数据的上下文信 息以及所述多个候选词计算每一 所述候选词与所述待处 理数据的第二相似度; 归一化模块, 用于根据 所述第一相似度以及所述第 二相似度从所述多个候选词中确定 出所述待处 理数据对应的归一 化目标词。 9.一种计算机设备, 其特征在于, 包括存储器和处理器, 所述存储器上存储有可在所述 处理器上运行的计算机程序, 当所述计算机程序被所述处理器执行时, 实现权利要求1~7 中任一项所述的基于医疗场景 结合汉语特 征的数据归一处 理方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质内存储有计算机程序, 其特征 在于, 所述计算机程序被执行时, 实现权利要求1~7中任一项所述的基于医疗场景结合汉 语特征的数据归一处 理方法。权 利 要 求 书 2/2 页 3 CN 114201968 A 3

.PDF文档 专利 基于医疗场景结合汉语特征的数据归一处理方法及装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于医疗场景结合汉语特征的数据归一处理方法及装置 第 1 页 专利 基于医疗场景结合汉语特征的数据归一处理方法及装置 第 2 页 专利 基于医疗场景结合汉语特征的数据归一处理方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:21:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。