金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111630889.8 (22)申请日 2021.12.28 (71)申请人 天翼电子商务有限公司 地址 102200 北京市昌平区未来科技城南 区中国电信集团公司院内 (72)发明人 王宣皓 唐文华  (51)Int.Cl. G06F 16/35(2019.01) G06F 40/35(2020.01) G06N 3/04(2006.01) G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 40/00(2012.01) (54)发明名称 一种文本字词特征双线注意力融合的风险 预测方法 (57)摘要 本发明公开了一种文本字词特征双线注意 力融合的风险预测方法, 主要包括以下流程步 骤: S1、 抽取智能客服系统平台中历史用户咨询 投诉数据集, 预处理用户工单数据关联表中的数 据; S2、 提取用户工 单数据中业务内容项, 筛选业 务内容中有效文本信息, 对提取到数据信息进行 历史投诉风险基础特征与文本特征处理与表示 的特征工程处理; 本发明在投诉基础特征上添加 业务内容中文本信息的理解, 相比传统风险预测 方法更好的捕捉用户意图信息, 提升高投诉风险 预测准确性; 只需要构建相应的标准词汇库, 便 能更精确的挖掘文本专业词汇信息, 具有一定的 可迁移性, 提升高投诉风险预测模型准确性; 使 得模型具有更 强泛化能力, 并有效防止过拟合现 象。 权利要求书1页 说明书5页 附图5页 CN 114528395 A 2022.05.24 CN 114528395 A 1.一种文本字词特征双线注意力融合的风险预测方法, 其特征在于, 主要包括以下流 程步骤: S1、 抽取智能客服系统平台中历史用户咨询投诉数据集, 预处理用户工单数据关联表 中的数据; S2、 提取用户工单数据中业务内容项, 筛选业务内容中有效文本信息, 对提取到数据信 息进行历史 投诉风险基础特 征与文本特 征处理与表示的特 征工程处 理; S3、 构建多层全连接特征提取网络, 将投诉投诉基础特征作为一个网络的输入, 实现对 基础投诉风险特 征进行提取; S4、 构建基于文本字、 词汇特征的融合与特征提取网络, 将投诉文本特征作为另外一个 网络的输入, 具体过程如下: 1).文本字特征与词汇特征融合的方法: 字符表示矩阵为与词汇表示矩阵作为双通道 输入, 提出文本 字词特征双线注意力融合策略, 具体 计算公式如下: 其中XT、 YT为我们输入的文本字特征向量与 文本词汇特征向量, 通过文本字符特征与 文 本词汇的求和与作差的方式, 让文本特征表示具有更为广泛的语义表达能力, 其中U ′、 V′、 为随机初始权 重特征向量; 2).通过双向门控循环Bi ‑GRU网络记录上下文相关语义特征, 捕捉到较长距离的文本 依赖关系; 3).将上述特征进行拼接, 得出高投诉风险文本字词关键特征信息, 通过Softmax分类 器实现用户投诉类别的划分; 4).设定模型损失函数: 模型以交叉熵为基础损失函数, 通过在交叉熵损失函数上使用 阈值控制函数使模型训练更加充分, 并添加预测均匀分布项防止过拟合现象, 最终模型损 失函数为: 其中 为均匀分布项, n代表本轮迭代预测数据的个数, η值是 自定义的均匀分布项所占的比重, 其主要是对模型预测是否准确的概率分布进行平均处 理, 添加均匀分布项能够防止过拟合; 阈值控制函数 λ(yt, yp)具体计算如下: λ(yt, yp)=1‑θ(yt‑m)θ(yp‑m)‑θ(1‑yt‑m)θ(1‑m‑yp) θ(x)=(Tanh(x)+1)/2 其中m是设定的阈值控制参数, 通过预测值与真实值的阈值差值, 实现模型预测准确的 阈值控制, 使得模型能够更加看重预测值与真实值差别较大的情况; S5、 将多层全连接特征提取网络与基于文本字、 词汇特征的融合与提取网络, 得出完整 模型, 在实验数据集上进行模型训练, 使得模型用户投诉风险类别(无风险, 低风险, 高风 险)。权 利 要 求 书 1/1 页 2 CN 114528395 A 2一种文本字词特征双线 注意力融合的风险预测方 法 技术领域 [0001]本发明涉及 通讯支付领域, 特别涉及一种文本字词特征双线注意力融合的风险预 测方法。 背景技术 [0002]目前, 在金融领域中对于用户投诉预测的主流方法多是使用基础客诉特征模型对 用户投诉风险进行类别的划分, 但往往用户提供 的文本投诉信息更能反 映用户真实特征, 然而传统方法缺 失对该类特征的分析, 并且基础客诉特征单一, 容易导致模型过拟合, 使得 模型预测效果 不佳。 [0003]本方案提出: 1.将文本特征融入原本的基础特征模型, 并且进一步提出一种新的 将文本字、 词特征融合的策略, 实现两种差异 性较大的特征向量有效融合, 提升高风险投诉 用户预测模型对文本语义的理解能力; 2.针对差异性较大 的多特征输入模型, 设计具有阈 值控制项与均分分布项的交叉熵损失函数, 有效防止模型过拟合现象, 并实现阈值自主控 制, 提升投诉预测准确性。 发明内容 [0004]本发明要解决的技术问题是克服现有技术的缺陷, 提供一种文本字词特征双线注 意力融合的风险预测方法, 通过在投诉 数据的基础特征上结合文本的字、 词汇特征信息, 更 精确的了解客户的意图, 并设计具有阈值控制项与均分分布项的交叉熵损失函数, 使得投 诉风险预测更为 准确, 便于精准服务高风险投诉用户, 提升客户服 务质量。 [0005]本发明提供了如下的技 术方案: [0006]本发明提供一种文本字词特征双线注意力融合的风险预测方法, 主要包括以下流 程步骤: [0007]S1、 抽取智能客服系统平台中历史用户咨询投诉数据集, 预处理用户工单数据关 联表中的数据; [0008]S2、 提取用户工单数据中业务内容项, 筛选业务内容中有效文本信息, 对提取到数 据信息进行历史 投诉风险基础特 征与文本特 征处理与表示的特 征工程处 理; [0009]S3、 构建多层全连接特征提取 网络, 将投诉投诉基础特征作为一个网络的输入, 实 现对基础投诉风险特 征进行提取, 网络结构图如图3所示; [0010]S4、 构建基于文本字、 词汇特征的融合与特征提取 网络, 将投诉文本特征作为另外 一个网络的输入, 网络结构如图4所示, 具体过程如下: [0011]1).文本字特征与词汇特征融合的方法: 字符表示矩阵为与词汇表示矩阵作为双 通道输入, 提出文本 字词特征双线注意力融合策略, 具体 计算公式如下: [0012] [0013]其中XT、 YT为我们输入的文本字特征向量与文本词汇特征向量, 通过文本字符特征 与文本词汇的求和与作差的方式, 让文本特征表示具有 更为广泛的语义表达能力, 其中U ′、说 明 书 1/5 页 3 CN 114528395 A 3

.PDF文档 专利 一种文本字词特征双线注意力融合的风险预测方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本字词特征双线注意力融合的风险预测方法 第 1 页 专利 一种文本字词特征双线注意力融合的风险预测方法 第 2 页 专利 一种文本字词特征双线注意力融合的风险预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:08:44上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。