专利 一种文本字词特征双线注意力融合的风险预测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111630889.8 (22)申请日 2021.12.28 (71)申请人天翼电子商务有限公司地址 102200 北京市昌平区未来科技城南区中国电信集团公司院内 (72)发明人王宣皓　唐文华　 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/35(2020.01) G06N 3/04(2006.01) G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 40/00(2012.01) (54)发明名称一种文本字词特征双线注意力融合的风险预测方法 (57)摘要本发明公开了一种文本字词特征双线注意力融合的风险预测方法，主要包括以下流程步骤： S1、抽取智能客服系统平台中历史用户咨询投诉数据集，预处理用户工单数据关联表中的数据； S2、提取用户工单数据中业务内容项，筛选业务内容中有效文本信息，对提取到数据信息进行历史投诉风险基础特征与文本特征处理与表示的特征工程处理；本发明在投诉基础特征上添加业务内容中文本信息的理解，相比传统风险预测方法更好的捕捉用户意图信息，提升高投诉风险预测准确性；只需要构建相应的标准词汇库，便能更精确的挖掘文本专业词汇信息，具有一定的可迁移性，提升高投诉风险预测模型准确性；使得模型具有更强泛化能力，并有效防止过拟合现象。权利要求书1页说明书5页附图5页 CN 114528395 A 2022.05.24 CN 114528395 A 1.一种文本字词特征双线注意力融合的风险预测方法，其特征在于，主要包括以下流程步骤： S1、抽取智能客服系统平台中历史用户咨询投诉数据集，预处理用户工单数据关联表中的数据； S2、提取用户工单数据中业务内容项，筛选业务内容中有效文本信息，对提取到数据信息进行历史投诉风险基础特征与文本特征处理与表示的特征工程处理； S3、构建多层全连接特征提取网络，将投诉投诉基础特征作为一个网络的输入，实现对基础投诉风险特征进行提取； S4、构建基于文本字、词汇特征的融合与特征提取网络，将投诉文本特征作为另外一个网络的输入，具体过程如下： 1).文本字特征与词汇特征融合的方法：字符表示矩阵为与词汇表示矩阵作为双通道输入，提出文本字词特征双线注意力融合策略，具体计算公式如下：其中XT、 YT为我们输入的文本字特征向量与文本词汇特征向量，通过文本字符特征与文本词汇的求和与作差的方式，让文本特征表示具有更为广泛的语义表达能力，其中U ′、 V′、为随机初始权重特征向量； 2).通过双向门控循环Bi ‑GRU网络记录上下文相关语义特征，捕捉到较长距离的文本依赖关系； 3).将上述特征进行拼接，得出高投诉风险文本字词关键特征信息，通过Softmax分类器实现用户投诉类别的划分； 4).设定模型损失函数：模型以交叉熵为基础损失函数，通过在交叉熵损失函数上使用阈值控制函数使模型训练更加充分，并添加预测均匀分布项防止过拟合现象，最终模型损失函数为：其中为均匀分布项， n代表本轮迭代预测数据的个数， η值是自定义的均匀分布项所占的比重，其主要是对模型预测是否准确的概率分布进行平均处理，添加均匀分布项能够防止过拟合；阈值控制函数 λ(yt， yp)具体计算如下： λ(yt， yp)＝1‑θ(yt‑m)θ(yp‑m)‑θ(1‑yt‑m)θ(1‑m‑yp) θ(x)＝(Tanh(x)+1)/2 其中m是设定的阈值控制参数，通过预测值与真实值的阈值差值，实现模型预测准确的阈值控制，使得模型能够更加看重预测值与真实值差别较大的情况； S5、将多层全连接特征提取网络与基于文本字、词汇特征的融合与提取网络，得出完整模型，在实验数据集上进行模型训练，使得模型用户投诉风险类别(无风险，低风险，高风险)。权　利　要　求　书 1/1 页 2 CN 114528395 A 2一种文本字词特征双线注意力融合的风险预测方法技术领域 [0001]本发明涉及通讯支付领域，特别涉及一种文本字词特征双线注意力融合的风险预测方法。背景技术 [0002]目前，在金融领域中对于用户投诉预测的主流方法多是使用基础客诉特征模型对用户投诉风险进行类别的划分，但往往用户提供的文本投诉信息更能反映用户真实特征，然而传统方法缺失对该类特征的分析，并且基础客诉特征单一，容易导致模型过拟合，使得模型预测效果不佳。 [0003]本方案提出： 1.将文本特征融入原本的基础特征模型，并且进一步提出一种新的将文本字、词特征融合的策略，实现两种差异性较大的特征向量有效融合，提升高风险投诉用户预测模型对文本语义的理解能力； 2.针对差异性较大的多特征输入模型，设计具有阈值控制项与均分分布项的交叉熵损失函数，有效防止模型过拟合现象，并实现阈值自主控制，提升投诉预测准确性。发明内容 [0004]本发明要解决的技术问题是克服现有技术的缺陷，提供一种文本字词特征双线注意力融合的风险预测方法，通过在投诉数据的基础特征上结合文本的字、词汇特征信息，更精确的了解客户的意图，并设计具有阈值控制项与均分分布项的交叉熵损失函数，使得投诉风险预测更为准确，便于精准服务高风险投诉用户，提升客户服务质量。 [0005]本发明提供了如下的技术方案： [0006]本发明提供一种文本字词特征双线注意力融合的风险预测方法，主要包括以下流程步骤： [0007]S1、抽取智能客服系统平台中历史用户咨询投诉数据集，预处理用户工单数据关联表中的数据； [0008]S2、提取用户工单数据中业务内容项，筛选业务内容中有效文本信息，对提取到数据信息进行历史投诉风险基础特征与文本特征处理与表示的特征工程处理； [0009]S3、构建多层全连接特征提取网络，将投诉投诉基础特征作为一个网络的输入，实现对基础投诉风险特征进行提取，网络结构图如图3所示； [0010]S4、构建基于文本字、词汇特征的融合与特征提取网络，将投诉文本特征作为另外一个网络的输入，网络结构如图4所示，具体过程如下： [0011]1).文本字特征与词汇特征融合的方法：字符表示矩阵为与词汇表示矩阵作为双通道输入，提出文本字词特征双线注意力融合策略，具体计算公式如下： [0012] [0013]其中XT、 YT为我们输入的文本字特征向量与文本词汇特征向量，通过文本字符特征与文本词汇的求和与作差的方式，让文本特征表示具有更为广泛的语义表达能力，其中U ′、说　明　书 1/5 页 3 CN 114528395 A 3

专利 一种文本字词特征双线注意力融合的风险预测方法

专利一种文本字词特征双线注意力融合的风险预测方法