金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111617060.4 (22)申请日 2021.12.27 (71)申请人 中国电信股份有限公司 地址 100033 北京市西城区金融街31号 (72)发明人 王乾 孙科 蒋艳军 赵轶新  (74)专利代理 机构 北京康信知识产权代理有限 责任公司 1 1240 代理人 张秀英 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 50/30(2012.01) G06F 16/332(2019.01) (54)发明名称 策略优化处理方法、 装置、 存储介质及电子 装置 (57)摘要 本申请实施例提供了一种策略优化处理方 法、 装置、 存储介质及电子装置, 该方法包括: 使 用蒙特卡洛算法对知识库中多个行业类型的问 答信息进行模拟, 得到该多个行业类型的模拟结 果; 根据该蒙特卡洛算法多个行业类型的模拟结 果对对应的该蒙特卡洛算法进行优化, 使得该模 拟结果对应的目标问答信息满足预设条件; 确定 该目标问答信息对应的策略为目标策略, 该目标 策略用于通过提供给对应行业类型的客户端, 可 以解决相关技术中对于不同行业类型, AI处理用 户问答时采用相同的提问方式, 准确性不高的问 题, 基于蒙特卡洛算法对知识库中的不同行业类 型模拟, 提高对用户问题分析的准确性, 提高了 AI自动回复语句的准确性。 权利要求书2页 说明书9页 附图2页 CN 114282728 A 2022.04.05 CN 114282728 A 1.一种策略优化处 理方法, 其特 征在于, 包括: 使用蒙特卡洛算法对知识库中多个行业类型的问答信 息进行模拟, 得到所述多个行业 类型的模拟结果; 根据所述多个行业类型的模拟结果对对应的所述蒙特卡洛算法进行优化, 使得所述模 拟结果对应的目标问答信息满足预设条件; 确定所述目标问答信息对应的策略为目标策略, 其中, 所述目标策略用于提供给对应 行业类型的客户端。 2.根据权利要求1所述的方法, 其特征在于, 根据 所述多个行业类型的模拟结果对对应 的所述蒙特卡洛算法进行优化, 使得所述模拟结果对应的目标问答信息满足预设条件包 括: 对所述多个行业类型的问答信息使用蒙特卡洛算法进行模拟; 对于每个行业类型的问答信息, 统计模拟结果; 获取所述模拟结果中模拟轮数与所述问答信息的回复质量, 其中, 所述回复质量通过 模拟答复与标准 答案的相似度确定; 若所述模拟轮数与 所述问答信 息的回复质量满足所述预设条件, 获取对应的所述目标 问答信息 。 3.根据权利要求2所述的方法, 其特征在于, 在若所述模拟轮数与所述问答信 息的回复 质量满足所述预设条件, 获取对应的所述目标问答信息之前, 所述方法还 包括: 判断所述模拟轮数是否大于预设次数, 并判断所述问答信 息的回复质量是否大于预设 阈值; 在判断结果均为是的情况下, 确定所述模拟轮数与所述问答信 息的回复质量满足所述 预设条件。 4.根据权利要求1所述的方法, 其特征在于, 使用蒙特卡洛算法对知识库中多个行业类 型的问答信息进行模拟, 得到所述多个行业类型的模拟结果包括: 对所述多个行业类型的问答信 息中的每个行业类型的问答信 息执行以下步骤, 对于正 在执行的行业类型称为当前 行业类型: 对所述当前行业类型的问答信息, 随机选取一个状态行为对, 其中, 所述状态对应行业 类型对应, 所述行为对应所述问答信息; 基于当前蒙特卡洛算法从选取的所述状态行为对开始模拟遍历语义样本, 以获取所述 状态对应的多个行为, 将所述多个行为 生成一段序列; 根据价值函数统计所述序列上 所述多个行为的价 值; 根据所述多个行为的价 值对所述 价值函数进行 更新, 得到更新后的价 值函数; 使用所述更新后的价值函数对所述当前蒙特卡洛算法进行优化处理, 得到优化后的蒙 特卡洛算法; 通过多轮模拟得到所述当前 行业类型的模拟结果。 5.根据权利要求4所述的方法, 其特征在于, 根据 所述多个行为的价值对所述价值函数 进行更新, 得到更新后的价 值函数包括: 确定所述多个行为的价 值的平均值; 根据所述平均值更新所述 价值函数, 得到所述更新后的价 值函数。权 利 要 求 书 1/2 页 2 CN 114282728 A 26.根据权利要求4所述的方法, 其特征在于, 对所述当前行业类型的问答信息, 随机选 取一个状态行为对 包括: 确定所述当前 行业类型的问答信息中每 个状态行为对的价 值; 确定所述 价值中最大值对应的目标状态行为对; 从所述语义样本中除所述目标状态行为对之外的状态行为对中随机选取一个状态行 为对。 7.根据权利要求6所述的方法, 其特征在于, 从所述语义样本 中除所述目标状态行为对 之外的状态行为对中随机 选取一个 状态行为对 包括: 为所述当前 行业类型的问答信息中的每 个状态行为对设置一个0 ‑1之间的概 率参数 ε; 在1‑ε 的概率下从所述当前行业类型的问答信息 中除所述目标状态行为对之外的状态 行为对中随机 选取一个 状态行为对。 8.一种策略优化处 理装置, 其特 征在于, 包括: 模拟模块, 用于使用蒙特卡洛算法对知识库中多个行业类型的问答信息进行模拟, 得 到所述多个行业类型的模拟结果; 优化模块, 用于根据 所述多个行业类型的模拟结果对对应的所述蒙特卡洛算法进行优 化, 使得所述模拟结果对应的目标问答信息满足预设条件; 确定模块, 用于确定所述目标问答信息对应的策略为目标策略, 所述目标策略用于提 供给对应行业类型的客户端。 9.一种计算机可读的存储介质, 其特征在于, 所述存储介质中存储有计算机程序, 其 中, 所述计算机程序被设置为 运行时执 行所述权利要求1至7任一项中所述的方法。 10.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处理器被设置为运行所述计算机程序以执行所述权利要求 1至7任一项中所述的方 法。权 利 要 求 书 2/2 页 3 CN 114282728 A 3

.PDF文档 专利 策略优化处理方法、装置、存储介质及电子装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 策略优化处理方法、装置、存储介质及电子装置 第 1 页 专利 策略优化处理方法、装置、存储介质及电子装置 第 2 页 专利 策略优化处理方法、装置、存储介质及电子装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:10:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。