金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111581863.9 (22)申请日 2021.12.2 2 (71)申请人 深信服科技股份有限公司 地址 518000 广东省深圳市南 山区学苑大 道1001号南山智园A1栋一层 (72)发明人 彭宜 曾才非 金星  (74)专利代理 机构 深圳市智圈知识产权代理事 务所(普通 合伙) 44351 专利代理师 苗燕 (51)Int.Cl. H04L 9/40(2022.01) H04L 61/4511(2022.01) G06V 30/40(2022.01) G06V 30/194(2022.01) G06V 10/74(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 钓鱼网页 的识别方法、 装置、 计算机设备及 存储介质 (57)摘要 本申请公开了一种钓鱼网页的识别方法、 装 置、 计算机设备以及存储介质, 该方法通过基于 已训练的目标检测模型, 获取页面图像中的徽标 区域图像, 将徽标区域图像与预设白名单中的每 个徽标图像作为一组图像, 分别输入至预先训练 的徽标识别模 型, 得到徽标区域图像与每个徽标 图像之间的相似度, 若徽标区域图像与目标徽标 图像之间的相似度大于预设阈值, 将待识别网页 对应的域名与 目标徽标图像对应的网页域名进 行匹配, 其中目标徽标图像为预设白名单中的任 一徽标图像, 若待识别网页对应的域名与目标徽 标图像对应的网页域名不匹配, 则确定待识别网 页为钓鱼网页。 该方法基于白名单训练检测模 型, 减少训练成本并提高对钓鱼网页检测的准确 性和检测效率。 权利要求书2页 说明书14页 附图7页 CN 114448664 A 2022.05.06 CN 114448664 A 1.一种钓鱼网页的识别方法, 其特 征在于, 所述方法包括: 获取待识别网页的页面图像; 基于已训练的目标检测模型, 获取 所述页面图像中的徽标区域图像; 将所述徽标区域图像与预设白名单中的每个徽标图像作为一组图像, 分别输入至预先 训练的徽标识别模型, 得到所述徽标区域图像与所述每个徽标图像之间的相似度, 所述徽 标识别模型为基于所述预设白名单中的徽标图像对孪生神经网络进行训练得到的; 若所述徽标区域图像与目标徽标图像之间的相似度 大于预设阈值, 将所述待识别网页 对应的域名与所述目标徽标图像对应的网页域名进行匹配, 所述目标徽标图像为所述预设 白名单中的任一徽标图像; 若所述待识别网页对应的域名与 所述目标徽标图像对应的网页域名不匹配, 则确定所 述待识别网页为仿冒所述目标徽标图像对应的网页的钓鱼网页。 2.根据权利要求1所述的方法, 其特 征在于, 所述徽标识别模型的训练过程包括: 将所述预设白名单中的徽标图像及其对应的复制图像, 输入至孪生神经网络, 得到所 述孪生神经网络 输出的所述徽标图像与所述复制图像之间相似度; 基于所述徽标图像与所述复制图像之间相似度, 确定第一损失值; 基于所述第 一损失值对所述孪生神经网络进行迭代训练, 直至所述孪生神经网络满足 第一预设条件, 得到训练后的孪生神经网络作为所述徽标识别模型。 3.根据权利要求2所述的方法, 其特征在于, 在所述将所述预设白名单中的徽标图像输 入至孪生神经网络, 得到所述孪生神经网络 输出的相似度之前, 所述方法还 包括: 基于第一样本图像集对相同的第 一残差网络以及第 二残差网络进行预训练, 得到训练 后的所述第一残差网络以及第二残差网络; 基于所述训练后的所述第一残差网络以及第二残差网络, 构建所述孪生神经网络 。 4.根据权利要求1所述的方法, 其特 征在于, 所述目标检测模型的训练过程包括: 将包含所述预设白名单中徽标图像的样本页面图像输入至初始目标模型, 得到所述初 始目标模型输出的所述样本页面图像中的徽标检测区域, 所述样本页面图像被标注有徽标 图像所在区域; 基于所述样本页面图像被标注的徽标图像所在区域与所述样本页面图像中的徽标检 测区域, 确定第二损失值; 基于所述第 二损失值对所述初始目标模型进行迭代训练, 直至所述初始目标模型满足 第二预设条件, 得到训练后的初始目标模型作为所述已训练的目标检测模型。 5.根据权利要求4所述的方法, 其特征在于, 所述将包含所述预设白名单中徽标图像的 样本页面图像输入至初始目标模型, 得到所述初始目标模型输出的所述样本页面图像中的 徽标检测区域之前, 所述方法还 包括: 获取基于第二样本图像集训练得到的目标检测模型, 作为所述初始目标模型。 6.根据权利要求1 ‑5所述的方法, 其特征在于, 在所述将所述徽标 区域图像与预设白名 单中的每个徽标图像作为一组图像, 分别输入至预先训练的徽标识别模型, 得到所述徽标 区域图像与所述每 个徽标图像之间的相似度之后, 所述方法还 包括: 若所述徽标区域图像与所述每个徽标图像之间的相似度小于或等于所述预设阈值, 则 将所述待识别网页标记为待确定网页;权 利 要 求 书 1/2 页 2 CN 114448664 A 2输出第一 提示信息, 所述第一 提示信息用于提 示用户对所述待确定网页进行确定 。 7.根据权利要求6所述的方法, 其特征在于, 在所述输出第一提示信息之后, 所述方法 还包括: 若接收到目标确定结果, 将所述徽标区域图像, 以及将所述待识别网页对应的域名作 为所述徽标区域图像对应的域名, 添加至所述预设白名单, 所述 目标确定结果用于表征所 述待确定网页不 为钓鱼网页。 8.根据权利要求1 ‑5所述的方法, 其特征在于, 在所述若所述待识别网页对应的域名与 所述目标徽标图像对应的网页域名不匹配, 则确定所述待识别网页为仿冒所述目标徽标图 像对应的网页的钓鱼网页之后, 所述方法还 包括: 输出第二 提示信息, 所述第二 提示信息用于提 示用户所述待识别网页为钓鱼网页; 若接收到针对所述第 二提示信 息的目标反馈结果, 将所述待识别网页对应的域名添加 至所述目标徽标图像对应的网页域名中, 所述目标反馈结果用于表征所述待识别网页不为 钓鱼网页。 9.一种钓鱼网页的识别装置, 其特征在于, 所述装置包括: 页面获取模块、 徽标获取模 块、 相似度对比模块、 域名匹配模块以及网页判断模块, 其中, 所述页面获取模块用于获取待识别网页的页面图像; 所述徽标获取模块用于基于已训练 的目标检测模型, 获取所述页面图像中的徽标区域 图像; 所述相似度对比模块用于将所述徽标区域图像与预设白名单中的每个徽标图像作为 一组图像, 分别输入至预先训练的徽标识别模型, 得到所述徽标区域图像与所述每个徽标 图像之间的相似度, 所述徽标识别模型为基于所述预设白名单中的徽标图像对孪生神经网 络进行训练得到的; 所述域名匹配模块用于若所述徽标区域图像与目标徽标图像之间的相似度大于预设 阈值, 将所述待识别网页对应的域名与所述 目标徽标图像对应的网页域名进行匹配, 所述 目标徽标图像为所述预设白名单中的任一徽标图像; 所述网页判断模块用于若所述待识别网页对应的域名与所述目标徽标图像对应的网 页域名不匹配, 则确定所述待识别网页为仿冒所述目标徽标图像对应的网页的钓鱼网页。 10.一种计算机设备, 其特 征在于, 包括: 一个或多个处 理器; 存储器; 一个或多个应用程序, 其中所述一个或多个应用程序被存储在所述存储器中并被配置 为由所述一个或多个处理器执行, 所述一个或多个程序配置用于执行如权利要求1 ‑8任一 项所述的方法。 11.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有程序代 码, 所述程序代码可被处 理器调用执 行如权利要求1 ‑8任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114448664 A 3

.PDF文档 专利 钓鱼网页的识别方法、装置、计算机设备及存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 钓鱼网页的识别方法、装置、计算机设备及存储介质 第 1 页 专利 钓鱼网页的识别方法、装置、计算机设备及存储介质 第 2 页 专利 钓鱼网页的识别方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:07:27上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。