金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111608264.1 (22)申请日 2021.12.24 (71)申请人 徐州工程学院 地址 221000 江苏省徐州市 云龙区丽水路2 号 (72)发明人 党向盈 鲍蓉 姜代红 徐玮玮  佟恒乐 王晓雪  (74)专利代理 机构 徐州市三联专利事务所 32220 代理人 何君 (51)Int.Cl. G06N 5/00(2006.01) G06Q 10/04(2012.01) G06Q 50/20(2012.01) (54)发明名称 一种基于CART决策树的大学生就业预测方 法 (57)摘要 本发明公布了一种基于CART决策树的大学 生就业预测方法, 旨在提供一种预测大学生就业 情况的方法。 本发明首先对大学生数据信息预处 理, 形成规范的、 可供数据挖掘的基本属性数据 集; 然后, 利用皮尔森相关分析法, 确定数据集中 大学生基本属性与就业预测目标属性的相关性, 将与就业预测目标属性相关的大学生基本属性, 确定为用于构建大学生就业预测模型的特征向 量; 最后, 基于训练集, 由特征向量计算基尼系 数; 采用基于CART决策树算法, 构建大学生就业 预测模型。 本发 明方法能够根据大学生信息数据 集预测大学生就业情况, 为高校就业管理部门提 供智能化服务, 指导学生合理就业, 有助于提高 大学生的就 业率。 权利要求书2页 说明书10页 附图6页 CN 114330716 A 2022.04.12 CN 114330716 A 1.一种基于 CART决策树的大 学生就业预测方法, 其特 征在于, 该 方法包括以下步骤: S1: 大学生信息数据的预处 理; 收集大学生原始数据, 构建学生数据基本属性集合, 并对每个数据进行规范化处理, 形 成规范的数据集, 大学生数据基本属性集合记为N={n1,n2,…,nc}, 其中ni为第i个基本属 性, c为基本属性的个数; S2: 确定影响大 学生就业预测目标的相关属性; 设大学生就业预测目标属性集合为Y={y1,y2,...y|Y|}, 其中|Y|为预测目标属性的取 值个数, yu为预测目标属性 值; 设N中元 素ni和Y中元素yu的皮尔森相关系数为 λi,u; 设置皮尔森相关系数阈值为h, 当λi,u≥h, 定义ni与Y相关; 反之, 定义ni与Y不相关; 基于 上面的方法, 统计与Y相关的大学生基本属性; 将影响大学生就业目标Y的相关属性记为特 征向量X={x1,x2,…,xm}, 即为, 其 中m为特征变量的个数, m≤c; 其 中对于xi的取值有Ki类, 记为 S3: 基于CART决策树构建大 学生就业预测模型; 设大学生基本属性数据信息有α 组, 将其中的r组数据设为训练集S, 剩余的α ‑r组数据 设为测试集; 训练集S用于构建就 业预测模型, 测试集用于验证就 业测试模型的准确性; 在训练集S中计算 的基尼系数 对训练集S中 的大学生基本属性进行基尼系数求解, 设基尼系数的阈值为l, 然后基于 构建大 学生就业CART决策树, 即就 业预测模型。 2.根据权利要求1所述的一种基于CART决策树的大学生就业预测方法, 其特征在于: 所 述的步骤S2中计算Y和N的皮尔森相关系数 λi, u的方法为: 其中, cov(ni,yu)为ni与yu协方差, 和 分别为ni与yu的标准差 。 3.根据权利要求1所述的一种基于CART决策树的大学生就业预测方法, 其特征在于: 所 述的步骤S3中, 将70%的数据设为训练集, 3 0%的数据设为测试集。 4.根据权利要求1或3所述的一种基于CART决策树的大学生就业预测方法, 其特征在 于: 所述的步骤S3中, 对训练集S中的大 学生基本属性进行基尼系数求 解的方法为: 当xi取值为 时, 记为 当xi取值不为 时, 记为 由此可以将S 分为 和 两部分, 对应训练集的数目分别为 和 在S, 当 时, Y取值 yu的 概率为 当 时 , Y取 值yu的 个数 为 那么, 的基尼系数 可以表示 为: 同理 的基尼系数 可以表示 为:权 利 要 求 书 1/2 页 2 CN 114330716 A 2由 和 可知, 对于S, V(xi)取 的基尼系数 可以表示 为: 5.根据权利要求1或3所述的一种基于CART决策树的大学生就业预测方法, 其特征在 于: 所述的步骤S3中, 基于 构建大学生就业CART决策树的方法为: 设基尼系数的阈值 为l 输入: S, X={x1,x2,…,xm}, l, m; 输出: 决策树T; Step1: 计算 如果 则T为一颗单节 点树; 否则转Step2; Step2:对于 求解它们的最小值, 记最小值为 取 为二叉树的切分点; Step3:根据S中xi取值是否等于 将S分为两 个子集 和 并将 和 分配到 两个子节点中, 如果子节点基尼系数小于l, 则该子节点为一个叶节点, 如果两个子节点均 为叶节点, 则返回决策树T, 否则进行Step4; Step4:对于非叶子节点, 分别在令 和 令 递归调用Step1到 Step4, 生成二叉决策树T。权 利 要 求 书 2/2 页 3 CN 114330716 A 3

.PDF文档 专利 一种基于CART决策树的大学生就业预测方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于CART决策树的大学生就业预测方法 第 1 页 专利 一种基于CART决策树的大学生就业预测方法 第 2 页 专利 一种基于CART决策树的大学生就业预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:07:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。