(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111608264.1
(22)申请日 2021.12.24
(71)申请人 徐州工程学院
地址 221000 江苏省徐州市 云龙区丽水路2
号
(72)发明人 党向盈 鲍蓉 姜代红 徐玮玮
佟恒乐 王晓雪
(74)专利代理 机构 徐州市三联专利事务所
32220
代理人 何君
(51)Int.Cl.
G06N 5/00(2006.01)
G06Q 10/04(2012.01)
G06Q 50/20(2012.01)
(54)发明名称
一种基于CART决策树的大学生就业预测方
法
(57)摘要
本发明公布了一种基于CART决策树的大学
生就业预测方法, 旨在提供一种预测大学生就业
情况的方法。 本发明首先对大学生数据信息预处
理, 形成规范的、 可供数据挖掘的基本属性数据
集; 然后, 利用皮尔森相关分析法, 确定数据集中
大学生基本属性与就业预测目标属性的相关性,
将与就业预测目标属性相关的大学生基本属性,
确定为用于构建大学生就业预测模型的特征向
量; 最后, 基于训练集, 由特征向量计算基尼系
数; 采用基于CART决策树算法, 构建大学生就业
预测模型。 本发 明方法能够根据大学生信息数据
集预测大学生就业情况, 为高校就业管理部门提
供智能化服务, 指导学生合理就业, 有助于提高
大学生的就 业率。
权利要求书2页 说明书10页 附图6页
CN 114330716 A
2022.04.12
CN 114330716 A
1.一种基于 CART决策树的大 学生就业预测方法, 其特 征在于, 该 方法包括以下步骤:
S1: 大学生信息数据的预处 理;
收集大学生原始数据, 构建学生数据基本属性集合, 并对每个数据进行规范化处理, 形
成规范的数据集, 大学生数据基本属性集合记为N={n1,n2,…,nc}, 其中ni为第i个基本属
性, c为基本属性的个数;
S2: 确定影响大 学生就业预测目标的相关属性;
设大学生就业预测目标属性集合为Y={y1,y2,...y|Y|}, 其中|Y|为预测目标属性的取
值个数, yu为预测目标属性 值; 设N中元 素ni和Y中元素yu的皮尔森相关系数为 λi,u;
设置皮尔森相关系数阈值为h, 当λi,u≥h, 定义ni与Y相关; 反之, 定义ni与Y不相关; 基于
上面的方法, 统计与Y相关的大学生基本属性; 将影响大学生就业目标Y的相关属性记为特
征向量X={x1,x2,…,xm}, 即为, 其 中m为特征变量的个数, m≤c; 其 中对于xi的取值有Ki类,
记为
S3: 基于CART决策树构建大 学生就业预测模型;
设大学生基本属性数据信息有α 组, 将其中的r组数据设为训练集S, 剩余的α ‑r组数据
设为测试集; 训练集S用于构建就 业预测模型, 测试集用于验证就 业测试模型的准确性;
在训练集S中计算
的基尼系数
对训练集S中
的大学生基本属性进行基尼系数求解, 设基尼系数的阈值为l, 然后基于
构建大
学生就业CART决策树, 即就 业预测模型。
2.根据权利要求1所述的一种基于CART决策树的大学生就业预测方法, 其特征在于: 所
述的步骤S2中计算Y和N的皮尔森相关系数 λi, u的方法为:
其中, cov(ni,yu)为ni与yu协方差,
和
分别为ni与yu的标准差 。
3.根据权利要求1所述的一种基于CART决策树的大学生就业预测方法, 其特征在于: 所
述的步骤S3中, 将70%的数据设为训练集, 3 0%的数据设为测试集。
4.根据权利要求1或3所述的一种基于CART决策树的大学生就业预测方法, 其特征在
于: 所述的步骤S3中, 对训练集S中的大 学生基本属性进行基尼系数求 解的方法为:
当xi取值为
时, 记为
当xi取值不为
时, 记为
由此可以将S
分为
和
两部分, 对应训练集的数目分别为
和
在S, 当
时, Y取值
yu的 概率为
当
时 , Y取 值yu的 个数 为
那么,
的基尼系数 可以表示 为:
同理
的基尼系数 可以表示 为:权 利 要 求 书 1/2 页
2
CN 114330716 A
2由
和
可知, 对于S, V(xi)取
的基尼系数
可以表示 为:
5.根据权利要求1或3所述的一种基于CART决策树的大学生就业预测方法, 其特征在
于: 所述的步骤S3中, 基于
构建大学生就业CART决策树的方法为:
设基尼系数的阈值 为l
输入: S, X={x1,x2,…,xm}, l, m;
输出: 决策树T;
Step1: 计算
如果
则T为一颗单节
点树; 否则转Step2;
Step2:对于
求解它们的最小值, 记最小值为
取
为二叉树的切分点;
Step3:根据S中xi取值是否等于
将S分为两 个子集
和
并将
和
分配到
两个子节点中, 如果子节点基尼系数小于l, 则该子节点为一个叶节点, 如果两个子节点均
为叶节点, 则返回决策树T, 否则进行Step4;
Step4:对于非叶子节点, 分别在令
和
令
递归调用Step1到
Step4, 生成二叉决策树T。权 利 要 求 书 2/2 页
3
CN 114330716 A
3
专利 一种基于CART决策树的大学生就业预测方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:07:53上传分享