• 决策树

    普通类
    • 支持
    • 批判
    • 提问
    • 解释
    • 补充
    • 删除
    • 决策树分析

     

     

     

    教育数据挖掘方法与应用实验报告

    姓名

    王雯清

    学号

    202105720130

    年级

    2021

    专业

    教育技术学(师范)

    学院

    教育科学与技术学院

     

     

    实验PISA数据的决策树分析

    一、实验目的

    本实验旨在运用modeler中的决策树分析算法(C5.0、CART和CHAID),对PISA数据进行深入挖掘和分析,以探索学生数学成绩与影响因素之间的复杂关系,并构建预测模型,为教育政策和实践提供科学依据。

    二、实验工具

    IBM SPSS Modeler软件:提供强大的数据挖掘和建模功能,适用于决策树分析等算法的应用。

    PISA数据集:包含丰富的学生特征、学习成绩等变量,适合用于探索性分析和建模研究。

    三、实验原理

    1、决策树是一种常用的数据挖掘算法,用于分类和回归分析。它通过一系列规则对数据进行分割,每个分割点都对应一个特征属性和该属性的阈值。决策树模型能够从数据中学习简单的预测规则,这些规则能够对数据进行分类或预测。

    决策树实验原理通常包括以下几个步骤:

    1) 数据准备:包括数据清洗(处理缺失值、异常值等),数据转换(如将分类数据编码为数值型数据)以及确定目标变量(即要预测的变量)。

    2) 划分数据集:通常将数据集划分为训练集和测试集,训练集用于建立模型,测试集用于评估模型的性能。

    3)模型构建:使用训练集数据,决策树算法将寻找最佳的分割点,这些分割点基于不同的算法(如C5.0、CART、CHAID等)有不同的选择标准。

    4)剪枝:为了避免过拟合,需要对决策树进行剪枝,剪枝方法包括预剪枝和后剪枝。

    5)模型评估:使用测试集数据评估模型的性能,常用的评估指标包括准确率、召回率、精确率等。

    6)结果解释:分析模型结果,包括树的结构、各个特征的贡献度、模型的泛化能力等。

    2、C5.0、CART和CHAID之间的区别

    1)C5.0算法:

       C5.0算法是C4.5算法的增强版,它使用信息增益率作为节点分裂的标准,能够处理连续属性和缺失值,并在生成树的过程中采用后剪枝技术以避免过拟合。

    2. CART算法:

       CART算法既可以用于分类也可以用于回归,使用基尼不纯度作为默认的节点分裂标准,生成的树是二叉树,每个非叶节点都产生两个子节点,同时采用成本复杂度剪枝技术来避免过拟合。

    3.CHAID(Chi-squared Automatic Interaction Detection)算法:

       CHAID算法使用卡方检验来确定特征的分割点,适合处理分类变量,能够处理缺失值,并在处理变量时考虑到变量之间的交互作用,特别适用于变量之间存在多重共线性的情况,生成的树结构简单且易于理解。

    总结来说,这三种决策树算法在节点分裂标准、树的结构、处理数据类型以及剪枝方法上各有不同。选择哪种算法取决于具体的数据特性和业务需求。在实际应用中,可能需要通过比较不同算法的性能来决定使用哪一种。

    四、实验步骤

    1、决策树C5.0

    1) 从“源”中拖拽出“Statistics 文件”到数据流编辑区,并编辑数据,从“字段选项”选项卡中拖拽“导出”节点到数据流编辑区,建立连接,设置MATH为十个PVMATH的平均值

     

    2)从“字段选项”选项卡中拖拽“过滤器”节点到数据流编辑区,过滤不需要的节点,建立连接

    1. “字段选项”选项卡中拖拽“导出”节点到数据流编辑区相连接。右键编辑“导出”节点参数,将数值型“MATH”字段变换为标记型字段,命名为“MathClass”,设置公式“MATH >= 500”,true 值对应“高”,false 值对应“低”,设置好后确定应用。

    4“字段选项”选项卡中拖拽“类型”节点到数据流编辑区相连接,并编辑“类型”节点,将“MathClass”字段的角色设置为“目标”,其余字段设置为“输入”。

     

    1. “字段选项”选项卡中拖拽“分区”节点到数据流编辑区,与“类型”节点连接,并右键编辑参数,设置 80%的数据用作训练,20%的数据用作预测。

    1. “建模”选项卡中拖拽“C5.0”节点到数据流编辑区连接并右键编辑。“字段”选项卡使用预定义角色,“模型”选项卡和“分析”选项卡具体勾选如图。

    1. 点击运行得到结果

    1. 决策树CART(从上一步的过滤器步骤开始)

    (1)“字段选项”选项卡中拖拽“类型”节点到数据流编辑区相连接,并编辑“类型”节点,将“Math”字段的角色设置为“目标”,其余字段设置为“输入”。

    (2)“字段选项”选项卡中拖拽“分区”节点到数据流编辑区,与“类型”节点连接,并右键编辑参数,设置 70%的数据用作训练,30%的数据用作预测。

    3)从“建模”选项卡中拖拽“CART”节点到数据流编辑区连接并右键编辑。“字段”选项卡使用预定义角色,“构建选项”选项卡勾选如图。

    4)点击运行得到结果

    1. 决策树CHAID(从上一步的分区步骤开始)
    1. “建模”选项卡中拖拽“CHAID”节点到数据流编辑区连接并右键编辑。“字段”选项卡使用预定义角色,“构建选项”选项卡勾选如图。

    1. 点击运行得到结果

    五、实验结果

    1、决策树CR5.0

    左侧为规则集,可以看到逻辑推理的过程和估计的准确性,右侧可以看到各变量的重要性。

    查看器可以看到具体的决策树及各分支,可以看到每个节点的总样本量和分数高低比率

    根据图表可以得出以下实验结果:

    家里有多少书、书本的类型、在家里有无自己的房间、家里有无艺术、技术的书籍等都是影响学习者数学成绩的重要变量

    以规则1为例可以根据家庭的书籍数量、父母的教育水平、家庭拥有的物品等多个因素来推断学生的数学成绩高低例如,如果一个家庭拥有大量书籍、父母的教育水平较高、拥有多辆汽车和多台电脑等信息,可能会被推断为学生的数学成绩较高

    1. 决策树CART

    运行结果如图所示,家里有没有通网的手机、家里有多少辆车、年级、国家、父亲是否有ISCED level4证书、父亲是否有ISCED level5B证书、父亲是否有ISCED level6证书、母亲是什么学历、家里是否通网、自身形象都是影响学习者数学成绩高低的重要变量,且呈现如图所示的不同重要性。

    1. 决策树CHAID

    运行结果如图所示,家里有多少辆车、家里有多少电子阅读器、年级、家里有多少电视、家里有多少乐器、家里有没有经典名著、家里有没有技术书、母亲是否有ISCED level6证书、家里有多少洗浴间、国家都是影响学习者数学成绩高低的重要变量,且呈现如图所示的不同重要性。

     

    六、分析与讨论

    1、分析:

    1)对学习者数学成绩的影响因素:家庭环境的影响:家里有多少书、书本的类型、在家里有无自己的房间、家里有无艺术、技术的书籍等都是重要的家庭环境因素。这些因素可能反映了家庭对学习的重视程度和提供学习资源的丰富程度,对学生的数学成绩有积极影响。父母教育水平的影响:父母的教育水平对学生的数学成绩也具有显著影响。较高的父母教育水平通常意味着更好的学术指导和家庭学习氛围,有助于学生的学习成绩提高。

    2不同决策树模型对变量的重要性存在差异:不同的决策树模型给出了不同的重要变量列表,这可能是由于不同模型对数据特征的处理方式不同所致。例如,CART 模型认为家里是否通网的手机是一个重要变量,而CHAID 模型则没有将其列为重要变量。

    3不同变量在不同模型中的重要性差异:即使是相同的变量,在不同的决策树模型中也展现出不同的重要性。比如年级在CART模型中被认为是一个重要变量,而在CHAID模型中却没有被列为重要变量。

    综上所述,通过对不同决策树模型的实验结果进行分析,我们可以更全面地了解家庭环境及个人因素对学习者数学成绩的影响,并且需要根据具体情况选择合适的模型和变量来进行分析和预测。

    1. 措施:

    在实践中,我们可以采取以下措施来促进学生数学成绩的提高:

    1加强家庭教育:鼓励家长提高自身的教育水平,多购买有利于学生学习的书籍和物品,为学生创造良好的学习环境。

    2提高学生自身素质:引导学生养成良好的学习习惯,加强自身知识储备和技能训练,提高学习成绩和竞争力。

    3应用数据分析技术:通过应用数据分析技术,了解学生学习情况和影响因素,针对性地制定教学计划和辅导方案,提高学生的学习效果。

    4推广优质教育资源:加强教育资源的共享和开放,推广优质教育资源,提高学生受教育机会和教育质量。

    七、总结或个人反思

    1、总结:

    1决策树算法的优势:决策树算法在进行数据挖掘和分析时具有一些显著的优势。首先,决策树算法可以处理具有多个输入变量和输出变量的复杂数据。其次,决策树算法能够自动处理缺失值和离散化的数据,减轻了数据预处理的负担。此外,决策树算法还能够提供变量的重要性排序,帮助我们理解影响结果的关键因素。

    2模型选择的重要性:在这个实验中,我使用了三种不同的决策树算法来建立模型,并比较它们的性能。结果显示,不同的算法在模型的准确性和复杂性方面存在差异。因此,在选择合适的模型时,需要综合考虑精度、解释性和计算成本等因素。

    2、个人反思

    1)模型评估和优化:在实验中,我发现由于预处理不够充分,导致有些决策树算法生成了过多的规则,而且模型的准确率也较低。为了避免这种情况的再次发生,我将会继续运用数据预处理的方法和技术,包括如何正确地处理缺失值、异常值、离群点等问题,以及如何使用特征选择和特征缩放来提高模型的效果。

    2)学习和改进:在实验中,我学习了三种不同的决策树算法,包括ID3C5.0CART,并了解了它们的优缺点和适用范围。这对我的数据挖掘工作提供了新的思路和方法。为了进一步提升自己的能力,我将继续学习其他的数据挖掘算法,如神经网络、支持向量机等,并了解它们的原理和应用场景以应对更加复杂的数据挖掘问题。

    • 标签:
  • 加入的知识群:
    学习元评论 (0条)

    评论为空
    聪明如你,不妨在这 发表你的看法与心得 ~



    登录之后可以发表学习元评论
      
暂无内容~~
顶部