试析决策树算法在教育统计学中的应用论文

时间：2022-12-02 14:12:02 教育毕业论文我要投稿

相关推荐

试析决策树算法在教育统计学中的应用论文

　　数据挖掘就是从大量的不完全的有噪声的模糊的随机的实际应用数据中，抽取隐含在其中的、事先并不知道的、但又是潜在有用的信息和知识的过程。

试析决策树算法在教育统计学中的应用论文

　　决策树算法作为常用的数据挖掘技术之一，其基本思想是将实例库中记录的大量有限的具体事实数据进行归纳和分类并建立树型结构，以发现并形成隐含在大量实例中的若干形式化的分类判别规则，典型的决策树算法方法有ID3方法和IBLE(Information—based Learning from Example)方法。

　　利用决策树评估教材质量的基本思想

　　笔者以高校教学质量建设中的重头戏——教材建设为例来阐释决策树算法在教育统计学中的应用。

　　从教材的教学水平，科学水平等两大要素来对教材的质量进行合理分类，探索出科学合理的决策树的模型，使之成为学校教材建设管理的理论方法，并在今后的教材管理中起着一定的指导作用。

　　教学水平：教材符合人才培养目标及本课程教学的要求：取材合适、深度适宜、份量恰当;符合认知规律;富有启发性;便于学习。

　　科学水平：能反映本学科国内外科学研究和教学研究的先进成果;能完整地表达本课程应包含的知识;反映其相互联系及发展规律;结构严谨。

　　构建决策树模型

　　即利用训练集(教材建设数据库)建立并精化一棵决策树。该过程可分为建树和剪枝两阶段。其中，建树是用每一个属性将训练集划分成一个或多个子集，递归地调用该过程，直到每个子集中的记录都属于同一类，最终得到决策树。剪枝是为提高树的精度及分类效率，而去掉因训练数据中的噪声和孤立点等引起的不可靠或可能是噪声的一些枝条。

　　利用决策树研究影响教材质量的因素

　　首先，将学生问卷调查数据库和教学管理部门所掌握的资料结合起来，分类整理，同时进行规范化的数据清洗，得到创建决策树模型的训练集，如表1所示。

　　根据评估预期的要求，将所有教材的评估结果分为两类：

　　Class p：综合评价=“优秀”

　　Class n：综合评价=“一般”

　　从上表显示的数据可知，综合评价为“一般”的教材有9种，综合评价为“优秀”的教材有6种，从而可以计算出样本分类的期望信息：

　　—∑Pi log2(pi)=

　　I(p，n)=I(9，6)= —[(9/15)×log2(9/15)+6/15×log2=(6/15)]

　　=—(—0.444—0.53)=0.974

　　下面以综合评价是否为“优秀”作为衡量标准分别计算由各个属性划分子集的信息熵，以及各自的信息增益度。

　　计算“教学水平”的信息增加益度

　　从而算出信息熵E(教学水平)=