维普资讯 http://www.cqvip.com
第6卷第4期2006年2月 科学技术与工程 Vo1.6 No.4 Feb.2006 1671-1815(2006)04—0390—04 Science Technology and Engineering @ 2006 Sci.Tech.Engng 基于数据挖掘分类技术的高校教学方法研究 倪现君 (山东教育学院计算机系.济南250013) 摘要探索在高校教学中数据挖掘分类技术的应用,提出了数据挖掘技术 高校教学应川巾的实施方案,并以高校教学中学 生成绩的分析为例介绍了方案的实施过程。 荚键词数据挖掘 分类算法决策树 高校教学方法 中图法分类号TP31 1.12; 文献标识码A 1问题的提出 题应是有预见的 第二步,数据采集 这是一个工作鼍较大.占 在高校教学中,教师在教学实施过程中往往积 据时间较多的阶段。教师需要在以往的教学实践 累了大量的数据,但目前对这些数据的处理还停留 中,注意收集数据信息,有些数据的产生可以直接 在初级的数据备份、查询及简单统计阶段.不能发 获得,有些数据需要对学生进行调查获得。 挥它应有的作用。以学生成绩为例,教师对学生成 第j三步,数据转换将教师收集的不同数据信 绩的分析处理一般仅仅是统计成绩为优、良、一般、 息集成并转换为一个分析数据模型,这一数据模型 差等级别的人数,对于学生取得这些成绩的原因往 是针对算法而准备的, 同的算法可能需要不同的 往无法了解。如何开发利用这些数据,理性地分析 分析数据模型。 教学中的各方面的成效得失是广大教师共同关心 第四步,数据分类挖掘分类挖掘的目的是为 的问题。如果能够找到影响学生学习成绩的因素, 了建立一个分类模型。首先要选择合适的挖掘算 必然有利于教学质量的提高。 法,并使用合适的程序设计软件实现这・算法;接 2解决方案 着对经过转换的数据进行挖掘 第五步,分类规则结果分析这+步主要解释 数据挖掘是一种决策支持过程.是深层次的数 和评估分类结果,借以改进教学策略。 据信息分析方法.将数据挖掘技术应用于教学评价 尢疑是非常有益的,它可以全面地分析考试结果与 3 数据挖掘分类技术在高校教学中的应 各种因素之间隐藏的内在联系 用 过去,对教学过程中的大量数据信息的处理通 3.1数据采集 常采用数据库的查询方法。本文采用数据挖掘中的 学生成绩分析就是发现两个或多个属性之间 分类算法,可以将大量的数据转化为分类规则,从 的函数关系。要分析学乍学习成绩的成凶,需要有 而更好地分析这些数据。具体步骤如下。 多个方面的数据。以计算机基础课程的教学为例, 第一步,确定挖掘对象、目标清晰地定义出 教师应采集学生的平时基本学习情况信息.如知识 问题,认清数据挖掘的目的是数据挖掘的重要一 基础、课堂学习效果、学生对课程的感兴趣程度、作 步。挖掘的最后结果是不町预测的,但要探索的问 业完成情况、课后所花费的时间、所使用的学习方 法等.用以探讨哪些冈素对学习成绩是有影响的。 2005年10月20日收到 学习成绩为优良或学习成绩为不及格有哪些方面 作者简介:倪现l君,男,硕 山东省教育学院计算机系讲师。 的原凶 维普资讯 http://www.cqvip.com
4期 倪现君:基于数据挖掘分类技术的高校教学方法研究 391 3.2数据预处理 3.2.1数据集成 模型。由于训练集不是太大,可以选择ID3或C4.5算 法进行分类挖掘,这里选择ID3算法进行分类。 3.3.1 ID3算法 就是将来自多个数据源的数据合并N-+起。可 以将数据采集得到的多个数据库文件,利用数据库 技术生成学生成绩分析基本数据库。 3.2.2数据清理 决策树算法中最著名的算法是Quinlan提出的 ID3算法。ID3算法从树的根节点处的所有训练样本 开始.选取一个属性来区分这些样本,属性的每一 个值产生一个分支。将分支属性值的相应样本子集 数据清理的主要工作就是填补遗漏的数据值。 在学生成绩分析基本数据库中可能缺少一些我们 感兴趣的属性值,对于这些空缺,可以使用数据清 理技术来填补。本文采用忽略元组的方法删除调查 数据中有大量空缺项的 录。对于其他个别空缺, 因为总的记录数不算太多,而空缺值较少,其他的 个别空缺值采用人工填充的方法,填充原则是以该 记录的其他属性值作为筛选条件,在数据库中进行 筛选,筛选后,使用多数属性值填充该空缺。 3.2-3数据转换 数据转换主要是对数据进行规格化操作。由于 大多数属性属于离散值属性,只有个别连续值属性 (如平时成绩及总成绩属性),需将连续值属性离散 化处理。使用概念分层技术,可以将连续值属性转 换为离散值属性(即离散化)。直方图分析是一种较 简单的离散化方法。分为等宽分箱和等深分箱两 类。等宽分箱将属性值划分成相等的部分或区间。 在等深分箱中.属性值被划分使得每个部分包括尽 可能相同个数的样本。本文使用等深分箱进行离散 化,将平时成绩属性的所有值分为三类,如:成绩从 0~70属于“较差’。7O~85属于“一般”。85以上属于 “较好”。 3.2.4数据消减 数据消减的目的是缩小所挖掘数据的规模.但 却不会影响(或基本不影响)最终的挖掘结果。在这 里,采用消减维数的方法,即从初始特征属性中找 出真正有用的特征属性以减少数据挖掘时要考虑 的特征属性或变量个数。由于学生信息表中的属性 字段很多,本文为了便于决策树模型的建立。选择 其中与成绩属性相关性较大的课后上机时间、学习 前对课程的了解程度、课堂学习情况、平时作业情 况、总成绩属性作为建立总成绩分类决策树模型的 依据,生成新的学生成绩分析基本数据表。 3.3数据分类挖掘 分类挖掘的目的是为了建立成绩分析决策树 移到新生成的子节点上。这个算法递归地应用于每 个子节点。直到一个节点上的所有样本都分配到某 个类中。ID3算法是一个贪心算法。它采用自上而 下、分而治之的递归方式来构造一个决策树。 3.3.2属性的选择 属性选择采用信息增益的方法来确定。通过选 择具有最高信息增益(熵减少的程度最大)的属性作 为当前节点的测试属性,这样保证对训练样本子集 进行分类时所需要信息最小。从而确保所产生的决 策树最为简单。属性的选择方法如下。 设S为一个包含了s个数据样本的集合。且类别 属性可以取m个不同的值,对应于m个不同的类别G (i=1,…,m)。假设S 为类别G中的样本个数;那么,要 对一个给定数据对象进行分类所需要的信息量为: m t(sl,S2,…,S )=一) ̄pilog2(p )。 l 其中p 是任意一个数据对象属于类别C 的概率:PF S 了。 设一个属性A取 个不同的值{口 ,啦,…,瓯}。利 用属性A可以将集合S划分为 个子集{S ,S ,…, }, 其中s包含了5集合中属性A取嘶值的数据样本。若属 性A被选为测试属性(即用属性A对当前样本集进行 划分),设S 为子集S中属于Ci类别的样本数。那么利 用属性A划分当前样本集合所需要的信息(熵)可以 按如下公式计算: n n E(A)=∑ ,(s …,5 )。 =1 这样利用属性A对当前分支节点进行相应样本 集合划分所获得的信息增益就是: Gain(A)=,(5l,S2,…,S )一E(A)。 通过以上公式计算每个属性的信息增益。选择 具有最高信息增益的属性作为给定集合5的测试属 性,创建一个节点,并以该属性标记,对属性的每个 值创建分支.进行样本划分。 维普资讯 http://www.cqvip.com
392 科 学 技 术 I 程 6卷 3.4决策树的修剪 在…个决策树刚刚建立起来的时候,由于许多 分支是由训练样本集合中的异常数据(由于噪声等 原因)构造出来的,决策树过于“枝繁叶茂”,这样既 降低了树的可理解性和可用性,同时也使决策树本 身对历史数据的依赖性增大,也就是说这棵决策树 对此历史数据可能非常准确,一旦应用到新的数据 时准确性却急剧下降,这种情况被称为为训练过 度。为了使得到的决策树所蕴含的规则具有普遍意 义,必须对决策树进行修剪。 树枝修剪的任务主要是删去一个或更多的树 枝,并用叶替换这些树枝,使决策树简单化,以提高 今后分类识别的速度和分类识别新数据的能力。通 常采用两种方法进行树枝的修剪,现分述如F。 (1)事前修剪法 该方法通过提前停止分支生 成过程。即通过在当前节点上就判断是否需要继续 划分该节点所含训练样本集来实现。 一日.停止分 支,当前节点就成为一个叶节点。该叶节点巾可能 包含多个不同类别的训练样本。由于该修剪是在分 支之前做出的,所以称之为事前修剪。 常用的方法是设定决策树的最大高度(层数)来 树的生长。还有一种方法是设定每个节点必须 包含的最少记录数,当节点巾记录的个数小于这个 数值时就停止分割。但确定这样一个合理的阈值常 常也比较困难。阈值过大会导致决策树过于简单 化.而阈值过小时又会导致多余树枝无法修剪。 (2)事后修剪法 该方法是从另一个角度解决 训练过度的问题 它在允许决策树得到最充分生长 的基础上.再根据一定的规则,剪去决策树中的那 砦 具有一般代表性的叶节点或分支。修剪后,被 修剪的分支节点就成为・个叶节点,并将其标记为 它所包含样本中类别个数最多的类别。 事后修剪是一个边修剪边检验的过程,一般规 则是:在决策树不断剪枝的过程中,利用训练样奉 集或检验样本集数据,检验决策树对日标变量的预 测精度,并计算出相应的错误率。用户可以事先指 定一个最大的允许错误率。当剪枝达到某个深度 时,如计算出的错误率高于允许的最大值,则应立 即停止剪枝,否则可以继续剪枝。这是利用训练样 本集进行后修剪时会出现错误率越低、决策树的复 杂程度越高的现象。 当然事前修剪可以与事后修剪相结合,从而构 成一个混合的修剪方法。事后修剪比事前修剪需要 更多的计算时间,但得到的决策树更为可靠 3.5生成分类规则 决策树最大的优点就是可以直接提取分类规 则。由于本文主要希望了解影响学生学习成绩的因 素,因此,所提取的规则主要考虑分类为“Yes”的百 分比规则。按照决策树的各分支进行归纳,所生成 的分类规则如下: IF平时成绩=较好AND课堂学习=完全掌握 THEN成绩优良的比率=100%: IF平时成绩=较好AND课堂学习=基本掌握 THEN成绩优良的比率=72%: IF平时成绩=较好AND课堂学习=不够好AND 上机时问>=4 FHEN成绩优良的比率=67%; IF平时成绩=较好AND课堂学习=不够好AND 上机时问=2~4 THEN成绩优良的比率=64%: 4小结 本文在分析了数据挖掘技术在高校教学研究 中应用的呵行性之后,提出了一种以提高教学质量 为根本目标的应用数据挖捌分类技术进行高校教 学研究的实施方案。根据所提出的实施方案,本文 以学生成绩分析为例,完整地实现了数据分类挖掘 的全过程.包括:确定数据挖掘对象及目标:采集数 据:采刖数据集成、数据清理、数据转换、数据消减 等数据预处理技术:使用ID3决策树算法生成决策 树.并利用事后修剪法埘决策树进行修剪;最后由 决策树产生分类规则。完成了成绩分析决策树模型 的建立 参 考 文 献 1刘红岩.陈剑,陈周青.数据挖掘中的数据分类算法综述.清华大 学学报(自然科学版),2002;42(6): 2栾丽华.决策树分类技术研究.汁算机T程,2004;30(9): 3 朱应序.一种两阶段决策树建树方法灶其应用 计算机工程, 2004;30(1): 维普资讯 http://www.cqvip.com
4期 倪现君:基于数据挖掘分类技术的高校教学方法研究 393 Research on the University S Teaching Method Based on the Data Mining Categorized Technology NI Xianjun (Department of Computer Science.Shandong institute of Education,Jinan 25001 3) [Abstract ̄The data mining is explored mainly to application of categorized technology in university s teaching・ The implementing scheme is excavated in university s teaching which is used of technology after putting forward the data.have taken analysis of middle school student s achievement of university s teaching as an example and introduced the implementation course of the scheme. [Key words]the data mining categorized algorithm decision tree university s teaching method 一 — (上接第385页) The Digital Watermarking Algorithm Based on Spatial Domain and Chaoses Mapping WANG Wei,ZHU Li,MAO Wangnong (School of Soft+Hunan University,Changsha 410082;Network Center,Hunan University ,Changsha 410079) [Abstract]The LSB algorithm based on spatial domain is improved.It took advantage of chaos to preprocess watermarking and to use fixation normalization mutuality to embed watermarking in LSB.So the new algorithm improved the traditional LSB algorithm that was unreliable.Experiment showed that the algorithm can clearly detect existence of watermarking without original image,and processing pictures had more performance. [Key words]spatial domain chaos robustness digital watermarking image processing