Web数据挖掘在智能选课系统中的应用研究 口 陶小红 (湖南科技学院办公室湖南・永州425100) 摘要:web数据挖掘技术是一种热门的信息技术,是数据挖掘技术在web环境下的应用。文章首先阐述了 web数据挖掘技术的基本原理,接着构建了基于web数据挖掘的学校智能选课系统模型,根据学生的不同的兴 趣和特点,提供不同的课程选择,更有利于实现对学生的培养。 关键词:web数据挖掘 智能选课系统 学生培养 中图分类号:TP312 文献标识码:A 文章编号:1007—3973(2010)02・068—03 l引言 随着教育信息化得发展,越来越多的高校开始使用智能 系统对数据库进行管理,有利于实现对蕴含在数据里的信息 进行挖掘,为相关工作提供理论依据。传统的选课系统是教 图l数据挖掘步骤 师按照专业进行划分,学生只能在专业相关的层次上对学习 的课程进行选择。而智能选课系统改变了传统的选课模型, 能根据学生的不同兴趣和特点提供相应的学习课程选择,能 充分体现出因人施教。文章把web数据挖掘技术应用到智能 选课系统的模型构建中,利用关联规则发现学生的学习兴趣 和特点,给出相应的学习课程选择,这将为高校针对性的对人 Web数据挖掘是数据挖掘技术在web环境下的应用。它 所处理的对象包括:静态网页、web数据库、web结构和用户记 录信息等。一般基于web的数据挖掘主要分为三类:(1)web 内容挖掘。对文档的内容进行挖掘或提取关联信息,并对文 档的内容进行总结和概括。(2)web结构挖掘。从站点组织结 才培养提供一个方法。 2数据挖掘的基本原理方法 数据挖掘是--fee决策支持过程,主要基于人工智能、机 器学习和统计学技术,从数据库的大量数据中提取出隐含 的、先前未知的、有应用价值的、非平凡的模式。其中,模式 指数据库之间的逻辑关系;而非平凡指在知识的发现过程 中具有的不断定性和一定的自由度。。数据挖掘的过程主 要分为三步:数据预处理、数据挖掘及结果的分析和评估 。 数据预处理是数据挖掘过程中一个很重要的步骤,尤其是 在对含有噪声、不完整、甚至不一致的数据进行数据挖掘 时,需要进行数据预处理以提高数据的质量,并最终达到提 构和页面结构中推导出知识,对web页面间的结构进行挖掘, 找出数据链的结构进行分类、聚类,从而发现页面间的关系, 找出重要的页面。(3)web使用记录挖掘。通过分析web服 务器上的日志文件,从而挖掘出用户访问web的兴趣模式,分 析用户行为的意义 。 Web数据挖掘的系统框图如图2所示,系统大致可分 为四个模块:数据收集模块(服务器端数据、客户登记信 息)、数据预处理模块、模式规则选择模块和应用接口模块。 模式收集模块负责收集服务器端的数据和客户登记资料, 然后以文本的方式将收集的结果返回;数据预处理模块对 返回的信息进行预处理,去除信息冗余:模式规则选择模块 则是从各个站点或站点间获取通用模式,同时还对获取的 模式负责解释 。 高数据挖掘所获模式知识质量的目的 数据挖掘首先要确 定挖掘的任务和目的,确定挖掘任务后,就要决定用什么样 的挖掘算法。选择算法有两个考虑的因素:一是不同的数 据有不同的特点,因此要用与之相关的算法来挖掘;二是要 根据用户和实际运行系统的要求。在结果的分析和评估中, 对一些可能存在的冗余或无关的模式,要将其剔除 如果 图2 Web数据挖掘系统框图 挖掘出来的模式不符合用户要求,则需要重新选择数据,采 3智能选课系统模型构建与分析 用新的数据变换方法,换用新的参数值。数据挖掘的具体 步骤如图1所示。 构建的智能选课系统模型如图3所示: ——斟协i£坛・2010年第2期(下)—— 学生 1 来的链接通路返回,通过修改各层神经元的权值使得误差信 : 号减小,然后在转入正向传播过程,反复迭代,直到误差小于 浏览器 给定值 。 jf (2)利用聚类分析对学生的学习兴趣和特点进行分类。信 Il 学生信息库 ll 学习课程推理机 Il 领域知识库 l 息挖掘模块从学生信息库中抽取学生特征,按照学生的学习 \. Jr .—/ 兴趣进行分类,并赋予每个学生类标记,然后根据记录里每类 l 信息挖掘模块 1 web服务器 学生的特点,给出相应的选修课程范围。聚类分析是数据挖 ]c 掘中一种非常重要的技术和方法,聚类就是将一组相关集合 数据库 按照某种相似度函数或相似性准则划分成若干类别,使同一 类别个体之间的差异达到最小化,不同类别之间的差异达到 图3智能选课系统模型 最大化。聚类分析的问题可描述为:给定111维空间Rm中的 其中,学生信息库,用于记录学生的学习行为兴趣:学习 ● n个各向量,把每个向量归属到S个聚类中的某一个,使得每 课程推理机,通过人机交互,从学生信息库中获得信息,启动 个向量与其聚类中心的距离最小。聚类分析的实质是一个全 推理系统工作,为学生提供合理的选课课程范围。信息挖掘 局优化问题。此外,m可认为是样本参与聚类的属性个数,n 模块,用于控制、协调整个智能选课系统,用于描述关联、聚类 是样本个数,S是由用户预先设定的分类书目或聚类个数 。 分析等数据挖掘的方法并根据当前数据库中学生信息应用知 按照聚类结果表现方式的不同,聚类分析算法可以分为: 识库中知识,按确定的推理规则进行推理,对学生的信息进行 基于群的聚类算法一这种算法可看做进化计算的一个分支, 分析,从而给出学生.选修学习课程的范围。领域知识库,用于 它模拟了生物界中蚁群、鱼群和鸟群在觅食和逃避敌人时的 存放相关知识的课程。 行为;基于粒度的聚类算法——聚类是无导师的学习,聚类的 [学生登录系统: 目的是发现样本点之间最本质的抱团性质的一种客观反映, 聚类的操作是在一个统一的粒度下进行汁算的;基于模糊的 聚类算法一模糊聚类分析具有描述样本类属中间性的优点, 数据挖掘模块根据学生信息给出学 能够客观反映现实世界,人类大多用一些模糊的词语来交流 生感兴趣的课程页面及选课建议 思想互通信息,然后进行推理分析、综合判断,最后做出决策。 人们对客观事物的识别往往通过一些模糊信息的综合,来获 学生开始选课 得足够精确的定论 。 (3)利用关联规则发现学生的学习兴趣特点,进行相应的 信息收集系统收集信息 课程推荐。关联规则挖掘是从数据库中挖掘出那些支持度和 置信都大于用户指定的最小支持度和最小置信度的关联规则。 设I={i1,i2…,im)是由m个不同的项目组成的集合,D是针对 学生特征和选课存 入学生信息库 I的事物集合,每一笔事物包含若干项目ii,ij,…,ikI。关联规 则表示为XY,其中xI,YI,并且XY。X称作规则的前提,Y 图4学生选课流程 是结果。一般把一些项目的集合称作项目集。在项目集中项 Web数据挖掘技术在智能选课系统中的具体应用主要有: 目的数量叫做项目集的长度。关联规则XY成立的条件是: (1)利用人工神经网络挖掘学生信息库中学生对以前课程 (1)它具有支持度S,即事物数据库D中至少有s%的事物包含 学习的知识点的理解程度。人工神经网络在结构上模仿生物 x和Y;(2)它具有置信度c,即在事物数据库D中包含X的 神经网络,是一种通过训练来学习非线性预测的模型。这个算 事物至少有c%同时也包含Y 。 法的学习过程,由正向传播和反向传播组成,在正向传播过程 关联规则的挖掘是一个两步的过程:(1)所有频繁项集。 中,输入信息从输入层经隐单元层逐层处理,并传向输入层, 根据定义这些项集出现的频繁性至少与预定义的支持计数一 每一层神经元的状态只影响下一层神经元的状态。如果在输 样;(2)频繁项集产生强关联规则。根据定义,这些规则必须 出层不能得到期望的输出,则转入反向传播,将误差信号沿原 满足最小置信度和最小支持度。 ——斛协论I云・2010年第2期(下)—— 对关联规则的评价主要从两个方面进行:(1)系统客观层 c.count++ 候选项目集支持度计数加1"/ end 面——是指关联规则的有趣性是规则的具体结构和在数据挖 掘过程中所依赖的数据决定的。支持度和可信度度量是系统 客观层面评价关联规则的两个常用客观性指标:(2)用户主观 的层面——只有用户才能决定规则的有效性和可行性,所以 Lk={c∈Cklc.count> ̄min—sup}; end Answer=UkLk 应该将用户的需求与系统更加紧密集合超来,形成用户主观 该算法利用一个层次顺序搜索的循环方法来完成频繁项 itemset表示长度为k 层面的评价。可采用基于约束的数据挖掘方法,具体的约束 集的挖掘工作。其中D表示数据库:k-内容有数据约束、限定数据的挖掘维和层次和规则约束。。 的项目集;Lk表示长度为k的频繁项目集;Ck表示长度为k 的候选项目集;min_sup表示给定的最小支持度:Answer表示 4智能选课系统关键算法实现 挖掘模型主要分为算法实现库、挖掘配置、知识库和数据 所有的频繁项目集。 呈现四个功能实体,且每个功能实体都以动态链接库的方式 5结语 发布。 基于web数据挖掘技术的智能选课系统采用聚类分析、 聚类K-means算法实现如下: 关联规则、人工神经网络等方法,能从学生的访问、学习记录 Procedure K.means(s.k) 和测试中挖掘出有用信息,评估出学生的学习兴趣和特点,给 S=(X1,X2,…Xn} 出相关的页面和选修课范围,这样可以提搞学校教务选课系 m=1: 统的服务水平,为系统的决策提供智能化手段,也为高校合理 forj=l tOk//初始化聚类中心Zj 的培养人才提供了一个方法。 Do(fori=l to n (基金项目:湖南科技学院2008年科研项[](08XKYTC041) forj=l to k 资助) (D(Xi,zj)=Jxi—zjl; IfD(Xi,zj)=Min{D(Xi,Zj))then Xi∈q),/归类 注释: Ifm=l then Jc(m)=Zkj=l∑lXi—Zrj12 ①Borges J.,Levene M..Data mining ofuser navigation patterns m:m+1: 【C】.Proceedings of workshop Web usage Analysis and user forj=l tO k profiling.San Diego,2000,pp:3 1-36. zj=(),n;//重置聚类中心 ②Jiawei H.,Micheline K..Data Mining:Concepm and Techniques While JJc(m)一Jc(m—1)I>§; [M】.San Francisco:Diane Cerra,2006. 其中Xi为n个输入数据对象的集合:输出为K个聚类中 ③韩晓莉,李秉智.个性化Web推荐服务研究[J】.计算机科学 心zj及K个数据对象集合q [J】,2006,33(4):135.138. 关联规则的数据挖掘Apfiofi算法实现如下: ④赵东东.电子商务中的web数据挖掘系统的设计【J】.微计 Input:学生信息数据库D; 算机信息,2007,10(3):168-170. 最小支持度rain—sup; ⑤徐欣,徐立鸿.教学质量评价与预测的人工神经网络方法 Output:所有频繁项目集; [J】.统计与决策,2009,20:159.160. Cl=fcandidate k-itemset); ⑥刘立军,周军,梅红岩.Web使用挖掘的数据预处理【J].计 Ll=(c∈Cllc.count ̄>min—sup); 算机科学,2007,34(5):200—204. for(k=2。Lk一1≠,k++)do begin ⑦李明华,刘全,刘忠等.数据挖掘ee聚类算法的新进展【J】. Ck=sc canditate(Lk.1); 生成所有长度为k的候选项目 计算机应用研究,2008,25(1):13-17. 集 / ⑧刘新颖,王丽亚.基于Web的数据挖掘算法与数据仓库的 for all transactions t∈D do begin 接口设计[J】.计算机工程,2006,32(21):88-90. C1=count_support(Ck,£): 求数据库记录t包含的候选项 ⑨程舒通,徐从富.关联规则挖掘技术挖掘进展【J】.计算机应 目集 / 用研究,2009,26(9):3210—3213. F0r a1l canditates C∈C1 do ——斟协论坛・2010年第2期(下)——