您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页数据挖掘技术在Web中的应用

数据挖掘技术在Web中的应用

来源:化拓教育网
维普资讯 http://www.cqvip.com

福 建 电 脑 2006年第6期 数据挖掘技术在Web中的应用 卢春燕. 张 晋 (海南大学信息学院 海南海口570228) 【摘要】:数据挖掘是一门新兴的边缘学科,融合了数据库、人式智能和统计学等多种学科的知识.试图从大量的数据中 提取出先前未知、有效和实用的知识。由于Web上的信息具有庞大、无序性强、重复性大的特点。将数据挖掘技术应用于Web 中,能够使人们能够快速准确地从海量的信息中获取自己所需的信息。 【关键词1:数据挖掘Web数据挖掘信息检索 1.引言 人_J二神经网络由于其非线性性能力强.性能稳健等特性。可 随着[nternet的越来越普及,其发展速度来是惊天动地人 通过自学习提取信息的内部特征.非常适合于个性化智能信息 的。根据美国NEC研究院研究人员的报告.截至2Ooo年2月.网 检索系统中的信息挖掘。 络上可索引的网页达到10亿.有关专家认为、ww的规模正以每 3.2决策树(Decision Tree) 四个月增长一倍的速度扩大…。面对如此海量的的信息.¨1『是人 决策树用树性结构来表示决策集合.这 决策集合通过对 们要从中找到自己需要的信息却非常困难.形成了所谓的“数据 数据集的分类产生规则.具有指导学习和预测能力。 丰富.但信息匮乏”的局面 3.3最近邻技术(Nearest Neighbor) 目前Web上绝大多数搜索引擎都使用基于关键词匹配的 最近邻技术通过K个最与之相近的历史纪录的组合来辨 全文检索技术。全文检索(FullText Retrieva1)是指以文档的全部 别新的纪录.这种技术可以对新添加到数据库里的数据项进行 文本信息作为检索对象的一种信息检索技术.它处理的对象是 分类.并且可以挖掘网页中的某些共同的特性。 文本.能够对大量Web文档(网页)建立由字(词)到文档的倒排 3.4关联规则;(Association Rule) 索引。在此基础上用户使用关键词来对文档进行查询时.系统将 反映一个事物与其他事物之间的想到依赖必或相互关联 给用户返回含该关键词的网页 由于参与匹配的只有外在的表 性.可用于发现各项数据之间的联系及相关规则,。 现形式.而非它们所表达的全部概念,这样往往带来大量的无 3,5序列模式(Sequence Mode1) 信息。使得检索的效率非常低,用户花费了大量时问在检索JlI. 序列模式数据挖掘就是要挖掘出交易集之问的有时间序列 也有可能不成功 的模式.它能够发现以相同顺序出现并被频繁访问的网页。这对 基于日前信息检索技术落后于intemet的发展速度.将数据 一个电子商务网站来说是 }常有用的。 挖掘技术应用于Web中具有越来越广泛的前景 基于Web的挖掘的过程一般可分为四个阶段:建立日标, 2.数据挖掘简述 准备数据、挖掘数据、结果表达。 数据挖掘(DM,Data Mining)就是大量的、不完整的、有噪声 (1)建立目标 的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道 首先我们要确定网页挖掘项目的可能目标: 的、但又是潜在的有用信息和知识的过程 数据挖掘涉及的学科 .减少用户获得所需信息前访问网页的平均数目: 领域和方法很多.由于Interne[的迅猛发展.数据挖掘技术在 .提高Web服务效率: Intemet信息检索中的应用也越来越深入.它涉及颛闻、消费信 .增加访问者平均保持率: 息、金融管理、教育、等等服务 .提供个性化信息检索: 数据挖掘的核心技术是人工智能、机器学习、统计学等, (2)准备数据 数据挖掘过程主要有四步: 数据准备过程.也就是信息预处理,是从Web服务器日志 2.】集合用于分析的数据集: 中提取数据.创建适合于数据挖掘的文件。它是信息检索中的重 2.2将数据提交给数据挖掘软件程序: 要步骤。 2.3解释与评估结果: 数据准备包含数据清洗、事务识别、格式化。数据清洗是从 2.4将结果运刚于新问题或新情况 目标数据集中除去明显错误的数据和冗余的数据.进一步精减 图1所示为简单数据挖掘的过程示意图 所选数据的有效部分.并将数据转换为有效形式.以使数据开采 更有效。 准备好的数据并不一定要使Hj数据库管理系统.可根据数 据量的大小、数据的复杂程度 使用方式的不同来选取数据的保 存方式。建立的数据集。 清洗好的数据使用事务识别将它们分为逻辑簇.将大事务 分为较小的事务或将较小的事务合并为大事务。 最后。对数据进行格式化。由于Web上的数据是半结构化 I圭I l简单数据挖掘过程 的,包括文本、图像、多媒体等多种格式.所以要其按照树型结 3.在Web中数据挖掘的实现 构.以备数据挖掘使用 当数据挖掘技术应用于网络环境下的Web中就成为Web (3)数据挖掘 挖掘(Wel1 Mining)。它是从Weh文件和Web牺动中筛选感兴趣 数据准备好之后。就可以对其进行挖掘。在数据挖掘阶段. 的潜在的有川模式和隐藏的信息。Web挖掘可以广义地定义为 主要完成特征抽取和分类的任务。针对网页的超文本结构特征. 从WWW中发现和分析有刚的信息 可用Na ̄'ve Bayes方法进行分类:对于时态数据库.则可以使用 在Web挖掘中常用的数据挖掘技术有: 抗干扰的惯性趋势算法和峰谷算法:对预测Web访问请求采用 3.1人工神经网络(Artiifcial Neural Network) N元预测模型。 (下转第6l页) 维普资讯 http://www.cqvip.com

2006年第6期 福 建 电脑 61 体系结构设计.硬件和软件功能划分以及硬件与软件的设计等 在嵌入式系统中.常用的编程语言是汇编、C或者二者结 过程。 合。现在也有C++开发的.如果作为二次开发,也可以使用JAVA 1.体系结构设计:其目的是描述系统的功能如何实现的。在 语青。 体系结构设计过程中需要考虑系统是硬实时系统还是软实时系 接下来的任务。就是建立交叉开发环境,所谓较差开发环境 统:操作系统是否需要嵌入;系统硬件的尺寸、成本以及耗电量 就是指在主机(一般指PC)上开发在目标机器(指嵌入式处理 因索:处理器和相关硬件的选择等问题『4]。 器)上运行的软件。 2.硬件和软件功能划分:嵌入式系统是硬件和软件的结合 最后我们就可以根据详细设计阶段中软件设计的文档。对 体.因此在设计过程中必须确定硬件和软件的分工,也就是说系 各个软件模块进行实现.并集成各个模块。 统的功能哪些是硬件完成,哪些是软件完成。 2.6集成与测试阶段 3.硬件与软件的设计:在这里首先要确定硬件和软件的设 该阶段主要是把实现阶段的软件和硬件集成在一起。进行 计次序问题.对于大部分项目来说,由于有很多已有的硬件评估 调试.发现并改进设计或开发过程中的缺陷。 版提供经验,因而硬件设计较快。所以一般采用先硬件设计,后 同时,该阶段也要用户参与进行验收测试.以确定该产品是 软件设计的方法:如果系统较复杂。此时软硬件设计人员需要经 否真正符合用户的需求。一旦验收通过,就可以根据实际情况进 常交流,此时一般采用同时设计:也有的采用先设计软件的办 入批量生产,并投入运行。 法.就是先设计与硬件接口无关的软件。硬件设计包括采用自顶 2.7维护阶段 向下的设计硬件于系统,一般采用框图的形式实现;还包括定义 嵌入式系统开发完成并为用户服务过程中.还需要为用户 硬件与软件之间的接口。包括I/O端口、寄存器、存储器空间分 提供一定的技术支持.主要包括以下三个方面: 配、中断以及处理器的速度等。软件设计包括采用自顶向下的设 改正性维护:诊断和改正在使用过程中发现的软件和硬件 计软件子系统、于系统之间的软件接口、系统启动与关闭过程以 错误。 及出错处理等内容阎。 适应性维护:修改软件或硬件,以适应环境的变化。 最后把详细设计阶段所有内容包括框图在一起。作为系统 完善性维护:根据用户的要求,改进或扩充系统的功能。 的详细设计文档 3.结束语 2.5实现阶段 当前.航空、航天、军事、信息家电、通信、交通等各个行业都 该阶段主要是根据详细设计阶段提供的文档进行开发。同 越来越多的需要嵌入式系统的支持。相应的嵌入式系统的功能 样也分为硬件开发和软件开发两部分。 也越来越复杂。规模也越来越庞大,如果没有一个有效的工程化 硬件开发主要根据硬件设计来实现最终应用硬件平台。 解决方法.嵌入式系统的研究和开发是不可想象的。而软件工程 硬件平台一般都需要包括处理器。其他硬件包括显示屏、键 方法的借用和引入必将为嵌入式系统的研究与开发提供了一条 盘等根据实际需要确定。嵌入式处理器主要包括嵌入式微处理 前景广阔的道路。 器EMPU(Embedded Micorprocessor o,i0、嵌入式微控制器MCU (Microcontroller UniO、嵌入式DSP处理器EDSP(Embedded Digi. 参考文献: tal Signal Pl ̄e88Ol')、嵌入式片上系统SOC(System On Chip)四种 1.王苗苗.嵌入式系统设计与实例开发一一一基于AR ̄vl微处理器与 类型。  ̄c/os一Ⅱ实时操作系统(第二版)【M】.北京:清华大学出版杜,2003.10. 硬件实现.就是根据硬件详细设计的要求,焊接电路,使微 2.草征.杨利美,高勇民等,软件项目管理【MJ】.北京:清华大学出版社, 处理器等硬件设备之间符合一定接口要求.并提供其他一些系 2004.7. 统要求.同时为软件提供必要的接口。 3.张大波,嵌入式系统原理、设计与应用『MI.北京:机械工业出版社. 软件开发首先需要建立开发环境。包括操作系统和开发语 2004.11 4,(蔓)John Lomb ̄do著.昊雨ifL译.嵌入式Linux[M].北京;中国电力出 言的选择。开发嵌入式操作系统既有商业的操作系统也有免费 的操作系统.既有硬实时操作系统也有软实时操作系统。这主要 版杜.2003.9. 5,刘峥嵘,张智超,许振山.嵌入式Linux应用开发详解【M】.北京:机械工 根据项目的经费和实际需要来确定。常见的嵌入式操作系统包 业出版社.2005.1. 括VxWorks、 C/0SⅡ、嵌入式Linux、Windows CE等。 -+-+-+-+ (上接第68页) ‘ 对准备好的数据集进行挖掘的基本过程如图2。 特征易于获得而语义性特征较难获得。 4.结束语 数据挖掘技术在 b中的应用前景是非常广阔的。具有很 大的潜力。随着数据挖掘理论的深入研究.数据挖掘技术在Web 中的应用将更加完善和实用。 图2 Web挖掘的基本过程 特征抽取:在Web上的数据挖掘对象通常是一组HTML格 参考文献: 式的文档集.这样的对象没有关系数据库中数据的结构化和组 1.徐海燕.网上中文概念检索系统.宁波:讥, 织特点.因此要将这些文档转化成一种类似关系数据库中记录 2.()Jiawei Hart,Micheline Kamber.Data Minlng:Concepts and Tech— 的较规整且能反映文档内容特征的表示.文本特征表示是挖掘 nJque ̄.北京:高等教育出版社。2001 工作的基础.而文本分类是最重要、最基本的Web挖掘功能。它 3.牵雄飞.李军.教据挖掘与知识发现.北京:高等教育出版社【M】 指的是关于广西的元数据.分为描述特征及语义性特征。描述性 2o03.11 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务