您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页基于XML的Web数据挖掘及应用模式研究

基于XML的Web数据挖掘及应用模式研究

来源:化拓教育网
!! Q: Sci Bnce and Tethnology Ir lnovetion HeraId T技术 基于X M L的W e b数据挖掘及应用模式研究 史哲 (西北大学图书馆自动化部 陕西西安 71 0069) 摘要:本文分析了Web网页的数据挖掘最新技术及发展方向,介绍了基于xML的web数据挖掘的特点,提出了基于xML的数据抽取技术, 最终得到所需的数据并通过一个通用的应用模式进行挖掘的全过程。 关键词:数据挖掘 Web挖掘XML 中图分类号:TN711 文献标识码:A 文章编号:1674—09 8x(2o11)o1(b)一0029—02 Web技术的飞速发展,在促使人们信息 Web环境下,如何对无结构或半结构化的 更加有效地分析和处理数据。重点在于如 交流的方式变的更加方便快捷的同时,也 积累了大量的数据,如何发现并利用隐藏 在这些数据背后的知识就成为当前信息技 术领域研究的热点问题之一。Web数据挖 掘就是能够满足这一要求的一种技术,即 从Web上的海量数据中提取对人们有用信 息并为人们所利用。然而Web上的数据不 同于传统数据库中的结构化数据,Web上 的数据大多是一种无结构或半结构化的数 据。如何有效的对Web数据进行清理和集 成是Web数据挖掘领域中一个很重要的研 究课题。 Web数据进行数据集成的问题,并提出了 种基于xML的挖掘应用模式。该模式充 分利用了XML在数据描述能力、异质系统 数据交换能力以及可扩展性方面的优势, 为解决上述问题提供一个框架。 一1基于XML技术进行数据挖掘 XML是一种中介标示语言(meta-mark 目前Web挖掘的应用存在着两个重要 的困难。首先,现有的应用模式大多缺乏通 用性。往往只能根据现实的情况设计、定制 up language),提供资料的结构和语义信息, 使计算机和服务器能及时处理多种形式的 信息。运用XML的扩展功能不仅能从Web 服务器下载大量的信息,还能大大减少网 络业务量。它以一种开放的自我描述方式 定义了数据结构,在描述数据内容的同时 何通过基于XML的数据抽取技术从Web网 页上抽取结构化数据。 根据以上思路,将基于XML技术的Web 数据挖掘分为以下几个步骤,如图1所示: 从互联网上确定目标Web网页,获得 HTML文档;将HTML文档转换成XHTML 或XML格式;对XHTML或XML格式的文档 进行数据抽取;对抽取的数据合并为XML 数据文件;将提取出的xML数据写入关系 针对性的解决方案,而难以由用户自己运 用成形的软件模块,设定数据参数以解决 问题。其次,数据的预处理和后处理工作一 直是困扰挖掘应用的一个难题。数据结构 的复杂性以及异质系统之间的数据耦合问 题得不到妥善的解决,使得挖掘应用难以 顺利展开。上述问题的主要原因在于现有 的应用模式未能有效地对挖掘算法进行有 效地封装,因而便无法有效地实现通用的 数据表达和接I=1规范。本文将详细讨论在 数据库,以备应用程序挖掘调用。 1.1获得目标网页的Web文档 确定目标信息源即Web挖掘所要挖掘 的Web站点。目前网络上已经有很多高效、 可靠的网络爬行工具可用,因此可利用这  能突出对结构的描述,从而体现出数据之 些工具方便的获取Web页面的HTML文档。间的关系。这样所组织的数据对于应用程 1.2将Web文档转换成XML格式 确定了信息源后,我们在抽取过程中 序和用户都是友好的、可操作的。 XML可以以简单开放的方式描述结构 的第一步就是将数据从HTML转换成XM 化数据,而且数据显示与内容分开,是数据 L。本过程将通过一个构造名为XMLHelper 更合理的表现出来。由此可见XML为在We 的Java类来完成,使用Tidy库提供的函数在 dyHTML()方法中执行转换, b上的数据查询和抽取提供了一个契机,这 XMLHelper.ti正是Web挖掘所需要的。本文介绍的Web数 这个方法接受URL作为一个参数并返回一 据挖掘技术,采用以下方法来实现数据抽 个XML文档作为结果。可以将原始的HTM 取:首先将HTML文档转换成XML格式,利 L页面转换成XHTML(Extensible HTML)或  用XML格式规范的优点,再从XML文档中 XML文档。其中,Tidy是一个开放的源代码工具。 能够将HTMLTidy作为类库集成到应用程 序之中。可用于改正HTMI文档中的常见错 误并生成格式良好的等价文档,还可以将 HTML文档转换成XHTML(XML的子集)格 式的文档。XHTML是一系列当前和将来的 文档类型和程序块。XHTML系列文档基于 XML,最终被设计用来与基于XML的用户 代理程序一起工作。 1.3数据抽取 不管是在Web页面或者在XHTML文档 还是XML文档中,绝大多数的信息都与我 图1基于XML的Web数据挖掘流程 图2基于XML的挖掘模式的基本框架 们完全无关,因此就要在xML指定的区域 中进行数据的抽取,从中抽取我们的数据 而避开对于数据挖掘无关的外来信息。完 成这一任务应首先检查Web页面,找到我们 所需信息的位于页面中的区域。将该区域 作为引用点(或称为锚点)。通过锚点进行数 据抽取,需要建立于绝对路径的信息 位置,这就是要查找包含抽取信息的锚点。 通常情况下:锚点是基于信息内容的, 与HTML路径无关,找到了这个锚点就可 以创建实际抽取数据的代码。这个代码将 以XSL文件的形式出现。以下是一个从一个 科技创新导报Science and Technology Innovation Herald 29 !! Q: Science and Tethnology Jnn0ration Herald I T技术 <前项> 餐饮网页中析取出餐饮菜单,同时过滤掉 其他无用信息的XSL例子。XSL处理器从 xHTML树的根部开始进行递归查找 “数据的格式组织以及规则的结构化输出工 作从挖掘算法中分离出来,实现标准化的 数据输入输出结构,从而对挖掘算法进行 <商品名称=”牛奶”/> <商品名称=”香肠”/> <前项/> <后项> <商品名称:”面包”/> <后项/> <规则/) <超市销售规则/> 挖掘结果XML文档中所封装的是用规 范化格式所表达的挖掘结果,可以方便地 提供给挖掘结果展现模块或是其他系统。 menu”元素,一旦找到该元素,则执行包含 有效地封装,形成通用、跨平台、可扩展的 在模板中的指令。 应用模块。 <xml version=”1.0”encoding=”ISO一 8859-1”> <xsl:stylesheet vernon=”1.0’’ Xmlnstxsl=’http: , 1999/XSL/Transform”> .w3.org/ XML具有很强的数据封装能力和语义 描述能力,能够有效地支持各种形式的数 据应用。近年来,XML已经成为异构平台数 据交换的首选手段,在其基础上发展起来 的各种应用技术有效地对数据的提取、传 递、转换和展现提供了支持。基于以上分 析,我们提出了一种以XML为基础的挖掘 <xsl:output version= 1.0”indent=” yes”encoding=”IS0—8859-1” omit-xml-declaration=”no”method=” xml”/> 模式,其基本框架如图2所示。 在xML数据的展现方面,CSS和XSLT等技 在这一模式中,数据的提取转换、挖掘 术均已相当成熟,利用这些技术可将挖掘 <xsl:ternplate match=”menu”> 引擎以及挖掘结果的展现形成了三个单独 <food> 的模块,依靠规范化的xML文档相联系 此 <xsl:for-each select=”./item”> 时所有的需求表达、参数设定的等工作体 <NAME><xsl:value-of select=”./”> 现为对数据Schema文档和挖掘结果Schema </NAME> 文档的编辑工作(Schema文档用于定义 </xsl:for-each> XML文档中的数据结构及规范性要求),无 </food> 需对系统内部结构具有深入的了解。数据 </xsl:template> Schema文档中指明了将要用于挖掘的数据 </xsl:stylesheet> 内容范围以及目标组织形式。数据提取模 <xsl:output>元素是告诉处理器我们 块利用这一文档,就可以将所需数据从数 希望的变换结果是XML。第一个<xsl:temp 据库中提取出来,并自动转换为符合 late>建立名为<xsl:apply-templates>的根 Schema文档所定义格式的xML文档,提供 元素以搜索锚。第二个<xsl:template>在m 给挖掘引擎。目前大多数的数据库、数据仓 atch属性中定义锚,然后告诉处理器跳到我 库产品都已经提供了xML格式的查询、导 们尝试挖掘的“menu”数据。接下来使用XS 出支持。因此,此处的数据提取、转换模块 L转换工具将检索结果转换为XML文档。 只需利用数据仓库产品本身的功能,加以 1.4数据集成 少量开发便可实现。  、现在完成了一次数据抽取,而Web数据 我们以关联规则挖掘为例,来进一步 挖掘所需要的是进行了多次抽取,并把抽 说明这一框架 例如一个超市销售记录的 取的结果合并到单个xML文件的数据。因 管理规则挖掘,我们可以定义一个有关销 此要针对数据挖掘的特殊性,不断地进行 售记录的数据Schema文档。该文档表示在 数据的抽取,通过构造名为XMLHelper的 该应用中所要挖掘的是超市的销售数据。 Java类创建一个mergeXML()方法把XSL文 根据这一文档所提供的信息,数据提取模 件合并到XMLHelper类中。该方法允许我们 块可以自动从数据库中获取数据并将其组 把在当前抽取中获得的数据合并到包含以 织成符合要求的数据XML文档。数据XML 前抽取数据的XML数据文件中,从而合并 文档中所包含的是按照标准化格式组织起 成为所需的XML数据文件。 来准备用于挖掘的数据内容,挖掘结果 在Web数据挖掘中通过两个步骤实现 Schema文档中则指明了期望得到的挖掘结 数据的集成。首先利用网络爬行工具将多 果的形式。根据数据Schema文档和结果 个原始HTML文档中的所需数据分别析取 Schema文档,挖掘模块可以自动地对将要 下来,转换后得到的XML文档都是最终输 输入的数据结构进行判别,同时根据期望 出文档的一部分。然后将这些输出片段进 的结果形式自动选择合适挖掘算法并调整 行连接,并将其传送至负责整合数据的XSL 内部参数。随后,挖掘模块从数据XML文档 过滤器;最终形成一个完整的XML文档。最 中读人数据,完成挖掘运算,并按照挖掘结 后一个完整的XML文档可以通过Java语言 果Schema文档的要求将之组织成挖掘结果 中的JDBC将其中提取出的XML数据写入 XML文档。挖掘结果Schema文档中定义我 到关系数据库中,提供给应用程序以备挖 们需要定义规则的支持度、置信度以及规 掘时调用。 则前项集和后项集的个数。根据这一文档, 挖掘模块选择最合适的算法并完成挖掘, 2基于XML的挖掘模式 按照此文档的定义给出挖掘结果xML文 现有的模式将数据挖掘的具体过程与 档。挖掘结果如下代码所示: 数据格式的处理、表达、转换工作揉合在一 <Xml version=”1.0”encoding= UTF~ 起,使得标准化的接13规范无法形成,进而 8”> 使得数据挖掘程序本身的结构规范无法形 <超市销售规则最低支持度=”0.5”置 成,因此不但通用性无法保证,可扩展性也 信度=”0.9”> 无从谈起。解决这一问题的一个思路,是将 <规则支持度=”0.6”置信度=”0.97”> 30 科技创新导报Science and Technology Innovation Herald 信息构造成直观、生动的形式。提供给最终 用户。可以看出,兼具严格性和灵活性的 XML有效地对我们的挖掘应用框架提供了 支持。基于这种灵活性以及可扩展性,这个 挖掘模式的基本框架也能够有效的运用到 其他类型的数据挖掘中。遵循这些接口标 准而开发的挖掘引擎,也可以不经任何修 改就配置到各种各样的数据环境中使用, 而不会受到硬件平台、操作系统、数据库类 型以及数据结构的制约。 3结语 本文介绍了Web数据挖掘的相关理论 知识,并提出了一种基于XML的实现方法, 通过对Web页面的一系列处理,最终得到 所需的数据并通过一个通用的应用模式进 行挖掘的全过程。该模式能够有效地解决 挖掘模块的通用性、异构数据平台的数据 交换和集成、挖掘功能的可扩展性,以及用 户应用操作的简易性等问题。由于xML能 够使不同来源的结构化的数据很容易地结 合在一起,从而解决了Web数据挖掘的难 题。同时,由于基于XML的数据是自我描述 的,随着XML作为在Web上交换数据的一 种标准方式的出现,面向Web的数据挖掘 以及应用将会变得非常轻松。 参考文献 [1】陈安,陈宁,周龙骧.数据挖掘技术及应一 用【M】.科学出版社,2006。3. f2 J袁文超.“XML在基于Web数据挖掘中 的应用”【M】.计算机应用,2003. [3】万常选.XML数据库技术【M】.清华大学 出版社.2005.1. f4】MyllymaM J.Effective Web Data Extracti0n with Standard XML Technologies[C].Proceedings of the 10th International Conference on World Wide Web.New York:ACM Press,2001: 689-696. [5】崔建群,何炎祥,郑世钰,吴黎兵.“基于 XML的Web数据挖掘关键技术的研究” ….计算机工程,2006,10. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务