基于XML的Web数据挖掘及应用模式研究

来源：化拓教育网

！！　Ｑ：　Ｓｃｉ　Ｂｎｃｅ　ａｎｄ　Ｔｅｔｈｎｏｌｏｇｙ　Ｉｒ　ｌｎｏｖｅｔｉｏｎ　ＨｅｒａＩｄ　Ｔ技术　基于Ｘ　Ｍ　Ｌ的Ｗ　ｅ　ｂ数据挖掘及应用模式研究　史哲　（西北大学图书馆自动化部　陕西西安　７１　００６９）　摘要：本文分析了Ｗｅｂ网页的数据挖掘最新技术及发展方向，介绍了基于ｘＭＬ的ｗｅｂ数据挖掘的特点，提出了基于ｘＭＬ的数据抽取技术，　最终得到所需的数据并通过一个通用的应用模式进行挖掘的全过程。　关键词：数据挖掘　Ｗｅｂ挖掘ＸＭＬ　中图分类号：ＴＮ７１１　文献标识码：Ａ　文章编号：１６７４—０９　８ｘ（２ｏ１１）ｏ１（ｂ）一００２９—０２　Ｗｅｂ技术的飞速发展，在促使人们信息　Ｗｅｂ环境下，如何对无结构或半结构化的　更加有效地分析和处理数据。重点在于如　交流的方式变的更加方便快捷的同时，也　积累了大量的数据，如何发现并利用隐藏　在这些数据背后的知识就成为当前信息技　术领域研究的热点问题之一。Ｗｅｂ数据挖　掘就是能够满足这一要求的一种技术，即　从Ｗｅｂ上的海量数据中提取对人们有用信　息并为人们所利用。然而Ｗｅｂ上的数据不　同于传统数据库中的结构化数据，Ｗｅｂ上　的数据大多是一种无结构或半结构化的数　据。如何有效的对Ｗｅｂ数据进行清理和集　成是Ｗｅｂ数据挖掘领域中一个很重要的研　究课题。　Ｗｅｂ数据进行数据集成的问题，并提出了　种基于ｘＭＬ的挖掘应用模式。该模式充　分利用了ＸＭＬ在数据描述能力、异质系统　数据交换能力以及可扩展性方面的优势，　为解决上述问题提供一个框架。　一１基于ＸＭＬ技术进行数据挖掘　ＸＭＬ是一种中介标示语言（ｍｅｔａ－ｍａｒｋ　目前Ｗｅｂ挖掘的应用存在着两个重要　的困难。首先，现有的应用模式大多缺乏通　用性。往往只能根据现实的情况设计、定制　ｕｐ　ｌａｎｇｕａｇｅ），提供资料的结构和语义信息，　使计算机和服务器能及时处理多种形式的　信息。运用ＸＭＬ的扩展功能不仅能从Ｗｅｂ　服务器下载大量的信息，还能大大减少网　络业务量。它以一种开放的自我描述方式　定义了数据结构，在描述数据内容的同时　何通过基于ＸＭＬ的数据抽取技术从Ｗｅｂ网　页上抽取结构化数据。　根据以上思路，将基于ＸＭＬ技术的Ｗｅｂ　数据挖掘分为以下几个步骤，如图１所示：　从互联网上确定目标Ｗｅｂ网页，获得　ＨＴＭＬ文档；将ＨＴＭＬ文档转换成ＸＨＴＭＬ　或ＸＭＬ格式；对ＸＨＴＭＬ或ＸＭＬ格式的文档　进行数据抽取；对抽取的数据合并为ＸＭＬ　数据文件；将提取出的ｘＭＬ数据写入关系　针对性的解决方案，而难以由用户自己运　用成形的软件模块，设定数据参数以解决　问题。其次，数据的预处理和后处理工作一　直是困扰挖掘应用的一个难题。数据结构　的复杂性以及异质系统之间的数据耦合问　题得不到妥善的解决，使得挖掘应用难以　顺利展开。上述问题的主要原因在于现有　的应用模式未能有效地对挖掘算法进行有　效地封装，因而便无法有效地实现通用的　数据表达和接Ｉ＝１规范。本文将详细讨论在　数据库，以备应用程序挖掘调用。　１．１获得目标网页的Ｗｅｂ文档　确定目标信息源即Ｗｅｂ挖掘所要挖掘　的Ｗｅｂ站点。目前网络上已经有很多高效、　可靠的网络爬行工具可用，因此可利用这　　能突出对结构的描述，从而体现出数据之　些工具方便的获取Ｗｅｂ页面的ＨＴＭＬ文档。间的关系。这样所组织的数据对于应用程　１．２将Ｗｅｂ文档转换成ＸＭＬ格式　确定了信息源后，我们在抽取过程中　序和用户都是友好的、可操作的。　ＸＭＬ可以以简单开放的方式描述结构　的第一步就是将数据从ＨＴＭＬ转换成ＸＭ　化数据，而且数据显示与内容分开，是数据　Ｌ。本过程将通过一个构造名为ＸＭＬＨｅｌｐｅｒ　更合理的表现出来。由此可见ＸＭＬ为在Ｗｅ　的Ｊａｖａ类来完成，使用Ｔｉｄｙ库提供的函数在　ｄｙＨＴＭＬ（）方法中执行转换，　ｂ上的数据查询和抽取提供了一个契机，这　ＸＭＬＨｅｌｐｅｒ．ｔｉ正是Ｗｅｂ挖掘所需要的。本文介绍的Ｗｅｂ数　这个方法接受ＵＲＬ作为一个参数并返回一　据挖掘技术，采用以下方法来实现数据抽　个ＸＭＬ文档作为结果。可以将原始的ＨＴＭ　取：首先将ＨＴＭＬ文档转换成ＸＭＬ格式，利　Ｌ页面转换成ＸＨＴＭＬ（Ｅｘｔｅｎｓｉｂｌｅ　ＨＴＭＬ）或　　用ＸＭＬ格式规范的优点，再从ＸＭＬ文档中　ＸＭＬ文档。其中，Ｔｉｄｙ是一个开放的源代码工具。　能够将ＨＴＭＬＴｉｄｙ作为类库集成到应用程　序之中。可用于改正ＨＴＭＩ文档中的常见错　误并生成格式良好的等价文档，还可以将　ＨＴＭＬ文档转换成ＸＨＴＭＬ（ＸＭＬ的子集）格　式的文档。ＸＨＴＭＬ是一系列当前和将来的　文档类型和程序块。ＸＨＴＭＬ系列文档基于　ＸＭＬ，最终被设计用来与基于ＸＭＬ的用户　代理程序一起工作。　１．３数据抽取　不管是在Ｗｅｂ页面或者在ＸＨＴＭＬ文档　还是ＸＭＬ文档中，绝大多数的信息都与我　图１基于ＸＭＬ的Ｗｅｂ数据挖掘流程　图２基于ＸＭＬ的挖掘模式的基本框架　们完全无关，因此就要在ｘＭＬ指定的区域　中进行数据的抽取，从中抽取我们的数据　而避开对于数据挖掘无关的外来信息。完　成这一任务应首先检查Ｗｅｂ页面，找到我们　所需信息的位于页面中的区域。将该区域　作为引用点（或称为锚点）。通过锚点进行数　据抽取，需要建立于绝对路径的信息　位置，这就是要查找包含抽取信息的锚点。　通常情况下：锚点是基于信息内容的，　与ＨＴＭＬ路径无关，找到了这个锚点就可　以创建实际抽取数据的代码。这个代码将　以ＸＳＬ文件的形式出现。以下是一个从一个　科技创新导报Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ　Ｉｎｎｏｖａｔｉｏｎ　Ｈｅｒａｌｄ　２９　！！　Ｑ：　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｔｈｎｏｌｏｇｙ　Ｊｎｎ０ｒａｔｉｏｎ　Ｈｅｒａｌｄ　Ｉ　Ｔ技术　＜前项＞　餐饮网页中析取出餐饮菜单，同时过滤掉　其他无用信息的ＸＳＬ例子。ＸＳＬ处理器从　ｘＨＴＭＬ树的根部开始进行递归查找　“数据的格式组织以及规则的结构化输出工　作从挖掘算法中分离出来，实现标准化的　数据输入输出结构，从而对挖掘算法进行　＜商品名称＝”牛奶”／＞　＜商品名称＝”香肠”／＞　＜前项／＞　＜后项＞　＜商品名称：”面包”／＞　＜后项／＞　＜规则／）　＜超市销售规则／＞　挖掘结果ＸＭＬ文档中所封装的是用规　范化格式所表达的挖掘结果，可以方便地　提供给挖掘结果展现模块或是其他系统。　ｍｅｎｕ”元素，一旦找到该元素，则执行包含　有效地封装，形成通用、跨平台、可扩展的　在模板中的指令。　应用模块。　＜ｘｍｌ　ｖｅｒｓｉｏｎ＝”１．０”ｅｎｃｏｄｉｎｇ＝”ＩＳＯ一　８８５９－１”＞　＜ｘｓｌ：ｓｔｙｌｅｓｈｅｅｔ　ｖｅｒｎｏｎ＝”１．０’’　Ｘｍｌｎｓｔｘｓｌ＝’ｈｔｔｐ：　，　１９９９／ＸＳＬ／Ｔｒａｎｓｆｏｒｍ”＞　．ｗ３．ｏｒｇ／　ＸＭＬ具有很强的数据封装能力和语义　描述能力，能够有效地支持各种形式的数　据应用。近年来，ＸＭＬ已经成为异构平台数　据交换的首选手段，在其基础上发展起来　的各种应用技术有效地对数据的提取、传　递、转换和展现提供了支持。基于以上分　析，我们提出了一种以ＸＭＬ为基础的挖掘　＜ｘｓｌ：ｏｕｔｐｕｔ　ｖｅｒｓｉｏｎ＝　１．０”ｉｎｄｅｎｔ＝”　ｙｅｓ”ｅｎｃｏｄｉｎｇ＝”ＩＳ０—８８５９－１”　ｏｍｉｔ－ｘｍｌ－ｄｅｃｌａｒａｔｉｏｎ＝”ｎｏ”ｍｅｔｈｏｄ＝”　ｘｍｌ”／＞　模式，其基本框架如图２所示。　在ｘＭＬ数据的展现方面，ＣＳＳ和ＸＳＬＴ等技　在这一模式中，数据的提取转换、挖掘　术均已相当成熟，利用这些技术可将挖掘　＜ｘｓｌ：ｔｅｒｎｐｌａｔｅ　ｍａｔｃｈ＝”ｍｅｎｕ”＞　引擎以及挖掘结果的展现形成了三个单独　＜ｆｏｏｄ＞　的模块，依靠规范化的ｘＭＬ文档相联系　此　＜ｘｓｌ：ｆｏｒ－ｅａｃｈ　ｓｅｌｅｃｔ＝”．／ｉｔｅｍ”＞　时所有的需求表达、参数设定的等工作体　＜ＮＡＭＥ＞＜ｘｓｌ：ｖａｌｕｅ－ｏｆ　ｓｅｌｅｃｔ＝”．／”＞　现为对数据Ｓｃｈｅｍａ文档和挖掘结果Ｓｃｈｅｍａ　＜／ＮＡＭＥ＞　文档的编辑工作（Ｓｃｈｅｍａ文档用于定义　＜／ｘｓｌ：ｆｏｒ－ｅａｃｈ＞　ＸＭＬ文档中的数据结构及规范性要求），无　＜／ｆｏｏｄ＞　需对系统内部结构具有深入的了解。数据　＜／ｘｓｌ：ｔｅｍｐｌａｔｅ＞　Ｓｃｈｅｍａ文档中指明了将要用于挖掘的数据　＜／ｘｓｌ：ｓｔｙｌｅｓｈｅｅｔ＞　内容范围以及目标组织形式。数据提取模　＜ｘｓｌ：ｏｕｔｐｕｔ＞元素是告诉处理器我们　块利用这一文档，就可以将所需数据从数　希望的变换结果是ＸＭＬ。第一个＜ｘｓｌ：ｔｅｍｐ　据库中提取出来，并自动转换为符合　ｌａｔｅ＞建立名为＜ｘｓｌ：ａｐｐｌｙ－ｔｅｍｐｌａｔｅｓ＞的根　Ｓｃｈｅｍａ文档所定义格式的ｘＭＬ文档，提供　元素以搜索锚。第二个＜ｘｓｌ：ｔｅｍｐｌａｔｅ＞在ｍ　给挖掘引擎。目前大多数的数据库、数据仓　ａｔｃｈ属性中定义锚，然后告诉处理器跳到我　库产品都已经提供了ｘＭＬ格式的查询、导　们尝试挖掘的“ｍｅｎｕ”数据。接下来使用ＸＳ　出支持。因此，此处的数据提取、转换模块　Ｌ转换工具将检索结果转换为ＸＭＬ文档。　只需利用数据仓库产品本身的功能，加以　１．４数据集成　少量开发便可实现。　　、现在完成了一次数据抽取，而Ｗｅｂ数据　我们以关联规则挖掘为例，来进一步　挖掘所需要的是进行了多次抽取，并把抽　说明这一框架　例如一个超市销售记录的　取的结果合并到单个ｘＭＬ文件的数据。因　管理规则挖掘，我们可以定义一个有关销　此要针对数据挖掘的特殊性，不断地进行　售记录的数据Ｓｃｈｅｍａ文档。该文档表示在　数据的抽取，通过构造名为ＸＭＬＨｅｌｐｅｒ的　该应用中所要挖掘的是超市的销售数据。　Ｊａｖａ类创建一个ｍｅｒｇｅＸＭＬ（）方法把ＸＳＬ文　根据这一文档所提供的信息，数据提取模　件合并到ＸＭＬＨｅｌｐｅｒ类中。该方法允许我们　块可以自动从数据库中获取数据并将其组　把在当前抽取中获得的数据合并到包含以　织成符合要求的数据ＸＭＬ文档。数据ＸＭＬ　前抽取数据的ＸＭＬ数据文件中，从而合并　文档中所包含的是按照标准化格式组织起　成为所需的ＸＭＬ数据文件。　来准备用于挖掘的数据内容，挖掘结果　在Ｗｅｂ数据挖掘中通过两个步骤实现　Ｓｃｈｅｍａ文档中则指明了期望得到的挖掘结　数据的集成。首先利用网络爬行工具将多　果的形式。根据数据Ｓｃｈｅｍａ文档和结果　个原始ＨＴＭＬ文档中的所需数据分别析取　Ｓｃｈｅｍａ文档，挖掘模块可以自动地对将要　下来，转换后得到的ＸＭＬ文档都是最终输　输入的数据结构进行判别，同时根据期望　出文档的一部分。然后将这些输出片段进　的结果形式自动选择合适挖掘算法并调整　行连接，并将其传送至负责整合数据的ＸＳＬ　内部参数。随后，挖掘模块从数据ＸＭＬ文档　过滤器；最终形成一个完整的ＸＭＬ文档。最　中读人数据，完成挖掘运算，并按照挖掘结　后一个完整的ＸＭＬ文档可以通过Ｊａｖａ语言　果Ｓｃｈｅｍａ文档的要求将之组织成挖掘结果　中的ＪＤＢＣ将其中提取出的ＸＭＬ数据写入　ＸＭＬ文档。挖掘结果Ｓｃｈｅｍａ文档中定义我　到关系数据库中，提供给应用程序以备挖　们需要定义规则的支持度、置信度以及规　掘时调用。　则前项集和后项集的个数。根据这一文档，　挖掘模块选择最合适的算法并完成挖掘，　２基于ＸＭＬ的挖掘模式　按照此文档的定义给出挖掘结果ｘＭＬ文　现有的模式将数据挖掘的具体过程与　档。挖掘结果如下代码所示：　数据格式的处理、表达、转换工作揉合在一　＜Ｘｍｌ　ｖｅｒｓｉｏｎ＝”１．０”ｅｎｃｏｄｉｎｇ＝　ＵＴＦ～　起，使得标准化的接１３规范无法形成，进而　８”＞　使得数据挖掘程序本身的结构规范无法形　＜超市销售规则最低支持度＝”０．５”置　成，因此不但通用性无法保证，可扩展性也　信度＝”０．９”＞　无从谈起。解决这一问题的一个思路，是将　＜规则支持度＝”０．６”置信度＝”０．９７”＞　３０　科技创新导报Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ　Ｉｎｎｏｖａｔｉｏｎ　Ｈｅｒａｌｄ　信息构造成直观、生动的形式。提供给最终　用户。可以看出，兼具严格性和灵活性的　ＸＭＬ有效地对我们的挖掘应用框架提供了　支持。基于这种灵活性以及可扩展性，这个　挖掘模式的基本框架也能够有效的运用到　其他类型的数据挖掘中。遵循这些接口标　准而开发的挖掘引擎，也可以不经任何修　改就配置到各种各样的数据环境中使用，　而不会受到硬件平台、操作系统、数据库类　型以及数据结构的制约。　３结语　本文介绍了Ｗｅｂ数据挖掘的相关理论　知识，并提出了一种基于ＸＭＬ的实现方法，　通过对Ｗｅｂ页面的一系列处理，最终得到　所需的数据并通过一个通用的应用模式进　行挖掘的全过程。该模式能够有效地解决　挖掘模块的通用性、异构数据平台的数据　交换和集成、挖掘功能的可扩展性，以及用　户应用操作的简易性等问题。由于ｘＭＬ能　够使不同来源的结构化的数据很容易地结　合在一起，从而解决了Ｗｅｂ数据挖掘的难　题。同时，由于基于ＸＭＬ的数据是自我描述　的，随着ＸＭＬ作为在Ｗｅｂ上交换数据的一　种标准方式的出现，面向Ｗｅｂ的数据挖掘　以及应用将会变得非常轻松。　参考文献　［１】陈安，陈宁，周龙骧．数据挖掘技术及应一　用【Ｍ】．科学出版社，２００６。３．　ｆ２　Ｊ袁文超．“ＸＭＬ在基于Ｗｅｂ数据挖掘中　的应用”【Ｍ】．计算机应用，２００３．　［３】万常选．ＸＭＬ数据库技术【Ｍ】．清华大学　出版社．２００５．１．　ｆ４】ＭｙｌｌｙｍａＭ　Ｊ．Ｅｆｆｅｃｔｉｖｅ　Ｗｅｂ　Ｄａｔａ　Ｅｘｔｒａｃｔｉ０ｎ　ｗｉｔｈ　Ｓｔａｎｄａｒｄ　ＸＭＬ　Ｔｅｃｈｎｏｌｏｇｉｅｓ［Ｃ］．Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　１０ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ．Ｎｅｗ　Ｙｏｒｋ：ＡＣＭ　Ｐｒｅｓｓ，２００１：　６８９－６９６．　［５】崔建群，何炎祥，郑世钰，吴黎兵．“基于　ＸＭＬ的Ｗｅｂ数据挖掘关键技术的研究”　…．计算机工程，２００６，１０．　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文