您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页【精品推荐】大规模语料库可用性评测方法

【精品推荐】大规模语料库可用性评测方法

来源:化拓教育网


专 业 推 荐

精 品 文 档

22

李艳红1,,郑家恒1,

22,LIYan-hong1,ZHENGJia-heng1,

太原0300061.山西大学计算机与信息技术学院,

太原0300062.计算智能与中文信息处理教育部重点实验室,

1.DepartmentofComputer&InformationTechnology,ShanxiUniversity,Taiyuan030006,China

2.KeyLaboratoryofMinistryofEducationforComputationIntelligenceandChineseInformationProcessing,Taiyuan030006,ChinaE-mail:****************LIYan-hong,ZHENGJia-heng.Methodforevaluatingusabilityoflarge-scalecorpus.ComputerEngineeringandAppli-

(16):cations,2009,45134-137.Abstract:Aquantitativetechniqueforevaluatingtheusabilityoflarge-scalecorpuswasdeveloped.Byanalyzingthelifecycleof

corpusengineering,ausabilityoflarge-scalecorpusevaluationarchitecturewasdesigned.Thenanalytichierarchyprocesses-comprehensivefuzzyevaluationtheorywasusedtoquantitativelycalculatethecorpususability,andthelevelofcorpususabilitywaspresented.Accordingtotheevaluatedusability,thebottleneckfactorswerefoundoutandcorrespondingeffectivemeasureswereprovided.Finally,theproposedtechniquewasillustratedbyacasestudyofcorpus.Keywords:large-scalecorpus;usabilityevaluation;analytichierarchyprocesses;comprehensivefuzzyevaluation摘要:提出了一种大规模语料库可用性评测方法。通过分析语料库工程的生命周期,构建了大规模语料库可用性评测指标体系,运用层次分析-模糊综合评价方法实现了语料库的可用性评测,给出了语料库的可用性级别。分析语料库的评测结果,确定影响语料库可用性的瓶颈因素,进而提出针对性的改进措施。最后,举例说明了该方法在语料库上的应用。关键词:大规模语料库;可用性评价;层次分析法;模糊综合评价

文章编号:(2009)DOI:10.3778/j.issn.1002-8331.2009.16.0391002-833116-0134-04

文献标识码:A

中图分类号:TP391

1引言

语料库语言学是20世纪50年代后期发展起来的新兴学

科和研究方法,它的基本概念是使用计算机强大的检索和统计

语法、语篇、用手段处理语料库所提供的大量语料,进行词汇、法变异、语言习惯及语言的历史发展等各项课题的研究[1]。现在

世界上已经建立了许多规模较大的语料库,有些是国家级的,有些是大学和词典出版商联合研制的。另外,由于个人计算机的迅猛发展,存储数据的硬磁盘造价持续下降,研究者个人也开始建立适合自己研究兴趣的小型语料库[2]。在基于语料库的语言学研究之初,首先要选择语料库,充分论证语料库的可用性。但是,对语料库的建设,至今还没有统一的标准和规范可以遵循,致使各种语料库在设计、加工规范等方面差异较大。为了有效地评测大规模语料库的可用性,建立一个合理的大规模语料库可用性评测指标体系,并采用有效方法对语料库进行可用性评测是当前亟待研究的课题。

目前语料库可用性评测方面的研究工作开展得很有限,本

库可用性评测指标体系,采用层次分析-模糊综合评价方法确

定大规模语料库的可用性级别,并分析影响语料库可用性的瓶颈因素,以帮助语料库建设者开展相应的改进工作。语料库分为一般语料库和特殊语料库。一般语料库应为各种语言研究提供大量好的语言实例,而特殊语料库可能是为某种自然语言产品服务的,具有明显的领域针对性[2]。本文只限于讨论一般的大规模汉语语料库的可用性评测。

2语料库工程的生命周期

国外语料库开发通常包括五个阶段:规划、设计、选材、建

库和标注[3]。何婷婷[4]提出了语料库工程的概念,并把语料库工程的生命周期划分为七个阶段:语料库规划阶段、需求分析阶段、语料库设计阶段、语料采集阶段、语料库实现阶段、语料库标注阶段、语料库使用和维护阶段。语料库工程的生命周期中的各个阶段在执行过程中不一定是完全串行的,各个阶段常常需要循环反复进行,不断调整优化。

李艳红,郑家恒:大规模语料库可用性评测方法

在语料库的规划阶段首先要进行语料库建设的必要性和确定语料库的建设可行性分析。规划阶段必须完成下列任务:

目的;确定语料库的类型;确定语料库的规模;确定开发工作所语料来源、计算机硬件与软件);估需的资源(研究与开发人员、算语料库开发的成本;确定项目的进度。

(2)需求分析阶段

需求分析阶段有以下一些具体的工作:了解可能用语料库做研究的人群的构成;了解用户利用语料库做研究的工作情况;调查元数据需求;调查语料库中应该存放的语料类型和各种类型语料的比例。

(3)语料库设计阶段

语料库设计阶段的任务主要有:语料库平衡结构设计、语语料库的逻辑结构设计。料采样原则设计、

(4)语料采集阶段

语料采集阶段的主要任务是根据语料库的平衡结构和采样原则采集语料。

(5)语料库实现阶段

语料库实现阶段的主要任务有:设计语料库的存储结构;配置计算机软硬件系统;将各种形式的语料样本保持一致地集检索程序。成到语料库中;开发相应的语料库管理程序、

(6)语料库标注阶段

语料库的标注主要有词性标注、句法结构标注、语义标注等,最基本的语料标注工作是词性标注,汉语语料库还需要对语料做分词标记[5]。

(7)语料库使用和维护阶段

语料库投入使用后,语料库工程的生命周期并没有完成,还需要不断地建设和完善语料库系统。其中可能的工作任务包括:修改语料库的平衡比例;更新语料;修改语料库的逻辑结构;修改语料库的物理存储结构;对语料库进行新的标注;修改语料库管理程序。

语料库标注 )A(30.472语料库实现 )A(20.170语料库设计 )A(10.285语料库规模 (0.3)B11逻辑结构(0.122)B12平衡结构(0.317)B13采样原则(0.172)B14存储结构 (0.351)B21语料采集程序(0.351)B22语料库管理程序(0.161)B23语料库检索程序(0.137)B24加工规范 (0.255)B31加工结果(0.537)B32加工程序(0.208)B332009,45(16)135

(4)语料库维护

从语料库的可维护性和语料库的维护程序两方面来研究语料库维护。

基于上述分析,本文在文献[4]的理论基础上建立了三层评测指标体系,如图1所示,其中字母和括号中的数字分别表示指标的编号和权重,如“B13(0.317)”表示指标“平衡结构”编码为B13,权重为0.317。该指标体系既注重语料库构建基础,也注重实施细节,因此较为全面地体现了大规模语料库的可用性。

代表性(0.738)C111 (0.131)数据稀疏C112垃圾语料C113(0.131)逻辑结构C121(1.000)语料分类标准(0.693)C131 (0.307)各类语料比例C132采样方式(0.750)C141 样本大小C142(0.250)存储结构(1.000)C211 (0.387)元数据管理C221语料管理C222(0.387)适应性C223(0.113)(0.113)稳定性C224用户界面C231(0.087)(0.284)功能完备性C232(0.201)数据安全性C233数据完整性C234(0.428)查全率(0.395) C241查准率C242(0.2)功能完备性C243(0.184)(0.103)响应速度C244用户界面C245(0.054)通用性(0.750)C311 (0.250)可操作性C312准确性C321(0.429)标注深度C322(0.429)一致性C323(0.142)正确率C331(0.499)速度C332(0.127)(0.2)适应性C333稳定性C334(0.085)(0.397)平衡比例C411 语料更新C412(0.206)逻辑结构C413(0.109)存储结构C414(0.109)(0.206)重新标注C415功能完备性C421(0.683)数据安全性C422(0.117)(0.200)数据完整性C4233大规模语料库可用性评测模型

大规模语料库的建设过程是一个复杂的系统工程,影响语

语料库维护 )A(40.073可维护性 (0.833)B41维护程序(0.167)B42料库可用性的因素很多。对大规模语料库可用性进行评测,最处理与语料库可用性相关的各种信息。重要的是收集、

3.1指标体系设计

评测大规模语料库的可用性,不仅要评测语料库的标注情况,还应该从语料库设计、语料库实现、语料库的维护等几个方面进行评测。

(1)语料库设计

语料库设计的好坏将直接影响整个语料库最终的质量[6],语料库的设计必须符合语料库的建设目的,满足用户的需求。语料库设计主要涉及语料库规模、语料库的逻辑结构、语料库的平衡结构、语料库的采样原则等方面。

(2)语料库实现

语料的采集程序、语料库的存储结构、语料库管理程序、语料库检索程序等都是研究语料库实现的关键要素。

(3)语料库标注

研究语料库标注的关键因素包括语料的加工规范、语料的加工程序和语料的加工结果。语料库的标注质量以及标注深度直接影响到可从语料库中发掘的信息的丰富性、准确性,决定了语料库的可用性

[7-8]

图1大规模语料库可用性评测指标体系3.2指标权重的确定

采用层次分析法确定上述评测指标体系的指标权重[9],具

体步骤如下。

步骤1成立专家组。专家组一般由3~5人组成,成员为对语料库研究具有丰富经验的专家。

步骤2专家分别建立各层指标的判断矩阵。设专家建立的A层指标判断矩阵为:

L

LLLLLLLLLL

a11…

m

m

a1L…m

mL

LLLLLLLLLL

Rm=(1)

式中:aij为第m位专家给出的指标i相对指标j的重要性标度,其中指标i和j都属于A层指标;aij=1/aji,L为A层指标m

m

m

…aL1…aLL

136个数。

2009,45(16)ComputerEngineeringandApplications计算机工程与应用

构建人员为主的评分小组。料库设计、

m

同理可以得到B层指标判断矩阵Rl(1≤l≤L)和C层指,其中K为A层指标所包含的B层标判断矩阵Rlk(1≤k≤K)

指标数。

为了便于专家的评判,需要建立相对重要性的比例标度表,本文采用九级比例标度,如表1所示。

表1

标度值135792,4,6,8倒数

同样重要稍微重要明显重要强烈重要绝对重要

为上述相邻判断的中间值

若因素i与j比较得aij,则因素j与因素i相比得1/aij

m

步骤2评分小组对C层指标评分。评分依据是指标分级评价准则,如表3所示。采用5分制,ulkj为第m个评价人员给Clkj的评分。

表3指标分级量化准则

指标各

类语料比例标注深度

得分5432154321

特征描述

语料种类以及各类语料的比例符合语料分类标准语料种类符合语料分类标准,有部分语料比例不符合标准语料种类符合语料分类标准,语料比例与语料分类标准相差较远语料种类以及各类语料比例均不符合语料分类标准采集语料时,随意性大,没有考虑语料类型及其比例

对语料进行了全面的标注,包括分词、词性标注、句法结构标注、语义标注等

对语料进行了分词、词性标注、句法结构标注对语料只做了分词和词性标注对语料只做了分词语料为生语料,没有标注

m

比例标度的含义(两两指标相比)

重要程度

步骤3计算每一个专家给出的各层指标判断矩阵的权重和一致性程度。权重计算公式为:

(2)RW=λmaxW

式中:λmax为判断矩阵R的最大特征值,W为待求的权重向量。

一致性程度的计算公式为:(3)Rc=λmax-n1

·,n≥3n-1IR

式中:Rc为随机一致性比率;n为矩阵R的维数;IR为随机一致性指标值,其大小与n相关。由文献[10]可知,前6阶矩阵的平均随机一致性指标如表2所示。在该评测指标体系中,最大指标维数为5。

表2平均随机一致性指标矩阵阶数123IR000.58矩阵阶数456IR0.901.121.26步骤3结合3.2节,计算各层指标的评价结果。(1)C层指标Clkj的评价结果

m1Slkj=ulkjΣ5Mm=1

式中:M为评分总人数。

(2)B层指标Blk的评价结果

C

M

≥0,n=1,2

…,Slk=Wlk[Slk1,SlkJ]…,Sl=Wl[Sl1,SlK](4)综合评价结果…,S=W[S1,SL]

A

AT

A

B

B

T

BCCT

(3)A层指标Al的评价结果

4评价结果的分析与应用

步骤4一致性检验。当Rc≤1时,为有效判断;否则为无效判断,需要对该判断进行修改,然后再进行计算。

步骤5计算各指标权重的算术平均值。

軍i=1ω

M(k)

通过上述评测过程,既获得了语料库的整体可用性,又获

得了各项指标对整体可用性的支持能力。这些结果一方面可以确定语料库的可用性级别,为语料库的选择提供指导;另一方面可以通过分析各指标的支持能力,发现影响语料库可用性的瓶颈因素,明确需要改进的方向。表4为课题组对某语料库可用性进行2次评测所得到的结果。

Σω

k=1

M

(k)i

(4)

4.1确定语料库的可用性级别

为了确定语料库的可用性级别,需要将评价结果分级。由

式中:ωi为第k个专家对第i项指标的有效判断权重,M为评分专家总人数。

軍1,軍L],步骤6输出权重向量。…,ωA层指标的权重向量为W=[ω軍l1,軍lK],…,ωB层指标的权重向量为Wl=[ωC层指标的权重向量軍lk1,軍lkJ],为Wlk=[ω…,其中J为B层指标所包含的C层指标数。ω

于指标的分级打分采用5级制,评价结果最大值是1.0,可以将语料库的可用性划分为5个等级:(0,(0.2,S∈0.2],1级;S∈

(0.4,(0.6,(0.8,0.4],2级;S∈0.6],3级;S∈0.8],4级;S∈1.0],

5级。

在表4中,2006年8月的综合评价结果为:S=0.46∈(0.4,0.6],表明语料库的可用性级别处在3级下游水平;2007年6月的综合评价结果为:(0.6,S=0.61∈0.8],表明经过改进,语料库的可用性级别已经处于4级水平。

3.3基于模糊综合评价的可用性评测

3.3.1

指标分级评价准则

采用五级评分准则。表3描述了“各类语料比例”和“标注

深度”的评价准则。限于篇幅,其他指标的评价准则不再列举。3.3.2可用性评测的主要步骤

采用模糊综合评价法[9]对大规模语料库的可用性进行评价,具体步骤如下。步骤1组织评分小组。在专家的组织和参与下,组成以语

4.2分析影响语料库可用性的瓶颈因素

利用图表的形式进一步对表4中的评价结果进行分析以

获得影响语料库可用性的瓶颈因素,如图2~图4所示。在2006年8月,其中“语料库设计”处于A层指标都处在3级水平上,最低层次(图2)。在“语料库设计”的4个B层指标中,“平衡结

李艳红,郑家恒:大规模语料库可用性评测方法

表4某语料库可用性评测结果2006年8月C111B11B12B13B14B210.470.470.300.410.52C112C113A10.41C121C131C132C141C142C211C221B220.39C222C223C224C231A20.44B230.38C232C233C234C241C242B240.46C243C244C245B310.54C311C312C321B32A30.480.45C322C323C331C332B330.48C333C334C411C412B41A40.510.54C413C414C415C421B420.36C422C4230.480.520.400.470.280.330.410.400.520.350.400.410.440.460.350.380.380.500.560.330.340.280.560.480.580.330.400.580.400.380.400.620.580.400.440.380.330.400.42B420.A40.60B410.59B330.61A30.62B320.61B310.B240.61A20.59B230.66B220.62A10.61B12B13B14B210.520.630.650.52B110.602007年6月C111C112C113C121C131C132C141C142C211C221C222C223C224C231C232C233C234C241C242C243C244C245C311C312C321C322C323C331C332C333C334C411C412C413C414C415C421C422C4230.600.660.550.520.620.660.690.540.520.600.650.600.620.690.650.680.660.600.620.680.550.600.650.600.660.550.620.620.650.550.650.620.580.400.440.650.660.520.652009,45(16)137

语料库的建设者快速有效地提升语料库的可用性级别。所提出的方法在某语料库的建设过程中得到了有效的运用。实验表

明,所提出的方法对于指导语料库的选择和语料库的建设能够发挥重要的作用。

参考文献:

[1]DouglasB.Corpuslinguistics[M].潘永樑.[S.l.]:ForeignLanguageTeach-

ingandResearchPress,CambridgeUniversityPress,2000.李涓子.语料库语言学[M].北京:商务印书馆,[2]黄昌宁,2002.袁毓林.计算机时代[3]刘连元.现代汉语语料库选材设计[C]//罗振声,

的汉语和汉字研究:计算机时代的汉语和汉字研究学术讨论会,北京,清华大学出版社,1995-12.北京:1996:271-282.华中师范大学,[4]何婷婷.语料库研究[D].武汉:2003.

商务印书馆,[5]刘开瑛.中文文本自动分词和标注[M].北京:2000.黄建平,孙德金,等.现代汉语研究语料库系统概述[C]//罗[6]孙宏林,

振声,袁毓林.计算机时代的汉语和汉字研究.北京:清华大学出版社,1996:283-294.

段慧明,朱学锋,等.北京大学现代汉语语料库基本加工规[7]俞士汶,

范[J].中文信息学报,(5):2002,19-.

段慧明,朱学锋,等.北京大学现代汉语语料库基本加工规[8]俞士汶,

范(续)(6):[J].中文信息学报,2002,1658-65.

丁祥海,唐任仲.制造企业资源规划实施能力的评测方法[J].[9]黄喜,

浙江大学学报:工学版,(2):2007,41319-324.

朱道立.选择与判断[M].上海:上海科学普及出版社,[10]刘新宪,1990.

构”处于2级中游水平(图3)。因此,“语料库设计”,尤其是“平衡结构”成为影响语料库可用性的瓶颈因素,需要采取措施,通过提高“语料库设计”的可用性,全面提高语料库的可用性。经过一段时间的改进,在2007年6月,“语料库设计”达到4级水平,“语料库实现”处于最低层次(图2),在“语料库实现”的4个B层指标中,“存储结构”成为影响语料库可用性的瓶颈因素(图4)。需要采取措施改进语料库的存储结构,进一步提高可用性。

5结束语

通过分析语料库工程的生命周期,构建了大规模语料库可

用性评测指标体系,综合运用层次分析法、多层模糊综合评价法,提出了一种大规模语料库可用性的评测方法。该方法有助于语料库语言学研究者判断所选择语料库的可用性,也有助于

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务