您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页手写汉字的文字识别

手写汉字的文字识别

来源:化拓教育网
第26卷第6期 2010年3月 甘肃科技 Gansu Science and Technology },0Z.26 No.6 Mar. 2010 手写汉字的文字识别 王 冰 ,王 越 (1.电子技术学院广州训练大队训练处基础教研室,广东广州510510;2.陕西西安陆军学院训练部,陕西西安710108) 摘要:主要对利用神经网络进行手写体汉字识别的方法进行了介绍。最后对手写体汉字识别技术进行了展望。 关键词:BP神经网络;特征提取 中图分类号:TP319 1 手写体汉字识别的基本知识 手写体汉字按输入方式不同,可分为联机和脱 机两种。联机手写识别就是采用和计算机相连的书 写板,用户一边在书写板上写汉字,机器一边识别处 理.识别以笔划为单位,根据~个汉字的笔划组合、 笔划之间的位置和关系,最终识别出汉字。脱机手 写汉字识别需用光电转换装置,如,扫描仪或摄像机 将写在纸张上的文稿变为电信号,再输入到计算机 进行识别,其基本思想和印刷体汉字识别一致。由 于手写体人为因素随意性大,所以,手写体汉字识别 的难度远高于印刷体汉字的识别。 2文字识别的基本原理 手写汉字识别的基本原理也是将输入的文字与 各个标准文字进行模式的匹配,计算类似度,将具有 最大类似度的标准文字作为识别结果。但是手写体 文字的人为因素随意性大,经常会出现连笔,和背景 融合的现象,因而在对手写体文字的识别中一般都 会加入汉字识别的预处理阶段,该阶段主要是完成 汉字图像的正规化,将手写输入的文字尺寸归一及 矫正变形。然后再进行汉字识别阶段,在汉字识别 阶段,完成汉字的识别,涉及特征提取和分类器的设 计。最后进行识别后处理阶段,利用汉字的结构知 识、语义、词义等上下文先验信息进行结果的纠错和 最后确定。尽管进行了这三个阶段,我们依然会发 现在对稍微潦草的文字的识别中,错误的比率依然 很高。 3 文字识别中的神经网络识别方法 在手写汉字的识别过程中,重点是汉字的识别 阶段,在汉字识别的阶段,最关键的地方就在于对汉 字的特征进行提取和分类器的设计。稳定的特征提 取的方法和良好的分类器设计是整个识别系统的核 心,它们直接决定了识别系统的性能。按特征提取 和分类器设计的不同,通常可以分为统计模式识别 法,结构模式识别法,统计和结构相结合的识别法和 人工神经网络识别法。人工神经网络是一种按照人 脑的组织和活动原理而构造的一种数据驱动型非线 性模型。它由神经元结构模型、网络连接模型、网络 学习算法等几个要素组成,是具有某些智能功能的 系统。从网络的结构划分,人工神经网络有许多不 同的种类,如感知器、BP网、Hopfield网、ART等等。 这些结构不同的网络在信息处理的功能上各有千 秋。由于人工神经网络具有与人脑相似的高度并行 性,良好的容错能力和联想记忆功能,适合处理一些 环境信息十分复杂,背景知识不清楚,推理规则不明 确的问题,而这些正是汉字识别特别是手写汉字的 识别所需要的。目前神经网络已在识别领域得到了 广泛应用,其中BP网神经网络是当前应用最为广 泛的一种神经网络。 4 BP神经网络识别方法 4.1 BP神经网络的算法模型 BP模型是一个很有效的算法模型,它是Ru— mellhart于1986年提出,它的设计是将神经元分层 排列,输入层、若干中间层和输出层。一层一层传递 进行,每一层的神经元只接受它的前一层神经元的 输入,输出层是由输入层经过了各层的变换后得出。 由于这样的设计,BP神经网络解决了其他基本模型 所未能解决的问题,它将一组样本的I/O问题变成 一非线性优化问题,使用梯度下降法,运用迭代算法 完成学习记忆。再加上隐节点的增加使得可调系数 增加,从而就可得更精确的解。 BP算法采用训练多层神经网络,将每一个训练 范例在网络中使用两遍传递进行计算:一遍向前传 甘肃科技 田为学习率常数。 ,第26卷 递计算,即从输入层开始,依次传递各层,经过神经 网络处理后,产生一个输出,得到一个实际输出和所 需输出之差的差错矢量;一遍向反方向传播计算, 从输出层回归至输入层,利用差错矢量对权值进行 逐层修改,直至逼近最终的结果。 由此,BP学习算法中要求的神经元特性函数是 可微的。有许多可微的函数可用作特性函数,常见 如S形函数。 为神经元 的差值。 4.2 BP神经网络的特征提取 特征提取是整个手写体汉字系统中最重要的一 部分。所谓特征提取,就是将已分割好的文字通过 方法,判断出识别的文字。一般采用的方法是将需 要的文字分割于网格阵列中作为输入。网络的实空 状态,决定了输出层的值。通过输出向量中“1”元 F(xA。 素的位置,就可判断出字符。为了避免出现浓度相 同的文字的识别混淆问题,网格阵列多采用浓度逐 其中: ,=Xw ,可满足这个要求,它的偏导数为: 级递增或递减非均匀网格。浓度值的计算公式为: 甏 (1- ^ m d( ,Y ) .王m(k + √)厂( + i, +.『) 开始训练时,按照算法,网络的全部权值必须初 把这些浓度值作为网络学习输人模式同相应的 始化。一般会设置成较小的随机数,避免出现因权 导师输出示范模式一起,按BP算法对网格进行训 值取到最大值而使网络饱和或出现反常情况。 练,最后得到对输入文字具有识别能力的网络。 BP算法的训练步骤按照算法要求分为以下: 由此可看,BP神经网络具有较强的学习性、自 (1)从众多的训练范例集中取一训练对,作为 适应性和容错性,但是BP算法对于规模较大的模 输入矢量当做网络的输入;(2)利用算法,计算出该 式映射问题,存在着收敛速度慢、容易陷入局部最小 输入矢量下的网络输出矢量;(3)计算网络输出矢 点、判断不准确等缺陷。因此,对BP神经网络方法 量与训练对中目标矢量间的差错值;(4)将输出层 进行改进是今后一直需要研究的问题。 反向计算至第一中间层,根据结果,调整网络权值, 以减少误差;(5)对训练范例集中每一范例重复上 5汉字识别的未来展望 述l~4步,直至整个训练集的差错最小。 当前手写汉字识别的发展非常迅速,许多成果 上述1,2步计算同训练后神经网络用于识别时 均已走向实用,但是不少成果还不成熟。对于手写 一样,逐层执行计算。学习结束是指实际输出矢量 体汉字识别未来的发展前途,应抱着乐观的态度。 与目标矢量间差错已减少到可接受的值,权值已不 因为无论是脑机能的研究(主要是指人的文字识别 再调整。因此学习后网络做识别用时,仅用第1,2 机制的研究)还是计算机性能的提高都会不断促进 步,第3,4步是从输出层开始,使用迭代方法,一直 手写文字识别理论和技术发展,并最终达到理想的 反向计算到第一中间层为止。 目标。 (n+1)=W (,1)+Cjx; 参考文献: 其中:加 (n)为神经元i至神经元 的第凡次变更的 [1]张世辉.汉字的识别与现状分析[M].2003. 权值; [2] 鲍胜利.汉字识别的新技术和发展趋势[M].2OO2. 为神经元i的输出(方程中也可以用输入 [3]李平,蒋振剐.神经网络对手写字符识别特征的提取 代之); [J].长春光学精密机械学院学报,2000(6). ・..… ●…・●…・●…*o-…●…oO…oe・…●…・●…・●…・●…・●…-o….it・…●…・●…・●…・●…・●…・●・”・●…,I-o,,.O--”●…..…・●…・●…・●…●…・●…・●…・●… (上接第80页)在美国、德国等发达国家,计量院除 标准是质量的依据,计量是质量的保证,没有高 了研制、维护国家基准外,都组织力量研究先进的测 标准,没有准确一致的计量保证,便没有高质量,而 试技术,这些都与经济的整体竞争力密切相关。 标准的制定,标准化的实现又是以计量技术为支持, 目前,国家科技部已将标准化、计量工作列入国 所以三者的核心便是计量技术。即质量技术监督工 家重点关注的科技基础性研究内容。 作的发展依赖于计量技术的发展,只有大力提高计 量技术的研究和应用,才能在新的发展形势下取得 6结论 长足发展。 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务