下载此文档

脱机汉字识别的研究.docx


文档分类:办公文档 | 页数:约60页 举报非法文档有奖
1/60
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/60 下载此文档
文档列表 文档介绍
脱机汉字识别的研究.docx目录摘要 1导言 2新的特征优劣量度标准 2噪声去除 4归一化预处理 6细化 14汉字特征 14方向分解 14合取方向分解 16方向长度分解 17边缘检测分解 22边缘梯度方向角分解 25汉字特征的实验比较分析及改进 26Gabor方向分解 38Hu不变矩 41分类器设计 44模板分类器 53总结 55参考文献 56毕业论文(设计)任务书 58毕业论文(设计)考核表 59脱机汉字识别的研究郑志洵导师:杨建刚浙江大学计莫机科学与技术系摘要:本文提出了一种独立于分类器的特征优劣量度标准一一类间类内方差比,用其比较了用不同方法提取出的汉字特征的优劣,并改进了预处理和特征提取的方法,取得了更好的效果。对各种分类器用于汉字特征的分类识别做了实验比较,改进了BP神经网络分类器的结构,使其对类似汉字识别的超多类别分类有较好的效果。最后得到了一套可行的脱机汉字识別方案。关键词:脱机汉字识别特征提取分类器Abstract:Thispaperproposesaclassifier-irrelevantfeaturemeasure,-,:OfflineChinesecharacterrecognition,Featureextraction,,大量的信息使用了计算机來存储、处理和传输。将纸质媒介上的信息输入计算机,最简便的方法就是使用扫描仪。但是,担描进计算机的是图像,图像占用的空间大,而且查找、修改等处理都非常不便,传输也要花费人量的时间,没有体现出计算机强人的信息处理能力,因此有必要将图像中的汉字识别出来,用内码存储,这样对信息的各种处理都会非常方便,而且能节省大量的资源,包插存储空间和传输时间。让计算机口动地从图像中识别出汉字,就是木文研究的脱机汉字识别方法。汉字识别是模式识别的一个应用。汉字识别可分为联机汉字识别和脱机汉字识别两类。联机汉字识别,是把汉字写在一种叫手写版的设备上,由它将按时间采样的坐标序列输入计算机,再由计算机识别出汉字。脱机汉字识别,是把扫描入计算机的图像中的汉字识别出来,转换成汉字内码。联机汉字识别,因为其直接得到汉字的笔划顺序、方向以及提笔、落笔等信息,较脱机汉字识别更容易获得汉字结构,也就是说脱机汉字识别难度更大。脱机汉字识别的一般过程是,将扫描入计算机的汉字图像经去噪、行字切割、归一化等预处理后,对每个单字图像提取其特征,然后根据特征使用分类器对具识别,得到的类别就是识别结果,可进一步对其进行基于上下文语法的后处理,降低误识率。本文尝试探讨汉字图像去噪方法、各种特征提取方法以及不同分类器的优劣,并尝试找岀一整套可行的汉字识别方案。本文没有涉及汉字行字切割和基于语法的后处理。本文处理的是二值化片的单字的图像,0代表白像素,1代表黑像索。,先对特征优劣量度标准作一分析。如何评价两种特征提取方案的优劣?一般的方法是设计一个分类器,用从训练样本提取出來的某种特征训练分类器,然后用从测试样木提取出来的这种特征测试,可以获得正确识别率。正确识别率高的特征优秀。这个方法依赖整个识别过程,分类器的结构对其影响很人,有可能出现用不同分类器得到的好的方案不一致。特征的优劣应该是不依赖于分类器

脱机汉字识别的研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数60
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sssmppp
  • 文件大小772 KB
  • 时间2019-11-18