印刷体汉字的分类和识别
第一页,共47页
要点:
印刷体汉字的分类
印刷体汉字的识别
课堂练****br/>课后练****br/>第二页,共47页
印刷体汉字的分类
印刷体汉字分类的必要性
印刷体汉字分类的基本要求
印刷体汉字分类举例
印刷体汉字分类的方法
返回
第三页,共47页
印刷体汉字分类的必要性
由于汉字数量大,如果不对汉字分类而直接识别,一方面识别效果不会好,另一方面计算量往往会很大。
汉字识别通常都要对汉字做一级或多级分类,然后再细分判别,从而大大提高识别效率。
返回
第四页,共47页
印刷体汉字分类的基本要求
粗分类的正确分类率和分类稳定性要高。文字识别是先粗分类,然后再细分。粗分类的正确与否会影响到后面的识别。
粗分类的速度要快。这要求分类的算法简单,同时要求分在各个类别中的汉字的数目比较平均,从而提高分类的效率。
返回
第五页,共47页
印刷体汉字分类举例
在下图中,“3”所代表的文字不仅在类别A中,也可能同时在类别C中。在细分判别A和C类中的文字时应同时考虑“3”所代表的文字。返回
第六页,共47页
印刷体汉字分类的方法
采用复合特征的分类
多级分类
返回
第七页,共47页
采用复合特征的分类
选用N种具有互补特征作为类特征
在学****阶段,对训练样本进行N次互不相关的分类,然后组合N次分类结果,完成特征空间的划分。
分类时,根据待分字的特征进行N次分类,组合分类结果求得子类。
返回
第八页,共47页
多级分类
学****阶段,对训练样本进行多级分类,每一级分类是在上级分类基础上进行的;分类时重复上述多级分类过程。
树分类是一种典型的多级分类,具有效率高的特点,但是汉字字数多会造成分类树结构庞大,使得分类不够稳定。
返回
第九页,共47页
印刷体汉字的识别
在选取特征之后,需要选择或寻找适当的判别准则来判断待识字的特征与哪一个类别的特征最近。常用准则有两类:
(1)基于距离的识别准则
(2)基于相似度的识别准则
返回
第十页,共47页
印刷体汉字的分类和识别 来自淘豆网www.taodocs.com转载请标明出处.