下载此文档

基于大数据下的手写体识别的设计与研发.doc

文档分类：IT计算机 | 页数：约7页举报非法文档有奖

1/7

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/7 下载此文档

文档列表 文档介绍

基于大数据下的手写体识别的设计与研发
摘要:为了使人机交互更为自然、和谐,我们通过KNN算法对手写体识别进行了研究,手写体识别是为了使计算机对手写体进行图像预处理、基于数字图像的特征提取以及数字串的分割等步骤后,让计算机能够,并且它对扩大计算机在社会中各行业的应用具有重大的实际意义。
近年来,海内外历经多年对手写体识别技术的研究,人们取得了良好的应用性成果。手写体识别存在着最大的问题便是人们所书写的字体存在着很大的差异性,计算机无法做到像人类一样通过“眼睛”来认识这些有差异的手写体(人工智能也正在致力于使计算机能够像人类一样通过“看”、“听”、“说”、“触”来实现人机交互)。本文基于机器学****的特点在大数据环境下对手写体进行准确的识别,致力于把大数据、人工智能等技术运用到手写体识别的领域对手写体进行预处理以及特征提取,最终实现提高计算机对手写体的识别精度与准确率的目标。本文采用KNN-近邻算法设计了手写体识别系统。该系统主要包括机器学****与识别两个模块,利用Python语言编写相关代码,且利用Python自带的环境Anaconda与Windows10下的SQL server 2012(存储数据)来实现该系统的运行。
1 系统主要概念
KNN-近邻算法
KNN-近邻算法是一种能够实现分类和回归的算法之一,而该手写体识别系统则是通过KNN-近邻分类法来实现对数据进行分类的功能,也就是给出一个已有的训练数据集,而现在有一个新的数据,计算机并不知道它属于那一种数据,通过在已有的训练集中找出与该数据最近的K种数据,在这K种数据中,那一种数据多则这个新的数据属于数据较多的那一种数据即少数服从多数。根据这个原理,作出下图示例:
如上图所示,有两类已知的不同样本数据,分别用绿色的小菱形和黄色的小圆形表示,而图正中间的那个红色的五角星所标示的数据则是新的未知的数据。而现在要做的便是将这种新的未分类的数据点通过K值来确定它属于现有的已分类哪一种数据,接下来我们将根据KNN-近邻的思想来对绿色圆点进行归类,确定它是属于那一类别的数据。当K=5时,距离红色五角星最近的5个点分别是3个绿色的小菱形这一类和2个黄色的小圆形这一类,基于KNN算法,最终判定红色的这个未分类数据属于绿色的小菱形这一类。
当K=12时,绿色圆点的最邻近的12个数据点是7个黄色小圆形和5个绿色的小菱形,基于KNN算法,判定红色的这个未分类点属于黄色小圆形这一类。
通过上面的例子,我们知道如何给新的数据点来进行归类,即在一定的条件下也就是K的取值,再利用“少数服从多数”的原理,便可以对新的未分类的数据点进行归类。
欧几里得距离
欧几里得距离即是用来测量在平面上两点之间的距离即当平面上存在两点a与b时,若a(x1,y1) b(x2,y2),则欧几里得距离d=((x1-x2)^2)*((y1-y2)^2)。
二值化(即矩阵化)
图像二值化就是通过使用0、1来表示图片上的各个像素点后,再将这些由0、1数值构成的“图片”按照原本像素点的顺序安放到一个二维数组中,最后要达到让整个图像呈现出只有黑与白的视觉效果。
需要训练集
在手写体识别系统中,我们需要不断的训练产生一个

基于大数据下的手写体识别的设计与研发来自淘豆网www.taodocs.com转载请标明出处.