学****分析及其数据处理技术研究
摘 要“学****分析技术”是大数据在教育领域的主要应用。本研究通过运用文獻分析法,剖析学****分析过程中最核心的数据分析环节,归纳出学****数据的分类及来源,并着重梳理了各种学****数据处理方法的特点与应用。最后自变量之间通过各种联系函数关联的各种广义线性回归模型。线性回归经过了严格研究,已在现实中得到了广泛的应用。
聚类分析
在学****分析案例中,聚类分析主要集中应用在整合教学资源、划分学生群体、优化课程设置等方面。聚类分析是一种非监督学****是将对象依据相似度进行划分,形成有价值的簇集。常见的聚类分析算法如下:
(1)K-Means算法。K-Means算法是最著名的划分聚类算法,其机制为:以随机的K个对象为初始中心,将每个对象分配给与之距离最近的子聚类中心,并更新聚类中心,循环执行至终止条件。该算法能够准确、高效地处理大规模数据,但由于聚类中心是随机产生,有可能导致局部最优化,从而影响聚类结果的有效性。针对此问题,可以通过优化初始划分,提高聚类效果。如Likas[4]的全局K-means聚类等。
(2)BIRCH算法。BIRCH算法是分层聚类算法的代表,算法通过扫描数据库,动态建立聚类特征树(CF Tree),再进一步聚类 CF Tree的叶节点。该算法可以在线实时运行,通过一遍扫描就能有效聚类,时间空间效率高。但该算法效率受数据对象加入顺序的影响较大,也不能很好的处理高维数据,对象数量受到簇直径的限制。为此,学者们提出了各种BIRCH改进算法,如邵峰晶[5]的动态及多阈值方法等。 (3)DBSCAN算法。DBSCAN原理描述为:对任一未被访问样本数据点,根据扫描半径 (eps)和最小包含点数(minPts),对其Eps领域搜索成簇。若被访问点Eps(扫描半径)领域点数量大于或等于MinPts(最小包含点数)时,则被访问点与其Eps领域附近点形成簇,否则暂时为噪声,如此递归直至遍历所有样本数据。DBSCAN算法可以识别高密度、噪声空间数据库中任何形状簇类,对数据对象顺序无要求。
关联规则挖掘
在学****分析研究中,关联挖掘对于学****时长、成绩、知识点等对象之间的相关性分析表现出很好的优越性。关联规则的挖掘主要是探索事物之间的关联信息,挖掘出有价值的规律。该方法源起于购物篮分析,如发生在美国沃尔玛超市的“尿布与啤酒”现象:从各门店的消费数据中挖掘,得出消费者的购买****惯(尿布与啤酒大都组合购买),从而揭示了一种生活模式(即年轻父亲下班回家途中给孩子买尿布,会顺便买走自己喜爱的啤酒)。
(1)Apriori算法。1994年,由Agrawal等人提出的Apriori[6]算法是比较著名的挖掘布尔关联规则频集算法。该算法使用迭代的方法,扫描数据库,寻找所有频繁项集,并从中生成规则。算法过程简单,便于运用,目前已广泛应用于商业、网络安全、高校管理等领域。然而该算法过程需多次扫描数据库,且针对高维度数据也不适用。
(2)散列(hash)。散列是一种实用的查找技术,计算记录搜索码值上的一个函数,直接获得包含该记录的物理地址。散列技术需要一个分布均匀且随机的散列函数,来尽量避免不同关键码其散列函数值却相同的冲突情况。1995年,Park提出运用散列技术产生频繁项
学习分析及其数据处理技术研究 来自淘豆网www.taodocs.com转载请标明出处.