下载此文档

Coursera台大机器学习基础课程学习笔记.doc


文档分类:IT计算机 | 页数:约23页 举报非法文档有奖
1/23
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/23 下载此文档
文档列表 文档介绍
Coursera台大机器学****基础课程学****笔记1 -- 机器学****定义及PLA算法
最近在跟台大的这个课程,觉得不错,想把学****笔记发出来跟大家分享下,有错误希望大家指正。
一机器学****是什么?
 
感觉和 Tom M. Mitchell的定义几乎一致,
A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
简而言之,就是我们想要机器在某些方面有提高(如搜索排名的质量,即NDCG提高),就给机器一些数据(用户的点击数据等各种)然后让机器获得某些经验(Learning to rank的一种模型,也就是数学公式)。这里有点需要强调,那就是提高指标,必须要有某种指标可以量化这种提高,这点还是很关键的,工业界做机器学****首先关注data,其次就是有无成型的measurement,可以使Precision/Recall,也可以是NDCG等。
 
二什么时候可以用机器学****br/> 
其实就三要素:
有规律可以学****br/>编程很难做到;
有能够学****到规律的数据;
编程很难做到可以有多种,大部分原因是系统太复杂,很难用Rule-based的东西去解决,例如搜索排名,现在影响排名的因素有超多几百种,不可能去想出这些因素的规则,因此,这时候用机器学****就是恰到好处。特别是移动互联网的今天,用户更容易接触互联网,产生的数据越来越多,那么要找到某些不容易实现的规律,用机器学****就是很好的了,这也是为啥机器学****这么火,其实我学机器学****不仅仅是一种投资(肯定它未来的发展前途),我想做的事情还有一点,就是通过它更深刻的理解人脑的学****过程,提高自己的学****效率和思维能力。
 
三具体如何用机器学****br/> 
输入是两个:1 data;2 假设集合。Data如何使用?通过提取出feature vector来使用,也就是那个training examples,假设集合是用来选取最终f的。也就是说,输出就是f(或近似f)。
 
四第一个机器学****算法:PLA(Perceptron Learning Algorithm)
课程讲述这个算法的总体思路如下(典型的提出问题,分析问题以及解决问题):
 
通过信用卡问题引入PLA;
对问题用数学抽象,并得到目标函数;
详细解释PLA迭代(学****过程;
证明PLA学****的过程可以收敛并会得到最优解;
分析PLA优缺点,并提出克服缺点的一些方法;
 
这个算法本质上是线性分类器,针对给定的feature vector给出Yes 或者 No的回答
下面是用这个算法去解决信用卡问题的数学抽象:
这里的思想在于朴素的把从用户信息抽出来的一些feature(年龄等)量化并组成vector,然后乘以一个权重向量,并设定一个阈值,大于这个阈值就表示好,小于表示不好,很明显这个式子的未知变量有两个(实际只有一个):
权重向量 wi, 1<=i<=d;
阈值,下面设为0
做一点小小的变形使得式子更加紧凑,
还有就是从这个模型可以知道,regression model也可以解决classification问题,转化的思想。下面是这个算法的核心,定义了学****目标之后,如何学****这里的学****是,如何得到最终的直线去区分data?
 
这个算法的精髓之处在于如何做到"做错能改",其循环是不断遍历feature vector,找到错误的点(Yn和当前Wt*Xn不符合),然后校正Wt,那么为什么要这样校正?因为这样可以保证Wt越来越靠近perfect直线Wf()课程像大多数课本一样,用逆向思维给予介绍,就是在给定这样能够做的情况下去证明,即证明为什么这样做可以不断接近目标,以及最终一定会停止?
下面道出了PLA终止的条件:
  
这个是比较容易想到的,如果不能用直线去区分data(线性不可分),肯定是解决不了的,所以必须要满足线性可分,其实问题的关键在于如何方便的知道某些数据是否线性可分?这个在课程中目前没有涉及,一种简单的解决方法是画出来,直观的去看,这个我觉得不是好方法。
 
 
这两页PPT比较复杂,其实就是在利用条件证明,下面重新组织下给出思路,因为Latex用中文不太爽,就用英文了:
 
五 PLA的优缺点
为了应对Nois

Coursera台大机器学习基础课程学习笔记 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数23
  • 收藏数0 收藏
  • 顶次数0
  • 上传人1542605778
  • 文件大小2.82 MB
  • 时间2021-01-31