机器学习笔记(一)
更新日期:
最近看了Coursera上面Machine Learning的课程,在此留下笔记。
另:github上有一个coursera-dl的程序可以用来下载coursera的视频非常好用!
机器学习的用途
机器学习在生活中有许多用途,常见的有垃圾邮件的拦截,数据挖掘,电脑AI等。
机器学习的定义
Arthur Samuel (1959):
Field of study that gives computers the ability to learn without being explicitly programmed.
他曾经设计了一个Check Game的AI,虽然他本人并不精通这个游戏,但是当AI与AI自己下了许多盘棋之后,AI自己学会了这个游戏,并比作者本人还要玩得好。在这里面由于作者不精通游戏,因此无法显式地将编写出下棋程序,AI必须通过自己学习来学会下棋,这就是机器学习。
Tom Mitchell (1998) Well-posed Learning Problem:
A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
意即对于一个程序,它拥有学习经验E,并处理任务T,使用P来描述程序的表现,如果在处理T时,通过对E进行学习,可以提升他的表现P,那么这就是一个机器学习的程序。 对于一个垃圾邮件拦截程序而言:
- 拦截垃圾邮件 -- 任务T
- 用户自己标记垃圾邮件 -- 经验E
- 垃圾邮件拦截的正确率 -- 表现P
机器学习的分类
一般而言,我们可以将机器学习分为两类有监督和无监督。
- 有监督(Supervised): 有监督即有人工给出所需的经验,比如在垃圾邮件拦截中,用户自己标记垃圾邮件就属于有监督;在分词程序中,用户提供已经分好词的词库就属于有监督。
- 无监督 (Unsupervised): 无监督即指没有人工给出所需的经验,一切都有程序自行来判断。
在功能上,有监督属于分类,而无监督属于聚类。 另外还有 Reinfocement learning, recommener system等等。