AIR

什么是机器学习

对机器学习的定义,长期以来众说纷纭,没有一个比较统一的看法。
我选择其中一些我比较认同的看法:
1.顾名思义, 机器学习是研究如何使用机器来模拟人类学习活动的一门学科。
稍为严格的提法是:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。
这里所说的“机器”,指的就是计算机;现在是电子计算机,以后还可能是中子计算机、光子计算机或神经计算机等等
*2.
从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
机器学习的思路与我们参加的考试类似:我们可以利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(考场的题目)。
简单的一句话:机器学习就是让机器从大量的数据集中学习,进而得到一个更加符合现实规律的模型,通过对模型的使用使得机器比以往表现的更好。

监督学习

定义:提供一组数据和其对应的标签数据,然后搭建模型,让模型通过训练准确找到输入数据和标签数据之间的最优映射关系,再输入新的数据后,模型通过之前学到的最优映射关系,快速的预测出这组新数据的对应标签。
监督学习的分类:回归(Regression)、分类(Classification)
一.回归(Regression)
回归问题是针对于连续型变量的。
例子::预测房屋价格
假设想要预测房屋价格,绘制了下面这样的数据集。水平轴上,不同房屋的尺寸是平方英尺,在竖直轴上,是不同房子的价格,单位时(千万$)。给定数据,假设一个人有一栋房子,750平方英尺,他要卖掉这栋房子,想知道能卖多少钱。

通过回归算法,我们可以根据数据集来画直线或者二阶函数等来拟合数据。比较直线拟合的数据,或曲线拟合的数据等不同方法拟合的数据,找到最适合的模型得到拟合数据(房价)。
回归通俗一点就是,对已经存在的点(训练数据)进行分析,拟合出适当的函数模型y=f(x),这里y就是数据的标签,而对于一个新的自变量x,通过这个函数模型得到标签y.
二.分类(Classification)
和回归最大的区别在于,分类是针对离散型的,输出的结果是有限的。

例子:估计肿瘤性质
假设某人发现了一个乳腺瘤,在乳腺上有个z肿块,恶性瘤是危险的、有害的;良性瘤是无害的。
假设在数据集中,水平轴是瘤的尺寸,竖直轴是1或0,也可以是Y或N。在已知肿瘤样例中,恶性的标为1,良性的标为0。

这个时候,机器学习的任务就是估计该肿瘤的性质,是恶性的还是良性的。
那么分类就派上了用场,在这个例子中就是向模型输入人的各种数据的训练样本(这里是肿瘤的尺寸,当然现实生活里会用更多的数据,如年龄等),产生“输入一个人的数据,判断是否患有癌症”的结果,结果必定是离散的,只有“是”或“否”。
简单来说分类就是,要通过分析输入的特征向量(大量的),对于一个新的向量得到其标签。

无监督学习

定义:提供一组没有任何标签的输入数据,对搭建好的模型进行训练,对训练不做任何干涉,最后由模型得到的数据之间的映射关系,然后对一组新的输入数据进行训练,得到需求结果。

生活中的应用:
1.Google新闻按照内容结构的不同分成财经,娱乐,体育等不同的标签,这就是无监督学习中的聚类。(这里的模型应该是分析内容)

2.根据给定基因把人群分类。通过DNA数据,对于一组不同的人我们测量他们DNA中对于一个特定基因的表达程度(这里是模型)。然后根据测量结果可以用聚类算法将他们分成不同的类型。这就是一种无监督学习, 因为我们只是给定了一些数据,而并不知道哪些是第一种类型的人,哪些是第二种类型的人等等。


 Comments


Blog content follows the Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) License

Use Material X as theme , total visits times .
载入天数...载入时分秒...