机器学习基础（1）

o140

2020-03-29

机器学习基础

字数统计:

1.1k字

阅读时长≈

4分

关于机器学习的定义（用英文会好一点）：

1.Arthur Samuel:Field of study that gives computers the ability to learn without explicitly programmed.

2.Tom Mitchell:A computer program is said to learn from experience E with respect to some task T and some performance measure P,if its performance on T,as measured by P,improves with experient E.

Supervised Learning(监督学习):

监督学习大致分为两类：1.Regression (回归) 2. Classify(分类)

一般使用的算法：

1. K-近邻算法（k-Nearest Neighbors，KNN）

K-近邻是一种分类算法，其思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

2.决策树（Decision Trees）

决策树是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

3. 朴素贝叶斯（Naive Bayesian）

贝叶斯分类是一系列分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。朴素贝叶斯算法（Naive Bayesian) 是其中应用最为广泛的分类算法之一。朴素贝叶斯分类器基于一个简单的假定：给定目标值时属性之间相互条件独立。朴素贝叶斯的基本思想是对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

4.逻辑回归（Logistic Regression）

我们知道，线性回归就是根据已知数据集求一线性函数，使其尽可能拟合数据，让损失函数最小，常用的线性回归最优法有最小二乘法和梯度下降法。

Unsupervised Learning(无监督学习):

不会提前知道什么是正确的的,而是让计算机通过分析数据,得到该有的规律

一般采用的算法:

1. K均值聚类算法:

k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。k均值聚类是使用最大期望算法（Expectation-Maximization algorithm）求解的高斯混合模型（Gaussian Mixture Model, GMM）在正态分布的协方差为单位矩阵，且隐变量的后验分布为一组狄拉克δ函数时所得到的特例

2.谱聚类算法

谱聚类算法建立在谱图理论基础上，与传统的聚类算法相比，它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。该算法首先根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵,并且计算矩阵的特征值和特征向量，然后选择合适的特征向量聚类不同的数据点。谱聚类算法建立在图论中的谱图理论基础上，其本质是将聚类问题转化为图的最优划分问题，是一种点对聚类算法

3.Principal Component Analysis(PCA,主成分分析)

主成分分析是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。

关于监督学习的概括引用自CSDN「小白的进阶」的原创文章

阅读原文请pick-> https://blog.csdn.net/laobai1015/article/details/75006511

本文由USC-AIR创作和发表,采用BY-NC-SA国际许可协议进行许可转载请注明作者及出处,本文作者为USC-AIR,本文标题为机器学习基础（1） 本文链接为http://uscair.club/2020/03/29/机器学习基础(1)/.

AIR