机器学习基础（5）

o140

2020-04-13

机器学习基础

字数统计:

862字

阅读时长≈

3分

机器学习基础(5)

Logistic回归

Logistic回归的一般过程

1.收集数据:任何适用方法。

2.准备数据:由于需要进行距离计算，因此要求数据类型为数值型。另外，结构化数据格式则为最佳。

3.分析数据:可以使用任何方法。

4.训练算法:大部分时间将用于训练，训练的目的是为了找到最佳的分类回归系数。

5.测试算法:一旦训练步骤完成，分类将会很快。

6.使用算法:首先，我们需要输入一些数据，并将其转换成为对应的结构化数值；接着，基于训练好的回归系数就可以对这些数值进行简单的回归计算，判定它们属于哪个类别；最后，我们就可以在输出类别上做一些其他的分析工作。

Logistic回归的特点

1.优点：计算代价不高，易于理解和实现。

2.缺点：容易欠拟合，分类精度可能不高。

3.适用数据类型：数值型和标称型数据。

Sigmoid函数

在Logistic回归中，我们可以用Sigmoid函数来实现Logistic回归的分类器：在每一个特征值上都乘以一个回归系数，然后将所有的结果相加，将这个综合带入Sigmoid函数中，得到0~1之间的值。此时，将所有大于0.5的数据分类到1类中，小于0.5的归到0类。

计算公式：
$$
\sigma(z)=\frac{1}{1+e^{-z}}
$$
Sigmoid函数的图像为：

Sigmoid函数的输入记为z，则：
$$
z=w_0x_0+w_1x_1+w_2x_2+\ldots+w_nx_n
$$

基于最优化方法的最佳回归系数确定

梯度上升法

梯度上升法的思想基于：要找到某函数的最大值，最好的方法是沿着该函数的梯度方向探寻。如果梯度记为▽，则函数f(x,y)的梯度表示为：

创建Logistic回归梯度算法:

from numpy import *

def loadDataSet():
    dataMat=[];labelMat=[]
    fr=open('testSet.txt')
    for line in fr.readlines():
        lineArr=line.strip().split()
        dataMat.append([1.0,float(lineArr[0]),float(lineArr[1])])
        labelMat.append(int(lineArr[2]))
    return dataMat,labelMat

def sigmoid(inx):
    return 1.0/(1+exp(-inx))

def gradAscent(dataMatIn,classLabels):
    #转换为Numpy矩阵数据类型
    dataMatrix = mat(dataMatIn)
    labelMat = mat(classLabels).transpose()
    m,n = shape(dataMatrix)
    alpha = 0.001
    maxCycles = 500
    #此处使用ones而不是one否则会出现"NameError: name 'one' is not defined"的错误
    weights = ones((n,1))
    for k in range(maxCycles):
        h = sigmoid(dataMatrix * weights)
        error = (labelMat-h)
        weights=weights + alpha*dataMatrix.transpose() * error
    return weights

在Python提示符下输入:

画出决策边界:

def plotBestFit(weights):
    import matplotlib.pyplot as plt
    dataMat, labelMat = loadDataSet()
    dataArr = array(dataMat)
    n = shape(dataArr)[0]
    xcord1 = []; ycord1 = []
    xcord2 = []; ycord2 = []
    for i in range(n):
        if int(labelMat[i]) == 1: 
            xcord1.append(dataArr[i, 1]); ycord1.append(dataArr[i, 2])
        else:
            xcord2.append(dataArr[i, 1]); ycord2.append(dataArr[i, 2]) 
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
    ax.scatter(xcord2, ycord2, s=30, c='green')
    x = arange(-3.0, 3.0, 0.1)
    y = (-weights[0] - weights[1] * x) / weights[2]
    y = y.transpose()
    ax.plot(x, y)
    plt.xlabel('X1');plt.ylabel('X2');
    plt.show()

在IDLE中输入:

输出结果:

随机梯度上升算法

#随机梯度算法实现
def stocGradAscent1(dataMatrix, classLabels, numIter=150):
    m,n = shape(dataMatrix)
    weights = ones(n)
    for j in range(numIter):
        #这里的range(m)要用list包含,否则会导致range中的函数无法转换
        dataIndex = list(range(m))
        for i in range(m):
            alpha = 4/(1.0+j+i)+0.0001
            randIndex = int(random.uniform(0,len(dataIndex)))
            h = sigmoid(sum(dataMatrix[randIndex]*weights))
            error = classLabels[randIndex] - h
            weights = weights + alpha * error * dataMatrix[randIndex]
            del(dataIndex[randIndex])
    return weights

在IDLE中输入:

提示输入2

输出结果:

本文由USC-AIR创作和发表,采用BY-NC-SA国际许可协议进行许可转载请注明作者及出处,本文作者为USC-AIR,本文标题为机器学习基础（5） 本文链接为http://uscair.club/2020/04/13/机器学习基础(5)/.

AIR

机器学习基础（5）

机器学习基础(5)

Logistic回归

Logistic回归的一般过程

Logistic回归的特点

Sigmoid函数

基于最优化方法的最佳回归系数确定

梯度上升法

创建Logistic回归梯度算法:

在Python提示符下输入:

画出决策边界:

在IDLE中输入:

输出结果:

随机梯度上升算法

在IDLE中输入:

输出结果:

Previous

机器学习基础（3）

机器学习

Next

使神经网络具有记忆力——RNN及LSTM

RNN LSTM

Comments