逻辑回归 - 润新知

逻辑回归
3P-2L

梯度~反向传播~实例~局部~凸函数

一、逻辑回归简介

　一句话概括：逻辑回归假设数据服从伯努利分布，通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的

　这里面其实包含了5个点 1：逻辑回归的假设，2：逻辑回归的损失函数，3：逻辑回归的求解方法，4：逻辑回归的目的，5:逻辑回归如何分类。这些问题是考核你对逻辑回归的基本了解
- 逻辑回归的假设：
　　　逻辑回归的第一个基本假设是假设数据服从伯努利分布。伯努利分布有一个简单的例子是抛硬币，抛中为正面的概率是p，抛中为负面的概率是1-p，逻辑回归需要将线性模型进行一下映射，从而能用于分类

　　　这里的映射函数或者叫分类器叫做sigmoid函数，通过sigmoid函数分类器，逻辑回归的第二个假设是假设样本为正的概率是：

( P(y=1|x; heta ) = frac{1}{1+e^{-z}} = frac{1}{1+e^{- heta^Tx}} )
- 逻辑回归的损失函数：
　　　常用的损失函数有以下几种：
- - 0-1损失函数：
(L(Y,f(X)) = left{egin{matrix}1 & Y eq f(X)\ 0 & Y = f(X)end{matrix} ight.)
- - 平方损失函数：
(L(Y,f(X)) = (Y - f(X))^2)
- - 绝对损失函数：
(L(Y,f(X)) = | Y - f(X))|)
- - 对数损失函数或对数似然损失函数：
(L(Y,P(Y|X)) = -logP(Y|X))

　　　对于逻辑回归模型，使用的是对数损失函数作为代价函数，则本例中，逻辑回归的损失函数为：

(cost(y,p(y|x)) = left{egin{matrix}-logp(y|x) & if(y = 1)\ -log(1-p(y|x))& if(y = 0)end{matrix} ight.)

　　　将上面的两个表达式合并，则得到单个数据点上的log损失为：

(cost(y,p(y|x)) = -ylogp(y|x) - (1-y)log(1-p(y|x)))

　　　因为y只有两种取值情况，1或0，分别令y=1或y=0，即可得到原来的分段表达式，即两者是等价的。全体样本的损失函数则可表达为：

(cost(y,p(y|x)) = sum_{i=1}^{m} -y_ilogp(y_i|x_i) - (1-y_i)log(1-p(y_i|x_i)))

　　　其中(p(y|x))由前面的逻辑回归模型定义，令：

(p(y|x) = h_ heta(x) = frac{1}{1+e^{- heta^Tx}})

　　　

　　　则最终的损失函数为：

(cost(y,p(y|x)) = sum_{i=1}^{m} (-y_ilogfrac{1}{1+e^{- heta^Tx}} - (1-y_i)log(1-frac{1}{1+e^{- heta^Tx}})))

　　　即逻辑回归的损失函数是它的极大似然函数：

　
- 逻辑回归的求解方法：
　　　由于该极大似然函数无法直接求解，一般通过对该函数进行梯度下降来不断逼近最优解。因为就梯度下降本身来看的话就有随机梯度下降，批梯度下降，small batch 梯度下降三种方式

　　
- 逻辑回归的目的：
　　　将数据二分类，提高准确率
- 逻辑回归如何分类：
　　　逻辑回归作为回归，如何应用到分类上去？y值确实是一个连续的变量。逻辑回归的做法是划定一个阈值，y值大于这个阈值的是一类，y值小于这个阈值的是另外一类。阈值具体如何调整根据实际情况选择。一般会选择0.5做为阈值来划分。

二、Sigmoid函数

　如果我们使用线性回归来预测y的取值。这样做会导致线性回归的结果取值并不为0或1

　逻辑回归使用一个函数来归一化y值，使y的取值在区间(0,1)内，这个函数称为Logistic函数(logistic function)，也称为Sigmoid函数(sigmoid function)。函数公式如下：

( g(z) = frac{1}{1+e^{-z}} )

　函数图像如下：

　该函数导数有一个特性：

　经过Sigmoid函数转换后的y值有特殊的含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：

( P(y=1|x; heta ) = h_ heta (x) )

( P(y=0|x; heta ) = 1 - h_ heta (x) )

　对上面的表达式合并一下就是：

( P(y|x; heta ) = (h_ heta (x))^y(1-h_ heta (x))^{1-y} )

三、推导过程

　梯度上升

　　构建完似然函数，我们最大似然估计，最终推导出θ的迭代更新表达式

　　只不过这里用的不是梯度下降，而是梯度上升，因为这里是最大化似然函数不是最小化似然函数。我们假设训练样本相互独立，那么似然函数表达式为：

　　同样对似然函数取log，转换为：

　　转换后的似然函数对θ求偏导，在这里我们以只有一个训练样本的情况为例：

　　这样我们就得到了梯度上升每次迭代的更新方向，那么( heta )的迭代表达式为：

四、逻辑回归参数

　逻辑回归的模型调优一般考虑对其正则惩罚项系数进行调整，sigmoid函数的选择，在实际场景中一般是保证一定精确率（Precision）的情况下尽可能提高召回率（Recall rate）

　1）class_weight：类型权重参数，默认None，可以输入"balanced"或者一个字典
　　该参数用于标示分类模型中各种类型的权重，可以不输入，即不考虑权重，或者说所有类型的权重一样

　　如果选择输入的话，可以选择balanced让类库自己计算类型权重，或者我们自己输入各个类型的权重，比如对于0，1的二元模型，可以定义class_weight={ 0:0.9, 1:0.1 }，这样类型0的权重为90%，而类型1的权重为10%

　　如果class_weight选择balanced，那么类库会根据训练样本量来计算权重。某种类型样本量越多，则权重越低，样本量越少，则权重越高

　　sklearn的官方文档中，当class_weight为balanced时，类权重计算方法如下：

　　n_samples / (n_classes * np.bincount(y))，n_samples为样本数，n_classes为类别数量，np.bincount(y)会输出每个类的样本数，例如y=[1,0,0,1,1]，则np.bincount(y)=[2,3]

　　那么class_weight有什么作用呢？在分类模型中，我们经常会遇到两类问题：

　　第一种是误分类的代价很高。比如对合法用户和非法用户进行分类，将非法用户分类为合法用户的代价很高，我们宁愿将合法用户分类为非法用户，这时可以人工再甄别，但是却不愿将非法用户分类为合法用户。这时，我们可以适当提高非法用户的权重

　　第二种是样本是高度失衡的，比如我们有合法用户和非法用户的二元样本数据10000条，里面合法用户有9995条，非法用户只有5条，如果我们不考虑权重，则我们可以将所有的测试集都预测为合法用户，这样预测准确率理论上有99.95%

　　但是却没有任何意义。这时，我们可以选择balanced，让类库自动提高非法用户样本的权重

　　提高了某种分类的权重，相比不考虑权重，会有更多的样本分类划分到高权重的类别，从而可以解决上面两类问题

　2）sample_weight：样本权重参数

　　由于样本不平衡导致我们的模型预测能力下降。遇到这种情况，我们可以通过调节样本权重来尝试解决这个问题

　　调节样本权重的方法有两种，第一种是在class_weight使用balanced。第二种是在调用fit函数时，通过sample_weight来自己调节每个样本权重

　　在scikit-learn做逻辑回归时，如果上面两种方法都用到了，那么样本的真正权重是class_weight * sample_weight

　3）penalty：正则化参数：’l1’,’l2’.默认是’l2’
　　在调参时如果我们主要的目的只是为了解决过拟合，一般penalty选择L2正则化就够了。但是如果选择L2正则化发现还是过拟合，即预测效果差的时候，就可以考虑L1正则化

　　另外，如果模型的特征非常多，我们希望一些不重要的特征系数归零，从而让模型系数稀疏化的话，也可以使用L1正则化

　　penalty参数的选择会影响我们损失函数优化算法的选择。即参数solver的选择

　4）C：smaller values specify stronger regularization

五、手撕逻辑回归

　1）数据获取加header

import pandas as pd import numpy as np #数据没有标题，因此加上参数header df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data', header=None) column_names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape', 'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class'] df.columns = column_names df[df['Sample code number'] == 1057067]

　　我们发现有些特征存在空值：

　　去掉空值：

df = df.dropna(how='any') print(df.shape) # 剩下683个样本：(683, 11) df[df['Sample code number'] == 1057067]

　　可以发现已经不存在这个样本了，已经被去掉了：

　　分割数据：

import warnings warnings.filterwarnings('ignore') from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler #一般1代表恶性，0代表良性（本数据集4恶性，所以将4变成1，将2变成0） #df['Class'][data['Class'] == 4] = 1 #df['Class'][data['Class'] == 2] = 0 df.loc[ df['Class'] == 4, 'Class' ] = 1 df.loc[ df['Class'] == 2, 'Class' ] = 0 #Sample code number特征对分类没有作用，将数据集75%作为训练集，25%作为测试集 X_train, X_test, y_train, y_test = train_test_split(df[column_names[1:10]], df[column_names[10]], test_size = 0.25, random_state = 33) ss = StandardScaler() X_train = ss.fit_transform(X_train) X_test = ss.transform(X_test) X_train = np.round(X_train, 2) X_test = np.round(X_test, 2) y_train = np.array(y_train) y_test = np.array(y_test ) print(X_train.shape, X_test.shape) # (512, 9) ，(171, 9) 加和正好是683

　　展示一些数据吧：

print(X_train[0:5]) print(' ') print(X_test[0:5]) # 前五条 ''' [[-1.19 -0.69 -0.04 -0.62 -0.53 -0.67 -0.56 -0.59 -0.34] [-1.19 0.31 -0.04 2.55 0.37 1.87 0.69 1.09 -0.34] [ 0.24 -0.03 -0.72 -0.62 -0.53 -0.67 -0.97 -0.59 -0.34] [-1.19 -0.69 -0.72 -0.62 -0.53 -0.67 -0.14 -0.59 -0.34] [-1.19 -0.69 -0.72 -0.62 -0.53 -0.67 -0.14 -0.59 -0.34]] [[ 0.24 0.31 0.65 -0.62 2.18 -0.67 -0.14 1.09 -0.34] [-0.47 -0.69 -0.72 -0.62 -0.53 -0.67 -0.56 -0.59 -0.34] [ 2.04 1.63 1.67 -0.27 2.18 1.87 0.27 1.77 4.97] [-0.12 1.63 0.99 0.44 -0.08 0.18 2.76 1.09 -0.34] [ 0.24 -0.36 0.3 -0.62 -0.98 -0.67 -0.97 -0.59 -0.34]] '''

　　你要知道我们的目的就是找到w和b，能够让我们的训练集误差最小，而我们的数据集特征维度是：dim = 9，所以w长度就是9

　2）正向传播

　　我们先初始化一个w和b

def initialize_with_zeros(dim): w = np.zeros((dim,1)) b = 0 return w,b # 这里dim = 9 ''' [[0.] [0.] [0.] [0.] [0.] [0.] [0.] [0.] [0.]] '''

　　定义激励函数：

def sigmoid(z): a = 1/(1+np.exp(-z)) return a

　　正向传播：

# 这里的X就是我们的训练集，只是形状为：(dim, 512)，也就是X_train进行了转置 # 因为机器学习领域，我们所指的向量都是列向量 # X_train.shape = (512, 9)，转置后为(9 , 512)，每一列就是一个样本的特征向量值 w, b = initialize_with_zeros(9) X = X_train.T A = sigmoid(np.dot(w.T,X)+b) print(A.shape) # (1, 512)，得到这个向量，表示每个样本的wx + b的值经过激活函数 print(A) # 因为初始化w的9个分量都是0，所以激活前值为0，经过激活函数得到0.5

其实这就是逻辑回归的第二个假设：假设该样本为正的概率：

( P(y=1|x; heta ) = frac{1}{1+e^{-z}} = frac{1}{1+e^{- heta^Tx}} )

　　损失：（该轮所有训练样本的平均损失：也就是上面的负对数损失函数）

m = X.shape[1] # 样本数目 Y = y_train cost = -( np.sum( Y*np.log(A) + (1-Y)*np.log(1-A) ) ) / m cost ''' 0.6931471805599453 '''

　　有了该轮的损失，下面我们就是想法通过调整权重w和偏置b，重新计算cost，使得cost能够降低（比当前cost：0.69小）

　3）极大似然函数

　　上面我们也说过：逻辑回归的损失函数是它的极大似然函数（没毛病吧，老铁！我们只需要求一个最佳的参数w，能够使得所有样本的概率值之积最大）

　　可是这么多样本，概率都在0-1之间，相乘后的结果值会很小很小，所以才会取对数，求最大值（梯度下降来求最小值，所以我们可以对目标函数取负值，然后求新的目标函数最小值，就可以使用梯度下降啦）

　　我们可以参考上面的推导过程：我这里画了一个图，对与一个样本的梯度和所有样本的梯度计算以及如何更新一个权重$w_1$，到如何更新9个权重$w_9$，这里的512是训练样本数量，共9个特征值

　　自己计算可以一个样本一个样本来，程序可以利用矩阵运算一下子求出dw和db：

def propagate(w, b, X, Y): """ 传参: w -- 权重, shape： (dim, 1) b -- 偏置项, 一个标量 X -- 数据集，shape： (dim, m),m为样本数 Y -- 真实标签，shape： (1,m) 返回值: cost， dw ，db，后两者放在一个字典grads里 """ #获取样本数m： m = X.shape[1] # 前向传播： A = sigmoid(np.dot(w.T,X)+b) # 调用前面写的sigmoid函数 cost = -(np.sum(Y*np.log(A)+(1-Y)*np.log(1-A)))/m # 反向传播： dZ = A-Y dw = (np.dot(X,dZ.T)) / m db = (np.sum(dZ)) / m #返回值： grads = {"dw": dw, "db": db} return grads, cost

　　有了梯度，我们再根据学习率，来求出每次的步长，来进行梯度上升或者下降（上升或者下降取决于你对损失函数是否添加了符号）

　　然后我们经过多轮训练，反复调整权重$w$：

def optimize(w, b, X, Y, num_iterations, learning_rate, print_cost = False): #定义一个costs数组，存放每若干次迭代后的cost，从而可以画图看看cost的变化趋势： costs = [] #进行迭代： for i in range(num_iterations): # 用propagate计算出每次迭代后的cost和梯度： grads, cost = propagate(w,b,X,Y) dw = grads["dw"] db = grads["db"] # 用上面得到的梯度来更新参数： w = w - learning_rate*dw b = b - learning_rate*db # 每100次迭代，保存一个cost看看： if i % 100 == 0: costs.append(cost) # 这个可以不在意，我们可以每100次把cost打印出来看看，从而随时掌握模型的进展： if print_cost and i % 100 == 0: print ("Cost after iteration %i: %f" %(i, cost)) #迭代完毕，将最终的各个参数放进字典，并返回： params = {"w": w, "b": b} grads = {"dw": dw, "db": db} return params, grads, costs

　　最后我们就可以根据训练结果来进行预测啦：

def predict(w,b,X): m = X.shape[1] Y_prediction = np.zeros((1,m)) A = sigmoid(np.dot(w.T,X)+b) for i in range(m): if A[0,i]>0.5: Y_prediction[0,i] = 1 else: Y_prediction[0,i] = 0 return Y_prediction def logistic_model(X_train,Y_train,X_test,Y_test,learning_rate=0.1,num_iterations=2000,print_cost=False): #获特征维度，初始化参数： dim = X_train.shape[1] W,b = initialize_with_zeros(dim) #梯度下降，迭代求出模型参数： params,grads,costs = optimize(W,b,X_train.T,Y_train,num_iterations,learning_rate,print_cost) W = params['w'] b = params['b'] #用学得的参数进行预测： prediction_train = predict(W,b,X_train.T) prediction_test = predict(W,b,X_test.T) #计算准确率，分别在训练集和测试集上： accuracy_train = 1 - np.mean(np.abs(prediction_train - Y_train)) accuracy_test = 1 - np.mean(np.abs(prediction_test - Y_test)) print("Accuracy on train set:",accuracy_train ) print("Accuracy on test set:",accuracy_test ) #为了便于分析和检查，我们把得到的所有参数、超参数都存进一个字典返回出来： d = {"costs": costs, "Y_prediction_test": prediction_test , "Y_prediction_train" : prediction_train , "w" : w, "b" : b, "learning_rate" : learning_rate, "num_iterations": num_iterations, "train_acy":accuracy_train, "test_acy":accuracy_test } return d d = logistic_model(X_train, np.array(y_train), X_test, np.array(y_test), learning_rate = 0.005, num_iterations = 2000, print_cost = True)

　　这里矩阵运算注意来回转置，其实不必去注意这种转换，个人觉得没有必要去扣这种细节，反正原矩阵相乘不行，那就转置相乘，就到这里吧
相关阅读:
git+jenkins持续集成一：git上传代码
 性能测试五十：Jmeter+Influxdb+Grafana实时数据展示系统搭建
 性能测试四十九：ngrinder压测平台
 性能测试四十八：Jenkins+Ant+Jmeter系统部署
 性能测试四十七：jmeter性能监控工具ServerAgent
工具篇：使用natapp工具映射内网到外网访问
 总想自己动动手系列·3·微信公众号和外网服务交互之通过TOKEN验证（准备篇·1）
总想自己动动手系列·2·本地和外网（Liunx服务器上部署的web项目）按照自定义的报文格式进行交互（完结篇）
总想自己动动手系列·1·本地和外网（Liunx服务器上部署的web项目）按照自定义的报文格式进行交互（准备篇）
Linux-在新买的阿里云服务器上部署Tomcat并支持外网访问的配置（步骤记录）
原文地址：https://www.cnblogs.com/always-fight/p/9099704.html