LDA及logistic回归与分类python3 实现

一、LDA线性判决分类

总之求解

1、计算每类均值u0,u1为向量
2、计算Sw
3
  w=(u0 - u1) * (mat(sw).I)
以机器学习西瓜数据3.0为例

from numpy import *
import numpy as np
import matplotlib.pyplot as plt
import math
# pandas 模块可以将读取到的表格型数据，进行数据列，行操作
import pandas as pd
# 也可以读取.txt格式，仍用read_csv
data=pd.read_csv("watermelon_3a.csv")
#获取的用列表保存
def calculate_w():
 df1= data[data.label==1]
 df2= data[data.label==0]
 #获取每个标签对应的数据值.values
 X0=df1.values[:,1:3]
 X1=df2.values[:,1:3]
 #计算每类均值u0,u1为向量,mean只计算向量，不能矩阵
 u0= array ([mean(X0[:,0]),mean(X0[:,1])])
 u1= array ([mean(X1[:,0]),mean(X1[:,1])])
 #产生全为u0和u1矩阵
 m1 = shape(X1)[0]
#shape[1] 为第二维的长度,shape[0] 为第一维的长度，矩阵的行数
#mat   函数将数据类型为数组的转化为矩阵形式，进行线代操作
 sw = zeros(shape=(2, 2))
 for i in range (m1):
    xsmean=mat(X1[i,:]-u1)
    sw += xsmean.transpose() * xsmean
 m0 = shape(X0)[0]
 for i in range (m0):
    xsmean=mat(X0[i,:]-u0)
    sw += xsmean.transpose() * xsmean
 w = (u0 - u1) * (mat(sw).I)
 return w

def plot(w):
 dataMat=array(data[['density','ratio_sugar']].values[:,:])
 labelMat = mat(data['label'].values[:]).transpose()
 print(labelMat)
 m=shape(dataMat)[0]
 xcord1 = []
 ycord1 = []
 xcord2 = []
 ycord2 = []
 for i in range(m):
        if labelMat[i] == 1:
            xcord1.append(dataMat[i, 0])
            ycord1.append(dataMat[i, 1])
        else:
            xcord2.append(dataMat[i, 0])
            ycord2.append(dataMat[i, 1])
 plt.figure(1)
 # 将画面分割成1行一列第1个图
 ax = plt.subplot(111)
 ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
 ax.scatter(xcord2, ycord2, s=30, c='green')
 x = arange(-0.2, 0.8, 0.1)
 #a=0.00066,b=0.9直线的斜率为-a/b,直线方程为kx
 a=w[0,0]
 b=w[0,1]
 u=(-w[0, 0] * x) / w[0, 1]
 y = array(u)
 print(shape(x))
 print(shape(y))
 plt.sca(ax)
 plt.plot(x, y)  # gradAscent
 plt.xlabel('density')
 plt.ylabel('ratio_sugar')
 plt.title('LDA')
 plt.show()

w=calculate_w()
print(w)
plot(w)

注意：求解出来的w=[w0,w1]垂直于我们的直线，所以斜率-w0/w1；实现的结果如下

二、logistic回归

1、几何几率回归

f(xi)=w xi +b;使得f(xi)≈yi

输入属性的数目只有一个

样本若有d个属性描述

在次程序中采用梯度上升和随机梯度上升法

主要区别在于

1、alpha的变化所有

2、批量梯度上升，每次进行一次迭代更新就计算所有的样本；随机样本梯度上升：根据样本的数量进行迭代，每次计算一个样本进行一次更新

（梯度上升）

step1:获取数据，X为m x (d+1)矩阵，权值初始化w为（d+1）x 1;

step2: 计算预测值输出值h=sigmoid(X*w)

step3：计算误差 error=label-h

step4: 更新公式如下

step5:画出plot(w)

注意直线w=[w0,w1,w2];前两项为-w0/w1仍然为直线的斜率，我感觉w2直接就是之前的b，但是在实际中用-w2/w1?????目前还不知道为什么？谁看明白可以告诉我，谢谢

from numpy import *
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

#利用几何几率回归将西瓜数据进行分类，并用梯度上升和随机梯度上升求解w,b
#最小化损失函数-梯度下降；最大化极大似然函数--梯度上升法

# 读入csv文件数据
data = pd.read_csv('watermelon_3a.csv')
m, n = shape(data)
data['norm'] = ones((m, 1))
print(data)
#step1,先求出X为 m x(d+1)=17x3,第三个元素直接赋值为1，不需要在values[:,:,:]
#dataLabel为实际值{0,1}
dataMat=array(data[['density','ratio_sugar','norm']].values[:,:])
dataLabel=mat(data[['label']].values[:]).transpose()
def GradAscend():
#对权值初始化，全一
 itermax=300
 n=shape((dataMat))[1]
 a=0.1
 w=array(ones((n,1)))
 for i in range (itermax):
    u=dot(dataMat,w)
    h=sigmoid(u)
    erro=dataLabel.transpose()-h
    w= w +a*(  dataMat .transpose() *erro)
 return w

def sigmoid(x):
    return (1/(1+exp(-x)))

def plot(w):
  dataMat1=array(data[['density','ratio_sugar']].values[:,:])
  dataLabel1=mat(data[['label']].values[:])
  xcard1=[]
  ycard1=[]
  xcard2=[]
  ycard2=[]
  m=shape(dataMat1)[0]
  for i in range(m):
       if (dataLabel1[i]==1):
          xcard1.append(dataMat1[i,0])
          ycard1.append(dataMat1[i,1])
       else:
          xcard2.append(dataMat1[i,0])
          ycard2.append(dataMat1[i,1])
  plt.figure(1)
  ax=plt.subplot(111)
  ax.scatter(xcard1, ycard1, s=30, c='red', marker='s')
  ax.scatter(xcard2, ycard2, s=30, c='green')
  x = arange(0.2, 0.8, 0.1)
  W1=mat(w).transpose()
  #y=array(((-W1[0, 2] - W1[0, 0]* x) /W1[0,1]))
  y = array(((-W1[0, 2] - W1[0, 0] * x) / W1[0, 1]))
  print
  shape(x)
  print
  shape(y)
  plt.sca(ax)
  plt.plot(x, y)  # ramdomgradAscent
# plt.plot(x,y[0])   #gradAscent
  plt.xlabel('density')
  plt.ylabel('ratio_sugar')
# plt.title('gradAscent logistic regression')
  plt.title(' gradAscent logistic regression')
  plt.show()

w=GradAscend()
print(w)
plot(w)

结果

[[ 1.20808298]
[ 8.92638039]
[-2.52407404]]

划分结果

（2）随机梯度下降

from numpy import *
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# 利用几何几率回归将西瓜数据进行分类，并用梯度上升和随机梯度上升求解w,b
# 最小化损失函数-梯度下降；最大化极大似然函数--梯度上升法

# 读入csv文件数据
data = pd.read_csv('watermelon_3a.csv')
m, n = shape(data)
data['norm'] = ones((m, 1))
print(data)
# step1,先求出X为 m x(d+1)=17x3,第三个元素直接赋值为1，不需要在values[:,:,:]
# dataLabel为实际值{0,1}
dataMat = array(data[['density', 'ratio_sugar', 'norm']].values[:, :])
dataLabel = mat(data[['label']].values[:]).transpose()


def sigmoid(x):
    return (1 / (1 + exp(-x)))

def randomgradAscent(dataMat,dataLabel):
  m, n = shape(dataMat)
  numIter=50
  w = ones(n)

  for j in range(numIter):
     dataIndex =list( range(m))
     for i in range(m):
          alpha = 4.0 / (1.0 + j + i) + 0.2
          randIndex_Index = int(random.uniform(0, len(dataIndex)))
          randIndex = dataIndex[randIndex_Index]
          h = sigmoid(sum(dot(dataMat[randIndex], w)))
          error = (dataLabel[0,randIndex] - h)
          w = w + alpha * error * (dataMat[randIndex].transpose())
          del (dataIndex[randIndex_Index])

  return w


def plot(w):
    dataMat1 = array(data[['density', 'ratio_sugar']].values[:, :])
    dataLabel1 = mat(data[['label']].values[:])
    xcard1 = []
    ycard1 = []
    xcard2 = []
    ycard2 = []
    m = shape(dataMat1)[0]
    for i in range(m):
        if (dataLabel1[i] == 1):
            xcard1.append(dataMat1[i, 0])
            ycard1.append(dataMat1[i, 1])
        else:
            xcard2.append(dataMat1[i, 0])
            ycard2.append(dataMat1[i, 1])
    plt.figure(1)
    ax = plt.subplot(111)
    ax.scatter(xcard1, ycard1, s=30, c='red', marker='s')
    ax.scatter(xcard2, ycard2, s=30, c='green')
    x = arange(0.2, 0.8, 0.1)
    #W1 = mat(w).transpose()
    # y=array(((-W1[0, 2] - W1[0, 0]* x) /W1[0,1]))
    y = array(((-w[2] - w[0] * x) / w[1]))
    print
    shape(x)
    print
    shape(y)
    plt.sca(ax)
    plt.plot(x, y)  # ramdomgradAscent
    # plt.plot(x,y[0])   #gradAscent
    plt.xlabel('density')
    plt.ylabel('ratio_sugar')
    # plt.title('gradAscent logistic regression')
    plt.title(' randgradAscent logistic regression')
    plt.show()
w =randomgradAscent(dataMat,dataLabel)
print(w)
plot(w)

w=[ 1.59035763 7.07872188 -2.18857215]

相关阅读:
web接口文档apidoc的使用
 python 文件重命名
 sort()排序
 JavaScript自定义事件和触发(createEvent, dispatchEvent)
Sql 2016 安装到sql_shared_mrconfigaction-install-confignonrc-cpu64卡住不动，是什么原因呢？
基础提供程序在Open上失败
 win10 Hyper-v 虚拟机监控程序灰色尝试检索虚拟交换机列表时出错【转载】
相对路径获取文件名
 省市区三级联动
 反射==>不明确的匹配
原文地址：https://www.cnblogs.com/6530265oule/p/8695499.html