• 多次回归分析及推导


    多次回归分析

    在线性回归分析的时候,我用了一条直线去拟合年龄和工资的数据,结果不是太贴合的。我们尝试先用多次方程组来拟合数据。


    我们先把数据读出出来。

    import tensorflow as tf
    import pandas as pd
    import numpy as np
    from matplotlib import pyplot as plt
    
    unrate = pd.read_csv('SD.csv')
    unrate = unrate.sort_values('Year')
    print(unrate)
    
        Year  Salary
    0    1.0   39451
    30   1.1   40343
    1    1.2   46313
    31   1.3   47605
    2    1.4   37839
    ..   ...     ...
    85  12.0  106247
    86  12.5  117634
    87  12.6  113300
    88  13.3  123056
    89  13.5  122537
    
    [90 rows x 2 columns]
    

    这次我们用一个二次方程来拟合一下这些数据。

    方程我们定义为如下:

    [hat(y_i)=W_1*x_i^2 + W_2*x_i+b ]

    那么这样的话,我们就有三个参数 W_1, W_2, b。我们先给这三个参数一个初始数值。

    w_1 = 1000
    w_2 =1000
    b = 1000
    print(w_1)
    print(w_2)
    print(b)
    
    y_pred = w_1* np.power(unrate['Year'],2) + w_2* unrate['Year'] + b
    plt.scatter(unrate['Year'],unrate['Salary'])
    plt.plot(unrate['Year'],y_pred)
    plt.show()
    
    1000
    1000
    1000
    

    我们如果按照上述的模型,求出预测值(hat{y}),我们需要一个函数来评估这个值的好坏。

    [loss=sum_{i=0}^{n} (y_i -hat{y}_i)^2 ]

    这个函数和一次的一样,没有任何变化。接下来,我们需要求出这个函数的导函数。

    [frac{dl}{dw_1} = frac{dl}{dhat{y}}*frac{dhat{y}}{dw_1} =-2sum_{i=0}^{n}(y_i-hat{y}_i)*x_i^2 ]

    [frac{dl}{dw_2} = frac{dl}{dhat{y}}*frac{dhat{y}}{dw_2}=-2sum_{i=0}^{n}(y_i-hat{y}_i)*x_i ]

    [frac{dl}{db}=frac{dl}{dhat{y}}*frac{dhat{y}}{db}=-2sum_{i=0}^{n}(y_i-hat{y}_i) ]

    我们来把上述的函数代码化

    def train(w_1,w_2, b):
        
        learning_rate = 0.000001
        
        y_pred = w_1* np.power(unrate['Year'],2) + w_2* unrate['Year'] + b
        
        dw_1 =  -2*np.sum( np.transpose(unrate['Salary'] - y_pred)*np.power(unrate['Year'],2))
        dw_2 = -2*np.sum( np.transpose(unrate['Salary'] - y_pred)*unrate['Year'])
        db =  -2*np.sum((unrate['Salary'] - y_pred))
    
        temp_w_1 = w_1 - learning_rate * dw_1
        temp_w_2 = w_2 - learning_rate * dw_2
        temp_b = b - learning_rate * db
        
        w_1 = temp_w_1
        w_2= temp_w_2
        b = temp_b
        return w_1,w_2,b
     
    
        
    

    我们来运行下测试下效果:

    for i in range(10000):
        w_1, w_2, b = train(w_1,w_2,b)
    
        
        
    print(w_1)
    print(w_2)
    print(b)
    y_pred = w_1 * np.power(unrate['Year'],2) + w_2 * unrate['Year'] + b
    loss = np.power((y_pred-unrate['Salary']),2).sum()
    
    
    plt.scatter(unrate['Year'],unrate['Salary'])
    plt.plot(unrate['Year'],y_pred)
    
    
    
    
    
    -695.3117280326662
    17380.592541992835
    8744.131370136933
    8487947406.30475
    

    上面就是我们拟合出来的效果。

    我们可以看出来,比我们之前一次的拟合的数据要好很多。

  • 相关阅读:
    阿里早期Android加固代码的实现分析
    如何利用C++的time头文件获取系统时间
    Python编写基于socket的非阻塞多人聊天室程序(单线程&多线程)
    Dalvik模式下在Android so库文件.init段、.init_array段构造函数上下断点
    手动绕过百度加固Debug.isDebuggerConnected反调试的方法
    request使用代理
    requests爬取豆瓣热门电视剧
    scrapy-继承默认的user-agent 中间件
    scrapy-下载器中间件 随机切换user_agent
    scrapy 直接在编辑器运行
  • 原文地址:https://www.cnblogs.com/bbird/p/11493266.html
Copyright © 2020-2023  润新知