• 机器学习:5.线性回归算法


    1.本节重点知识点用自己的话总结出来,可以配上图片,以及说明该知识点的重要性

      在本节课主要学习了线性回归算法,理解了算法的定义:线性回归是基于已有数据对未知的数据进行预测的。比如:①房价预测,如图1-1、数据可视化如图1-2

    1-1 通过房面积来预测价格

    1-2 画出面积与房价的线性关系图

    ②销售额预测,如图1-3;

    1-3 通过历年销售额来预测

    ③额度贷款预测,如图1-4。等等。。。

    1-4 根据个人诚信度对贷款额度进行预测

    线性回归算法优缺点:

    优点:

      ①思想简单,实现容易。建模迅速,对于小数据量、简单的关系很有效;

      ②是许多强大的非线性模型的基础。

      ③线性回归模型十分容易理解,结果具有很好的可解释性,有利于决策分析。

      ④蕴含机器学习中的很多重要思想。

      ⑤能解决回归问题。

    缺点:

      ①对于非线性数据或者数据特征间具有相关性多项式回归难以建模.

      ②难以很好地表达高度复杂的数据。

     

    机器预测和真实值也是有一定的误差的,那就需要利用算法尽量减少误差比如:正规方程、梯度下降法。

     

    方法一:正规方程

    方法二:梯度下降

    2.思考线性回归算法可以用来做什么?

      课堂实例:房价预测、销售额预测、额度贷款预测

    PS:生活中还有许多可以利用线性回归算法来预测未知数据的实例:

      ①预测天气情况;

      ②企业的销售收入与广告支出的预测;

      ③根据某地犯案情况预测犯罪率

     

    3.自主编写线性回归算法 ,数据可以自己造,或者从网上获取。(加分题)

     算法案例:预测商品的销售额。

      详情:商品的销售额可能因电视、广播、报纸等广告投入的关系而受影响,分析这些因素来预测商品的销售额。

      数据来源:  

        链接:https://pan.baidu.com/s/1DY8SQ7AZZDnHQM-HCbSn6w
        提取码:f1im

       部分数据截图:

     实现代码如下:

    import matplotlib.pyplot as plt
    from sklearn.model_selection import train_test_split
    import pandas as pd
    from sklearn.linear_model import LinearRegression
    import numpy as np
    plt.rcParams['font.sans-serif'] = 'SimHei'  # 设置中文显示
    # 读取数据
    data = pd.read_csv('../data/advertising.csv')
    # data = pd.read_csv('./machine_learning/data/advertising.csv')
    df = pd.DataFrame(data)
    
    # 数据预处理
    # 选择特征列表
    df1 = df[['TV', 'radio', 'newspaper']]
    df2 = df['sales']
    # 选择DataFrame-df的子集
    X = df1
    y = df2
    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=6, test_size=0.2)  # 分为训练集和测试集,训练集占0.8
    
    # 训练模型
    Lrn = LinearRegression()  # 尝试了下不能直接使用LinearRegression()来进行拟合
    Lrn_model = Lrn.fit(X_train, y_train)
    print('截距项:', Lrn_model.intercept_)
    print('回归系数:', Lrn_model.coef_)
    # 预测结果
    Lrn_pre = Lrn.predict(X_test)
    print("预测结果:", Lrn_pre)
    # 测试准确度
    print('
    模型的准确率:', Lrn_model.score(X_test, y_test))
    
    # 绘制ROC曲线
    plt.figure(figsize=(8, 6))  # 创建一个画布
    plt.plot(range(len(Lrn_pre)), Lrn_pre, 'b', label='预测值:Lrn_pre')
    plt.plot(range(len(y_test)), y_test, 'r', label='真实值:y_test')
    # 显示图中的标签
    plt.legend()
    plt.title("预测值与真实值的ROC曲线")
    plt.xlabel('销售量')  # 横坐标
    plt.ylabel('销售额')  # 纵坐标
    plt.show()

    测试结果如下:

     可以看出这个数据训练出来的准确率是很高了,证明预测出来的结果误差很小。模型的三个回归系数分别对应:TV、radio、newspaper,TV的回归系数最大,说明TV对商品的销售额影响最大。

    ROC曲线图:

    从上图可以看模型的测试集的预测的出的结果(Lrn_pre)与真实的测试值(y_test)误差很小,说明整个数据拟合出的模型还是很不错,不过也是因为训练模型的数据以及所考虑的影响因素不够多的原因。

  • 相关阅读:
    一、第一个小程序
    Golang学习笔记
    第四章 自上而下分析
    个人vim配置
    第三章 词法分析
    3.7 TCP拥塞控制
    3.6 拥塞控制原理
    3.5 面向连接的运输:TCP
    3.4可靠数据传输的原理
    3.3 无连接运输:UDP
  • 原文地址:https://www.cnblogs.com/zhif97/p/12739452.html
Copyright © 2020-2023  润新知