• 机器学习之线性递归


    、先弄清楚机器学习的几个概念:

    • 训练集:训练样本,每个样本都由表示要学习的特征集(输入变量)和目标(输出变量)

       设训练样本数为m

    •   输入特征变量input : x  其中每个样本用 表示(第i个样本),样本中每个特征/输入用表示(第i个样本中的第j个特征)
    •   输出特征/变量output : y     其中每个样本用 表示(第i个样本),每个样本只有一个输出。
    •   更新参数/权值 weight : theat   每个输入x对应一个theta, 用表示

      因此第i个样本集用表示。

    监督的机器学习算法主要分为这三个部分:

      1. 假设函数:(无法直接插入公式啊,就不费劲了,这些公式网上很容易找到)

      2. 花费函数:以参数theta为自变量,根据假设函数求出训练集的每对数据的值与真实值的差值做比较,依据某一标准函数,最小化这个花费函数

        最小二乘法(min square): 差值的平方和最小(最常用的方法),  因为它是一个碗状的凹进去的误差曲面,花费函数即是误差函数的另一种表达

      3. 优化方法:不同的优化方法有不同的权值更新,通过权值更新来更新假设函数,从而使花费函数最小化

        梯度下降法:沿着误差曲线或曲面的梯度方向,更新权值, 即权值的更新是基于梯度更新的。用公式表示为:。其中表示误差曲面的梯度,表示下降速度(学习速度)。在多维向量中,梯度也是一个向量,有方向和大小,这个公式说明权值就沿着这个方向,大小与学习速度成正比。如下图权值的更新方向看出它始终沿着梯度相反方向改变。 

      因此权值的更新方程为:

      标量形式表示每个参数分量的更新分别与其对应的偏导。

    例子:

    假设你打算在某个城市开一所饭馆,只考虑人口对收益的影响,现在有关于人口与收益的数据,能否根据那个城市的人口预测出收益。

    这里因为只考虑人口这一因素,设人口为X,收益为Y,  则Matlab的花费代码如下:

    1 function J = computeCost(X, y, theta)
    2 m = length(y); % number of training examples
    3 J = 0;
    4 H = X * theta;
    5 J = 1.0 ./ (2 * m) * sum( (H - y) .^ 2);
    6 End

    梯度计算代码:

     1 function [theta, J_history] = gradientDescent(X, y, theta, alpha, num_iters)
     2 %GRADIENTDESCENT Performs gradient descent to learn theta
     3 %   theta = GRADIENTDESENT(X, y, theta, alpha, num_iters) updates theta by 
     4 %   taking num_iters gradient steps with learning rate alpha
     5 % Initialize some useful values
     6 m = length(y); % number of training examples
     7 J_history = zeros(num_iters, 1);
     8 for iter = 1:num_iters
     9      H = X * theta;
    10     theta = theta - (alpha * 1.0) / m .* (X' * (H - y));
    11     J_history(iter) = computeCost(X, y, theta);
    12 end

    预测结果代码:

    1 % Predict values for population sizes of 35,000 and 70,000
    2 predict1 = [1, 3.5] *theta;
    3 fprintf('For population = 35,000, we predict a profit of %f
    ',...
    4     predict1*10000);
    5 predict2 = [1, 7] * theta;
    6 fprintf('For population = 70,000, we predict a profit of %f
    ',...
    7     predict2*10000);

    绘制误差曲面:

     1 % Grid over which we will calculate J
     2 theta0_vals = linspace(-10, 10, 100);
     3 theta1_vals = linspace(-1, 4, 100);
     4  
     5 % initialize J_vals to a matrix of 0's
     6 J_vals = zeros(length(theta0_vals), length(theta1_vals));
     7  
     8 % Fill out J_vals
     9 for i = 1:length(theta0_vals)
    10     for j = 1:length(theta1_vals)
    11       t = [theta0_vals(i); theta1_vals(j)];    
    12       J_vals(i,j) = computeCost(X, y, t);
    13     end
    14 end
    15 % Because of the way meshgrids work in the surf command, we need to 
    16 % transpose J_vals before calling surf, or else the axes will be flipped
    17 J_vals = J_vals';
    18 % Surface plot
    19 figure;
    20 surf(theta0_vals, theta1_vals, J_vals)
    21 xlabel('	heta_0'); ylabel('	heta_1');

    绘制等高线和最后计算的权值:

    1 % Plot J_vals as 15 contours spaced logarithmically between 0.01 and 100
    2  contour(theta0_vals, theta1_vals, J_vals, logspace(-2, 3, 20))
    3  xlabel('	heta_0'); ylabel('	heta_1');
    4  hold on;
    5  plot(theta(1), theta(2), 'rx', 'MarkerSize', 10, 'LineWidth', 2);

    原始数据和计算出来回归函数下图:

    误差曲面图:

    等高线图:

    可见,最后权值所在全局最小值处。

     对特征值归一化:

     求平均值和标准差:

    1 mu = mean(X);
    2 sigma = std(X);
    3 X_norm = [X(:,1) / sigma(1), X(:,2) / sigma(2)];

                 (1)

  • 相关阅读:
    C#随机数的使用
    英才评测 个人性格倾向 IT知识
    有点迷茫
    [转帖]2006年it人士必去的10个网站
    ASP.NET 中 Cookie 的基本知识
    Http请求方法
    Spherical Mercator
    Axure快速原型设计
    【转】Spring Insight 使用介绍
    DB2执行sql文件
  • 原文地址:https://www.cnblogs.com/jinee/p/4132058.html
Copyright © 2020-2023  润新知