机器学习-数学基础

机器学习-数学基础
常见函数

常函数:

一次函数:

二次函数:

幂函数:

指数函数:，a的取值范围为: a>0&a≠1

对数函数:, a的取值范围为: a>0&a≠1

对数的运算

指数的运算

导数

一个函数在某一点的导数描述了这个函数在这一点附近的变化率，也可以认为是函数在某一点的导数就是该函数所代表的曲线在这一点的切线斜率。导数值越大，表示函数在该点处的变化越大。
定义：当函数y=f(x)在自变量x=x0上产生一个增量Δx时，函数输出值的增量Δy和自变量增量Δx之间的比值在Δx趋近与0的时候存在极限值a，那么a即为函数在x0处的导数值。

常见的导函数

偏导数

在一个多变量的函数中，偏导数就是关于其中一个变量的导数而保持其它变量恒定不变。假定二元函数z=f(x,y)，点(x0,y0)是其定义域内的一个点，将y固定在y0上，而x在x0上增量Δx，相应的函数z有增量Δz=f(x0+Δx, y0) - f(x0,y0)；Δz和Δx的比值当Δx的值趋近于0的时候，如果极限存在，那么此极限值称为函数z=f(x,y)在处对x的偏导数(partial derivative)

z=x2+xy2 在（2,1）处的对x的偏导数=？

梯度

梯度：梯度是一个向量，表示某一函数在该点处的方向导数沿着该方向取的最大值，即函数在该点处沿着该方向变化最快，变化率最大(即该梯度向量的模)

泰勒公式

Taylor(泰勒)公式是用一个函数在某点的信息描述其附近取值的公式。如果函数足够平滑，在已知函数在某一点的各阶导数值的情况下，Taylor公式可以利用这些导数值来做系数构建一个多项式近似函数在这一点的邻域中的值。

若函数f(x)在包含x0的某个闭区间[a,b]上具有n阶函数，且在开区间(a,b)上具有n+1阶函数，则对闭区间[a,b]上任意一点x，有Taylor公式如下：<f(n)(x)表示f(x)的n阶导数，Rn(x)是Taylor公式的余项，是(x-x0)n的高阶无穷小

简言之：利用x0点的导数信息来近似逼近该点邻域的原函数。

Taylor公式的应用

古典概率

概率是以假设为基础的，即假定随机现象所发生的事件是有限的、互不相容的，而且每个基本事件发生的可能性相等。一般来讲，如果在全部可能出现的基本事件范围内构成事件A的基本事件有a个，不构成事件A的有b个，那么事件A出现的概率为：

概率体现的是随机事件A发生可能的大小度量(数值)

联合概率

表示两个事件共同发生的概率，事件A和事件B的共同概率记作：P(AB)、P(A,B) 或者P(A∩B)，读作“事件A和事件B同时发生的概率”

条件概率

事件A在另外一个事件B已经发生的条件下的发生概率叫做条件概率，表示为P(A|B)，读作 “在B条件下A发生的概率“ ，一般情况下 P(A|B)≠P(A)，而且条件概率具有三个特性：

非负性,可列性,可加性

将条件概率公式由两个事件推广到任意有穷多个事件时，可以得到如下公式，假设A1，A2，....，An为n个任意事件(n≥2)，而且P(A1A2 ...An )>0，则：

全概率公式

样本空间Ω有一组事件A1、A2 ...An , 如果事件组满足下列两个条件，那么事件组称为样本空间的一个划分：

设事件{Aj}是样本空间Ω的一个划分，且P(Ai)>0，那么对于任意事件B，全概率公式为:

贝叶斯公式

设A1、A2 ...An是样本空间Ω的一个划分，如果对任意事件B而言，有P(B)>0，那么：

贝叶斯的推导

期望

期望(mean)：也就是均值，是概率加权下的“平均值” ，是每次可能结果的概率乘以其结果的总和，反映的实随机变量平均取值大小。常用符号μ表示：

连续性数据:

离散性数据:

假设C为一个常数，X和Y实两个随机变量，那么期望有一下性质：

方差

方差(variance)是衡量随机变量或一组数据时离散程度的度量，是用来度量随机变量和其数学期望之间的偏离程度。即方差是衡量数据原数据和期望/均值相差的度量值。

假设C为一个常数，X和Y实两个随机变量，那么方差有一下性质

标准差

标准差(Standard Deviation)是离均值平方的算术平均数的平方根，用符号σ表示，其实标准差就是方差的算术平方根。

标准差和方差都是测量离散趋势的最重要、最常见的指标。标准差和方差的不同点在于，标准差和变量的计算单位是相同的，比方差清楚，因此在很多分析的时候使用的是标准差。

协方差

协方差常用于衡量两个变量的总体误差；当两个变量相同的情况下，协方差其实就是方差。

如果X和Y是统计独立的，那么二者之间的协方差为零。但是如果协方差为零，那么X和Y是不相关的。

假设C为一个常数，X和Y实两个随机变量，那么协方差有性质如下所示：

协方差是两个随机变量具有相同方向变化趋势的度量：

若Cov(X,Y) > 0, 则X和Y的变化趋势相同；

若Cov(X,Y) < 0, 则X和Y的变化趋势相反；

若Cov(X,Y) = 0，则X和Y不相关，也就是变化没有什么相关性

协方差矩阵

对于n个随机向量(X1 ,X2 ,X3 ....Xn ), 任意两个元素Xi和Xj都可以得到一个协方差，从而形成一个n*n的矩阵，该矩阵就叫做协方差矩阵，协方差矩阵为对称矩阵。

大数定理

大数定律的意义：随着样本容量n的增加，样本平均数将接近于总体平均数(期望 μ)，所以在统计推断中，一般都会使用样本平均数估计总体平均数的值。

也就是我们会使用一部分样本的平均值来代替整体样本的期望/均值，出现偏差的可能是存在的，但是当n足够大的时候，偏差的可能性是非常小的，当n无限大的时候，这种可能性的概率基本为0。

大数定律的主要作用就是为使用频率来估计概率提供了理论支持；为使用部分数据来近似的模拟构建全部数据的特征提供了理论支持。

中心极限定理

中心极限定理就是一般在同分布的情况下，抽样样本值的规范和在总体数量趋于无穷时的极限分布近似于正态分布

随机的抛六面的骰子，计算三次的点数的和, 三次点数的和其实就是一个事件A，现在问事件A 发生的概率以及事件A 所属的分布是什么?

最大似然估计

最大似然法(Maximum Likelihood Estimation, MLE)也称为最大概似估计、极大似然估计，是一种具有理论性的参数估计方法。基本思想是：当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大；一般步骤如下：

1. 写出似然函数；

2. 对似然函数取对数，并整理；

3. 求导数；

4. 解似然方程

设总体分布为f(x,θ), {Xn}为该总体采样得到的样本。因为随机序列{Xn}独立同分布，则它们的联合密度函数为：

这里θ被看做固定但是未知的参数，反过来，因为样本已经存在，可以看做{Xn} 是固定的，L(x,θ)是关于θ的函数，即似然函数；求参数θ的值，使得似然函数取最大值，这种方法叫做最大似然估计法。

若给定一组样本{Xn}，已知随机样本符合高斯分布N(μ,σ^2)，试估计σ和μ的值

分布的概率函数：

最大似然函数的乘积：

对数似然：

化简：

要求似然函数l(x)最大，即l(x)求极值即可，将似然函数对参数μ和σ分别求偏导数：

向量的计算

设两向量为：

向量的加法/减法满足平行四边形法则和三角形法则

数乘：实数λ和向量a的叉乘乘积还是一个向量，记作λa，且|λa|=λ|a|；数乘的几何意义是将向量a进行伸长或者压缩操作

向量的运算

设两向量为：并且a和b之间的夹角为:θ

数量积：两个向量的数量积(内积、点积)是一个数量/实数，记作

向量积：两个向量的向量积(外积、叉积)是一个向量，记作；向量积即两个不共线非零向量所在平面的一组法向量。

矩阵的直观表示

数域F中m*n个数排成m行n列，并括以圆括弧(或方括弧)的数表示成为数域F上的矩阵，通常用大写字母记作A或者Am*n，有时也记作 A=(aij)m*n(i=1,2…,m;j=1,2,…n)，其中aij表示矩阵A的第i行的第j列元素，当F为实数域R时，A叫做实矩阵，当F为复数域C时，A叫做复矩阵。

矩阵的加减法

矩阵的加法与减法要求进行操作的两个矩阵A和B具有相同的阶，假设A为m*n阶矩阵，B为m*n阶矩阵，那么C=A B也是m*n阶的矩阵，并且矩阵C的元素满足：

矩阵与数的乘法

数乘：将数λ与矩阵A相乘，就是将数λ与矩阵A中的每一个元素相乘，记作λA；结果C=λA，并且C中的元素满足

数乘：

假设A为m*n阶矩阵，x为n*1的列向量，则Ax为m*1的列向量，记作

矩阵的乘法

仅当第一个矩阵A的列数和第二个矩阵B的行数相等时才能够定义，假设A为m*s阶矩阵，B为s*n阶矩阵，那么C=A*B是 m*n阶矩阵，并且矩阵C中的元素满足

乘法的前提：左列==右行

由于这个python库里面有广播机制，所以用一个m*n的矩阵可以和n个元素列矩阵做乘积：
```
In [1]: import numpy as np

In [2]: a = np.array([[1,2],[2,3],[4,5]])

In [3]: a
Out[3]:
array([[1, 2],
       [2, 3],
       [4, 5]])

In [4]: b = np.array([[1,2],[2,2]])

In [5]: a.dot(b)
Out[5]:
array([[ 5,  6],
       [ 8, 10],
       [14, 18]])
```
广播机制
```
from numpy import *
import numpy as np
# 创建随机矩阵：
np.random.rand(2,2)   #注意没有多余的()
 # 创建随机矩阵：
np.random.random((2,2))   #注意有多余的()
 # 创建3*3的0-10之间的随机整数矩阵：
np.random.randint(10,size=(3,3))
 # 创建2-8之间的随机整数矩阵：
np.random.randint(2,8,size=[2,5]) 
#  创建正态分布矩阵：
np.random.normal(mean,stdev,size), 如，np.random.normal(1,0.1,(3,4))
 给出均值为mean，标准差为stdev的高斯随机数，size矩阵shape
# 创建标准正态分布矩阵：
np.random.randn(d0, d1, ..., dn) ,如np.random.randn(3,4)
```
逆矩阵

逆矩阵:如果 A 是一个m x m 矩阵, 并且如果它有逆矩阵。
矩阵与其逆阵的乘积等于单位阵：

不是所有的矩阵都有逆矩阵
没有逆矩阵的矩阵称为“奇异矩阵” 或“退化矩阵”。

转置矩阵

行变列,列变行

特征值分解(QR分解)

SVD分解

奇异值分解(Singular Value Decomposition)是一种重要的矩阵分解方法，可以看做是对称方阵在任意矩阵上的推广

假设A为一个m*n阶实矩阵，则存在一个分解使得：

通常将奇异值由大到小排列，这样Σ便能由A唯一确定了。

向量的导数(极其重要)

标量对向量的导数

A为n*n的矩阵，|A|为A的行列式，计算
相关阅读:
java1.8版本的HashMap源码剖析
 java并发包——阻塞队列BlockingQueue及源码分析
 java多线程（二）-线程的生命周期及线程间通信
 单例设计模式的回顾。。。。
java多线程的（一）-之java线程的使用
 根据IO流源码深入理解装饰设计模式使用
 IO流回顾与总结第一篇之字节流与字符流的操作。。。。。
java中的异常类型以及区别？？？？
设计模式之装饰设计案例
 集合源码（一）之hashMap、ArrayList
原文地址：https://www.cnblogs.com/TimVerion/p/11248093.html

机器学习-数学基础

常见函数

对数的运算

指数的运算

导数

常见的导函数

偏导数

梯度

泰勒公式

Taylor公式的应用

古典概率

联合概率

条件概率

全概率公式

贝叶斯公式

贝叶斯的推导

期望

方差

标准差

协方差

协方差矩阵

大数定理

中心极限定理

最大似然估计

向量的计算

向量的运算

矩阵的直观表示

矩阵的加减法

矩阵与数的乘法

矩阵的乘法

广播机制

逆矩阵

转置矩阵

行变列,列变行

特征值分解(QR分解)

SVD分解

向量的导数(极其重要)

标量对向量的导数