机器学习中的数学——高数基础小抄

机器学习中的数学——高数基础小抄
1. 函数

1.1 函数的定义

量和量之间的关系如：(A=pi mathrm{r}^{2})

(y=f(x)) 其中 x 是自变量，y 是因变量

函数在 (x_{0}) 处取得的函数值 (y_{0}=left.y ight|_{x=x_{0}}=fleft(x_{0} ight))

符号只是一种表示，也可以 (y=g(x), y=varphi(x), y=psi(x))

1.2 函数的分类

分段函数

(f(x)=left{egin{array}{ll}sqrt{x}, & x geq 0 \ -x, & x<0end{array} ight.)

反函数

(mathrm{h}=frac{1}{2} g t^{2} ightarrow h=h(t) quad mathrm{t}=sqrt{frac{2 mathrm{h}}{mathrm{g}}} ightarrow t=t(h))

相当于把自变量和因变量调换位置，其中右边的函数表示形式就是左边的反函数。

显函数与隐函数

像 (y=x^{2}+1) 这种的我们就称之为显函数。

如果它的表达式是 (F(x, y)=0) 或者 (3 x+y-4=0) 这样需要我们去推导出 y=? 的，我们称为隐函数。

1.3 函数的特性

奇偶性

偶函数 (f(-x)=f(x))，比如 (f(x)=x^{2})

奇函数 (f(-x)=-f(x))，比如 (f(x)=x^{3})

周期性

(f(x+T)=f(x))

单调性

在变量的取值区间上如果一直是递增或者递减，就是单调函数。

2. 极限

2.1 极限的符号表示

(x ightarrow infty) 当(|x|)无限增大时（负无穷是向左增大）

(x ightarrow+infty) 当 x 无限增大时

(x ightarrow-infty) 当 x 无限减小时

(x ightarrow x_{0}) 当 x 从(x_{0})的左右两侧无限接近(x_{0})时

(x ightarrow x_{0}^{+}) 当 x 从(x_{0})的右侧无限接近(x_{0})时

(x ightarrow x_{0}^{-}) 当 x 从(x_{0})的左侧无限接近(x_{0})时

2.2 数列

按照一定次数排列的一组数：(u_{0},u_{1},u_{2},...u_{n},...) 其中(u_{n}) 叫做通项。

如果数列 ({u_{n}}) 当 n 无限增大时，其通项无限接近于一个常数 A 时，我们称该数列收敛于 A，否则称该数列为发散。

举例：

(lim_{n ightarrowinfty} u_{n}=A) 当 n 趋近于无穷大时收敛于 A

(lim_{n ightarrowinfty} frac{1}{3^{n}}=0) 当 n 趋近于无穷大时收敛于 0

(lim_{n ightarrowinfty} 2^{n}) 当 n 趋近于无穷大时，极限不存在，是发散的

(lim_{x ightarrow1} frac{(x^{2}-1)}{x-1}) = (lim_{x ightarrow1} frac{(x+1)(x-1)}{x-1}) = 2

如果一个函数，在左右邻域都有定义时，那求极限时需要考虑左右极限的问题：

(f(x)=left{egin{array}{cc}x-1 & x<0 \ 0 & x=0 \ x+1 & x>0end{array} ight.)

(lim _{x ightarrow 0^{+}} f(x)=lim _{x ightarrow 0^{+}}(x+1)=1)

(lim _{x ightarrow 0^{-}} f(x)=lim _{x ightarrow 0^{-}}(x-1)=-1)

显然，它的左右极限都是存在的，但是不相等，所以(lim _{x ightarrow 0} f(x))不存在。

2.3 无穷小与无穷大

以 0 为极限，(lim_{x ightarrowinfty} frac{1}{x}=0) 可以看出当 x 趋近于无穷大时收敛于 0，我们可以称(frac{1}{x})是({x ightarrowinfty})时的无穷小。

这里有些基本性质需要记住：
1. 有限个无穷小的代数和仍是无穷小。
2. 有限个无穷小的积仍是无穷小。
3. 有界变量与无穷小的积仍是无穷小
4. 无限个无穷小之和不一定是无穷小。
5. 无穷小的商不一定是无穷小。
以(infty)为极限，(lim_{x ightarrow{x_{0}}} {f(x)}=infty)

注意：无穷大并不是指一个很大的值，而是针对变量的变换过程而言的；如果在一组变换中，(f(x))为无穷大，那么(frac{1}{f(x)})是无穷小。

2.4 函数的连续性

(lim_{Delta x ightarrow 0} Delta y=lim _{Delta x ightarrow 0}left[fleft(x_{0}+Delta x ight)-fleft(x_{0} ight) ight]=0)

设函数(y=f(x))在点 ({x_{0}}) 的某邻域内有定义时，那么当(Delta x)变化趋近于 0 时，(Delta y)也为 0，我们称函数(y=f(x))在点 ({x_{0}}) 处连续。

连续需要满足的条件：
1. 函数在该点处有定义
2. 函数在该点处极限(lim_{Delta x ightarrow 0}f(x))存在
3. 极限值等于函数值(f(x_{0}))
有连续就有间断，我们称之为间断点（了解概念就行）。

3. 导数

3.1 导数的定义

假设汽车运动的速度为 v，路程为 s，耗费的时间为 t，那么在单位时间内它的平均速度可以表示为(ar{v}=frac{Delta mathrm{s}}{Delta mathrm{t}}=frac{mathrm{s}left(mathrm{t}_{0}+Delta t ight)-sleft(t_{0} ight)}{Delta t})

当(lim_{Delta t ightarrow 0})时，也就是求极限可以得到它的瞬时速度表示(vleft(t_{0} ight)=lim _{Delta t ightarrow 0} ar{v}=lim _{Delta ightarrow 0} frac{Delta mathrm{s}}{Delta mathrm{t}}=lim _{Delta t ightarrow 0} frac{sleft(t_{0}+Delta t ight)-sleft(t_{0} ight)}{Delta t})

这个其实也称为平均变化率的极限，如果这个值它是存在的，那么我们称此极限是函数(s=f(t))在点(t_{0})处的导数 (f^{prime}(x_{0}))，也可以表示为(left.y^{prime} ight|_{x=x_{0}})

导数的实质：增量比的极限。

3.2 偏导数

上面导数的定义中只有一个自变量，如果我们的自变量不再是一个，而是有多个 x,y,z..呢，也就是多元函数？一般而言，固定其中一个变量（假设这个变量在求导过程中方向不会变），而求另外一个自变量的导数，这种操作就叫做求偏导。举个栗子：

求函数(f(x, y)=x^{2}+3 x y+y^{2})在点（1,2）处的偏导数？

思路：因为有两个自变量，所以会求出两个偏导数，当然前提是它们在邻域内都是可导的。

先固定 y，得到(f_{x}(x, y)=2 x+3 y)

固定 x，得到(f_{y}(x, y)=3 x+2 y)

所以：

(f_{x}(1,2)=left.(2 x+3 y) ight|_{x=1 atop y=2}=8)

(f_{y}(1,2)=left.(3 x+2 y) ight|_{x=1 atop y=2}=7)

可以看出，偏导数只是沿着 x 轴或者 y 轴的变化。

3.3 方向导数

方向导数的定义

如上图示，先定义一个函数(z=f(x,y))，两点之间的距离（模），(left|P P^{prime} ight|= ho=sqrt{(Delta x)^{2}+(Delta y)^{2}})，如果函数的增量(Delta z=f(x+Delta x, y+Delta y)-f(x, y))与这两点的距离比例存在，则称此为 P 点沿着 L 方向的方向导数

(frac{partial f}{partial l}=lim _{ ho ightarrow 0} frac{f(x+Delta x, y+Delta y)-f(x, y)}{ ho})

其实：一个点在一个平面上（这个平面就是这个点的切面）是有无数个方向的，并不是一定沿着坐标轴的。

可以看到图中由 BCD 构建的平面切于函数，在此切面上有一点 E，E 点在此切面 q上是有无数（360°）个方向（L），即对于一个点方向导数是很多的。

（二维里一个点确定一条切线，三维里一条线确定一个切面，这个线上随便取一个点，沿着这个点在平面上又能画出无数个线）

方向导数与偏导数的关系

如果函数(z=f(x,y))在点(P(x,y))是可微分的，那么该点沿任意方向 L 的方向导数都是存在的。同时，我们可以得出它与偏导数的关系，其中(varphi)为X 轴到L 的角度。

(frac{partial f}{partial l}=frac{partial f}{partial x} cos varphi+frac{partial f}{partial y} sin varphi)

3.4 梯度

直白的解释一下：在下山过程中怎么样下山是最有效率，肯定是沿着你所在位置求一个切线的方向，切线有两个方向，一个是向上一个是向下。那么梯度就是向上的方向（只要记住梯度本身是上升的）。在机器学习中，通常我们优化的方向是梯度下降，其实就是沿着梯度反方向就行了。

梯度和方向导数的关系：方向导数是随意的，梯度是方向导数中值取得最大的那个方向。

参考资料

1）曲线切线的定义和导数
2）方向导数与梯度
相关阅读:
研究生数学建模历年题目汇总
 【20220902】成年人的美好
 【20220831】恶梦
 【20220827】连岳摘抄
 【20220903】连岳摘抄
 【20220904】勇气之笔
 【20220905】珍惜时光
 【20220901】连岳摘抄
 【20220830】哺乳
 【力扣 056】123. 买卖股票的最佳时机 III
原文地址：https://www.cnblogs.com/pleuvoir/p/12632044.html

机器学习中的数学——高数基础小抄

1. 函数

1.1 函数的定义

1.2 函数的分类

分段函数

反函数

显函数与隐函数

1.3 函数的特性

奇偶性

周期性

单调性

2. 极限

2.1 极限的符号表示

2.2 数列

2.3 无穷小与无穷大

2.4 函数的连续性

3. 导数

3.1 导数的定义

3.2 偏导数

3.3 方向导数

方向导数的定义

方向导数与偏导数的关系

3.4 梯度

参考资料