降噪:存在一个未知的损坏过程,该过程可以根据输入的正确样例生成损坏样例。而降噪就是对抗该未知的损坏过程用的,它根据损坏过程得到的损坏样例反过来预测出正确的样例。
密度估计或者概率分布函数估计:描述为模型相比别的任务隐式地捕捉样本结构,密度估计需要显式地知道样本的结构,还需要知道样本簇在哪里集中,在哪里分散,从而根据这个结果能够完成下游任务。个人理解就是其他都是判别任务,而这个是生成任务。
容量(capacity),过拟合,欠拟合
容量(其实还可以翻译成能力),如果可以在一个数据集上很难学习,那么就是low capacity;如果很轻松地过拟合,那就是high capactiy。
泛化generalization
- 奥卡姆剃刀原则
- VC维(Vapink-Chervonenkis dimension)
- 超参数和验证集
- 交叉验证
评估器、偏置、方差
- 点估计(point estimation)
- 函数估计(function estimation)
极大似然估计
- 条件对数估计和均方差
贝叶斯统计
监督学习算法
无监督学习算法
- PCA
- k-means聚类
随机梯度下降
构建一个机器学习算法
激励深度学习的挑战
- 维度灾难
- 局部常量化和平滑正则
- 流学习(manifold learning)
- continuous vs discrete 连续的 vs 离散的
- implicit vs explicit 隐式地 vs 显式地
- fine-grained vs coarse-grained 细粒度 vs 粗粒度
- intrinsic vs extrinsic 固有的,内在的,本身的 vs ...
- tractable vs intractable 易处理的 vs ...
- rigid/rigorous/strict 严格的,严厉的,死板的
- anomaly 异常