机器学习基础题目

1. 在深度学习中，涉及到大量矩阵相乘，现在需要计算三个稠密矩阵A,B,C的乘积ABC，假设三个矩阵的尺寸分别为m*n,n*p,p*q,且m<n<p<q，以下计算顺序效率最高的是：

(AB)C

解析：首先，根据简单的矩阵知识，因为 A*B ， A 的列数必须和 B 的行数相等。因此，可以排除C 选项。

m*n 的矩阵 A 和 n*p 的矩阵 B 的乘积，得到 m*p 的矩阵 A*B ，而 A*B 的每个元素需要 n 次乘法和 n-1 次加法，忽略加法，共需要 m*n*p 次乘法运算。

同样情况分析 A*B 之后再乘以 C 时的情况，共需要 m*p*q次乘法运算。因此，A 选项的(AB)C 需要的乘法次数是 m*n*p+m*p*q 。

同理分析， B 选项的 A (BC)需要的乘法次数是 n*p*q+m*n*q 。由于 m*n*p< m*n*q ， m*p*q<n*p*q。

2. 常见的判别式模型有：

Logistic regression
Linear discriminant analysis
Supportvector machines
Boosting
Conditional random fields
Linear regression
Neural networks

常见的生成式模型有:

Gaussian mixture model and othertypes of mixture model
Hidden Markov model
NaiveBayes
AODE
Latent Dirichlet allocation
Restricted Boltzmann Machine

3.概率质量函数 (probability mass function，PMF)是离散随机变量在各特定取值上的概率。

概率密度函数（p robability density function，PDF ）是对连续随机变量定义的，本身不是概率，只有对连续随机变量的取值进行积分后才是概率。

累积分布函数（cumulative distribution function，CDF）能完整描述一个实数随机变量X的概率分布，是概率密度函数的积分。对於所有实数x ，与pdf相对。

4. 在统计模式识分类问题中，当先验概率未知时，可以使用

N-P判决

最小最大损失准则

解析：在贝叶斯决策中，对于先验概率p(y)，分为已知和未知两种情况。

1. p(y)已知，直接使用贝叶斯公式求后验概率即可；

2. p(y)未知，可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。

而最大最小损失规则主要就是使用解决最小损失规则时先验概率未知或难以计算的问题的。

5. CRF模型对于HMM和MEMM模型的优势：

CRF优点：特征灵活，可容纳较多的上下文信息，能够做到全局最优；

CRF缺点：训练代价大，复杂度高，速度慢；

1）CRF没有HMM那样严格的独立性假设条件，因而可以容纳任意的上下文信息。特征设计灵活（与ME一样）-------- 与HMM比较
2）同时，由于CRF计算全局最优输出节点的条件概率，它还克服了最大熵马尔可夫模型标记偏置（Label-bias）的缺点。 --------- 与MEMM比较
3）CRF是在给定需要标记的观察序列的条件下，计算整个标记序列的联合概率分布，而不是在给定当前状态条件下，定义下一个状态的状态分；--------- 与ME比较

6. 在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计：极大似然估计。

EM算法：只有观测序列，无状态序列时来学习模型参数，即Baum-Welch算法

维特比算法：用动态规划解决HMM的预测问题，不是参数估计

前向后向：用来算概率

极大似然估计：即观测序列和相应的状态序列都存在时的监督学习算法，用来估计参数

在给定观测序列和对应的状态序列估计模型参数，可以利用极大似然发估计。

如果给定观测序列，没有对应的状态序列，才用EM，将状态序列看不不可测的隐数据。

相关阅读:
【PL/SQL】学习笔记（9）例外之 no_data_found
【PL/SQL】学习笔记（8）光标之带参数的光标
【PL/SQL】学习笔记（7）光标的属性,一个会话中打开光标数的限制
【PL/SQL】学习笔记（6）光标使用的具体示例--emp表涨工资
Gps定位和wifi定位和基站定位的比较
多态
类加载，类初始化及对象实例化
http和https工具类（要注意httpclient版本号和log4j的版本号）
js贪吃蛇
局部变量，成员变量，静态变量

原文地址：https://www.cnblogs.com/Allen-rg/p/7368309.html