1. 在深度学习中,涉及到大量矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n,n*p,p*q,且m<n<p<q,以下计算顺序效率最高的是:
(AB)C
解析:首先,根据简单的矩阵知识,因为 A*B , A 的列数必须和 B 的行数相等。因此,可以排除C 选项。
m*n 的矩阵 A 和 n*p 的矩阵 B 的乘积,得到 m*p 的矩阵 A*B ,而 A*B 的每个元素需要 n 次乘法和 n-1 次加法,忽略加法,共需要 m*n*p 次乘法运算。
同样情况分析 A*B 之后再乘以 C 时的情况,共需要 m*p*q次乘法运算。因此,A 选项的(AB)C 需要的乘法次数是 m*n*p+m*p*q 。
同理分析, B 选项的 A (BC)需要的乘法次数是 n*p*q+m*n*q 。由于 m*n*p< m*n*q , m*p*q<n*p*q。
2. 常见的判别式模型有:
- Logistic regression
- Linear discriminant analysis
- Supportvector machines
- Boosting
- Conditional random fields
- Linear regression
- Neural networks
常见的生成式模型有:
- Gaussian mixture model and othertypes of mixture model
- Hidden Markov model
- NaiveBayes
- AODE
- Latent Dirichlet allocation
- Restricted Boltzmann Machine
3.概率质量函数 (probability mass function,PMF)是离散随机变量在各特定取值上的概率。
概率密度函数(p robability density function,PDF )是对 连续随机变量 定义的,本身不是概率,只有对连续随机变量的取值进行积分后才是概率。
累积分布函数(cumulative distribution function,CDF) 能完整描述一个实数随机变量X的概率分布,是概率密度函数的积分。对於所有实数x ,与pdf相对。
4. 在统计模式识分类问题中,当先验概率未知时,可以使用
N-P判决
最小最大损失准则
解析:在贝叶斯决策中,对于先验概率p(y),分为已知和未知两种情况。
1. p(y)已知,直接使用贝叶斯公式求后验概率即可;
2. p(y)未知,可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。
而最大最小损失规则主要就是使用解决最小损失规则时先验概率未知或难以计算的问题的。
5. CRF模型对于HMM和MEMM模型的优势:
CRF优点:特征灵活,可容纳较多的上下文信息,能够做到全局最优;
CRF缺点:训练代价大,复杂度高,速度慢;
1)CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样)-------- 与HMM比较
2)同时,由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。 --------- 与MEMM比较
3)CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分;--------- 与ME比较
2)同时,由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。 --------- 与MEMM比较
3)CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分;--------- 与ME比较
6. 在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计:极大似然估计。
- EM算法: 只有观测序列,无状态序列时来学习模型参数,即Baum-Welch算法
- 维特比算法: 用动态规划解决HMM的预测问题,不是参数估计
- 前向后向:用来算概率
- 极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,用来估计参数
在给定观测序列和对应的状态序列估计模型参数,可以利用极大似然发估计。
如果给定观测序列,没有对应的状态序列,才用EM,将状态序列看不不可测的隐数据。