我看的是Liu Yang的survey: Distance Metric Learning: A Comprehensive Survey.
里面总结道,Eric Xing等把Metric Learning formulate成这样一个凸优化问题:
\begin{align}
\min\limits_{A \in \mathbb{R}^{m \times m}} & \sum\limits_{({x_i},{x_j}) \in \mathcal{S}} {\left\| {{x_i} - {x_j}} \right\|_A^2}\\
\text{s.t.} \quad & A\succeq 0, \sum\limits_{(x_i, x_j)\in\mathcal{D}} {\left\| x_i-x_j\right\|}_A^2\ge 1
\end{align}
然后,解这个优化问题的困难主要是$A\succeq 0$这个半正定条件造成的,所以,为了简化计算,考虑将$A$在样本的特征空间中进行分解。
用同类约束集$\mathcal{S}$和异类约束集$\mathcal{D}$中的所有样本集合:
\begin{equation}
\mathcal{T}=(x_1, \cdots, x_n)
\end{equation}
然后对样本特征的pairwise correlation:
\begin{equation} \label{eq_M} M=\frac{1}{n}\sum_{i=1}^{n}x_i x_i^T \end{equation}
进行特征分解,得到前$K$个最大的特征值对应的特征向量$\{v_i\}_{i=1}^{K}$组合来逼近$A$:
\begin{equation} A=\sum_{i=1}^{K}\gamma_i v_i v_i^T,\quad \gamma_i\ge0,\quad i=1,\cdots,K \end{equation}
这其中,$\gamma_i$都是非负的。
我疑惑的是,在式子(\ref{eq_M})计算 $M$ 时,为什么用的是correlation(相关)而不是covariance(协方差)呢?也就是说,为什么不对样本 $\{x_i\}$ 进行零均值化呢?