可解释性的问题较早就有人提出来,有着不一样的叫法,比如 interpretable, explainable, intelligible, transparent 和 understandable,不一而足。
值得提到的是此处的可解释性与推荐系统的推荐理由或多或少有一些联系和细微的区别,本文提到的可解释性并不限于对于机器学习某个预测(某个特定 case)的理由,更多的理解为对这个模型的通用(general)的理解。无论何种理解,可解释性都与最终的性能关系并不紧密。
通常,可解释性是人们在机器学习模型中寻求的各种特征的代理。这些辅助的特征可能是公平性(Fairness,能否减轻各类偏见 bias?),可靠性(Reliability),因果(Causality,是一种相关性还是因果性?如分类哈士奇和狼是靠的两种类别之间的差异,还是由于背景带来的相关性),可信度(Trust,模型能够知道预测本身的置信度如何?)。
透明度 Transparency 和事后解释性 Post-hoc Explainability。
前者 Transparency 主要关心模型的运作机制和功能。这样方便人类去做检查,比如人工剔除模型的一些显著的弱点。一旦发现了 bad cases,人类有办法按照自己预期的目标,去干预和改变它的预测。在实时的应用中,数据可能包含比标注语料更多的噪音,所以透明性更加重要。
事后解释性通常在模型训练完成之后的马后炮解释。在模型训练之后,比如对一些组件做一些统计分析,像对 CNN 核的可视化,对机器翻译 attention 的可视化 。
透明度和事后解释性解释为两个稍微具体一点的研究问题:
1. Transparency – 模型怎么工作的?网络由什么驱动来给出最终预测?
2. Post-hoc Explainability – 神经网络学到了什么?网络中每一层某个神经元的激活值大或者小意味着什么?