模型解释-LIME的原理和实现

王茂南

3494
文章

75
评论

2019年9月23日07:01:20

评论 3364字阅读11分12秒

摘要这一篇文章我们会介绍一种模型解释的方法, LIME, 即会通过简单的模型来解释黑盒模型. 我们会介绍LIME的简单的原理, 和一个例子, 使用LIME来解释使用Pytorch搭建的模型.

文章目录(Table of Contents)

简介

这一部分介绍使用LIME来进行模型解释. LIME的全程为Local Interpretable Model-agnostic Explanations. 在这一部分我们会介绍LIME方法的主要的思想, 和结合Pytorch来进行解释, 解释使用Pytorch搭建的模型. 下面是一些LIME的参考资料.

之前我们也讲过一个模型解释的方法, 叫做Saliency Map, 之前的链接如下: Saliency Maps的原理与简单实现(使用Pytorch实现)

参考资料

模型的可解释性书本的一章: 5.7 Local Surrogate (LIME)
原始论文: Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. “Why should I trust you?: Explaining the predictions of any classifier.” Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. ACM (2016).
Python的库LIME: Lime: Explaining the predictions of any machine learning classifier

LIME的原理

LIME的想法很简单, 我们希望使用简单的模型来对复杂的模型进行解释. 这里简单的模型可以是线性模型, 因为我们可以通过查看线性模型的系数大小来对模型进行解释. 在这里, LIME只会对每一个样本进行解释(explain individual predictions).

LIME会产生一个新的数据集(这个数据集我们是通过对某一个样本数据进行变换得到), 接着在这个新的数据集上, 我们训练一个简单模型(容易解释的模型), 我们希望简答模型在新数据集上的预测结果和复杂模型在该数据集上的预测结果是相似的. 我们可以将我们的问题表达为下面的表达式:

上式中每一个字母的含义:

f表示原始的模型, 即需要解释的模型.
g表示简单模型, G是简单模型的一个集合, 如所有可能的线性模型.
Pi_x表示我们新数据集中的数据x'与原始数据instance x的距离.
Ω(g)表示模型g的复杂程度.

我们希望原始模型f与新模型g预测值之间的误差是小的. 简单来说, 我们可以通过下面的式子来衡量两个式子预测值之间的差:

于是整个LIME的步骤如下(即训练模型g的步骤)

选择我们想要解释的变量x.
对数据集中的数据进行扰动得到新的数据, 同时计算出黑盒模型对这些新的数据的预测值.
对这些新的sample求出权重, 这个权重是这些数据点与我们要解释的数据之间的距离.
根据上面新的数据集, 预测值和权重, 训练出模型g
通过模型g来对模型f在x点附近进行解释.

那么我们如何对数据集进行扰动来得到新的数据, 对于表格数据, 我们可以分别扰动每一个特征, 从一个正态分布(均值和方差为这个特征的均值和方差)中进行随机抽样. 这样做会有一个问题, 即不是从我们要解释的数据为中心进行采样, 而是从整个数据集的中心进行采样. (LIME samples are not taken around the instance of interest, but from the training data's mass center, which is problematic.)

下面我们通过一张图片来对上面的过程进行解释(这张图片是上面第一个参考链接中的).