TF-IDF简单介绍

王茂南

3371
文章

75
评论

2019年6月24日07:00:48

评论 2344字阅读7分48秒

摘要这一篇简单介绍一下TF-IDF的相关内容，包括如何进行计算和如何使用sklearn和pandas进行结合的时候, 进行计算。

文章目录(Table of Contents)

前言

最近在提取文本相关特征的时候，用到了TF-IDF，在这里做一下简单的介绍。

TF-IDF含义

这一部分的内容来自百度百科 : tf-idf

TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。

TF意思是词频(Term Frequency)
IDF意思是逆文本频率指数(Inverse Document Frequency)

下面举一个简单的例子来说明TF-IDF。

TF-IDF例子

在某个一共有一千词的网页中 "原子能"、"的" 和 "应用" 分别出现了2 次、35 次和5次，那么它们的词频就分别是 0.002、0.035 和0.005。我们将这三个数相加，其和 0.042 就是相应网页和查询"原子能的应用"相关性的一个简单的度量。概括地讲，如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ..., TFN. (TF: term frequency)。那么，这个查询和该网页的相关性就是:TF1 + TF2 + ... + TFN。(概括来说，这里就是简单使用词汇的频率相加)

但是显然，单独使用频率的相加是会出现问题的。在上面的例子中，词"的"占了总词频的 80%以上，而它对确定网页的主题几乎没有用。我们称这种词叫"应删除词"(停用词, Stopwords)，也就是说在度量相关性是不应考虑它们的频率。在汉语中，停用词还有"是"、"和"、"中"、"地"、"得"等等几十个。忽略这些应删除词后，上述网页的相似度就变成了0.007，其中"原子能"贡献了 0.002，"应用"贡献了 0.005。(概括来说, 这一步去除了停用词)

但如果只是去除停用词，其实还是会存在一些其他的问题。如在网页搜索中，"应用"是个很通用的词，而"原子能"是个很专业的词，后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重，这个权重的设定必须满足下面的条件：

一个词预测主题能力越强，权重就越大，反之，权重就越小。我们在网页中看到"原子能"这个词，或多或少地能了解网页的主题。我们看到"应用"一次，对主题基本上还是一无所知。因此，"原子能"的权重就应该比"应用"大。

那么如何来计算权重呢，如何体现出"原子能"比"应用"要重要。于是我们就计算"原子能"在所有网页中出现的次数。

概括地讲，假定一个关键词w在Dw个网页中出现过，那么Dw越大，w的权重越小，反之亦然。在信息检索中，使用最多的权重是"逆文本频率指数"(Inverse document frequency 缩写为IDF)，它的公式为log(D/Dw), 其中D是全部网页数。

比如，我们假定中文网页数是D=10亿，应删除词"的"在所有的网页中都出现，即Dw=10亿，那么它的IDF=log(10亿/10亿）= log (1) = 0。

假如专用词"原子能"在两百万个网页中出现，即Dw=200万，则它的权重IDF=log(500) =2.7。

又假定通用词"应用"，出现在五亿个网页中，它的权重IDF = log(2)则只有 0.3。也就是说，在网页中找到一个"原子能"的匹配相当于找到九个"应用"的匹配。

利用 IDF，上述相关性计算的公式就由词频的简单求和变成了加权求和，即TF1IDF1 +　TF2IDF2 +... + TFN*IDFN。在上面的例子中，该网页和"原子能的应用"的相关性为 0.0069，其中"原子能"贡献了 0.0054，而"应用"只贡献了0.0015。这个比例和我们的直觉比较一致了。