标签归档:TF-IDF

真正的SEO技术:TF-IDF统计方法在搜索引擎算法中的应用

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文本频率指数)

TF-IDF,是一种统计方法。

TF-IDF,是一种常用于信息检索于数据挖掘的加权技术。

TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

TF-IDF计算公式:

TF-IDF=TF*IDF

TF-IDF值越大,则这个词成为一个关键词的概率就越大。

相关的,还有TF和IDF的计算公式:

TF计算公式:

真正的SEO技术:TF-IDF统计方法在搜索引擎算法中的应用插图

逆向文件频率指数 (inverse document frequency, IDF) IDF的主要思想是:

如果包含词条w的文档越少, IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

IDF计算公式:

真正的SEO技术:TF-IDF统计方法在搜索引擎算法中的应用插图2

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。

TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

继续阅读