TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文本频率指数)
TF-IDF,是一种统计方法。
TF-IDF,是一种常用于信息检索于数据挖掘的加权技术。
TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
TF-IDF计算公式:
TF-IDF=TF*IDF
TF-IDF值越大,则这个词成为一个关键词的概率就越大。
相关的,还有TF和IDF的计算公式:
TF计算公式:
逆向文件频率指数 (inverse document frequency, IDF) IDF的主要思想是:
如果包含词条w的文档越少, IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
IDF计算公式:
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。
TF-IDF倾向于过滤掉常见的词语,保留重要的词语。