Tags : Ajax  apache  awk  besttrace  bootstrap  CDN  Django  git 

常见问题

TF-IDF

stevezhou      2014.12.11   


关于TF-IDF算法的说明,http://www.ruanyifeng.com/blog/2013/03/tf-idf.html,备忘。

TF : 词频,Term Frequency的缩写。

IDF : 逆文档频率,Inverse Document Frequency的缩写。

如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。用统计学语言表达,就是在词频的基础上,要对每个词分配一个"重要性"权重。最常见的词("的"、"是"、"在")给予最小的权重,较常见的词("中 国")给予较小的权重,较少见的词("蜜蜂"、"养殖")给予较大的权重。这个权重叫做"逆文档频率"(Inverse Document Frequency,缩写为IDF),它的大小与一个词的常见程度成反比。