上次我们讨论了信息检索的向量空间模型,今天针对词语权重的设计进行简单讨论,主要从传统方法的权重计算方法进行阐述。

  在通常情况下对于权重的设计,首先想到利用的就是词频。在网页文档中,如果一个词语出现的频率越高,那么往往这个词语在网页文档中的关键程度就越重要,词频我们使用T(term frequency)来表示,词频和权重值是正比关系;然后我们将所有文档的集合进行判断,分析文档中出现该词的频率,越多的文档中包含该词,说明该词的专属程度越差,能够明确区分文档的词语,往往重要程度都比较高,专属程度也就越高,这样看来,文章频率与词语的权重又是一个反比的关系,百度优化 通常的算法,在设计权重的时候采用文档频率的倒数(inverse document frequency)来计算。

...