现代信息检索的考点整理

本章总结《信息检索导论》(王斌 译)的考点

  • 希望大家考出好成绩呀~
  • 如果没写的章节,说明考试不考(如果考了的话就gg了 = = |||)

教材:《信息检索导论》王斌 译

(话说早知道选王斌老师的课了,但是wuli笨笨哥的课也很好的(支持一下班主任)

PS. 马上就要考试了好想哭。。。整理一下,希望学弟学妹们以后可以用到。。。

(更新于2017.9.21)PPS. 感觉给分还是很高的…这门课我97…谢谢助教、老师手下留情❤️

一、 布尔检索

  • 信息检索概念
  • 倒排记录表
  • 布尔检索:用and,or,not表示的查询

二、词汇表和倒排记录表

  • 停用词的优缺点:倾向于不去除,因为去除可能会造成问题。且现在的信息检索系统有良好的压缩技术和查询优化技术,基本不会增加空间和时间开销。
  • Bm25要去掉停用词

三、词典及容错式检索

  • 编辑距离的算法:左上:如果不相等,则+1. 右上:上面的直接+1。左下:左边的直接+1。右下:前三个的最小值
  • 编辑距离找寻依据:看最小值从哪里来。然后就知道怎么改了

四、索引构建

  • bsbi:term-termid的全局表,倒排记录表要排序
  • spimi:没有term-termid的表,倒排表不用排序,直接按照先后出现的顺序
  • Map reduce:分布式-1. term-doc id 2. 排序

五、索引压缩

  • 要求:随机访问+无损压缩

  • heaps定律:(估计词典大小)M = kTb

  • Zipf(估计倒排记录表大小)cfi和1/i成正比

  • 词典压缩:单一字符串 - 分块压缩-前端编码压缩

  • 倒排记录表压缩:(压缩间隔)vb编码,gamma编码

  • 注意:间距从0开始,因此如果相差为1,则编码为0

六、tf、idf、vsm

  • 用于文档评分,排序

  • df:出现某个词项的文档总数

  • tf:某个词项在某篇文档中出现的次数

  • idf:所有文档中含有某词项次数的倒数*n(再log一下) - 因为出现次数与信息量成反比

  • vsm:(用于计算相似度)步骤:tf - idf -归一化(原因:使得长短文档的向量权重都处于同一数量级)

八、检索评价

  • 缓冲池方法:准确度高,召回率低
  • f值作为p,r的调和平均
  • bpref: (在相关性判断信息较少的情况下,可靠)计算在进行了相关性判断的文档集合中,在判断到相关文档前,需要判断的不相关文档的篇数
  • 未插值ap,插值ap的公式
  • ndcg公式

九、相关反馈及查询扩展

  • 相关反馈(局部)、查询扩展(全局)-旨在提高召回率

  • 相关反馈-rocchio算法-向质心靠拢

  • 查询扩展:同义词词典、共现统计信息(两个词常常一起出现)、外部词典

十一、概率检索模型

  • 两种分布的计算差别:多元贝努利、多项式分布(注意计算方式即可,类比硬币和筛子)

  • 逻辑回归:实验中效果一般

  • bim二值分布:服从多元贝努利分布-不考虑tf和文档长度,只考虑是否出现在doc中

  • Bm25分布:服从多元泊松分布-考虑tf,df,文档长度

  • 两种分布要会算,主要是bm25

  • Bm25要去除停用词!

十二、基于语言建模的ir模型

  • 数据平滑(比如add one方法) - 为了处理矩阵稀疏和概率为0的情况

  • 语言模型是基于多项式分布的假设 - 考虑tf,cf,没有考虑idf,但是效果一样

  • slmir与vsm的异同:都用了tf,都要归一化。基于不同理论基础。slmir的理论基础比vsm好。

十九、web搜索

  • 重复检验算法shingle:计算在不同哈希函数下的最小值-计算jaccard即相似度(最小值相等,则相似)-取某个阈值内的文档们作为相似文档

二十、采集器

  • 判断题:robots协议是否要遵守-是

二十一、链接分析

  • 两种基于链接分析的排序算法:pagerank, hits
  • pagerank:和查询无关,可以线下计算,全局 - 改进:随机游走
  • hits:(hubs,authority)动态计算,与查询相关,线上计算,基于web搜索的页面进行-根集,基本集