现代信息检索的考点整理
本章总结《信息检索导论》(王斌 译)的考点
- 希望大家考出好成绩呀~
- 如果没写的章节,说明考试不考(如果考了的话就gg了 = = |||)
教材:《信息检索导论》王斌 译
(话说早知道选王斌老师的课了,但是wuli笨笨哥的课也很好的(支持一下班主任)
PS. 马上就要考试了好想哭。。。整理一下,希望学弟学妹们以后可以用到。。。
(更新于2017.9.21)PPS. 感觉给分还是很高的…这门课我97…谢谢助教、老师手下留情❤️
一、 布尔检索
- 信息检索概念
- 倒排记录表
- 布尔检索:用and,or,not表示的查询
二、词汇表和倒排记录表
- 停用词的优缺点:倾向于不去除,因为去除可能会造成问题。且现在的信息检索系统有良好的压缩技术和查询优化技术,基本不会增加空间和时间开销。
- Bm25要去掉停用词
三、词典及容错式检索
- 编辑距离的算法:左上:如果不相等,则+1. 右上:上面的直接+1。左下:左边的直接+1。右下:前三个的最小值
- 编辑距离找寻依据:看最小值从哪里来。然后就知道怎么改了
四、索引构建
- bsbi:term-termid的全局表,倒排记录表要排序
- spimi:没有term-termid的表,倒排表不用排序,直接按照先后出现的顺序
- Map reduce:分布式-1. term-doc id 2. 排序
五、索引压缩
要求:随机访问+无损压缩
heaps定律:(估计词典大小)M = kTb
Zipf(估计倒排记录表大小)cfi和1/i成正比
词典压缩:单一字符串 - 分块压缩-前端编码压缩
倒排记录表压缩:(压缩间隔)vb编码,gamma编码
注意:间距从0开始,因此如果相差为1,则编码为0
六、tf、idf、vsm
用于文档评分,排序
df:出现某个词项的文档总数
tf:某个词项在某篇文档中出现的次数
idf:所有文档中含有某词项次数的倒数*n(再log一下) - 因为出现次数与信息量成反比
vsm:(用于计算相似度)步骤:tf - idf -归一化(原因:使得长短文档的向量权重都处于同一数量级)
八、检索评价
- 缓冲池方法:准确度高,召回率低
- f值作为p,r的调和平均
- bpref: (在相关性判断信息较少的情况下,可靠)计算在进行了相关性判断的文档集合中,在判断到相关文档前,需要判断的不相关文档的篇数
- 未插值ap,插值ap的公式
- ndcg公式
九、相关反馈及查询扩展
相关反馈(局部)、查询扩展(全局)-旨在提高召回率
相关反馈-rocchio算法-向质心靠拢
查询扩展:同义词词典、共现统计信息(两个词常常一起出现)、外部词典
十一、概率检索模型
两种分布的计算差别:多元贝努利、多项式分布(注意计算方式即可,类比硬币和筛子)
逻辑回归:实验中效果一般
bim二值分布:服从多元贝努利分布-不考虑tf和文档长度,只考虑是否出现在doc中
Bm25分布:服从多元泊松分布-考虑tf,df,文档长度
两种分布要会算,主要是bm25
Bm25要去除停用词!
十二、基于语言建模的ir模型
数据平滑(比如add one方法) - 为了处理矩阵稀疏和概率为0的情况
语言模型是基于多项式分布的假设 - 考虑tf,cf,没有考虑idf,但是效果一样
slmir与vsm的异同:都用了tf,都要归一化。基于不同理论基础。slmir的理论基础比vsm好。
十九、web搜索
- 重复检验算法shingle:计算在不同哈希函数下的最小值-计算jaccard即相似度(最小值相等,则相似)-取某个阈值内的文档们作为相似文档
二十、采集器
- 判断题:robots协议是否要遵守-是
二十一、链接分析
- 两种基于链接分析的排序算法:pagerank, hits
- pagerank:和查询无关,可以线下计算,全局 - 改进:随机游走
- hits:(hubs,authority)动态计算,与查询相关,线上计算,基于web搜索的页面进行-根集,基本集