现代信息检索的考点整理

发表于 2016-11-12 更新于 2024-06-22 分类于 Basic 阅读次数：

本章总结《信息检索导论》（王斌译）的考点

希望大家考出好成绩呀～
如果没写的章节，说明考试不考（如果考了的话就gg了 = = |||）

教材：《信息检索导论》王斌译

（话说早知道选王斌老师的课了，但是wuli笨笨哥的课也很好的（支持一下班主任）

PS. 马上就要考试了好想哭。。。整理一下，希望学弟学妹们以后可以用到。。。

(更新于2017.9.21)PPS. 感觉给分还是很高的…这门课我97…谢谢助教、老师手下留情❤️

一、布尔检索

信息检索概念
倒排记录表
布尔检索：用and，or，not表示的查询

二、词汇表和倒排记录表

停用词的优缺点：倾向于不去除，因为去除可能会造成问题。且现在的信息检索系统有良好的压缩技术和查询优化技术，基本不会增加空间和时间开销。
Bm25要去掉停用词

三、词典及容错式检索

编辑距离的算法：左上：如果不相等，则＋1. 右上：上面的直接＋1。左下：左边的直接＋1。右下：前三个的最小值
编辑距离找寻依据：看最小值从哪里来。然后就知道怎么改了

四、索引构建

bsbi：term－termid的全局表，倒排记录表要排序
spimi：没有term－termid的表，倒排表不用排序，直接按照先后出现的顺序
Map reduce：分布式－1. term－doc id 2. 排序

五、索引压缩

要求：随机访问＋无损压缩
heaps定律：（估计词典大小）M = kTb
Zipf（估计倒排记录表大小）cfi和1/i成正比
词典压缩：单一字符串－分块压缩－前端编码压缩
倒排记录表压缩：（压缩间隔）vb编码，gamma编码
注意：间距从0开始，因此如果相差为1，则编码为0

六、tf、idf、vsm

用于文档评分，排序
df：出现某个词项的文档总数
tf：某个词项在某篇文档中出现的次数
idf：所有文档中含有某词项次数的倒数＊n（再log一下）－因为出现次数与信息量成反比
vsm：（用于计算相似度）步骤：tf － idf －归一化（原因：使得长短文档的向量权重都处于同一数量级）

八、检索评价

缓冲池方法：准确度高，召回率低
f值作为p，r的调和平均
bpref：（在相关性判断信息较少的情况下，可靠）计算在进行了相关性判断的文档集合中，在判断到相关文档前，需要判断的不相关文档的篇数
未插值ap，插值ap的公式
ndcg公式

九、相关反馈及查询扩展

相关反馈（局部）、查询扩展（全局）－旨在提高召回率
相关反馈－rocchio算法－向质心靠拢
查询扩展：同义词词典、共现统计信息（两个词常常一起出现）、外部词典

十一、概率检索模型

两种分布的计算差别：多元贝努利、多项式分布（注意计算方式即可，类比硬币和筛子）
逻辑回归：实验中效果一般
bim二值分布：服从多元贝努利分布－不考虑tf和文档长度，只考虑是否出现在doc中
Bm25分布：服从多元泊松分布－考虑tf，df，文档长度
两种分布要会算，主要是bm25
Bm25要去除停用词！

十二、基于语言建模的ir模型

数据平滑（比如add one方法）－为了处理矩阵稀疏和概率为0的情况
语言模型是基于多项式分布的假设－考虑tf，cf，没有考虑idf，但是效果一样
slmir与vsm的异同：都用了tf，都要归一化。基于不同理论基础。slmir的理论基础比vsm好。

十九、web搜索

重复检验算法shingle：计算在不同哈希函数下的最小值－计算jaccard即相似度（最小值相等，则相似）－取某个阈值内的文档们作为相似文档

二十、采集器

判断题：robots协议是否要遵守－是

二十一、链接分析

两种基于链接分析的排序算法：pagerank， hits
pagerank：和查询无关，可以线下计算，全局－改进：随机游走
hits：（hubs，authority）动态计算，与查询相关，线上计算，基于web搜索的页面进行－根集，基本集

0%