国科大中科院现代信息检索开卷考试用复习

来源：网络收集时间：2026-07-13

导读：国科大中科院现代信息检索开卷考试用复习 1.信息检索是什么：给定用户需求返回满足该需求信息的一门学科。通常涉及信息的获

国科大中科院现代信息检索开卷考试用复习

1.信息检索是什么：

给定用户需求返回满足该需求信息的一门学科。通常涉及信息的获取、存储、组织

和访问。

从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户

信息需求的资料(通常是文档)的过程。

“找对象”的学科，即定义并计算某种匹配“相似度”的学科。

2.倒排索引

对每个词项t, 记录所有包含t的文档列表.

每篇文档用一个唯一的 docID来表示，通常是正整数，如1,2,3…

能否采用定长数组的方式来存储docID列表

通常采用变长表方式

磁盘上，顺序存储方式比较好，便于快速读取

内存中，采用链表或者可变长数组方式

存储空间/易插入之间需要平衡

3.词典和倒排记录表

由词典和倒排记录表两部分组成，也会记录词项的出现次数Frequency。

开销：记录词项和文档频率，指针指向docID表。如果使用定长数组的词典结构，词项20Byte,文档频率4Byte，指针4Byte。

3.1词典，词项还原对检索结果的影响，剔除停用词显著优点

国科大中科院现代信息检索开卷考试用复习

根据停用词表，将常见的词从词典中去掉，比如the, a等。减少索引的磁盘占用，压缩索引。但是现代信息检索系统中倾向于不去掉停用词，因为可以使用良好的压缩技术来让停用词占用空间减少，使其在倒排记录表中占用空间比例很少。采用良好的查询优化技术不会增加查询处理的开销。停用词在某些情况下是有意义的。

3.2短语查询

输入查询作为一个短语整体，而不是用单个的单词作为查询项，用一串字符作为查询内容。所以在用短语查询的时候，需要改进倒排索引的样子：可以用双词索引，每两个连续的词组成短语来索引，比如abc，则ab，bc分别作为两个搜索内容，放到词典里；或者可以用带位置信息的索引，doc1: location1, location2…。

4.拼写矫正，编辑距离

需要纠错的词有一系列正确的单词形式，需要计算错单词和正确单词之间的距离。用编辑距离表示。编辑距离是两个字符串s1变成s2所需要的操作数目。有插入、删除、替换三种操作（L距离，如果是DL距离加上交换），一种操作后距离+1.

右下角是本值，右上角是上面格+1，左下角是左边格+1，左上角是左上角值+x，x：如果行列元素相等=0，不等=1

5.索引构建

首先将文档中的语句分离出单独的单词，再在倒排记录表中写入词项和docID，在之后需要将每个词项按照docID排序，再将重复出现的单词进行合并，拆分成词典和倒排记录表两部分，将统计得到的文档数目frequency加入。

5.11索引压缩

将整部词典看做是单一字符串，而后用词项指针指向每个字符的头部。

单一字符串方式下按块存储，将4个字符作为一组，公用同一个指针。

用前端编码。

5.1可变字节码VB

设置一个专用位作为延续位，如果间隔表示<7bit，c=1，将间隔编入一个字节的后7位中。否则将高7位放入当前字节中，将c=0，剩下的位数采用同样的方法处理，最后一个字节的c=1。

国科大中科院现代信息检索开卷考试用复习

相当于最右边的VB码最高位=1，剩下7位是间距的二进制码，剩下的最高位=0，依次填入。

VB编码性能差一点相对于γ编码来说。

6.γ编码

Γ编码是基于位的编码。伽马编码=长度+偏移。偏移=数字二进制后去掉头部的1，如3的二进制=11，去掉头=1；长度=偏移的长度，用一元码表示。

Γ编码不能表示0，所以用γ进行压缩时，实际存储中需要将所有数+1，解码时需要所有数-1.γ编码是无参数的，不需要通过拟合来获取参数。VB编码通常按照字节边界对齐，效率更高。

VB是按照字节的，所以效率高。Γ是一种无浪费的编码，效果更好。

6.1排序式检索，和布尔检索的区别？

布尔查询常常会有过多或者过少的结果，不便于用户查看和查找，需要大量的技巧和训练才能够掌握。排序式检索可以避免产生过多或者过少的结果，大规模的返回结果可以通过排序来避免。

7.tfidf为什么考虑文档常数，怎么体现？

tf-idf是一种能够反应相关度变化的指标。其中有文档常数N是因为考虑到罕见词的权重，让常见词的权重小于罕见词的权重。同时也要考虑词频增大，相关度也会增大，但是相关度和词频并不是呈现线性关系，故而tf中也出现了对数计算，用的是对数词频w。所以tf-idf是tf和idf的乘积，综合考虑了二者。

tf：词项频率，词项在文档出出现的次数。

w：是因为考虑到相关度和词频之间并不是呈现线性关系，所以用到了log对数，以使得在词频上升的情况下，相关度不至于大的离谱。

Idf：，df是出现词项t的文档数目，df是和信息量（权重）成反比的值。Idf中df/N表示了词项t在文档集中所占的比例，从而能够按需、按比例的消减其权重。

国科大中科院现代信息检索开卷考试用复习

tf-idf：综合了tf和idf的优点而成的指标，兼具二者优点。

7.1三种模型对于文档长度的处理方式？解释三种模型对文档长度进行归一是如何体现的？

8.未插值的AP

AP：平均正确率，对不同召回率点上的正确率进行平均。

未插值的AP：某个查询有6个相关结果，但是系统只返回了5篇，位置分别是1,2,5,10,20，则AP=(1/1+2/2+3/5+4/10+5/20+0)/6

插值的AP：在召回率分别为0, 0.1, 0.2,…,1.0的十个点上的正确率求平均。Ap=(1/1+2/2+3+5+4+10+5+20)/5。它只对返回的相关文档算入分母。

9.缓冲池方法Pooling

缓冲池方法是为了解决召回率难以计算的问题。对于大规模的语料集合，列举每个查询的所有相关文档不实际，所以召回率就没有分母了，无法计算。就要用到缓冲池作为分母。

对多个检索系统的Topk个结果组成的集合进行人工标注，标注出的相关文档集合作为整个相关文档集合。

Topk：从文档集的所有文档出找出k个离查询最近的文档，对每个文档进行余弦相似度的评分，按照高低排序，选择前k个。

缓冲池效果和局限性：最常见的，如果只有部分的结果进行了Pooling操作，则计算结果时的分子变小，从而正确率会变小；计算召回率时的分母和分子都变小，所以不确定。如果所有的结果都进行了Pooling，则此时计算的正确率分子分母都不变，正确率等于真实的正确率，计算召回率时，分子不变，分母小于真实的相关文档总数，所以计算出的召回率大于真实的召回率。

缓冲池的局限性：召回率不可考，所以在强调召回率准确度的系统中无法使用，缓冲池只对一小部分文档进行评价，当语料集变大时，缓冲池所占比例越来越小，则此时未插值AP不可靠，需要考虑其他指标。

10.评分指标

这里面有详尽描述。

11.BM25模型

BM25模型是基于二重泊松推导的，用来考察词语在查询中的权值。BM25模型融合了三个计算因子，BIM模型计算得分+查询词在文档D中的权值+查询词自身的权值。通过计算即可总结出与查询词最相关的文档。

BM25不用高频词项。

国科大中科院现代信息检索开卷考试用复习

优点：一定程度上的理论化模型，是基于二重泊松假设，适用于绝大多数文本 …… 此处隐藏：3384字，全部文档内容请下载后查看。喜欢就下载吧 ……

国科大中科院现代信息检索开卷考试用复习.doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

本文链接：https://www.jiaowen.net/wenku/1110512.html（转载请注明文章来源）

上一篇：论语原文选段之六三人行必有我师
下一篇：虚拟装配技术在辛普森行星齿轮机构教学中的应用

国科大 中科院 现代信息检索开卷考试用复习

国科大中科院现代信息检索开卷考试用复习