教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 文库大全 > 实用文档 >

国科大 中科院 现代信息检索开卷考试用复习

来源:网络收集 时间:2026-06-02
导读: 国科大 中科院 现代信息检索开卷考试用复习 1.信息检索是什么: 给定用户需求返回满足该需求信息的一门学科。通常涉及信息的获

国科大 中科院 现代信息检索开卷考试用复习

1.信息检索是什么:

给定用户需求返回满足该需求信息的一门学科。通常涉及信息的获取、存储、组织

和访问。

从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户

信息需求的资料(通常是文档)的过程。

“找对象”的学科,即定义并计算某种匹配“相似度”的学科。

2.倒排索引

对每个词项t, 记录所有包含t的文档列表.

每篇文档用一个唯一的 docID来表示,通常是正整数,如1,2,3…

能否采用定长数组的方式来存储docID列表

通常采用变长表方式

磁盘上,顺序存储方式比较好,便于快速读取

内存中,采用链表或者可变长数组方式

存储空间/易插入之间需要平衡

3.词典和倒排记录表

由词典和倒排记录表两部分组成,也会记录词项的出现次数Frequency。

开销:记录词项和文档频率,指针指向docID表。如果使用定长数组的词典结构,词项20Byte,文档频率4Byte,指针4Byte。

3.1词典,词项还原对检索结果的影响,剔除停用词显著优点

国科大 中科院 现代信息检索开卷考试用复习

根据停用词表,将常见的词从词典中去掉,比如the, a等。减少索引的磁盘占用,压缩索引。但是现代信息检索系统中倾向于不去掉停用词,因为可以使用良好的压缩技术来让停用词占用空间减少,使其在倒排记录表中占用空间比例很少。采用良好的查询优化技术不会增加查询处理的开销。停用词在某些情况下是有意义的。

3.2短语查询

输入查询作为一个短语整体,而不是用单个的单词作为查询项,用一串字符作为查询内容。所以在用短语查询的时候,需要改进倒排索引的样子:可以用双词索引,每两个连续的词组成短语来索引,比如abc,则ab,bc分别作为两个搜索内容,放到词典里;或者可以用带位置信息的索引,doc1: location1, location2…。

4.拼写矫正,编辑距离

需要纠错的词有一系列正确的单词形式,需要计算错单词和正确单词之间的距离。用编辑距离表示。编辑距离是两个字符串s1变成s2所需要的操作数目。有插入、删除、替换三种操作(L距离,如果是DL距离加上交换),一种操作后距离+1.

右下角是本值,右上角是上面格+1,左下角是左边格+1,左上角是左上角值+x,x:如果行列元素相等=0,不等=1

5.索引构建

首先将文档中的语句分离出单独的单词,再在倒排记录表中写入词项和docID,在之后需要将每个词项按照docID排序,再将重复出现的单词进行合并,拆分成词典和倒排记录表两部分,将统计得到的文档数目frequency加入。

5.11索引压缩

将整部词典看做是单一字符串,而后用词项指针指向每个字符的头部。

单一字符串方式下按块存储,将4个字符作为一组,公用同一个指针。

用前端编码。

5.1可变字节码VB

设置一个专用位作为延续位,如果间隔表示<7bit,c=1,将间隔编入一个字节的后7位中。否则将高7位放入当前字节中,将c=0,剩下的位数采用同样的方法处理,最后一个字节的c=1。

国科大 中科院 现代信息检索开卷考试用复习

相当于最右边的VB码最高位=1,剩下7位是间距的二进制码,剩下的最高位=0,依次填入。

VB编码性能差一点相对于γ编码来说。

6.γ编码

Γ编码是基于位的编码。伽马编码=长度+偏移。偏移=数字二进制后去掉头部的1,如3的二进制=11,去掉头=1;长度=偏移的长度,用一元码表示。

Γ编码不能表示0,所以用γ进行压缩时,实际存储中需要将所有数+1,解码时需要所有数-1.γ编码是无参数的,不需要通过拟合来获取参数。VB编码通常按照字节边界对齐,效率更高。

VB是按照字节的,所以效率高。Γ是一种无浪费的编码,效果更好。

6.1排序式检索,和布尔检索的区别?

布尔查询常常会有过多或者过少的结果,不便于用户查看和查找,需要大量的技巧和训练才能够掌握。排序式检索可以避免产生过多或者过少的结果,大规模的返回结果可以通过排序来避免。

7.tfidf为什么考虑文档常数,怎么体现?

tf-idf是一种能够反应相关度变化的指标。其中有文档常数N是因为考虑到罕见词的权重,让常见词的权重小于罕见词的权重。同时也要考虑词频增大,相关度也会增大,但是相关度和词频并不是呈现线性关系,故而tf中也出现了对数计算,用的是对数词频w。所以tf-idf是tf和idf的乘积,综合考虑了二者。

tf:词项频率,词项在文档出出现的次数。

w:是因为考虑到相关度和词频之间并不是呈现线性关系,所以用到了log对数,以使得在词频上升的情况下,相关度不至于大的离谱。

Idf:,df是出现词项t的文档数目,df是和信息量(权重)成反比的值。Idf中df/N表示了词项t在文档集中所占的比例,从而能够按需、按比例的消减其权重。

国科大 中科院 现代信息检索开卷考试用复习

tf-idf:综合了tf和idf的优点而成的指标,兼具二者优点。

7.1三种模型对于文档长度的处理方式?解释三种模型对文档长度进行归一是如何体现的?

8.未插值的AP

AP:平均正确率,对不同召回率点上的正确率进行平均。

未插值的AP:某个查询有6个相关结果,但是系统只返回了5篇,位置分别是1,2,5,10,20,则AP=(1/1+2/2+3/5+4/10+5/20+0)/6

插值的AP:在召回率分别为0, 0.1, 0.2,…,1.0的十个点上的正确率求平均。Ap=(1/1+2/2+3+5+4+10+5+20)/5。它只对返回的相关文档算入分母。

9.缓冲池方法Pooling

缓冲池方法是为了解决召回率难以计算的问题。对于大规模的语料集合,列举每个查询的所有相关文档不实际,所以召回率就没有分母了,无法计算。就要用到缓冲池作为分母。

对多个检索系统的Topk个结果组成的集合进行人工标注,标注出的相关文档集合作为整个相关文档集合。

Topk:从文档集的所有文档出找出k个离查询最近的文档,对每个文档进行余弦相似度的评分,按照高低排序,选择前k个。

缓冲池效果和局限性:最常见的,如果只有部分的结果进行了Pooling操作,则计算结果时的分子变小,从而正确率会变小;计算召回率时的分母和分子都变小,所以不确定。如果所有的结果都进行了Pooling,则此时计算的正确率分子分母都不变,正确率等于真实的正确率,计算召回率时,分子不变,分母小于真实的相关文档总数,所以计算出的召回率大于真实的召回率。

缓冲池的局限性:召回率不可考,所以在强调召回率准确度的系统中无法使用,缓冲池只对一小部分文档进行评价,当语料集变大时,缓冲池所占比例越来越小,则此时未插值AP不可靠,需要考虑其他指标。

10.评分指标

这里面有详尽描述。

11.BM25模型

BM25模型是基于二重泊松推导的,用来考察词语在查询中的权值。BM25模型融合了三个计算因子,BIM模型计算得分+查询词在文档D中的权值+查询词自身的权值。通过计算即可总结出与查询词最相关的文档。

BM25不用高频词项。

国科大 中科院 现代信息检索开卷考试用复习

优点:一定程度上的理论化模型,是基于二重泊松假设,适用于绝大多数文本 …… 此处隐藏:3384字,全部文档内容请下载后查看。喜欢就下载吧 ……

国科大 中科院 现代信息检索开卷考试用复习.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/wenku/1110512.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)