国科大 中科院 现代信息检索开卷考试用复习
国科大 中科院 现代信息检索开卷考试用复习
1.信息检索是什么:
给定用户需求返回满足该需求信息的一门学科。通常涉及信息的获取、存储、组织
和访问。
从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户
信息需求的资料(通常是文档)的过程。
“找对象”的学科,即定义并计算某种匹配“相似度”的学科。
2.倒排索引
对每个词项t, 记录所有包含t的文档列表.
每篇文档用一个唯一的 docID来表示,通常是正整数,如1,2,3…
能否采用定长数组的方式来存储docID列表
通常采用变长表方式
磁盘上,顺序存储方式比较好,便于快速读取
内存中,采用链表或者可变长数组方式
存储空间/易插入之间需要平衡
3.词典和倒排记录表
由词典和倒排记录表两部分组成,也会记录词项的出现次数Frequency。
开销:记录词项和文档频率,指针指向docID表。如果使用定长数组的词典结构,词项20Byte,文档频率4Byte,指针4Byte。
3.1词典,词项还原对检索结果的影响,剔除停用词显著优点
国科大 中科院 现代信息检索开卷考试用复习
根据停用词表,将常见的词从词典中去掉,比如the, a等。减少索引的磁盘占用,压缩索引。但是现代信息检索系统中倾向于不去掉停用词,因为可以使用良好的压缩技术来让停用词占用空间减少,使其在倒排记录表中占用空间比例很少。采用良好的查询优化技术不会增加查询处理的开销。停用词在某些情况下是有意义的。
3.2短语查询
输入查询作为一个短语整体,而不是用单个的单词作为查询项,用一串字符作为查询内容。所以在用短语查询的时候,需要改进倒排索引的样子:可以用双词索引,每两个连续的词组成短语来索引,比如abc,则ab,bc分别作为两个搜索内容,放到词典里;或者可以用带位置信息的索引,doc1: location1, location2…。
4.拼写矫正,编辑距离
需要纠错的词有一系列正确的单词形式,需要计算错单词和正确单词之间的距离。用编辑距离表示。编辑距离是两个字符串s1变成s2所需要的操作数目。有插入、删除、替换三种操作(L距离,如果是DL距离加上交换),一种操作后距离+1.
右下角是本值,右上角是上面格+1,左下角是左边格+1,左上角是左上角值+x,x:如果行列元素相等=0,不等=1
5.索引构建
首先将文档中的语句分离出单独的单词,再在倒排记录表中写入词项和docID,在之后需要将每个词项按照docID排序,再将重复出现的单词进行合并,拆分成词典和倒排记录表两部分,将统计得到的文档数目frequency加入。
5.11索引压缩
将整部词典看做是单一字符串,而后用词项指针指向每个字符的头部。
单一字符串方式下按块存储,将4个字符作为一组,公用同一个指针。
用前端编码。
5.1可变字节码VB
设置一个专用位作为延续位,如果间隔表示<7bit,c=1,将间隔编入一个字节的后7位中。否则将高7位放入当前字节中,将c=0,剩下的位数采用同样的方法处理,最后一个字节的c=1。
国科大 中科院 现代信息检索开卷考试用复习
相当于最右边的VB码最高位=1,剩下7位是间距的二进制码,剩下的最高位=0,依次填入。
VB编码性能差一点相对于γ编码来说。
6.γ编码
Γ编码是基于位的编码。伽马编码=长度+偏移。偏移=数字二进制后去掉头部的1,如3的二进制=11,去掉头=1;长度=偏移的长度,用一元码表示。
Γ编码不能表示0,所以用γ进行压缩时,实际存储中需要将所有数+1,解码时需要所有数-1.γ编码是无参数的,不需要通过拟合来获取参数。VB编码通常按照字节边界对齐,效率更高。
VB是按照字节的,所以效率高。Γ是一种无浪费的编码,效果更好。
6.1排序式检索,和布尔检索的区别?
布尔查询常常会有过多或者过少的结果,不便于用户查看和查找,需要大量的技巧和训练才能够掌握。排序式检索可以避免产生过多或者过少的结果,大规模的返回结果可以通过排序来避免。
7.tfidf为什么考虑文档常数,怎么体现?
tf-idf是一种能够反应相关度变化的指标。其中有文档常数N是因为考虑到罕见词的权重,让常见词的权重小于罕见词的权重。同时也要考虑词频增大,相关度也会增大,但是相关度和词频并不是呈现线性关系,故而tf中也出现了对数计算,用的是对数词频w。所以tf-idf是tf和idf的乘积,综合考虑了二者。
tf:词项频率,词项在文档出出现的次数。
w:是因为考虑到相关度和词频之间并不是呈现线性关系,所以用到了log对数,以使得在词频上升的情况下,相关度不至于大的离谱。
Idf:,df是出现词项t的文档数目,df是和信息量(权重)成反比的值。Idf中df/N表示了词项t在文档集中所占的比例,从而能够按需、按比例的消减其权重。
国科大 中科院 现代信息检索开卷考试用复习
tf-idf:综合了tf和idf的优点而成的指标,兼具二者优点。
7.1三种模型对于文档长度的处理方式?解释三种模型对文档长度进行归一是如何体现的?
8.未插值的AP
AP:平均正确率,对不同召回率点上的正确率进行平均。
未插值的AP:某个查询有6个相关结果,但是系统只返回了5篇,位置分别是1,2,5,10,20,则AP=(1/1+2/2+3/5+4/10+5/20+0)/6
插值的AP:在召回率分别为0, 0.1, 0.2,…,1.0的十个点上的正确率求平均。Ap=(1/1+2/2+3+5+4+10+5+20)/5。它只对返回的相关文档算入分母。
9.缓冲池方法Pooling
缓冲池方法是为了解决召回率难以计算的问题。对于大规模的语料集合,列举每个查询的所有相关文档不实际,所以召回率就没有分母了,无法计算。就要用到缓冲池作为分母。
对多个检索系统的Topk个结果组成的集合进行人工标注,标注出的相关文档集合作为整个相关文档集合。
Topk:从文档集的所有文档出找出k个离查询最近的文档,对每个文档进行余弦相似度的评分,按照高低排序,选择前k个。
缓冲池效果和局限性:最常见的,如果只有部分的结果进行了Pooling操作,则计算结果时的分子变小,从而正确率会变小;计算召回率时的分母和分子都变小,所以不确定。如果所有的结果都进行了Pooling,则此时计算的正确率分子分母都不变,正确率等于真实的正确率,计算召回率时,分子不变,分母小于真实的相关文档总数,所以计算出的召回率大于真实的召回率。
缓冲池的局限性:召回率不可考,所以在强调召回率准确度的系统中无法使用,缓冲池只对一小部分文档进行评价,当语料集变大时,缓冲池所占比例越来越小,则此时未插值AP不可靠,需要考虑其他指标。
10.评分指标
这里面有详尽描述。
11.BM25模型
BM25模型是基于二重泊松推导的,用来考察词语在查询中的权值。BM25模型融合了三个计算因子,BIM模型计算得分+查询词在文档D中的权值+查询词自身的权值。通过计算即可总结出与查询词最相关的文档。
BM25不用高频词项。
国科大 中科院 现代信息检索开卷考试用复习
优点:一定程度上的理论化模型,是基于二重泊松假设,适用于绝大多数文本 …… 此处隐藏:3384字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [实用文档]李践-有效提升销售的12大黄金法则8-大
- [实用文档]党支部换届工作方案
- [实用文档]2013年下期电子商务专业部宣传工作计划
- [实用文档]方庄一矿通风、钻探绩效工资考核管理办
- [实用文档]项目一 认识企业物流认识企业物流
- [实用文档]MBI_Display_产品蓝图规画
- [实用文档]北京市建筑业劳务作业人员普法维权培训
- [实用文档]锅炉燃烧调整与运行优化
- [实用文档]4支付结算业务的核算
- [实用文档]米什金_货币金融学_第9版各章学习指导
- [实用文档]水泥混凝土路面硬化工程施工组织设计
- [实用文档]钢筋工程安全技术交底书
- [实用文档]关于公布华中师范大学本科毕业论文
- [实用文档]太原市园林绿化施工合同范本 2
- [实用文档]周日辅导 初中英语分类复习单项选择题(
- [实用文档]第四章 文化经纪人的管理形式 第二节
- [实用文档]学宪法讲宪法竞赛题库
- [实用文档]《数值计算方法》期末考试模拟试题二
- [实用文档]爱词霸学英语:每日一句( 十月)
- [实用文档]2014年国家公务员面试:无领导小组讨论
- 新课程主要理念和教学案例分析汇编(24
- 英国人的快乐源于幸福的家庭生活
- 七年级上册第一次月考模拟数学试卷
- 真丝及仿真丝的种类有哪些?
- 【最新】华师大版八年级数学下册第十六
- 高中英语3500个必背单词
- 我可以接受失败,但我不能接受放弃!
- 最近更新沪科版八年级物理上册期末试卷
- 绿化工作先进乡镇事迹材料
- 鲁教版九年级上册思想品德教学计划
- 英语音标的分类
- 地下室底板无梁楼盖与普通梁板结构形式
- 美容师黄金销售话术
- 雅思写作满分作文备考方法
- 血清甲状腺激素测定与高频彩色多普勒超
- 1度浅析装修对室内空气品质的影响
- 2017-2022年中国汞矿行业深度分析与投
- 计算机二级VB公共基础知识
- (何勇)秸秆禁烧_重在寻找出路
- 内外墙抹灰工程分包施工合同1




