当前: 首页 - 图书专区 - 信息检索系统导论
信息检索系统导论


  在线购买
刘挺 秦兵 张宇 车万翔
7-111-24607-7
35.00
257
2008年11月25日

计算机 > 信息系统 > 综合

2889
简体中文
16开

教材
重点大学计算机教材







随着互联网搜索引擎取得商业上的巨大成功,越来越多的读者对信息检索技术产生了浓厚的兴趣。本书作者基于多年信息检索教学与科研实践心得编写了本书,从基础到应用,从理论到实践,从经典算法到最新的研究成果,全面地介绍信息检索系统中的各项核心技术。书中详细阐述信息检索模型、常用的文本操作技术、文本的索引和搜索技术、查询处理相关的技术、评测技术等,有利于读者了解信息检索系统的基本实现原理,掌握搜索引擎的关键技术。

本书特点
  理论联系实际,介绍了用Lucene实现Web信息检索的实例。
  融入了作者的科研实践心得,对相关的前沿技术也有所涉及。
  每章后都附有大量的参考文献,并提供思考题供读者进行深入研究。
  本书为授课教师提供电子课件,请登录华章网站下载。
信息检索这个术语同时被情报科学领域和计算机科学领域所使用。在情报科学领域,信息检索主要是指如何使用文献检索工具查找资料,例如查询科学引文数据库等;在计算机科学领域,信息检索是指信息检索算法及软件系统的研究和开发,比如建立索引的方法,检索结果的排序算法等。概括地说,前者是对工具的使用,后者是工具的研制,二者大不相同,以往出版的以“信息检索”为题的书籍大多是情报领域的,而本书属于计算机领域,为此作者在书名中特别增加了“系统”一词,以示区别,而本书中出现的“信息检索”一词均指计算机领域的信息检索,这一点请读者特别注意。从这一定位上说,本书适合计算机专业、软件专业以及情报管理专业中偏重于计算机系统开发的本科生、研究生阅读,也可供信息检索领域的相关学者参考。
近年来,随着以Google、百度为代表的搜索引擎公司的崛起,越来越多的青年才俊对Internet搜索技术产生了浓厚的兴趣,很多同学选修信息检索课程,剖析开源的搜索引擎代码,申请加入与搜索相关的研究室,有的同学毕业后加盟与搜索技术相关的企业,有的则开始创业,开发新型的搜索引擎。这些充满激情、才华横溢的大学生们迫切地希望了解搜索引擎的奥秘,掌握搜索技术的架构和算法思想。
本书正是为满足读者对搜索技术的渴望而编写的,不过本书并不直接讲述如何搭建一个搜索引擎,而是侧重介绍搜索引擎背后的理论和算法。事实上,搜索引擎是一种网络上的应用,它的基础在“信息检索”。搜索引擎是随着Internet而发展起来的,只有十几年的历史,而信息检索伴随着计算机而兴起,有几十年的历史。信息检索方面长期的理论储备和技术积淀,为今天搜索引擎的蓬勃发展奠定了基础。掌握了信息检索的基础理论和技术,才能更深刻地理解搜索引擎的内涵,把握其千变万化中不变的本质。
八年来,笔者在哈尔滨工业大学为研究生和本科生讲授信息检索课程,同时从事信息检索方面的研究。在教学与科研实践中,深感需要一本完整而系统地介绍信息检索的教材,为此在以往教案的基础上经过反复删改补充完成了此书。本书一共有12章,可以分为四个部分,第一部分是第1~3章,介绍信息检索的基础内容,包括绪论、模型和评价;第二部分是4~6章,全面介绍信息检索系统中的各项技术,包括查询处理、文档处理、索引和检索技术;第三部分是第7~9章,讲述检索中的一些高级话题,包括Web检索、分布式检索以及开源的搜索代码等;第四部分是第10~12章,主要介绍信息检索应用,分别介绍分类和聚类、信息过滤和自动问答技术。本书试图从基础到应用,从理论到实践,从经典算法到最新的研究成果全面地介绍信息检索系统中的核心技术。由于笔者的研究背景所限,本书专注于文本检索,而没有涉及图像、语音、视频等多媒体检索。
本书是在哈尔滨工业大学信息检索研究室十余位老师和同学的共同努力下完成的。参加本书编写的还有:高立琦、刘桂平、张志辉、马金山、孙军、龚诚、郑伟、陈儒、陈毅恒、洪宇、张志昌,还有毕业后一直在中科院计算所工作的张刚。此外,刘怀军、祝惠佳、赵妍妍、林建国等人参加了校对工作。秦兵老师担当了信息检索课程的主要教学任务,她也是这本书的主要组织者,为本书的成稿付出了大量的心血。笔者们的老师李生教授在百忙中担任了本书的主审,同时本书也得到了李生教授主持的国家自然科学基金重点项目“下一代信息检索研究”(编号60736044)的资助。
基于关键词的通用搜索技术已经发展到了一定的高度,但这只是拉开了Internet信息处理的序幕,更为广阔的市场需求和研究空间正在我们面前展开。在搜索方面,垂直搜索、个性化搜索、多语言搜索、移动搜索、问答式搜索、社区化搜索等代表了未来的趋势;在文本挖掘方面,信息的抽取与聚合、实体关系挖掘、意见挖掘与情感倾向性分析、针对各种类型文本的多层次多角度分类等很多以往只在学术论文中提到的内容开始展现出实用价值。希望本书能够起到为国内信息检索领域多铺一块垫脚石的作用,帮助更多的读者提高对信息检索的兴趣,加深对信息检索的了解,加入到信息检索的研发队伍中来。
由于作者水平有限,书中疏漏在所难免,敬请读者批评指正。

作者
2008年7月
于哈尔滨工业大学

前言
作者简价
教学建议

第1章绪论1
11信息检索简介1
111信息检索的概念和处理对象1
112信息检索的基本流程1
113与信息检索相关的学科2
12信息检索的研究内容3
121信息检索要解决的问题3
122信息检索中的基础研究课题4
123信息检索中的关键技术5
124信息检索中的应用研究6
13信息检索的历史、现状与未来8
131信息检索的历史8
132信息检索的现状与未来9
14本书结构10
本章小结11
思考练习12
第2章信息检索模型13
21信息检索模型的定义和分类13
211信息检索模型的定义13
212信息检索模型的分类13
22布尔模型14
221布尔模型的定义14
222布尔模型示例15
23向量空间模型15
231向量空间模型的定义15
232常见相似度计算方法17
233向量空间模型与布尔模型的
比较19
24概率模型19
241概率模型的定义19
242概率模型的优缺点22
25扩展布尔模型23
251扩展布尔模型简介23
252基本模糊集合模型23
253扩展模糊集合模型24
26统计语言模型25
261语言模型简介25
262数据稀疏和平滑26
263基于语言模型的检索模型30
264基于语言模型的信息检索模型的
优缺点分析31
27隐性语义索引模型31
271隐性语义索引32
272隐性语义索引模型原理32
273隐性语义索引实例34
274隐性语义索引模型的特点36
28基于本体论的模型37
281本体论的概念37
282描述本体的语言38
283本体的构造39
284常用的本体库简介39
285本体论在信息检索系统中的应用…42
本章小结43
思考练习43
参考文献43
第3章信息检索系统的评价45
31引言45
32性能评价指标45
321准确率和召回率46
322单值评价方法47
323一些特殊的评价方法49
324其他测度方法52
33国外信息检索评测53
331TREC评测54
332NTCIR评测59
333CLEF评测61
34国内信息检索评测62
341863信息检索评测62
342SEWM中文Web评测64
35信息检索评价的研究66
351现有研究成果介绍66
352今后的研究问题与趋势67
本章小结67
思考练习67
参考文献68
第4章文本操作技术70
41引言70
42英文词法分析70
421断词70
422词干提取73
43中文词法分析75
431最大匹配法76
432歧义词切分77
433未登录词识别78
434分词系统介绍81
435语料及评测82
44相关资源84
441停用词表84
442词典资源84
45英文拼写检查86
451形态还原87
452词语相似度计算88
本章小结90
思考练习90
参考文献90
第5章文本索引和搜索92
51引言92
52倒排文件93
521倒排文件简介93
522倒排文件的使用94
523倒排文件的建立95
524倒排文件的维护96
525倒排文件的压缩97
526倒排文件性能分析99
53词汇表的存取99
531排序数组99
532B树100
533Trie树101
54后缀数组102
541后缀数组的构造102
542后缀数组的使用103
543后缀数组的分析103
55签名文件103
551签名文件的构造103
552签名文件的使用和维护105
553签名文件的分析105
56文本搜索技术105
561BF算法106
562KMP算法106
563BM算法108
564精确模式匹配算法的选择109
本章小结109
思考练习109
参考文献109
第6章查询处理技术111
61引言111
62查询构造方法111
621单一词查询111
622上下文查询111
623布尔查询112
63相关反馈与查询重构112
631向量空间模型中的反馈与查询
重构113
632概率模型中的反馈与查询重构115
633布尔模型中的反馈与查询重构116
634相关反馈的评价117
64自动查询扩展技术118
641查询扩展的全局分析方法119
642查询扩展的局部分析方法121
643基于词典库的查询扩展123
65交互式查询扩展123
66查询处理的发展趋势124
本章小结124
思考练习125
参考文献125
第7章Web检索技术127
71引言127
72Web检索的工作流程及系统结构128
721工作流程128
722系统结构128
73Web数据的采集129
731Web数据采集系统的工作
原理129
732Web数据采集系统的相关
概念及协议130
733Web数据采集系统的基本结构133
734Web数据采集系统的分类136
74网页的预处理138
741网页去重138
742正文提取142
75相关性排序系统145
751早期的相关性排序技术145
752链接分析技术145
753多特征融合的相关性排序算法147
76Web检索系统的其他模块147
本章小结148
思考练习148
参考文献149
第8章分布式信息检索150
81引言150
82分布式信息检索系统体系结构150
83文档集合的划分152
84文档集合的选择153
841文档集合的表示153
842集合选择算法153
843文档集合选择算法的评价156
85检索结果的合并157
本章小结159
思考练习159
参考文献159
第9章Web信息检索实践161
91引言161
92利用Lucene建立索引161
921在Lucene中建立索引的主要
步骤162
922基本索引程序163
923深入控制Lucene索引过程170
924与索引相关的并发问题176
93利用Lucene进行搜索180
931IndexSearcher181
932Hits181
933Query与QueryParser182
本章小结184
思考练习185
参考资源185
第10章文本分类与聚类186
101引言186
102文本分类186
1021文本分类概述186
1022文本分类的过程187
1023分类算法190
1024文本分类的评估指标194
1025相关评测和相关资源194
103文本聚类195
1031文本聚类概述195
1032层次聚类195
1033基于划分的聚类197
1034基于密度的方法199
1035自组织映射201
1036基于模型的方法202
1037文本聚类结果的描述202
1038文本聚类的评价方法202
本章小结203
思考练习204
参考文献204
第11章信息过滤技术205
111引言205
112信息过滤的概念及主要研究内容206
1121信息过滤的概念和主要特点206
1122信息过滤与信息检索、信息抽取
以及分类等研究的区别206
1123信息过滤系统的分类体系207
113信息过滤系统的结构及评价208
1131信息过滤系统的组成208
1132信息过滤系统的评价211
114基于内容的信息过滤213
1141信息过滤中应用的统计模型213
1142信息过滤中应用的文本分类
方法216
115协作过滤222
1151基于用户的协作过滤223
1152基于模型的协作过滤225
1153基于项目的协作过滤227
本章小结228
思考练习228
参考文献228
第12章问答系统231
121引言231
122问答系统的发展历程231
123问答系统的种类233
1231问答系统分类方法233
1232自然语言的数据库问答系统233
1233对话式问答系统234
1234基于常问问题集的问答系统235
1235基于大规模文档集的问答
系统236
1236阅读理解系统236
1237基于知识库的问答系统238
124基于常问问题集的问答系统实现239
1241候选问题集的建立239
1242句子相似度计算240
125基于大规模文档集的问答系统
实现242
1251问答的任务与系统实现流程242
1252问题分析244
1253相关文档检索248
1254句段检索251
1255答案抽取252
1256问答结果的答案评测及其面对的
问题和困难254
本章小结255
思考练习255
参考文献256
信息检索和搜索引擎因Internet的普及而日益变成一个热门学科。各种相关学科的技术都被用于信息检索,而信息检索也被用于各个领域。
热门固然是一门学科兴盛的表现,每个从事研究的人都希望自己的研究领域成为热门。但热门也可能带来危险,即把信息检索当作一种时髦技术,无论适用与否都将其套用而不究其根本。对于信息检索而言,这种时髦反而是它进一步发展的障碍。
实际上,信息检索是一门复杂的学科。它的目的看似简单——找出相关的信息,却涉及计算机科学几乎所有的方面:编码、数据结构、算法……直至自然语言处理及知识的表达和应用。而在研究信息检索时,我们不得不时时思考,什么是相关信息?这个问题牵涉许多学科:信息学、数学、哲学……。要对这样一门复杂的学科有一个全面的了解,就需要一本合适的教材。一本好的教材就是一个好的引路人,而用中文编写的好的信息检索的书却为数不多。
刘挺教授和他的同事们编写的这本书正是一本能把读者引入这个领域的好书。它系统地介绍信息检索的各个方面,以及它的各种应用。从书中不但可以看到对各种古典方法及模型的描述和讨论,还可以读到对广泛使用的Lucene开源系统的介绍。对信息检索感兴趣的学生和学者能从这些介绍中得到莫大的帮助。
搜索引擎正处于它的兴旺时期,但这并不意味着我们已经成功地解决了它的问题。它正在扩展到人们生活的各个角落而成为一种必需的工具。由此带来的新的问题尚待我们去解决。毫无疑问,这本书为解决这些问题提供了一个很好的基础,而它的系统性的介绍和深入浅出的描述,也将使它成为适合本科生及研究生的教材之一。

聂建云
加拿大蒙特利尔大学教授
读者书评
发表评论



高级搜索
工程信息检索教程
信息论基础 (原书第2版)
计算机与信息技术应用基础实验教程


版权所有© 2008 北京华章图文信息有限公司 京ICP备08102525号 京公网安备110102004606号
通信地址:北京市百万庄南街1号 邮编:100037
电话:(010)68318309, 88378998 传真:(010)68311602, 68995260