当前:
首页
-
图书专区
- 信息检索系统导论
忘记密码?
信息检索系统导论
作者:
刘挺 秦兵 张宇 车万翔
ISBN:
7-111-24607-7
定价:
35.00
页数:
257
出版日期:
2008年11月25日
译者:
无
图书分类:
计算机
>
信息系统
>
综合
原出版社:
无
浏览量:
2889
语种:
简体中文
开本:
16开
原书名:
无
属性分类:
教材
所属丛书:
重点大学计算机教材
责任编辑:
适用专业:
绝版:
否
包含CD:
无
随着互联网搜索引擎取得商业上的巨大成功,越来越多的读者对信息检索技术产生了浓厚的兴趣。本书作者基于多年信息检索教学与科研实践心得编写了本书,从基础到应用,从理论到实践,从经典算法到最新的研究成果,全面地介绍信息检索系统中的各项核心技术。书中详细阐述信息检索模型、常用的文本操作技术、文本的索引和搜索技术、查询处理相关的技术、评测技术等,有利于读者了解信息检索系统的基本实现原理,掌握搜索引擎的关键技术。
本书特点
理论联系实际,介绍了用Lucene实现Web信息检索的实例。
融入了作者的科研实践心得,对相关的前沿技术也有所涉及。
每章后都附有大量的参考文献,并提供思考题供读者进行深入研究。
本书为授课教师提供电子课件,请登录华章网站下载。
无
信息检索这个术语同时被情报科学领域和计算机科学领域所使用。在情报科学领域,信息检索主要是指如何使用文献检索工具查找资料,例如查询科学引文数据库等;在计算机科学领域,信息检索是指信息检索算法及软件系统的研究和开发,比如建立索引的方法,检索结果的排序算法等。概括地说,前者是对工具的使用,后者是工具的研制,二者大不相同,以往出版的以“信息检索”为题的书籍大多是情报领域的,而本书属于计算机领域,为此作者在书名中特别增加了“系统”一词,以示区别,而本书中出现的“信息检索”一词均指计算机领域的信息检索,这一点请读者特别注意。从这一定位上说,本书适合计算机专业、软件专业以及情报管理专业中偏重于计算机系统开发的本科生、研究生阅读,也可供信息检索领域的相关学者参考。
近年来,随着以Google、百度为代表的搜索引擎公司的崛起,越来越多的青年才俊对Internet搜索技术产生了浓厚的兴趣,很多同学选修信息检索课程,剖析开源的搜索引擎代码,申请加入与搜索相关的研究室,有的同学毕业后加盟与搜索技术相关的企业,有的则开始创业,开发新型的搜索引擎。这些充满激情、才华横溢的大学生们迫切地希望了解搜索引擎的奥秘,掌握搜索技术的架构和算法思想。
本书正是为满足读者对搜索技术的渴望而编写的,不过本书并不直接讲述如何搭建一个搜索引擎,而是侧重介绍搜索引擎背后的理论和算法。事实上,搜索引擎是一种网络上的应用,它的基础在“信息检索”。搜索引擎是随着Internet而发展起来的,只有十几年的历史,而信息检索伴随着计算机而兴起,有几十年的历史。信息检索方面长期的理论储备和技术积淀,为今天搜索引擎的蓬勃发展奠定了基础。掌握了信息检索的基础理论和技术,才能更深刻地理解搜索引擎的内涵,把握其千变万化中不变的本质。
八年来,笔者在哈尔滨工业大学为研究生和本科生讲授信息检索课程,同时从事信息检索方面的研究。在教学与科研实践中,深感需要一本完整而系统地介绍信息检索的教材,为此在以往教案的基础上经过反复删改补充完成了此书。本书一共有12章,可以分为四个部分,第一部分是第1~3章,介绍信息检索的基础内容,包括绪论、模型和评价;第二部分是4~6章,全面介绍信息检索系统中的各项技术,包括查询处理、文档处理、索引和检索技术;第三部分是第7~9章,讲述检索中的一些高级话题,包括Web检索、分布式检索以及开源的搜索代码等;第四部分是第10~12章,主要介绍信息检索应用,分别介绍分类和聚类、信息过滤和自动问答技术。本书试图从基础到应用,从理论到实践,从经典算法到最新的研究成果全面地介绍信息检索系统中的核心技术。由于笔者的研究背景所限,本书专注于文本检索,而没有涉及图像、语音、视频等多媒体检索。
本书是在哈尔滨工业大学信息检索研究室十余位老师和同学的共同努力下完成的。参加本书编写的还有:高立琦、刘桂平、张志辉、马金山、孙军、龚诚、郑伟、陈儒、陈毅恒、洪宇、张志昌,还有毕业后一直在中科院计算所工作的张刚。此外,刘怀军、祝惠佳、赵妍妍、林建国等人参加了校对工作。秦兵老师担当了信息检索课程的主要教学任务,她也是这本书的主要组织者,为本书的成稿付出了大量的心血。笔者们的老师李生教授在百忙中担任了本书的主审,同时本书也得到了李生教授主持的国家自然科学基金重点项目“下一代信息检索研究”(编号60736044)的资助。
基于关键词的通用搜索技术已经发展到了一定的高度,但这只是拉开了Internet信息处理的序幕,更为广阔的市场需求和研究空间正在我们面前展开。在搜索方面,垂直搜索、个性化搜索、多语言搜索、移动搜索、问答式搜索、社区化搜索等代表了未来的趋势;在文本挖掘方面,信息的抽取与聚合、实体关系挖掘、意见挖掘与情感倾向性分析、针对各种类型文本的多层次多角度分类等很多以往只在学术论文中提到的内容开始展现出实用价值。希望本书能够起到为国内信息检索领域多铺一块垫脚石的作用,帮助更多的读者提高对信息检索的兴趣,加深对信息检索的了解,加入到信息检索的研发队伍中来。
由于作者水平有限,书中疏漏在所难免,敬请读者批评指正。
作者
2008年7月
于哈尔滨工业大学
序
前言
作者简价
教学建议
第1章绪论1
11信息检索简介1
111信息检索的概念和处理对象1
112信息检索的基本流程1
113与信息检索相关的学科2
12信息检索的研究内容3
121信息检索要解决的问题3
122信息检索中的基础研究课题4
123信息检索中的关键技术5
124信息检索中的应用研究6
13信息检索的历史、现状与未来8
131信息检索的历史8
132信息检索的现状与未来9
14本书结构10
本章小结11
思考练习12
第2章信息检索模型13
21信息检索模型的定义和分类13
211信息检索模型的定义13
212信息检索模型的分类13
22布尔模型14
221布尔模型的定义14
222布尔模型示例15
23向量空间模型15
231向量空间模型的定义15
232常见相似度计算方法17
233向量空间模型与布尔模型的
比较19
24概率模型19
241概率模型的定义19
242概率模型的优缺点22
25扩展布尔模型23
251扩展布尔模型简介23
252基本模糊集合模型23
253扩展模糊集合模型24
26统计语言模型25
261语言模型简介25
262数据稀疏和平滑26
263基于语言模型的检索模型30
264基于语言模型的信息检索模型的
优缺点分析31
27隐性语义索引模型31
271隐性语义索引32
272隐性语义索引模型原理32
273隐性语义索引实例34
274隐性语义索引模型的特点36
28基于本体论的模型37
281本体论的概念37
282描述本体的语言38
283本体的构造39
284常用的本体库简介39
285本体论在信息检索系统中的应用…42
本章小结43
思考练习43
参考文献43
第3章信息检索系统的评价45
31引言45
32性能评价指标45
321准确率和召回率46
322单值评价方法47
323一些特殊的评价方法49
324其他测度方法52
33国外信息检索评测53
331TREC评测54
332NTCIR评测59
333CLEF评测61
34国内信息检索评测62
341863信息检索评测62
342SEWM中文Web评测64
35信息检索评价的研究66
351现有研究成果介绍66
352今后的研究问题与趋势67
本章小结67
思考练习67
参考文献68
第4章文本操作技术70
41引言70
42英文词法分析70
421断词70
422词干提取73
43中文词法分析75
431最大匹配法76
432歧义词切分77
433未登录词识别78
434分词系统介绍81
435语料及评测82
44相关资源84
441停用词表84
442词典资源84
45英文拼写检查86
451形态还原87
452词语相似度计算88
本章小结90
思考练习90
参考文献90
第5章文本索引和搜索92
51引言92
52倒排文件93
521倒排文件简介93
522倒排文件的使用94
523倒排文件的建立95
524倒排文件的维护96
525倒排文件的压缩97
526倒排文件性能分析99
53词汇表的存取99
531排序数组99
532B树100
533Trie树101
54后缀数组102
541后缀数组的构造102
542后缀数组的使用103
543后缀数组的分析103
55签名文件103
551签名文件的构造103
552签名文件的使用和维护105
553签名文件的分析105
56文本搜索技术105
561BF算法106
562KMP算法106
563BM算法108
564精确模式匹配算法的选择109
本章小结109
思考练习109
参考文献109
第6章查询处理技术111
61引言111
62查询构造方法111
621单一词查询111
622上下文查询111
623布尔查询112
63相关反馈与查询重构112
631向量空间模型中的反馈与查询
重构113
632概率模型中的反馈与查询重构115
633布尔模型中的反馈与查询重构116
634相关反馈的评价117
64自动查询扩展技术118
641查询扩展的全局分析方法119
642查询扩展的局部分析方法121
643基于词典库的查询扩展123
65交互式查询扩展123
66查询处理的发展趋势124
本章小结124
思考练习125
参考文献125
第7章Web检索技术127
71引言127
72Web检索的工作流程及系统结构128
721工作流程128
722系统结构128
73Web数据的采集129
731Web数据采集系统的工作
原理129
732Web数据采集系统的相关
概念及协议130
733Web数据采集系统的基本结构133
734Web数据采集系统的分类136
74网页的预处理138
741网页去重138
742正文提取142
75相关性排序系统145
751早期的相关性排序技术145
752链接分析技术145
753多特征融合的相关性排序算法147
76Web检索系统的其他模块147
本章小结148
思考练习148
参考文献149
第8章分布式信息检索150
81引言150
82分布式信息检索系统体系结构150
83文档集合的划分152
84文档集合的选择153
841文档集合的表示153
842集合选择算法153
843文档集合选择算法的评价156
85检索结果的合并157
本章小结159
思考练习159
参考文献159
第9章Web信息检索实践161
91引言161
92利用Lucene建立索引161
921在Lucene中建立索引的主要
步骤162
922基本索引程序163
923深入控制Lucene索引过程170
924与索引相关的并发问题176
93利用Lucene进行搜索180
931IndexSearcher181
932Hits181
933Query与QueryParser182
本章小结184
思考练习185
参考资源185
第10章文本分类与聚类186
101引言186
102文本分类186
1021文本分类概述186
1022文本分类的过程187
1023分类算法190
1024文本分类的评估指标194
1025相关评测和相关资源194
103文本聚类195
1031文本聚类概述195
1032层次聚类195
1033基于划分的聚类197
1034基于密度的方法199
1035自组织映射201
1036基于模型的方法202
1037文本聚类结果的描述202
1038文本聚类的评价方法202
本章小结203
思考练习204
参考文献204
第11章信息过滤技术205
111引言205
112信息过滤的概念及主要研究内容206
1121信息过滤的概念和主要特点206
1122信息过滤与信息检索、信息抽取
以及分类等研究的区别206
1123信息过滤系统的分类体系207
113信息过滤系统的结构及评价208
1131信息过滤系统的组成208
1132信息过滤系统的评价211
114基于内容的信息过滤213
1141信息过滤中应用的统计模型213
1142信息过滤中应用的文本分类
方法216
115协作过滤222
1151基于用户的协作过滤223
1152基于模型的协作过滤225
1153基于项目的协作过滤227
本章小结228
思考练习228
参考文献228
第12章问答系统231
121引言231
122问答系统的发展历程231
123问答系统的种类233
1231问答系统分类方法233
1232自然语言的数据库问答系统233
1233对话式问答系统234
1234基于常问问题集的问答系统235
1235基于大规模文档集的问答
系统236
1236阅读理解系统236
1237基于知识库的问答系统238
124基于常问问题集的问答系统实现239
1241候选问题集的建立239
1242句子相似度计算240
125基于大规模文档集的问答系统
实现242
1251问答的任务与系统实现流程242
1252问题分析244
1253相关文档检索248
1254句段检索251
1255答案抽取252
1256问答结果的答案评测及其面对的
问题和困难254
本章小结255
思考练习255
参考文献256
信息检索和搜索引擎因Internet的普及而日益变成一个热门学科。各种相关学科的技术都被用于信息检索,而信息检索也被用于各个领域。
热门固然是一门学科兴盛的表现,每个从事研究的人都希望自己的研究领域成为热门。但热门也可能带来危险,即把信息检索当作一种时髦技术,无论适用与否都将其套用而不究其根本。对于信息检索而言,这种时髦反而是它进一步发展的障碍。
实际上,信息检索是一门复杂的学科。它的目的看似简单——找出相关的信息,却涉及计算机科学几乎所有的方面:编码、数据结构、算法……直至自然语言处理及知识的表达和应用。而在研究信息检索时,我们不得不时时思考,什么是相关信息?这个问题牵涉许多学科:信息学、数学、哲学……。要对这样一门复杂的学科有一个全面的了解,就需要一本合适的教材。一本好的教材就是一个好的引路人,而用中文编写的好的信息检索的书却为数不多。
刘挺教授和他的同事们编写的这本书正是一本能把读者引入这个领域的好书。它系统地介绍信息检索的各个方面,以及它的各种应用。从书中不但可以看到对各种古典方法及模型的描述和讨论,还可以读到对广泛使用的Lucene开源系统的介绍。对信息检索感兴趣的学生和学者能从这些介绍中得到莫大的帮助。
搜索引擎正处于它的兴旺时期,但这并不意味着我们已经成功地解决了它的问题。它正在扩展到人们生活的各个角落而成为一种必需的工具。由此带来的新的问题尚待我们去解决。毫无疑问,这本书为解决这些问题提供了一个很好的基础,而它的系统性的介绍和深入浅出的描述,也将使它成为适合本科生及研究生的教材之一。
聂建云
加拿大蒙特利尔大学教授
读者书评
发表评论
书名
作者
出版社
ISBN
译者
关键字
丛书名
新书上架
畅销书榜
华章推荐
专题活动
工程信息检索教程
信息论基础 (原书第2版)
计算机与信息技术应用基础实验教程
经济管理
MBA
畅销书
法律
管理类
经济类
企业及企业家传记
企业文化
生活类
心理学
职场
其他
管理类教材
财务管理
电子商务
房地产经营管理
工程管理
工商管理
会计学
旅游管理和饭店管理
人力资源管理
市场营销
物流工程与管理
信息管理与信息系统
公共基础课
教辅考试类
经济类教材
国际经济与贸易
金融学
经济学
计算机
计算机科学理论与基础知识
计算机组织与体系结构
计算机网络
安全
软件与程序设计
软件工程及软件方法学
操作系统
数据库
硬件与维护
数码/设计
中文信息处理
计算机辅助设计与工程计算
办公软件
专用软件
人工智能
考试认证
工具书
计算机控制与仿真
信息系统
电子商务与计算机文化
电子工程
期刊
游戏
IT服务管理
计算机文化用品
综合
通信
无线电、电信设备
通信技术理论与基础
电声技术和语音信号处理
通信线路工程、通信网
通信系统
有线通信
电话
无线通信
保密通信
计算机网络通信/IP技术
无线电和有线电通信联接系统
无线电中继通信、微波通信
卫星通信
光通信与传输
无线电、电子学的应用
标准规范
政策法规
广播
电视
雷达
无线电导航
电子对抗(干扰及抗干扰)
综合
数学
数学文化史
初等数学
高等数学及高等数学相关数学教程
代数,数论及组合理论
分析
几何及拓扑
概率论与数理统计
运筹学
计算数学
函数论
统计
数学实验与数学建模
文科、经管、金融、工程数学
专著及论文集、工具书
控制论,信息论
数理逻辑
动力系统理论
数学考试辅导用书
Matlab
综合
外语
小语种
地图
英语
综合
心理生活
心理学
生活类
其它未分类
站内快速链接
学生用户
教师用户
专业读者
企业用户
图书馆
经销商
图书专区
新书上架
华章推荐
畅销书榜
媒体书评
经管类图书
计算机图书
外语类图书
数学类图书
机电类图书
最新动态
华章动态
行业资讯
新书出版
活动专题
专题活动
专版
论坛
图书区
活动区
媒体区
售前售后服务区
人才招聘
关于我们
认识华章
企业标识
组织结构
图书获奖
联系我们
加盟华章
版权声明
法律条款
版权所有© 2008 北京华章图文信息有限公司 京ICP备08102525号 京公网安备110102004606号
通信地址:北京市百万庄南街1号 邮编:100037
电话:(010)68318309, 88378998 传真:(010)68311602, 68995260