图片:qq截图20140919122028.jpg
《开发自己的搜索引擎:Lucene+Heritrix(第2版)》是一本介绍搜索引擎开发的
书籍,通过《开发自己的搜索引擎:Lucene+Heritrix(第2版)》,读者可以独立构建一个企业级的搜索引擎网站。《开发自己的搜索引擎:Lucene+Heritrix(第2版)》讲解了搜索引擎与信息检索基础,Lucene入门实例,索引的建立,使用Lucene来搜索,排序,分析器,对Word、Excel和PDF格式文档的解析,Compass搜索引擎框架,Lucene分布式,爬虫Heritrix,HTMLParser,DWR等内容。最后综合这些
技术,构建了一个典型的垂直搜索系统,具有很强的商业实用价值。
《开发自己的搜索引擎:Lucene+Heritrix(第2版)》是一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。
《开发自己的搜索引擎:Lucene+Heritrix(第2版)》适合
java程序员和从事计算机
软件开发的编程人员阅读,同时也可以作为搜索引擎爱好者的入门书籍。
作者简介
邱哲,北京理工大学软件工程硕士。现为Eskalate.com公司技术经理,同时负责开发人员招聘工作一-主要从事欧美软件外包开发,曾承接多家美国本土公司项目,在J2EE方面有7年的开发经验。曾经编写了《souts
web设计与开发大全》、《开发自己的搜索引擎——Lucerie 2.0+Heritrix》。
王学松,博士。曾任职知名互联网搜索引擎公司,担任高级软件工程师、研发经理等职位,参与大型搜索引擎开发多年。开发完成亿级网页的互联网科技类信息垂直搜索引擎系统,完成中文搜索引擎的页面下载与分析、大规模索引建立、分类聚类技术、高并发检索和Web高速访问技术开发。目前从事海量信息挖掘、语义网搜索引擎和基于内容图像检索的研究和开发。
目录:
第1章 搜索引擎与信息检索 1
1.1 搜索引擎的历史 1
1.1.1 萌芽:Archie、Gopher 1
1.1.2 起步:Robot(网络机器人)的出现与Spider(网络爬虫) 3
1.1.3 发展:Excite、Galaxy、Yahoo等 4
1.1.4 繁荣:Infoseek、AltaVista、
google和Baidu 6
1.2 信息检索系统的基本知识 9
1.2.1 信息检索系统 9
1.2.2 信息检索的过程 11
1.2.3 传统查找的优点和不足 12
1.2.4 使用索引提高检索速度 12
1.2.5 倒排索引 13
1.2.6 评价信息检索系统的标准 14
1.3 Lucene的简介 14
1.4 小结 15
第2章 Lucene入门实例 16
2.1 实例介绍 16
2.1.1 实例说明 16
2.1.2 开发过程 16
2.2 准备工作 17
2.2.1 将文档的全角标点转成半角标点 17
2.2.2 将大文档切分成多个小文档 20
2.2.3 预处理源文件的统一接口 21
2.3 创建Eclipse工程 22
2.3.1 准备工作 22
2.3.2 创建工程并引入Lucene的JAR包 24
2.3.3 运行文档预处理类 31
2.3.4 创建处理文档的索引类:IndexProcessor 32
亲!本部分内容设定了隐藏,需要回复后才能看到. 请先
注册! 再回帖! 免费下载上千GB的课程.