基于Java的全文检索引擎简介.docVIP

下载本文档

8
0
约1.29万字
约 13页
2017-09-21 发布于贵州
举报
版权申诉

基于Java的全文检索引擎简介.doc

1、本文档共13页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Lucene：基于Java的全文检索引擎简介作者：车东发表于：2002-08-06 18:08 最后更新于：2007-04-12 11:04版权声明：可以任意转载，转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。/tech/lucene.html Lucene是一个基于Java的全文索引工具包。基于Java的全文索引引擎Lucene简介：关于作者和Lucene的历史全文检索的实现：Luene全文索引和数据库索引的比较中文切分词机制简介：基于词库和自动切分词算法的比较具体的安装和使用简介：系统结构介绍和演示 Hacking Lucene：简化的查询分析器，删除的实现，定制的排序，应用接口的扩展从Lucene我们还可以学到什么基于Java的全文索引/检索引擎——Lucene Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。 Lucene的作者：Lucene的贡献者Doug Cutting是一位资深全文索引/检索专家，曾经是V-Twin有哪些信誉好的足球投注网站引擎(Apple的Copland操作系统的成就之一)的主要开发者，后在Excite担任高级系统架构设计师，目前从事于一些INTERNET底层架构的研究。他贡献出的Lucene的目标是为各种中小型应用程序加入全文检索功能。 Lucene的发展历程：早先发布在作者自己的，后来发布在SourceForge，2001年年底成为APACHE基金会jakarta的一个子项目：/lucene/ 已经有很多Java项目都使用了Lucene作为其后台的全文索引引擎，比较著名的有： Jive：WEB论坛系统； Eyebrows：邮件列表HTML归档/浏览/查询系统，本文的主要参考文档“TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows系统的主要开发者之一，而EyeBrows已经成为目前APACHE项目的主要邮件列表归档系统。 Cocoon:基于XML的web发布框架，全文检索部分使用了Lucene Eclipse:基于Java的开放开发平台，帮助部分的全文索引使用了Lucene 对于中文用户来说，最关心的问题是其是否支持中文的全文检索。但通过后面对于Lucene的结构的介绍，你会了解到由于Lucene良好架构设计，对中文的支持只需对其语言词法分析接口进行扩展就能实现对中文检索的支持。全文检索的实现机制 Lucene的API接口设计的比较通用，输入输出结构都很像数据库的表==记录==字段，所以很多传统的应用的文件、数据库等都可以比较方便的映射到Lucene的存储结构/接口中。总体上看：可以先把Lucene当成一个支持全文索引的数据库系统。比较一下Lucene和数据库： Lucene 数据库索引数据源：doc(field1,field2...) doc(field1,field2...) \ indexer / _____________ | Lucene Index| -------------- / searcher \ 结果输出：Hits(doc(field1,field2) doc(field1...)) 索引数据源：record(field1,field2...) record(field1..) \ SQL: insert/ _____________ | DB Index | ------------- / SQL: select \结果输出：results(record(field1,field2..) record(field1...)) Document：一个需要进行索引的“单元”一个Document由多个字段组成 Record：记录，包含多个字段 Field：字段 Field：字段 Hits：查询结果集，由匹配的Document组成 RecordSet：查询结果集，由多个Record组成全文检索 ≠ like %keyword% 通常比较厚的书籍后面常常附关键词索引表（比如：北京：12, 34页，上海：3,77页……），它能够帮助读者比较快地找到相关内容的页码。而数据库索引能够大大提高查询的速度原理也是一样，想像一下通过书后面的索引查找的速度