- 1、本文档共35页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Lucene课件
全文检索
常见的全文检索
在window系统中,可以指定磁盘中的某一个位置来有哪些信誉好的足球投注网站你想要得到的东西。这个功能是windows比较常用的功能。在这个界面中能有哪些信誉好的足球投注网站的内容有*.*,*.bat,可以有哪些信誉好的足球投注网站文件中的内容。
在myeclipse中,点击Help-Help Contents,可以利用有哪些信誉好的足球投注网站功能找到你要查询的帮助文档。
在myeclipse中,点击Search-File,在Containing text中可以指定要查找的内容,在File name patterns中可以用*.java来表示要查找的内容来自所有java文件,或者*.*表示要查找的文件来自全部的文件。这个功能非常常用。
在百度和google 中,可以有哪些信誉好的足球投注网站互联网中的信息,有:网页、pdf、word音频、视频等内容。
在bbs系统中,有有哪些信誉好的足球投注网站文章的功能。
以上的查询功能都相似,都是查询的文本内容,查询方法也相似即找出含有指定字符串的资源。只不过是查询的范围不一样。(硬盘、帮助文件、互联网)
全文检索的概念
从大量的信息中快速、准确地查找出要的信息
有哪些信誉好的足球投注网站的内容是文本信息(不是多媒体)
有哪些信誉好的足球投注网站的方式:不是根据语句的意思进行处理。如果要有哪些信誉好的足球投注网站的文本为” 2012年的春晚有赵本山吗”,那么含有这些词(2012年、春晚、赵本山)就能有哪些信誉好的足球投注网站出来。每一个词都是关键词。
全面、快速、准确是衡量全文检索系统的关键指标。
概括:
只处理文本
不处理语义
有哪些信誉好的足球投注网站时英文不区分大小写
结果列表有相关度排序
全文检索的应用场景
1.3.1站内有哪些信誉好的足球投注网站
通常用于在大量数据出现的系统中,找出你想要的资料。常见的有
bbs的关键字有哪些信誉好的足球投注网站
baidu贴吧 林志玲 、胡汉三
商品网站的有哪些信誉好的足球投注网站等
中关村在线 商品的名称、电脑硬件名称 (CPU)
文件管理系统
对文件的有哪些信誉好的足球投注网站功能。Window的文件有哪些信誉好的足球投注网站
1.3.2垂直有哪些信誉好的足球投注网站
是针对 某个行业的有哪些信誉好的足球投注网站引擎
是有哪些信誉好的足球投注网站引擎的细分和延伸
是针对网页库中的专门信息的整合
其特点是专、深、精,并具有行业色彩
可以应用于购物有哪些信誉好的足球投注网站、房产有哪些信誉好的足球投注网站、人才有哪些信誉好的足球投注网站
全文检索与数据库有哪些信誉好的足球投注网站的区别
1.4.1数据库的有哪些信誉好的足球投注网站
类似:select * from 表名 where 字段名 like ‘%关键字%’
例如:select * from article where content like’%here%’
结果: where here shere
缺点:
有哪些信誉好的足球投注网站效果比较差
在有哪些信誉好的足球投注网站的结果中,有大量的数据被有哪些信誉好的足球投注网站出来,有很多数据是没有用的。
查询速度在大量数据的情况下是很难做到快速的。
1.4.2全文检索
有哪些信誉好的足球投注网站结果按相关度排序:意味着只有前几个页面对于用户来说是比较有用的,其他的结果与用户想要的答案很可能相差甚远。数据库有哪些信誉好的足球投注网站是做不到相关度排序的。
因为全文检索是采用引索的方式,所以在速度上肯定比数据库方式like要快。
所以数据库不能代替全文检索。
Lucene简介
全文检索只是一个概念,而具体实现有很多框架,lucene是其中的一种。Lucene的主页/。本文用的是3.0.1版本。
Lucene大致结构
互联网有哪些信誉好的足球投注网站结构框图
说明:
当用户打开网页有哪些信誉好的足球投注网站某些数据的时候,不是直接找的网页,而是找的百度的索引库。索引库里包含的内容有索引号和摘要。当我们打开时,看到的就是摘要的内容。
百度的索引库的索引和互联网的某一个网站对应。
当用户数据要查询的关键字,返回的页面首先是从索引库中得到的。
点击每一个有哪些信誉好的足球投注网站出来的内容进行相关网页查找,这个时候才找的是互联网中的网页。
lucene的大致结构框图
说明:
在数据库中,数据库中的数据文件存储在磁盘上。索引库也是同样,索引库中的索引数据也在磁盘上存在,我们用Directory这个类来描述。
我们可以通过API来实现对索引库的增、删、改、查的操作。
在数据库中,各种数据形式都可以概括为一种:表。在索引库中,各种数据形式也可以抽象出一种数据格式为Document。
Document的结构为:Document(ListField)
Field里存放一个键值对。键值对都为字符串的形式。
对索引库中索引的操作实际上也就是对Document的操作。
第一个lucene程序
准备lucene的开发环境
搭建lucene的开发环境,要准备lucene的jar包,要加入的jar包至少有:
lucene-core-3.1.0.jar (核心包)
lucene-analyzers-3.1.0.jar (分词器)
lucene-highlighter-3.1.0.jar (高亮器)
lucene-memory-3.1.0.jar (高亮器)
建立索引
3.2.1开发代码
3.2.2代码说明
步骤:
创建IndexWriter
文档评论(0)