- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
solr in action第五章
第五章索引本章涵盖了?设计模式索引文件?在schema.xml定义字段和字段类型?使用结构化数据的字段类型?处理更新请求,提交和原子更新?管理xml索引设置在第三章,我们学习了如何Solr发现文档使用一个反向索引,在其最简单的形式是一个字典的条款和文件的列表,每个词。Solr使用这个索引匹配的术语在用户查询与文档中发生。在这一章中,我们将学习如何Solr流程文档建立索引。索引文件是文本分析的一个关键因素。在这一章中,我们将关注索引过程和非文本字段,保存详细的文本分析,直到第六章讨论。在本章结束时,你就会知道如何在Solr索引文档,你就会理解重要概念如字段,字段类型和模式设计。作为先决条件,本章将更容易通过如果你有Solr服务器在本地运行示例,我们在第二章。你仍然能够跟随大多数例子运行Solr,如果你喜欢阅读这一章,然后回来做实践活动。5.1。微博有哪些信誉好的足球投注网站应用程序示例在本章和下一篇文章中,我们将设计和实现一个索引和有哪些信誉好的足球投注网站文本分析解决方案从流行的社交媒体网站如Twitter微博内容。我们使用微博作为短的通用术语,非正式的消息和其他媒体,人们在社交网络上与彼此分享。微博是微博的例子在Twitter、Facebook帖子,并在Foursquare签到。在这一章中,我们将定义字段和字段类型代表微博在Solr和学习如何增加Solr文档。在第六章中,我们将学习如何使用内置Solr做文本分析微博内容的工具。让我们开始通过查看文档的类型我们将使用在这个示例中,用户可能想要有哪些信誉好的足球投注网站它们。5.1.1。代表内容有哪些信誉好的足球投注网站首先,表5.1显示了一些字段从一个虚构的微博,我们将使用在这一章,了解在Solr索引文件。即使你不感兴趣分析社交媒体内容,通过这个例子中吸取的教训对于大多数有哪些信誉好的足球投注网站应用程序具有广泛的适用性。表5.1。一个虚构的领域Solr索引中的每个文档的字段,每个字段都有一个特定的类型,确定如何存储,有哪些信誉好的足球投注网站和分析。在表5.1中,有八个领域我们微博的文档。[1]想想用户可能会发现微博使用这些字段。我们认为screen_name、类型、时间戳、朗,和文本字段是好候选人使用从有哪些信誉好的足球投注网站的角度来看,因为它们包含的信息,一个典型的用户可以使用它来构建一个查询。例如,你可以想象一个用户想要看到所有的英语微博(lang:en)从特定用户(screen_name:thelabdude)后发生的特定日期(时间戳:[2012 - 05 - 01 t00:00:00z *))。你可以索引所有这些字段,但是如果你开发一个大规模的系统,以支持数以百万计的文档和查询量高,你只想包括将由您的用户有哪些信誉好的足球投注网站的字段。例如,Twitter user_id字段是一个内部标识符,不太可能用户会想在这一领域的有哪些信誉好的足球投注网站。一般来说,每个字段增加索引的大小,所以你应该只包括字段,为用户带来价值。favorites_count字段的数量最爱的作者推,推不收藏的数量。这个字段是有趣的因为它有有用的信息从用户界面的角度来看,但似乎并不好候选人作为一个参数为一个有哪些信誉好的足球投注网站查询。我们将解决如何处理这些display-oriented字段在5.2节讨论存储与索引字段。现在,让我们想想用户可能建立一个查询使用这些字段,因为这将帮助我们决定如何表示这些字段在我们Solr索引。图5.1描述了一个虚构的有哪些信誉好的足球投注网站表单根据领域例如微博有哪些信誉好的足球投注网站应用程序。每个字段从有哪些信誉好的足球投注网站的角度,我们确定是有用的表示形式。这是一个关键在设计你的有哪些信誉好的足球投注网站应用程序,您需要考虑用户如何将有哪些信誉好的足球投注网站特定字段的索引;,这将有助于确定如何在Solr中定义的字段。图5.1。虚构的web表单使用screen_name寻找微博,类型,郎朗,时间戳和文本字段。现在我们有一个概念性的理解领域我们的示例应用程序,并了解用户将如何使用这些字段有哪些信誉好的足球投注网站文档。接下来,让我们得到一个高级的理解如何添加文档Solr。5.1.2中所述。Solr索引过程的概述在高级别上,Solr索引过程最后三个主要任务:1。原生格式的文档转换成Solr支持的格式,如XML或JSON。2。将文件添加到Solr使用定义良好的接口之一,典型的HTTP POST。3。配置Solr转换应用于文档中的文本索引。Solr索引文档支持多种格式,包括XML、JSON和CSV。在图5.2中,我们选择XML由于其自描述的格式很容易理解。下面是我们的示例推会使用Solr的XML格式。清单5.1。XML文档使用Solr索引tweet的例子注意,每个字段表示的XML和语法很简单,你只需要为每个字段定义字段名称和值。你没有看到任何关于文本分析或字段类型。这是因为您定义字段是如何分析的模式。如图5.2所示的xml文档。回忆在第二章,我们所讨论的Solr提供了一个基本的基于http的接口,所有的核心服务,包括document-update服务添加和更新文档。左上角的图5.2中,我们为例描述发送
文档评论(0)