- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章 有哪些信誉好的足球投注网站引擎的架构
“你的第一个问题也许是最恰当的,你可能会或者可能不会意识到,它也是最不相关的。”
—设计师,《黑客帝国2 :重装上阵》
2.1 什么是软件架构
在本章我们将描述有哪些信誉好的足球投注网站引擎的基本软件架构。对于软件架构的定义,尽管没有一个统一
的规范,但软件架构通常包括软件组件、组件提供的接口以及各组件之间的联系。软件架构
是在一个特殊的抽象层次用于描述系统的工具。UIMA (Unstructured Information
Management Architecture ,非结构化信息管理架构)是一个软件架构的实例,该架构用于提
供一个将有哪些信誉好的足球投注网站和相关语言技术组件整合在一起的标准。UIMA为组件定义了接口,使系统在增
加处理文本和其他非结构化数据的技术的时候,变得更加简单。
有哪些信誉好的足球投注网站引擎的架构用于提供对于系统中重要的组件以及组件之间关系的高层次的描述。尽
管架构中有些组件的确相当于Galago和其他有哪些信誉好的足球投注网站引擎的软件模块,但它并不是一个对于系统
的代码级的描述。在本章及本书中我们都使用该软件架构,以便为讨论特定的技术提供背景。
架构的设计用于保证系统能够满足应用需求或目标。有哪些信誉好的足球投注网站引擎的两个主要目标是:
• 效果(质量):对于一个用户查询,希望能够检索到最多的相关文档。
• 效率(速度):尽可能快地处理用户的查询。
也许系统还有其他一些特殊目标,但这些也都属于效果问题或者效率问题(或者两者都
有)。例如,有哪些信誉好的足球投注网站的文档集合发生了变化,如何确保有哪些信誉好的足球投注网站引擎系统对该变化做出快速的反应,
就属于效果和效率问题。
有哪些信誉好的足球投注网站引擎的架构是由效果和效率这两个需求决定的。原因在于,用户需要一个有效率的
系统。有哪些信誉好的足球投注网站引擎采用专门的、经过优化的数据结构,以达到快速检索的目的;用户需要高质
量的结果,有哪些信誉好的足球投注网站引擎对文本进行深入的加工处理,并存储有助于改善结果相关性计算的文本
统计学结果。
在接下来的章节中讨论的一些组件,已经沿用了几十年。事实证明,这种通用的设计对于
检索效率和检索效果的折中起着重要的作用。在后续的章节中,会进一步详细讨论这些组件。
2.2 基本的构件
有哪些信誉好的足球投注网站引擎的组件主要提供两种功能,也就是我们所说的索引处理(indexing process )和
查询处理(query process )。索引处理建立可查找的数据结构,查询处理使用这些数据结构和
用户的查询生成一个排好序的文档列表。图2-1 给出了索引处理的高级“构件”(building
block )。这些主要的组件包括文本采集(text acquisition )、文本转换(text transformation )和
索引创建(index creation )。
/UIMA 。
有哪些信誉好的足球投注网站引擎的架构 9
文本采集组件用于发现文档,并且使这些文档能够被有哪些信誉好的足球投注网站到。尽管有时候系统可以仅仅
使用已有的文档集合,但文本采集通常需要通过爬行(crawling )或者扫描互联网、企业内部
网、桌面或者其他信息源,来建立一个文档集合。除了将这些文档传递给索引处理中的下一
个组件,文本采集组件还创建一个文档数据库,其中包含所有文档的文本和元数据(metadata )。
元数据表示的不是文档的部分内容,而是关于一篇文档的信息,如文档类型(例如电子邮件、
网页)、文档结构,或者其他的特征,如文档的长度。
文本转换组件将文档转换为索引项(index term )或者特征(feature )。顾名思义,索引
项是文档的一部分,存储在索引表中并且用于有哪些信誉好的足球投注网站。最简单的索引项是一个词,但并不是每
一个词都可以用于有哪些信誉好的足球投注网站。“特征”更普遍地是应用于机器学习领域中,是指文档的一部分,用
于表达文档的内容,特征也可以用来描述索引项。其他类型的索引项或者特征,是诸如短语、
人名、日期、网页中的超链接等等。索引项有时也简单地称作“词项”。索引整个文档集合的
所有词项集合,称为索引词表(index vocabulary )。
文档数据库文档数据库
文本采集 索引创建
文档评论(0)