网站大量收购闲置独家精品文档,联系QQ:2885784924

Oracle白皮书摘要.PDF

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据和自然语言:从文本提取洞察 Oracle 白皮书 2012 年9 月 大数据和自然语言: 从文本提取洞察 大数据和自然语言:从文本提取洞察 目录 概述3 引言3 Oracle 大数据机4 Synthesys 5 变革的动力5 结果6 文档处理运行时间7 分析吞吐量8 总结9 大数据和自然语言:从文本提取洞察 概述 自然语言中蕴含着丰富的信息有待人们挖掘提取,但是如何提取却是个难题。人们产生的人 类语言如此海量,构成了一个天然的大数据问题,而它的复杂性和细微差别则需要有专门的 知识来建模和挖掘。在本文中,我们介绍Oracle 大数据机与数字推理Synthesys 软件相结合带 来的巨大优势。Synthesys 与大数据机结合使用,能够在短短几小时内分析数千万的文档。此 外,这一强大组合的分析吞吐能力是大得多的云部署 Hadoop 集群的四倍。 引言 从所有人类语言中提取有用信息是一个具有挑战性的问题。为此,必须分析句子,识别实 体,还必须对关系建模。将大量人类语言整合为一个可用来提供商业价值的信息体,这甚至 是一个更具挑战性和复杂的问题。随着要分析的语言量不断增加,这种分析的复杂性以及对 语言的可伸缩的并行处理需求也都在增加。事实上,从大量非结构化人类语言中提取有用的 知识是一个典型的大数据问题。 在本文中,我们探讨了在 Oracle 大数据机上使用数字推理 Synthesys 语义分析软件所实现 的强大功能,该解决方案可以从数以百万计的人类语言篇章中提取和分析数十亿的实体、事 实和关系。本白皮书将介绍以下主题:  Oracle 大数据机简介,它是专门针对企业大数据而优化的唯一工程化系统  数字推理 Synthesys 简介,该软件提供高级语义分析,利用 Hadoop 生态系统可扩展到数 亿文档和数十亿的实体、事实和关系。  为了审计而使用人力资源来标记文档,这种工作方式存在的促发变革的问题,介绍我们测 试中使用的测试条件 3 大数据和自然语言:从文本提取洞察  大数据机和Synthesys 分别对100 万、1100 万、5000 万、2.33 亿份文档的测试结果  在金融市场上使用该联合解决方案所取得的巨大成本节约和效率提升 — 在金融市场上, 1 为后端管理软件准备非结构化文档每年要花费4 亿多美元 。 Oracle 大数据机 Oracle 大数据机是一个企业级工程化系统,它为大数据负载提供优化而全面的解决方案。该设 备包含 18 台Sun 服务器和648 TB 的原始存储容量。每台服务器包含两个6 核 Intel© Xeon© CPU 和48 GB 内存。Oracle 大数据机运行包含Apache Hadoop 的Cloudera 发行版(CDH)。 CDH 提供商业和非商业环境中的首个基于 Hadoop 的发行版。CDH 为大数据解决方案的开发 提供了一个基于Hadoop 的全面的环境。 许多大数据问题带来了前所未有的数据量和速度上的要求,为了满足这些要求,网络必须能 同时支持快速数据采集和大规模分析操作。Oracle 大数据机配有高速网络,同时支持节点间 快速数据流和数据采集。Oracle 大数据机提供 10GbE 的客户端网络用于数据采集。这使得 新数据一到达数据中心就被迅速处理。为确保 Oracle 大数据机上的分析操作不妨碍数据采 集,该设备中的内部通信使用了能达到40 Gb/秒传输速率的 Infiniband 结构。由于内部网络 对基于 HBase 的应用程序十分重要,Infiniband 结构为 Synthesys 负载提供了最佳通信主 干。此外,Infiniband 结构提供了与其他 Oracle 工程化系统尽可能最快的通信,从而确保 结构化数据源与非结构化数据源的快速整合。 1 信息来源:Shore Communications Research,2012 年8 月 4 大数据和自然语言:从文本提取洞察 S

文档评论(0)

aa15090828118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档