- 1、本文档共260页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
三七大数据平台技术解决方案-V1.0..doc
..
三七数据
大数据技术解决方案
北京三七数据技术有限公司
2017年7月31日
目 录
TOC \o 1-3 \h \z \u HYPERLINK \l _Toc338008203 1 概述 PAGEREF _Toc338008203 \h 6
HYPERLINK \l _Toc338008204 2 面临的挑战 PAGEREF _Toc338008204 \h 6
HYPERLINK \l _Toc338008205 2.1 数据采集 PAGEREF _Toc338008205 \h 10
HYPERLINK \l _Toc338008206 2.2 数据清洗 PAGEREF _Toc338008206 \h 10
HYPERLINK \l _Toc338008207 2.3 数据存储 PAGEREF _Toc338008207 \h 12
HYPERLINK \l _Toc338008208 2.4 数据并行处理 PAGEREF _Toc338008208 \h 12
HYPERLINK \l _Toc338008209 2.5 数据分析 PAGEREF _Toc338008209 \h 12
HYPERLINK \l _Toc338008210 2.6 可视化 PAGEREF _Toc338008210 \h 12
HYPERLINK \l _Toc338008211 2.7 传统解决方案的分析 PAGEREF _Toc338008211 \h 12
HYPERLINK \l _Toc338008212 3 相关技术的研究 PAGEREF _Toc338008212 \h 12
HYPERLINK \l _Toc338008213 3.1 参考模型框架 PAGEREF _Toc338008213 \h 12
HYPERLINK \l _Toc338008214 3.2 数据采集 PAGEREF _Toc338008214 \h 12
HYPERLINK \l _Toc338008215 3.2.1 结构化数据的采集 PAGEREF _Toc338008215 \h 12
HYPERLINK \l _Toc338008216 3.2.2 半结构化数据的采集 PAGEREF _Toc338008216 \h 12
HYPERLINK \l _Toc338008217 3.2.3 非结构化文本数据中信息的抽取 PAGEREF _Toc338008217 \h 15
HYPERLINK \l _Toc338008218 3.3 数据清洗和数据质量的保证 PAGEREF _Toc338008218 \h 15
HYPERLINK \l _Toc338008219 3.3.1 数据质量的概念及分类 PAGEREF _Toc338008219 \h 15
HYPERLINK \l _Toc338008220 3.3.2 数据清洗的原理 PAGEREF _Toc338008220 \h 18
HYPERLINK \l _Toc338008221 3.3.3 单数据源中的数据清洗 PAGEREF _Toc338008221 \h 20
HYPERLINK \l _Toc338008222 3.4 数据的集成和融合 PAGEREF _Toc338008222 \h 37
HYPERLINK \l _Toc338008223 3.4.1 多数据源集成问题的分类 PAGEREF _Toc338008223 \h 38
HYPERLINK \l _Toc338008224 3.4.2 数据标准化的研究 PAGEREF _Toc338008224 \h 40
HYPERLINK \l _Toc338008225 3.4.3 数据集成的流程 PAGEREF _Toc338008225 \h 41
HYPERLINK \l _Toc338008226 3.4.4 多数据源中重复实体的清理 PAGEREF _Toc338008226 \h 41
HYPERLINK \l _Toc338008227 3.4.5 数据不一致性问题的研究 PAGEREF _Toc338008227 \h 43
HYPERLINK \l _Toc338008228 3.5 数据的存储和处理 PAGEREF _Toc338008228 \h 43
HYPERLINK \l _Toc338008229 3.5.1 并行和分布式处理理论 PAGEREF _Toc338008229 \h 43
HYPERLINK \l _Toc338008230 3.5.2 并行RD
您可能关注的文档
- 《线性代数》同济大学第四版课后答案..doc
- 《经济政治与社会》第5课社会主义市场经济课件.ppt
- 《网络经济与企业管理》第八章:人力资源管理课件.ppt
- 《计算机基础与应用(第五版)》项目三 任务2 互联网应用课件.ppt
- 《计算机基础与应用(第五版)》项目三 任务3 移动终端应用课件.ppt
- 《计算机基础与应用(第五版)》项目三 任务5 信息安全课件.ppt
- 《金色花》教师版PPT课件.ppt
- 【全】2015-2016专业技术人员心理健康与心理调适测试试题及答案2..doc
- 【工业4.0】《工业互联网平台建设及推广指南》解读(附图解)..doc
- 【干货】微商实战之基础篇章20150517课件.ppt
文档评论(0)