- 1、本文档共66页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
四、空间大数据的存储 Key-value型 文档型 图形数据库 列式存储 四、空间大数据的存储 定义一个大的有序结 构数组HashValue[m], 用来存放各信息 查询 哈希表 哈希函数 当查询的时候 再使用哈希函数 得到这个下标值 编写一个哈希函数将关键值的名字转换为HashValue[m]中的某个下标值x Key-value型 四、空间大数据的存储 文档 集合 数据库 集合就是一组文档。 集合是无模式的。 多个文档组成集合 多个集合数据库。 它包含多个键/值对 文档中的键/值对是 有序的 文档型数据库 四、空间大数据的存储 四、空间大数据的存储 四、空间大数据的存储 分类 Examples举例 典型应用场景 数据模型 优点 缺点 键值(key-value) Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB 内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。 Key 指向 Value 的键值对,通常用hash table来实现 查找速度快 数据无结构化,通常只被当作字符串或者二进制数据 列存储数据库 Cassandra, HBase, Riak 分布式的文件系统 以列簇式存储,将同一列数据存在一起 查找速度快,可扩展性强,更容易进行分布式扩展 功能相对局限 文档型数据库 CouchDB, MongoDb Web应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容) Key-Value对应的键值对,Value为结构化数据 数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构 查询性能不高,而且缺乏统一的查询语法。 图形(Graph)数据库 Neo4J, InfoGrid, Infinite Graph 社交网络,推荐系统等。专注于构建关系图谱 图结构 利用图结构相关算法。比如最短路径寻址,N度关系查找等 很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案。 四、空间大数据的存储 四、空间大数据的存储 这便是一个document,使用JSON格式,一目了然。其中的geom即为Geometry类型的数据,即地理空间数据,也是采用JSON格式存储,这样后续的空间索引与空间查询将十分方便。 四、空间大数据的存储 db.xqpoint.find({geom.coordinates:[122.53233,52.968872]}) 精确查询 邻域查询 db.xqpoint.find({geom.coordinates:{$near:[122,52]}})? db.xqpoint.find({geom.coordinates:{$near:[122,52]}}).limit(5) db.xqpoint.find({geom.coordinates:{$near:[122,52],$maxDistance:5}}).limit(5) 四、空间大数据的存储 范围查询 box = [[80,40],[100,50]]? db.xqpoint.find({geom.coordinates:{$within:{$box:box}}}) center = [80,44]? radius =5? db.xqpoint.find({geom.coordinates:{$within:{$center:[center,radius]}}}) polygon1 = [[75,35],[80,35],[80,45],[60,40]]? db.xqpoint.find({geom.coordinates:{$within:{$polygon:polygon1}}})? 五、总结 大数据研究带来的挑战 多源数据的 分析和挖掘 空间大数据 的位置安全 结合地理计算的 可视分析 可扩展的动态 海量数据管理 新的数据共享机制 需要建立 来自《大数据时代》P008; *:可参考2008年9月4日《自然》推出的名为“大数据”的专刊。 * 第一V是Variety,海量数据有不同格式,第一种是结构化,我们常见的数据,还有半结据化网页数据,还有非结构化视频音频数据。而且这些数据化他们处理方式是比较大的。 很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯的语法或句义 第二点就是Volume,量比较大,我们有一些用户化每秒就要进入很多数据,很多客户内部都有几批数据,还有下面淘宝都是几PB数据,所以PB化将是比较常态的情况。 非结构化数据的超大规模和增长,占总数据量的80~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍
您可能关注的文档
- 第01章-大数据与云计算.ppt
- 第八章-大数据.ppt
- 第九讲:信息与大数据伦理问题-工程伦理.ppt
- 基于大数据的工程建设与管理.ppt
- 生物医学大数据概述.ppt
- 厅局级大数据部门间共享业务.ppt
- 招聘行业大数据解决方案.ppt
- 走进大数据时代.ppt
- 大急诊急救体系建设的现实意义和前景.ppt
- 大数据医疗发展趋势分析.ppt
- 北师大版小学数学三年级上册《寄书》教学设计.docx
- 统编版(部编版)语文二年级上册《雪孩子》教学设计.docx
- 统编版(部编版)语文二年级上册《八角楼上》教学设计.docx
- 北师大版小学数学三年级上册《长方形周长》教学设计.docx
- 北师大版小学数学三年级上册《丰收了》教学设计.docx
- 统编版(部编版)语文二年级上册《夜宿山寺》教学设计.docx
- 统编版(部编版)语文二年级上册《风娃娃》教学设计.docx
- 统编版(部编版)语文二年级上册《朱德的扁担》教学设计.docx
- 统编版(部编版)语文二年级上册《难忘的泼水节》教学设计.docx
- 统编版(部编版)语文二年级上册《纸船和风筝》教学设计.docx
最近下载
- 常微分方程(第4版)王高雄教材习题详解.pdf
- GB50416-2017 煤矿井下车场及硐室设计规范.docx
- 部编版《道德与法治》一年级上册第2课《拉拉手交朋友》优秀课件.pptx
- 消费者行为学(上海外国语)中国大学MOOC慕课 客观题答案.docx
- 2024年秋季新人教道德与法治一年级上册全册课件(新版教材).pptx
- 中国老年心肺复苏急诊专家共识(2024)解读PPT课件.pptx VIP
- 幼儿园中班科学《数高楼》 课件.pptx VIP
- 洗洁精中的化学科普知识(课件)小学生拓展通用版.pptx
- SONYHDRXR260E中文操作说明书.pdf
- 新注册(备案)医疗器械耗材如何加入国家医保局目录新增编码和流水号.docx
文档评论(0)