Linux系统与大数据应用 课件 第9章 大数据应用开发工具.ppt

Linux系统与大数据应用 课件 第9章 大数据应用开发工具.ppt

  1. 1、本文档共89页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

9.3.2Hive数据模型和查询语言CREATETABLE创建一个指定名字的表。如果相同名字的表已经存在则抛出异常用户可以用IFNOTEXIST选项来忽略这个异常。EXTERNAL关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。9.3.2Hive数据模型和查询语言LIKE允许用户复制现有的表结构,但是不复制数据。用户在建表的时候可以自定义SerDe或者使用自带的SerDe。如果没有指定ROWFORMAT或者ROWFORMATDELIMITED,将会使用自带的SerDe。在建表的时候,用户还需要为表指定列,用户在指定表的列的同时也会指定自定义的SerDe,Hive通过SerDe确定表的具体的列的数据。如果文件数据是纯文本,可以使用STOREDASTEXTFILE。如果数据需要压缩,使用STOREDASSEQUENCE。有分区的表可以在创建的时候使用PARTITIONEDBY语句。一个表可以拥有一个或者多个分区,每一个分区单独存在一个目录下。而且,表和分区都可以对某个列进行CLUSTEREDBY操作,将若干个列放入一个桶(bucket)中。也可以利用SORTBY对数据进行排序。这样可以为特定应用提高性能。9.3.2Hive数据模型和查询语言LIKE允许用户复制现有的表结构,但是不复制数据。用户在建表的时候可以自定义SerDe或者使用自带的SerDe。如果没有指定ROWFORMAT或者ROWFORMATDELIMITED,将会使用自带的SerDe。在建表的时候,用户还需要为表指定列,用户在指定表的列的同时也会指定自定义的SerDe,Hive通过SerDe确定表的具体的列的数据。如果文件数据是纯文本,可以使用STOREDASTEXTFILE。如果数据需要压缩,使用STOREDASSEQUENCE。有分区的表可以在创建的时候使用PARTITIONEDBY语句。一个表可以拥有一个或者多个分区,每一个分区单独存在一个目录下。而且,表和分区都可以对某个列进行CLUSTEREDBY操作,将若干个列放入一个桶(bucket)中。也可以利用SORTBY对数据进行排序。这样可以为特定应用提高性能。表名和列名不区分大小写,SerDe和属性名区分大小写,表和列的注释是字符串。9.3.2Hive数据模型和查询语言删除表--DropTable删除一个内部表的同时会删除表的元数据和数据。删除一个外部表,只删除元数据而保留数据。修改表结构--AlterTableAltertable语句允许用户改变现有表的结构。用户可以增加列/分区,改变serde,增加表和serde熟悉,表本身重命名。1)AddPARTITIONALTERTABLEtable_nameADDpartition_spec[LOCATIONlocation1]partition_spec[LOCATIONlocation2]...其中,partition_spec为:PARTITION(partition_col=partition_col_value,partition_col=partiton_col_value,...)9.3.2Hive数据模型和查询语言可以用ALTERTABLEADDPARTITION来向一个表中增加分区。当分区名是字符串时加引号。ALTERTABLEpage_viewADDPARTITION(dt=2008-08-08,country=us)location/path/to/us/part080808PARTITION(dt=2008-08-09,country=us)location/path/to/us/part080809;2)DROPPARTITIONALTERTABLEtable_nameDROPPARTITION(partition_col=partition_col_value,partition_col=partiton_col_value,...)可以用ALTERTABLEDROPPARTITION来删除分区。分区的元数据和数据将被一并删除(是否区分内外部表?)。ALTERTABLEpage_viewDROPPARTITION(dt=2008-0

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档