• 在Hive中使用Avro


    作者:过往记忆 | 新浪微博:左手牵右手TEL | 
    可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明
    博客地址:
    文章标题:
    本文链接:
    Hadoop、Hive、Hbase、Flume等QQ交流群:138615359(已满),请加入新群:149892483

    本博客的微信公共帐号为:iteblog_hadoop,欢迎大家关注。
    如果你觉得本文对你有帮助,不妨分享一次,你的每次支持,都是对我最大的鼓励

    如果本文的内容对您的学习和工作有所帮助,不妨支付宝赞助(wyphao.2007@163.com)一下


      Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting牵头开发。Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro提供的机制使动态语言可以方便地处理Avro数据。
      在Hive中,我们可以将数据使用Avro格式存储,本文以avro-1.7.1.jar为例,进行说明。

      如果需要在Hive中使用Avro,需要在$HIVE_HOME/lib目录下放入以下四个工具包:avro-1.7.1.jar、avro-tools-1.7.4.jar、 jackson-core-asl-1.8.8.jar、jackson-mapper-asl-1.8.8.jar。当然,你也可以把这几个包存在别的路径下面,但是你需要把这四个包放在CLASSPATH中。

      为了解析Avro格式的数据,我们可以在Hive建表的时候用下面语句:

    01 hive> CREATE EXTERNAL TABLE tweets
    02     > COMMENT "A table backed by Avro data with the
    03     >        Avro schema embedded in the CREATE TABLE statement"
    04     > ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
    05     > STORED AS
    06     > INPUTFORMAT  'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
    07     > OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
    08     > LOCATION '/user/wyp/examples/input/'
    09     > TBLPROPERTIES (
    10     >    'avro.schema.literal'='{
    11     >        "type""record",
    12     >        "name""Tweet",
    13     >        "namespace""com.miguno.avro",
    14     >        "fields": [
    15     >            { "name":"username",  "type":"string"},
    16     >            { "name":"tweet",     "type":"string"},
    17     >            { "name":"timestamp""type":"long"}
    18     >        ]
    19     >   }'
    20     > );
    21 OK
    22 Time taken: 0.076 seconds
    23  
    24 hive> describe tweets;                                                            
    25 OK
    26 username                string                  from deserializer  
    27 tweet                   string                  from deserializer  
    28 timestamp               bigint                  from deserializer

    然后用Snappy压缩我们需要的数据,下面是压缩前我们的数据:

    01 {
    02    "username""miguno",
    03    "tweet""Rock: Nerf paper, scissors is fine.",
    04    "timestamp"1366150681
    05 },
    06 {
    07    "username""BlizzardCS",
    08    "tweet""Works as intended.  Terran is IMBA.",
    09    "timestamp"1366154481
    10 },
    11 {
    12    "username""DarkTemplar",
    13    "tweet""From the shadows I come!",
    14    "timestamp"1366154681
    15 },
    16 {
    17    "username""VoidRay",
    18    "tweet""Prismatic core online!",
    19    "timestamp"1366160000
    20 }

    压缩完的数据假如存放在/home/wyp/twitter.avsc文件中,我们将这个数据复制到HDFS中的/user/wyp/examples/input/目录下:

    1 hadoop fs -put /home/wyp/twitter.avro  /user/wyp/examples/input/

    然后我们就可以在Hive中使用了:

    1 hive> select * from tweets limit 5;;
    2 OK
    3 miguno  Rock: Nerf paper, scissors is fine. 1366150681
    4 BlizzardCS  Works as intended.  Terran is IMBA. 1366154481
    5 DarkTemplar From the shadows I come!    1366154681
    6 VoidRay Prismatic core online!  1366160000
    7 Time taken: 0.495 seconds, Fetched: 4 row(s)

    当然,我们也可以将avro.schema.literal中的

    01 {
    02    "type""record",
    03    "name""Tweet",
    04    "namespace""com.miguno.avro",
    05    "fields": [
    06       {
    07          "name""username",
    08          "type""string"
    09       },
    10       {
    11          "name""tweet",
    12          "type""string"
    13       },
    14       {
    15          "name""timestamp",
    16          "type""long"
    17       }
    18    ]
    19 }

    存放在一个文件中,比如:twitter.avsc,然后上面的建表语句就可以修改为:

    01 CREATE EXTERNAL TABLE tweets
    02     COMMENT "A table backed by Avro data with the Avro schema stored in HDFS"
    03     ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
    04     STORED AS
    05     INPUTFORMAT  'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
    06     OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
    07     LOCATION '/user/wyp/examples/input/'
    08     TBLPROPERTIES (
    09         'avro.schema.url'='hdfs:///user/wyp/examples/schema/twitter.avsc'
    10     );

    效果和上面的一样。本博客文章除特别声明,全部都是原创!

    尊重原创,转载请注明: 转载自过往记忆(http://www.iteblog.com/)
    本文链接地址: 《在Hive中使用Avro》(http://www.iteblog.com/archives/1007)

    转自http://www.iteblog.com/archives/1007

  • 相关阅读:
    洛谷 P1934 封印
    洛谷 P2426 删数
    洛谷 P3399 丝绸之路
    SQL SERVER镜像配置,无法将 ALTER DATABASE 命令发送到远程服务器实例的解决办法
    Step7:SQL Server 多实例下的复制
    Step6:SQL Server 数据变更时间戳(timestamp)在复制中的运用
    Step5:SQL Server 跨网段(跨机房)FTP复制
    Step4:SQL Server 跨网段(跨机房)复制
    Step3 SQL Server 通过备份文件初始化复制
    Step2:SQL Server 复制事务发布
  • 原文地址:https://www.cnblogs.com/xd502djj/p/4089644.html
Copyright © 2020-2023  润新知