• hive的简介


    Hive  Apache的顶级项目  官网: hive.apache.org

    原来是hadoop里的一个子项目,后来脱离出来成为一个顶级项目。

    github.com/apache/hive  这是源码地址,它是开源的,你可以对其进行代码改进,提交给社区,社区采用以后会合并进代码中

    hive是一个构建在hadoop上的数据仓库

    可以理解为

    数据存在HDFS上

    执行通过MR来执行(MR(2.0过时了)spark,Tez)   (hive 可以执行在MR  Spark 和 Tez三个执行引擎之上)

    运行是在yarn上进行

    如果一个框架最终不能落地到SQL上,那么这个框架就有待选择

    总之hive就是使用sql来搞定大数据的数据分析。

    MR在运行中,多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下,MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入磁盘,会造成大量的词频IO,导致性能非常低下,此时可以考虑用Spark等迭代计算框架。

    补充:Hive CLI   hive客户端

    MySQL存着元数据,与hive之间存在单点的风险

    单点问题怎么解决

    主备是指同时存在两个MYSQL,当主挂掉以后,备用的顶上。

    hive是一个客户端,不存在集群概念

    hive和关系型数据库有什么关系

    都可以使用SQL来搞定

    速度方面,关系数据库查起来肯定快一些  hive执行sql是通过mr来执行的,速度肯定慢   时效性。注意千万不能再web界面上按一个按钮执行一个mr,让反馈回来,因为无法预知底层数据有多少,若数据了很大,可能要等十几个小时,页面就会卡在那里。

    事务、insert  updata

    schema信息解释

    在学关系型数据库时,有表,数据库,字段,字段名称,数据类型  这些就是schema

    元数据信息 

    描述数据的数据  schema是元数据的内容

  • 相关阅读:
    ES6、ES7、ES8特性
    【react】XXX项目环境搭建
    map
    vector
    list
    米勒素数模板
    POJ-2421-Constructing Roads(最小生成树 普利姆)
    HDU1301 Jungle Roads(Kruskal)
    Truck History(prime)
    phpstorm快捷键和激活
  • 原文地址:https://www.cnblogs.com/xuziyu/p/10473461.html
Copyright © 2020-2023  润新知