• Hive 数据库表的基本操作


    Hive 基本操作

    1. 数据库操作(增、删、改、查)

    1.1 创建数据库

    create database if not exists test_001;
    use test_001;

    说明:hive 的表存放位置模式是由 hive-site.xml 当中的一个属性指定的,默认是存放在该配置文件设置的路径下,也可在创建数据库时单独指定存储路径。

    <name>hive.metastore.warehouse.dir</name>
    <value>/user/hive/warehouse</value>

    1.2 创建数据库并指定位置

    create database test_002 location '/user/hive/warehouse/test.db';

    1.3 设置数据库属性信息

    数据库有一些描述性的属性信息,可以在创建时添加:

    create database test_003 with dbproperties('owner'='Candy_W','date'='20211101','env'='beta')

    查看数据库的键值对信息

    describle database extended test_003;

    修改数据库的键值对信息

    alter database test_003 set dbproperties('owner'='tony_W');

    1.4 查看数据库更多详细信息

    desc database extended test_003;

    1.5 查询数据库

    与mysql查询语句是一样的语法

    #查看所有数据库
    show databases;

    1.6 删除数据库

    删除一个空数据库,如果数据库下面有数据表,那么就会报错

    drop database test_003;

    强制删除数据库,包含数据库下面的表一起删除(请谨慎操作)

    drop database test_003 cascade;

    2. 数据库表操作(增、删、改、查)


    2.1 表创建语句格式(不区分大小写)

    []里的属性为可选属性,不是必须的,但是如果有可选属性,会使 sql 语句的易读性更好,更标准与规范。

    例如:[comment '字段注释信息'][comment '表的描述信息']等,[external]属性除外

    CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name(      
    column_name data_type [comment '字段注释信息']
    column_name data_type [comment '字段注释信息']
    ...
    [comment '表的描述信息']                               
    [PARTITIONED BY(column_name data_type, ...)]
    [CLUSTERED BY (column_name, column_name, ...)
    [SORTED BY(col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
    [ROW FORMAT row_format] 
    [STORED AS file_format]
    [LOCATION '指定表在 hdfs 中的存储路径']  
    )

    2.2 建表语句参数说明

    1. CREATE TABLE
    创建一个指定名字的表,如果相同名字的表已存在,则抛出异常提示:表已存在,使用时可以使用IF NOT EXISTS语句来忽略这个异常。

    如果创建的表名已存在,则不会再创建,也不会抛出异常提示:表已存在。否则则自动创建该表。

    2. EXTERNAL
    顾名思义是外部的意思,此关键字在建表语句中让使用者可以创建一个外部表,如果不加该关键字,则默认创建内部表。

    外部表在创建时必须同时指定一个指向实际数据的路径(LOCATION),Hive在创建内部表时,会将数据移动到数据仓库指向的路径;

    若创建外部表,仅记录数据所在的路径,不对数据的位置作任何改变。

    内部表在删除后,其元数据和数据都会被一起删除。
    外部表在删除后,只删除其元数据,数据不会被删除。

    3. COMMENT
    用于给表的各个字段或整张表的内容作解释说明的,便于他人理解其含义。

    4. PARTITIONED BY
    区分表是否是分区表的关键字段,依据具体字段名和类型来决定表的分区字段。

    5. CLUSTERED BY
    依据column_name对表进行分桶,在 Hive 中对于每一张表或分区,Hive 可以通过分桶的方式将数据以更细粒度进行数据范围划分。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

    6. SORTED BY
    指定表数据的排序字段和排序规则,是正序还是倒序排列。

    7. ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
    指定表存储中列的分隔符,这里指定的是'\t',也可以是其他分隔符。

    8. STORED AS SEQUENCEFILE|TEXTFILE|RCFILE
    指定表的存储格式,如果文件数据是纯文本格式,可以使用STORED AS TEXTFILE,如果数据需要压缩,则可以使用STORED AS SEQUENCEFILE。

    9. LOCATION
    指定 Hive 表在 hdfs 里的存储路径,一般内部表(Managed Table)不需要自定义,使用配置文件中设置的路径即可。
    如果创建的是一张外部表,则需要单独指定一个路径。

    2.3 Hive创建表的三种方式

    1. 使用create table语句创建表
    例子:

    create table if not exists `t_student`(
    id int,
    s_name string,
    s_age int)
    partitioned by(date string)
    row format delimited fields terminated by '\t';

    2. 使用create table ... as select...语句创建表
    例子:

    create table sub_student as select * from t_student;

    使用 create table ... as select ...语句来创建新表sub_student,此时sub_student 表的结构及表数据与 t_student 表一模一样,相当于直接将 t_student 的表结构和表数据复制一份到 sub_student 表。

    注意:
    (1). select 中选取的列名(如果是 * 则表示选取所有列名)会作为新表 sub_student 的列名。

    (2). 该种创建表的方式会改变表的属性以及结构,例如不能是外部表,只能是内部表,也不支持分区、分桶。

    如果as select后的表是分区表,并且使用select *,则分区字段在新表里只是作为字段存在,而不是作为分区字段存在。

    在使用该种方式创建时,create 与 table 之间不能加 external 关键字,即不能通过该种方式创建外部目标表,默认只支持创建内部目标表。

    (3). 该种创建表的方式所创建的目标表存储格式会变成默认的格式textfile。

    3.使用like语句创建表
    例子:

    create table sub1_student like t_student;

    注意:
    (1). 只是将 t_student 的表结构复制给 sub1_student 表。

    (2). 并不复制 t_student 表的数据给 sub1_student 表。

    (3). 目标表可以创建为外部表,即:

    create external table sub2_student like t_student;

    欢迎关注【无量测试之道】公众号,回复【领取资源】

    Python+Unittest框架API自动化、

    Python+Unittest框架API自动化、

    Python+Pytest框架API自动化、

    Python+Pandas+Pyecharts大数据分析、

    Python+Selenium框架Web的UI自动化、

    Python+Appium框架APP的UI自动化、

    Python编程学习资源干货、

    资源和代码 免费送啦~
    文章下方有公众号二维码,可直接微信扫一扫关注即可。

    备注:我的个人公众号已正式开通,致力于IT互联网技术的分享。

    包含:数据分析、大数据、机器学习、测试开发、API接口自动化、测试运维、UI自动化、性能测试、代码检测、编程技术等。

    微信搜索公众号:“无量测试之道”,或扫描下方二维码:

     

     添加关注,让我们一起共同成长!

  • 相关阅读:
    ES9新内容概括
    TensorFlow --- 01初识
    机器学习算法 --- SVM (Support Vector Machine)
    机器学习算法 --- Naive Bayes classifier
    机器学习算法 --- Pruning (decision trees) & Random Forest Algorithm
    机器学习算法 --- Decision Trees Algorithms
    机器学习算法 --- 逻辑回归及梯度下降
    机器学习算法 --- 线性回归
    机器学习基础 --- pandas的基本使用
    机器学习基础 --- numpy的基本使用
  • 原文地址:https://www.cnblogs.com/Wu13241454771/p/15619964.html
Copyright © 2020-2023  润新知