• 10月7日


    测试题目:

    1、数据导入:

       要求将样表文件中的(AA_GXJSQYDC2019)数据导入HIVE数据仓库中。

    分别将四个标准维度表导入数据仓库中。

    2、数据清洗:

       根据标准维度将国民经济行业维度、地域维度、高新技术领域维度、企业所属领域维度四个维度字段清洗完成。

    3、数据可视化展示:

       尝试按照某一维度实现数据下钻展示。(例如地域维度,按照市——县两级展示)

    今天的测试题目,我不知道怎么用hive去做多表的数据清洗我按步骤尽量完成

    导入原始表

    1.

    create table hb(id string,QA04  string,QA05 string,QA07  string,QA15 string,QA19 string,QB string,QB03 string,QB03ONE string,QB03TWO string,QB03_1 string,QB06 string,QB16J string,QB16V string,QB16 string,QB16_1 string,QB16_1V string,QC02 string,QC05_0 string,QC24 string,QC40 string,QD01 string,QD28 string,QJ09 string,QJ20 string,QJ55 string,QJ74 string,QA string,SYEAR string)Row format delimited fields terminated by ',';

    2.

    load data local inpath '/opt/software/apache-hive-2.3.9-bin/211.csv' into table hb;

    导入行政地区划分代码表

    3.

    create table pl(pid string,pname string,pxx string)Row format delimited fields terminated by ',';

    load data local inpath '/opt/software/apache-hive-2.3.9-bin/xingzheng.csv' into table pl;

    导入企业维度划分表

    4.

    create table qy(qyid string,qywd string)Row format delimited fields terminated by ',';

    load data local inpath '/opt/software/apache-hive-2.3.9-bin/qiyeweidu.csv' into table qy;

    5.关联行政地区表

    elect hb.id ,hb.QA04,hb.QA19,

    concat(pl.pid,pl.pname) as  ppname

        from hb join pl on hb.QA19=pl.pid ;

     

    6.

    关联企业维度表

     

    7.关联两个表

     

  • 相关阅读:
    start with connect by prior 递归查询用法(二)
    start with connect by prior 递归查询用法(一)
    oracle之spool详细使用总结
    关于ETL面试相关
    ETL常用的三种工具介绍及对比Datastage,Informatica和Kettle
    Oracle执行计划详解
    随机函数的使用(DBMS_RANDOM)
    oracle中的替换函数replace和translate函数
    ces
    文章11
  • 原文地址:https://www.cnblogs.com/buyaoya-pingdao/p/14553463.html
Copyright © 2020-2023  润新知