• Hive数据分析(二)


    数据清洗:

    一、要求

    要求将 day_id 一列中的数值清洗为真实的日期格式,可用字符串表示。

    数据 1 对应日期 2021-09-01,依次类推,15 对应日期 2021-09-15


    二、操作

    1、创建表格存放清洗后的数据:

    create table sales_y(day_id string,sale_nbr string,buy_nbr string,cnt string,round string)

    row format delimited fields terminated by ',';

    2、插入清洗后的数据:

    insert overwrite table sales_y select date_add('2021-09-00',cast(day_id as int)) as day_id,sale_nbr as sale_nbr,buy_nbr as buy_nbr,cnt as cnt,round as round from sales;

     3、查看结果

    select * from sales_y limit 10;


    三、总结

    1、DATE_ADD() 函数

    作用:向日期添加指定的时间间隔。

    语法:DATE_ADD(date,INTERVAL expr type)

    参数:

    • date 参数是合法的日期表达式

    • expr 参数是您希望添加的时间间隔。

    2、CAST()函数

    作用:用于将某种数据类型的表达式显式转换为另一种数据类型。CAST()函数的参数是一个表达式,它包括用AS关键字分隔的源值和目标数据类型。

    语法:CAST (expression AS data_type)

    参数:

    • expression:任何有效的SQServer表达式。

    • AS:用于分隔两个参数,在AS之前的是要处理的数据,在AS之后是要转换的数据类型。

    • data_type:目标系统所提供的数据类型,包括bigint和sql_variant,不能使用用户定义的数据类型。

     

  • 相关阅读:
    (办公)记事本_Linux常用的文件操作命令
    (办公)记事本_Linux的In命令
    Python、Django、Celery中文文档分享
    Python循环引用的解决方案
    Django中非视图函数获取用户对象
    在Django中使用Sentry(Python 3.6.8 + Django 1.11.20 + sentry-sdk 0.13.5)
    CentOS7安装配置redis
    CentOS7配置ftp
    CentOS7安装docker和docker-compose
    CentOS7安装postgreSQL11
  • 原文地址:https://www.cnblogs.com/znjy/p/15380139.html
Copyright © 2020-2023  润新知