SparkSQL之更改表结构

本文篇幅较短，内容源于自己在使用SparkSQL时碰到的一个小问题，因为在之后的数据处理过程中多次使用，所以为了加深印象，在此单独成文，以便回顾。

场景

在使用SparkSQL进行数据处理时，碰到这样一种情况：需要更改DataFrame当中某个字段的类型。简而言之，就是需要更改SparkSQL的表结构。出于学习的目的，做了一个简单的Demo。下面来看看这个实例。

Example

......
......

此处省略相关jar包的引入

首先使用sparkSQL的jsonFile加载HDFS上的一个文件（此步在此直接省略了），得到如下的表结构：

scala> dfs.printSchema
root
 |-- name: string (nullable = true)
 |-- desc: string (nullable = true)
 |-- click: double (nullable = true)
 |-- view: double(nullable = true)

目的：将click和view转成的类型转成Long。

操作如下:

首先需要定义一个函数，将表内的`Double`类型转为`Long`类型，函数如下：

val toLong = udf[Long, Double](_.toLong)

然后使用withColumn变换字段类型，代码如下：

val dfs2 = dfs.withColumn("click", toLong(dfs("click"))).withColumn("view", toLong(dfs("view")))

使用printSchema查看表结构：

另一种转换方式：

dfs0306.withColumn("time",dfs0306("time").cast("Long"))

OK，一个简单的表结构变换便完成了，又get了一个小技巧。

相关阅读:
docker知识复习
记住left join最简单的方式(转)
ingress rewrite 配置文件的结构 + server_name和location这两条指令的配置来匹配要虚拟主机
PAM unable to dlopen(/lib/security/pam_limits.so): /lib/security/pam_limits.so: wrong ELF class: ELFCLASS32
iRedMail退信问题的解决(转)
curl NSS error -8179 (SEC_ERROR_UNKNOWN_ISSUER)
看进程的启动时间长度 + vmstat + jstack 应用
Nginx日志中的金矿
php-fpm参数优化
PHP扩展--opcache安装及配置

原文地址：https://www.cnblogs.com/houji/p/8794954.html