• spark的RDD如何转换为DataFrame


    1、Dataset与RDD之间的交互

            Spark仅支持两种方式来将RDD转成Dataset。第一种方式是使用反射来推断一个RDD所包含的对象的特定类型。这种基于反射的方式会让代码更加地简洁,当你在编写一个Spark应用程序的时候,如果你已经了解该schema,这种方式就很适用。

            第二种方式是通过一个编程接口来创建一个schema,然后将其作用于一个已经存在的RDD,从而创建出一个Dataset,尽管这种方式不太简洁,但它允许你即使在程序运行之前不知道列和类型,你仍然能创建一个Dataset。

    2、使用反射推导schema

            scala提供给Spark SQL的接口支持自动将一个包含case class的RDD转成DataFrame,这个case class必须定义了表的schema,case class中的参数通过反射读取进来就成了列名,class class可以嵌套或者包含一些复杂的类型,比如sequence、Array等。这个RDD可以隐式地转换成一个DataFrame并且注册成一张表,该表可以使用SQL进行查询。

  • 相关阅读:
    html的入门——从标签开始(2)
    Idea快捷键
    Java_core复习
    gitblit重置管理员密码【gitblit】
    使用命令创建git仓库
    Windows平台下搭建自己的Git服务器【gitblit】
    python笔记
    代码整洁之道
    Vue学习02
    Vue学习01
  • 原文地址:https://www.cnblogs.com/hanhaotian/p/10457510.html
Copyright © 2020-2023  润新知