• Spark学习笔记


    1、map与flatmap函数的区别;

    map的结果不改变输入每个数据元的结构;

    flatmap的结果,将每一个输入数据元经过计算后的结果都平铺了,其输出不再是对应每一个输入元数据结构;

    2、textFile()函数中,第一个参数是文件路径;第二个可选参数,是控制文件的partitions的参数,默认值是1;

    (1)所有spark中基于文件的输入函数,包括textfile,都可以运行在多个目录/压缩文件/正则匹配文件上。例如:textFile("/my/directory"),textFile("/my/direct*")textFile("/my/directory/*.txt"), and textFile("/my/directory/*.gz").

    (2)spark中通过使用sc.textFile(“不同filepath”)等输入函数,可以构成多个不同的输入rdd,作为多输入源;

           还可以通过使用for循环等操作,分别赋值作为输入源路径参数,非常方便读取多个文件、目录、大量数据;

    3、rdd是可以用"++""union"合并的,不过需要合并的两个对象类型相同;

    4、reduceByKey与reduce的区别:

    (1)reduceByKey是转化操作,reduce是行动操作;

    (2)reduceByKey只能操作kv数据集,reduce则不是;

    5、正如 .toString 可以将记录转为string类型一样,.toDS() 则可以将sequence数据转化为数据集(或者说数据表)的形式;类似的还有.toDF(),是将数据转换为关系数据表的函数;然后才可以使用spark SQL;

    6、spark中job,stage,task的区别和划分依据:

    (1)spark运行过程中job是以action操作划分的,除了我们自己写的程序的action动作,还包括调用的算法或者工具包里的action操作;

    (2)stage是在job里面划分,是以action操作或shuffle操作划分的;

    (3)task是stage的运行单位,与partition的数目相关;

  • 相关阅读:
    Enum和ViewState的相互转换
    【FAQ】「この Web ページがクリップボードへアクセスするのを許可しますか?」というダイアログボックスが表示される
    读取系统联系人
    二维码的生成
    android两种基本联网方式与一种第三方开源项目的使用
    读取系统短信息
    给FLASH做外部超链接
    stdafx.h
    编写程序,输出用户输入的两个数中的较大者。
    C++中的虚函数(转)
  • 原文地址:https://www.cnblogs.com/zichun-zeng/p/5250592.html
Copyright © 2020-2023  润新知