• Spark入门(一)--用Spark-Shell初尝Spark滋味


    Spark-Shell的使用

    执行scala命令的spark-shell

    进入spark的sbin目录,打开键入

    ./spark-shell
    

    即可进入spark-shell的目录

    spark-shell运行过程从上层来看,每一个spark应用都是由驱动器程序发起集群上的并行操作,在spark-shell中驱动器程序就是spark-shell本身。驱动器通过SparkContext对象来访问spark。事实上在shell启动时就创建了一个SparkContext的对象,其变量是sc,通过shell来查看sc如下

    通过sc来读取文件:

    hello文件中的内容为

    u'you,jump
    i,jump
    you,jump
    i,jump
    u,jump
    

    我们在命令行键入

    val lines = sc.textFile("/spark/hello”)
    lines.count()
    lines.first()
    

    这里注意到,由于我的sapark是在hadoop集群环境下的,所以这里完整的目录可以理解成hdfs:///spark/hello。

    以上这条命令,就把spark目录下hello文件装载到sc当中,但事实上,由于spark的懒加载,此时的文件只有在被操作时才会真正被读取,即lines.count()和lines.first()被执行时,才回去读取内容

    执行python命令的spark-shell

    当然我们也可以用进入执行python命令的spark-shell。方法如下 进入spark的sbin目录,打开键入

    ./pyspark-shell
    

    通过python-shell统计hadoop文件目录下的 /spark/hello文件,如下

    lines = sc.textFile('/spark/hello’)
    lines.count()
    lines.first()
    

    结果如下:

    到这里我们的spark-shell就算是正常执行,其中

    读取/spark/hello文件:

    lines = sc.textFile('/spark/hello’)
    

    获取总行数:

    lines.count()
    

    第一行内容:

    lines.first()



    转自:https://juejin.im/post/5c73dee0518825628c30f1d0

  • 相关阅读:
    Jmail组件发送邮件说明ASP.NET
    五种常见的ASP.NET应用程序安全缺陷
    按比例生成缩略图
    光盘自动运行HTML页,Autorun文件写法
    页面全屏显示JS代码
    除去内容中的HTML代码方法
    JS函数学习(2)
    JS学习变量与基本语法(1)
    C#中Math.Round()实现中国式四舍五入
    (2) EFCore数据库上下文和模型(数据表)的配置
  • 原文地址:https://www.cnblogs.com/tjp40922/p/12177908.html
Copyright © 2020-2023  润新知