• 【Spark机器学习速成宝典】基础篇01Windows下spark开发环境搭建(Python版)


    目录

      安装jdk

      安装eclipse

      安装PyDev插件

      配置Spark

      配置Hadoop

      Python代码


    配置Spark

      下载Spark

      http://spark.apache.org/downloads.html

      

      配置环境变量

      变量名:SPARK_HOME  变量值:D:spark    (不能有空格)

      

      添加到Path

     

       

      安装pyspark包:

      将spark/python中的pyspark和pyspark.egg-info拷贝到python的Anaconda2Libsite-packages目录下

      

    配置Hadoop

      无需安装完整的Hadoop,但需要hadoop.dll,winutils.exe等。根据下载的Spark版本,下载相应版本的hadoop2.7.1。 

      链接:https://pan.baidu.com/s/1jHRu9oE 密码:wdf9

      

      配置环境变量

      

      添加到Path

      

      重启计算机!!!环境变量才生效!!!

    Python代码

    # -*-coding=utf-8 -*-  
    from operator import add
    import random
    from pyspark import SparkConf, SparkContext
    sc = SparkContext('local')
    
    
    NUM_SAMPLES = 100000
    
    def inside(p):
        x, y = random.random(), random.random()
        return x*x + y*y < 1
    
    count = sc.parallelize(xrange(0, NUM_SAMPLES)) 
                 .filter(inside).count()
    print "Pi is roughly %f" % (4.0 * count / NUM_SAMPLES)
    
    '''运行结果:
    Pi is roughly 3.140160
    '''

     

  • 相关阅读:
    bzoj3110
    idea 设置系列 各种乱码
    vim 系列
    idea 神键
    简单工厂,工厂方法,抽象工厂
    log4 按包进行日志输出
    maven依赖本地宝
    kafka 理论学习
    kafka windows环境搭建 测试
    linux 查找文件的命令
  • 原文地址:https://www.cnblogs.com/itmorn/p/7943001.html
Copyright © 2020-2023  润新知