• Spark之导出PMML文件(Python)


      PMML,全称预言模型标记语言(Predictive Model Markup Language),利用XML描述和存储数据挖掘模型,是一个已经被W3C所接受的标准。PMML是一种基于XML的语言,用来定义预言模型。详细的介绍可以参考:http://dmg.org/pmml/v4-3/GeneralStructure.html。
      本文将介绍如何在Spark中导出PMML文件(Python语言)。
      首先我们需要安装jpmml-sparkml-package。具体的安装细节可以参考:https://github.com/jpmml/jpmml-sparkml-package。
      1.利用Git下载JPMML-SparkML-Package project

    git init
    git clone https://github.com/jpmml/jpmml-sparkml-package.git 
    cd jpmml-sparkml-package

    如下图所示:
    Git下载JPMML-SparkML-Package

      2.生成uber-JAR文件
      将Spark的Python路径添加到环境变量

    sudo gedit /etc/profile
    export PYTHONPATH=$PYTHONPATH:$SPARK_HOME/python
    source /etc/profile

    再生成uber-JAR文件

    mvn -Ppyspark -Dpython.exe=/usr/bin/python3.5 clean package

    注意这里的python路径要是你自己的系统里的Python路径。耐心等待运行,运行结果如下:

    生成uber-JAR文件
    这时jpmml-sparkml-package文件夹下会多出target文件夹,如下:

    target文件夹
      3.将上述的jpmml_sparkml-1.3rc0-py3.5.egg文件添加到Eclipse的Pydev的libraries中,如下图:

    在Eclipse设置libraries
    并且将上述的两个jar包复制到spark安装目录下的jars文件夹下。

    复制jar包
    这样我们就完成了所有的环境配置。接下来我们进行测试:
      首先,我们需要数据……数据文件test_data.csv截图如下(部分):

    test_data.csv截图(部分)
    完整的数据集可在http://archive.ics.uci.edu/ml/datasets/Wholesale+customers找到。
      在Eclipse中新建test_PMML项目,如下图:

    test_PMML项目
    其中test_pmml.py的python代码如下:

     1 from pyspark import SparkContext
     2 from pyspark.sql import SparkSession
     3 from pyspark.ml import Pipeline
     4 from pyspark.ml.classification import LogisticRegression
     5 from pyspark.ml.feature import RFormula
     6 from jpmml_sparkml import toPMMLBytes
     7 
     8 
     9 sc = SparkContext.getOrCreate()
    10 spark = SparkSession.builder.appName("PMML Predict").config("spark.some.config.option", "some-value").getOrCreate()
    11 print("Read file from /home/vagrant/......")
    12 df = spark.read.csv("/home/vagrant/test_data.csv", header = True, inferSchema = True)
    13 print("Reading complete.
    ")
    14 
    15 print("Processing logistic model......")
    16 formula = RFormula(formula = "target ~ .")
    17 logit = LogisticRegression()
    18 pipeline = Pipeline(stages = [formula, logit])
    19 pipelineModel = pipeline.fit(df)
    20 print("Modeling complete.
    ")
    21 
    22 print("Exporting pmml file......")
    23 pmmlBytes = toPMMLBytes(sc, df, pipelineModel)
    24 output_rdd = sc.parallelize([pmmlBytes]) 
    25 output_rdd.saveAsTextFile("pmml_Logit")
    26 print("Export complete.
    The end.")

    运行结果如下:

    运行结果
    同时会生成pmml_Logit文件夹,里面包含PMML文件part-00000,内容如下图(部分):

    生成的PMML文件(部分)
    这样我们就成功地导出了逻辑回归模型的PMML文件!本次分享就到这儿啦~~



    参考文献:

    1. PMML介绍:http://dmg.org/pmml/v4-3/GeneralStructure.html
    2. 测试数据集:http://archive.ics.uci.edu/ml/machine-learning-databases/00292/
    3. https://stackoverflow.com/questions/39888728/export-models-as-pmml-using-pyspark/39902676#39902676
    4. https://github.com/jpmml/jpmml-sparkml-package
  • 相关阅读:
    让VS2010/VS2012添加新类时自动添加public关键字
    Unity+MVC:实现IDependencyResolver接口需要注意的地方
    ISAPI_Rewrite引起的IIS应用程序池崩溃(fatal communication error)
    梦想成现实:用xUnit.net在单元测试中实现构造函数依赖注入
    Entity Framework 实践系列 —— 搞好关系 单相思(单向一对一,onetoone)
    在ASP.NET中运行控制台程序
    Entity Framework 实践系列 —— 搞好关系 两情相悦(双向一对一)
    程序员,用NuGet管理好你的包包
    想爱容易,相处难:当ASP.NET MVC爱上IoC
    操作步骤:用ildasm/ilasm修改IL代码
  • 原文地址:https://www.cnblogs.com/jclian91/p/8026353.html
Copyright © 2020-2023  润新知