Spark之导出PMML文件（Python）

Spark之导出PMML文件（Python）
　　PMML，全称预言模型标记语言（Predictive Model Markup Language），利用XML描述和存储数据挖掘模型，是一个已经被W3C所接受的标准。PMML是一种基于XML的语言，用来定义预言模型。详细的介绍可以参考：http://dmg.org/pmml/v4-3/GeneralStructure.html。
　　本文将介绍如何在Spark中导出PMML文件（Python语言）。
　　首先我们需要安装jpmml-sparkml-package。具体的安装细节可以参考：https://github.com/jpmml/jpmml-sparkml-package。
　　1.利用Git下载JPMML-SparkML-Package project
```
git init
git clone https://github.com/jpmml/jpmml-sparkml-package.git 
cd jpmml-sparkml-package
```
如下图所示：

　　2.生成uber-JAR文件
　　将Spark的Python路径添加到环境变量
```
sudo gedit /etc/profile
export PYTHONPATH=$PYTHONPATH:$SPARK_HOME/python
source /etc/profile
```
再生成uber-JAR文件
```
mvn -Ppyspark -Dpython.exe=/usr/bin/python3.5 clean package
```
注意这里的python路径要是你自己的系统里的Python路径。耐心等待运行，运行结果如下：

这时jpmml-sparkml-package文件夹下会多出target文件夹，如下：

　　3.将上述的jpmml_sparkml-1.3rc0-py3.5.egg文件添加到Eclipse的Pydev的libraries中，如下图：

并且将上述的两个jar包复制到spark安装目录下的jars文件夹下。

这样我们就完成了所有的环境配置。接下来我们进行测试：
　　首先，我们需要数据……数据文件test_data.csv截图如下（部分）：

完整的数据集可在http://archive.ics.uci.edu/ml/datasets/Wholesale+customers找到。
　　在Eclipse中新建test_PMML项目，如下图：

其中test_pmml.py的python代码如下：
```
 1 from pyspark import SparkContext
 2 from pyspark.sql import SparkSession
 3 from pyspark.ml import Pipeline
 4 from pyspark.ml.classification import LogisticRegression
 5 from pyspark.ml.feature import RFormula
 6 from jpmml_sparkml import toPMMLBytes
 7 
 8 
 9 sc = SparkContext.getOrCreate()
10 spark = SparkSession.builder.appName("PMML Predict").config("spark.some.config.option", "some-value").getOrCreate()
11 print("Read file from /home/vagrant/......")
12 df = spark.read.csv("/home/vagrant/test_data.csv", header = True, inferSchema = True)
13 print("Reading complete.
")
14 
15 print("Processing logistic model......")
16 formula = RFormula(formula = "target ~ .")
17 logit = LogisticRegression()
18 pipeline = Pipeline(stages = [formula, logit])
19 pipelineModel = pipeline.fit(df)
20 print("Modeling complete.
")
21 
22 print("Exporting pmml file......")
23 pmmlBytes = toPMMLBytes(sc, df, pipelineModel)
24 output_rdd = sc.parallelize([pmmlBytes]) 
25 output_rdd.saveAsTextFile("pmml_Logit")
26 print("Export complete.
The end.")
```
运行结果如下：

同时会生成pmml_Logit文件夹，里面包含PMML文件part-00000，内容如下图（部分）：

这样我们就成功地导出了逻辑回归模型的PMML文件！本次分享就到这儿啦~~

参考文献：
1. PMML介绍：http://dmg.org/pmml/v4-3/GeneralStructure.html
2. 测试数据集：http://archive.ics.uci.edu/ml/machine-learning-databases/00292/
3. https://stackoverflow.com/questions/39888728/export-models-as-pmml-using-pyspark/39902676#39902676
4. https://github.com/jpmml/jpmml-sparkml-package
相关阅读:
让VS2010/VS2012添加新类时自动添加public关键字
 Unity+MVC：实现IDependencyResolver接口需要注意的地方
 ISAPI_Rewrite引起的IIS应用程序池崩溃(fatal communication error)
梦想成现实：用xUnit.net在单元测试中实现构造函数依赖注入
 Entity Framework 实践系列 —— 搞好关系单相思（单向一对一，onetoone）
在ASP.NET中运行控制台程序
 Entity Framework 实践系列 —— 搞好关系两情相悦（双向一对一）
程序员，用NuGet管理好你的包包
 想爱容易，相处难：当ASP.NET MVC爱上IoC
操作步骤：用ildasm/ilasm修改IL代码
原文地址：https://www.cnblogs.com/jclian91/p/8026353.html