• Weka中数据挖掘与机器学习系列之数据格式ARFF和CSV文件格式之间的转换(五)


      不多说,直接上干货!

    Weka介绍:

      Weka是一个用Java编写的数据挖掘工具,能够运行在各种平台上。它不仅提供了可以直接用于数据挖掘的软件,还提供了src代码,使用者可以修改源代码,进行二次开发。但是,由于其使用了Java虚拟机,导致其不适合处理大型数据,运行缓慢。处理超过一定大小数据,还会溢出heap size,使程序崩溃。但作为初学者,很适合通过处理一些小型数据集,以直观地了解各种数据挖掘方法。它还自带一些典型的数据集,可以直接使用。在安装目录下的data子目录中。

      Weka通常使用ARFF文件格式的文件。也可以直接使用CSV文件格式的文件,但与传统CSV文件不同,Weka能识别的CSV文件要求第一行给各列的定义。因为CSV文件比较容易获得,excel表格文件可以直接另存为csv文件。推荐使用csv文件。

      以著名数据挖掘数据集鸢尾花为例,该数据集对应的iris.csv文件应如下所示:

    sepal-length,sepal-width,petal-length,petal-width,class  
    5.1,3.5,1.4,0.2,Iris-setosa  
    4.9,3.0,1.4,0.2,Iris-setosa  
    4.7,3.2,1.3,0.2,Iris-setosa  
    4.6,3.1,1.5,0.2,Iris-setosa  

    1、使用Weka工具,将ARFF文件转换成CSV文件

      进入Explorer模块,点击界面上方的按钮“open file”打开文件选择面板,将面板下方的文件类型选择“所有文件”,找到

    iris.arff文件即可将数据导入到Explorer如下图所示。

     

       得到

     

     

     

    2、使用Weka工具,将CSV文件转换成ARFF文件

      打开Weka的Explorer界面

      

      比如,这里,我先把iris.arff拷贝到桌面去。

      然后,在preprocess->open file

      将面板下方的文件类型选择“所有文件”,找到iris.csv

     

      通过save可以将CSV文件另存为ARFF文件。格式如下图所示:

     

     

     

      成功!

  • 相关阅读:
    Visual SVN1.5以上版本下载及破解过程
    C#线程系列讲座(2):Thread类的应用
    a标签的href 和onclick
    Windows 服务快捷启动命令
    iframe 跨域自动适应高度
    修正认知:string、Empty和null三者的正确区别

    线索二叉树
    最大连续子序列
    寻找最近点对
  • 原文地址:https://www.cnblogs.com/zlslch/p/6842115.html
Copyright © 2020-2023  润新知