• scikit-learn——快速入门


    scikit-learn——快速入门

    sklearn 快速入门

    环境:

    • ubuntu 12.04, 64 bits
    • python 2.7
    • sklearn 0.14

    好几个月没有发博客了,平时的笔记都随意记在印象笔记中。现在闲着有空,把 sklearn 的基本模型学一学。实际上 scikit-learn 的学习材料非常非常齐全,建议英文好的同学直接看官方文档

    准备

    sklearn 快速入门的官方文档在这里。这个文档主要描述机器学习的概念,以及如何加载数据训练模型保存模型

    这里提供另外一个更加详细的材料,这份材料基于ipython notebook,可以在浏览器里运行代码,功能强大,演示效果非常好,github下载地址。如果电脑上没有安装git,请参考这篇博客进行设置。

    • 将材料下载到本地:
      git clone git@github.com:jakevdp/sklearn_pycon2013.git
      
    • 安装 ipython-notebook
      sudo easy_install "ipython>=0.13" jinja2 "tornado>=3.1.0" pyzmq
      sudo apt-get install ipython-notebook
      
    • 打开材料
      cd PATH/TO/sklearn_pycon2013/notebook
      ipython notebook --pylab inline
      

      --pylab inline 参数可以使 notebook 在浏览器里面直接画图效果

    数据

    sklearn 中的数据一般存放为二维数组,形状为 [n_samples, n_feartures]。比如著名的 iris 数据集(鸢尾花)包含了三种类别的花(target),共 150 组数据(samples),每组数据由 4 个特征组成,具体来说就是:萼片的长度、萼片的宽度、花瓣的长度、花瓣的宽度。那么,iris 数据集的 data 就由 150*4 的二维数组组成。

    sklearn 提供了很多数据集,一类比较小,直接打包在库中,可以通过 datasets.load_ + Tab 来查看,另一类比较大,需要下载,可以通过 datasets.fetch_ + Tab 查看,下载的目录可以通过sklearn.datasets.get_data_home()查看。

    更详细的信息请参考 notebook 中的 02_sklearn_data.ipynb 文件。

    接口

    创建一个机器学习的模型很简单:

    from sklearn.linear_model import LinearRegression
    model = LinearRegression()
    print model
    

    所有模型提供的接口有:

    • model.fit(): 实际上就是训练,对于监督模型来说是 fit(X, y),对于非监督模型是 fit(X)。

    监督模型提供:

    • model.predict(X_new): 判别新样本
    • model.predict_proba(X_new): 某些模型可以输出概率,比如 LR,上一个输出的就是概率最大的 target
    • model.score(): 得分越高,fit 越好

    非监督模型提供:

    • model.transform(): 从数据中学到新的“基空间”。
    • model.fit_transform(): 从数据中学到新的基并将这个数据按照这组“基”进行转换。

    下面这个图展示了这些接口在机器学习模型中的位置:

     

    更多信息请查看 ipython notebook 文档中的内容。

  • 相关阅读:
    文艺平衡树
    [BJOI2010] 严格次小生成树
    BZOJ3864 hero meet devil
    [NOI2010]能量采集(莫比乌斯反演)
    陌上花开(三维偏序)(cdq分治)
    树状数组套trie 模板
    SDOI2010粟粟的书架
    OI计算几何 简单学习笔记
    OI知识点|NOIP考点|省选考点|教程与学习笔记合集
    悬线法学习笔记
  • 原文地址:https://www.cnblogs.com/daniel-D/p/3700830.html
Copyright © 2020-2023  润新知