• ml in action part 1


    1. 分类

    前两部分主要探讨监督学习(supervisedieaming )

    目标变量:标称型和数值型 

    标称型目标变量的结果只在有限目标集中取值,如真与假、动物分类集合{ 爬行类、鱼类、哺乳类、两栖类、植物、真 菌 } ;数值型目标变量则可以从无限的数值集合中取值,如 0.10042.001、〗000.743等 

    前七章主要研究分类算法

    机器学习:就是把无序的数据转换成有用的信息

    监督学习:分类和回归,知道预测什么,有目标变量的分类信息

    1)机器学习的主要任务就是分类。

    测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据

    2)另一项任务是回归,它主要用于预测数值型数据

    无监督学习:无类别,无目标值

    聚类:将数据集合分成由类似的对象组成的多个类的过程 

    密度估计 :寻找描述数据统计值的过程 

    1.2 应用程序步骤

    1 )收集数据。 制作网络爬虫从网站上抽取数据 ,公共源等

    2 )准备输入数据 。数据格式处理

    3)分析输入 数 据 ,确保没有垃圾数据

    4)训 练 算 法 ,无监督略过

    5) 测 试 算 法 

    6 ) 使 用 算 法

    1.3 Python

    SciPy和NumPy 等许多科学函数库都实现了向量和矩阵操作

    绘图工具Matplotlib协同工作。Matplotlib可以绘制2D30图形

    缺点:性能问题

    NumPy, 矩阵处理

    randMat = mat(random.rand(4,4))

    randMat.I  求逆

    安装:

    https://pypi.python.org/pypi/setuptools下载setuptools-34.3.0.zip,解压到python目录下Scripts目录中,cd到该目录下,执行python setup.py来安装easy_install,安装完成,执行easy_install.py pip,此时pip应该安装好了,可以把该目录C:python27Scripts也添加到环境变量

    python安装目录 python -m pip install numpy

    验证:from numpy import *

    2. k-邻近算法,kNN

    测量不同特征值之间的距离方法进行分类

    优 点 :精度高、对异常值不敏感、无数据输入假定。
    缺点:计算复杂度高、空间复杂度高。
    适用数据范围:数值型和标称型。

    原理:样本集中每个数据都存在标签,即我们知道样本集中每一数据
    与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的
    特征进行比较,然后算法提取样本集中特征最相似数据(最 近 邻 )的分类标签

    1)电影分类

    使 用 P y th o n 导 入 数 据 ,createDataSet
    从文本文件中解析数据 ,classify

    2)dating people 分类

  • 相关阅读:
    Android中的httpclient框架发送get请求
    成员函数的重载&&隐藏&&覆盖
    子墨庖丁Android的ActionBar源代码分析 (一)实例化
    Hadoop2.x介绍与源代码编译
    NFS 服务器的配置
    tftp 服务器的配置
    LINUX内核及应用程序移植工作
    u-boot 移植工作目录
    Linux 下工作用户及环境
    zless
  • 原文地址:https://www.cnblogs.com/yuanming/p/8423499.html
Copyright © 2020-2023  润新知