• 机器学习流程,常规算法,降维方法


    1 场景解析: a.数据探查(数据量的大小,数据缺失或乱码,ETL 操作,字段类型,是否含有目标队列)

    b.场景抽象(是通过已有的数据,挖掘出可以应用的业务场景。机器学习主要用来解决的场景包括二分类、多分类、聚类和回归)

    c.算法选择(是确定算法范围、多算法尝试和多视角分析寻找最适合自身业务的算法)

    2 数据预处理:采样、去噪、归一化(0,1)和数据过滤,把数据挖掘看成做一道菜的话,数据预处   理就是选择和清洗蔬菜的过程,这一步没做好会影响整个菜品的口感.

    3.特征工程:是特征抽象(将源数据抽象成算法可以理解的数据)、特征重要性评估、特征衍生(特征衍生的方法来挖掘更有价值的特)和特征降维几个方面(主成分分析。PCA 通过线性映射投影的方法,把高维的数据映射到了低维的空间中,线性判别式分析LDA)

    时间戳,二值类问题,多值有序类问题,多值无序类问题(信息阉割),多值无序类问题(One-hot 编码),文本类型,图像或语音数据(先将图像或者语音转化成矩 阵结构).

    4.模型搭建,评估,调优
    5.结果输出和分析

    常规算法

    deep learing

    反向传播算法又称BP 算法(backpropagation algorithm),是一种监督学习算法 算法的核心思想是求导的链式法则。BP 算法常被用来求解神经网络中的最优化问题,跟 浅层算法的最优化求解不同的地方是BP 算法可以用链式法则对每一层迭代计算梯度.

    自动编码(AutoEncoder)的核心思想就是通过训练生成一个函数F,使F(x)约等于x, 也就是得到一个函数使输入和输出尽可能相等.

    对机器学习算法和深度学习常见结构有系统学习。常见算法如下:

    机器学习算法:

    分类算法:KNN,NB,LR,RF,SVM等

    聚类算法:K-means,DBSCAN

    回归算法:线性回归

    文本分析算法:分词算法Hmm,关键词提取算法TF-IDF,主题模型LDA

    推荐类算法:协同过滤CF(UCF/ICF)

    关系图算法:标签传播,最短路径

    常用的降维方法:确保向量间的独立性,减少关联 减少计算量 去噪,把对结果没有意义的或意义较小的字段去掉,减少不必要的干扰。 深度学习常见结构: 深度神经网络DNN 卷积神经网络CNN(卷积,下采样,全连接),主要对空间数据的处理,输入层格式统一。 循环神经网络RNN,常用来解决时序行为的问题。输入层格式可以不统一。

  • 相关阅读:
    学习博客 启动日记
    hystrix dashboard Unable to connect to Command Metric Stream解决办法
    iview-cli 项目、iView admin 跨域问题解决方案
    java面试题
    -bash: sdk: command not found
    Python之路径处理
    Python之简单文件操作
    Python之常用数据类型详解
    Python常用内置函数
    2015年开发业界十大技术视频排行榜
  • 原文地址:https://www.cnblogs.com/csj007523/p/8487199.html
Copyright © 2020-2023  润新知