• 机器学习第一讲


    第一讲:介绍

    1.学习大数据原因:

    数据源∶非结构化数据(语音、视频、文本、网络数据)

    模型和计算能力∶深度学习、GPU、分布式系统

    广泛的应用场景∶营销、广告、金融、交通、医疗等

    2.公式

    Data Data:数据 X︰表示、特征、指标

    F︰模型

    Y : 智慧,也即预测任务或目标 Y =F(X)

    大数据是指数据采集、清洗、分析和应用的整个流程中的理论、技术和方法。

    机器学习是大数据分析的核心内容。由XY找到F。

    深度学习是机器学习的一部分,其核心是自动找到对特定任务有效的特征,也即自动完成Data到X的转换。

    3.方法

    有监督学习( supervised learning ) 数据集中的样本带有标签,有明确目标。

    应用场景∶垃圾邮件分类、病理切片分类、客户流失预警、客户风险评估、房价预测等。

    典型方法:

    回归模型:线性回归、岭回归、LASSO和回归样条等

    分类模型:逻辑回归、K近邻、决策树、支持向量机等

    无监督学习( unsupervised learning ) 数据集中的样本没有标签,没有明确目标 聚类、降维、排序、密度估计、关联规则挖掘

        聚类:将数据集中相似的样本进行分组,使得同一组对象之间尽可能相似;不同组对象之间尽可能不相似。
      应用场景:基因表达水平聚类、篮球运动员划分、客户分析。

    强化学习( reinforcement learning ) 智慧决策的过程,通过过程模拟和观察来不断学习、提高决策能力。

    4.基本概念

    数据集:一组样本的集合。 样本∶数据集的一行。一个样本包含一个或多个特征,此外还可能包含一个标签。 特征:在进行预测时使用的输入变量。

    训练集:用于训练模型的数据集 测试集:用于测试模型的数据集 模型∶建立数据的输入x和输出y之间的映射关系y = f()。

    损失函数:L(yi, f(xi))例如,对回归问题可以定义为(f(xi)一 yi)^2。image-20210126152755608

    一般流程(有监督):

    过度拟合:模型过于复杂,会导致对位置数据预测很差。解决方式:正则化.

    数据选取:交叉验证、K折交叉验证。

    交叉验证:基本想法是重复地使用数据。将数据集随机切分,将切分的数据集组合为训练集和测试集,在此基础上反复进行训练,测试和模型选择。

    5.数学结构

    度量、网格、代数、几何等结构。

    ①度量结构:

    距离:曼哈顿、欧式、极大距离。

    方法:K近邻。

    ②网格结构:有度量结构定义一个网格结构。表示为G=<V,E>V:节点 E:边

    例如两个样本的距离小于某个阈值,就连一条边。 也可以进一步将边赋予权重,权重就是两个样本的相似度。

    算法:PageRank算法

     

     

  • 相关阅读:
    正睿提高组2017模拟题三T1
    数位dp【转载】
    正睿提高组2017模拟题二T2
    【树状数组二维区间加+区间查询模板】bzoj3132
    【树状数组区间加+区间查询模板】洛谷P3372
    51Nod
    CodeForces 631E Product Sum
    CodeForces
    [不知道哪来的题] 完美理论
    CodeForces
  • 原文地址:https://www.cnblogs.com/dwx8845/p/14332197.html
Copyright © 2020-2023  润新知