• 学习进度笔记16


    《机器学习十讲》第一讲

    一、大数据:数据采集、数据清洗、数据分析和数据应用的整个流程中的理论、技术和方法。

    机器学习:大数据分析的核心内容。找到将X和Y关联的模型F。

    深度学习:机器学习的一部分,核心是自动找到对特定任务有效的特征,即自动完成Data到X的转换。

    二、机器学习的方法

    1、有监督学习

    数据集中的样本带有标签(Y),有明确目标(找到最佳映射F);回归和分类。

    一般流程:

    2、无监督学习

    数据集中的样本没有标签,没有明确目标;聚类、降维、排序、密度估计、关联规则挖掘。

    3、强化学习

    智慧决策的过程,通过过程模拟和观察来不断学习,提高决策能力。

    智能体agent;环境environment;状态state;行动action;奖励reward。

    三、模型选择

    1、交叉验证:重复使用数据

    2、K折交叉验证

    四、数据的数学结构

    1、度量结构

    举例:根据词频计算文章相似度

    K近邻算法

    k-d树

    2、网络结构

    PageRank算法

    3、Scikit-learn

    基本建模流程

    常用函数

    案例1:使用KNN对新闻主题进行自动分类

    1、数据读取:pandas

    2、数据分词:jieba

    3、将新闻表示为向量

    4、构建KNN分类器

    5、测试集预测

    6、效果评估:混淆矩阵

    案例2:使用PageRank对全球机场进行排序

    1、网络读取:networkx

    2、找出最大连通子图,可视化

    3、使用PageRank算法对机场排序

    4、将节点大小与PageRank值关联并可视化

  • 相关阅读:
    bootstrap的portlet组件框框的应用 (点击可伸缩)
    jQuery.trim() 函数及trim()用法详解
    针对谷歌浏览器Chrome的CSS hack
    CSS-如何禁用a标签
    textarea中文本前总是空2格,写入数据库也是
    JNI编程实现(Windows)
    JNI编程实现(Linux)
    FastDFS安装步骤
    iOS离屏渲染之优化分析
    Nginx入门案例(Mac版)
  • 原文地址:https://www.cnblogs.com/songxinai/p/14335307.html
Copyright © 2020-2023  润新知