介绍:
我们将机器学习定义为一组能够自动检测模式数据的方法,然后利用未发现的模式来预测未来的数据,或者在不确定的情况下执行各种决策(例如计划如何收集更多的数据)!
大数据分析和人工智能已经成为整个社会发展最主要的基础推动力,两者的基础都是机器学习。大数据分析火热的深刻原因
·数据源︰非结构化数据(语音、视频、文本、网络数据)
·模型和计算能力∶深度学习、GPU、分布式系统
. 广泛的应用场景∶营销、广告、金融、交通、医疗等
大数据:
是指数据采集、数据清洗、数据分析和数据应用的整个流程中的理论、技术和方法。
机器学习:
是大数据分析的核心内容。机器学习解决的是找到将X和Y关联的模型F,从Data到X的步骤通常是人工完成的(特征工程)。
深度学习:
是机器学习的一部分,其核心是自动找到对特定任务有效的特征,也即自动完成Data到X的转换。如果我们的任务Y是模拟人类(自动驾驶、围棋AlphaGo )的行为,则这类任务称为人工智能。深度学习也是目前Al中的核心技术。
机器学习方法分类:
有监督学习( supervised learning )
●数据集中的样本带有标签,有明确目标
●回归和分类
无监督学习( unsupervised learning )
●数据集中的样本没有标签,没有明确目标
聚类、降维、排序、密度估计、关联规则挖掘
强化学习( reinforcement learning ),
智慧决策的过程,通过过程模拟和观察来不断学习、提高决策能力
例如: AlphaGo
典型方法
●回归模型:线性回归、岭回归、L ASSO和回归样条等
●分类模型:逻辑回归、K近邻、决策树、支持向量机等
案例:
使用KNN对新闻主题进行自动分类:
使用PageRank对全球机场进行排序: