自从计算机出现后,大量的数据都存储在计算机中,尤其是今几年提出的"大数据",更是意味着存储在计算机中存储
单位达到PB级。那如何对这些数据进行处理,对于简单的需求可能只需要对数据进行统计即可。但当数据变得复杂
或有更高的需求时,就需要使用到机器学习。
这篇文章就是简单介绍对机器学习的认识。
一、什么是机器学习?
机器学习,英文名称(Machine Learning),简称ML。顾名思义,它是说机器也就是计算机像人一样进行"学习",但计算机怎么会学习呢?那首先让我们思考一下人类是怎么进行学习的,我们人类是通过对外界的知识的不断积累,包括对传授者的行为信息或书本的信息通过五官进行获取,然后大脑对信息进行处理,最后形成经验。那计算机如何进行学习呢,虽然计算机看上去计算数据很快,但其实很笨,那如何使笨笨的计算机进行学习呢?与人类学习一样,计算机使用大量已有的数据,对计算机训练出模型,并用该模型得出有用的信息。我的个人理解,机器学习是以潜在的模型将无序的数据转换成有用的信息。
二、机器学习的分类
按照常见的学习方式分类,能够将机器学习分为:监督式学习、无监督学习、半监督学习、强化学习。下面是常见的几种算法:
监督学习 | K-近邻算法、线性回归、朴素贝叶斯、SVM、决策树、Logistic回归... |
无监督学习 | K-均值、最大期望算法... |
强化学习 | TD算法、Q算法... |
三、机器学习的应用领域
机器学习已经应用于多个领域,举一个常见的例子,当你打开浏览器搜索一件商品,浏览器显示10条链接,你点击了第3条链接,搜索引擎后台就会记录你的这次点击,并从中学习以优化下次的搜索结果,当你进行下一次搜索时,可能会有上次搜索商品对应的广告或搜索结果。这其中就是典型的机器学习应用,当用户使用智能手机进行自拍时,有些手机就能进行人脸识别,锁定人的头像。机器学习应用多个领域,如改善商业决策、检测疾病、预测天气、信息安全、生物信息等。
三、机器学习与数据挖掘及大数据之间的关系
数据挖掘是指从大量数据中挖掘有趣模式和知识的过程。从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。而机器学习是数据挖掘的一种方法。数据挖掘还包含其他的诸如统计学、模式识别、数据仓库等技术。
大数据(BigData)是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据的5V特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。大数据的核心是利用数据的价值,机器学习是利用数据价值的关键技术,对于大数据而言,机器学习是不可或缺的。大数据与机器学习两者是相辅相成的关系。