• 为什么统计学家、机器学习专家解决同一问题的方法差别那么大?


    为什么统计学家、机器学习专家解决同一问题的方法差别那么大?

    作者:

    乍一看,机器学习和统计似乎是非常相似的,大家几乎不强调这两个学科之间的差异。机器学习和统计有着相同的目标 ——它们都关注数据建模,但他们的使用方法却因为它们文化的差异而截然不同。为了能够更好的协作和知识创新,了解这两个学科在文化轮廓上的差异还是很有必要的。为了能更好的了解这些不同,我们需要回头来看看它们的历史根源。

    本文由数盟-龙猫编译,欢迎转载,请注明以下信息,非常感谢~

    文章出处:数盟社区

    文章链接:为什么统计学家、机器学习专家解决同一问题的方法差别那么大?

    原文出处:Why a Mathematician, Statistician, & Machine Learner Solve the Same Problem Differently

    机器学习和统计简史

    1946年,第一台计算机系统ENIAC研制成功,带来了巨大的变革性——使用机器进行数值计算(而不是手动使用铅笔和纸进行数值计算)。那个时候的人们的想法是人类的思考(人力资本投入)和学习方式可以转化成逻辑格式放到机器上运行。

    在上世纪50年代,阿兰·图灵,人工智能(AI)的父亲,提出了一个测试方法,以衡量机器在学习和表现上像一个人的程度。在接下来的十年里,弗兰克·罗森布莱特在康奈尔航空实验室提出了感知器的概念。这个革命性概念的中心思想是感知类似于线性分类。他指出通过大量的感知器我们可以创建一个强大的网络模型,这就是我们现在所熟知的神经网络。

    机器学习的研究发展到现在,已经成为一个高精尖的电脑工程师为之努力的领域,他们在努力探索机器是否可以学习和模仿人类大脑。机器学习如今被应用于发现数据中的价值,使用在数不清的应用中。

    统计领域大约起始于十七世纪的中期。这门学科发展的中心思想是测量实验和观测科学中的不确定性,这就是概率论的基础。从一开始,统计学提供的工具不仅是为了“描述”现象,更重要的是“解读”现象。

    有趣的是,啤酒对统计学的发展有深远的影响。这个领域中的一个基本概念:t统计量,就是由一个化验师提出的,他以此来解释大批量的吉尼斯啤酒在都柏林、爱尔兰两地售卖量的差异。t统计量和其他概念一起促进了结构化数学理论的发展,以此给出了明确的定义和法则。统计学家们开发出了大量的工具便于人们使用,提高了人们观测、排列、预测和采样的能力。

    所不同的是文化

    捕捉现实世界中的现象就是在处理不确定的事情。要做到这一点,统计学家必须理解所研究数据的潜在分布,并找出参数来提供预测。统计学家的目标就是预测有一定规律的一系列变量的相互作用(我们不可能100%确定任何事情)。在另一领域,机器学习专家则建立起一套算法,能准确的预测、分类和聚类。他们不关注不确定性和假设,而是通过持续学习的方式来提高结果的准确度。

    下面的截图展示了机器学习和统计学家在处理方式上的文化差异:

    Screen-Shot-on-2015-08-26-at-12-30-04-1200x869
    我们为什么要关心这些差异?

    看数据精华,关注数盟微信

    weixin

    为了更好,更明智的决策

    深入了解这两个学科之间的文化和专业术语的差异将带来更高效的沟通。而更好的沟通肯定会带来更好的协作,这将改善团队的决策。

    很多时候,统计学或机器学习的专业人士会认为其他人也是一样思考的问题的。彼得·诺维格,谷歌研究部主管,曾经做过一个适得其反的实验。

    诺维格同一位斯坦福大学的统计学家合作,他们想要证明统计学家、数据科学家和数学家有着同样的思考方式。他们猜想,如果这些人收到同样的数据集,然后独立处理,最后统一返回结果,会发现大家都使用了相同的方法。于是,他们搞到了一个非常大的数据集,并共享给了他们事先选好的人员。

    结果,数据科学家使用了整个数据集,并建立了一个复杂的预测模型。

    统计学家把数据集的1%抽样,抛弃了其他部分,并验证出了数据满足一定的假设。

    数学家,信不信由你,甚至都没有看数据集。却证明了能够(在理论上)施加到数据上的各种公式的特性。

    这个实验未能证明人们在数据领域中以同样的方式工作,却让人们意识到,如果这些学科的人们想要一起工作,沟通是多么的重要。

    缩小差距

    了解同你说话的人,并了解他们的文化背景,可以充分扩展我们的知识面,甚至灵活运用专业领域之外的方法。这就是“数据科学”这个概念本身,其目的就是在弥补这个缺口。这两个有趣的同样以数据驱动的学科:机器学习和统计,他们之间的良好协作与沟通,才能使我们做出更好的决策,最终会对我们的工作方式产生积极的影响。

    关于作者:
    Nir Kaldero is the Director of Data Science and the Head of Galvanize Experts, Galvanize, Inc,. Nir also serves on the Faculty of the Master’s of Science in Data Science, powered by the University of New Haven.

    Dr. Donatella Taurasi is a lecturer and a Scholar at Haas School of Business and the Fung Institute For Engineering Leadership in Berkeley, and at Hult International Business School in San Francisco.

  • 相关阅读:
    QQ第三方登录(二)
    QQ第三方登录(一)
    Nginx防盗链
    TP-网页静态化
    TP5实现邮件发送(PHP 利用QQ邮箱发送邮件「PHPMailer」)
    docker安装elasticsearch和head插件
    git的安装方法
    ELK elasticsearch 因磁盘爆满导致无法 FORBIDDEN/12/index read-only / allow delete (api)
    vmware 系统网络发生变化后,本机安装的vmware无法通过客户端工具连接上的问题解决
    docker 容器视图工具portainer简单使用记录
  • 原文地址:https://www.cnblogs.com/yymn/p/4789698.html
Copyright © 2020-2023  润新知