• 如何成为一名数据科学家


    来源:知乎live @北冥乘海生 笔记

    大数据问题本质:

    数据来源:行为数据  

    应用特质:自动化应用  

    问题特点:全量加工

    自动化应用 - 洞察应用(数据->机器->机器决策,数据->人->人决策)

    行为数据:数据量大

     

    大数据的产品链条和问题:

    1. 收集:什么样的数据有价值?如何收集整理?
    2. 加工:如何把数据加工成有用的信息?
    3. 变现:通过什么样的产品,能够把数据变成钱?
    4. 交易:数据资产如何交易?存在哪些问题?

     

    2016年11月20日

    11:03

    对大数据的理解:

    底层:技能->我应该准备好哪些能力?

    中层:产品->大数据都能做些什么?市场上是怎么做的?

    上层:本质->什么是大数据?怎样利用大数据?

     

    数据科学家的必备素质
      1.   机器学习的原理和方法

    1. 领域知识的深刻认识
    2. 分布式计算的使用能力

    (工程师需要更深层的理解,数据科学家会用就行)

     

    数据科学家的核心能力:

    1. 统计学的基本准则
    2. 机器学习的建模能力(有意识,实践中获取)

     

    数据科学家的养成途径:

    上层:意识->数据优先于经验、计算优先于人工

    中层:能力->熟悉一项典型应用、定义问题目标能力

    底层:技能->机器学习、最优化、分布式计算、编程语言、博弈论

     

    零基础应该如何做起?

    1. 了解行业:对数据产业的全链条、主要应用、核心铲平、市场现状有具体充分的了解
    2. 打好基础:熟练掌握机器学习、最优化、分布式编程等基本能力
    3. 抓住实践机会:找到工业界实际问题,在工程实践中检验和提高自己

     

    大数据的典型应用

    应用

    搜索

    广告

    推荐

    征信

    工具

    日志数据

    内容数据

    日志数据:浏览过哪些信息?搜了什么词?买了什么东西?

    内容数据:网站中内容是什么?

     

     

    推荐书籍:

    数据行业概论:  大数据时代(建立基本的认识)

    数据行业实战:  计算广告、推荐系统实战 (中间产品层)

    数据相关技能:

    机器学习:PRML、Deep Learning

    最优化: Convex Optimization、 Numeriacal Optimization(最强调)

    分布式计算: Hadoop/Spark 各种书籍和MOOC (实践为主)

     

     

  • 相关阅读:
    Android:CheckBox控件
    Android:RadioGroup,RadioButton
    Android:ImageView控件显示图片
    Spark:reduceByKey函数的用法
    HIve:beeline终端上在输错hive语句时,无论 Backspace还是delete 都删除不掉错误的语句,没有办法退格
    orchard-1.9.2-1.10.2汉化
    Hive:表1inner join表2结果group by优化
    hive:某张表进行分页
    hive:创建索引
    Android:后台给button绑定onClick事件、当返回项目到手机页面时提示是否退出APP
  • 原文地址:https://www.cnblogs.com/topW2W/p/6082471.html
Copyright © 2020-2023  润新知