• 【数据分析方法论】一个非专业出身的人如何学习数据分析?


    一、背景


    出身互联网运营岗位,专业电商,熟悉MySQL(一年亲密接触工作经验,体验过各种姿势气人的数据需求。但要自己对事务数据库进行计算的,经常是写一大堆逻辑,其实只为取几个值而已,还得换着维度写——同一指标不同维度计算逻辑有时无法合在一起),无数次苦于折腾工具,无数次感叹分析框架有问题,该咋整?

    二、定位


    2.1 关于数据这一行有很多职位,不说别的, 仅是密切相关的,就有业务数据分析师、数据科学家、数据工程师。

    • 纯业务/商业数据分析师(BA)是完全的咨询师设定,核心价值在分析框架+报告;
    • 纯数据科学家是完全的算法设定,核心价值在算法+数学;
    • 纯数据工程师是完全的程序员设定,核心价值在程序(当然还有前端的职位)。
    • 其他还有建模分析师、数据架构师、数据产品等,不谈。

    2.2 市场需求

    而事实上,

    • 纯商业数据分析师的职位很少,这种职位基本在投资部门、市场营销部门;
    • 纯数据科学家的则是专注于某一类方法,例如图像识别、语音识别、个性化推荐、搜索排序等等;
    • 纯数据工程师主要是JAVA语言等,一系列的还有建模师,前端控件可视化、数据产品等。
      ——市场上数据分析的工作其实更偏向商业分析师+机器学习+可视化+运营/营销的结合。
    虽然我号称想做全栈分析师,一会儿摸摸数仓,一会儿摸摸Hadoop,一会儿摸摸Tableau,一会儿摸摸咨询管理,一会儿摸摸统计学,一会儿摸摸运营,一会儿摸摸数据挖掘... ...
    是的,就是这么贪心,就是这么多。
    天知道,心比天高的我,摔得有多么疼。
    

    看看实际的招聘JD:
    同城-数据分析
    可以看到职责描述里,
    第一条和第二条,就是管理KPI数据,清楚定义和价值链以便定位原因;
    第三条,需要有一套分析框架形成指标体系,并能不断迭代升级;
    第四条,不仅是运营,还需要一些产品、营销方面的分析框架;
    第五条,就是实际的分析项目了。
    再看看任职要求,
    第一条,需要习惯数据分析流程,调研-取数-分析-报告;
    第二条,sql和Hive,以及常见数据清洗和转换技巧;
    第三条,excel,作图、函数、透视表;
    第四条,spss/sas/r/python/matlab会其中一种;
    第五条,了解基础统计方法、常用数据挖掘方法、数据建模;
    第六条,软技能,沟通、协调、业务理解、逻辑思维等;
    第七条,数学、统计学、信息管理、计算机专业等。

    再看一条小公司的招聘JD:
    拉勾-数据分析
    岗位职责上没太大区别,加了一条可视化。
    再看看岗位要求,
    第一条,专业就不说了;
    第二条,熟悉大数据知识,熟悉常见数据分析和处理方法,质量控制,熟练使用MySQL和tableau;
    第三条,软技能,就不说了。
    相比上一个JD,少了数据挖掘相关,多了个tableau。

    其实这些反映国内互联网行业的现状:

    1. 缺乏成体系的分析框架,急需咨询师帮助量化分析
    我们看很多运营材料会听到讲什么产品运营、内容运营等等,但看完了并没有什么用。
    因为落到实地的量化指导并没有,光表面形式,底层指标该怎么定义以及是怎么影响很多人并不知道,更主要的是影响因素很复杂,只能很粗略的量化。
    
    1. 就算想量化,也没有好的建模师支持
    我们可能想,这指标应该是怎么定义的,怎么怎么产生的,但是你没办法灵活拿到数据啊。靠数据分析师自己去写?不自动化,累不死你。
    对建模的重视不够,或者建模师能力不够。
    
    1. 数据质量管理意识特别弱(特别是数据库里)
    你是一个好数据分析师,你有很大的抱负。
    你碰到一个专题分析,你巴巴地绞尽脑汁想出一个你认为perfect的分析框架。
    你准备把指标填到框架里,嗯,有俩指标应该怎么怎么算。
    好的,你准备找相关汇总字段看看应该咋写SQL命令。
    然后,,,啥?没有首次创建时间?连会话ID都没有?我去,这个汇总表有毛用,就光记录每天第一条咨询人是谁,被咨询人是谁,咨询时间是啥时候。算每天每月的咨询数吗?
    关键我们的场景是购买前会咨询,购买中会咨询,购买后还会咨询啊?这样算每天每月咨询数,,这,这只能算虚荣指标吧,这应该叫吞吐量的意思吧,这叫我怎么分析新咨询用户为啥不购买?我都没法区分出新用户来。
    好吧,我去事务数据库自己计算,计算,,,好吧,跑不动,再见。
    当然,还有更多的对于指标定义太扯淡的就更别说了,完全没有分析的意愿。
    
    1. 不同公司数据化状态差异
    小公司只有存事务性的数据库(大部分是MySQL),定几个大而泛的指标定时执行出个报表就不错了;
    中型公司采用第三方BI数据,提供一定ETL功能,自己建模,可视化很酷(Tableau、power bi等), 这样已经能解决很多问题,主要是分析框架和建模问题;
    更好一点的公司自建数仓或者直接上Hadoop,方便数据分析方便数据挖掘。
    

    所以市场需求是:

    1. 分析框架,分析框架,分析框架
    数据分析师主要任务之一是管理指标体系,互联网指标的管理通常依赖价值树和价值链,以及路径;
    任务之二是专题分析(包括异常问题监测),这要求熟悉指标体系+熟悉业务+依旧是分析框架。
    分析框架包括管理咨询、市场营销、思维等,还需要参考互联网运营、产品、市场营销组织分析框架,比如常见的用户行为分析、用户画像、会员管理、流量分析,商品定价等。
    
    1. 业务知识
    所有分析都是建立在业务知识上,对业务都不了解,谈毛线分析框架。分析框架从来不是拿来即用的,多多少少要根据情况组合多种分析框架或者更改分析框架。
    另外,如果进入一个新行业,首先,找到暴利的有前景的;然后,花一个星期时间利用麦肯锡七步分析法+其他分析框架+调查公司环境了解哪些公司值得去。别浪费时间在成长慢甚至倒退的环境内。
    
    1. Excel
    掌握常用函数,透视表,作图。
    其实我极其不喜欢excel作图,调起来烦死。就是电脑配置不太好,不然power bi组件也是溜溜的,不用卡到放弃。
    
    1. SQL(有Hadoop的需要了解HQL或SparkSQL;有些小公司甚至不要求SQL,so sweet)
    这个就不用说多了。数据分析师看select就行了,了解SET,distinct,group by,having,order by,in,not exists(有时比子查询快很多的),子查询(尽量少用),left join(要知道小表驱动大表的原则),再懂一些常用函数如max,min,sum,avg,date_add,date,now()(经常结合date_add函数创造昨天,前一周,前一月等,省得改时间)就差不多了。最后是explain,看看查询效率慢怎么优化一下。
    
    1. 统计方法
    最常用的就是描述性统计,基本都会;再就是时间序列预测,毕竟,没有目标就没有什么任务可言。再就是相关性、主成分分析有些用,其他如假设检验等一般用得不多。
    
    1. 常用数据挖掘方法(有些小公司不要求)
    常见也就是聚类、关联、神经网络、决策树大概这些。
    
    1. SPSS、Python、R、SAS(至少会一种)
    SPSS操作简单,可以跟统计一起学。
    更进一步,我偏向学Python,毕竟,基本的数据挖掘Python都能完成,而Python还有更多好用的模块。
    SAS一般是金融、银行行业用的多,互联网哪有那么多钱上SAS。
    
    1. 可视化Tableau等(有这要求的相对少一些,还有用其他BI工具,但大同小异,所以一般会一种就差不多了)
    这些工具对数据建模的理解有一定帮助,而且,学完会完全厌弃excel的绘图。
    用一段时间Tableau后完全厌弃其他所有绘图(当然我也没接触多少工具),不过R或Python的自定义功能强啊。
    
    1. 数仓和Hadoop组件等(适当了解)
    2. MongoDB(有些公司加分)
    偶尔关注这方面内容时,确实在提到MongoDB的比较多。只知到是文档型数据库,具体存取机制也不太清楚,后续有时间看资料。
    
    1. 后续就是真正数据科学家的路和更深入的分析框架

    三、学习路径


    1. 分析框架(除了管理咨询市场营销,多看看运营、产品、营销分析项目的资料)
    2. SQL(已具备,还有Hive,后续有空总结)
    3. 统计分析方法和SPSS(时间序列、主成分、假设检验等后续总结)
    4. 数据挖掘结合Python学习(主要跟着做项目,并学习Python语法)
    5. Tableau(基本用起来没问题,后续有空总结)
    6. 数仓、Hadoop、NoSQL等(看过一些资料,大概明白一些,后续有空总结)

    统计分析方法和SPSS(时间序列、主成分、假设检验等后续总结)+(多看看运营、产品、营销分析项目的资料)+数据挖掘结合Python学习(主要跟着做项目,并学习Python语法)

    四、数据分析师的未来在哪里


    居安思危,没有一个职业是常青树。
    数据分析是近两年流行起来的,其实我认为,数据分析是随着“运营”这个职业的热门而流行起来的。

    • 2000年的时候,做个网站就能赚钱,也就是程序员的世界;
    • 2015年,移动互联网和创业热潮让产品经理这个职位火了起来;
    • 今年,市面上的app已经层出不穷,有那种“市面上能看到的商业机会都被占了”的感觉。当然商业机会不会没有,只是还没发现而已。但能看到的商业机会已经有很多竞争者了,另一方面消费者越来越“大爷”了,所以运营和数据分析就得到展现了(事实上产品和营销也与数据分析更紧密了)。

    再往后发展,什么职业将更热门,什么职业又会消亡呢?
    ——不知道。不过,商业总是有的,有商业的地方,就有分析。再不行,往数据科学家或数据工程师走啊,起码,还有个机器人维修工的工作:)

    Without summary,you can't master it.
  • 相关阅读:
    大道至简第四章读后感
    进度条08
    大道至简第五章读后感
    加密算法
    程序从命令行接收多个数字,求和之后输出结果。
    用JAVA制作简单登录窗口
    进度条07
    冲刺07
    冲刺06
    冲刺05
  • 原文地址:https://www.cnblogs.com/everda/p/8135072.html
Copyright © 2020-2023  润新知