硬件足够硬,软件足够多,这便是一个人才能的护城河。
参考:
书名:《数据化分析 Python 实战 - 林骥 - V6.0》
本书作者(该书由作者整理,本人仅依照其内容整理出个人笔记,如果您感兴趣,可联系作者获取电子书完本):
0、概述
-
数据赋能系统
1、思维篇
1.1 数据化分析的思维
数据分析的思维,具有规律性和相对稳定性,它通常反映客观事务的本质属性。
数据分析的过程,就是在明确目标之后,通过对比等思维,找到问题的原因,得出分析的结论,提出可行的建议,从而起到帮助决策和指导行动的作用。
1.1.1 目标思维
数据分析的主要目标,是为了解决问题,其共分为三部分:1.正确定义问题、2.合理分解问题、3.抓住关键问题
1.正确定义问题
在解决问题之前,先要认清问题的本质。如果是在业务中,一定要弄明白,你想要什么。
2.合理分解问题
使用MECE原则,将问题独立划分
定义:MECE,是Mutually Exclusive Collectively Exhaustive,中文意思是“相互独立,完全穷尽”。也就是对于一个重大的议题,能够做到不重叠、不遗漏的分类,而且能够藉此有效把握问题的核心,并解决问题的方法。
原则:MECE即把一个工作项目分解为若干个更细的工作任务的方法。它主要有两条原则:第一条是完整性,说的是分解工作的过程中不要漏掉某项,要保证完整性;第二条是独立性,强调了每项工作之间要独立,每项工作之间不要有交叉重叠。
3.抓住关键问题
问题一样遵循二八法则,试着去把握不同阶段所要面对的问题。
1.1.2 对比思维
在数据分析中,没有对比,就没有结论。
对比通常有两个方向:一个纵向,是指自身不同时间的对比,比如同比及环比。一个是横向,是指与同类相比。
在对比的同时,要确保指标具有可比性,对象要具有相似性,量纲也要保持一致。
5种常见的对比思维:
- 跟目标比
- 与上月环比
- 与去年同比
- 分渠道对比
- 与同类对比:通常用体现效率的指标更加合适
1.1.3 细分思维
细分思维在解决问题的过程中,要围绕数据分析的目标,找到合适的方法,当发现数据异常时,要多问为什么,多去从不同的维度进行细分。
在数据分析中,常见的5种细分方法如下:
1.按时间细分
如果当前数据的时间维度是汇总的,那应该将其更细分,以观察到数据的变化,从而能分析出变化背后的原因。
时间维度依次分为:年、月、日、时、分、秒。
2.按空间细分
空间主要是指按地域进行划分。当然,只要有助于理解事务的本质,都可以尝试拿来进行细分。
3.按过程细分
把业务细分为一些具体的过程,往往能够让复杂的问题简单化。
4.按公式细分
对于指标类问题,可以用公式进行拆解。
5.按模型细分
比如常见的波士顿矩阵、RFM模型等
1.1.4 溯源思维
在做数据分析时,要多问为什么,追根溯源,追溯数据源的详细记录,在数据源寻找可能隐藏的逻辑关系和解决方案。
1.1.5 相关思维
相关思维,即寻找变量之间相互关联的程度,但是要记住,相关不等于因果。
运用相关思维的主要3个步骤:
1.收集相关数据
2.绘制散点图形
3.计算相关系数
1.1.6 假设思维
运用假设思维的主要3个步骤:
1.提出假设
2.统计检验
3.总结判断
1.1.7 逆向思维
常见的5种逆向思维如下:
1.结构逆向
结构逆向,即把物理的结构反过来看。
2.功能逆向
功能逆向,即把产品的功能反过来用。
3.状态逆向
状态逆向,即把事物的状态反过来看。
4.原理逆向
原理逆向,即把科学的原理反过来用。
5.方法逆向
方法逆向,把对应的方法反过来用。
1.1.8 演绎思维
演绎思维的方向是由一般到个别,即演绎的前提是一般性的抽象知识,而结论是个别性的具体知识。
演绎的主要形式是【三段论】:由大前提、小前提、结论三部分组成。
1.1.9 归纳思维
归纳思维的过程是从个别到一般。
在数据分析的过程中,通过先接触到个别事物,而后进行归纳总结,推及一般,再进行演绎推理,从一般推及个别,如果循环往复,不断积累经验。
以下是5中归纳方法(穆勒五法):
1.求同法
在多个场景中,如果只有一个条件相同,那么这个相同的条件,就是要找的原因。
2.求异法
如果某个现象的出现,取决于单个条件,那么这个条件就是要找的原因。
3.共用法
共用法,即把求同法和求异法结合起来共同使用。
具体来说,共用法包括两次求同和一次求异,即以下3个步骤:
1.正面场合求同,寻找现象出现的相同条件。
2.反面场合求同,寻找现象不出现的相同条件。
3.正反场合求异,得出数据分析的结论。
4.共变法
在其他条件不变的情况下,如果某一现象发生变化,另一现象也发生变化,则这两个现象之间可能存在因果联系。
5.剩余法
已知复合结果是由复合原因引起的,如果其中一部分原因导致一部分结果,那么剩余部分原因也会导致剩余部分结果。
1.2 数据分析的基础
1.2.1 数据分析的方法
对于数据分析方法,按研究方向进行分类如下:
1.2.1.1 产品研究
ABC分析|相关分析|对应分析|判别分析|结合分析|多维尺度分析
1.2.1.2 品牌研究
相关分析|聚类分析|判别分析|因子分析|对应分析|多维尺度分析
1.2.1.3 价格研究
相关分析|PSM价格分析
1.2.1.4 市场细分
聚类分析|判别分析|因子分析|对应分析|多维尺度分析|Logistic回归|决策树
1.2.1.5 满意度研究
相关分析|回归分析|主成分分析|因子分析|结构方程
1.2.1.6 用户研究
相关分析|聚类分析|判别分析|因子分析|对应分析|Logistic回归|决策树|关联规则
1.2.1.7 预测决策
回归分析|决策树|神经网络|时间学列|Logistic回归
1.2.2 数据分析的模型
对于数据分析模型,按维度进行分类如下:
1.2.2.1 一维线性分析模型
AARRR|AISAS|二八法则|产品生命周期|漏斗分析|RARRA|用户生命周期
1.2.2.2 二维矩阵分析模型
安索夫矩阵|BCG三四规则|波士顿矩阵|EFE|Graveyard|行业吸引力ROS/RMS|SPACE|SWOT|战略钟
1.2.2.3 多维空间分析模型
波特五力分析|KANO|PEST|RFM|SCP
1.2.2.4 其他分析模型
5W2H|ABC分类|杜邦分析|雷达图|MECE|麦肯锡七步分析法|麦肯锡7S模型|PDCA|VCA|鱼骨图
1.2.3 分析指标的5个步骤
1.确认数据源是否正确
2.判断变化的程度如何
3.数据变化的周期如何
4.变化前后发生了什么
一般数据分析的原则是:剧烈变化看政策,短期波动找内应,长期异动找外因。
5.细分纬度有哪些
1.2.4 数据分析的6个阶段
1.信息
发生了什么
2.报表
表现在什么地方
3.规则
为什么会发生
4.预警
下次会怎么出现
5.行动
总结问题
6.建议
提供建议
1.2.5 数据分析的8个状态
1.2.5.1 新的需求
利用ORID焦点讨论法(O事实,R感受,I思考,D决定),完全完整的记录新的需求,站在需求方角度,不需要任何修饰原始的需求。
1.2.5.2 需求确认
需求确认是分析任务成败的关键,针对不同的情况,应该采取不同的对策。
1.第1种情况:需求方无法清楚描述问题
需要加强沟通,主动询问具体情况,搞清楚需求方的真正意图。
2.第2种情况:需求方将很多问题混杂在一起
应用MECE原则,帮助需求方梳理业务,变成互相独立、完全穷尽的问题,总结出其中的主要矛盾和次要矛盾。
3.第3种情况:需求方无法和数据进行映射
帮助需求方,进行数据确认,提出自己的建议。
4.第4种情况:需求方提出了错误的数据需求
进行合理的沟通,指出需求本身的不当之处。
5.第5种情况:需求方无法预判可能的分析结果
指出业务和数据之间的关系,阐明数据分析的过程,让需求方理解分析结果之间存在的因果关系。
1.2.5.3 数据确认
当需求确认清楚之后,就需要确认数据源。
1.第1个问题:期望的数据没有存储
2.第2个问题:数据分散在不同的位置
3.第3个问题:数据源错误
1.2.5.4 实现需求
1.将好的经验和方法,沉淀为固定的流程步骤,实现工作的流程化。
2.实现流程的工具化。
1.2.5.5 交付需求
1.突出主要分析结论
2.交付的内容,包括文字、表格、图形等元素。文字表述要条例清洗,表格制作要标准规范,数据可视化的图形要选择合理。
1.2.5.6 复盘需求
通过复盘,加深对业务的理解,提高对价值的预判能力。
1.2.2.7 等待需求
等待数据充分和需求明确。
1.2.2.8 拒绝需求
对于无法实现的需求,要明确的予以拒绝。
1.2.6 数据分析的指标体系
指标体系的建立,包括三个阶段:
1.创建
包括确定目标,分配权重等工作。
可以用鱼骨图分解业务逻辑、战略体系等形成指标条目,用二八法则,关键业绩指标,北极星指标等进行筛选,最终找到主要考察指标。
2.运行
包括制定标准、考核评判等工作。
3.修正
包括复盘总结、修订调整等工作。
2、展现篇
在快速决策的过程中,可视化扮演了两个重要的角色:
- 探索性数据分析
- 解释性数据分析
2.1 探索性数据分析
探索性数据分析,即从数据中发现价值信息的过程,通常包括三个步骤:
- 数据清洗
- 数据建模
- 数据可视化
其重点是对数据的探索,要求能清楚的看出数据的含义,有助于继续探索,方便洞察信息即可。
2.1.1 数据清洗
略
2.1.2 数据建模
略
2.1.3 数据可视化
2.1.3.1 折线图
改进的细节:
- 将标题左对齐,让其更加符合设计的审美
- 将标题颜色换成深灰色,让观察者更加关注数据
- 删除不必要的边框和网格线,避免消耗观察者的注意力
- 只保留最大值和最小值的标记,让对比更加明显
- 去掉图例,直接在线条附近标注,避免观察者在图例和数据之间来回移动
- 显示平均线
- 去掉花花绿绿的颜色,用素色去平衡信息
- 坐标轴和标签文字淡化,让其在视觉上不与数据进行竞争
- 如果有文字,以更合理的方式显示,方便阅读
2.1.3.2 组合图
比如,将柱状图与折线图组合在一起,既能看到趋势,也能看到对比。
2.1.3.3 瀑布图
它能够较好的体现数据分析的对比思维和细分思维。
2.1.3.4 矩阵图
横坐标代表过去与未来,纵坐标代表现实与理想。
2.1.3.5 子弹图
通过对比,可以有效地引起人的注意,提到很好的分析效果。
2.1.3.6 柱形图
注意,要让观察者聚焦于关键信息的本身。
2.1.3.7 气泡图
气泡图在散点图的基础上进行扩展,用气泡的大小来展现第三个变量。
2.1.3.8 斜率图
斜率图,其优势在于快速看到每个类别前后发生的变化,并能根据线条的陡峭程度,直观地感受到变化的幅度。
2.1.3.9 条形图
条形图的变种,还有堆叠条形图,用于展示不同类别之间的占比数据。
2.1.3.10 箱线图
箱线图,主要用于反映数据的分布特征,可以看出数据的对称性和分散度等信息。
2.1.3.11 散点图
散点图,主要用于发现变量之间的关系。
2.1.3.12 雷达图
使用多边形来展示数据的多种维度,发现维度之间的差距。
2.1.3.13 帕累托图
帕累托图,助力于发现问题的关键,通过对各种原因进行优先级排序,逐级分析,最终确定根本原因。
2.1.3.14 面积图及热力地图
2.2 解释性数据分析
解释性数据分析,即将洞察到的信息进行解释,构思数据可视化的逻辑,设计美观的图表并加以修饰,目的是为了让读者快速理解信息,让信息传递更加有效。
2.2.1 使用图表需要考虑以下几个因素
- 分析提炼的信息
- 所属数据的类型
- 想要表达的观点
- 想要强调的信息
2.2.2 数据分析的3个层级
- 是什么
- 为什么
- 怎么办
2.2.3 数据分析报告,要考虑受众
- 对于高层领导:尽量不用专业术语,重点突出数据分析的结论和建议
- 对于业务人员:尽量少用专业术语,重点突出分析结果对业务的价值
- 对于专业领导:可以适当使用专业术语,重点突出技术的深度和广度
2.2.4 数据分析报告,分4种场景
2.2.4.1 首次分析报告
首次分析报告,需要尽量详细,应该把分析的背景、过程、方法、结论、建议等信息都写清楚,让读者对目前业务情况进行熟悉。
2.2.4.2 常规分析报告
当相关分析报告已经变成常规工作的时候,数据变化的趋势相对比较稳定,则只要重点关注异常情况即可。
2.2.4.3 问题分析报告
当业务出现问题的时候,数据分析报告需要尽量抓住问题的本质,在提示风险的是同时,有必要补充一些相关的细节,其重心是让读者明白,想要解决这个问题,应该采取哪些行动。
2.2.4.4 总结分析报告
总结分析报告,是业务的阶段性总结。
首先应该把握整体基调,明白想要表达的内容:
- 想表达做得好?
- 想表达有问题?
然后再补充相关细节,比如:
- 好的经验有哪些?
- 问题的原因是什么?
- 未来需要注意些什么?
2.2.5 数据分析报告的5类问题
2.2.5.1 是多少
要知道数据指标的定义,然后去提取相应的数据,保证数据的准确性后,对相关数据进行展示。
2.2.5.2 好不好
要根据判断标准,确认相关结论。
2.2.6.3 为什么
找到因果关系后,先假设,后求证,最终找到数据背后的原因。
2.2.6.4 会怎样
在对业务熟悉的前提下,根据历史数据和业务逻辑,预测未来趋势。
2.2.6.5 怎么办
思考未来的情况,在理解业务的基础上,提出切实可行的行动建议,使读者能够做出正确的决策。
2.2.6 数据分析报告的6个步骤
2.2.6.1 明确目标
要正确的定义问题、合理的分解问题、抓住关键的问题。
梳理出分析思路,搭建分析框架:
- 采用哪些分析指标?
- 运用哪些分析思维?
- 使用哪些分析工具?
2.2.6.2 数据收集
收集的数据包括原始数据和二手数据:其中原始数据包括公司内部的数据库、 调查得到的数据等;二手数据包括统计局发布的数据、公开出版物中的数据等。
数据收集的基本要求是:真实性、及时性、同质性、完整性、经济性和针对性。
2.2.6.3 数据处理
数据处理主要包括数据清洗、数据转化、数据抽取、数据合并、数据计算等过 程,原始数据一般都需要经过一定的处理,才能用于后续的数据分析工作。
数据处理的基本要求:合适性、一致性、有效性和准确性。
2.2.6.4 数据分析
略
2.2.6.5 数据可视化
略
2.2.6.6 结论建议
一份好的数据分析报告,需要有明确的结论建议,这个可行的解决方案,是整份报告的灵魂。
2.2.7 数据分析报告的7个模块
2.2.7.1 标题封面
标题一般要符合SPA原则:
- 简单明确Simple
- 利益相关Profit
- 准确客观Accurate
在数据分析报告的标题封面页,可以注明报告的制作者、所在单位或部分、完成日期等信息。
2.2.7.2 目录导航
目录主要是将报告的各个模块呈现给读者,方便读者快速了解和查找报告的内容,起到一种导航的作用,让读者在看报告的过程中不迷路。
相应的目录导航如下:
- 背景说明
- 思路方法
- 结论建议
- 分析正文
- 产品分析
- 价格分析
- 渠道分析
- 促销分析
- 顾客关联
- 市场反应
- 关系营销
- 利益回报
- 附录
1.背景说明
背景说明页,一般用于阐述项目需求、分析目的、市场情况、前提假设、概念定义、适用范围、数据来源等,以便让读者知道项目的前因后果,了解分析报告的 严谨性和数据来源的可靠性。
为了让背景说明更具有吸引力,可以采用讲故事的 SCQA 模式:
(1)描述情景 Situation
(2)引发冲突 Complication
(3)提出问题 Question
(4)给予解答 Answer
2.思路方法
思路方法页,是为了便于读者理解报告的逻辑线索,可以包括分析的理论和框 架、研究方法、算法模型等等。
3.结论建议
结论建议页,要经常放在分析正文的前面,如果能更加快速的传递有效信息,那就是在创造价值。
结论建议一定要简明扼要、抓住重点,得出的结论一定要严谨慎重、有理有据,给出的建议一定要合情合理、能落地执行,应该注意 3 个要点:
(1)搞清楚要建议的对象;
(2)符合业务的实际情况;
(3)不要回避不好的结论。
4.分析正文
分析正文通常是数据分析报告中篇幅最长的模块,包括用来支持结论建议的论据和论证,
按照4P和4R营销理论,可以将分析正文细分为8个部分:
一般符合金字塔原理,采用「总 - 分 - (总)」的结构。
构建金字塔结构的 4 个原则:
(1)论:结论先行,强调的是一次表达一定要有清晰明确的结论,一次表达只支持一个核心观点或中心思想,并且要放在开头的位置; (2)证:以上统下,强调上下层级之间的论证关系,上一层结论是对下一层 信息的概括和总结,下一层信息则是对上一层结论的解释和说明;
(3)类:归类分组,强调分类的重要性,把具有相似性或相互关联的信息要按照一定的标准进行分类,归为同一个逻辑范畴;
(4)比:逻辑递进,强调同一层次、同一组信息之间要进行比较,同一逻辑范畴的信息必须按照一定的逻辑顺序进行排列。
5.附录封底
附录中可以包含关键代码、元数据、参考文献等,以便让分析过程更加透明化,保证分析结果的可追溯性。
封底页还可以展示版权等信息,也可以配上一张美观的图片,写一些感谢之类的话。