1快速入门:认知数据分析
数据分析概念
- ·数据分析是什么:数据分析概念及应用场景
- ·数据分析分析什么:分析方法、应用领域
数据分析价值
- 通过数据分析发现商机:发现数据之间的关联,预测趋势
- 通过数据分析做精准营销:精准营销方案设计
- 通过数据分析做用户画像:用户画像、用户行为分析
- 通过数据分析生成数据分析报告、提供决策和业务优化支持:决策支持和业务优化
数据分析前景
- ·数据分析的成功案例:数据加载、数据清洗、数据展示、数据分析师必备技能
- ·数据分析的行业发展:数据分析行业人才需求、专门数据分析岗位需求、专门的数据分析机构
- ·数据分析师的职业发展:传统行业和互联网行业业务流程、专业技能
2材料准备:数据采集与处理
认识数据
- ·认识数据表的字段和记录:字段、记录、表
- ·使用Excel制作数据表、指定常用数据类型:数值型、字符型、一维表、二维表
获取数据
- ·使用Excel导入网站数据及文本数据:网站数据、定时刷新、自动刷新、文本导入
处理数据
- ·使用Excel进行数据清洗和筛选:数据导入、数据清理、数据筛选、条件格式、数据透视法
- ·使用Excel进行数据抽样和计算:数据抽样、AVERAGE函数、SUM函数、MAX函数、MIN函数、IF函数
- ·使用SQL实现数据操作:基础语法、表连接、普通函数、窗口函数、SQL优化
3工具准备:数据可视化工具
Tableau概述及常用操作
- ·使用Tableau进行数据加载及操作:Tableau导航、Tableau设计流程、Tableau文件类型、Tableau数据源、Tableau计算、Tableau工作表、Tableau图表
Power BI概述及常用操作
- ·使用Power BI加载数据源及塑造数据:数据加载、塑造数据
- ·使用Power BI建模数据及可视化:建模数据、可视化、图标
4案例分析:电子商务数据分析
选择数据分析核心数据
- ·如何选择核心数据:会员数据、营销数据、行业数据、交易与服务数据
掌握核心指标
- ·如何掌握核心指标:转化指标、会员指标、流量指标、运营指标、成交转化率指标
掌握核心方法
- ·常用核心方法:二八法则、排行榜分析方法
全栈数据分析师养成记
1基于python实现自动化数据分析基础
Python语法入门
- ·使用anaconda搭建Python开发环境:python、anaconda、mac、windows
- ·使用jupyter notebook 编写Python程序:变量、数据类型、运算符、数据处理和输入、分支和循环、函数
Python数据结构
- ·使用列表、字典和集合操作数据:列表、字典、集合
Python文件操作
- ·使用open、write实现文件操作:文件、open 、close、write
Python面向对象
- ·用Python实现面向对象编程:类、对象、方法、封装、继承、多态
2基于python爬虫实现数据获取和加载
网络爬虫简介
- ·爬虫原理及基本使用:爬虫协议、HTTP、HTTPS、Requests、Session、Cookie
网页基本组成与结构
- ·HTML页面组成及结构:HTML、HTML5、CSS、CSS3、JavaScript
常用爬虫库的使用
- ·使用Requests爬取数据:get、post、响应内容、请求头、响应状态码、重定向与请求历史、Cookie
- ·使用urllib爬取数据:urlopen、urlretrieve、urlcleanup、quote、urlencode
- ·使用正则表达式爬取数据:正则表达式
常用解析库的使用及数据存储
- ·使用XPath解析数据:元素和属性、XML、/、//
- ·使用BeautifulSoup解析数据:BeautifulSoup的安装、解析库的设置、BS的基本用法、对象的种类、遍历文档树和节点、各种选择器的使用
- ·使用pyquery解析数据:DOM、attrs、css
- ·实现txt、JSON、CSV等格式文件存储:json格式、数据类型、json解析、CSV文件
Ajax数据爬取及API解析
- ·AJax解析数据方法及结果提取:Ajax、Ajax解析方法、API
Scrapy框架的使用
- ·使用Scrapy爬取数据:Selector、Spider、Downloader Middleware、Item Pipeline用法、Scrapy对接Selenium、Scrapy对接Splash
3基于Python科学计算包实现数据预处理和分析
NumPy创建多维数组对象
- ·使用NumPy生成ndarray:创建ndarray、ndarray的数据类型、数据结构多维数组对象ndarray
数组的算术运算
- ·使用NumPy实现数组算术运算:NumPy数组的运算
数组的索引与切片
- ·使用NumPy对数组进行索引与切片:索引和切片、布尔索引、神奇索引
数组转置和换轴
- ·使用NumPy对数组进行转置和换轴:T、swapaxes、ufunc通用函数、利用数组进行数据处理、数学和统计方法概览、数组排序、唯一化
数组的文件输入和输出
- ·使用数组进行面向数组编程:文件的保存与读取、线性代数知识回顾、多维数组对象的内部机理、数组重塑、 数组的合并和拆分、元素的重复操作、花式索引等价函数、广播机制、ufunc高级方法、数组高级排序方法
Pandas数据结构介绍
- ·使用Pandas创建Series对象:创建Series
- ·使用Pandas创建DataFrame对象:创建DataFrame
Pandas索引对象
- ·使用Pandas创建索引对象:行索引和列索引、重建索引
Pandas基本操作
- ·使用Pandas对数据进行索引、选择和过滤:删除数据项、索引选取过滤、Ioc和iloc进行选取、整数索引
算术和数据对齐
- ·使用Pandas对数据进行算术和数据对齐:算术运算和数据对齐、DataFrame和Series的运算、函数应用和映射
排序和排名
- ·使用Pandas对数据进行排序和排: 排序和排名、汇总和描述性统计、相关系数和协方差、分类数据、用分类进行数据、分类方法、创建虚拟变量、 GroupBy高级应用、分组的时间重采样、链式编程、管道方法
数据加载及存储
- ·使用Pandas进行多种格式数据的读写: 用Pandas读取文本格式的数据。read_rsv、read_table、read_excel、read_json、read_pickle、to_pickle、 逐块读取文本数据、将数据输出到文本数据、处理分隔符
与数据库进行数据加载
- ·使用Pandas与数据库交互:数据库交互(MySQL、NoSQL)、数据库、数据表
处理缺失值及数据转换
- ·使用Pandas过滤缺失值 :处理缺失数据、过滤缺失数据
- ·使用Pandas补全缺失值:填充缺失数据
- ·使用Pandas删除重复值:去除重复数据
- ·使用函数或映射进行数据转换:函数转换数据、重命名索引、排列和随机采样
- ·使用正则表达式对数据进行操作:字符串操作、矢量化字符串函数
分层索引
- ·使用Pandas进行分层索引的实现 :层次化索引
- ·使用Pandas进行重排序和层级排序:重排与分级排序、根据级别汇总统计
- ·使用DataFrame的列进行索引:使用列作为索引
联合和合并数据集
- ·使用Pandas进行联合和合并数据集:合并数据集。索引合并、轴向连接、合并重叠数据
数据重塑与透视
- ·使用多层索引进行重塑:重塑和轴向旋转、长格式宽格式转换
4基于绘图库(Matplotlib)实现数据可视化
matplotlib API使用入门
- ·使用matplotlib绘图、设置颜色、标记和线类型 :Matplotlib API、Figure、Subplot、nrows、ncols、sharex、sharey
常用绘图展示
- ·使用matplotlib对图标进行刻度、标签、图例设置:注释、子图、图例
常用可视化工具介绍
- ·使用Pandas和seaborn绘图:折线图、柱状图、直方图、密度图、散点图
5基于聚合分组技术发现数据间的关系及价值
GroupBy机制
- ·使用字典和Series分组 :GroupBy机制、遍历各分组、函数分组
- ·使用函数分组:len、sum、min、max
- ·根据索引层级分组:asix、multiIndex
数据聚合
- ·使用Pandas实现数据透视表与交叉表:数据聚合、透视表、交叉表
6基于时间序列操作细化数据的时间展示
日期和时间数据类型及工具
- ·使用datetime实现字符串与时间类型的转换 :时间戳、时间间隔、时区、字符串与datetime互相转换
- ·时间序列基础
时间序列运算
- ·时间序列:索引、选择、子集
时区处理
- ·使用Pandas生成日期范围、频率和移位:频率和日期偏置、时区本地化和转换
时间区间和区间算术
- ·使用Pandas进行时区处理:时区区间和区间算术、区间频率转换、季度区间频率
7案例分析
电影评分数据分析
- ·涉及娱乐、金融、农业、互联网等行业真实数据,从业务流程角度进行数据分析,增强业务与技术实战能力: 数据清洗、时间序列、聚合与分组、柱状图、折线图、热力图
美国农业部食品数据分析
金融数据分析
招聘网站岗位及薪资趋势分析报告
大数据分析师晋升记
1数据仓库
HiveQL操作数据
- ·基础语法、表连接、普通函数: TINYINT 、SMALLINT、 INT 、BIGINT、 FLOAT、 DOUBLE、 BOOLEAN 、STRING、STRUCT、 MAP、 ARRAY、数据表、排序和聚集
- ·窗口函数、SQL优化: 创建表、创建分区、重命名、增加列、删除列、导入导出数据、数据查询、内连接、左外连接、右外连接、全连接、子查询、视图、内置函数、自定义函数、窗口函数、SQL优化
2数据分析方法
描述统计分析方法
- ·频数分析、集中趋势、离散程度、数据分布:频数、平均数、中位数、众数、极差、方差、标准差、变异系数、峰值、偏度
回归分析方法
- ·线性回归、逻辑回归、多项式回归、多元回归:因变量、自变量、回归线、回归系数
多元统计分析方法
- ·聚类分析、判别分析、主成分分析、因子分析: 聚类分析的思想、相似性度量、类和类的特征、距离判别、贝叶斯判别、逐步判别、主成分、总体成分、因子载荷
时间序列分析方法
- ·自回归模型、季节模型: 时间序列、时间序列分析、GNAR模型
3数据可视化
可视化工具使用(Excel)
- ·使用Excel实现数据可视化: 条形图&柱状图、饼图&环形图、单折线&双折线图、散点图&气泡图、箱线图、雷达图、组合图
可视化工具使用(Tableau)
- ·使用Tableau实现可视化
4高级数据可视化
- 瀑布图、桑基图、漏斗图、矩形树图、旭日图
- ·使用Excel、Tableau实现:绘制图表
Excel动态图表
- ·使用Excel实现:组合框控件、数据源
地图可视化
- ·使用Tableau实现:地图绘制、地图配色
echarts实现
- ·使用echarts实现常用图表:构建echarts、数据加载
5高级数据分析师实战
经营分析方法论
- ·交易分析:如何做好交易日报分析
- ·流量分析:渠道分析、流量漏斗分析
- ·用户分析:用户画像、行为分析、留存分析
行业分析方法论
- ·竞对分析:分析方法、分析内容
- ·行业动态:行业分布、行业趋势
业务分析方法论
- ·产品分析:功能迭代分析、转化率分析
- ·运营分析:活动运营分析、用户运营分析
- ·销售分析:业绩达成分析、人效分析