• 数据分析整体知识点架构(转载)


    1快速入门:认知数据分析

              数据分析概念

    • ·数据分析是什么:数据分析概念及应用场景
    • ·数据分析分析什么:分析方法、应用领域

             数据分析价值

    •  通过数据分析发现商机:发现数据之间的关联,预测趋势
    •  通过数据分析做精准营销:精准营销方案设计
    •  通过数据分析做用户画像:用户画像、用户行为分析
    •  通过数据分析生成数据分析报告、提供决策和业务优化支持:决策支持和业务优化

             数据分析前景

    • ·数据分析的成功案例:数据加载、数据清洗、数据展示、数据分析师必备技能
    • ·数据分析的行业发展:数据分析行业人才需求、专门数据分析岗位需求、专门的数据分析机构
    • ·数据分析师的职业发展:传统行业和互联网行业业务流程、专业技能

    2材料准备:数据采集与处理

             认识数据

    • ·认识数据表的字段和记录:字段、记录、表
    • ·使用Excel制作数据表、指定常用数据类型:数值型、字符型、一维表、二维表

             获取数据

    • ·使用Excel导入网站数据及文本数据:网站数据、定时刷新、自动刷新、文本导入

             处理数据

    • ·使用Excel进行数据清洗和筛选:数据导入、数据清理、数据筛选、条件格式、数据透视法
    • ·使用Excel进行数据抽样和计算:数据抽样、AVERAGE函数、SUM函数、MAX函数、MIN函数、IF函数
    • ·使用SQL实现数据操作:基础语法、表连接、普通函数、窗口函数、SQL优化

    3工具准备:数据可视化工具

            Tableau概述及常用操作

    • ·使用Tableau进行数据加载及操作:Tableau导航、Tableau设计流程、Tableau文件类型、Tableau数据源、Tableau计算、Tableau工作表、Tableau图表

             Power BI概述及常用操作

    • ·使用Power BI加载数据源及塑造数据:数据加载、塑造数据
    • ·使用Power BI建模数据及可视化:建模数据、可视化、图标

    4案例分析:电子商务数据分析

            选择数据分析核心数据

    • ·如何选择核心数据:会员数据、营销数据、行业数据、交易与服务数据

           掌握核心指标

    • ·如何掌握核心指标:转化指标、会员指标、流量指标、运营指标、成交转化率指标

           掌握核心方法

    • ·常用核心方法:二八法则、排行榜分析方法

                                                       全栈数据分析师养成记

    1基于python实现自动化数据分析基础

             Python语法入门

    • ·使用anaconda搭建Python开发环境:python、anaconda、mac、windows
    • ·使用jupyter notebook 编写Python程序:变量、数据类型、运算符、数据处理和输入、分支和循环、函数

            Python数据结构

    • ·使用列表、字典和集合操作数据:列表、字典、集合

            Python文件操作

    • ·使用open、write实现文件操作:文件、open 、close、write

           Python面向对象

    • ·用Python实现面向对象编程:类、对象、方法、封装、继承、多态

    2基于python爬虫实现数据获取和加载

           网络爬虫简介

    • ·爬虫原理及基本使用:爬虫协议、HTTP、HTTPS、Requests、Session、Cookie

          网页基本组成与结构

    • ·HTML页面组成及结构:HTML、HTML5、CSS、CSS3、JavaScript

          常用爬虫库的使用

    • ·使用Requests爬取数据:get、post、响应内容、请求头、响应状态码、重定向与请求历史、Cookie
    • ·使用urllib爬取数据:urlopen、urlretrieve、urlcleanup、quote、urlencode
    • ·使用正则表达式爬取数据:正则表达式

          常用解析库的使用及数据存储

    • ·使用XPath解析数据:元素和属性、XML、/、//
    • ·使用BeautifulSoup解析数据:BeautifulSoup的安装、解析库的设置、BS的基本用法、对象的种类、遍历文档树和节点、各种选择器的使用
    • ·使用pyquery解析数据:DOM、attrs、css
    • ·实现txt、JSON、CSV等格式文件存储:json格式、数据类型、json解析、CSV文件

          Ajax数据爬取及API解析

    • ·AJax解析数据方法及结果提取:Ajax、Ajax解析方法、API

         Scrapy框架的使用

    • ·使用Scrapy爬取数据:Selector、Spider、Downloader Middleware、Item Pipeline用法、Scrapy对接Selenium、Scrapy对接Splash

    3基于Python科学计算包实现数据预处理和分析

         NumPy创建多维数组对象

    • ·使用NumPy生成ndarray:创建ndarray、ndarray的数据类型、数据结构多维数组对象ndarray

         数组的算术运算

    • ·使用NumPy实现数组算术运算:NumPy数组的运算

         数组的索引与切片

    • ·使用NumPy对数组进行索引与切片:索引和切片、布尔索引、神奇索引

        数组转置和换轴

    • ·使用NumPy对数组进行转置和换轴:T、swapaxes、ufunc通用函数、利用数组进行数据处理、数学和统计方法概览、数组排序、唯一化

        数组的文件输入和输出

    • ·使用数组进行面向数组编程:文件的保存与读取、线性代数知识回顾、多维数组对象的内部机理、数组重塑、 数组的合并和拆分、元素的重复操作、花式索引等价函数、广播机制、ufunc高级方法、数组高级排序方法

         Pandas数据结构介绍

    • ·使用Pandas创建Series对象:创建Series




    • ·使用Pandas创建DataFrame对象:创建DataFrame

        Pandas索引对象

    • ·使用Pandas创建索引对象:行索引和列索引、重建索引

        Pandas基本操作

    • ·使用Pandas对数据进行索引、选择和过滤:删除数据项、索引选取过滤、Ioc和iloc进行选取、整数索引

         算术和数据对齐

    • ·使用Pandas对数据进行算术和数据对齐:算术运算和数据对齐、DataFrame和Series的运算、函数应用和映射

         排序和排名

    • ·使用Pandas对数据进行排序和排: 排序和排名、汇总和描述性统计、相关系数和协方差、分类数据、用分类进行数据、分类方法、创建虚拟变量、 GroupBy高级应用、分组的时间重采样、链式编程、管道方法

        数据加载及存储

    • ·使用Pandas进行多种格式数据的读写: 用Pandas读取文本格式的数据。read_rsv、read_table、read_excel、read_json、read_pickle、to_pickle、 逐块读取文本数据、将数据输出到文本数据、处理分隔符

        与数据库进行数据加载

    • ·使用Pandas与数据库交互:数据库交互(MySQL、NoSQL)、数据库、数据表

        处理缺失值及数据转换

    • ·使用Pandas过滤缺失值




:处理缺失数据、过滤缺失数据
    • ·使用Pandas补全缺失值:填充缺失数据
    • ·使用Pandas删除重复值:去除重复数据
    • ·使用函数或映射进行数据转换:函数转换数据、重命名索引、排列和随机采样
    • ·使用正则表达式对数据进行操作:字符串操作、矢量化字符串函数

       分层索引

    • ·使用Pandas进行分层索引的实现

:层次化索引
    • ·使用Pandas进行重排序和层级排序:重排与分级排序、根据级别汇总统计
    • ·使用DataFrame的列进行索引:使用列作为索引

       联合和合并数据集

    • ·使用Pandas进行联合和合并数据集:合并数据集。索引合并、轴向连接、合并重叠数据

       数据重塑与透视

    • ·使用多层索引进行重塑:重塑和轴向旋转、长格式宽格式转换

    4基于绘图库(Matplotlib)实现数据可视化

        matplotlib API使用入门

    • ·使用matplotlib绘图、设置颜色、标记和线类型

:Matplotlib API、Figure、Subplot、nrows、ncols、sharex、sharey

         常用绘图展示

    • ·使用matplotlib对图标进行刻度、标签、图例设置:注释、子图、图例

        常用可视化工具介绍

    • ·使用Pandas和seaborn绘图:折线图、柱状图、直方图、密度图、散点图

    5基于聚合分组技术发现数据间的关系及价值

        GroupBy机制

    • ·使用字典和Series分组



:GroupBy机制、遍历各分组、函数分组
    • ·使用函数分组:len、sum、min、max
    • ·根据索引层级分组:asix、multiIndex

       数据聚合

    • ·使用Pandas实现数据透视表与交叉表:数据聚合、透视表、交叉表

    6基于时间序列操作细化数据的时间展示

       日期和时间数据类型及工具

    • ·使用datetime实现字符串与时间类型的转换


:时间戳、时间间隔、时区、字符串与datetime互相转换
    • ·时间序列基础

       时间序列运算

    • ·时间序列:索引、选择、子集

       时区处理

    • ·使用Pandas生成日期范围、频率和移位:频率和日期偏置、时区本地化和转换

       时间区间和区间算术

    • ·使用Pandas进行时区处理:时区区间和区间算术、区间频率转换、季度区间频率

    7案例分析

      电影评分数据分析

    • ·涉及娱乐、金融、农业、互联网等行业真实数据,从业务流程角度进行数据分析,增强业务与技术实战能力: 数据清洗、时间序列、聚合与分组、柱状图、折线图、热力图

      美国农业部食品数据分析

     金融数据分析

     招聘网站岗位及薪资趋势分析报告


                                                                    大数据分析师晋升记

    1数据仓库

          HiveQL操作数据

    • ·基础语法、表连接、普通函数: TINYINT 、SMALLINT、 INT 、BIGINT、 FLOAT、 DOUBLE、 BOOLEAN 、STRING、STRUCT、 MAP、 ARRAY、数据表、排序和聚集
    • ·窗口函数、SQL优化: 创建表、创建分区、重命名、增加列、删除列、导入导出数据、数据查询、内连接、左外连接、右外连接、全连接、子查询、视图、内置函数、自定义函数、窗口函数、SQL优化

    2数据分析方法

       描述统计分析方法

    • ·频数分析、集中趋势、离散程度、数据分布:频数、平均数、中位数、众数、极差、方差、标准差、变异系数、峰值、偏度

        回归分析方法

    • ·线性回归、逻辑回归、多项式回归、多元回归:因变量、自变量、回归线、回归系数

       多元统计分析方法

    • ·聚类分析、判别分析、主成分分析、因子分析: 聚类分析的思想、相似性度量、类和类的特征、距离判别、贝叶斯判别、逐步判别、主成分、总体成分、因子载荷

      时间序列分析方法

    • ·自回归模型、季节模型: 时间序列、时间序列分析、GNAR模型

    3数据可视化

      可视化工具使用(Excel)

    • ·使用Excel实现数据可视化: 条形图&柱状图、饼图&环形图、单折线&双折线图、散点图&气泡图、箱线图、雷达图、组合图

       可视化工具使用(Tableau)

    • ·使用Tableau实现可视化

    4高级数据可视化

    • 瀑布图、桑基图、漏斗图、矩形树图、旭日图
    • ·使用Excel、Tableau实现:绘制图表

       Excel动态图表

    • ·使用Excel实现:组合框控件、数据源

      地图可视化

    • ·使用Tableau实现:地图绘制、地图配色

     echarts实现

    • ·使用echarts实现常用图表:构建echarts、数据加载

    5高级数据分析师实战

      经营分析方法论

    • ·交易分析:如何做好交易日报分析
    • ·流量分析:渠道分析、流量漏斗分析
    • ·用户分析:用户画像、行为分析、留存分析

     行业分析方法论

    • ·竞对分析:分析方法、分析内容
    • ·行业动态:行业分布、行业趋势

    业务分析方法论

    • ·产品分析:功能迭代分析、转化率分析
    • ·运营分析:活动运营分析、用户运营分析
    • ·销售分析:业绩达成分析、人效分析
  • 相关阅读:
    nginx的location root 指令
    nginx系统真正有效的图片防盗链完整设置详解
    HttpURLConnection请求接口
    Tomcat:IOException while loading persisted sessions: java.io.EOFException解决手记
    jprofiler安装图解及破解码
    养成好的JAVA编码习惯
    JS函数(自调函数)与闭包【高级函数】
    Java基础加强-(注解,动态代理,类加载器,servlet3.0新特性)
    Intent显示启动与隐式启动
    JSP中四种传递参数的方法
  • 原文地址:https://www.cnblogs.com/limingbs/p/12873973.html
Copyright © 2020-2023  润新知