已阅读
2020-02-27 大数据时代:生活、工作与思维的大变革
通过对大数据的数据分析,获取隐藏在数据中的关联,并对后续进行预测
未排期
《Python科学计算》
NumPyBeginner's Guide 2nd》/《Python数据分析基础教程:NumPy学习指南(第2版)》
《Pythonfor Data Analysis》/《利用Python进行数据分析》
《MachineLearning in Action》/《机器学习实战》
《BuildingMachine Learning Systems with Python》/《机器学习系统设计》
《Pythonfor Finance》
网络url
https://kgbook.com/
总目录
编程
统计学
数学
机器学习
数据整理
数据可视化
数据直觉
编程
Python
numpy
pandas
matplotlib
scipy
scikit-learn
R语言
ggplot2
dplyr
ggally
reshape2
可选
ipython
ipython notebook
anaconda
ggplot
seaborn
电子表格工具 (比如Excel)
额外的技能
Javascript 和 HTML
D3.js
AJAX
jQuery
C/C++ 或者 Java
统计学
描述性和推理性统计
平均数,中位数,众数
数据分布
正态分布
指数/泊松
二项式分布
卡方分布
标准偏差和方差
假设检验
P-values
显著性检验
z检验, t检验, 曼-惠特尼秩和检验
卡方检验和方差分析
实验设计
A/B 测试
控制变量并选择良好的控制和测试组
采样大小和幂次现象
假设测试,测试假设
置信水平
SMART实验:具体,可衡量,可行,现实,及时
数学
将数字和概念转换为数学表达式
求解代数方程中的缺失值
线性代数和微积分
矩阵, 向量点积是理解的关键。
特征值和特征向量 - 了解这两个概念的意义
多变量导数和积分在微积分
机器学习
监督学习
决策树
朴素贝叶斯分类
普通最小二乘回法
逻辑回归
神经网络
支持向量机
集合方法
无监督学习
集群算法
主成分分析(PCA)
奇异值分解(SVD)
独立成分分析(ICA)
增强学习
Qlearning
TD-学习
增强学习
数据整理
** Python **
了解Python字符串库的字符串操作
解析常见的文件格式,如csv和xml文件
正则表达式
数学变换
比如,使用log-10变换将非正态分布转换为正态分布
数据库系统(基于SQL和基于SQL) - 数据库充当存储信息的中心枢纽
关系数据库,如PostgreSQL,mySQL,Netezza,Oracle等。
可选:Hadoop,Spark,MongoDB
SQL
交流和数据可视化
了解可视化编码并传达您希望受众从可视化中移除的内容
编程
matplotlib
ggplot
d3.js
显示数据并说服用户与您的数据
了解手头业务数据情况的背景
思考五个步骤,预测听众的的问题将会在哪里,你的观众将挑战你的假设和结论
提供(报告)预读,并在实际会议之前与感兴趣的各方进行预先协调会议