• 数据分析概览01:读《深入浅出数据分析》


    题记:完全不懂数据分析,统计也忘了差不多的小白开始学习数据分析。
     
    读了《深入浅出数据分析》,对数据分析有了一个大致的了解。书中讲的每个章节都需要翻大量的资料继续学习。这本书是一个指引(索引)。
     
    1.数据分析的流程
    确定目标或者问题-->分解问题,从而分解数据-->评估问题,总结结论-->指导决策
    数据分析的思路是这样,数据分析报告也需要这么写。
     
    2.实验
    实验能够帮助分析。实验过程中要加入控制组,便于发现实验的结论。用随机选择控制组是一个比较好的方法。
     
    3.最优化
    最优化问题主要有三部分组成:决策变量,约束条件和目标函数
     
    4.数据图形化
    数据图形化在数据分析过程中能够更好地发现问题,在数据报告中能够更好地展示问题或结论。
    散点图:用于展示两种变量的因果关系;其实散点图只能展示两种变量的相关性,其中的因果还需要运用其他的东西来分析。(空心圆能够更好地表示重叠关系。)
    多元散点图:多种变量的关系。
    直方图:展示数据的分布情况。
     
    5.假设检验(不懂)
    6.贝叶斯统计(不懂)
    相关topic:基础概率和波动数学。
     
    7.主观概率(不懂)
    标准偏差评估数据。
    用贝叶斯修正主观概率。
     
    8.启发式(不懂)
    9.回归·预测
    回归加上控制实验能够预测未来。
    回归线:贯穿平均值的直线,能用相关性系数来评估回归线。
    回归线有线性和非线性。
     
    10.合理误差
    误差范围,使得用户不仅知道预测值还能知道误差的范.围,使得预测更加可信。
    预测过程中要注意数据的阈值范围,超过阈值范围的预测很不准确。
    均方根误差评估预测的准确性。
    通过分段预测和评估可以控制误差。
     
    11.数据整理
    Excel和正则表达式非常有用。
    整理完数据还要查看数据的重复性等问题。
     
    12.附录(告诉我还需要看啥)
    1)统计学
    2)Excel
    3)耶鲁大学教授Edward Tufte图形原则
    4)非线性及多元回归
    5)原假设——备择假设
    参考《深入浅出统计学》
    6)随机性
    7)google Docs可以绘图和访问实时数据库
    8)专业技能
  • 相关阅读:
    HDU 5744
    HDU 5815
    POJ 1269
    HDU 5742
    HDU 4609
    fzu 1150 Farmer Bill's Problem
    fzu 1002 HangOver
    fzu 1001 Duplicate Pair
    fzu 1150 Farmer Bill's Problem
    fzu 1182 Argus 优先队列
  • 原文地址:https://www.cnblogs.com/alicia-Programming/p/5170037.html
Copyright © 2020-2023  润新知