数据与统计资料
统计学: 搜集、分析、表达和解释数据的科学与艺术
统计资料:数值事实, 如平均值、中位数、百分数和指数,它可以帮助我们了解各种商务和经济情况
宗旨:帮助管理者和决策者更好的理解商务和经济环境的变化,从而使其能更科学、正确的做出决策(这不就是古代的军师么)
数据
描述和解释所搜集、分析和汇总的事实和数字。
数据集: 用于特定研究而搜集的所有数据称为研究的数据集,如下一个包含了25只共同基金信息的数据集
个体、变量、观测值
个体:是指这个数据的实体,有25只共同基金,就有25个个体
变量: 是个体中所感兴趣的那些特征
-
表1-1的数据集中由以下5个变量:
- 基金类型
- 净资产值
- 5年平均回报率(%)
- 费用比率
- 晨星评级
观测值:个体变量的汇总就是一个观测值
测量尺度
决定了数据种蕴含的信息量,并标明最适合的数据汇总和统计分析方法
-
搜集数据需要按下列几种测量尺度来度量:
- 名义尺度(tag,基金类型类型)
- 顺序尺度(排行,晨星评级)
- 间隔尺度
- 比率尺度
-
分类数据和数量型数据
- 分类变量:用分类型数据表示的变量
- 数量变量:用数量型数据表示的变量
-
截面数据和时间序列数据
-
截面数据:是在相同或近似相同的同一时点上搜集的数据。 表1-1中的数据是截面数据,因为他描述了25只共同基金的5个变量在同一时点上的情况
-
时间序列数据:是在几个时期内搜集的数据。如下图所示
时间序列数据可以帮助了解过去发生的情况,确定现象随时间变动的趋势,推测时间序列的未来水平
-
描述统计
绝大多数的报纸、杂志、公司报告和其他出版物上的统计信息以读者易于理解的方式汇总和披露。将数据以表格、图形、或者数值的形式汇总的统计方法称为描述统计
统计推断
总体:在一个特定研究中所有个体组成的集合
样本:总体的一个子集
普查:搜集总体全部数据的调查过程
抽样调查:搜集样本数据的调查过程
统计推断:利用样本数据对总体特征进行估计和假设检验
计算机与统计分析
由于涉及大量的数据,因此统计人员经常要使用计算机软件进行计算,否则不累死你。
数据挖掘
数据仓库:是指获取、储存和维护数据的过程。分析仓库中的数据可以对机构作出新的占率和较高收益的决策
数据挖掘(data mining)
利用统计学、数学和计算机科学的综合方法,分析人员在仓库中"挖掘数据",并将其转化为有用的信息,取名为数据挖掘。
数据挖掘领域的先驱Kurt Thearling博士定义数据挖掘为"从庞大的数据库中自动提取预测性的信息"。
数据挖掘系统是最有效的使用自动程序从数据中提取信息,而用户仅仅需要使用最一般的甚或是模糊的查询。