数据预处理
1、数据审核:检查数据中是否有错误
原始数据->完整性:所调查的对象是否有遗漏。
准确性:数据是否有错误、存在异常值
->异常值 :记录错误,予以纠正;正确地值,予以保留。
二手数据->适用性:明确数据的来源、口径、背景材料,以便确定数据是否符合分析研究的需要。
时效性:对于时效性较强的问题,如果数据是滞后的对于研究就没有多大的意义。
2、数据筛选
工具:excel、spss,网上资料很多,这里不再赘述。
3、数据排序
1)按一定顺序排序,以便发现明显的特征或趋势;
2)利于数据的纠错、重新归类、分组。
品质数据的整理与展示
预处理后的数据,需进一步做分类、分组。
品质数据:分类数据、顺序数据
1、分类数据的整理与图示
分类数据:对事物的一种分类
整理:列出所分的类别,计算出每一类别的频数、频率或比例、比率,制作频数分布表。
目的:对数据及其特征进行初步地了解
工具:excel、spss前期的数据分析,这些工具已经很智能了!
图示:条形图、帕累托图、饼图、环形图
2、顺序数据的整理与图示
顺序数据:【转至百度百科】
整理:列出所分的类别,计算出每一类别的频数、频率或比例、比率,制作频数分布表;还可计算累计频率(或频数)
目的:对数据及其特征进行初步地了解
工具:excel、spss前期的数据分析,这些工具已经很智能了!
图示:条形图、帕累托图、饼图、环形图、累计频数分布图或频率图。
数值数据的整理与展示
数值型的数据除了可以用品质数据的整理和图示方法外,还有一些特殊的方法。
1、数据的分组:观察数据的分布特征
单变量值分组:适用于离散变量,其变量值较少。
组距分组:适用于连续性型变量,其变量值较多。
ex:分组方法及其制表过程
step1:确定组数。组数的确定主要是用于数据特征的观测,因此具体需视其数据特征而定。
step2:确定各组的组距。组距=组的上限-组的下限。组距的确定:(全部数据的上限-全部数据的下限)/组数
step3:根据分组整理成频数分布表。
2、数值型数据的图示
分组数据:直方图
未分组数据:茎叶图、箱线图
茎叶图:反映原始数据分布形状、离散状况(是否对称、集中、存在离群点)
工具:excel、spss都很方便
箱线图:由一组数据的的最大值、最小值、中位数、两个四分位数
多变量数据的图示:散点图、气泡图、雷达图
散点图:2个变量之间的关系的刻画
气泡图:3个变量之间的关系的刻画
雷达图:多个变量之间的关系的刻画