第一节:杂文
SPSS和其他的一些同款统计分析软件的对比
SPSS和其他的软件都是解决结构化的数据
除了R语言外其他都是收费的
Python解决非结构化数据
SPSS主要用于市场问卷、电信的等行业
SAS主要用于金融、医药、生化等一些不差钱的行业
数据分析的面向过程
实验室 单位 30条数据
问卷调查 单位 500-3000条数据
数据库 单位 万-100亿条数据
云 单位 T、P
我们学习数据分析,大部分都是在问卷调查、或者数据库的数据。
云又叫大数据、处理的数据都是以T为单位
数据量越大其数据质量越低,因为里面会有很多的无效值、缺失值等等问题数据
云是大数据,但是我们也可以说当==========================================
( 实验室数据为30、问卷调查为200、数据库为100万(微软提出)或者1亿数据称之为相应数据分析层次大数据)
中级数据分析师需要掌握的技能
统计模型 很多个
挖掘模型 7、8个
大数据云端需要掌握的技能
Hadoop、神经网络等等
第二节:SPSS打开文件之后的-视图变量的操作
!本地文件 mysql文件的链接和打开
测量【定义数据层次】
名义 等同 定类变量
有序 等同 定序变量
标度 等同 定距变量【0没有意义】、定比变量【0有意义】
角色
目标 定义 y变量
输入 定义 x变量
两者 定义 相关变量
值
定义等同关系 1 = ‘男’方便人为观看
第三节:如何理解描述数据
统计量
做直方图 通过最大的频数/ 最小频数 超过8 那么数据就是不平衡数据。反之就是平衡数据。不平衡数据存在异常值
图形
正态分布
在y量化的过程中所有的x的影响都是差不多的,叫叫做正态分布
如果有一个x的影响比较大,那么必然是左偏或者右篇
σ越大,数据分布越分散;σ越小,数据分布越集中
函数曲线下的面积
• 68.27%的面积在平均值左右的一个标准差范围内
• 95.45%的面积在平均值左右两个标准差2σ的范围内
• 99.73%的面积在平均值左右三个标准差3σ的范围内
• 99.99%的面积在平均值左右四个标准差4σ的范围内
标准化
x - x的均值 / 方差
方差表示各自的离散程度 除了之后就是离散程度就是一样了。
标准化的正态分布 一个方差是1个单位
如何做出正能量的图形
分析--》质量控制--》帕累托图
第四节:假设检验的介绍
引入了一个美国环境能源投诉大众汽车污染
提出H0 环境污染=2.18 H1环境污染不等2.18
定义小概率事件的发生0.05 ---0.05是由统计学者判断一个人猜20次事件,只猜错一次的发生的概率为小概率事件
抽样本
决定方法
是否否证原假设
关于spss中的回归分析中的 显著性就是判断二者是不是想换相关的关系
定义的是H0 为二者不相关。
我们定义的H0往往是人们最不想看见的事件为原假设。
第五节:协方差 相关系数
如何算相关系数:
算两个的相关程度,我们以矩形面积相加是红色还是蓝色,红色为正相关。
以前的统计学家,后一个的点要跟前面的所有点去计算面积,这样计算量太大。
后来的统计学家,将(每个的x轴 - 所有点的x均值) * (每个点的y轴 - 所有点的y均值)再相加得出的数值为正是正相关
以上的就是协方差!
因为这样的数值是带着单位的【方差表示数据的离散改变图形】,所有我们除x轴和y轴的方差 去掉方差,可以进行比较。
以上就是相关系数!
相关系数的区别
皮尔逊相关系数:一般用来计算两个连续型变量的相关系数。
肯德尔相关系数:一个连续一个分类(最好是定序变量)
斯皮尔曼相关系数:2个变量无论连续还是分类都可以,但斯皮尔曼是非参数的,会损失信息,尽量不用
数据的离散程度--》
以椭圆形盖住大部分数据来看,椭圆越圆 到达最圆 变成圆形离散程度越最大--》
圆越扁 到达最扁 变成直线离散程度越最小--》
第六节:回归分析
回归分析一般跟在后面只有15个自变量上限
残差图形
线性回归 -->图--》DEPENDNT [是y] *ZPRED[是估计的y] *ZRESID[是残差] --》y轴选残差 x轴选估计y --》作直方图
回归分析 中的方差分析表--》显著性的h0是 贝塔1跟贝塔2都为0,如果都为0的话就不需要看具体的表了。
残差
要求在0附近随机摇摆
y-y的估计 = 残差
残差 >0 低估
残差 <0 高估
残差 =0
第七节:线性回归模型介绍
回归模型的应用
单结构
整体结构
预测新老样本
2019.11.19日上午学习
SPSS 拿到一份新的数据如何去看
通过行
判断是大数据还是小数据
通过列
判断是分类数据还是连续数据 是人工数据还是自然数据,再定义其角色 找出其中的y和x
y 一般是抽象的,且不容易得到的
logistics分析步骤
1:图形
条形图
2:相关
卡方分析
3:logistic
回归系数
信度指标
卡方
4:修正
哑变量 (将其中x是分类的数据进行转换--》虚变量)
工具变量法
5:应用
单结构 整体结构 预测新/老样本
方差分析:
分析的是连续跟分类之间的关系
分析--》比较平均值--》单因素Anova检验
伽马变换
风险度量指标=又叫[OR]
(风险度量指标[OR] - 1)/(风险度量指标 +1) 风险度量指标为: 0 -1 无穷 带入得出 -1 0 1 的数轴
风险度量指标的数轴形式是以1为起始点,这样想除之后的伽马变换就变成了 -1 0 1 为数轴。表示的是这个x对y的相关性。
2019.11.20日上午学习
残差分析不能识别:
共生性
共线性 x1和x2高度相关,对贝塔和模型有影响
SPSS缺失值处理
缺失值数量 方法 比较 缺失值的系统名字
3% 1:忽略 完全随机
2:找均值
3-20% Aihley方法做检验 P>0.05 回归 完全随机
P<0.05 EM回归 随机缺失
20-50% 多重插补 随机缺失
50-80% 缺失值分类法 系统缺失
80%以上 试试缺失值分类法 系统缺失
不行就丢弃
方法:
缺失值3%的方法:
转换--》替换缺失值--均值
缺失值在3-20%的方法
SPSS-》分析--》缺失值分析
弹出页面--》选择要分析的数据,然后确定--》
弹出的页面分析--》查看缺失的百分比--》根据y值还有大众选择对应的方法--》
缺失值都在3-20之间,选择Aihley方法【勾选缺失值分析界面的EM】做检验得出P,再选择对应的方法--》
弹出的页面 EM相关性表单
MCAR检验的卡方为0.82 重要性=0.997 验证原假设:完全随机缺失
大于0.05采用回归进行填补缺失值。
缺失值分析界面--》估算--勾选回归--回归选择保存的数据文件
小于0.05
缺失值分析界面--》估算--勾选EM-EM 选择保存的数据文件
缺失值在20-50%的方法
SPSS-->分析--》多重插补--》分析模式
SPSS-->分析--》多重插补--》插补缺失值--》
选择模型的变量--》
插补多少个 5-10 小样本的--》
方法 选择定制--》
约束 如何你知道范围可以就约束下--》
输出选择输出文件--》
插补的好不好 可行度高不高》
采用折线图表现它的波动
Y轴选择y的绩效
x选择选择迭代编号
组/点ID
行面板放summaryStatistic 平均值、标准差
分组/堆积面板放imputations的5次插补,既共享Y又共享X
画出的折线图。五条线越纠结在一起表示可行度越高。
插补了5次选择那一组?
做回归分析,那么SPSS就会自动的做出6个的回归方程组
分析--》回归--》线性
为什么会自动做6个?
这个因为SPSS根据插补号做了拆分,也就是变量视图里面的拆分角色。
或者 选择 数据--》拆分文件--》然后选择插补号--》软件右下角就会出现拆分文件的文字
根据你的业务选择,不知道就选择R方最高的一组。
缺失值50-80%方法:
缺失值分类法--》比如说工资这一列数据 又很多的缺失--》
我们新起一列 工资缺失标记为1 负责标记为0--》则转换成表示用户是否关注隐私问题
2019.11.21
对多个x的处理步骤
1:业务 找出重要几个x
2:创建相关相关差的去掉
分析--》相关--》R12相关
3:判断x跟x的之间的相关性,相关大的看能否创建一个人工字段
分析--》相关--》R12相关 找出x跟x的是否有高相关然后创建人工字段
4:创建回归,动态方法判断x
前进 少变多,相关比较多的会依次加入
后退 多变少,相关比较小的会依次剔除
逐步 当一个x相关少剔除,可是相关变强又拉进来
一般我们采用后退
5:主成分分析,压缩x,是多个变量组成了新的x。
分析--》降维-->因子 得分-》保存变量
切记不可将主要的变量x放进模型中。
分析之后:我们要用的x是那些总体特征值大于1的x。
要记得使用实用程序中的-->定义变量集和使用变量集
2019.11.22
用户画像(又叫聚合分析 分析的是行与行之间的联系 给用户贴标签)
分析--》分类--》二阶聚类【默认选择这个】 (二阶的过程是先简单的分类再精细的分类)
--》k-均值聚类(很简单 粗糙的分类)
--》系统聚类(很精确、速度慢)
距离测量:
连续数据 选择欧式方法
分类数据 选择对数似然方法
弹出的图标中:
预测变量重要性: 各个x对三个的类别起到的重要性排名
聚类比类:在图形中三个类别的圆圈,各个类别对应的圆圈链接x 用线链接起来就是用户画像了。
FRM模型
F频率
M金额
R客户沉睡时间
SPSS中的计算时间差(天)==》($TIME - cd_lastord_date) / 3600 / 24
对时间x做整体的加减,是不会改变数据的意义的。因为我们统计学分析的是正态分布的图形
加减只不过会向左向右平移。
分析--》直销--》选择技术 【一般不用 看看即可】
FRM过程:
1:业务理论 (知道这个才能够精确对用户进行分组)
2:量化
3:分箱化
4:价值评定
【1】业务理论
找出数据中的x,也就是FRM的字段是哪些
【2】量化
【3】分箱化
将连续的变量 --》变成 分类数据
转换--》可视分箱
当形成的是一个严重右偏数据,就需要进行个案排秩
(转换--》个案排秩--》将秩1赋值(选择最小值)--》绑定值(选择低))
进行分组,分组时候要注意(1:找到拐点 2:拐点的事件 3:拐点的左右的意义)
然后制作评分卡
【4】价值评定
如:将RFM分为两个 大 和小 两个维度
R F M
大 大 大 --》1%Vip客户
小 大 大 --》挽留客户,其他都大,可是好像不来了
大 小 大 --》不要动他
大 大 小 --》数据和营销部门好好好好利用这些
比如找到这些人,将每个人的最大订单费用找出,求出均值
然后找到供应商,供货 营销。
2019.11.23
联合分析
发布了一个产品,喜欢它的人群有3000人,我们抽300对其作对问卷调查,分析出产品的好坏,
以及客户的喜好--改善产品 这一过程称之为联合分析。
联合分析的5个步骤:
1:确定研究对象的属性及其水平【借助业务高手】
2:进行实验设计
数据--》正交设计--》生成--》因子(即属性,就是x)
定义值--》选项(最小个案:16 坚持个案4)
3:对设计出来的问卷进行评级
数据--》正交设计--》显示
填写问卷的过程:
先让客户选出 最喜欢的,最不喜欢的,中间的
再让客户根据这个 三个值。排出问卷中的其他组合喜欢排序
4:拟合数据,估计效用值
将设计文件和评分文件要整合再一起 进行选择出最喜欢的组合是那个!
新建--》语言--》编辑--》语法编辑器
*联合分析主程序.
conjoint plan='d:dataconjplan01.sav' ###设计文件
/data='d:dataconjrank01.sav' ###评分文件
/rank=rank1 to rank20 ###评分文件中的排序是怎么样的
/factors=price(linear) seats (discrete) ##因子就是设计的x,linear我们认为价格和接受程度是线性的
speed (linear) warranty (discrete more)
/subject=subj ###评分的ID值是哪列
/plot=all. ###画出所有图
*联合分析模拟预测程序.
conjoint plan='d:dataconjplan02.sav'
/data='d:dataconjrank01.sav'
/rank=rank1 to rank20
/factors=price(linear) seats (discrete)
speed (linear) warranty (discrete more)
/subject=subj
/print=simulation.
预测数据:是将设计表格中的,设计标识为模拟数据,用模拟数据测试刚刚的模型。
比较方法就是总计统计表格中的得分 与 最喜欢的组合得分相比。