SPSS - 润新知

SPSS

第一节:杂文
SPSS和其他的一些同款统计分析软件的对比
SPSS和其他的软件都是解决结构化的数据
除了R语言外其他都是收费的
Python解决非结构化数据
SPSS主要用于市场问卷、电信的等行业
SAS主要用于金融、医药、生化等一些不差钱的行业
数据分析的面向过程
实验室单位 30条数据
问卷调查单位 500-3000条数据
数据库单位万-100亿条数据
云单位 T、P
我们学习数据分析，大部分都是在问卷调查、或者数据库的数据。
云又叫大数据、处理的数据都是以T为单位
数据量越大其数据质量越低，因为里面会有很多的无效值、缺失值等等问题数据
云是大数据，但是我们也可以说当==========================================
( 实验室数据为30、问卷调查为200、数据库为100万（微软提出）或者1亿数据称之为相应数据分析层次大数据）
中级数据分析师需要掌握的技能
统计模型很多个
挖掘模型 7、8个
大数据云端需要掌握的技能
Hadoop、神经网络等等

第二节：SPSS打开文件之后的-视图变量的操作
！本地文件 mysql文件的链接和打开
测量【定义数据层次】
名义等同定类变量
有序等同定序变量
标度等同定距变量【0没有意义】、定比变量【0有意义】
角色
目标定义 y变量
输入定义 x变量
两者定义相关变量
值
定义等同关系 1 = ‘男’方便人为观看

第三节：如何理解描述数据
统计量
做直方图通过最大的频数/ 最小频数超过8 那么数据就是不平衡数据。反之就是平衡数据。不平衡数据存在异常值
图形
正态分布
在y量化的过程中所有的x的影响都是差不多的，叫叫做正态分布
如果有一个x的影响比较大，那么必然是左偏或者右篇
σ越大，数据分布越分散；σ越小，数据分布越集中
函数曲线下的面积
• 68.27%的面积在平均值左右的一个标准差范围内
• 95.45%的面积在平均值左右两个标准差2σ的范围内
• 99.73%的面积在平均值左右三个标准差3σ的范围内
• 99.99%的面积在平均值左右四个标准差4σ的范围内
标准化
x - x的均值 / 方差
方差表示各自的离散程度除了之后就是离散程度就是一样了。
标准化的正态分布一个方差是1个单位
如何做出正能量的图形
分析--》质量控制--》帕累托图

第四节：假设检验的介绍
引入了一个美国环境能源投诉大众汽车污染
提出H0 环境污染=2.18 H1环境污染不等2.18
定义小概率事件的发生0.05 ---0.05是由统计学者判断一个人猜20次事件，只猜错一次的发生的概率为小概率事件
抽样本
决定方法
是否否证原假设
关于spss中的回归分析中的显著性就是判断二者是不是想换相关的关系
定义的是H0 为二者不相关。
我们定义的H0往往是人们最不想看见的事件为原假设。

第五节：协方差相关系数
如何算相关系数：
算两个的相关程度，我们以矩形面积相加是红色还是蓝色，红色为正相关。
以前的统计学家，后一个的点要跟前面的所有点去计算面积，这样计算量太大。
后来的统计学家，将（每个的x轴 - 所有点的x均值） * （每个点的y轴 - 所有点的y均值）再相加得出的数值为正是正相关
以上的就是协方差！
因为这样的数值是带着单位的【方差表示数据的离散改变图形】，所有我们除x轴和y轴的方差去掉方差，可以进行比较。
以上就是相关系数！
相关系数的区别
皮尔逊相关系数：一般用来计算两个连续型变量的相关系数。
肯德尔相关系数：一个连续一个分类（最好是定序变量）
斯皮尔曼相关系数：2个变量无论连续还是分类都可以，但斯皮尔曼是非参数的，会损失信息，尽量不用
数据的离散程度--》
以椭圆形盖住大部分数据来看，椭圆越圆到达最圆变成圆形离散程度越最大--》
圆越扁到达最扁变成直线离散程度越最小--》

第六节：回归分析
回归分析一般跟在后面只有15个自变量上限
残差图形
线性回归 -->图--》DEPENDNT [是y] *ZPRED[是估计的y] *ZRESID[是残差] --》y轴选残差 x轴选估计y --》作直方图
回归分析中的方差分析表--》显著性的h0是贝塔1跟贝塔2都为0，如果都为0的话就不需要看具体的表了。

残差
要求在0附近随机摇摆
y-y的估计 = 残差
残差 >0 低估
残差 <0 高估
残差 =0

第七节：线性回归模型介绍
回归模型的应用
单结构
整体结构
预测新老样本

2019.11.19日上午学习
SPSS 拿到一份新的数据如何去看
通过行
判断是大数据还是小数据
通过列
判断是分类数据还是连续数据是人工数据还是自然数据，再定义其角色找出其中的y和x
y 一般是抽象的，且不容易得到的

logistics分析步骤
1:图形
条形图
2:相关
卡方分析
3:logistic
回归系数
信度指标
卡方
4:修正
哑变量（将其中x是分类的数据进行转换--》虚变量）
工具变量法
5:应用
单结构整体结构预测新/老样本

方差分析：
分析的是连续跟分类之间的关系
分析--》比较平均值--》单因素Anova检验

伽马变换
风险度量指标=又叫[OR]
（风险度量指标[OR] - 1）/（风险度量指标 +1）风险度量指标为： 0 -1 无穷带入得出 -1 0 1 的数轴
风险度量指标的数轴形式是以1为起始点，这样想除之后的伽马变换就变成了 -1 0 1 为数轴。表示的是这个x对y的相关性。

2019.11.20日上午学习
残差分析不能识别：
共生性
共线性 x1和x2高度相关，对贝塔和模型有影响

SPSS缺失值处理
缺失值数量方法比较缺失值的系统名字
3% 1：忽略完全随机
2：找均值
3-20% Aihley方法做检验 P>0.05 回归完全随机
P<0.05 EM回归随机缺失
20-50% 多重插补随机缺失
50-80% 缺失值分类法系统缺失
80%以上试试缺失值分类法系统缺失
不行就丢弃
方法：
缺失值3%的方法：
转换--》替换缺失值--均值
缺失值在3-20%的方法
SPSS-》分析--》缺失值分析
弹出页面--》选择要分析的数据，然后确定--》
弹出的页面分析--》查看缺失的百分比--》根据y值还有大众选择对应的方法--》
缺失值都在3-20之间，选择Aihley方法【勾选缺失值分析界面的EM】做检验得出P，再选择对应的方法--》
弹出的页面 EM相关性表单
MCAR检验的卡方为0.82 重要性=0.997 验证原假设：完全随机缺失
大于0.05采用回归进行填补缺失值。
缺失值分析界面--》估算--勾选回归--回归选择保存的数据文件
小于0.05
缺失值分析界面--》估算--勾选EM-EM 选择保存的数据文件

缺失值在20-50%的方法
SPSS-->分析--》多重插补--》分析模式
SPSS-->分析--》多重插补--》插补缺失值--》
选择模型的变量--》
插补多少个 5-10 小样本的--》
方法选择定制--》
约束如何你知道范围可以就约束下--》
输出选择输出文件--》
插补的好不好可行度高不高》
采用折线图表现它的波动
Y轴选择y的绩效
x选择选择迭代编号
组/点ID
行面板放summaryStatistic 平均值、标准差
分组/堆积面板放imputations的5次插补，既共享Y又共享X
画出的折线图。五条线越纠结在一起表示可行度越高。

插补了5次选择那一组？
做回归分析，那么SPSS就会自动的做出6个的回归方程组
分析--》回归--》线性
为什么会自动做6个？
这个因为SPSS根据插补号做了拆分，也就是变量视图里面的拆分角色。
或者选择数据--》拆分文件--》然后选择插补号--》软件右下角就会出现拆分文件的文字
根据你的业务选择，不知道就选择R方最高的一组。
缺失值50-80%方法：
缺失值分类法--》比如说工资这一列数据又很多的缺失--》
我们新起一列工资缺失标记为1 负责标记为0--》则转换成表示用户是否关注隐私问题

2019.11.21
对多个x的处理步骤
1：业务找出重要几个x
2：创建相关相关差的去掉
分析--》相关--》R12相关
3：判断x跟x的之间的相关性，相关大的看能否创建一个人工字段
分析--》相关--》R12相关找出x跟x的是否有高相关然后创建人工字段
4：创建回归，动态方法判断x
前进少变多，相关比较多的会依次加入
后退多变少，相关比较小的会依次剔除
逐步当一个x相关少剔除，可是相关变强又拉进来
一般我们采用后退
5：主成分分析，压缩x，是多个变量组成了新的x。
分析--》降维-->因子得分-》保存变量
切记不可将主要的变量x放进模型中。
分析之后：我们要用的x是那些总体特征值大于1的x。
要记得使用实用程序中的-->定义变量集和使用变量集

2019.11.22
用户画像（又叫聚合分析分析的是行与行之间的联系给用户贴标签）
分析--》分类--》二阶聚类【默认选择这个】（二阶的过程是先简单的分类再精细的分类）
--》k-均值聚类（很简单粗糙的分类)
--》系统聚类（很精确、速度慢）
距离测量：
连续数据选择欧式方法
分类数据选择对数似然方法

弹出的图标中：
预测变量重要性：各个x对三个的类别起到的重要性排名
聚类比类：在图形中三个类别的圆圈，各个类别对应的圆圈链接x 用线链接起来就是用户画像了。

FRM模型
F频率
M金额
R客户沉睡时间
SPSS中的计算时间差(天)==》($TIME - cd_lastord_date) / 3600 / 24
对时间x做整体的加减，是不会改变数据的意义的。因为我们统计学分析的是正态分布的图形
加减只不过会向左向右平移。
分析--》直销--》选择技术【一般不用看看即可】

FRM过程：
1：业务理论（知道这个才能够精确对用户进行分组）
2：量化
3：分箱化
4：价值评定

【1】业务理论
找出数据中的x，也就是FRM的字段是哪些
【2】量化
【3】分箱化
将连续的变量 --》变成分类数据
转换--》可视分箱
当形成的是一个严重右偏数据，就需要进行个案排秩
（转换--》个案排秩--》将秩1赋值（选择最小值）--》绑定值（选择低））
进行分组，分组时候要注意（1：找到拐点 2：拐点的事件 3：拐点的左右的意义）
然后制作评分卡
【4】价值评定
如:将RFM分为两个大和小两个维度
R F M
大大大 --》1%Vip客户
小大大 --》挽留客户，其他都大，可是好像不来了
大小大 --》不要动他
大大小 --》数据和营销部门好好好好利用这些
比如找到这些人，将每个人的最大订单费用找出，求出均值
然后找到供应商，供货营销。

2019.11.23
联合分析
发布了一个产品，喜欢它的人群有3000人，我们抽300对其作对问卷调查，分析出产品的好坏，
以及客户的喜好--改善产品这一过程称之为联合分析。

联合分析的5个步骤：
1：确定研究对象的属性及其水平【借助业务高手】
2：进行实验设计
数据--》正交设计--》生成--》因子（即属性，就是x）
定义值--》选项（最小个案：16 坚持个案4）
3：对设计出来的问卷进行评级
数据--》正交设计--》显示
填写问卷的过程：
先让客户选出最喜欢的，最不喜欢的，中间的
再让客户根据这个三个值。排出问卷中的其他组合喜欢排序
4：拟合数据，估计效用值
将设计文件和评分文件要整合再一起进行选择出最喜欢的组合是那个！
新建--》语言--》编辑--》语法编辑器
*联合分析主程序.
conjoint plan='d:dataconjplan01.sav' ###设计文件
/data='d:dataconjrank01.sav' ###评分文件
/rank=rank1 to rank20 ###评分文件中的排序是怎么样的
/factors=price(linear) seats (discrete) ##因子就是设计的x，linear我们认为价格和接受程度是线性的
speed (linear) warranty (discrete more)
/subject=subj ###评分的ID值是哪列
/plot=all. ###画出所有图

*联合分析模拟预测程序.
conjoint plan='d:dataconjplan02.sav'
/data='d:dataconjrank01.sav'
/rank=rank1 to rank20
/factors=price(linear) seats (discrete)
speed (linear) warranty (discrete more)
/subject=subj
/print=simulation.

预测数据：是将设计表格中的，设计标识为模拟数据，用模拟数据测试刚刚的模型。
比较方法就是总计统计表格中的得分与最喜欢的组合得分相比。
相关阅读:
Nginx负载均衡和LVS负载均衡的比较分析
 Nginx和Squid配合搭建的Web服务器前端系统
 （总结）Linux服务器上最简单的Nginx反向代理配置
 Nginx主要模块常用指令说明
 （总结）Nginx 502 Bad Gateway错误触发条件与解决方法
 （总结）Linux下查看Nginx Apache MySQL的并发连接数和连接状态
 （总结）统计Apache或Nginx访问日志里的独立IP访问数量的Shell
IoC模式（依赖、依赖倒置、依赖注入、控制反转）
使用OAuth打造webapi认证服务供自己的客户端使用
 RESTful API 设计指南
原文地址：https://www.cnblogs.com/hero799/p/11960759.html