SPSS 课程简介

SPSS 课程简介

引言

全局的概览+八个案例+窜一下

抽象的一般具有连续的性质，分类变量的小数位是没有意义的。抽象的变量，它的0往往是没有意义的，比如说幸福感。同样是连续性变量，有的0是有意义的，比如说订单量，如果0是有意义的，可以进行加减乘除运算，0没有意义，加减是可以的。标度可以分：间距（抽象的）和比率（0是有意义的，不抽象的变量）。抽象叫潜，不抽象叫显，潜变量和显变量。潜变量是用来表示未来的，显变量是表示现在和过去。显变量不是预测，是用来描述，潜变量是用来预测的。显是用来归一，潜是用来

四种测量，名义、有序、间距和比率。名义和有序，顺序。有序、间距，等距。间距、比率，抽象。Y讲测量，X讲选择。关于XY，就是角色。角色就是演戏，主角Y，通过一系列的过程塑造出来，主要是输入和目标在演，其他四个是跑龙套的。测量在统计是重点，角色不是特别重要，建议也设，拿到数据，先看一下行有多大，再看列，在了解业务的基础上设。Excel中没有，因为不是专业的统计软件。

知识点：数据流（项目流）、数据测量、y和x

线性回归流程

量化需求Y，比如客户流失，然后找到客户流失的因素，x1/x2/x3……，对Y的影响不是相同的，y=β0+β1x1+βx+……+ε

R方，再加上一个误差。我想知道这个客户未来会不会走，我需要知道未来的x，未来昂贵的y不容易获得，但是可以获得廉价的x，比如雨季来临，蛋糕销售量增加，这就是廉价的x和昂贵的y，每年减少1250亿欧元。如果未来的x很昂贵，你的模型就是无意义的。

这个时候y如果是连续性变量，就是线性回归：

第一歩就是画散点图，描述变量之间相关性的图形，这是我们学统计学第一个要学习的图，散点图第一个要看它的主体和模式，第一个是看相关，第二个看趋势，第三个看异常。

回归的箱数就是15节以内，后面的x是不能很多的，影响y的因素是很多的，r相关公式，判断一个x和y之间的关系，一个一个x来看的，第二个这个相关的应用场景，小数据和大数据，第三个相关和归因之间的关系，这是相关回答三个问题。

第三步，x和y之间的关系叫回归，需要解读回归，局部β，整体R方，评估整体前两个y和x，还有一个尾巴，就是残差。

第四歩，残差分析。y身上有两样东西，固定的是有用的，随机的是没有用的，把固定的提取出来的，随机不会贡献相关，固定的会贡献相关。

第五步，就是模型的应用，分四种。主次归因、规则归因，老样本和新样本预测。

统计学家从均值开始，老百姓是从0开始的，方差就是研究偏离均值的差异，每个点偏离均值的远见，才会构成统计信息，方差本来定义就是偏离大众的远近，1234都是方差，只不过2是最有名的方差而已，两个方差相乘就是协方差，相关：在万事万物中，两个变量方向和大小的，

一三象限是正相关的，二四象限是负相关，

主体模式：椭圆，r 0-1,

（常用：第一级；默认：第二级（自由不不自由之间的界限），这就是统计学的主流方法。Python和SAS就没有默认。）

大数据：数据库、云、种包（开源）。P值在大数据就不用了，是在小数据里用的。我的这个课是由小数据逐渐过渡到大数据，比较这四天的课和前面的统计学的不同，因为很多推翻了前面的方法，机器学习和统计学的不同。大数据用的是智能技术，而不是假设检验。P不能用了，用什么呢？效应表，注意不是效用表。效应表就是0-1，<0.1无相关，0.1-0.35低相关，0.35-0.7统计研究的多数内容都是这个范围的，0.1-0.7几乎是我们遇到的大部分数据场景，0.7-0.9高相关，0.9-1高危相关（共变关系）。

（模型变好的三个途径：调参、找更好的x，做合理的预分析。）

小数据要归因，大数据不归因。不是不归因，而是工具归因。雨季来临，蛋糕销量增加，雨季就是工具归因，方便原则，第二个是经济原则。

小结：相关第一个重点就是公式，工具归因，第三个就是相关效应的大小。

三、回归

观测值和估计值，相信估计值。测量-方差-回归。估计值除以测量值，就是效度指标。F回答有无用处，R方回答模型多大程度可信。

价格细目表、百分制

二八原理

线性回归和逻辑回归擅长解决的是主次归因，而不是规则归因。新样本预测是没有y值的，老样本是有的。大数据分析的是老样本。小数据是新样本预测。

统计模型怎么学习：

机器学习一般是干什么的，然后你不要做机器学习可以做的，无人驾驶的例子，大部分的银行已经把评分卡做好了，现在主要是做速度，因此银行现在需要培养业务专家就好，配合数据算法，建议你不管学什么算法，学一点相关的机器学习，现在写作的领域都可以用机器学习代替了，树立未来的方向，每学一个统计学习的算法，就学一个相关的人工智能的算法。
相关阅读:
Go语言环境配置 Sublime Text + GoSublime+ gocode + MarGo组合
 Java中string拼接，StringBuilder,StringBuffer和+
java调优随记-java对象大小
 java调优随记-堆和栈
 java中一直说一个汉字使用两个字节，原来是不准确的
 kv存储对抗关系型数据库
 记一篇
 变态的静态资源缓存与更新
 git add shh public key
hashmap 的最优访问
原文地址：https://www.cnblogs.com/BC10/p/11714864.html

引言

线性回归流程

三、回归