• SPSS


    第一节:杂文
    SPSS和其他的一些同款统计分析软件的对比
    SPSS和其他的软件都是解决结构化的数据
    除了R语言外其他都是收费的
    Python解决非结构化数据
    SPSS主要用于市场问卷、电信的等行业
    SAS主要用于金融、医药、生化等一些不差钱的行业
    数据分析的面向过程
    实验室 单位 30条数据
    问卷调查 单位 500-3000条数据
    数据库 单位 万-100亿条数据
    云 单位 T、P
    我们学习数据分析,大部分都是在问卷调查、或者数据库的数据。
    云又叫大数据、处理的数据都是以T为单位
    数据量越大其数据质量越低,因为里面会有很多的无效值、缺失值等等问题数据
    云是大数据,但是我们也可以说当==========================================
    ( 实验室数据为30、问卷调查为200、数据库为100万(微软提出)或者1亿数据称之为相应数据分析层次大数据)
    中级数据分析师需要掌握的技能
    统计模型 很多个
    挖掘模型 7、8个
    大数据云端需要掌握的技能
    Hadoop、神经网络等等

    第二节:SPSS打开文件之后的-视图变量的操作
    !本地文件 mysql文件的链接和打开
    测量【定义数据层次】
    名义 等同 定类变量
    有序 等同 定序变量
    标度 等同 定距变量【0没有意义】、定比变量【0有意义】
    角色
    目标 定义 y变量
    输入 定义 x变量
    两者 定义 相关变量

    定义等同关系 1 = ‘男’方便人为观看


    第三节:如何理解描述数据
    统计量
    做直方图 通过最大的频数/ 最小频数 超过8 那么数据就是不平衡数据。反之就是平衡数据。不平衡数据存在异常值
    图形
    正态分布
    在y量化的过程中所有的x的影响都是差不多的,叫叫做正态分布
    如果有一个x的影响比较大,那么必然是左偏或者右篇
    σ越大,数据分布越分散;σ越小,数据分布越集中
    函数曲线下的面积
    • 68.27%的面积在平均值左右的一个标准差范围内
    • 95.45%的面积在平均值左右两个标准差2σ的范围内
    • 99.73%的面积在平均值左右三个标准差3σ的范围内
    • 99.99%的面积在平均值左右四个标准差4σ的范围内
    标准化
    x - x的均值 / 方差
    方差表示各自的离散程度 除了之后就是离散程度就是一样了。
    标准化的正态分布 一个方差是1个单位
    如何做出正能量的图形
    分析--》质量控制--》帕累托图

    第四节:假设检验的介绍
    引入了一个美国环境能源投诉大众汽车污染
    提出H0 环境污染=2.18 H1环境污染不等2.18
    定义小概率事件的发生0.05 ---0.05是由统计学者判断一个人猜20次事件,只猜错一次的发生的概率为小概率事件
    抽样本
    决定方法
    是否否证原假设
    关于spss中的回归分析中的 显著性就是判断二者是不是想换相关的关系
    定义的是H0 为二者不相关。
    我们定义的H0往往是人们最不想看见的事件为原假设。

    第五节:协方差 相关系数
    如何算相关系数:
    算两个的相关程度,我们以矩形面积相加是红色还是蓝色,红色为正相关。
    以前的统计学家,后一个的点要跟前面的所有点去计算面积,这样计算量太大。
    后来的统计学家,将(每个的x轴 - 所有点的x均值) * (每个点的y轴 - 所有点的y均值)再相加得出的数值为正是正相关
    以上的就是协方差!
    因为这样的数值是带着单位的【方差表示数据的离散改变图形】,所有我们除x轴和y轴的方差 去掉方差,可以进行比较。
    以上就是相关系数!
    相关系数的区别
    皮尔逊相关系数:一般用来计算两个连续型变量的相关系数。
    肯德尔相关系数:一个连续一个分类(最好是定序变量)
    斯皮尔曼相关系数:2个变量无论连续还是分类都可以,但斯皮尔曼是非参数的,会损失信息,尽量不用
    数据的离散程度--》
    以椭圆形盖住大部分数据来看,椭圆越圆 到达最圆 变成圆形离散程度越最大--》
    圆越扁 到达最扁 变成直线离散程度越最小--》

    第六节:回归分析
    回归分析一般跟在后面只有15个自变量上限
    残差图形
    线性回归 -->图--》DEPENDNT [是y] *ZPRED[是估计的y] *ZRESID[是残差] --》y轴选残差 x轴选估计y --》作直方图
    回归分析 中的方差分析表--》显著性的h0是 贝塔1跟贝塔2都为0,如果都为0的话就不需要看具体的表了。

    残差
    要求在0附近随机摇摆
    y-y的估计 = 残差
    残差 >0 低估
    残差 <0 高估
    残差 =0

    第七节:线性回归模型介绍
    回归模型的应用
    单结构
    整体结构
    预测新老样本

    2019.11.19日上午学习
    SPSS 拿到一份新的数据如何去看
    通过行
    判断是大数据还是小数据
    通过列
    判断是分类数据还是连续数据 是人工数据还是自然数据,再定义其角色 找出其中的y和x
    y 一般是抽象的,且不容易得到的

    logistics分析步骤
    1:图形
    条形图
    2:相关
    卡方分析
    3:logistic
    回归系数
    信度指标
    卡方
    4:修正
    哑变量 (将其中x是分类的数据进行转换--》虚变量)
    工具变量法
    5:应用
    单结构 整体结构 预测新/老样本

    方差分析:
    分析的是连续跟分类之间的关系
    分析--》比较平均值--》单因素Anova检验

    伽马变换
    风险度量指标=又叫[OR]
    (风险度量指标[OR] - 1)/(风险度量指标 +1) 风险度量指标为: 0 -1 无穷 带入得出 -1 0 1 的数轴
    风险度量指标的数轴形式是以1为起始点,这样想除之后的伽马变换就变成了 -1 0 1 为数轴。表示的是这个x对y的相关性。


    2019.11.20日上午学习
    残差分析不能识别:
    共生性
    共线性 x1和x2高度相关,对贝塔和模型有影响


    SPSS缺失值处理
    缺失值数量 方法 比较 缺失值的系统名字
    3% 1:忽略 完全随机
    2:找均值
    3-20% Aihley方法做检验 P>0.05 回归 完全随机
    P<0.05 EM回归 随机缺失
    20-50% 多重插补 随机缺失
    50-80% 缺失值分类法 系统缺失
    80%以上 试试缺失值分类法 系统缺失
    不行就丢弃
    方法:
    缺失值3%的方法:
    转换--》替换缺失值--均值
    缺失值在3-20%的方法
    SPSS-》分析--》缺失值分析
    弹出页面--》选择要分析的数据,然后确定--》
    弹出的页面分析--》查看缺失的百分比--》根据y值还有大众选择对应的方法--》
    缺失值都在3-20之间,选择Aihley方法【勾选缺失值分析界面的EM】做检验得出P,再选择对应的方法--》
    弹出的页面 EM相关性表单
    MCAR检验的卡方为0.82 重要性=0.997 验证原假设:完全随机缺失
    大于0.05采用回归进行填补缺失值。
    缺失值分析界面--》估算--勾选回归--回归选择保存的数据文件
    小于0.05
    缺失值分析界面--》估算--勾选EM-EM 选择保存的数据文件

    缺失值在20-50%的方法
    SPSS-->分析--》多重插补--》分析模式
    SPSS-->分析--》多重插补--》插补缺失值--》
    选择模型的变量--》
    插补多少个 5-10 小样本的--》
    方法 选择定制--》
    约束 如何你知道范围可以就约束下--》
    输出选择输出文件--》
    插补的好不好 可行度高不高》
    采用折线图表现它的波动
    Y轴选择y的绩效
    x选择选择迭代编号
    组/点ID
    行面板放summaryStatistic 平均值、标准差
    分组/堆积面板放imputations的5次插补,既共享Y又共享X
    画出的折线图。五条线越纠结在一起表示可行度越高。

    插补了5次选择那一组?
    做回归分析,那么SPSS就会自动的做出6个的回归方程组
    分析--》回归--》线性
    为什么会自动做6个?
    这个因为SPSS根据插补号做了拆分,也就是变量视图里面的拆分角色。
    或者 选择 数据--》拆分文件--》然后选择插补号--》软件右下角就会出现拆分文件的文字
    根据你的业务选择,不知道就选择R方最高的一组。
    缺失值50-80%方法:
    缺失值分类法--》比如说工资这一列数据 又很多的缺失--》
    我们新起一列 工资缺失标记为1 负责标记为0--》则转换成表示用户是否关注隐私问题

    2019.11.21
    对多个x的处理步骤
    1:业务 找出重要几个x
    2:创建相关相关差的去掉
    分析--》相关--》R12相关
    3:判断x跟x的之间的相关性,相关大的看能否创建一个人工字段
    分析--》相关--》R12相关 找出x跟x的是否有高相关然后创建人工字段
    4:创建回归,动态方法判断x
    前进 少变多,相关比较多的会依次加入
    后退 多变少,相关比较小的会依次剔除
    逐步 当一个x相关少剔除,可是相关变强又拉进来
    一般我们采用后退
    5:主成分分析,压缩x,是多个变量组成了新的x。
    分析--》降维-->因子 得分-》保存变量
    切记不可将主要的变量x放进模型中。
    分析之后:我们要用的x是那些总体特征值大于1的x。
    要记得使用实用程序中的-->定义变量集和使用变量集

    2019.11.22
    用户画像(又叫聚合分析 分析的是行与行之间的联系 给用户贴标签)
    分析--》分类--》二阶聚类【默认选择这个】 (二阶的过程是先简单的分类再精细的分类)
    --》k-均值聚类(很简单 粗糙的分类)
    --》系统聚类(很精确、速度慢)
    距离测量:
    连续数据 选择欧式方法
    分类数据 选择对数似然方法

    弹出的图标中:
    预测变量重要性: 各个x对三个的类别起到的重要性排名
    聚类比类:在图形中三个类别的圆圈,各个类别对应的圆圈链接x 用线链接起来就是用户画像了。


    FRM模型
    F频率
    M金额
    R客户沉睡时间
    SPSS中的计算时间差(天)==》($TIME - cd_lastord_date) / 3600 / 24
    对时间x做整体的加减,是不会改变数据的意义的。因为我们统计学分析的是正态分布的图形
    加减只不过会向左向右平移。
    分析--》直销--》选择技术 【一般不用 看看即可】

    FRM过程:
    1:业务理论 (知道这个才能够精确对用户进行分组)
    2:量化
    3:分箱化
    4:价值评定

    【1】业务理论
    找出数据中的x,也就是FRM的字段是哪些
    【2】量化
    【3】分箱化
    将连续的变量 --》变成 分类数据
    转换--》可视分箱
    当形成的是一个严重右偏数据,就需要进行个案排秩
    (转换--》个案排秩--》将秩1赋值(选择最小值)--》绑定值(选择低))
    进行分组,分组时候要注意(1:找到拐点 2:拐点的事件 3:拐点的左右的意义)
    然后制作评分卡
    【4】价值评定
    如:将RFM分为两个 大 和小 两个维度
    R F M
    大 大 大 --》1%Vip客户
    小 大 大 --》挽留客户,其他都大,可是好像不来了
    大 小 大 --》不要动他
    大 大 小 --》数据和营销部门好好好好利用这些
    比如找到这些人,将每个人的最大订单费用找出,求出均值
    然后找到供应商,供货 营销。

    2019.11.23
    联合分析
    发布了一个产品,喜欢它的人群有3000人,我们抽300对其作对问卷调查,分析出产品的好坏,
    以及客户的喜好--改善产品 这一过程称之为联合分析。

    联合分析的5个步骤:
    1:确定研究对象的属性及其水平【借助业务高手】
    2:进行实验设计
    数据--》正交设计--》生成--》因子(即属性,就是x)
    定义值--》选项(最小个案:16 坚持个案4)
    3:对设计出来的问卷进行评级
    数据--》正交设计--》显示
    填写问卷的过程:
    先让客户选出 最喜欢的,最不喜欢的,中间的
    再让客户根据这个 三个值。排出问卷中的其他组合喜欢排序
    4:拟合数据,估计效用值
    将设计文件和评分文件要整合再一起 进行选择出最喜欢的组合是那个!
    新建--》语言--》编辑--》语法编辑器
    *联合分析主程序.
    conjoint plan='d:dataconjplan01.sav' ###设计文件
    /data='d:dataconjrank01.sav' ###评分文件
    /rank=rank1 to rank20 ###评分文件中的排序是怎么样的
    /factors=price(linear) seats (discrete) ##因子就是设计的x,linear我们认为价格和接受程度是线性的
    speed (linear) warranty (discrete more)
    /subject=subj ###评分的ID值是哪列
    /plot=all. ###画出所有图


    *联合分析模拟预测程序.
    conjoint plan='d:dataconjplan02.sav'
    /data='d:dataconjrank01.sav'
    /rank=rank1 to rank20
    /factors=price(linear) seats (discrete)
    speed (linear) warranty (discrete more)
    /subject=subj
    /print=simulation.

    预测数据:是将设计表格中的,设计标识为模拟数据,用模拟数据测试刚刚的模型。
    比较方法就是总计统计表格中的得分 与 最喜欢的组合得分相比。






  • 相关阅读:
    Nginx负载均衡和LVS负载均衡的比较分析
    Nginx和Squid配合搭建的Web服务器前端系统
    (总结)Linux服务器上最简单的Nginx反向代理配置
    Nginx主要模块常用指令说明
    (总结)Nginx 502 Bad Gateway错误触发条件与解决方法
    (总结)Linux下查看Nginx Apache MySQL的并发连接数和连接状态
    (总结)统计Apache或Nginx访问日志里的独立IP访问数量的Shell
    IoC模式(依赖、依赖倒置、依赖注入、控制反转)
    使用OAuth打造webapi认证服务供自己的客户端使用
    RESTful API 设计指南
  • 原文地址:https://www.cnblogs.com/hero799/p/11960759.html
Copyright © 2020-2023  润新知