描述统计学入门

描述统计学入门

目录

　　一、研究方法入门

　　二、数据可视化

　　三、集中趋势

　　四、可变性

　　五、归一性

　　六、正态分布

　　七、抽样统计

　　八、最终项目

一、研究方法入门

　　1、Lauren's Intro Video

　　2、练习；相信结果

　　　　假如你明天有一场大考，你要尽力保证自己记忆力清晰，你会做什么准备呢？
　　　　调查结果：
　　　　　　42% 努力健身
　　　　　　28% 好好吃一顿
　　　　　　16% 通宵达旦地学习
　　　　　　13% 睡个好觉
　　　　　　1% 其他
　　　　你信任调查结果吗？在下结论前，你想要了解什么呢？
　　　　　　我调查了多少人？
　　　　　　我调查了哪些人？
　　　　　　调查是怎样进行的？

　　　　你应该了解所有选项，因为它们都会影响到结论的有效性。一个良好的样本容量、一个代表性样本、合理的方法论对于一项成功的研究调查都是直观重要的。当你在解读和分析一项研究时，应该始终关注这些要素，这样你便能以有效的调查为基础做出明智的选择。

　　3、练习：测量记忆

　　　　假设有个好记性才能有个好成绩，这意味着我们必须竭尽所能地去增强记忆力，因此我们会关注那些影响记忆力的因素。如果我们在做一项真实的研究调查，想要确认这些因素会对记忆力产生积极影响，但是我们没法分析它们和记忆力间的关系，除非有一个明确的定义或方法来测量记忆力。那么你将怎样测量记忆力呢？这里没有正确或错误的答案。只是为了让你思考一下

　　4、定义抽象概念

　　　　（1）你怎样定义幸福？

　　　　——心平气和

　　　　——过着惬意的生活

　　　　——更多的是你的内心感受，包括你带给别人的

　　　　（2）你怎样测量幸福？

　　　　——我不知道，我从来不测量幸福

　　　　——我想我可能看我一天笑了多少次来测量它

　　　　——说不清楚，这事我得想想

　　　　——他们的态度，他们自己的行为方式

　　　　（3）你会怎样定义记忆力？

　　　　——记忆力是一种信息、数据的积累，更重要的是你怎么去应用它、使用它

　　　　——一种找回就是信息的能力

　　　　——那些我想要记住的事情，以后会用到的

　　　　（4）你怎么定义痒？

　　　　——不舒服，对，就是所谓的不舒服

　　　　——让你觉得不爽，一定要去挠它

　　　　——痒的程度是和挠的时间相对应的

　　　　——根据痒的范围大小

　　　　（5）如果像幸福一样，你现在要去测量你的狗有多痒，你会怎样做？怎样量化它？

　　　　——我会看它们挠的有多频繁或者全身抖动有多频繁

　　　　（6）你怎样测量压力？

　　　　——我觉得会有一些医学方法可以测量压力

　　　　——看我是否皱眉、我的嘴角

　　　　——也许通过心跳吧

　　　　——脑袋的充血量

　　5、BBC记忆测试

　　　　很显然，有不止一种方法测试比如记忆力、幸福度、憎恶度、喜爱度这些“构念”有时定义和测量构念是非常困难的，所以我们会使用许多不同的方法。BBC创造了一个实验去测量记忆力，这个测试基于你能多完好地记忆面孔

　　6、记忆测试描述

　　　　可惜，BBC 已经不再提供人脸记忆测试了。数据参照：https://files.cnblogs.com/files/Lamfai/BBC%E7%BB%93%E6%9E%9C.rar

　　　　下面是此测试的简单描述，以帮助你跟上课程其余部分。该测试包含三个部分：

　　　　　　1、在第一部分向用户展示 12 张照片。
　　　　　　2、在第二部分向用户展示另外 12 张照片。
　　　　　　3、在第三部分向用户展示 48 张照片，并询问他们是否在第一部分/第二部分见过每一张照片或在这两个部分都没见过。
　　　　测试之后，用户会得到两个分数：

　　　　“识别得分”，用户正确猜出某张人脸他是否见过的比例，不论用户看到的是人脸的哪个部分。
　　　　“短期记忆得分”，用户正确猜出某张人脸属于第一部分还是第二部分的比例。
　　　　测试建议用户在完成第一部分，开始第二部分前休息5分钟。

　　7、BBC分数

　　　　你得到一个认知分数和一个短期记忆分数。短期记忆分数代表你看到每个面孔时记忆程度如何。

　　8、Google账户

　　　　通过Google账户共享数据。

　　9、练习：BBC测量

　　　　现在我们将进行一个小测试，它会帮助你思考测量记忆力的方法

　　　　BBC 是如何测量记忆的？

　　　　　　你记住了哪些面孔？
　　　（√）你从第一部分和第二部分正确识别和放置的百分比？
　　　　　　你是否知道你是第一次还是第二次见到某个面孔？
　　　　　　你是否知道某个面孔已存在？
　　　　　　你记住的面孔数量？
　　　　选它时因为用“百分比”来描述事实更加精确

　　10、操作定义　　

　　　　当选取了一种度量方法，也有了一种可操作的定义。所以，在BBC的调查中，好记忆力的可操作定义是正确识别面孔及归属部分的数目的百分比。一旦有了可操作定义，我们便可以在现实世界中度量构建。

　　11、练习：抽象概念

　　　　正如前述，构建很难定义和度量，也许每个人都由自己的定义方式和度量方法，那么现在我们做一个练习，来看看你对构建理解的程度，选出下面所有你认为是构建的选项：

　　　　以下哪些属于抽象概念（Constructs，也叫建构）？

　　　　　　（×）几加仑的汽油
　　　　　　（√）智力
　　　　　　（√）努力
　　　　　　（√）年龄
　　　　　　（√）饥饿
　　　　　　（×）有多少美元的年薪
　　　　　　（√）痒

　　12、练习：操作定义

　　　　可以为左边的抽象概念，从右边选出恰当的操作定义吗？

　　　　　　抽象概念　　　　　　　　　操作定义
　　　　　　抑郁（D）　　　　　　　A. 静息心率
　　　　　　饥饿（H）　　　　　　　B. 皮质醇水平（压力激素）
　　　　　　压力（B）　　　　　　 C. 准备考试花费的时间
　　　　　　愤怒（G）　　　　　　　D. 贝克抑郁自评量表
　　　　　　快乐（I）　　　　　　　  E. 身体质量指数（BMI）
　　　　　　健康（A）　　　　　　　 F. 每一年对某一特定品牌产品的购买量
　　　　　　肥胖（E）　　　　　　　 G. 每分钟说了多少脏话
　　　　　　努力（C）　　　　　　　H. 食物消耗量
　　　　　　品牌忠诚度（F）　　　 I. 微笑的时间除以不笑的时间

　　13、数据

　　　　数据是统计学最重要的部分，如果没有数据，我们什么也做不了。

　　　　现在我们知道了你的睡眠长短、你的认脸分数、你的短期记忆分数，还有输入分数的人的各项数据值。
　　　　第一个人睡了7个小时，认脸分数91%，短期记忆分数86%。

　　　　第二个人睡了6.5小时，认脸分数为95%，短期记忆分数为78%。

　　　　……

　　　　每行数据对应一个人的睡眠时间、认脸分数和短期的记忆分数，这些都称为变量。

　　14、练习：睡眠与记忆

　　　　如果说我们的数据表明，每天睡觉少于6小时的人他们的短期记忆得分都小于70%，每天睡觉多于6小时的人，短期记忆得分均大于70%。

　　　　哪个结论是最可信的？

　　　　　　睡的越少记忆力越好
　　　（√）睡的越多记忆力越好
　　　　　　不论睡多睡少，总是得到一样的记忆分数
　　　　　　睡眠和记忆力沾不上边

　　15、练习：影响记忆

　　　　除了睡眠之外，其他因素也会影响你的记忆力。

　　　　还有哪些因素会影响你的记忆力？

　　　　　　（√）进行测试的时间
　　　　　　（×）夏威夷的棕榈树棵数
　　　　　　（√）你是否压力很大
　　　　　　（×）牛奶的价格
　　　　　　（√）是否按照建议休息了 5 分钟
　　　　　　（×）冥王星的质量
　　　　　　（√）你的年龄
　　　　　　（√）不够专心

　　　　这项BBC研究的结论是年龄和测试的时间点是影响人们记忆力表现最大的两个因素。

　　16、练习：控制测试时间

　　　　如果都是在同一时间参加该测试，你会更加信任数据吗？

　　　　（√）是
　　　　　　  否

　　　　我们会更加相信这一结果，因为某个因素为常量。当更多的因素为常量时，测试结果就更可信。因为对于所有参加考试的人来说，这些条件都是一样的。我们始终需要考虑到外界因素，即会影响到结果但是我们可能没有考虑到的因素。这些外界因素会影响到结果。在这种情况下，即记忆力这些外界因素通常称为潜在变量。它们会潜伏在四周，等着扰乱结果。我们很难考虑到所有可能的外界因素。

　　17、练习：相同分数

　　　　你认为这节课学员的平均得分会与这些平均结果完全一样吗？

　　　　　　一样

　　　　　（√）不一样

　　　　总体参数（µ）是用来描述整个总体的值。

　　　　样本统计量（

$100% 82%$

$98% 93%$

　　　　该样本的平均结果是大于、等于还是小于总体的平均结果？

　　　（√）大于
　　　　　　等于
　　　　　　小于

　　　　这个示例很好地证明了有时候我们的样本并不能准确地估算总体参数。

　　19、练习：更好的样本

　　　　怎么才能使样本统计数据的平均值 X 更接近于总体参数 μ ？

　　　　　　使用更小样本量
　　　（√）使用更大样本量

　　20、随机性

　　　　已知最早的对随机一词的学术定义出现在由John Venn在1888年出版的一本叫做《机会的逻辑》的书。他在书中提到，随机分布的科学定义可以用暴雨中的雨滴这一示例来表示，没有人能知道某一瞬间雨滴会滴落在哪里，但我们知道，如果我们拿出一张纸，这张纸会逐渐被淋湿。如果我们在这张纸上找出两个面积相同的部分，这两部分最后会淋到几乎相同的雨滴数量，这就是随机样本，每个对象被选中的概率都是一样的。这时我们的样本就更容易估算出总体参数。

　　21、练习：可视化关系

　　　　现在假设我们有一组10个人的随机样本，他们分别告诉我们，他们昨晚的睡眠时间以及他们在BBC测试中的短时记忆得分，这两个变量之间有联系吗？只根据一串数字很难判断二者之间的联系，所以我们用图表来表示。　

　　　　

　　　　这个散点图形象地描述了表格中的数据，每个行都代表一行数据。睡眠时间位于X轴，短时记忆得分位于Y轴。我们将X轴上的变量称为自变量或预测变量，将Y轴上的变量称为因变量，即结果。我们尝试使用睡眠时间来预测短时记忆得分。现在已经通过图表形式看到这组数据，能看出睡眠时间和短时间记忆得分之间的关系。

　　　　睡眠时间和短时记忆得分之间有什么关系？

　　　（√）睡得越久，你的短时记忆得分就越高
　　　　　　睡得越久，你的测试成绩越好
　　　　　　睡得越久，你的记忆越差
　　　　　　二者没有关系

　　　　数据可以由多种表现形式，例如原始数据、图表数据以及总结整体数据的一些数字，我们应该选择恰当的表达方式从数据中得出可靠的结论。

　　22、练习：真或假？

　　　　如果你更早去睡觉，第二天你的记忆力一定会更好吗？

　　　　　　是的
　　　（√）才不是呢

　　　　因为存在潜在变量或外界因素，我们还没有考虑这些因素，换句话说，我们还没有控制潜在变量，睡眠可能会影响记忆力从图表显示的趋势来看，这种影响很可能是成立的，但是有很多因素也会影响到记忆力，而且是因人而异的。睡眠时间和短时记忆得分之间有联系，但是并不能表明（更多的）睡眠时间会产生更高的短时记忆得分。换句话说，相关并不代表因果。

　　23、金色拱门理论

　　　　Thomas Friedman 在他的《凌志汽车与橄榄树》一书中提到，任何两个开设了麦当劳门店的国家从未彼此交战过，这也叫做“预防冲突的金色拱门理论”。听到Thomas Friedman的理论，政策制定者可能会得出结论，如果每个国家都至少开一家麦当劳店，我们就可以实现世界和平了。

　　24、麦当劳

　　　　你知道任何两个开设了麦当劳门店的国家从未彼此交战过吗？你知道这一现象吗？

　　　　——不知道

　　　　——是的，因为大家都吃胖了，变得懒惰了

　　　　——因为有美食美味-经济全球化

　　　　——一旦你的国家有了麦当劳，大家的动力就小了

　　　　——能够开麦当劳，表明国家经济水平提高了

　　　　——或许是允许麦当劳入驻的国家更能接纳美国

　　　　——实际上对这一现象我都表示怀疑

　　25、练习：世界和平

　　　　你怎么看？

　　　　　　完全合理！麦当劳使人们更加开心，人们开心了，就不会有战争了。
　　　　　　国家将好多钱花在开设麦当劳门店上，无法维持战争开销。
　　　　　　开设麦当劳门店的国家的人民，吃得太不健康，结果没法打仗。
　　　（√）开设麦当劳门店的国家，更愿意接受全球化和国外投资，不太会与其他开放国家交战。
　　　　请注意，尽管这个理论有非常充分的实证支持，但是人类冲突是非常复杂的，无法仅由一个单方面的因素解释。

　　26、因果推断

　　　　即使我们能够在两个变量之间发现某种规律，我们还是必须考虑潜在变量。我们发现睡眠时间和短时记忆之间有某种联系，但是我们无法确定是睡眠提升了记忆力，那该如何证明是睡眠提升了记忆力呢？如果我们只想通过散点图显示关系，我们可以展开观察性研究，只记录已经存在的数据，或者可以开展调查，把人作为主要研究对象。向他们提出问题，试图获得我们感兴趣的答案。但是，如果我们想要显示因果关系，即某个特定因素导致了另一个因素，我们就需要进行对照实验。

　　27、练习：调查问卷的优势

　　　　社会和行为科学研究中经常会用到问卷调查。

　　　　你认为通过调查问卷展开调查的好处有哪些？

　　　　　　（√）它是了解总体的最简单方式之一
　　　　　　（√）相对来说成本较低
　　　　　　（√）可以远程进行
　　　　　　（√）任何人都可以访问并分析调查结果

　　28、练习：调查问卷的不同

　　　　你认为通过调查问卷有哪些不足呢？

　　　　　　不真实的回答
　　　　　　有偏见的回答
　　　　　　参与者没理解问题的意思
　　　　　　参与者拒绝回答

　　29、安慰剂

　　　　你认为给某些人派发没有疗效的药丸的目的是什么？

　　　　　　为了确保有效药丸没有副作用
　　　（√）让服用有效药丸的人群有一个对照组
　　　　　　了解无效药丸是否有助于睡眠

　　30、单盲

　　　　为什么不告诉参与者，他们服用的是有效药丸还是无效药丸？

　　　　　　所有良好的研究都会欺骗参与者
　　　　　　当参与者知道他们服用的是药物，就不会参与研究了
　　（√）让参与者都认为自己服用的是药物
　　　　　　当参与者知道自己服用的不是药物，就不会参与研究了

　　31、双盲

　　　　你认为这些研究人员应该知道参与者服用的是哪种药丸吗？

　　　　　　应该知道，因为他们的评分取决于参与者接受的疗法
　　　　　　不应该知道，这样可以保持参与者机密性
　　　　　　应该知道，这样研究人员的评分会更准确
　　　（√）不应该知道，因为如果知道了，他们的判断就存在偏差了

　　32、受控因素

　　　　在这个实验中，我们控制了哪些因素？

　　　　　　（√）参与者服用药丸的时间
　　　　　　（√）参与者睡眠地点
　　　　　　　　  参与者的性别
　　　　　　　　参与者的年龄
　　　　　　（√）药丸的外观

　　33、随机分配

　　　　睡眠对记忆力来说很重要，晚上睡得好比多学几个小时更有效果。参照：https://www.cnblogs.com/Lamfai/p/10441451.html

　　34、练习：控制什么？

　　　　二项测试中，参与者在测试前睡得很多，然后比较两次测试的结果。在这个试验中，我们控制了哪些因素？

　　　　　　因为性别不同造成的记忆力差别
　　　　　　每个人的睡眠时间的长短
　　　（√）每个人的记忆能力的差异
　　　　　　被试在一天的什么时间参加记忆力测试

　　35、练习：Katie的手

　　　　Katie 的手的长度是 6.75 英寸，你认为她有多高？

　　　　点击这里下载数据：身高和手长

　　36、练习：得出结论

　　　　考虑到我们已知 Kaite 的手长是 6.75 英寸，我们可以从这组“身高和手长数据”中得出什么结论？

　　　　　　如果 Kaite 想变的更高，我的指甲应该留得更长
　　　　　　更高的人手更长
　　　　　　Kaite 不可能高于 7 英尺
　　　（√）手更长的人，一般也更高
相关阅读:
【Linux】安装NFS和NFS挂载
 【Golang】Demo
【Windows】系统定时任务
 【Python】pcap抓MySQL网络包
 【ES】Python调用Elasticsearch
nginx 代理node高并发下报错 recv() failed(104 Connection reset by peer) while reading response header from upstream
解决图片为适应不同机型，放大缩小时模糊失真的问题
 UnicodeEncodeError: 'ascii' codec can't encode characters in position 544: ordinal not in range(128)
Lambda 常用API
MySQL主从搭建笔记
原文地址：https://www.cnblogs.com/Lamfai/p/9862527.html

描述统计学入门

目录

一、研究方法入门

二、数据可视化

三、集中趋势

四、可变性

五、归一性

六、正态分布

七、抽样统计

八、最终项目

一、研究方法入门

　　一、研究方法入门

　　二、数据可视化

　　三、集中趋势

　　四、可变性

　　五、归一性

　　六、正态分布

　　七、抽样统计

　　八、最终项目