原文链接:http://tecdat.cn/?p=6062
这场灾难以拯救“妇女和儿童第一”而闻名,所以让我们来看看性别和年龄变量。我们将从乘客的性别开始。将数据重新加载到R后,请查看此变量的摘要:
所以我们看到大多数乘客都是男性。对幸存的男性和女性进行双向比较:
我们希望看到的是行数比例,即存活的每个性别的比例。
我们现在可以看到大多数女性幸存下来,并且男性的比例非常低。
在这里,我们开始像以前一样添加“everyone dies”预测列,除了我们将抛弃rep命令并将零指定给整个列。然后我们改变了相同的列,其中1为乘客的变量“Sex”等于“女性”。
现在让我们写一个新的提交并发送给Kaggle
现在让我们开始深入研究年龄变量:
数据分析中可能缺少值,这可能会导致现实世界中出现的各种问题,而这些问题有时很难处理。目前我们可以假设177个缺失值是其余乘客的平均年龄。
现在我们有一个连续的变量,我们创建一个新的变量“Child”来表明乘客是否低于18岁:
现在我们要创建一个包含性别和年龄的表,以查看不同子集的生存比例。首先让我们尝试找出不同子集的幸存者数量:
但我们不知道每个子集中的总人数; 让我们来看看:
我们需要创建一个函数,它将子集向量作为输入,并将sum和length命令应用于它,然后进行除法以给出一个比例。
虽票价是一个连续变量,需要将其简化为可以轻松制表的内容。我们将票价收入不到10美元,10美元到20美元,20美元到30美元以及30美元以上,并将其存储到一个新变量中:
现在让我们运行一个更长的聚合函数,看看这里有什么有趣的东西:
虽然大多数男性,无论是班级还是票价仍然做得不好。
让我们根据新的见解做出新的预测。
好的,让我们创建输出文件,看看我们是否做得更好!