1、典型的数据分析过程可以总结为一下图形:
注意,在模型建立和验证的过程中,可能需要重新进行数据清理和模型建立。
2、R语言一般用 <- 作为赋值运算符,一般不用 = ,原因待考证。用->也可以。
3、
age <- c(1,3,5,2,11,9,3,9,12,3) weight <- c(4.4,5.3,7.2,5.2,8.5,7.3,6.0,10.4,10.2,6.1) mean(weight) sd(weight) cor(age,weight) plot(age,weight)
上面这一段代码是基本的展示,其中
sd:求标准差函数。
cor:求相关(线性)系数,相关阵或者协方差阵。
下面是涉及到的几个函数:
demo:示例函数,后面加具体函数会有示例展示,不加参数显示demo列表。特别的,用demo可以查看不少漂亮的图例,demo下面的参数有很多,有着不同的功能,下面贴一下执行demo()之后得到的结果。
Demos in package ‘base’: error.catching More examples on catching and handling errors is.things Explore some properties of R objects and is.FOO() functions. Not for newbies! recursion Using recursion for adaptive integration scoping An illustration of lexical scoping. Demos in package ‘graphics’: Hershey Tables of the characters in the Hershey vector fonts Japanese Tables of the Japanese characters in the Hershey vector fonts graphics A show of some of R's graphics capabilities image The image-like graphics builtins of R persp Extended persp() examples plotmath Examples of the use of mathematics annotation Demos in package ‘grDevices’: colors A show of R's predefined colors() hclColors Exploration of hcl() space Demos in package ‘stats’: glm.vr Some glm() examples from V&R with several predictors lm.glm Some linear and generalized linear modelling examples from `An Introduction to Statistical Modelling' by Annette Dobson nlm Nonlinear least-squares using nlm() smooth `Visualize' steps in Tukey's smoothers Use ‘demo(package = .packages(all.available = TRUE))’ to list the demos in all *available* packages.
其中,graphics是一个包,用来画图形。试一试这些参数看看都是什么效果:
Hershey:一种字体,赫尔希研发的矢量字体,用来渲染文本用的;
其他的看说明能猜到,有一些:
persp:貌似用来画三维图形;
plotmath:数学公式的对应的函数名称,可能会很有用以后;
is.things:is.XXX的各种函数列表;
recursion:跟递归有关系……;
colors:R内置的颜色,很多彩;
hclColors:颜色扩充,更多姿多彩了!。
4、关于R中的帮助,用的最多的就是?+函数名了,没想到还有这些可以用:
感觉用?和??最方便,不过没怎么试过example,下回试试;另外,貌似apropos可能适合乱找一些相关函数;data()挺好,可以看现在那些数据集可以用,比如用过的iris就可以看到到;vignette函数可以查看安装的包里面的vignette文档,先用vignette()查看文档名,再用vignette(文档名)就可以直接打开文档。
5、R工作空间管理函数:
其中,删除所有变量的语句为:rm(list = ls(all = TRUE)).用options()命令可以设置一些环境变量,比如options(digits=10),这个命令,可以把R的整数表示能力设为10位(来自:http://blog.csdn.net/aldenphy/article/details/9405305)。R语言中的正斜杠‘/’表示目录,比如“E:/R”,而反斜杠‘’表示转义字符。setwd函数不会创建不存在的文件夹,可以用dir.create函数创建目录。以后每次开始的时候先设置一个目录是极好的!
sink函数第一次听说:sink函数可以将文件重定向到文件中,参数append=TRUE,可以在文件总追加,而不是覆盖。sink函数从sink(file=”example”)开始,向example中输出文本结果,直到遇到sink()这时候向example的输出结束。
关于图形输出,可以用下面的函数:
以上函数的规则是,举个例子,用pdf(“filename.pdf”)函数打开一个pdf文件,然后在执行一些图形命令,直到遇到dev.off()函数,向filename.pdf输出图形的工作结束。
ps.吐槽一句,书上写的太模糊了,不实地操作就会比较困惑……
函数.libPaths()函数可以显示包储存的位置,search()函数可以直到哪些包已经加载并且可以使用。install.packages()可以显示一个cran镜像点的列表(我的rstudio报错)。installed.packages()函数可以列出已经安装的包和信息。update.packages()函数可以更新包。由于每次打开R包的加载信息都会丢失,可以设置启动环境,从而自动加载常用的包。对于如何查看包的信息,可以用函数help(package = “package_name”)来查看包中函数列表和数据集列表以及包的简短描述。
R语言可以执行批处理命令,执行R.exe??现在还搞不清楚怎么回事,网上说.exe形式是没有必要的。
关于大数据集的处理,书上说R可以处理GB到TB级的数据分析问题,但是需要专门的工具实现。R有一点不好,保存的所有东西都会放在内存里,这就导致小的内存处理的数据集有限制,我做阿里比赛的时候就有感觉了……书上说附录G有解决大数据集的方法。
下面是一个实例实战:
help.start() #这里是打开Introduction to R install.packages("vcd") help(package="vcd") library(vcd) help(Arthritis) Arthritis example(Arth)
其中,vcd包是一个关于可视化类别数据的包,将在第11章使用.