R语言在进行数据库查询时,每执行一条语句,都会阻塞。直到查询语句返回结果之后,才会进行下一条语句。
为了能够实现同时对多个数据库进行查询,以节省顺序执行下来的时间,首先考虑通过多线程来进行数据库查询。
不过多数据库同时查询,多个结果合并起来过大的话,本地机器的内存可能是一个风险点,心里要对可能需要的内存有所把握。
R下进行多线程依赖与doParallel包和foreach包。
> install.packages('doParallel') > install.packages('foreach') > library(doParalled) > library(foreach) > library(RMySQL)
# 生成2个集群,多少个集群结合本地机器硬件配置和自己需要
> cl <- makeCluster(2)
# 注册多线程,个人理解,parallel包应该是声明在后端开启多核处理模式,让硬件准备环境,分配资源
> registerDoParallel(cl)
# %dopar%是foreach包的语法格式,表示多线程运行.
# foreach默认返回一个list,也可以指定一个函数,在线程处理完成后直接对结果进行rbind,sum等组合操作。更多查看?foreach
> qdata <- foreach(i=1:2) %dopar% { if (i == 1) conn <- connectdb_1() else conn <- connectdb_2()
re <- dbGetQuery(conn, query) dbDisconnect(conn)
return(re) } # 关闭集群 > stopCluster(cl)