要做的事情:将生产集群里的老数据压缩备份到另一个集群。
要解决的问题:1,选择哪种压缩格式?经过几番尝试发现bzip2不错,压缩比最高,而且在hdfs里面不用解压缩就能被mapreduce读取(bzip2支持分割);
2,怎么把集群里的文件压缩?在哪里压缩好?有没有方法设置文件导入备份集群时就自动压缩成bzip2?
最好写程序来压缩。
4,如何把文件从生产集群复制到备份集群中去?
要做的事情:将生产集群里的老数据压缩备份到另一个集群。
要解决的问题:1,选择哪种压缩格式?经过几番尝试发现bzip2不错,压缩比最高,而且在hdfs里面不用解压缩就能被mapreduce读取(bzip2支持分割);
2,怎么把集群里的文件压缩?在哪里压缩好?有没有方法设置文件导入备份集群时就自动压缩成bzip2?
最好写程序来压缩。
4,如何把文件从生产集群复制到备份集群中去?