已经记不清是第几次部署集群了,但是可能是因为也有一段时间不部署最新的了,然后确实最基本的不够熟练,各节点情况不太熟悉。卡了几下子,记录在案,望不再犯此类问题。
先是修改/etc/hosts,加chattr+i防恶意篡改,修改/etc/rc.d/rc.local,防重启后主机名改变。然后就是hadoop用户建公钥,ssh-key。。。 添加到.ssh中,然后修改权限600、700,往其他节点上拷贝,竟然使用的root权限,拷贝过去公钥在hadoop用户时无法读取,未能成功无密访问。。。。
这个做了两次,才发现问题,太搞了。
接下来就是启动集群,启动的时候一看是没有问题的,但是网页看不了,datanode、tasktracker启动后过一会儿就停了,又重新格式化命名空间,重新启动,还是不行。查看了下节点日志,我去啊,竟然是防火墙没关。。。。。。
每次搭环境都大致如此,环境的所有相关信息一概全无。都靠自己摸索,告你IP范围,告你用户名密码,告你验收时间,剩下的就没有了。集群现有环境一问三不知。
每次搭好后,都轮不上你用,都是别的团队拿去了,直到出现问题,需要有人去调,去维护,才又想到了你。
想把每一个人都培训好,可是严格了就说你好严格啊,不严格吧,,过了试用期的都还不会搭个小集群。名义上是有多年经验的,具有win、linux多操作系统经验的。
想当初,我却是刚用linux不到一星期,听了一个hadoop安装的内部培训,拿了培训的PPT,然后就OK了,而今的大家,在手的资料有内部培训PPT,有我的安装视频,有我的安装步骤word文档,有我在园里找到的mapreduce细节等资料。却怎么都学不来。。
可是,是真的学不来吗?这有什么困难呢?只是因为每次集群有问题,都知道有个我,所以也就不会去尝试着学习怎么解决类似问题。
可悲的是,当我决定让任意一个新人来解决类似问题的时候,其实说效率的话不如我自己做,我让你做就已经做好了给你收拾烂摊子的心理准备了。却被看作是。。。。。。
一言难尽