优点
其中的10k+,指的是每一个块必须>=1M
缺点
低延迟:是指hadoop处理数据都是以分钟为单位的,而不像storm那样的是以毫秒级为单位的。
高吞吐率:是指你分布式存储的文件块的大小必须最小是1M,不能再小了。
小文件存取的问题:如2亿的文件,虽然规模很大,但是每一个文件都很小,这样的话每一个都仍然会消耗NameNode的内存,所以此时不利于NameNode,所以当文件特别小的时候,不适合用hadoop处理。
数据写入上:只支持一次写入,后期不能更改,但是可以在最后的块处append,可以多次读取数据。