hive-=mareduce 的 split 在 hbase就是 region了,,,,,,,访问region必须通过hregionserver 会造成regionser负担过大,
另外 region有可能很大,并发度不高。
1 需要大量随即读写的时候,hbdfs不支持随即读写哦。
2 大数据上高并法操作,比如每秒对pb级数据进行上千次操作。
3 读写访问非常简单,不存在一些join之类的复杂操作。
举例:
消息系统:聊天系统和邮件系统(非消息队列)
一个较小的临时数据集,经常变化
一个不断增加的数据集,是很少被访问。
hbase同时解决了这两个需求。
淘宝的交易记录用hbase存储,基于userid+time+id 设计的rowkey~~~~~ 怎么才能设计出来呢????? id是代表某个商品喽。。。。。就是把你要查询的东西都设计到rowkey里并且是可编程的。