1 典型互联网搜索问题:BigTable发明的原因
搜索使用场景
1) 爬虫持续不断地抓取新页面,这些页面每页一行地存储到HBase里。
2 )MapReduce计算作业运行在整张表上,生成索引,为网络搜索应用做准备。
3) 用户发起网络搜索请求。
4) 网络搜索应用查询建立好的索引,或者直接从HBase直接得到单个文档。
5) 搜索结果提交给用户。
2 捕获增量数据
OpenTSDB(Open Time Series Database)用来收集服务器的各种监控参数。按照时间收集参数一般称之为时间序列数据:也就是说,按照时间顺序收集和记录数据。这个框架使用HBase作为核心平台来存储和检索所收集的参数。创建这个框架的目的是为了拥有一个可扩展的监控数据收集系统,一方面能够存储和检索参数数据并保存很长时间,另一方面如果需要增加功能也可以添加各种新参数。
FaceBook使用HBase的计数器来计量人们Like特定网页的次数。
3 内容服务
一方面是用户使用内容 User Consuming Content,对应另一面是用户生成内容 User Generate Content。Tweeter、Facebook帖子、Instagram 图片和微博等都是这样的例子。他们相同的地方是使用和生成了许多内容。大量用户通过应用系统来使用和生成内容,而这些应用系统需要Hbase作为基础
4 信息交换
当你使用Facebook时,某个时候你可能会收到或者发送短信给你的朋友。Facebook的这个特性完全依赖于HBase。用户读写的所有短信都存储在HBase里。支持Facebook短信的系统需要具备:高的写吞吐量,极大的表,数据中心内的强一致性。除了短信系统之外,使用HBase的其他应用系统另外要求:高的读吞吐量,计数器吞吐量,自动分库。
5 不适合场景
Join、报表的事务