DataHub 为数据分析提供了类似github的托管功能,并且让大家在线运行Ipython notebook,共享数据分析代码,从零开始学习数据分析的方法。DataHub 集数据收集管理,数据版本
http://datahub.top/ 数据分析基础:http://datahub.top/course/?catalog=2
构建一个基于hadoop + hbase + ZooKeeper + hive的基础数据处理分析平台
1、带领组员设计并研发数据迁移组件 VDataHub、Hive 计算框架 Hamza ;
2、基于 Kafka 消息中间件的监控系统 Metis;
3、 对线上 HBase 集群进行调优、bug 修复.
hive(数据仓库工具)
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
ElasticSearch是一个开源的分布式搜索引擎,具备高可靠性,支持非常多的企业级搜索用例。像Solr4一样,是基于Lucene构建的。支持时间时间索引和全文检索。官网:http://www.elasticsearch.org
它对外提供一系列基于java和http的api,用于索引、检索、修改大多数配置。
写这篇博客的的主要原因是ElasticSearch的网站只有一些简单的介绍,质量不高,缺少完整的教程。我费了好大劲才把它启动起来,做了一些比hello world更复杂一些的工作。我希望通过分享我的一些经验来帮助对ElasticSearch(很强大的哦)感兴趣的人在初次使用它的时候能够节省些时间。学完这篇教程,你就掌握了它的基本操作——启动、运行。我将从我的电脑上分享这个链接。