大数据分析:结合 Hadoop或 Elastic MapReduce使用 Hunk

大数据分析:结合 Hadoop或 Elastic MapReduce使用 Hunk

作者 Jonathan Allen ，译者张晓鹏

Hunk是Splunk公司一款比較新的产品，用来对Hadoop和其他NoSQL数据存储进行探測和可视化，它的新版本号将会支持亚马逊的Elastic MapReduce。

结合Hadoop使用Hunk

Hadoop由两个单元组成。首先是被称为HDFS的存储单元。HDFS能够分布在成千上万个复制的节点上。接下来是MapReduce单元，它负责跟踪和管理被命名为map-reduce jobs的作业。

之前，开发人员会用到Splunk Hadoop Connect (SHC)连接器。SHC通过经常使用的推模型（push model）来输出数据到Hadoop中。这块处理相当地好，但相反方向的处理却可能会有问题。当通过Splunk来探測数据时，原始的数据会被吸收到Splunk Server来检索和处理。就像人们猜想的那样。这个过程并没有发挥出Hadoop计算能力的优势。

Hunk通过提供与Hadoop MapReduce节点协同工作的适配器来解决问题。
Splunk的查询被转化成Hadoop MapReduce的作业，这些作业在Hadoop集群中处理，终于仅仅有结果被取回到Splunk server中进行分析和可视化。

通过这样的方式，Hunk提供了抽象层，以便用户和开发人员不须要关心怎么去写Hadoop MapReduce的作业。
Hunk还能在MapReduce作业启动前就提供结果预览，以降低无用搜索的数量。

结合Elastic MapReduce使用Hunk

亚马逊的Elastic MapReduce能够看做是对Hadoop的补充，同一时候也是Hadoop的竞争者。EMR既能够执行在Hadoop HDFS集群上，也能够直接执行在AWS S3上。亚马逊宣称使用AWS S3的优势在于比HDFS集群更易于管理。

当执行Elastic MapReduce时。Hunk提供了同样的抽象层和预览功能，就像它在Hadoop上做的一样。
所以从用户的观点来看，在Hadoop和EMR之间切换不会造成什么变化。

云上的Hunk

在云上托管Hunk的传统方法是买一个标准版的许可证。然后部署到虚拟机中，这和你现场安装一样简单。
接下来是
相关阅读:
scala 获取当前时间的两种方式
 log4j配置输出日志文件
 scala读取jar包外配置文件的方式
 scala 异常处理机制
 IDEA 安装scala插件
 第2部分 Elasticsearch查询-请求体查询、排序
 第1部分 Elasticsearch基础
 2.css
1.html
Linux搭建Nexus仓库+高可用方案
原文地址：https://www.cnblogs.com/zhchoutai/p/7382152.html

最新文章
LeetCode
LeetCode
UVa 455
UVa 1225
UVa 1586
UVa 1585
UVa -1584 Circular Sequence 解题报告
 UVa 1583
UVa 340
UVa 401

大数据分析:结合 Hadoop或 Elastic MapReduce使用 Hunk

结合Hadoop使用Hunk

结合Elastic MapReduce使用Hunk

云上的Hunk