炼数成金hadoop视频干货03

炼数成金hadoop视频干货03

视频地址：http://pan.baidu.com/s/1dDEgKwD

着重介绍了HDFS

运行了示例程序wordcount，自己也试了一遍（用的伪分布式）

1.建立数据（和讲师的操作有些不一样，不过我相信自己）

2.运行wordcount程序

3.查看结果

（可以看出来，只要没空格，它都看作是一个单词）

接下来介绍了50030和50070查看任务和HDFS状态

......

其中如果想看日志的话除了命令行也可以直接输入

http://localhost:50070/logs/

http://localhost:50030/logs/

查看堆栈信息

http://localhost:50030/stacks

关闭，再也不能修改，说的很绝对，但是是正确的，因为之后的修改是删除重写

其中机架策略看着比较神奇，我知道机架感知的结果，但是不知道以什么策略感知的，或许是上下文、带宽，讲师也不知道，留着后面探索

回收站，跟windows的机理一样，删除了的文件不会马上完全删除。当到一定的容量的时候会自动删除

快照机制，讲师说0.20.2还没实现，以后会实现，也没讲。

介绍了HDFS文件操作包括命令行和API（API是给如Java代码用的）

几个命令行命令

... ...

查看统计信息 hadoop dfsadmin -report

接下来讲了添加新节点方式，不过我觉得他讲的不对或者不全，我查了一下网上，随后详细实验一把再写出来

负载均衡（hdfs存储）

讲师给的截图有点忽悠人

他是在没运行hadoop的情况下运行的这个脚本，真实的情况应该是这样的

刚开始的时候可以把Log4J的日志级别降到Info或者DEBUG，这样显示的信息更多

为什么日志成了hadoop项目中最多的一种？

一次写入，不再改变，只能用于分析

Linux下统计目录下有多少文件命令

ls|wc -l

shuffle过程的作用

1.压缩文件，提高文件传输效率；

2.分担了reduce的一部分工作。

像split、sort这样的工作很多MR程序都要做，所以hadoop把他们分离出来，封装成了一个组件

不必在每个MR程序中自己编写

MR程序的提交或者说任务的提交可以在任何一台集群机器上，不是非得在namenode上

就是说client端可以是datanode、namenode。

启动JVM很浪费时间和资源，所以有了JVM重用

为什么namenode需要格式?

格式化不同于磁盘文件系统的格式化。是初始化元文件系统信息，在相应目录建立current等目录等

hadoop的数据不修改那还要in_use.lock干什么？

给目录上锁，防止目录中内容的并发写冲突

欲为大树，何与草争；心若不动，风又奈何。
相关阅读:
安卓中像素px和dp的转换
 Android 使用Vector XML文件创建矢量图片资源，editText监听
 动态设置RecyclerView的高度
 EditText一些用法
 各种加密算法比较
 多线程--Task，等待用户输入AutoResetEvent
AutoCAD二次开发——AutoCAD.NET API开发环境搭建
 Office（Excel、Word）二次开发——VSTO
个人信息管理PIM——密码管理工具软件
 【矩阵计算】矩阵乘法其一：基础符号和算法
原文地址：https://www.cnblogs.com/admln/p/dataguru3.html