.hadoop是什么
Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。
二 .hadoop能干什么
hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!)
三.hadoop的核心
1.HDFS: Hadoop Distributed File System 分布式文件系统
2.YARN: Yet Another Resource Negotiator 资源管理调度系统
3.Mapreduce:分布式运算框架
四.HDFS的架构
主从结构
•主节点, namenode
•从节点,有很多个: datanode
namenode负责:
•接收用户操作请求
•维护文件系统的目录结构
•管理文件与block之间关系,block与datanode之间关系
datanode负责:
•存储文件
•文件被分成block存储在磁盘上
•为保证数据安全,文件会有多个副本
Secondary NameNode负责:
合并fsimage和edits文件来更新NameNode的metedata
五.Hadoop的特点
扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。
成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。
可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。
六.NameNode
1.简介
namenode是整个文件系统的管理节点。他维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。
文件包括:
fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。
edits:操作日志文件。
fstime:保存最近一次checkpoint的时间。
2.NameNode的工作特点
NameNode始终在内存中保存metedata,用于处理“读请求”,到有“写请求”到来时,NameNode首先会写editlog到磁盘,即向edits文件中写日志,成功返回后,才会修改内存,并且向客户端返回。
Hadoop会维护一个人fsimage文件,也就是NameNode中metedata的镜像,但是fsimage不会随时与NameNode内存中的metedata保持一致,而是每隔一段时间通过合并edits文件来更新内容。Secondary NameNode就是用来合并fsimage和edits文件来更新NameNode的metedata的。
3.什么时候checkpoint
fs.checkpoint.period 指定两次checkpoint的最大时间间隔,默认3600秒。
fs.checkpoint.size 规定edits文件的最大值,一旦超过这个值则强制checkpoint,不管是否到达最大时间间隔。默认大小是64M。
七.SecondaryNameNode
1.简介
HA的一个解决方案。但不支持热备。配置即可。
执行过程:从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,替换旧的fsimage.
默认在安装在NameNode节点上,但这样...不安全!
2.工作流程
(1)secondary通知namenode切换edits文件;
(2)secondary从namenode获得fsimage和edits(通过http);
(3)secondary将fsimage载入内存,然后开始合并edits;
(4)secondary将新的fsimage发回给namenode;
(5)namenode用新的fsimage替换旧的fsimage;
八.DataNode
提供真实文件数据的存储服务。
文件块(block):最基本的存储单位。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。HDFS默认Block大小是128MB,以一个256MB文件,共有256/128=2个Block.
dfs.block.size
不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间;
Replication:多复本。默认是三个。
九.HDFS
(1)读过程
1.初始化FileSystem,然后客户端(client)用FileSystem的open()函数打开文件
2.FileSystem用RPC调用元数据节点,得到文件的数据块信息,对于每一个数据块,元数据节点返回保存数据块的数据节点的地址。
3.FileSystem返回FSDataInputStream给客户端,用来读取数据,客户端调用stream的read()函数开始读取数据。
4.DFSInputStream连接保存此文件第一个数据块的最近的数据节点,data从数据节点读到客户端(client)
5.当此数据块读取完毕时,DFSInputStream关闭和此数据节点的连接,然后连接此文件下一个数据块的最近的数据节点。
6.当客户端读取完毕数据的时候,调用FSDataInputStream的close函数。
7.在读取数据的过程中,如果客户端在与数据节点通信出现错误,则尝试连接包含此数据块的下一个数据节点。
8.失败的数据节点将被记录,以后不再连接。
(2)写过程
1.初始化FileSystem,客户端调用create()来创建文件
2.FileSystem用RPC调用元数据节点,在文件系统的命名空间中创建一个新的文件,元数据节点首先确定文件原来不存在,并且客户端有创建文件的权限,然后创建新文件。
3.FileSystem返回DFSOutputStream,客户端用于写数据,客户端开始写入数据。
4.DFSOutputStream将数据分成块,写入data queue。data queue由Data Streamer读取,并通知元数据节点分配数据节点,用来存储数据块(每块默认复制3块)。分配的数据节点放在一个pipeline里。Data Streamer将数据块写入pipeline中的第一个数据节点。第一个数据节点将数据块发送给第二个数据节点。第二个数据节点将数据发送给第三个数据节点。
5.DFSOutputStream为发出去的数据块保存了ack queue,等待pipeline中的数据节点告知数据已经写入成功。
6.当客户端结束写入数据,则调用stream的close函数。此操作将所有的数据块写入pipeline中的数据节点,并等待ack queue返回成功。最后通知元数据节点写入完毕。
7.如果数据节点在写入的过程中失败,关闭pipeline,将ack queue中的数据块放入data queue的开始,当前的数据块在已经写入的数据节点中被元数据节点赋予新的标示,则错误节点重启后能够察觉其数据块是过时的,会被删除。失败的数据节点从pipeline中移除,另外的数据块则写入pipeline中的另外两个数据节点。元数据节点则被通知此数据块是复制块数不足,将来会再创建第三份备份。
hadoop中访问不了8088 相关内容
Hadoop的架构
在其核心,Hadoop主要有两个层次,即:
- 加工/计算层(MapReduce)
- 存储层(Hadoop分布式文件系统)
除了上面提到的两个核心组件,Hadoop的框架还包括以下两个模块:
- Hadoop通用:这是Java库和其他Hadoop组件所需的实用工具
- Hadoop YARN :这是作业调度和集群资源管理的框架
Hadoop Streaming 是一个实用程序,它允许用户使用任何可执行文件(例如shell实用程序)作为映射器和/或reducer创建和运行作业。
HDFS:
HDFS遵循主从架构,它具有以下元素。
1、名称节点 -Namenode
名称节点是包含GNU/Linux操作系统和软件名称节点的普通硬件。它是一个可以在商品硬件上运行的软件。具有名称节点系统作为主服务器,它执行以下任务:
- 管理文件系统命名空间。
- 规范客户端对文件的访问。
- 它也执行文件系统操作,如重命名,关闭和打开的文件和目录。
2、数据节点 - Datanode
Datanode具有GNU/Linux操作系统和软件Datanode的普通硬件。对于集群中的每个节点(普通硬件/系统),有一个数据节点。这些节点管理数据存储在它们的系统。
- 数据节点上的文件系统执行的读写操作,根据客户的请求。
- 还根据名称节点的指令执行操作,如块的创建,删除和复制。
3、块 -block
一般用户数据存储在HDFS文件。在一个文件系统中的文件将被划分为一个或多个段和/或存储在个人数据的节点。这些文件段被称为块。换句话说,数据的HDFS可以读取或写入的最小量被称为一个块。缺省的块大小为64MB,但它可以增加按需要在HDFS配置来改变
HDFS常用命令
- 运行jar包:hadoop jar /Users/kexin/work/projects/Hadoop/target/hadoop-0.0.1-SNAPSHOT.jar com.kexin.hadoop.units.WordCount /test/test.txt /project/wordcount/output
- 文件系统操作:hadoop fs -cat|ls|mkdir
- 上传文件:hadoop dfs -put ./testdata.txt /testdata
- 递归删除目录及文件:hadoop fs -rmr /testdata
- 删除文件:hadoop fs -rm /testdata.txt
MapReduce
教程:
- https://www.cnblogs.com/huxinga/p/6939896.html
- http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Example:_WordCount_v2.0
MapReduce计划分三个阶段执行,即映射阶段,shuffle阶段,并减少阶段。
涉及到的角色:
1、客户端(client):编写mapreduce程序,配置作业,提交作业,这就是程序员完成的工作;
2、JobTracker:初始化作业,分配作业,与TaskTracker通信,协调整个作业的执行;
3、TaskTracker:保持与JobTracker的通信,在分配的数据片段上执行Map或Reduce任务,TaskTracker和JobTracker的不同有个很重要的方面,就是在执行任务时候TaskTracker可以有n多个,JobTracker则只会有一个(JobTracker只能有一个就和hdfs里namenode一样存在单点故障,我会在后面的mapreduce的相关问题里讲到这个问题的)
4、Hdfs:保存作业的数据、配置信息等等,最后的结果也是保存在hdfs上面
-
map阶段:映射或映射器的工作是处理输入数据。一般输入数据以存储在HDFS的文件或目录的形式,输入文件被传递到映射器功能线路,映射器处理该数据,并创建数据的若干小块。
-
reduce阶段:这个阶段是Shuffle阶段和Reduce阶段的组合。减速器的工作是处理该来自映射器中的数据。处理之后,它产生一组新的输出,这将被存储在HDFS。
在一个MapReduce工作过程中:
1、由Hadoop发送Map和Reduce任务到集群的相应服务器
2、框架管理数据传递,例如发出任务的所有节点之间的集群周围的详细信息,验证任务完成,和复制数据
3、大部分的计算发生在与在本地磁盘上,可以减少网络通信量数据的节点
4、给定的任务完成后,将收集并减少了数据,以一个合适的结果发送回Hadoop服务器
应用程序通常实现Mapper和Reducer接口以提供map和reduce方法:
public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}
public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
private IntWritable result = new IntWritable();
public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "word count");
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
在idea中远程调试程序
System.setProperty("hadoop.home.dir", "/Users/kexin/work/app/hadoop/hadoop-2.6.5");
Configuration conf = new Configuration();
String uri = "hdfs://localhost:9000";
Job job = null;
try {
job = Job.getInstance(conf);
} catch (IOException e) {
e.printStackTrace();
}
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileSystem fs = FileSystem.get(URI.create(uri), conf);
try {
FileInputFormat.addInputPath(job, new Path("hdfs://localhost:9000/test/test.txt"));
Path outpath = new Path("hdfs://localhost:9000/project/wordcount/output");
if (fs.exists(outpath)) {
fs.delete(outpath, true);
}
FileOutputFormat.setOutputPath(job, outpath);
} catch (IllegalArgumentException | IOException e) {
e.printStackTrace();
}
try {
job.submit();
} catch (ClassNotFoundException | IOException | InterruptedException e) {
e.printStackTrace();
}
在idea中本地调试程序
System.setProperty("hadoop.home.dir", "/Users/kexin/work/app/hadoop/hadoop-2.6.5");
Configuration config = new Configuration();
try {
FileSystem fs = FileSystem.get(config);
Job job = Job.getInstance(config);
job.setJarByClass(WordCount.class);
job.setJobName("word count");
job.setMapperClass(TokenizerMapper.class);
job.setReducerClass(IntSumReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path("/Users/kexin/work/projects/Hadoop/src/main/resources/input"));
Path outpath = new Path("/Users/kexin/work/projects/Hadoop/src/main/resources/output");
if (fs.exists(outpath)) {
fs.delete(outpath, true);
}
FileOutputFormat.setOutputPath(job, outpath);
boolean f = job.waitForCompletion(true);
if (f) {
System.out.println("job任务执行成功");
}
} catch (Exception e) {
e.printStackTrace();
}
1、映射器
映射器将输入k/v对映射到一组中间k/v对。转换后的中间记录不需要与输入记录的类型相同。给定的输入对可以映射到零个或多个输出对。通过调用context.write(WritableComparable,Writable)来收集输出对。
Hadoop MapReduce框架为作业的InputFormat生成的每个InputSplit生成一个map任务。
总的来说,映射器实现通过Job.setMapperClass(Class)方法传递给作业。然后,框架为InputSplit中的每个k/v对调用该任务的map。
映射的数量通常由输入的总大小驱动,即输入文件的块总数。也可以使用Configuration.set(MRJobConfig.NUM_MAPS,int)来设置映射数量。
随后将与给定输出键关联的所有中间值按框架分组,并传递给Reducer以确定最终输出。用户可以通过Job.setGroupingComparatorClass(Class)指定Comparator来控制分组。
对Mapper输出进行排序,然后根据Reducer进行分区。分区总数与作业的reduce任务数相同。用户可以通过实现自定义分区程序来控制哪些键(以及记录)转到哪个Reducer。
用户可以选择通过Job.setCombinerClass(Class)指定组合器来执行中间输出的本地聚合,比如合并重复的key,这有助于减少从Mapper传输到Reducer的数据量。
2、Reducer
Reducer有3个主要阶段:shuffle,sort和reduce
1、shuffle
Reducer的输入是映射器的排序输出。在此阶段,框架通过HTTP获取所有映射器的输出的相关分区
2、sort
框架在此阶段按键(因为不同的映射器可能输出相同的键)对Reducer输入进行分组。在获取map输出结果时,shuffle和sort阶段同时进行。
如果要求对中间密钥进行分组的等价规则与在减少之前对密钥进行分组的等价规则不同,则可以通过Job.setSortComparatorClass(Class)指定比较器。由于Job.setGroupingComparatorClass(Class)可用于控制中间键的分组方式,因此可以结合使用这些键来模拟值的二级排序。
3、reduce
在此阶段,为分组输入中的每个
hadoop中访问不了8088 相关内容
下载或构建hadoop docker镜像
下载hadoop docker镜像
$ docker pull krejcmat/hadoop-master:latest
$ docker pull krejcmat/hadoop-slave:latest
构建hadoop docker镜像
$ git clone https://github.com/krejcmat/hadoop-docker.git
$ cd hadoop-docker
$ ./build-image.sh hadoop-dnsmasq
$ docker images
REPOSITORY TAG IMAGE ID CREATED SIZE
krejcmat/hadoop-slave latest 81cddf669d42 42 minutes ago 670.9 MB
krejcmat/hadoop-master latest ed91c813b86f 42 minutes ago 670.9 MB
krejcmat/hadoop-base latest cae006d1c427 50 minutes ago 670.9 MB
krejcmat/hadoop-dnsmasq latest 89f0052d964c 53 minutes ago 156.9 MB
philcryer/min-wheezy latest 214c501b67fa 14 months ago 50.74 MB
其中,philcryer/min-wheezy, krejcmat/hadoop-dnsmasq, krejcmat/hadoop-base是临时产生的中间docker镜像,可以删除掉
$ docker rmi c4c4000322cf e148f587cc4f d196b785d987
运行hadoop容器集群
在git项目的目录下
$ ./start-container.sh latest 2
start master container...
start slave1 container...
检查集群成员
$ serf members
master.krejcmat.com 172.17.0.2:7946 alive
slave1.krejcmat.com 172.17.0.3:7946 alive
$ cd ~
$ ./configure-members.sh
Warning: Permanently added 'slave1.krejcmat.com,172.17.0.3' (ECDSA) to the list of known hosts.slaves
..........
$ ./start-hadoop.sh
#For stop Hadoop ./stop-hadoop.sh
Starting namenodes on [master.krejcmat.com]
..........
$ jps
342 NameNode
460 DataNode
1156 Jps
615 SecondaryNameNode
769 ResourceManager
862 NodeManager
$ hdfs dfsadmin -report
Name: 172.17.0.2:50010 (master.krejcmat.com)
Hostname: master.krejcmat.com
..........
通过web浏览器访问http://IP:8088 hadoop集群页面
hadoop中访问不了8088 相关内容
什么是Hadoop?
Hadoop是Apache的一款开源框架,使用java语言编写,可以通过编写简单的程序来实现大规模数据集合的分布式计算。工作在Hadoop框架上的应用可以工作在分布式存储和计算机集群计算的环境上面。Hadoop具有高扩展性,其集群能够从单台机器扩展到数千台机器。
Hadoop 采用的是Apache v2协议,Hadoop基于Google发布的MapReduce论文实现,并且应用了函数式编程的思想。
Hadoop 架构
Hadoop框架包括下述三个个模块
HDFS, MapReduce, YARN
HDFS
Hadoop Distributed File System (HDFS) 是Hadoop集群中最根本的文件系统,它提供了高扩展,高容错,机架感知数据存储等特性,可以非常方便的部署在机器上面。HDFS除过分布式文件系统所通有的特点之外,还有些仅属自己的特点:
- 对硬件故障的考虑设计
- 更大的数据单元,默认的块大小为128M
- 对序列操作的优化
- 机架感知
- 支持异构集群和跨平台
Hadoop集群中的数据被划分成更小的单元(通常被称为块),并且将其分布式存储在集群中,每个块有两个副本,这个两个副本被存储在集群的的一个机架上。这样数据包含自身便有三个副本,具有极高的可用性和容错性,如果一个副本丢失,HDFS将会自动的重新复制一份,以确保集群中一共包含三个数据副本(包含自身)。
HDFS也可以有多种形式,这个取决于Hadoop版本及所需功能。
- Vanilla HDFS
- High-availability HDFS
HDFS是Leader/Follower架构实现的,每个集群都必须包含一个NameNode节点,和一个可选的SecondaryName节点,以及任意数量的DataNodes。
除了管理文件系统命名空间和管理元数据之外,NameNode对clients而言,还扮演着master和brokers的角色(虽然clients是直接与DataNode进行通信的)。NameNode完全存在于内存中,但它仍然会将自身状态写入磁盘。
HDFS 的替代文件系统
HDFS是Hadoop中经典的文件系统,但是Hadoop并不仅仅支持HDFS,它还支持其他的文件系统,比如Local file system, FTP, AWS S3, Azure’s file system, 和OpenStack’s Swift,这些文件系统可以在使用时根据不同URI进行区分。比如:
file: for the local file system
s3: for data stored on Amazon S3
MapReduce
MapReduce是为能够在集群上分布式处理海量数据而量身订做的框架,MapReduce job可以分为三次连续过程。
- Map 将输入数据划分为key-value集合
- Shuffle 将Map产生的结果传输给Reduce
- Reduce 则对接收到的key-value进一步处理
MapReduce的最大工作单元便是job,每个job又会被分割成map task或reduce task。最经典的MapReduce job便是统计文档中单词出现的频率,这个过程可以使用下图来描述
YARN
YARN (Yet Another Resource Negotiator) 是为应用执行分配计算资源的一个框架。YARN主要包含下面三个核心组件
- ResourceManager(一个集群只有一个)
- ApplicationMaster(每个应用都有一个)
- NodeManagers (每个节点都有一个)
Note:
YARN 使用了一些容易让人误解的名词作为术语,因此应该特别注意。比如在Hadoop ecosystem中,
Container
这个概念,平常我们听到Container时,我们都认为是与Docker相关。但是这里却是指Resource Container (RC),即表示物理资源的集合。通常被抽象的表示,将资源分配给到目标和可分配单元。Application
也是一个熟词僻义的用法,在YARN中,一个Application
指的是被一并执行的task的集合,YARN中的Application的概念大概类似于MapReduce中的job这个概念。
ResourceManager
ResourceManager在YARN中是一个rack-aware master节点,它主要负责管理所有可用资源的集合和运行一些至关重要的服务,其中最重要的便是Scheduler
Scheduler组件是YARN Resourcemanager中向运行时应用分配资源的一个重要组件,它仅仅完成资源调度的功能,并不完成监控应用状态和进度的功能,因此即使应用执行失败,它也不会去重启失败的应用。
但是在Hadoop 2.7.2开始,YARN开始支持少数调度策略CapacityScheduler,FairScheduler,FIFO Scheduler。默认情况下由Hadoop来负责决定使用哪种调度策略,无论使用那种调度策略,Scheduler都会通过Continer来向请求的ApplicationMaster分配资源。
ApplicationMaster
每个运行在Hadoop上面的应用都会有自己专用的ApplicationMaster实例。每个实例进会存在于集群中每个节点仅属于自己的单独Container。每个Application的ApplicationMaster都会周期性的向ResourceManager发送心跳消息,如果有需要的话,还会去向ResourceManger请求额外的资源,ResourceManager便会为额外的资源划分租期(表明该资源已被某NodeManager所持有)
ApplicationMaster会监控每个application的整个生命周期,从向ResourceManager请求额外的资源到向NodeManager提交请求。
NodeManagers
NodeManager可以认为是监控每个节点的Container的代理,会监控每个Container的整个生命周期,包括Continer的资源使用情况,与ResourceManager的周期性通信。
从概念上来说,NodeManager更像是Hadoop早期版本的TaskTrackers,当时Taskrackers主要被用来解决调度map和reduce slots问题,NodeManager有一个动态创建的,任意大小的Resouce Containers(RCs),并不像MR1中的那种slots,RCs可以被用在map tasks中,reduce tasks中,或者是其他框架的tasks
为了更好的描述YARN,这里给出一个YARN application的执行过程。如下图所示:
- client向ResourceManager提交一个MapReduce应用,和启动指定应用的ApplicationMaster所需要的信息。
- ResourceManager 会为ApplicationMaster分派一个Container,并且启动Application
- ApplicationMaster启动,接着向ResourceManager注册自己,允许调用client直接与ApplicationMaster交互
- ApplicatoinMaster为客户端应用分配资源
- ApplicationMaster为application启动Container
- 在执行期间,clients向Applicationaster提交application状态和进度
- apllication执行完成,ApplicationMaster向ResouceManager撤销掉自己的注册信息,然后关机,将自己所持有的Container归还给资源池。
Reference
hadoop中访问不了8088 相关内容
格式:hadoop fs -命令
主要有如下的命令:
命令 | 说明 |
---|---|
hadoop fs -mkdir | 创建HDFS目录 |
hadoop fs -ls | 列出HDFS目录 |
hadoop fs -copyFromLocal |
使用-copyFromLocal复制本地文件(local)到HDFS |
hadoop fs -put | 使用-put复制本地(local)文件到HDFS |
hadoop fs -copyToLocal | 将HDFS上的文件复制到本地(local) |
hadoop fs -get | 将HDFS上的文件复制到本地(local) |
hadoop fs -cp | 复制HDFS文件 |
hadoop fs -rm | 删除HDFS文件 |
hadoop fs -cat | 列出HDFS目录下的文件的内容 |
注意:因为登录的用户为hduser,所以会显示/user/hduser下的目录。
3、查看HDFS完整目录
因为hadoop fs -ls只能查看一级目录,所以必须逐级查看:
4、查看所有的HDFS子目录
HDFS提供了一个方便的选项 -R 可以递归查看目录
5、一次性创建所有HDFS子目录
逐级创建很麻烦,但是可以添加参数-p,来一次性创建多级目录:
【二、从本地计算机复制文件到HDFS】
1、复制本地文件到HDFS:
2、列出文件内容:
可以使用:hadoop fs -cat /user/hduser/test/test1.txt | more 进行分页显示
3、如果复制到HDFS的文件已经存在,会报错,此时可以使用-f 参数,强制复制重复文件到HDFS目录:
4、从本地复制多个文件到HDFS,中间用空格分割即可。
5、从本地复制整个目录到HDFS:
6、列出HDFS目录下的所有文件(包括这个目录下子目录的文件)
7、使用put复制文件到HDFS,这个参数与copyFromLocal的不同之处在于:
-put更宽松,可以把本地或者HDFS上的文件拷贝到HDFS中;而-copyFromLocal则更严格限制只能拷贝本地文件到HDFS中。如果本地和HDFS上都存在相同路径,则-put跟趋于优先取HDFS的源。(不用太深究两者区别,更多用-put)
【三、从HDFS上复制文件到本地】
1、参数 -copyToLocal
【四、复制与删除HDFS文件】
1、使用-cp参数,在HDFS上进行复制文件
2、使用-rm参数,删除HDFS上的文件;添加-R参数,删除目录:
在http://master:50070上可以浏览和操作HDFS的目录和文件