下面哪个程序负责 HDFS 数据存储。
secondaryNameNode
NameNode
Jobtracker
Datanode (答案)
HDFS是基于流数据模式访问和处理的超大文件的需求而开发的,适合读写的任务是?
多次写入,少次读
一次写入,少次读
一次写入,多次读 (答案)
多次写入,多次读
以下哪一项属于非结构化数据。
财务系统数据
日志数据
视频监控数据 (答案)
企业ERP数据
下列关于MapReduce不正确的是?
MR只能用Java语言编写 (答案)
MR是一种计算框架
MR隐藏了并行计算的细节,便于使用
MR来源于Google的学术论文
HDFS 中的 block 默认保存几个备份。
不确定
1
2
3 (答案)
下列哪项通常是集群的最主要瓶颈。
磁盘IO (答案)
CPU
网络
内存
Hadoop作者是下列哪一位?
Grace Hopper
Martin Fowler
Kent Beck
Doug cutting (答案)
以下哪一项不属于Hadoop可以运行的模式。
分布式模式
伪分布式模式
互联模式 (答案)
单机模式
大数据的特点不包括下面哪一项?
多结构化数据
价值密度高 (答案)
增长速度快
巨大的数据量
HDFS2.x 默认 Block Size大小是多少。
128MB (答案)
64MB
32MB
256MB
关于Secondary NameNode的描述哪项是正确的?
secondaryNameNode应与NameNode部署到一个节点
它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间 (答案)
它对内存没有要求
它是NameNode的热备
配置Hadoop集群只需要修改core-site.xml配置文件就可以。
错误 (答案)
正确
namenode默认的WebUI访问端口号是多少
8020 (答案)
50070
50020
9000
在Hadoop1.x版本中,MapReduce程序是运行在YARN集群之上。
错误 (答案)
正确
以下不是Linux文件数据块分配方式的是
链式分配
连续分配
键值分配 (答案)
索引分配
Hadooop是用Java语言开发的。
正确 (答案)
错误
不定项选择题
常见的大数据相关服务包括:
数据的统计分析 (答案)
数据分类
数据查询分析 (答案)
数据的可视化 (答案)
以下属于分布式存储系统的特性的有
易用 (答案)
高性能 (答案)
低成本 (答案)
可扩展性 (答案)
以下属于Apache HDFS的特点的有
适合GB级数据的存储 (答案)
高容错性 (答案)
良好的扩展性 (答案)
功能强大,操作简单、易用 (答案)
配置Hadoop集群时,下列哪个Hadoop配置文件需要进行修改?
core-site.xml (答案)
ifcfg-eth0
profile
hadoop-env.sh (答案)
在simple03节点上执行启动命令,NameNode进程会在哪个节点
simple04
simple05
simple03 (答案)
simple06
以下哪个命令组成是错误的?
hadoop namenode -format
hadoop fs -cat /hadoop/data/my.txt
stop.sh (答案)
hdfs dfsadmin -report
如果想访问http://localhost:50070/explorer.html#/上的文件tmp,出现权限访问受限,执行下列哪个命令
hadoop dfs chmod –R 755 /
hadoop dfs chmod –R 755
hadoop dfs chmod –R 755 /tmp (答案)
hadoop chown –R 755 /tmp
在vim中保存退出的命令是
:nohl
:wq (答案)
:q
q!
下列选项中哪些是Hadoop2.x版本独有的进程?
JobTracker
NodeManager (答案)
TaskTracker
NameNode
一个gzip文件大小175MB,客户端设置Block大小为128MB,请问其占用几个Block?
2 (答案)
4
1
3
下面关于MapReduce模型中Map方法与Reduce方法的描述正确的是?
Map与Map之间不是相互独立的
Reduce与Reduce之间不是相互独立的
一个Map操作就是对每个Reduce所产生的一部分中间结果进行合并操作
一个Map方法就是对一部分原始数据进行指定的操作 (答案)
如果我们现有一个安装2.7.4版本的Hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)?
1200 (答案)
40000
400
200
HDFS有一个gzip文件大小175MB,客户端设置Block大小为128MB。当运行mapreduce任务读取该文件时input split大小为?
175MB (答案)
128MB
一个Map读取128MB,另外一个Map读取47MB
启动hadoop所有进程的命令是
start-hadoop.sh
start-hdfs.sh
start-all.sh (答案)
start-dfs.sh
下列哪个不是HDFS的守护进程?
datanode
MRappMaster (答案)
secondarynamenode
namenode
下列哪个属性是hdfs-site.xml中的配置?
fs.defaultFS
yarn.resourcemanager.hostname
mapreduce.framework.name
dfs.replication (答案)
当判断isDirectory不存在的文件,返回的值是
true
0
false (答案)
1
假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是
start-hdfs.sh,stop-hdfs.sh
start-hdfs.sh,stop-dfs.sh
start-dfs.sh,stop-dfs.sh (答案)
start-dfs.sh,stop-hdfs.sh
String s=”青春无悔”; int index=s.indexOf(‘春’); 执行后,返回字符’春’的位置是
2
3
0
1 (答案)
MapReduce适用于下列哪个选项?
可以串行处理的应用程序
可以并行处理的应用程序 (答案)
任意可以在Windows Server 2008上的应用程序
任意应用程序
分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,存储元数据和存储具体数据分别为
从节点,主节点
名称节点,主节点
名称节点,数据节点 (答案)
数据节点,名称节点
在Hadoop中定义的主要公用InputFormat中,默认是哪一个?
SequenceFileInputFormat
KeyValueInputFormat
TextInputFormat (答案)
从互联网上的多个网页中,获取指定位置的数据,通常使用哪种数据采集方法?
日志
传感器
众包
爬虫 (答案)
以下HDFS相关的shell命令不正确的是
hadoop fs -ls <path>:显示<path>指定的文件的详细信息
hdfs dfs -rm <path>:删除路径<path>指定的文件
hadoop dfs mkdir <path>:创建<path>指定的文件夹 (答案)
hadoop fs -copyFromLocal <path1> <path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中 (答案)
以下描述错误的是?
SequenceFile可以用来作为小文件的合并存储容器
TextInputFormat的key是LongWritable类型的
CombineFileInputFormat是抽象类
TextInputFormat的key是指该记录在文件中的行号 (答案)
一个MR程序中的Map Task的个数是由什么决定的?
输入的总文件数
客户端程序设置的Map Task的个数
FileInputFormat.getSplits(JobContext job)计算出的逻辑切片的数量 (答案)
输入的总文件大小/数据块大小
下列哪种业务场景中,不能直接用Reducer充当Combiner使用?
sum求和
max求最大值
count求计数
avg求平均 (答案)
下列哪种类型的文件不是HDFS集群的元数据存储格式?
fsimage
edits
edits_inprogress
blk_000003452 (答案)
在MR中,哪个组件是用户不指定也不会有默认的?
Combiner (答案)
OutputFormat
Partitioner
InputFormat
MR编程模型中以下组件哪个是最后执行的?
Mapper
Partitioner
Reducer (答案)
RecordReader
下列关于MapReduce的描述中正确的是?
MR程序必须包含Mapper和Reducer
MR程序的Map Task可以任意指定
MR程序的Reduce Task可以任意指定
MR程序的默认数据读取组件是TextInputFormat (答案)
MapReduce的Shuffle过程中哪个操作是最后做的?
溢写 (答案)
分区
排序
合并
HDFS集群中的namenode职责不包括?
维护HDFS集群的目录树结构
维护HDFS集群中的所有数据块的分布、副本数和负载均衡
负责保存客户端上传的数据 (答案)
响应客户端的所有读写数据请求
关于HDFS集群中的DataNode的描述不正确的是?
DataNode之间都是独立的,相互之间不会有通信 (答案)
存储客户端上传的数据块
一个DataNode上存储的所有数据块可以有相同的 (答案)
响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑
关于HDFS的文件写入,正确的是?
支持多用户对同一文件的写操作
复制的文件块默认存在同一机架的多个不同节点上
用户可以在文件任意位置进行修改
默认将文件块复制成三份分别存放 (答案)
执行一个job,如果这个job的输出路径已经存在,那么程序会?
抛出警告,但是能够继续执行
抛出一个异常,然后退出 (答案)
创建一个新的输出路径
覆盖这个输出路径
在 hive 中,实现修改表结构字段的关键字是
modify
alter (答案)
update
alert
Hive是由哪家公司开源的大数据处理组件?
Apache
Facebook (答案)
以下哪个组件可以指定对key进行Reduce分发的策略?
RecordReader
Partitioner (答案)
FileInputFormat
Combiner
如果想从 hive shell 命令中退出命令环境,需要执行的命令是
exit (答案)
away
quit
out
把本地数据文件”source.txt”导入 hive 中的命令是
load inpath '/source.txt' overwrite into table student
load data inpath '/source.txt' overwrite into table student
load data local inpath '/source.txt' overwrite into table student (答案)
load data '/source.txt' overwrite into table student
hive 命令行中,执行一次查询的命令是?
-f
-V
-e (答案)
-S
Hive的计算引擎是什么?
HDFS
MapReduce (答案)
Spark
Hive 查询语言和 SQL 语言,两个不同之处在于操作
Join
Bucket (答案)
Group By
Partition (答案)
下面与HDFS类似的框架是?
NTFS
EXT3
GFS (答案)
FAT32
Mapreduce 的 input split 就是一个 block。
正确
错误 (答案)
如果 NameNode 意外终止,SecondaryNameNode 会接替它使集群继续工作。
错误 (答案)
正确
下列哪个程序通常与NameNode 在一个节点启动
DataNode
Jobtracker (答案)
TaskTracker
SecondaryNameNode
Doug Cutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是
Solr (答案)
Nutch
Lucene
Hadoop
hadoop dfsadmin –report 命令用于检测 HDFS 损坏块。
错误 (答案)
正确
Slave 节点要存储数据,所以它的磁盘越大越好。
错误 (答案)
正确
Hadoop 支持数据的随机读写。
正确
错误 (答案)
Block Size 是不可以修改的。
错误 (答案)
正确
安装 Hive 所需的环境是
sqoop
Hbase
JDK (答案)
hadoop (答案)
Client 端上传文件的时候下列哪项正确?
数据经过 NameNode 传递给 DataNode
Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作
Client 端将文件切分为 Block,依次上传 (答案)
以上都不正确
Hive是一款独立的数据仓库工具,因此在启动前无须启动任何服务。
正确
错误 (答案)
代码select substr('abcdef',2,3)的结果是哪一个
cde (答案)
bcd
以上结果都不对
bc
下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是
输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割
为实现细粒度并行,输入分片(Input Split)应该越小越好 (答案)
一台机器可能被指派从输入文件的任意位置开始处理一个分片
FSDataInputStream扩展了DataInputStream以支持随机读
MapReduce框架提供了一种序列化键/值对的方法,支持这种序列化的类能够在Map和Reduce过程中充当键或值,以下说法错误的是
键和值的数据类型可以超出Hadoop自身支持的基本类型
实现WritableComparable<T>接口的类可以是值或键
Hadoop的基本类型Text并不实现WritableComparable<T>接口 (答案)
实现Writable接口的类是值
Hive默认不支持动态分区功能,需要手动设置动态分区参数开启功能。
错误
正确 (答案)
float表示的数据类型是
字符性
浮点型 (答案)
布尔型
整数型
关于Hadoop单机模式和伪分布式模式的说法,正确的是
后者比前者增加了HDFS输入输出以及可检查内存使用情况 (答案)
两者都起守护进程,且守护进程运行在一台机器上
单机模式不使用HDFS,但加载守护进程
两者都不与守护进程交互,避免复杂性
配置Hadoop时,JAVA_HOME包含在哪一个配置文件中
hadoop-env.sh (答案)
hadoop-site.xml
configuration.xsl
hadoop-default.xml
Hive查询语言和SQL的一个不同之处在于什么操作
Union
Partition (答案)
Join
Group BY
按粒度大小的顺序,Hive数据被分为数据库、数据表、()和桶。
行
栏
分区 (答案)
元组
Hive最重视的性能是可测量性、延展性,()和对于输入格式的宽松匹配性。
快速查询
容错性
较低恢复性
可处理大量数据 (答案)
下面哪个进程负责 MapReduce 任务调度。
secondaryNameNode
Jobtracker (答案)
TaskTracker
NameNode
代码select ceil(2.34)的结果是哪一个
2.3
3 (答案)
2.4
2
以下四个Hadoop预定义的Mapper实现类的描述错误的是
RegexMapper<K>实现Mapper<K, Text, Text, LongWritable>,为每个常规表达式的匹配项生成一个(match, 1)对
TokenCountMapper<K>实现Mapper<K, Text, Text, LongWritable>,当输入的值为分词时,生成(taken, 1)对
InverseMapper<K, V>实现Mapper<K, V, K, V>,反转键/值对 (答案)
IdentityMapper<K, V>实现Mapper<K, V, K, V>,将输入直接映射到输出
HDFS的namenode保存了一个文件包括哪些数据块,分布在哪些数据节点上,这些信息也存储在硬盘上。
错误 (答案)
正确
对于最小粒度的任务,Hive查询的反应时间约为
C几秒
几分钟 (答案)
几微秒
几毫秒
创建外部表的同时要加载数据文件,数据文件会移到到数据仓库指定的目录下。
错误 (答案)
正确
Hadoop fs中的-get和-put命令操作对象是
两者均是 (答案)
目录
文件
设计分布式数据仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。
分表
分区
索引
分桶 (答案)
修改hive安装目录下conf/hive.default.xml.template文件,是否对hive运行产生影响
影响
视情况而定
不影响 (答案)
hive命令行中,执行一次查询的命令是
-s
-f
-d
-e (答案)
Hive的计算引擎是什么?
HDFS
MapReduce (答案)
Spark
DataFrame 和 RDD 最大的区别
科学统计支持
存储方式不一样
外部数据源支持
多了 schema (答案)
下面哪个端口不是 spark 自带服务的端口
8090 (答案)
18080
8080
4040
Spark的四大组件下面哪个不是
Spark R (答案)
Spark Streaming
MLlib
Graphx
下面哪个不是 RDD 的特点
可持久化
可序列化
可分区
可修改 (答案)
hive shell环境中,查询当前数据库所有表的命令是
select databases;
select tables;
show tables; (答案)
show databases;
关于Hive与Hadoop其他组件的关系,描述错误的是
Hive对Hbase有强依赖 (答案)
Hive最终将数据存储在HDFS中
Hive是Hadoop平台的数据仓库工具
Hive SQL 其本质是执行的MapReduce任务
当发现hive脚本执行时报错信息中包含如下内容:
FAILED: ClassCastException
org.apache.hadoop.hive.serde2.typeinfo.PrimitiveTypeInfo cannot be cast to
org.apache.hadoop.hive.serde2.typeinfo.DecimalTypeInfo
则此脚本最可能存在的问题是什么?
字符串和数值类型转换错误 (答案)
GROUP BY 中包含详单的字段(字段重复)
网络问题
把本地/source.txt导入hive中student表的命令是
load data local inpath ‘/source.txt’ overwrite table ‘student’;
load data local inpath ‘/source.txt’ overwrite table student; (答案)
load data local inpath /source.txt overwrite table ‘student’;
load data local inpath /source.txt overwrite table student;
Spark RDD中没有的特性是
分布式
位置优先
固定大小 (答案)
弹性
Spark 支持的分布式部署方式中哪个是错误的
spark on YARN
Spark on local (答案)
standalone
spark on mesos
hive 的元数据存储在 derby 和 mysql 中有什么区别
数据库的区别
支持网络环境
多会话 (答案)
没区别
linux在当前目录创建一个文件名为empty.txt空文件的命令
create table empty.txt
create database empty.txt
touch empty.txt (答案)
create empty.txt
关于Hive建表基本操作描述正确的是
创建外部表时需要指定external关键字 (答案)
一旦表创建好,不可再修改列名
一旦表创建好,不可再增加新列
一旦表创建好,不可再修改表名
Task 运行在下来哪里个选项中 Executor 上的工作单元
Driver program
worker node (答案)
Cluster manager
spark master
Spark的特点包括
兼容性 (答案)
通用 (答案)
可延伸
快速 (答案)
以下是Spark中executor的作用是
向Driver反向注册 (答案)
做资源调度任务
接受Driver端发送来的任务Task,作用在RDD上进行执行 (答案)
保存计算的RDD分区数据 (答案)
Hive数据表插入数据时,insert ( ) table ……,括号中可使哪些关键字?
append
into (答案)
overwrite (答案)
DataFrame的groupBy方法返回的结果是什么类型
Column
GroupedData (答案)
RDD
DataFrame
Hadoop文件系统核心模块不包括下列哪个选项
DataNode
SecondaryNameNode
ResourceManager (答案)
NameNode
关于DataFrame的说法错误的是
DataFrame是由SchemaRDD发展而来
DataFrame直接继承了RDD (答案)
DataFrame是一个分布式Row对象的数据集合
DataFrame实现了RDD的绝大多数功能
按下( )键能终止当前运行的命令
Ctrl+A
Ctrl+D
Ctrl+C (答案)
Ctrl+F
Spark SQL可以处理的数据源包括
数据文件、Hive表、RDD
数据文件、Hive表、RDD、外部数据库 (答案)
Hive表
数据文件、Hive表
相比Spark,Spark SOL 有哪些优势
①Spark SQL摆脱了对Hive的依赖
②Spark SQL支持在Scala中写SQL语句
③Spark SQL支持parquet文件的读写,且保留了Schema
④Spark SQL 支持访问Hive,而Spark不支持
②③④
①②③ (答案)
①②③④
①②
负责提交MapReduce作业的组件是
JobTracker
JobClient (答案)
TaskTracker
TaskClient
在vi编辑器里,命令"dd"用来删除当前的
变量
字符
行 (答案)
字
NameNode周期性地从DataNode接收心跳信号的默认频率
5分一次
5秒一次
3分一次
3秒一次 (答案)
Spark 中使用 saveAs TextFile存储数据到HDFS,要求数据类型为
Seq
RDD (答案)
List
Array
查看DataFrame对象df前30条记录的语句为
df.collect
df.show(30) (答案)
df.show(false)
df.show
HDFS不适合的场景不包括下列哪个选项
大量小文件
低延时的数据访问
多方读写,需要任意的文件修改
流式文件访问 (答案)
指定HDFS文件块的副本数的配置文件
hdfs-site.xml (答案)
yarn-site.xml
mapred-site.xml
core-site.xml
shuffle阶段完成了数据的
去重
排序 (答案)
分组 (答案)
分区 (答案)
Hadoop具有以下几个特点
高容错性 (答案)
高可扩展性 (答案)
高效 (答案)
高可靠性 (答案)
Spark组成部件包括
Executor (答案)
RDD
ResourceManager
Driver (答案)
下面哪些是Spark比MapReduce计算快的原因
基于内存的计算 (答案)
基于分布式计算的框架
基于DAG的调度框架 (答案)
基于Lineage的容错机制 (答案)
下列哪些是面向对象技术的特征
继承 (答案)
分布性
多态 (答案)
封装 (答案)
Mapper类里包括下列哪几个范型
VALUEOUT (答案)
KEYIN (答案)
KEYOUT (答案)
VALUEIN (答案)
Spark driver的功能是什么
负责向HDFS申请资源
负责了作业的调度 (答案)
负责作业的解析 (答案)
是作业的主进程 (答案)
hive的元数据存储在 derby 和 mysql 中有什么区别
数据库的区别
支持网络环境
多会话 (答案)
没区别
Spark支持的分布式部署方式中哪个是错误的
standalone
Spark on local (答案)
spark on YARN
spark on mesos