大数据平台搭建期末复习题(选择)0112

大数据平台搭建期末复习题(选择)0112

下面哪个程序负责 HDFS 数据存储。

secondaryNameNode

NameNode

Jobtracker

Datanode （答案）

HDFS是基于流数据模式访问和处理的超大文件的需求而开发的，适合读写的任务是？

多次写入，少次读

一次写入，少次读

一次写入，多次读（答案）

多次写入，多次读

以下哪一项属于非结构化数据。

财务系统数据

日志数据

视频监控数据（答案）

企业ERP数据

下列关于MapReduce不正确的是？

MR只能用Java语言编写（答案）

MR是一种计算框架

MR隐藏了并行计算的细节，便于使用

MR来源于Google的学术论文

HDFS 中的 block 默认保存几个备份。

不确定

1

2

3 （答案）

下列哪项通常是集群的最主要瓶颈。

磁盘IO （答案）

CPU

网络

内存

Hadoop作者是下列哪一位？

Grace Hopper

Martin Fowler

Kent Beck

Doug cutting （答案）

以下哪一项不属于Hadoop可以运行的模式。

分布式模式

伪分布式模式

互联模式（答案）

单机模式

大数据的特点不包括下面哪一项？

多结构化数据

价值密度高（答案）

增长速度快

巨大的数据量

HDFS2.x 默认 Block Size大小是多少。

128MB （答案）

64MB

32MB

256MB

关于Secondary NameNode的描述哪项是正确的？

secondaryNameNode应与NameNode部署到一个节点

它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间（答案）

它对内存没有要求

它是NameNode的热备

配置Hadoop集群只需要修改core-site.xml配置文件就可以。

错误（答案）

正确

namenode默认的WebUI访问端口号是多少

8020 （答案）

50070

50020

9000

在Hadoop1.x版本中，MapReduce程序是运行在YARN集群之上。

错误（答案）

正确

以下不是Linux文件数据块分配方式的是

链式分配

连续分配

键值分配（答案）

索引分配

Hadooop是用Java语言开发的。

正确（答案）

错误

不定项选择题

常见的大数据相关服务包括：

数据的统计分析（答案）

数据分类

数据查询分析（答案）

数据的可视化（答案）

以下属于分布式存储系统的特性的有

易用（答案）

高性能（答案）

低成本（答案）

可扩展性（答案）

以下属于Apache HDFS的特点的有

适合GB级数据的存储（答案）

高容错性（答案）

良好的扩展性（答案）

功能强大，操作简单、易用（答案）

配置Hadoop集群时，下列哪个Hadoop配置文件需要进行修改？

core-site.xml （答案）

ifcfg-eth0

profile

hadoop-env.sh （答案）

在simple03节点上执行启动命令，NameNode进程会在哪个节点

simple04

simple05

simple03 （答案）

simple06

以下哪个命令组成是错误的？

hadoop namenode -format

hadoop fs -cat /hadoop/data/my.txt

stop.sh （答案）

hdfs dfsadmin -report

如果想访问http://localhost:50070/explorer.html#/上的文件tmp，出现权限访问受限，执行下列哪个命令

hadoop dfs chmod –R 755 /

hadoop dfs chmod –R 755

hadoop dfs chmod –R 755 /tmp （答案）

hadoop chown –R 755 /tmp

在vim中保存退出的命令是

:nohl

:wq （答案）

:q

q!

下列选项中哪些是Hadoop2.x版本独有的进程？

JobTracker

NodeManager （答案）

TaskTracker

NameNode

一个gzip文件大小175MB，客户端设置Block大小为128MB，请问其占用几个Block？

2 （答案）

4

1

3

下面关于MapReduce模型中Map方法与Reduce方法的描述正确的是？

Map与Map之间不是相互独立的

Reduce与Reduce之间不是相互独立的

一个Map操作就是对每个Reduce所产生的一部分中间结果进行合并操作

一个Map方法就是对一部分原始数据进行指定的操作（答案）

如果我们现有一个安装2.7.4版本的Hadoop集群，在不修改默认配置的情况下存储200个每个200M的文本文件，请问最终会在集群中产生多少个数据块（包括副本）？

1200 （答案）

40000

400

200

HDFS有一个gzip文件大小175MB，客户端设置Block大小为128MB。当运行mapreduce任务读取该文件时input split大小为？

175MB （答案）

128MB

一个Map读取128MB，另外一个Map读取47MB

启动hadoop所有进程的命令是

start-hadoop.sh

start-hdfs.sh

start-all.sh （答案）

start-dfs.sh

下列哪个不是HDFS的守护进程？

datanode

MRappMaster （答案）

secondarynamenode

namenode

下列哪个属性是hdfs-site.xml中的配置？

fs.defaultFS

yarn.resourcemanager.hostname

mapreduce.framework.name

dfs.replication （答案）

当判断isDirectory不存在的文件，返回的值是

true

0

false （答案）

1

假设已经配置好环境变量，启动Hadoop和关闭Hadoop的命令分别是

start-hdfs.sh，stop-hdfs.sh

start-hdfs.sh，stop-dfs.sh

start-dfs.sh，stop-dfs.sh （答案）

start-dfs.sh，stop-hdfs.sh

String s=”青春无悔”; int index=s.indexOf(‘春’); 执行后，返回字符’春’的位置是

2

3

0

1 （答案）

MapReduce适用于下列哪个选项？

可以串行处理的应用程序

可以并行处理的应用程序（答案）

任意可以在Windows Server 2008上的应用程序

任意应用程序

分布式文件系统HDFS采用了主从结构模型，由计算机集群中的多个节点构成的，这些节点分为两类，存储元数据和存储具体数据分别为

从节点，主节点

名称节点，主节点

名称节点，数据节点（答案）

数据节点，名称节点

在Hadoop中定义的主要公用InputFormat中，默认是哪一个？

SequenceFileInputFormat

KeyValueInputFormat

TextInputFormat （答案）

从互联网上的多个网页中，获取指定位置的数据，通常使用哪种数据采集方法？

日志

传感器

众包

爬虫（答案）

以下HDFS相关的shell命令不正确的是

hadoop fs -ls <path>：显示<path>指定的文件的详细信息

hdfs dfs -rm <path>：删除路径<path>指定的文件

hadoop dfs mkdir <path>：创建<path>指定的文件夹（答案）

hadoop fs -copyFromLocal <path1> <path2>：将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中（答案）

以下描述错误的是？

SequenceFile可以用来作为小文件的合并存储容器

TextInputFormat的key是LongWritable类型的

CombineFileInputFormat是抽象类

TextInputFormat的key是指该记录在文件中的行号（答案）

一个MR程序中的Map Task的个数是由什么决定的？

输入的总文件数

客户端程序设置的Map Task的个数

FileInputFormat.getSplits(JobContext job)计算出的逻辑切片的数量（答案）

输入的总文件大小/数据块大小

下列哪种业务场景中，不能直接用Reducer充当Combiner使用？

sum求和

max求最大值

count求计数

avg求平均（答案）

下列哪种类型的文件不是HDFS集群的元数据存储格式？

fsimage

edits

edits_inprogress

blk_000003452 （答案）

在MR中，哪个组件是用户不指定也不会有默认的？

Combiner （答案）

OutputFormat

Partitioner

InputFormat

MR编程模型中以下组件哪个是最后执行的？

Mapper

Partitioner

Reducer （答案）

RecordReader

下列关于MapReduce的描述中正确的是？

MR程序必须包含Mapper和Reducer

MR程序的Map Task可以任意指定

MR程序的Reduce Task可以任意指定

MR程序的默认数据读取组件是TextInputFormat （答案）

MapReduce的Shuffle过程中哪个操作是最后做的？

溢写（答案）

分区

排序

合并

HDFS集群中的namenode职责不包括？

维护HDFS集群的目录树结构

维护HDFS集群中的所有数据块的分布、副本数和负载均衡

负责保存客户端上传的数据（答案）

响应客户端的所有读写数据请求

关于HDFS集群中的DataNode的描述不正确的是？

DataNode之间都是独立的，相互之间不会有通信（答案）

存储客户端上传的数据块

一个DataNode上存储的所有数据块可以有相同的（答案）

响应客户端的所有读写数据请求，为客户端的存储和读取数据提供支撑

关于HDFS的文件写入，正确的是？

支持多用户对同一文件的写操作

复制的文件块默认存在同一机架的多个不同节点上

用户可以在文件任意位置进行修改

默认将文件块复制成三份分别存放（答案）

执行一个job，如果这个job的输出路径已经存在，那么程序会？

抛出警告，但是能够继续执行

抛出一个异常，然后退出（答案）

创建一个新的输出路径

覆盖这个输出路径

在 hive 中，实现修改表结构字段的关键字是

modify

alter （答案）

update

alert

Hive是由哪家公司开源的大数据处理组件？

Apache

Google

Facebook （答案）

以下哪个组件可以指定对key进行Reduce分发的策略？

RecordReader

Partitioner （答案）

FileInputFormat

Combiner

如果想从 hive shell 命令中退出命令环境，需要执行的命令是

exit （答案）

away

quit

out

把本地数据文件”source.txt”导入 hive 中的命令是

load inpath '/source.txt' overwrite into table student

load data inpath '/source.txt' overwrite into table student

load data local inpath '/source.txt' overwrite into table student （答案）

load data '/source.txt' overwrite into table student

hive 命令行中，执行一次查询的命令是？

-f

-V

-e （答案）

-S

Hive的计算引擎是什么？

HDFS

MapReduce （答案）

Spark

Hive 查询语言和 SQL 语言，两个不同之处在于操作

Join

Bucket （答案）

Group By

Partition （答案）

下面与HDFS类似的框架是？

NTFS

EXT3

GFS （答案）

FAT32

Mapreduce 的 input split 就是一个 block。

正确

错误（答案）

如果 NameNode 意外终止，SecondaryNameNode 会接替它使集群继续工作。

错误（答案）

正确

下列哪个程序通常与NameNode 在一个节点启动

DataNode

Jobtracker （答案）

TaskTracker

SecondaryNameNode

Doug Cutting所创立的项目的名称都受到其家人的启发，以下项目不是由他创立的项目是

Solr （答案）

Nutch

Lucene

Hadoop

hadoop dfsadmin –report 命令用于检测 HDFS 损坏块。

错误（答案）

正确

Slave 节点要存储数据，所以它的磁盘越大越好。

错误（答案）

正确

Hadoop 支持数据的随机读写。

正确

错误（答案）

Block Size 是不可以修改的。

错误（答案）

正确

安装 Hive 所需的环境是

sqoop

Hbase

JDK （答案）

hadoop （答案）

Client 端上传文件的时候下列哪项正确？

数据经过 NameNode 传递给 DataNode

Client 只上传数据到一台 DataNode，然后由 NameNode 负责 Block 复制工作

Client 端将文件切分为 Block，依次上传（答案）

以上都不正确

Hive是一款独立的数据仓库工具，因此在启动前无须启动任何服务。

正确

错误（答案）

代码select substr('abcdef',2,3)的结果是哪一个

cde （答案）

bcd

以上结果都不对

bc

下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是

输入分片是一种记录的逻辑划分，而HDFS数据块是对输入数据的物理分割

为实现细粒度并行，输入分片(Input Split)应该越小越好（答案）

一台机器可能被指派从输入文件的任意位置开始处理一个分片

FSDataInputStream扩展了DataInputStream以支持随机读

MapReduce框架提供了一种序列化键/值对的方法，支持这种序列化的类能够在Map和Reduce过程中充当键或值，以下说法错误的是

键和值的数据类型可以超出Hadoop自身支持的基本类型

实现WritableComparable<T>接口的类可以是值或键

Hadoop的基本类型Text并不实现WritableComparable<T>接口（答案）

实现Writable接口的类是值

Hive默认不支持动态分区功能，需要手动设置动态分区参数开启功能。

错误

正确（答案）

float表示的数据类型是

字符性

浮点型（答案）

布尔型

整数型

关于Hadoop单机模式和伪分布式模式的说法，正确的是

后者比前者增加了HDFS输入输出以及可检查内存使用情况（答案）

两者都起守护进程，且守护进程运行在一台机器上

单机模式不使用HDFS，但加载守护进程

两者都不与守护进程交互，避免复杂性

配置Hadoop时，JAVA_HOME包含在哪一个配置文件中

hadoop-env.sh （答案）

hadoop-site.xml

configuration.xsl

hadoop-default.xml

Hive查询语言和SQL的一个不同之处在于什么操作

Union

Partition （答案）

Join

Group BY

按粒度大小的顺序，Hive数据被分为数据库、数据表、（）和桶。

行

栏

分区（答案）

元组

Hive最重视的性能是可测量性、延展性，（）和对于输入格式的宽松匹配性。

快速查询

容错性

较低恢复性

可处理大量数据（答案）

下面哪个进程负责 MapReduce 任务调度。

secondaryNameNode

Jobtracker （答案）

TaskTracker

NameNode

代码select ceil(2.34)的结果是哪一个

2.3

3 （答案）

2.4

2

以下四个Hadoop预定义的Mapper实现类的描述错误的是

RegexMapper<K>实现Mapper<K, Text, Text, LongWritable>，为每个常规表达式的匹配项生成一个(match, 1)对

TokenCountMapper<K>实现Mapper<K, Text, Text, LongWritable>，当输入的值为分词时，生成(taken, 1)对

InverseMapper<K, V>实现Mapper<K, V, K, V>，反转键/值对（答案）

IdentityMapper<K, V>实现Mapper<K, V, K, V>，将输入直接映射到输出

HDFS的namenode保存了一个文件包括哪些数据块，分布在哪些数据节点上，这些信息也存储在硬盘上。

错误（答案）

正确

对于最小粒度的任务，Hive查询的反应时间约为

C几秒

几分钟（答案）

几微秒

几毫秒

创建外部表的同时要加载数据文件，数据文件会移到到数据仓库指定的目录下。

错误（答案）

正确

Hadoop fs中的-get和-put命令操作对象是

两者均是（答案）

目录

文件

设计分布式数据仓库hive的数据表时，为取样更高效，一般可以对表中的连续字段进行什么操作。

分表

分区

索引

分桶（答案）

修改hive安装目录下conf/hive.default.xml.template文件，是否对hive运行产生影响

影响

视情况而定

不影响（答案）

hive命令行中，执行一次查询的命令是

-s

-f

-d

-e （答案）

Hive的计算引擎是什么？

HDFS

MapReduce （答案）

Spark

DataFrame 和 RDD 最大的区别

科学统计支持

存储方式不一样

外部数据源支持

多了 schema （答案）

下面哪个端口不是 spark 自带服务的端口

8090 （答案）

18080

8080

4040

Spark的四大组件下面哪个不是

Spark R （答案）

Spark Streaming

MLlib

Graphx

下面哪个不是 RDD 的特点

可持久化

可序列化

可分区

可修改（答案）

hive shell环境中，查询当前数据库所有表的命令是

select databases;

select tables;

show tables; （答案）

show databases;

关于Hive与Hadoop其他组件的关系，描述错误的是

Hive对Hbase有强依赖（答案）

Hive最终将数据存储在HDFS中

Hive是Hadoop平台的数据仓库工具

Hive SQL 其本质是执行的MapReduce任务

当发现hive脚本执行时报错信息中包含如下内容：
FAILED: ClassCastException org.apache.hadoop.hive.serde2.typeinfo.PrimitiveTypeInfo cannot be cast to org.apache.hadoop.hive.serde2.typeinfo.DecimalTypeInfo
则此脚本最可能存在的问题是什么？

字符串和数值类型转换错误（答案）

GROUP BY 中包含详单的字段（字段重复）

网络问题

把本地/source.txt导入hive中student表的命令是

load data local inpath ‘/source.txt’ overwrite table ‘student’;

load data local inpath ‘/source.txt’ overwrite table student; （答案）

load data local inpath /source.txt overwrite table ‘student’;

load data local inpath /source.txt overwrite table student;

Spark RDD中没有的特性是

分布式

位置优先

固定大小（答案）

弹性

Spark 支持的分布式部署方式中哪个是错误的

spark on YARN

Spark on local （答案）

standalone

spark on mesos

hive 的元数据存储在 derby 和 mysql 中有什么区别

数据库的区别

支持网络环境

多会话（答案）

没区别

linux在当前目录创建一个文件名为empty.txt空文件的命令

create table empty.txt

create database empty.txt

touch empty.txt （答案）

create empty.txt

关于Hive建表基本操作描述正确的是

创建外部表时需要指定external关键字（答案）

一旦表创建好，不可再修改列名

一旦表创建好，不可再增加新列

一旦表创建好，不可再修改表名

Task 运行在下来哪里个选项中 Executor 上的工作单元

Driver program

worker node （答案）

Cluster manager

spark master

Spark的特点包括

兼容性（答案）

通用（答案）

可延伸

快速（答案）

以下是Spark中executor的作用是

向Driver反向注册（答案）

做资源调度任务

接受Driver端发送来的任务Task,作用在RDD上进行执行（答案）

保存计算的RDD分区数据（答案）

Hive数据表插入数据时，insert （　） table ……，括号中可使哪些关键字？

append

into （答案）

overwrite （答案）

DataFrame的groupBy方法返回的结果是什么类型

Column

GroupedData （答案）

RDD

DataFrame

Hadoop文件系统核心模块不包括下列哪个选项

DataNode

SecondaryNameNode

ResourceManager （答案）

NameNode

关于DataFrame的说法错误的是

DataFrame是由SchemaRDD发展而来

DataFrame直接继承了RDD （答案）

DataFrame是一个分布式Row对象的数据集合

DataFrame实现了RDD的绝大多数功能

按下( )键能终止当前运行的命令

Ctrl+A

Ctrl+D

Ctrl+C （答案）

Ctrl+F

Spark SQL可以处理的数据源包括

数据文件、Hive表、RDD

数据文件、Hive表、RDD、外部数据库（答案）

Hive表

数据文件、Hive表

相比Spark，Spark SOL 有哪些优势
①Spark SQL摆脱了对Hive的依赖
②Spark SQL支持在Scala中写SQL语句
③Spark SQL支持parquet文件的读写，且保留了Schema
④Spark SQL 支持访问Hive，而Spark不支持

②③④

①②③ （答案）

①②③④

①②

负责提交MapReduce作业的组件是

JobTracker

JobClient （答案）

TaskTracker

TaskClient

在vi编辑器里，命令"dd"用来删除当前的

变量

字符

行（答案）

字

NameNode周期性地从DataNode接收心跳信号的默认频率

5分一次

5秒一次

3分一次

3秒一次（答案）

Spark 中使用 saveAs TextFile存储数据到HDFS，要求数据类型为

Seq

RDD （答案）

List

Array

查看DataFrame对象df前30条记录的语句为

df.collect

df.show（30）（答案）

df.show（false）

df.show

HDFS不适合的场景不包括下列哪个选项

大量小文件

低延时的数据访问

多方读写，需要任意的文件修改

流式文件访问（答案）

指定HDFS文件块的副本数的配置文件

hdfs-site.xml （答案）

yarn-site.xml

mapred-site.xml

core-site.xml

shuffle阶段完成了数据的

去重

排序（答案）

分组（答案）

分区（答案）

Hadoop具有以下几个特点

高容错性（答案）

高可扩展性（答案）

高效（答案）

高可靠性（答案）

Spark组成部件包括

Executor （答案）

RDD

ResourceManager

Driver （答案）

下面哪些是Spark比MapReduce计算快的原因

基于内存的计算（答案）

基于分布式计算的框架

基于DAG的调度框架（答案）

基于Lineage的容错机制（答案）

下列哪些是面向对象技术的特征

继承（答案）

分布性

多态（答案）

封装（答案）

Mapper类里包括下列哪几个范型

VALUEOUT （答案）

KEYIN （答案）

KEYOUT （答案）

VALUEIN （答案）

Spark driver的功能是什么

负责向HDFS申请资源

负责了作业的调度（答案）

负责作业的解析（答案）

是作业的主进程（答案）

hive的元数据存储在 derby 和 mysql 中有什么区别

数据库的区别

支持网络环境

多会话（答案）

没区别

Spark支持的分布式部署方式中哪个是错误的

standalone

Spark on local （答案）

spark on YARN

spark on mesos

小石小石摩西摩西的学习笔记，欢迎提问，欢迎指正！！！
相关阅读:
[Swift]LeetCode773. 滑动谜题 | Sliding Puzzle
[Swift]LeetCode771. 宝石与石头 | Jewels and Stones
[Swift]LeetCode770. 基本计算器 IV | Basic Calculator IV
[Swift]LeetCode769. 最多能完成排序的块 | Max Chunks To Make Sorted
[Swift]LeetCode768. 最多能完成排序的块 II | Max Chunks To Make Sorted II
转玩转Bash变量
 转 shell脚本学习指南
 转: 两个 Shell 网站: explainshell 和 shellcheck
转 BAT CMD 批处理文件脚本总结(中文)
转 windows 下 Oracle 导出表结构
原文地址：https://www.cnblogs.com/shijingwen/p/14269618.html