• 大数据平台搭建期末复习题(选择)0112


    下面哪个程序负责 HDFS 数据存储。

    secondaryNameNode

    NameNode

    Jobtracker

    Datanode (答案)

    HDFS是基于流数据模式访问和处理的超大文件的需求而开发的,适合读写的任务是?

    多次写入,少次读

    一次写入,少次读

    一次写入,多次读 (答案)

    多次写入,多次读

    以下哪一项属于非结构化数据。

    财务系统数据

    日志数据

    视频监控数据 (答案)

    企业ERP数据

    下列关于MapReduce不正确的是?

    MR只能用Java语言编写 (答案)

    MR是一种计算框架

    MR隐藏了并行计算的细节,便于使用

    MR来源于Google的学术论文

    HDFS 中的 block 默认保存几个备份。

    不确定

    1

    2

    3 (答案)

    下列哪项通常是集群的最主要瓶颈。

    磁盘IO (答案)

    CPU

    网络

    内存

    Hadoop作者是下列哪一位?

    Grace Hopper

    Martin Fowler

    Kent Beck

    Doug cutting (答案)

    以下哪一项不属于Hadoop可以运行的模式。

    分布式模式

    伪分布式模式

    互联模式 (答案)

    单机模式

    大数据的特点不包括下面哪一项?

    多结构化数据

    价值密度高 (答案)

    增长速度快

    巨大的数据量

    HDFS2.x 默认 Block Size大小是多少。

    128MB (答案)

    64MB

    32MB

    256MB

    关于Secondary NameNode的描述哪项是正确的?

    secondaryNameNode应与NameNode部署到一个节点

    它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间 (答案)

    它对内存没有要求

    它是NameNode的热备

    配置Hadoop集群只需要修改core-site.xml配置文件就可以。

    错误 (答案)

    正确

    namenode默认的WebUI访问端口号是多少

    8020 (答案)

    50070

    50020

    9000

    在Hadoop1.x版本中,MapReduce程序是运行在YARN集群之上。

    错误 (答案)

    正确

    以下不是Linux文件数据块分配方式的是

    链式分配

    连续分配

    键值分配 (答案)

    索引分配

    Hadooop是用Java语言开发的。

    正确 (答案)

    错误

    不定项选择题

    常见的大数据相关服务包括:

    数据的统计分析 (答案)

    数据分类

    数据查询分析 (答案)

    数据的可视化 (答案)

    以下属于分布式存储系统的特性的有

    易用 (答案)

    高性能 (答案)

    低成本 (答案)

    可扩展性 (答案)

    以下属于Apache HDFS的特点的有

    适合GB级数据的存储 (答案)

    高容错性 (答案)

    良好的扩展性 (答案)

    功能强大,操作简单、易用 (答案)

    配置Hadoop集群时,下列哪个Hadoop配置文件需要进行修改?

    core-site.xml (答案)

    ifcfg-eth0

    profile

    hadoop-env.sh (答案)

    在simple03节点上执行启动命令,NameNode进程会在哪个节点

    simple04

    simple05

    simple03 (答案)

    simple06

    以下哪个命令组成是错误的?

    hadoop namenode -format

    hadoop fs -cat /hadoop/data/my.txt

    stop.sh (答案)

    hdfs dfsadmin -report

    如果想访问http://localhost:50070/explorer.html#/上的文件tmp,出现权限访问受限,执行下列哪个命令

    hadoop dfs chmod –R 755 /

    hadoop dfs chmod –R 755

    hadoop dfs chmod –R 755 /tmp (答案)

    hadoop chown –R 755 /tmp

    在vim中保存退出的命令是

    :nohl

    :wq (答案)

    :q

    q!

    下列选项中哪些是Hadoop2.x版本独有的进程?

    JobTracker

    NodeManager (答案)

    TaskTracker

    NameNode

    一个gzip文件大小175MB,客户端设置Block大小为128MB,请问其占用几个Block?

    2 (答案)

    4

    1

    3

    下面关于MapReduce模型中Map方法与Reduce方法的描述正确的是?

    Map与Map之间不是相互独立的

    Reduce与Reduce之间不是相互独立的

    一个Map操作就是对每个Reduce所产生的一部分中间结果进行合并操作

    一个Map方法就是对一部分原始数据进行指定的操作 (答案)

    如果我们现有一个安装2.7.4版本的Hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)?

    1200 (答案)

    40000

    400

    200

    HDFS有一个gzip文件大小175MB,客户端设置Block大小为128MB。当运行mapreduce任务读取该文件时input split大小为?

    175MB (答案)

    128MB

    一个Map读取128MB,另外一个Map读取47MB

    启动hadoop所有进程的命令是

    start-hadoop.sh

    start-hdfs.sh

    start-all.sh (答案)

    start-dfs.sh

    下列哪个不是HDFS的守护进程?

    datanode

    MRappMaster (答案)

    secondarynamenode

    namenode

    下列哪个属性是hdfs-site.xml中的配置?

    fs.defaultFS

    yarn.resourcemanager.hostname

    mapreduce.framework.name

    dfs.replication (答案)

    当判断isDirectory不存在的文件,返回的值是

    true

    0

    false (答案)

    1

    假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是

    start-hdfs.sh,stop-hdfs.sh

    start-hdfs.sh,stop-dfs.sh

    start-dfs.sh,stop-dfs.sh (答案)

    start-dfs.sh,stop-hdfs.sh

    String s=”青春无悔”; int index=s.indexOf(‘春’); 执行后,返回字符’春’的位置是

    2

    3

    0

    1 (答案)

    MapReduce适用于下列哪个选项?

    可以串行处理的应用程序

    可以并行处理的应用程序 (答案)

    任意可以在Windows Server 2008上的应用程序

    任意应用程序

    分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,存储元数据和存储具体数据分别为

    从节点,主节点

    名称节点,主节点

    名称节点,数据节点 (答案)

    数据节点,名称节点

    在Hadoop中定义的主要公用InputFormat中,默认是哪一个?

    SequenceFileInputFormat

    KeyValueInputFormat

    TextInputFormat (答案)

    从互联网上的多个网页中,获取指定位置的数据,通常使用哪种数据采集方法?

    日志

    传感器

    众包

    爬虫 (答案)

    以下HDFS相关的shell命令不正确的是

    hadoop fs -ls <path>:显示<path>指定的文件的详细信息

    hdfs dfs -rm <path>:删除路径<path>指定的文件

    hadoop dfs mkdir <path>:创建<path>指定的文件夹 (答案)

    hadoop fs -copyFromLocal <path1> <path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中 (答案)

    以下描述错误的是?

    SequenceFile可以用来作为小文件的合并存储容器

    TextInputFormat的key是LongWritable类型的

    CombineFileInputFormat是抽象类

    TextInputFormat的key是指该记录在文件中的行号 (答案)

    一个MR程序中的Map Task的个数是由什么决定的?

    输入的总文件数

    客户端程序设置的Map Task的个数

    FileInputFormat.getSplits(JobContext job)计算出的逻辑切片的数量 (答案)

    输入的总文件大小/数据块大小

    下列哪种业务场景中,不能直接用Reducer充当Combiner使用?

    sum求和

    max求最大值

    count求计数

    avg求平均 (答案)

    下列哪种类型的文件不是HDFS集群的元数据存储格式?

    fsimage

    edits

    edits_inprogress

    blk_000003452 (答案)

    在MR中,哪个组件是用户不指定也不会有默认的?

    Combiner (答案)

    OutputFormat

    Partitioner

    InputFormat

    MR编程模型中以下组件哪个是最后执行的?

    Mapper

    Partitioner

    Reducer (答案)

    RecordReader

    下列关于MapReduce的描述中正确的是?

    MR程序必须包含Mapper和Reducer

    MR程序的Map Task可以任意指定

    MR程序的Reduce Task可以任意指定

    MR程序的默认数据读取组件是TextInputFormat (答案)

    MapReduce的Shuffle过程中哪个操作是最后做的?

    溢写 (答案)

    分区

    排序

    合并

    HDFS集群中的namenode职责不包括?

    维护HDFS集群的目录树结构

    维护HDFS集群中的所有数据块的分布、副本数和负载均衡

    负责保存客户端上传的数据 (答案)

    响应客户端的所有读写数据请求

    关于HDFS集群中的DataNode的描述不正确的是?

    DataNode之间都是独立的,相互之间不会有通信 (答案)

    存储客户端上传的数据块

    一个DataNode上存储的所有数据块可以有相同的 (答案)

    响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑

    关于HDFS的文件写入,正确的是?

    支持多用户对同一文件的写操作

    复制的文件块默认存在同一机架的多个不同节点上

    用户可以在文件任意位置进行修改

    默认将文件块复制成三份分别存放 (答案)

    执行一个job,如果这个job的输出路径已经存在,那么程序会?

    抛出警告,但是能够继续执行

    抛出一个异常,然后退出 (答案)

    创建一个新的输出路径

    覆盖这个输出路径

    在 hive 中,实现修改表结构字段的关键字是

    modify

    alter (答案)

    update

    alert

    Hive是由哪家公司开源的大数据处理组件?

    Apache

    Google

    Facebook (答案)

    以下哪个组件可以指定对key进行Reduce分发的策略?

    RecordReader

    Partitioner (答案)

    FileInputFormat

    Combiner

    如果想从 hive shell 命令中退出命令环境,需要执行的命令是

    exit (答案)

    away

    quit

    out

    把本地数据文件”source.txt”导入 hive 中的命令是

    load inpath '/source.txt' overwrite into table student

    load data inpath '/source.txt' overwrite into table student

    load data local inpath '/source.txt' overwrite into table student (答案)

    load data '/source.txt' overwrite into table student

    hive 命令行中,执行一次查询的命令是?

    -f

    -V

    -e (答案)

    -S

    Hive的计算引擎是什么?

    HDFS

    MapReduce (答案)

    Spark

    Hive 查询语言和 SQL 语言,两个不同之处在于操作

    Join

    Bucket (答案)

    Group By

    Partition (答案)

    下面与HDFS类似的框架是?

    NTFS

    EXT3

    GFS (答案)

    FAT32

    Mapreduce 的 input split 就是一个 block。

    正确

    错误 (答案)

    如果 NameNode 意外终止,SecondaryNameNode 会接替它使集群继续工作。

    错误 (答案)

    正确

    下列哪个程序通常与NameNode 在一个节点启动

    DataNode

    Jobtracker (答案)

    TaskTracker

    SecondaryNameNode

    Doug Cutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是

    Solr (答案)

    Nutch

    Lucene

    Hadoop

    hadoop dfsadmin –report 命令用于检测 HDFS 损坏块。

    错误 (答案)

    正确

    Slave 节点要存储数据,所以它的磁盘越大越好。

    错误 (答案)

    正确

    Hadoop 支持数据的随机读写。

    正确

    错误 (答案)

    Block Size 是不可以修改的。

    错误 (答案)

    正确

    安装 Hive 所需的环境是

    sqoop

    Hbase

    JDK (答案)

    hadoop (答案)

    Client 端上传文件的时候下列哪项正确?

    数据经过 NameNode 传递给 DataNode

    Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作

    Client 端将文件切分为 Block,依次上传 (答案)

    以上都不正确

    Hive是一款独立的数据仓库工具,因此在启动前无须启动任何服务。

    正确

    错误 (答案)

    代码select substr('abcdef',2,3)的结果是哪一个

    cde (答案)

    bcd

    以上结果都不对

    bc

    下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是

    输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割

    为实现细粒度并行,输入分片(Input Split)应该越小越好 (答案)

    一台机器可能被指派从输入文件的任意位置开始处理一个分片

    FSDataInputStream扩展了DataInputStream以支持随机读

    MapReduce框架提供了一种序列化键/值对的方法,支持这种序列化的类能够在Map和Reduce过程中充当键或值,以下说法错误的是

    键和值的数据类型可以超出Hadoop自身支持的基本类型

    实现WritableComparable<T>接口的类可以是值或键

    Hadoop的基本类型Text并不实现WritableComparable<T>接口 (答案)

    实现Writable接口的类是值

    Hive默认不支持动态分区功能,需要手动设置动态分区参数开启功能。

    错误

    正确 (答案)

    float表示的数据类型是

    字符性

    浮点型 (答案)

    布尔型

    整数型

    关于Hadoop单机模式和伪分布式模式的说法,正确的是

    后者比前者增加了HDFS输入输出以及可检查内存使用情况 (答案)

    两者都起守护进程,且守护进程运行在一台机器上

    单机模式不使用HDFS,但加载守护进程

    两者都不与守护进程交互,避免复杂性

    配置Hadoop时,JAVA_HOME包含在哪一个配置文件中

    hadoop-env.sh (答案)

    hadoop-site.xml

    configuration.xsl

    hadoop-default.xml

    Hive查询语言和SQL的一个不同之处在于什么操作

    Union

    Partition (答案)

    Join

    Group BY

    按粒度大小的顺序,Hive数据被分为数据库、数据表、()和桶。

    分区 (答案)

    元组

    Hive最重视的性能是可测量性、延展性,()和对于输入格式的宽松匹配性。

    快速查询

    容错性

    较低恢复性

    可处理大量数据 (答案)

    下面哪个进程负责 MapReduce 任务调度。

    secondaryNameNode

    Jobtracker (答案)

    TaskTracker

    NameNode

    代码select ceil(2.34)的结果是哪一个

    2.3

    3 (答案)

    2.4

    2

    以下四个Hadoop预定义的Mapper实现类的描述错误的是

    RegexMapper<K>实现Mapper<K, Text, Text, LongWritable>,为每个常规表达式的匹配项生成一个(match, 1)对

    TokenCountMapper<K>实现Mapper<K, Text, Text, LongWritable>,当输入的值为分词时,生成(taken, 1)对

    InverseMapper<K, V>实现Mapper<K, V, K, V>,反转键/值对 (答案)

    IdentityMapper<K, V>实现Mapper<K, V, K, V>,将输入直接映射到输出

    HDFS的namenode保存了一个文件包括哪些数据块,分布在哪些数据节点上,这些信息也存储在硬盘上。

    错误 (答案)

    正确

    对于最小粒度的任务,Hive查询的反应时间约为

    C几秒

    几分钟 (答案)

    几微秒

    几毫秒

    创建外部表的同时要加载数据文件,数据文件会移到到数据仓库指定的目录下。

    错误 (答案)

    正确

    Hadoop fs中的-get和-put命令操作对象是

    两者均是 (答案)

    目录

    文件

    设计分布式数据仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。

    分表

    分区

    索引

    分桶 (答案)

    修改hive安装目录下conf/hive.default.xml.template文件,是否对hive运行产生影响

    影响

    视情况而定

    不影响 (答案)

    hive命令行中,执行一次查询的命令是

    -s

    -f

    -d

    -e (答案)

    Hive的计算引擎是什么?

    HDFS

    MapReduce (答案)

    Spark

    DataFrame 和 RDD 最大的区别

    科学统计支持

    存储方式不一样

    外部数据源支持

    多了 schema (答案)

    下面哪个端口不是 spark 自带服务的端口

    8090 (答案)

    18080

    8080

    4040

    Spark的四大组件下面哪个不是

    Spark R (答案)

    Spark Streaming

    MLlib

    Graphx

    下面哪个不是 RDD 的特点

    可持久化

    可序列化

    可分区

    可修改 (答案)

    hive shell环境中,查询当前数据库所有表的命令是

    select databases;

    select tables;

    show tables; (答案)

    show databases;

    关于Hive与Hadoop其他组件的关系,描述错误的是

    Hive对Hbase有强依赖 (答案)

    Hive最终将数据存储在HDFS中

    Hive是Hadoop平台的数据仓库工具

    Hive SQL 其本质是执行的MapReduce任务

    当发现hive脚本执行时报错信息中包含如下内容:
    FAILED: ClassCastException org.apache.hadoop.hive.serde2.typeinfo.PrimitiveTypeInfo cannot be cast to org.apache.hadoop.hive.serde2.typeinfo.DecimalTypeInfo
    则此脚本最可能存在的问题是什么?

    字符串和数值类型转换错误 (答案)

    GROUP BY 中包含详单的字段(字段重复)

    网络问题

    把本地/source.txt导入hive中student表的命令是

    load data local inpath ‘/source.txt’ overwrite table ‘student’;

    load data local inpath ‘/source.txt’ overwrite table student; (答案)

    load data local inpath /source.txt overwrite table ‘student’;

    load data local inpath /source.txt overwrite table student;

    Spark RDD中没有的特性是

    分布式

    位置优先

    固定大小 (答案)

    弹性

    Spark 支持的分布式部署方式中哪个是错误的

    spark on YARN

    Spark on local (答案)

    standalone

    spark on mesos

    hive 的元数据存储在 derby 和 mysql 中有什么区别

    数据库的区别

    支持网络环境

    多会话 (答案)

    没区别

    linux在当前目录创建一个文件名为empty.txt空文件的命令

    create table empty.txt

    create database empty.txt

    touch empty.txt (答案)

    create empty.txt

    关于Hive建表基本操作描述正确的是

    创建外部表时需要指定external关键字 (答案)

    一旦表创建好,不可再修改列名

    一旦表创建好,不可再增加新列

    一旦表创建好,不可再修改表名

    Task 运行在下来哪里个选项中 Executor 上的工作单元

    Driver program

    worker node (答案)

    Cluster manager

    spark master

    Spark的特点包括

    兼容性 (答案)

    通用 (答案)

    可延伸

    快速 (答案)

    以下是Spark中executor的作用是

    向Driver反向注册 (答案)

    做资源调度任务

    接受Driver端发送来的任务Task,作用在RDD上进行执行 (答案)

    保存计算的RDD分区数据 (答案)

    Hive数据表插入数据时,insert ( ) table ……,括号中可使哪些关键字?

    append

    into (答案)

    overwrite (答案)

    DataFrame的groupBy方法返回的结果是什么类型

    Column

    GroupedData (答案)

    RDD

    DataFrame

    Hadoop文件系统核心模块不包括下列哪个选项

    DataNode

    SecondaryNameNode

    ResourceManager (答案)

    NameNode

    关于DataFrame的说法错误的是

    DataFrame是由SchemaRDD发展而来

    DataFrame直接继承了RDD (答案)

    DataFrame是一个分布式Row对象的数据集合

    DataFrame实现了RDD的绝大多数功能

    按下(   )键能终止当前运行的命令

    Ctrl+A

    Ctrl+D

    Ctrl+C (答案)

    Ctrl+F

    Spark SQL可以处理的数据源包括

    数据文件、Hive表、RDD

    数据文件、Hive表、RDD、外部数据库 (答案)

    Hive表

    数据文件、Hive表

    相比Spark,Spark SOL 有哪些优势
    ①Spark SQL摆脱了对Hive的依赖
    ②Spark SQL支持在Scala中写SQL语句
    ③Spark SQL支持parquet文件的读写,且保留了Schema
    ④Spark SQL 支持访问Hive,而Spark不支持

    ②③④

    ①②③ (答案)

    ①②③④

    ①②

    负责提交MapReduce作业的组件是

    JobTracker

    JobClient (答案)

    TaskTracker

    TaskClient

    在vi编辑器里,命令"dd"用来删除当前的

    变量

    字符

    行 (答案)

    NameNode周期性地从DataNode接收心跳信号的默认频率

    5分一次

    5秒一次

    3分一次

    3秒一次 (答案)

    Spark 中使用 saveAs TextFile存储数据到HDFS,要求数据类型为

    Seq

    RDD (答案)

    List

    Array

    查看DataFrame对象df前30条记录的语句为

    df.collect

    df.show(30) (答案)

    df.show(false)

    df.show

    HDFS不适合的场景不包括下列哪个选项

    大量小文件

    低延时的数据访问

    多方读写,需要任意的文件修改

    流式文件访问 (答案)

    指定HDFS文件块的副本数的配置文件

    hdfs-site.xml (答案)

    yarn-site.xml

    mapred-site.xml

    core-site.xml

    shuffle阶段完成了数据的

    去重

    排序 (答案)

    分组 (答案)

    分区 (答案)

    Hadoop具有以下几个特点

    高容错性 (答案)

    高可扩展性 (答案)

    高效 (答案)

    高可靠性 (答案)

    Spark组成部件包括

    Executor (答案)

    RDD

    ResourceManager

    Driver (答案)

    下面哪些是Spark比MapReduce计算快的原因

    基于内存的计算 (答案)

    基于分布式计算的框架

    基于DAG的调度框架 (答案)

    基于Lineage的容错机制 (答案)

    下列哪些是面向对象技术的特征

    继承 (答案)

    分布性

    多态 (答案)

    封装 (答案)

    Mapper类里包括下列哪几个范型

    VALUEOUT (答案)

    KEYIN (答案)

    KEYOUT (答案)

    VALUEIN (答案)

    Spark driver的功能是什么

    负责向HDFS申请资源

    负责了作业的调度 (答案)

    负责作业的解析 (答案)

    是作业的主进程 (答案)

    hive的元数据存储在 derby 和 mysql 中有什么区别

    数据库的区别

    支持网络环境

    多会话 (答案)

    没区别

    Spark支持的分布式部署方式中哪个是错误的

    standalone

    Spark on local (答案)

    spark on YARN

    spark on mesos

    小石小石摩西摩西的学习笔记,欢迎提问,欢迎指正!!!
  • 相关阅读:
    [Swift]LeetCode773. 滑动谜题 | Sliding Puzzle
    [Swift]LeetCode771. 宝石与石头 | Jewels and Stones
    [Swift]LeetCode770. 基本计算器 IV | Basic Calculator IV
    [Swift]LeetCode769. 最多能完成排序的块 | Max Chunks To Make Sorted
    [Swift]LeetCode768. 最多能完成排序的块 II | Max Chunks To Make Sorted II
    转 玩转Bash变量
    转 shell脚本学习指南
    转: 两个 Shell 网站: explainshell 和 shellcheck
    转 BAT CMD 批处理文件脚本总结(中文)
    转 windows 下 Oracle 导出表结构
  • 原文地址:https://www.cnblogs.com/shijingwen/p/14269618.html
Copyright © 2020-2023  润新知