• 大数据面试题


    1、介绍一下Hadoop的框架

    存储hdfs,计算框架MapReduce,资源管理Yarn

    2、简单说下HDFS的读写流程

    a、客户端发送请求,调用DistributedFileSystem API的open方法发送请求到Namenode,获取block的位置信息,因为真正的block是存在Datanode节点上的,而

      namenode里存放block位置信息的元数据。

    b、Namenode返回所有block的位置信息,并将这些信息返回给客户端。

    c、客户端拿到block的位置信息后调用FSDataInputStream  API的read方法并行的读取block信息,block默认是3个副本,所以每个block只需要取一个副本就可以了。

    d、datanode返回给客户端。

    3、介绍下HDFS中实现数据容错的方式/机制

    a、每个数据块3个副本,分布在不同的机架上

    b、DataNode定期向NameNode发送心跳

    4、介绍一下Yarn的框架结构

    a、ResourceManager:负责整个集群的资源管理和调度

    b、ApplicationMaster:负责应用程序相关事务,比如任务调度、监控和容错等。

    5、介绍一下Yarn框架中的Job调度方式

    6、说明一下MapReduce的框架结构

    一个完整的mapreduce程序在分布式运行时有三类实例

    a、MRAppMaster:负责整个程序的过程调度及状态协调

    b、mapTask:负责map阶段的整个数据处理流程

    c、ReduceTask:负责reduce阶段的整个数据处理流程。

    7、简单说明一下MapReduce中的Shuffle过程

    8、MapReduce的容错机制是如何实现的

    9、MapReduce的二次排序机制是什么?

    10、HDFS启动流程

    第一步:启动namenode;

    第二步:启动datanode;

    11、MapReduce的生命周期/MapReduce的提交执行流程

    MapReduce的提交执行流程

    a、作业提交

    client调用Job.waitForCompletion方法,向整个集群提交MapReduce作业(第1步)。新的作业ID(应用ID)由资源管理分配(第2步)。作业的client核实作业的输出,计算输入的split,将作业的资源(包括Jar包,配置文件,split信息)拷贝给HDFS(第3步)。最后,通过调用资源管理器的YarnClient.submitApplication()提交作业(第4步)

    b、作业初始化

    当资源管理器收到submitApplication()的请求时,就将该请求发给调度器(scheduler),调度器分配container,然后资源管理器在该container内启动应用管理器进程,由节点管理器监控(第5a和5b步)

    MapReduce作业的应用管理器是一个主类为MRAppMaster的Java应用,其通过创造一些bookkeeping对象监控作业的进度,得到任务的进度和完成报告(第6步),然后其通过分布式文件系统得到由客户端计算好的输入split(第7步),然后为每个输入split创建一个map任务,根据mapreduce,job.reduces创建reduce任务对象。

    c、任务分配

    如果作业很小,应用管理器会选择在其自己的JVM中运行任务

    如果不是小作业,那么应用管理器向资源管理器请求container来运行所有的map和reduce任务(第8步)。这些请求时通过心跳来传输的,包括每个map任务的数据位置,比如存放输入split的主机名和机架(rask),

    d、任务运行

    当一个任务由资源管理器的调度器分配给一个container后,应用管理器通过联系节点管理器来启动container(第9a步和9b步)。任务由一个主类为YarnChild的Java应用执行,在运行任务之前首先本地化任务需要的资源,比如作业配置,JAR文件,以及分布式缓存的所有文件(第10步)。最后,运行map或reduce任务(第11步)

    YarnChild运行在一个专用的JVM中,但是YARN不支持JVM重用。

    e、进度和状态更新

    YARN中的任务将其进度和状态(包括counter)返回给应用管理器,客户端每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向应用管理器请求进度更新, 展示给用户。 

    f、作业完成

     除了向应用管理器请求作业进度外,客户端每5分钟都会通过调用waitForCompletion()方法来检查作业是否完成,时间间隔可以通过mapreduce.client.completion.pollinterval来设置. 作业完成之后, 应用管理器和container会清理工作状态, OutputCommiter的作业清理方法也会被调用. 作业的信息会被作业历史服务器存储以备之后用户核查。

  • 相关阅读:
    Python全栈之路系列----之-----并发编程Process类
    Python全栈之路系列----之-----网络编程(粘包与命令执行/数据传输)
    Python全栈之路系列----之-----网络编程(套接字)
    Python全栈之路系列----之-----面向对象5(封装/访问限制)
    Python全栈之路系列----之-----面向对象2(命名空间/组合)
    6. EF Core 数据库实体关系外键的配置
    5.EF Core 数据库映射模型隐藏属性配置
    4.EF Core 数据库映射模型基本配置
    3.EF Core 隐射表的几种默认约束
    2.EF Core添加数据库配置的几种方式
  • 原文地址:https://www.cnblogs.com/zk753159/p/9690668.html
Copyright © 2020-2023  润新知