• Kubernetes Scheduler浅析


    概述

    Kubernetes 调度器(Scheduler)是Kubernetes的核心组件;用户或者控制器创建Pod之后,调度器通过 kubernetes 的 watch 机制来发现集群中新创建且尚未被调度到 Node 上的 Pod。调度器会将发现的每一个未调度的 Pod 调度到一个合适的 Node 上来运行。调度器会依据下文的调度原则来做出调度选择。

    kube-scheduler 给一个 pod 做调度选择包含两个步骤:过滤、打分
    过滤阶段会将所有满足 Pod 调度需求的 Node 选出来。例如,PodFitsResources 过滤函数会检查候选 Node 的可用资源能否满足 Pod 的资源请求。在过滤之后,得出一个 Node 列表,里面包含了所有可调度节点;通常情况下,这个 Node 列表包含不止一个 Node。如果这个列表是空的,代表这个 Pod 不可调度。
    打分阶段,调度器会为 Pod 从所有可调度节点中选取一个最合适的 Node。根据当前启用的打分规则,调度器会给每一个可调度节点进行打分。
    最后,kube-scheduler 会将 Pod 调度到得分最高的 Node 上。如果存在多个得分最高的 Node,kube-scheduler 会从中随机选取一个。

    本文主要对Kubernetes Scheduler做一个简单介绍,让大家理解 Pod 为什么会被调度到特定的 Node 上。

    首先来看下Pod生命周期

    调度示意图

    Kubernetes Scheduler的任务是选择一个Pod放置到Node节点。 放置是一组Pod对一组Node的部分非注入式分配。

    调度是一个优化问题:首先,调度程序确定可行的放置节点集合,即满足一组给定约束的节点集合。 然后,调度程序确定可行的节点集合,这是得分最高的可用节点的集合。

    Kubernetes Scheduler是确保局部最优的多步调度程序,而不是确保全局最优的单步调度程序。
    如下图所示,并不保证每个可用node都被分配到pod

    Kubernetes Scheduler监视Kubernetes对象存储并选择具有最高优先级的未绑定Pod来执行调度步骤或抢占步骤。

    调度步骤

    对于给定的Pod,如果存在至少一个节点,则启用调度步骤,以使该节点可用于托管Pod。
    如果启用了“调度步骤”,则调度程序会将Pod绑定到可行的节点,这样绑定将实现最高的生存能力。
    如果未启用“调度步骤”,则调度程序将尝试执行抢占步骤。

    抢占步骤

    对于给定的Pod,如果存在至少一个节点,则启用抢占步骤,以便如果要删除绑定到该节点的优先级较低的Pod子集,则该节点可用于托管Pod。
    如果启用了抢占步骤,则调度程序将触发删除绑定到一个节点的具有较低优先级的Pod子集,抢占步骤将造成最低的人员伤亡。
    (造成的人员伤亡是根据Pod中断预算(PDB)违规情况进行评估的)
    注意,调度程序不保证触发抢占步骤的Pod将在后续的调度步骤中绑定到该节点。

    1、过滤器

    对于每个Pod,Kubernetes Scheduler都会确定可行节点的集合,这是满足Pod约束的节点的集合。
    从概念上讲,Kubernetes Scheduler定义了一组过滤器函数,这些过滤器函数在给定Pod和Node的情况下,确定Node是否满足Pod的约束。 所有过滤器函数都必须对节点托管Pod产生true。

    1.1 可调度性和生命周期阶段(Schedulability and Lifecycle)

    此过滤器功能根据节点的可调度性和生命周期阶段认为该节点可行。 节点条件是通过taints和tolerations考虑的(taints和tolerations后续再介绍)。

    1.2 资源需求和资源可用性(Resource)

    此过滤器功能根据Pod的资源要求和Node的资源可用性将Node视为可行。

    1.3 节点选择器(Node Selector)

    该过滤器功能根据Pod的节点选择器值和Node的标签值将Node视为可行。

    1.4 Node Taints and Pod Tolerations

    此筛选器功能根据Pod的污点的键值对和Node的Tolerations的键值对将Node视为可行。

    1.5 亲和力(Required Affinity)

    此过滤器功能根据Pod所需的Node Affinity条件,Pod Affinity条件和Pod Anti Affinity条件将Node视为可行。

    • Node Affinity
      必须将Pod分配给Node,以使Node的标签与Pod的Node Affinity Requirements匹配。 此外,不得将Pod分配给节点,以使节点的标签不符合Pod节点亲和性要求。
    • Pod Affinity
      必须将Pod分配给一个节点,以使节点上至少有一个与TopologyKey匹配的Pod符合Pod的Pod相似性要求。
    • Pod Anti-Affinity
      必须将Pod分配给节点,以使与TopologyKey匹配的节点上没有Pod符合Pod的Pod反亲和性要求。

    2、可行性

    对于每个Pod,Kubernetes Scheduler都会确定可行节点的集合,这是满足Pod约束的节点的集合。 然后,Kubernetes Scheduler确定具有最高生存能力的可行节点集。
    从概念上讲,Kubernetes Scheduler定义了一组评估函数,给定Pod和Node,它们确定Pod和Node对的生存能力。 评分相加。

    2.1 首选亲和力

    此过滤器功能根据Pod的首选Node Affinity条款,Pod Affinity条款和Pod Anti Affinity条款对Node的生存能力进行评估。

    更多详情,请参见官网

  • 相关阅读:
    关于MySQL死锁
    随手一记,maven打包
    js生成带logo的二维码
    java生成带logo的二维码
    关于网页中文本域高度自动适应问题,参考微信回复
    从git上拉下来的严选weex项目demo
    补装老版本的Java SE
    新MBP使用git命令时启用xcode的终端log
    电脑出现“损坏的图像”窗口提示dll没有被指定在Windows上运行如何解决
    不同浏览器隐藏默认表单样式
  • 原文地址:https://www.cnblogs.com/scofield666/p/13898175.html
Copyright © 2020-2023  润新知