• 旁路模式,numa、mmu、调整内存分页大小


    bypass

    bypass,就是可以通过特定的触发状态(断电或死机)让两个网络不通过网络安全设备的系统,而直接物理上导通,所以有了Bypass后,当网络安全设备故障以后,还可以让连接在这台设备上的网络相互导通,当然这个时候这台网络设备也就不会再对网络中的封包做处理了。

    ByPass Mode略过模式旁路模式),泛指在一个系统的正常流程中,有一堆检核机制,而“ByPass Mode”就是当检核机制发生异常,无法在短期间内排除时,使系统作业能绕过这些检核机制,使系统能够继续运行的作业模式。

     

     

    numa

    numa是一种关于多个cpu如何访问内存的架构模型,现在的cpu基本都是numa架构,linux内核2.5开始支持numa。

    numa架构简单点儿说就是,一个物理cpu(一般包含多个逻辑cpu或者说多个核心)构成一个node,这个node不仅包括cpu,还包括一组内存插槽,也就是说一个物理cpu以及一块内存构成了一个node。每个cpu可以访问自己node下的内存,也可以访问其他node的内存,但是访问速度是不一样的,自己node下的更快。

    numactl --hardware命令可以查看node状况。

    通过numactl启动程序,可以指定node绑定规则和内存使用规则。可以通过cpunodebind参数使进程使用固定node上的cpu,使用localalloc参数指定进程只使用cpu所在node上分配的内存。如果分配的node上的内存足够用,这样可以减少抖动,提供性能。如果内存紧张,则应该使用interleave参数,否则进程会因为只能使用部分内存而out of memory或者使用swap区造成性能下降。

    NUMA的内存分配策略有localalloc、preferred、membind、interleave。

    • localalloc规定进程从当前node上请求分配内存;
    • preferred比较宽松地指定了一个推荐的node来获取内存,如果被推荐的node上没有足够内存,进程可以尝试别的node。
    • membind可以指定若干个node,进程只能从这些指定的node上请求分配内存。
    • interleave规定进程从指定的若干个node上以RR(Round Robin 轮询调度)算法交织地请求分配内存。

      

     

    大页内存

    我们知道,CPU是通过寻址来访问内存的。32位CPU的寻址宽度是 0~0xFFFFFFFF ,16^8 计算后得到的大小是4G,也就是说可支持的物理内存最大是4G。

    但在实践过程中,碰到了这样的问题,程序需要使用4G内存,而可用物理内存小于4G,导致程序不得不降低内存占用。
    为了解决此类问题,现代CPU引入了 MMU(Memory Management Unit 内存管理单元)。

    MMU 的核心思想是利用虚拟地址替代物理地址,即CPU寻址时使用虚址,由 MMU 负责将虚址映射为物理地址。
    MMU的引入,解决了对物理内存的限制,对程序来说,就像自己在使用4G内存一样。

    进程线程mmu
    https://www.zhihu.com/zvideo/1469706912229429248

     

    内存分页(Paging)是在使用MMU的基础上,提出的一种内存管理机制。它将虚拟地址和物理地址按固定大小(4K)分割成页(page)和页帧(page frame),并保证页与页帧的大小相同。

    这种机制,从数据结构上,保证了访问内存的高效,并使OS能支持非连续性的内存分配。
    在程序内存不够用时,还可以将不常用的物理内存页转移到其他存储设备上,比如磁盘,这就是大家耳熟能详的虚拟内存swap。

    在上文中提到,虚拟地址与物理地址需要通过映射,才能使CPU正常工作。
    而映射就需要存储映射表。在现代CPU架构中,映射关系通常被存储在物理内存上一个被称之为页表(page table)的地方。
    如下图:

     

     

    从这张图中,可以清晰地看到CPU与页表,物理内存之间的交互关系。

    进一步优化,引入TLB(Translation lookaside buffer,页表寄存器缓冲)
    由上一节可知,页表是被存储在内存中的。我们知道CPU通过总线访问内存,肯定慢于直接访问寄存器的。
    为了进一步优化性能,现代CPU架构引入了TLB,用来缓存一部分经常访问的页表内容。
    如下图:

     

     

    对比前面那张图,在中间加入了TLB。

    为什么要支持大内存分页?
    TLB是有限的,这点毫无疑问。当超出TLB的存储极限时,就会发生 TLB miss,之后,OS就会命令CPU去访问内存上的页表。如果频繁的出现TLB miss,程序的性能会下降地很快。

    为了让TLB可以存储更多的页地址映射关系,我们的做法是调大内存分页大小。

    如果一个页4M,对比一个页4K,前者可以让TLB多存储1000个页地址映射关系,性能的提升是比较可观的。

    调整OS内存分页

    Linux和windows下要启用大内存页,有一些限制和设置步骤。

    Linux:
    限制:需要2.6内核以上或2.4内核已打大内存页补丁。
    确认是否支持,请在终端敲如下命令:

    # cat /proc/meminfo | grep Huge
    HugePages_Total: 0
    HugePages_Free: 0
    Hugepagesize: 2048 kB # hugepagesize设置见文档:https://www.jianshu.com/p/b9470fc331dd

    如果有HugePage字样的输出内容,说明你的OS是支持大内存分页的。Hugepagesize就是默认的大内存页size。
    接下来,为了让JVM可以调整大内存页size,需要设置下OS 共享内存段最大值 和 大内存页数量。

    共享内存段最大值
    建议这个值大于Java Heap size,这个例子里设置了4G内存。

    # echo 4294967295 > /proc/sys/kernel/shmmax

    大内存页数量

    # echo 154 > /proc/sys/vm/nr_hugepages

    这个值一般是 Java进程占用最大内存/单个页的大小 ,比如java设置 1.5G,单个页 10M,那么数量为  1536/10 = 154。
    注意:因为proc是内存FS,为了不让你的设置在重启后被冲掉,建议写个脚本放到 init 阶段(rc.local)。

    Windows:
    限制:仅支持 windows server 2003 以上server版本
    操作步骤:

    1. Control Panel -> Administrative Tools -> Local Security Policy
    2. Local Policies -> User Rights Assignment
    3. 双击 “Lock pages in memory”, 添加用户和组
    4. 重启电脑

    注意: 需要管理员操作。

     

  • 相关阅读:
    《Effective Java》读书笔记
    《Effective Java》读书笔记
    《Effective Java》读书笔记
    使用 @Log4j2 log.error() 打印异常日志
    获取min-max之间的随机数
    跨域问题(CORS / Access-Control-Allow-Origin)
    SnowFlakeId 分布式雪花id算法
    订单入库后异步推送
    查看git HEAD
    Java Http POST/GET 情求
  • 原文地址:https://www.cnblogs.com/linhaifeng/p/16065764.html
Copyright © 2020-2023  润新知