• Docker创建容器时默认的共享内存shm太小报错,程序无法正常运行


    在docker容器中训练网络,由于创建容器时默认的共享内存shared memory太小,导致程序报错:

    ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm).

    RuntimeError: Dataloader worker (pid 94597) is killed by signal: Bus error. It is possible that dataloader's workers are out of shared memory. Please try to raise your shared memory limit.

    docker容器中可以使用命令查看shm值大小,df -h 。

    解决方法有几种:

    1、减小Dataloader中num_workers的值,直到不再报错,最小可以设置为0。不足之处是训练网络为了节省时间需要尽可能大的num_workers,否则数据传输慢导致GPU利用率低。该方法仅适用于在容器内debug代码,此时不需要很大的num_workers,只要保证代码正确就行。

    2、简单快速的方法就是重新创建容器,加上参数--shm-size 8G(或16G等),或者直接使用参数--ipc=host 。

    3、修改已有容器的ShmSize的值,(这里省略)

  • 相关阅读:
    敏捷软件开发实践-Code Review Process(转)
    随笔1
    随笔
    随笔
    低级错误
    随笔
    随笔2
    随笔
    这以前写的代码
    蛋疼的vs
  • 原文地址:https://www.cnblogs.com/booturbo/p/16341342.html
Copyright © 2020-2023  润新知