设备通信相关
nvidia-smi topo -m
结果:
SYS : 不能进行 P2P 和 GPUDirectRDMA
PHB(PIX) : 在同一 PCIE fabric 上,可以进行 P2P 和 GPUDirectRDMA
libucm.so 在 ucx 中
经验
cuda aware mpi 很重要
大规模 CPU 并行任务的运行时间可能取决于最慢的一个进程,因此跑之前应该确保机器是空的,否则可能被小任务拖慢
CUDA && MPI
UVA : unified virtual memory
把 host memory 和 同一节点内的所有 GPU memory 视为同一地址空间
GPUDirect
- RDMA (通过 IB)
- P2P (节点内)
pinned memory && pageable memory
malloc 申请的 host memory 通常为 pageable (内存可以被 kernel 移动,比如到swap)
RDMA 传输不通过 kernel,因此不 aware 页表,故 RDMA 传输的内存在拷贝时不能被移动,为 pinned memory