leenldk 发布的文章

slurm使用

作者: leenldk
时间: 2022-03-30
分类: 未分类

srun [script] 提交 interactive 的脚本
sbatch [script] 脚本在后台运行，输出保存到文件

脚本头部指定 slurm 参数：

#SBATCH --job-name=hellompi
#SBATCH --output=hellompi.out
#SBATCH --ntasks=56
#SBATCH --partition=broadwl
#SBATCH --nodes=2
#SBATCH --exclusive
#SBATCH --time=00:20:00

CTF相关

作者: leenldk
时间: 2021-11-24
分类: technique

查看二进制ELF汇编： hopper disassembler
python辅助gdb : gdb peda / pwndbg

stegsolve : 全色图片破解

foremost : 文件恢复，用于图片等

quipquip : 解决字符替换问题网站
cyberchef : 在线编解码

hexedit / ghex : 编辑文件 hex

eog : 图片浏览器

ltrace : trace library call

john the ripper :

zip2john ./results2.zip > flag.out
./john --wordlist=rockyou.txt flag.out

python:
struct.pack('<I', 0x123456) : 生成小端序hex字符
pwn.p32(0x123456)
pwn.ELF([elf file]) : 查看 ELF 相关信息

elf = pwn.ELF([elf file])
p = elf.process()
prompt = p.recv() # 运行ELF并获取输出
p.sendline(payload)
p.interactive()

s = pwn.remote(host, port)
s.close()

curl -X POST [site] : 发送post请求
curl [site] --data username=[context] ：发送 post 请求，指定域

reverse tools :
ghidra
ida
cutter

设备通信相关

作者: leenldk
时间: 2021-10-18
分类: technique

nvidia-smi topo -m 结果：
SYS : 不能进行 P2P 和 GPUDirectRDMA
PHB(PIX) : 在同一 PCIE fabric 上，可以进行 P2P 和 GPUDirectRDMA

libucm.so 在 ucx 中

经验

cuda aware mpi 很重要
大规模 CPU 并行任务的运行时间可能取决于最慢的一个进程，因此跑之前应该确保机器是空的，否则可能被小任务拖慢

CUDA && MPI

UVA : unified virtual memory
把 host memory 和同一节点内的所有 GPU memory 视为同一地址空间

GPUDirect

RDMA (通过 IB)
P2P (节点内)

pinned memory && pageable memory

malloc 申请的 host memory 通常为 pageable (内存可以被 kernel 移动，比如到swap)
RDMA 传输不通过 kernel，因此不 aware 页表，故 RDMA 传输的内存在拷贝时不能被移动，为 pinned memory

常见库编译安装

作者: leenldk
时间: 2021-09-22
分类: technique

fftw

选项：

--enable-threads
--enable-openmp
# 分别对应 fftw3_thread 和 fftw3_openmp library
--enable-mpi # 打开 mpi

安装

./configure --enable-threads --enable-openmp --enable-mpi --prefix=$PREFIX
make -j32
make install

libxc

./configure --prefix=$PREFIX

关于神威

作者: leenldk
时间: 2021-09-17
分类: technique

架构：
每个芯片 260 核，其中 4 个为资源管理 (MPE)，256个为通用计算（CPE），每 64 个组成一个阵列，共四个阵列
CPE 和 MPE 都有 256 位 SIMD 单元。
每 CPU 最大支持 32GiB DDR3 内存
每块主板两个 CPU，32块主板一台主机，256主机
整系统共 40960 CPU

理论性能 125,435.9 TFlops，LinPack 93,014.6 TFlops
功耗 15.3百万瓦