分类未分类下的文章

ROCm hip 相关

作者: leenldk
时间: 2022-09-21
分类: 未分类

memory

managed memory : 使用 linux heterogeneous memory management (HMM)， device 和 host 端可以以相同指针访问同一块内存

coherent memory : 可以在 kernel 运行时执行对 host 和其他 peer 可见的原子操作，通过不 cache 内存实现
non-coherent memory : device 端 cache 的内存，修改不实时可见

调度

direct dispatch : runtime 直接将操作发送至 AQL 队列
device side malloc

编译与链接

HIP 支持两种 static lib：

只包含 host 函数，可以使用 gcc 等非 hipcc 编译器链接
包含 device 函数，只能使用 hipcc 链接

CUDA api 相关

作者: leenldk
时间: 2022-09-17
分类: 未分类

driver api v.s. runtime api

driver api 更为细粒度，例如 runtime 中所有 kernel 初始化时自动 load 且程序运行时保持 load ，driver api 可以只保持当前需要 load 的 module

从用户接口上：
driver api 通常返回 CUresult
runtime api 通常返回 cudaError_t

- 阅读剩余部分 -

linux kernel 代码相关

作者: leenldk
时间: 2022-09-15
分类: 未分类

代码版本：linux-4.9.327
（最老的一个 long term 版）
多年来第一次鼓起勇气开 linux 源码
感觉也没有那么吓人（？）
不得不感慨 open source 以及 free software 真的是好文明

- 阅读剩余部分 -

linux 块设备多队列调度系统

作者: leenldk
时间: 2022-09-15
分类: 未分类,technique

关于

论文： Linux Block IO: Introducing Multi-queue SSD Access on
Multi-core Systems

IO 块设备的吞吐发展迅速，2012 年 SSD 4K 随机读写速度达到 785K IOPS （是不是有点高？）
SSD 随机读写速度与顺序读写持平 （不太清楚）

传统块设备队列优点：

统一接口
缺点：
效率低，导致一些应用跳过块数据管理层
单队列，单锁，造成核间竞争
只有一个核处理与块设备通信，其他核需要软中断与该核通信，并且对于不同 NUMA 下的内存不友好

解决方案:

两层队列
软件队列：每个 NUMA 上或者每个核上一个队列
硬件队列：每个块设备上若干队列

tag : 指示 block IO 在 driver 提交队列中的位置，在 IO 完成时指示位置

代码

hctx : hardware context

每个 request_queue 包含若干 request，包含一个 percpu 的 blk_mq_ctx (queue_ctx) ，包含若干 blk_mq_hw_ctx

每个 request 有一个 blk_mq_ctx

每个 blk_mq_hw_ctx 中包含若干 blk_mq_ctx

目前维护了 hardcoding 的 per-cpu 软件队列

使用 sbitmap 维护 pending work

struct blk_mq_hw_ctx { // include/linux/blk-mq.h
    struct {
        spinlock_t        lock;
        struct list_head    dispatch;
        unsigned long        state;        /* BLK_MQ_S_* flags */
    }
    struct blk_mq_ctx    **ctxs;
    struct blk_mq_tags    *tags; // bitmap tag
}

struct blk_mq_ctx  { // block/blk-mq.h
    unsigned int        cpu; // ctx 对应的 cpu ?
}

struct blk_mq_tags { // block/blk-mq-tag.h
    struct request **rqs; // rqs[tag] 为下标 tag 对应的 request 
}


struct request_queue { //include/linux/blkdev.h
    struct percpu_ref q_usage_counter;
    struct blk_mq_ctx __percpu    *queue_ctx; // per cpu 的本队列 context
    struct blk_mq_hw_ctx    **queue_hw_ctx; // 所有 hardware dispatch queue context ? 
    unsigned int        *mq_map; // 每个 cpu 对应的 hw_ctx 编号 ?
}
struct request { //include/linux/blkdev.h
    struct request_queue *q;
}

shell文件编辑

作者: leenldk
时间: 2022-08-14
分类: 未分类

暗黑的shell修改文件操作

几个命令： cut, sed, awk

cut

echo [str] | cut -d [sep] -f [num] #使用分割符[sep]切分字符串[str]并返回第[num]段（从1编号）

sed

sed -e '[desc] [str]' [file] #对文件[file]按照"[desc] [str]"进行修改，并将修改内容输出，原文件保持不变

其中 [desc] 部分格式为 [line][op]，或 [start line],[end line][op]，对第[line] 行，或者 [start line] 到 [end line] 之间所有行进行 [op] 操作
其中行编号1-based，行区间为闭区间
[op] 可以为以下操作：

a : 新增行
d : 删除行
c : 替换（用 [str] 替换选中所有行）
d : 删除（一般没有 [str] 部分）
i : 插入
s : 替换（"[start line],[end line]s/[old pattern]/[new pattern]/"）

全局替换： s/[old pattern]/[new pattern]/g

sed -n: (--silent) 只显示处理后的结果

example

cat [file] | sed -n '5,7p' #显示文件5到7行
cat [file] | sed  '/oo/d' #删除所有包含"oo"的行，其他行输出