分类 未分类 下的文章

proxy

proxy server :
https://github.com/tinyproxy/tinyproxy
默认端口 8888,后台运行

ssh tunneling

local port forwarding :
本地命令:
ssh -L 8181:192.168.0.135:3389 pi@192.168.0.135
此时连接本地 localhost:8181 相当于连接 192.168.0.135:3389 且只有 localhost:22 的连接通过防火墙

dynamic port forwarding :
本地命令:
ssh -D 8181 pi@192.168.0.135
设置本地代理为 localhost:8181,把本地所有流量传到远端

remote port forwarding :
本地命令:
ssh -R 8181:localhost:3389 pi@192.168.0.135
将本地 3389 端口传输至远端8181端口,远端通过连接 localhost:8181 可以连接本地 3389 端口

cmd 使用 ss 代理:

set HTTP_PROXY=socks5://127.0.0.1:10808
set HTTPS_PROXY=socks5://127.0.0.1:10808

网关:连接不同类型的网络

route -n #查看路由表

修改网卡设置:/etc/network/interfaces

auto lo
iface lo inet loopback
auto eth0
iface eth0 inet dhcp

arp : ip 和 mac 映射表

arp -a #查看 arp 表缓存
arp -d #删除 arp 表缓存

arp 欺骗:

sudo arpspoof -i [网卡] -t [目标ip] [网关ip]

nmap :

nmap -sP 192.168.40.0/24 #扫描网段中的 IP

VMware :
桥接模式:与主机处在同一网段,虚拟机拥有独立 IP,所有虚拟机可以和主机相互访问

10.10

在研究 pruning 时 bert 是一个主要的 benchmark
使用了 pytorch-pretrained-bert 的代码
在 i1 和 nico 上进行了测试,选用的 benchmark 为 SQuAD
- 其中一个奇怪的事情是在 i1 双卡上的用时略小于 nico 8卡上的用时

两个 epoch

i1 双卡: epoch1 48.37, epoch2 41.36
准确率: EM 81.164, f1 88.464
nico 8卡:epoch1 54.20, epoch2 54.02
准确率: EM 81.362, f1 88.475

在nico上测试了一个 epoch:
准确率:EM 80.142, f1 87.566

对 bert base uncased 进行了调研:

超参数:

{
  "attention_probs_dropout_prob": 0.1,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "type_vocab_size": 2,
  "vocab_size": 30522
}

总参数:109M (109483778)
其中 bert 部分参数数量: 109M (109482240)
bert部分:
embeddings : 23M(23837184)
encoder : 85M (85054464)
encoder 层为 12 个 Bertlayer 层的叠加:
每个 layer 参数数量为 7087872
每个layer中:
attention : 2363904
intermediate : 2362368
output : 2361600
三层有大致等量的参数
其中 attention 又分为 self 和 output 两部分
self 包含 q,k,v 主要 attention 部分,参数量: 1771776
output : 592128
所有layer中这三层的参数占模型参数总量 77.7%
embedding中参数占模型参数总量 21.8%
目前还不知道 embedding 中参数是否可prune

参数大致来源如下:

attention.self : hidden * hidden * 3
attention.output : hidden * hidden
intermediate : hidden * intermediate
output : intermediate * hidden

11.19

(这都隔了一个多月了呀喂)
在看一篇在 TASO 上做 sparse 的文章
"A sparse iteration space transformation framework for sparse tensor algebra"
是自动生成 sparse 的 CPU 和 GPU 操作的文章

另一种可能的 sparse op : MTTKRP
$$ A = B_{(1)} (D \dot C) $$
$$ A_{ij} = B_{ikl} \dot D_{lj} \dot C_{kj} $$
其中 A,D,C 为二维矩阵,B为三维 tensor
在存储 sparse tensor 时可以引入新格式 CSF

cold cache : 冷缓存?
在小矩阵情况下 CPU 性能优于 GPU
TACO : 计算 tensor expression 的 C++ library

可以生成 atomic 操作 (相比 TVM 优点)

6.30

开始看适之学长给的论文
introduction 中提到bert模型的pre_train过程代价极高
1024 V100 1day
bert large 很难在12GB ~ 16GB 的显卡上reproduce 结果

bert有multiple layers 的双向 transformers
每个 transformer 有一个 multi-head self-attention层,position-wise feed-forward层

counter <= (0      => '1',
            4      => '1',
            others => '0') // signal赋值
rising_edge(clk) //检测上升沿函数

#pragma omp simd
for循环前对for循环显式simd优化

#pragma omp declare simd
函数前使函数生成simd版本

#pargma ivdep
for循环前忽略vector dependence

#pargma vector nontemporal
跳过过渡cache,直接stream到最下层cache

#include <omp.h>
int nt = omp_get_max_threads();

omp最多线程数

#pragma omp parallel private(A) share(B)
{
    int C;
    omp_get_thread_num();
}

omp多线程运行
每个thread有独立的A变量,B变量在所有thread间share
每个thread有独立C

export OMP_NUM_THREADS=5
限制omp线程数

fork thread:

#include <pthread.h>
int pthread_create(pthread_t *tidp,const pthread_attr_t *attr,
(void*)(*start_rtn)(void*),void *arg);

fork出一个thread
-lpthread

fork process:

pid = fork();

parent进程pid = 0,child进程pid!=0