每周乱搞日记(4) 作者: leenldk 时间: 2020-07-01 分类: 未分类 6.30开始看适之学长给的论文 introduction 中提到bert模型的pre_train过程代价极高 1024 V100 1day bert large 很难在12GB ~ 16GB 的显卡上reproduce 结果bert有multiple layers 的双向 transformers 每个 transformer 有一个 multi-head self-attention层,position-wise feed-forward层 标签: none