leenldk's blog

ようこそ,記憶と黒歴史の隅へ

首页 日记(仮) about me

2020年7月

每周乱搞日记(4)

  • 作者: leenldk
  • 时间: 2020-07-01
  • 分类: 未分类

6.30

开始看适之学长给的论文
introduction 中提到bert模型的pre_train过程代价极高
1024 V100 1day
bert large 很难在12GB ~ 16GB 的显卡上reproduce 结果

bert有multiple layers 的双向 transformers
每个 transformer 有一个 multi-head self-attention层,position-wise feed-forward层

ヒトコト

  • Power tends to corrupt, and absolute power corrupts absolutely.
    ——John Emerich

my friends

  • holder
    X老师
    索尔

最新文章

  • docker 相关
  • 笔记本配置私有云服务器
  • 零散的linux使用笔记
  • C/C++使用指南
  • 学术英语小课堂
  • 体系结构领域会议
  • 性能分析与监控工具与调试工具
  • 设计哲学——worse is better
  • linux 初始化进程
  • 服务器配置:从装机到维护

最近回复

  • 知名4358: 表评论4358
  • test: 评论测试

分类

  • 未分类
  • 随笔
  • OI
  • technique
  • theory
  • 论文阅读

其它

  • 登录
  • 文章 RSS
  • 评论 RSS
  • Typecho

归档

  • February 2023
  • December 2022
  • November 2022
  • October 2022
  • September 2022
  • August 2022
  • July 2022
  • June 2022
  • March 2022
  • November 2021
  • October 2021
  • September 2021
  • August 2021
  • July 2021
  • June 2021
  • March 2021
  • February 2021
  • January 2021
  • November 2020
  • October 2020
  • September 2020
  • August 2020
  • July 2020
  • June 2020
  • May 2020
  • March 2020
  • February 2020
  • January 2020
  • December 2019
  • November 2019
  • October 2019
  • September 2019
  • July 2019
  • April 2019
  • January 2019
  • November 2018
  • September 2018
  • August 2018
  • July 2018
  • June 2018
  • May 2018
  • April 2018
  • January 2018
  • October 2017
  • September 2017
  • August 2017
© 2023 leenldk's blog. powered by Typecho.