BERT

BERT

作者: leenldk

时间: 2020-02-19

[CLS]：在做分類任務時其最後一層的 repr. 會被視為整個輸入序列的 repr.
[SEP]：有兩個句子的文本會被串接成一個輸入序列，並在兩句之間插入這個 token 以做區隔
[UNK]：沒出現在 BERT 字典裡頭的字會被這個 token 取代
[PAD]：zero padding 遮罩，將長度不一的輸入序列補齊方便做 batch 運算
[MASK]：未知遮罩，僅在預訓練階段會用到

sequence : 一个或两个sentence

pretraining task:
masked language modeling(MLM) : 训练挖空填词
next-sentence prediction(NSP) : 训练判断一句话是否是另一句话的下文
albert 指出 NSP 的结果 unreliable，使用 sentence-order prediction(SOP) 替代 NSP
SOP 将一段打乱的话排序

BERT base : L(层数) 12, H(hidden size) 768, A(attention heads) 12, 总参数量：110M
BERT large : L 24, H 1024, A 16, 总参数量：340M

在 BERT 中 embedding size E 和 hidden size H 始终相等，embedding 层参数数为 V(vocabulary size) * H
在 ALBERT 中将参数数量 reduce 至 V * E + E * H

标签: none

添加新评论

ヒトコト

my friends

最新文章

最近回复

分类

其它

归档