BERT
[CLS]:在做分類任務時其最後一層的 repr. 會被視為整個輸入序列的 repr.
[SEP]:有兩個句子的文本會被串接成一個輸入序列,並在兩句之間插入這個 token 以做區隔
[UNK]:沒出現在 BERT 字典裡頭的字會被這個 token 取代
[PAD]:zero padding 遮罩,將長度不一的輸入序列補齊方便做 batch 運算
[MASK]:未知遮罩,僅在預訓練階段會用到
sequence : 一个或两个sentence
pretraining task:
masked language modeling(MLM) : 训练挖空填词
next-sentence prediction(NSP) : 训练判断一句话是否是另一句话的下文
albert 指出 NSP 的结果 unreliable,使用 sentence-order prediction(SOP) 替代 NSP
SOP 将一段打乱的话排序
BERT base : L(层数) 12, H(hidden size) 768, A(attention heads) 12, 总参数量:110M
BERT large : L 24, H 1024, A 16, 总参数量:340M
在 BERT 中 embedding size E 和 hidden size H 始终相等,embedding 层参数数为 V(vocabulary size) * H
在 ALBERT 中将参数数量 reduce 至 V * E + E * H