開源roberta-base-100M-3模型 - 適配資源有限場景的自然語言處理

Roberta Base 100M 3

由nyu-mll開發

在1M至1B詞元規模數據集上預訓練的RoBERTa變體，包含BASE和MED-SMALL兩種規格，適用於資源有限場景下的自然語言處理任務

下載量 18

發布時間 : 3/2/2022

模型概述

基於不同規模數據集（1M/10M/100M/1B詞元）預訓練的RoBERTa模型，通過調整模型規格和訓練參數優化小數據場景表現

小數據優化

專門針對1M-1B詞元的小規模數據優化，相比原始RoBERTa更適合數據受限場景

規格可選

提供BASE(125M)和MED-SMALL(45M)兩種參數規模，平衡性能與效率

嚴格驗證

每個數據規模選取驗證困惑度最低的3個模型發佈，確保質量

文本表徵學習

下游任務微調

掩碼詞預測

教育領域

小規模數據微調

在有限標註數據的教育文本分類任務中作為預訓練基座

研究領域

預訓練策略研究

研究不同數據規模對預訓練模型性能的影響

屬性	詳情
模型名稱	roberta-base-1B-1、roberta-base-1B-2、roberta-base-1B-3、roberta-base-100M-1、roberta-base-100M-2、roberta-base-100M-3、roberta-base-10M-1、roberta-base-10M-2、roberta-base-10M-3、roberta-med-small-1M-1、roberta-med-small-1M-2、roberta-med-small-1M-3
訓練規模	10億、1億、1000萬、100萬
模型規模	BASE、MED - SMALL
最大步數	100K、31K、10K
批量大小	512、1024、4096
驗證困惑度	3.93、4.25、3.84、4.99、4.61、5.02、11.31、10.78、11.58、153.38、134.18、139.39